CN109683773A - 语料标注方法和装置 - Google Patents
语料标注方法和装置 Download PDFInfo
- Publication number
- CN109683773A CN109683773A CN201710980408.3A CN201710980408A CN109683773A CN 109683773 A CN109683773 A CN 109683773A CN 201710980408 A CN201710980408 A CN 201710980408A CN 109683773 A CN109683773 A CN 109683773A
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- marked
- selection
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000001514 detection method Methods 0.000 claims description 30
- 230000008901 benefit Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种语料标注方法和装置。其中,该方法包括:检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。本发明解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。
Description
技术领域
本发明涉及计算机互联网领域,具体而言,涉及一种语料标注方法和装置。
背景技术
在现在的大数据时代,数据无疑是所有大数据生存的根基,而如何有效而快速的收集数据则是大数据团队的竞争优势,在收集数据的过程中,可能会需要对语料进行标注。
现有技术中已经有的关于语料标注的具体展现方案主要针对情感标注,主要包括两种方式,第一种方式是直接将打标注的结果存入数据库并将标注结果展示在句子末尾,第二种方式是直接打乱句子结构,将标注的结果直接插入句子中,并且存入数据库中的是被插入结果的句子以及打标注的句子起始位置;在对句子进行标注的时候,往往会需要对句子进行二次标注、三次标注等多次标注,例如,如果需要在句子中进行二次标注,采用上述两种方式时,由于句子结尾或者句中插入有标注结果,因此一次标注后句子的起始位置不是原始句子的起始位置,为了准确的知道二次标注在原始句子中的位置,需要去掉句子中的一次标注的结果,也就是说,由于存入数据库的句子都加入了存有结果的标签,因此句子的结构发生了变化,如果一句话内需要打标注的词语较多,每次想要获取打标注的真正位置,都必须经过计算,去掉之前标注的标注结果,因此会导致重复计算位置,耗费时间又耗费性能。
针对上述现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语料标注方法和装置,以至少解决现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。
根据本发明实施例的一个方面,提供了一种语料标注方法,包括:检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
根据本发明实施例的另一方面,还提供了一种语料标注装置,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述语料标注方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述语料标注方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;处理器,处理器运行程序,其中,程序运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。
根据本发明实施例的另一方面,还提供了一种终端,包括:检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;存储介质,用于存储程序,其中,程序在运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。
在本发明实施例中,通过检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中,达到了对语料进行标注的目的,并且由于在待标注句子的节点以外的位置显示标注有选择文本对应的标签的待标注句子,不会影响句子结构,因此对句子多次标注标签的时候,每次在将选择文本在待标注句子中的位置信息存储在预设数据库中时,不需要去除上一次标注的结果,从而实现了减少重复计算、提高句子的语料标注速度和标注结果的准确率的技术效果,进而解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种语料标注方法的示意图;
图2是根据本发明实施例的一种可选的语料标注方法的示意图;
图3是根据本发明实施例的一种可选的语料标注方法的示意图;以及
图4是根据本发明实施例的一种语料标注装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种语料标注方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的语料标注方法,如图1所示,该方法包括如下步骤:
步骤S102,检测对待标注句子的文本选择操作。
具体的,可以预先构建语料标注平台,检测对待标注句子的文本选择操作的过程可以在语料标注平台上实现,并显示在页面上,其中,对待标注句子的文本选择操作可以由鼠标实现。
步骤S104,在文本选择操作结束得到选择文本后,确定选择文本对应的标签。
具体的,在得到选择文本后,可以根据选择文本的具体内容,确定选择文本对应的标签,其中,确定的过程可以是用户自主确定的过程,也可以是提供一些可选的标签供用户进行选择,标签可以是基于情感标注的标签,也可以是基于命名实体类别标注的标签。
步骤S106,在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
具体的,对待标注句子标注的结果显示的位置是在待标注句子节点之外的位置,而不是在待标注句子中插入标签或者节点,因此不会影响句子结构。
在本发明实施例中,通过检测对待标注句子的文本选择操作;在文本选择操作结束得到选择文本后,确定选择文本对应的标签;在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中,达到了对语料进行标注的目的,并且由于在待标注句子的节点以外的位置显示选择文本对应的标签,不会影响句子结构,因此对句子多次标注标签的时候,每次在将选择文本在待标注句子中的位置信息存储在预设数据库中时,不需要去除上一次标注的结果,从而实现了减少重复计算、提高句子的语料标注速度和标注结果的准确率的技术效果,进而解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。
在一种可选的实施例中,步骤S102中检测对待标注句子的文本选择操作之前,方法还包括:
步骤S202,获取待标注文本;
步骤S204,对待标注文本进行分句操作,得到至少一个待标注句子。
具体的,在获取到待标注文本后,可以使用分句机制对待标注文本进行分句操作,图2为根据分句机制进行分句后的待标注文本的一个实施例,经过分句操作后的待标注文本展示在页面上,供用户对待标注句子进行文本选择操作。
在一种可选的实施例中,步骤S104中在文本选择操作结束得到选择文本后,确定选择文本对应的标签包括:
步骤S302,在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框;
步骤S304,根据对预设标签的选择结果,确定选择文本对应的标签。
具体的,图3为本实施例的一种具体实施方式,如图3所示,选择文本为“议,其中指出”,具体可以用鼠标框选待标注句子中的该选择文本,当文本选择操作结束后,会显示一个标签选择框,具体为在待标注句子靠近选择文本的位置显示一个标签选择框,标签选择框中包含一个或多个预设标签供用户进行点选,选择其中一个标签,则该选中的标签即为选择文本对应的标签,以此实现对待标注句子的语料标志,图3中的标签为命名实体分类标签,可选的,如图3所示,标签选择框中还可以包括对选择文本的撤销命令,当用户框选待标注句子中的文本后,发现有误,即可选择标签选择框中的撤销命令,撤销对该文本的选择。
在一种可选的实施例中,步骤S302中在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框包括:
步骤S402,在文本选择操作结束得到选择文本后,根据选择文本的位置信息,计算标签选择框的显示位置;
步骤S404,在显示位置显示标签选择框。
在一种可选的实施例中,标签为命名实体类别标签。
在一种具体的实施例中,在对语料进行实体标注时,具体流程如下:
步骤S1,确定命名实体类别的标签,加入词包中,供后续显示于标签选择框中;
步骤S2,基于鼠标事件,在mouseup(放松鼠标按钮)的时候,对DOM(DocumentObject Model,文档对象模型)创建区域范围,即createRange,并加入dom元素中,初始化待标注文本的区域,包含其内部的节点,以及记录待标注文本的起始和结束位置;
此处需要注意的是,因为本发明针对的是单句标注语料,在初始化待标注文本时,可以限制跨语句选择文本,具体设置为:针对一个句子,可以用一个LI标签包含,如果跨两个LI进行选择文本,则直接隐藏注销鼠标选择事件;
步骤S3,在鼠标框选结束,得到选择文本的起始位置之后,需要操作dom元素,创建div,中间包含ul,LI标签,每一个标签内部,则是需要标注的语料;
步骤S4,弹窗(即标签选择框)内的dom元素生成完毕之后,计算该弹窗的显示位置;
具体的,在计算弹窗的显示位置时,首先需要获取弹窗内的dom元素所属的父级元素,即句子的index,然后计算句子在其container内的位置,以及该元素LI的高度;然后计算弹窗的高度,需要衡量父级元素LI距离containner上边沿的距离是否足以有弹窗的高度,没有的话,需要在父级元素LI的高度的基础上,与父级元素LI与上边沿高度相加作为对弹窗最小的上边距;如果足够,需要用父级元素LI距离containner上边距的距离减去弹窗高度,作为弹窗的纵向显示位置;而横向方面,可在获取到选择文本的起始位置的基础上进行计算,显示弹窗的横向位置。
步骤S5,获得句子的信息的基础上,就是为弹窗内部的LI父级元素绑定点击事件,点击之后,链接数据库接口,将句子信息以及标注结果,通过接口发送到数据库进行存储;
步骤S6,在页面上,只将对句子的标注结果的字段保存在句子以外的位置,并显示该结果;在一个句子中标注有多个标签的情况下,在同一个句子内部,标注第二个标签的时候,选择文本的起始位置可以直接在鼠标事件的时候获取到,不需要经过任何计算,既节省计算性能,又可以快速简单的将标注结果存入数据库。
实施例2
根据本发明实施例,提供了一种语料标注装置的产品实施例,图4是根据本发明实施例的语料标注装置,如图4所示,该装置包括检测模块、第一确定模块和处理模块,其中,检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
在本发明实施例中,通过检测模块检测对待标注句子的文本选择操作;第一确定模块在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中,达到了对语料进行标注的目的,并且由于在待标注句子的节点以外的位置显示标注有选择文本对应的标签的待标注句子,不会影响句子结构,因此对句子多次标注标签的时候,每次在将选择文本在待标注句子中的位置信息存储在预设数据库中时,不需要去除上一次标注的结果,从而实现了减少重复计算、提高句子的语料标注速度和标注结果的准确率的技术效果,进而解决了现有技术中在进行语料标注时将标注结果插入句中或显示在句子末尾导致的多次标注时重复计算句子位置的技术问题。
此处需要说明的是,上述检测模块、第一确定模块和处理模块对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,装置还包括获取模块和分句模块,其中,获取模块,用于在检测模块检测对待标注句子的文本选择操作之前,获取待标注文本;分句模块,用于对待标注文本进行分句操作,得到至少一个待标注句子。
此处需要说明的是,上述获取模块和分句模块对应于实施例1中的步骤S202至步骤S204,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,第一确定模块包括触发模块和第二确定模块,其中,触发模块,用于在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框;第二确定模块,用于根据对预设标签的选择结果,确定选择文本对应的标签。
此处需要说明的是,上述触发模块和第二确定模块对应于实施例1中的步骤S302至步骤S304,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,触发模块包括计算模块和显示模块,其中,计算模块,用于在文本选择操作结束得到选择文本后,根据选择文本的位置信息,计算标签选择框的显示位置;显示模块,用于在显示位置显示标签选择框。
此处需要说明的是,上述计算模块和显示模块对应于实施例1中的步骤S402至步骤S404,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在一种可选的实施例中,标签为命名实体类别标签。
上述语料标注装置包括处理器和存储器,上述检测模块、第一确定模块和处理模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现对语料的标注。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
实施例3
根据本发明实施例,提供了一种存储介质的产品实施例,其上存储有程序,在程序运行时控制存储介质所在设备执行上述语料标注方法,或该程序被处理器执行时实现上述语料标注方法。
实施例4
根据本发明实施例,提供了一种处理器的产品实施例,该处理器用于运行程序,其中,程序运行时执行上述语料标注方法。
实施例5
根据本发明实施例,提供了一种终端的产品实施例,该终端包括检测模块、第一确定模块、处理模块和处理器,其中,检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;处理器,处理器运行程序,其中,程序运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。
实施例6
根据本发明实施例,提供了一种终端的产品实施例,该终端包括检测模块、第一确定模块、处理模块和存储介质,其中,检测模块,用于检测对待标注句子的文本选择操作;第一确定模块,用于在文本选择操作结束得到选择文本后,确定选择文本对应的标签;处理模块,用于在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中;存储介质,用于存储程序,其中,程序在运行时对于从检测模块、第一确定模块和处理模块输出的数据执行上述语料标注方法。
实施例7
根据本发明实施例,提供了一种设备的产品实施例,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
步骤S102,检测对待标注句子的文本选择操作;
步骤S104,在文本选择操作结束得到选择文本后,确定选择文本对应的标签;
步骤S106,在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
其中,步骤S102中检测对待标注句子的文本选择操作之前,方法还包括:步骤S202,获取待标注文本;步骤S204,对待标注文本进行分句操作,得到至少一个待标注句子。
其中,步骤S104中在文本选择操作结束得到选择文本后,确定选择文本对应的标签包括:步骤S302,在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框;步骤S304,根据对预设标签的选择结果,确定选择文本对应的标签。
其中,步骤S302中在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框包括:步骤S402,在文本选择操作结束得到选择文本后,根据选择文本的位置信息,计算标签选择框的显示位置;步骤S404,在显示位置显示标签选择框。
本发明中的设备可以是服务器、PC、PAD、手机等。
实施例8
根据本发明实施例,提供了一种计算机程序产品的产品实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
步骤S102,检测对待标注句子的文本选择操作;
步骤S104,在文本选择操作结束得到选择文本后,确定选择文本对应的标签;
步骤S106,在待标注句子的节点以外的位置显示选择文本对应的标签,以及将标注有选择文本对应的标签的待标注句子的位置信息和选择文本在待标注句子中的位置信息存储在预设数据库中。
其中,步骤S102中检测对待标注句子的文本选择操作之前,方法还包括:步骤S202,获取待标注文本;步骤S204,对待标注文本进行分句操作,得到至少一个待标注句子。
其中,步骤S104中在文本选择操作结束得到选择文本后,确定选择文本对应的标签包括:步骤S302,在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框;步骤S304,根据对预设标签的选择结果,确定选择文本对应的标签。
其中,步骤S302中在文本选择操作结束得到选择文本后,触发显示包含至少一个预设标签的标签选择框包括:步骤S402,在文本选择操作结束得到选择文本后,根据选择文本的位置信息,计算标签选择框的显示位置;步骤S404,在显示位置显示标签选择框。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种语料标注方法,其特征在于,包括:
检测对待标注句子的文本选择操作;
在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;
在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。
2.根据权利要求1所述的方法,其特征在于,检测对待标注句子的文本选择操作之前,所述方法还包括:
获取待标注文本;
对所述待标注文本进行分句操作,得到至少一个所述待标注句子。
3.根据权利要求1所述的方法,其特征在于,在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签包括:
在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框;
根据对所述预设标签的选择结果,确定所述选择文本对应的标签。
4.根据权利要求3所述的方法,其特征在于,在所述文本选择操作结束得到所述选择文本后,触发显示包含至少一个预设标签的标签选择框包括:
在所述文本选择操作结束得到所述选择文本后,根据所述选择文本的位置信息,计算所述标签选择框的显示位置;
在所述显示位置显示所述标签选择框。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述标签为命名实体类别标签。
6.一种语料标注装置,其特征在于,包括:
检测模块,用于检测对待标注句子的文本选择操作;
第一确定模块,用于在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;
处理模块,用于在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的语料标注方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的语料标注方法。
9.一种终端,其特征在于,包括:
检测模块,用于检测对待标注句子的文本选择操作;
第一确定模块,用于在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;
处理模块,用于在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中;
处理器,所述处理器运行程序,其中,所述程序运行时对于从所述检测模块、所述第一确定模块和所述处理模块输出的数据执行权利要求1至5中任意一项所述的语料标注方法。
10.一种终端,其特征在于,包括:
检测模块,用于检测对待标注句子的文本选择操作;
第一确定模块,用于在所述文本选择操作结束得到选择文本后,确定所述选择文本对应的标签;
处理模块,用于在所述待标注句子的节点以外的位置显示所述选择文本对应的标签,以及将标注有所述选择文本对应的标签的所述待标注句子的位置信息和所述选择文本在所述待标注句子中的位置信息存储在预设数据库中;
存储介质,用于存储程序,其中,所述程序在运行时对于从所述检测模块、所述第一确定模块和所述处理模块输出的数据执行权利要求1至5中任意一项所述的语料标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980408.3A CN109683773B (zh) | 2017-10-19 | 2017-10-19 | 语料标注方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710980408.3A CN109683773B (zh) | 2017-10-19 | 2017-10-19 | 语料标注方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109683773A true CN109683773A (zh) | 2019-04-26 |
CN109683773B CN109683773B (zh) | 2021-01-22 |
Family
ID=66183567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710980408.3A Expired - Fee Related CN109683773B (zh) | 2017-10-19 | 2017-10-19 | 语料标注方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109683773B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717312A (zh) * | 2019-10-10 | 2020-01-21 | 北京明略软件系统有限公司 | 一种文本标注方法及装置 |
CN111178078A (zh) * | 2019-12-31 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种实体标注的质检方法和装置以及设备 |
CN111324706A (zh) * | 2020-01-21 | 2020-06-23 | 全球能源互联网研究院有限公司 | 一种标注方法、装置及电子设备 |
CN112560403A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 文本的处理方法及装置、电子设备 |
CN114282495A (zh) * | 2020-09-28 | 2022-04-05 | 京东科技信息技术有限公司 | 一种文本标注方法和装置 |
CN114327209A (zh) * | 2021-12-24 | 2022-04-12 | 企查查科技有限公司 | 文本处理方法、系统、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196874A (zh) * | 2007-12-28 | 2008-06-11 | 宇龙计算机通信科技(深圳)有限公司 | 一种机器辅助阅读的方法和装置 |
CN102662953A (zh) * | 2012-03-01 | 2012-09-12 | 倪旻 | 与输入法集成的语义标注系统和方法 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103309852A (zh) * | 2013-06-14 | 2013-09-18 | 瑞达信息安全产业股份有限公司 | 一种基于统计和规则的特定领域的合成词发现方法 |
WO2015006631A2 (en) * | 2013-07-12 | 2015-01-15 | Microsoft Corporation | Active labeling for computer-human interactive learning |
CN104408034A (zh) * | 2014-11-28 | 2015-03-11 | 武汉数为科技有限公司 | 一种面向文本大数据的中文分词方法 |
US9043196B1 (en) * | 2014-07-07 | 2015-05-26 | Machine Zone, Inc. | Systems and methods for identifying and suggesting emoticons |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN105843802A (zh) * | 2016-03-31 | 2016-08-10 | 长安大学 | 翻译中语料介入模块及方法 |
CN106066870A (zh) * | 2016-05-27 | 2016-11-02 | 南京信息工程大学 | 一种语境标注的双语平行语料库构建系统 |
CN106681981A (zh) * | 2015-11-09 | 2017-05-17 | 北京国双科技有限公司 | 中文词性的标注方法和装置 |
CN106775340A (zh) * | 2016-12-27 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种在移动端进行语料对齐的方法及系统 |
-
2017
- 2017-10-19 CN CN201710980408.3A patent/CN109683773B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101196874A (zh) * | 2007-12-28 | 2008-06-11 | 宇龙计算机通信科技(深圳)有限公司 | 一种机器辅助阅读的方法和装置 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN102662953A (zh) * | 2012-03-01 | 2012-09-12 | 倪旻 | 与输入法集成的语义标注系统和方法 |
CN103309852A (zh) * | 2013-06-14 | 2013-09-18 | 瑞达信息安全产业股份有限公司 | 一种基于统计和规则的特定领域的合成词发现方法 |
WO2015006631A2 (en) * | 2013-07-12 | 2015-01-15 | Microsoft Corporation | Active labeling for computer-human interactive learning |
US9043196B1 (en) * | 2014-07-07 | 2015-05-26 | Machine Zone, Inc. | Systems and methods for identifying and suggesting emoticons |
CN104408034A (zh) * | 2014-11-28 | 2015-03-11 | 武汉数为科技有限公司 | 一种面向文本大数据的中文分词方法 |
CN105243052A (zh) * | 2015-09-15 | 2016-01-13 | 浪潮软件集团有限公司 | 一种语料标注方法、装置和系统 |
CN106681981A (zh) * | 2015-11-09 | 2017-05-17 | 北京国双科技有限公司 | 中文词性的标注方法和装置 |
CN105843802A (zh) * | 2016-03-31 | 2016-08-10 | 长安大学 | 翻译中语料介入模块及方法 |
CN106066870A (zh) * | 2016-05-27 | 2016-11-02 | 南京信息工程大学 | 一种语境标注的双语平行语料库构建系统 |
CN106775340A (zh) * | 2016-12-27 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种在移动端进行语料对齐的方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560403A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 文本的处理方法及装置、电子设备 |
CN110717312A (zh) * | 2019-10-10 | 2020-01-21 | 北京明略软件系统有限公司 | 一种文本标注方法及装置 |
CN110717312B (zh) * | 2019-10-10 | 2024-02-20 | 北京明略软件系统有限公司 | 一种文本标注方法及装置 |
CN111178078A (zh) * | 2019-12-31 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种实体标注的质检方法和装置以及设备 |
CN111324706A (zh) * | 2020-01-21 | 2020-06-23 | 全球能源互联网研究院有限公司 | 一种标注方法、装置及电子设备 |
CN111324706B (zh) * | 2020-01-21 | 2023-05-26 | 全球能源互联网研究院有限公司 | 一种标注方法、装置及电子设备 |
CN114282495A (zh) * | 2020-09-28 | 2022-04-05 | 京东科技信息技术有限公司 | 一种文本标注方法和装置 |
CN114327209A (zh) * | 2021-12-24 | 2022-04-12 | 企查查科技有限公司 | 文本处理方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109683773B (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109683773A (zh) | 语料标注方法和装置 | |
CN104267947B (zh) | 一种编辑弹窗图片的方法及弹窗图片编辑装置 | |
CN109189682A (zh) | 一种脚本录制方法和装置 | |
CN110069683B (zh) | 一种基于浏览器爬取数据的方法及装置 | |
CN105677311B (zh) | 一种函数调用关系的识别方法及装置 | |
RU2018119149A (ru) | Определение задач в сообщениях | |
KR102403024B1 (ko) | 페이지 내에서의 클릭 위치를 기록 및 복원하는 방법 및 장치 | |
WO2019062388A1 (zh) | 广告效果分析方法及装置 | |
CN108920656A (zh) | 文档属性描述内容提取方法和装置 | |
CN106802894B (zh) | 文件归纳方法与设备 | |
CN109597983A (zh) | 一种拼写纠错方法及装置 | |
CN110119401A (zh) | 用户画像的处理方法、装置、服务器及存储介质 | |
CN109857964B (zh) | 一种页面操作的热力图绘制方法、装置、存储介质及处理器 | |
US10248392B2 (en) | Replicating a web technology | |
CN109598171A (zh) | 一种基于二维码的数据处理方法、装置及系统 | |
CN107729897A (zh) | 一种文本操作方法、装置及终端 | |
CN109508134A (zh) | 一种地图标注方法和装置 | |
US9558161B2 (en) | Providing a recovery placeholder within an application | |
CN104636050B (zh) | 允许嵌套对象拖放的方法及系统 | |
CN110347948A (zh) | 商品页面的生成及跳转方法、装置、电子设备、存储介质 | |
CN107220230A (zh) | 一种信息采集方法和装置,以及一种智能终端 | |
CN109598524A (zh) | 品牌曝光效果分析方法及装置 | |
US20160299880A1 (en) | Method and device for updating web page | |
CN112560403A (zh) | 文本的处理方法及装置、电子设备 | |
CN110020238A (zh) | 点击事件数据采集方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210122 |