CN108197101B - 一种语料标注方法及装置 - Google Patents
一种语料标注方法及装置 Download PDFInfo
- Publication number
- CN108197101B CN108197101B CN201711373853.XA CN201711373853A CN108197101B CN 108197101 B CN108197101 B CN 108197101B CN 201711373853 A CN201711373853 A CN 201711373853A CN 108197101 B CN108197101 B CN 108197101B
- Authority
- CN
- China
- Prior art keywords
- corpus
- event
- label
- verb
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000003068 static effect Effects 0.000 claims description 15
- 239000003607 modifier Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 239000002184 metal Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语料标注方法及装置,该方法可以包括:接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;接收外部输入的生语料;根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;利用所述目标语料标签对所述生语料进行标注。本方案能够缩短语料标注的时间,提高语料标注的效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种语料标注方法及装置。
背景技术
语料标注是建立准确的语料库和语言分析模型的基础。目前,在进行语料标注时,主要是采用人工的方式对语料进行标注。但是,随着数据量的增长,需要标注的语料越来越多,那么如果每一个语料均是采用人工方式实现,那么花费大量时间,造成语料标注的效率较低。
发明内容
本发明实施例提供了一种语料标注方法及装置,能够缩短语料标注的时间,提高语料标注的效率。
第一方面,本发明实施例提供了一种语料标注方法,接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;还包括:
接收外部输入的生语料;
根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;
利用所述目标语料标签对所述生语料进行标注。
优选地,
在所述接收外部输入的生语料之后,且在所述根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签之前,进一步包括:
根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料。
优选地,
所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;
所述利用所述目标语料标签对所述生语料进行标注,包括:
对所述生语料进行分段;
对分段后得到的每一个段落进行分句;
针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;
当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;
利用所述句标签对所述当前句子进行标注;
当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;
当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注。
优选地,
所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;
所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种。
优选地,
所述事件要素标签,包括:时间标签和地点标签;
所述事件要素,包括:时间和地点中的任意一种或多种。
优选地,
进一步包括:
创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;
与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
第二方面,本发明实施例提供了一种语料标注装置,包括:第一接收单元、第二接收单元以及标注单元;
所述第一接收单元,用于接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;
所述第二接收单元,用于接收外部输入的生语料;
所述标注单元,用于根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;利用所述目标语料标签对所述生语料进行标注。
优选地,
进一步包括:确定单元;
所述确定单元,用于在所述第二接收单元接收外部输入的生语料之后,且在所述标注单元根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签之前,根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料。
优选地,
所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;
所述标注单元,用于对所述生语料进行分段;对分段后得到的每一个段落进行分句;针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;利用所述句标签对所述当前句子进行标注;当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注。
优选地,
所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;
所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种。
优选地,
所述事件要素标签,包括:时间标签和地点标签;
所述事件要素,包括:时间和地点中的任意一种或多种。
优选地,
进一步包括:处理单元;
所述处理单元,用于创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
本发明实施例提供了一种语料标注方法及装置,在进行语料标注时,预先会接收到至少一种语料标签,每一种语料标签对应一种场景,每一种语料标签可用来对属于相应场景的生语料进行标注,因此在接收到待标注的生语料时,可先根据该生语料所属的场景,从接收到的至少一种语料标签中找到与该场景相对应的目标语料标签,从而接下来利用该语料标签完成对该生语料的标注,整个标注过程不再是通过人工标注的形式实现,而是在接收到生语料后自动实现,因此缩短了语料标注的时间,提高了语料标注的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种语料标注方法的流程图;
图2是本发明另一个实施例提供的一种语料标注方法的流程图;
图3是本发明一个实施例提供的一种语料标注装置的结构示意图;
图4是本发明另一个实施例提供的一种语料标注装置的结构示意图;
图5是本发明又一个实施例提供的一种语料标注装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种语料标注方法,该方法可以包括以下步骤:
步骤101:接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景。
步骤102:接收外部输入的生语料。
步骤103:根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签。
步骤104:利用所述目标语料标签对所述生语料进行标注。
本发明实施例提供了一种语料标注方法,在进行语料标注时,预先会接收到至少一种语料标签,每一种语料标签对应一种场景,每一种语料标签可用来对属于相应场景的生语料进行标注,因此在接收到待标注的生语料时,可先根据该生语料所属的场景,从接收到的至少一种语料标签中找到与该场景相对应的目标语料标签,从而接下来利用该语料标签完成对该生语料的标注,整个标注过程不再是通过人工标注的形式实现,而是在接收到生语料后自动实现,因此缩短了语料标注的时间,提高了语料标注的效率。
在本发明一个实施例中,在所述步骤102之后,且在所述步骤103之前,可进一步包括:根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料。
其中,窗口可以指一个网页链接,每一个网页链接对应一个场景,如网页链接A对应的场景为娱乐,网页链接B对应的场景为财经,那么凡是通过网页链接A接收到的生语料均属于娱乐,凡是通过网页链接B接收到的场景均属于财经,因此每一次在接收到生语料时,根据接收生语料的网页链接以及网页链接与场景的对应关系,即可确定出生语料所属的场景;窗口还可以是网页中的一个按钮Button,如在一个网页中有三个Button,Button1对应的场景是军事、Button2对应的场景是科技、Button3对应的场景是体育,用户可以在展示的该网页中选择并点击相应的Button进行生语料的上传,而在接收该生语料时,通过接收该生语料的Button可确定出该生语料所属的场景。值的说明的是,本发明实施例只是以窗口的两种实现方式为例,但并不局限于网页链接和Button这两种。
在本发明一个实施例中,所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;所述步骤104的具体实施方式,可包括:对所述生语料进行分段;
对分段后得到的每一个段落进行分句;
针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;
当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;
利用所述句标签对所述当前句子进行标注;
当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;
当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注。
例如,接收到外部输入的针对社会这一场景的语料标签中包括有顶层标签<Event></Event>、段标签为<S1></S1>、句标签为<S10></S10>、三个事件指示词标签分别为<S10a></S10a>(此为事件指示词标签中的事件专有名词标签,但不限于此)、<S10b></S10b>(此为事件指示词标签中的动名词标签,不限于此)和<S10c></S10c>(此为事件指示词标签中的谓语动词标签,不限于此),以及两个事件要素标签<Time></Time>(此为事件要素标签中的时间标签,但不限于此)和<Location></Location>(此为事件要素标签中的地点标签,但不限于此),在接收到外部输入的生语料(可理解为一篇文章)后,首先对这篇文章进行分段,如该文章共划分出三段,然后针对每一段进行分句,如第一段共划分出两句话来,如其中一句话为“5月12日汶川发生地震”,根据词典库确定在这句话中存在一个谓语动词“发生”、一个事件专有名词“地震”,以及与该事件专有名词相关联的时间要素“5月12日”和地点要素“汶川”,那么在接收该生语料时能够确定出该生语料所属的场景为社会,则利用社会这一场景对应的事件专有名词标签<S10a></S10a>对这句话中的“地震”进行标注、利用社会这一场景对应的谓语动词标签<S10c></S10c>对这句话中的“发生”进行标注,利用社会这一场景对应的时间标签<Time></Time>对这句话中的“5月12日”进行标注、利用社会这一场景对应的地点标签<Location></Location>对这句话中的“汶川”进行标注,则这句话中的相应词被标注后为:“<Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a>”,接下来是利用社会这一场景对应的句标签<S10></S10>对<Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a>进行标注,标注后的结果为<S10><Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a></S10>,若该段中进行词标注后的第二句话为A(每一个句子均是采用相同原理进行标注,此处不再赘述),则接下来应该对该段<S10><Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a></S10>,<S10>A</S10>进行段标注,标注后的结果为<S1><S10><Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a></S10>,<S10>A</S10></S1>,相同原理,当这三段中的每一段全部完成段标注后,则利用社会这一场景对应的顶层标签<Event></Event>对这三段的整体进行标注,标注后结果为<Event><S1><S10><Time>5月12日</Time><Location>汶川</Location><S10c>发生</S10c><S10a>地震</S10a></S10>,<S10>A</S10></S1>,<S1>…(为进行词标注和句标注后的第二段)<S1>,<S1>…(为进行词标注和句标注后的第三段)<S1></Event>,其中,最终对各个段落组成的整体进行标注,其实也就是对整个生语料进行标注。
在本发明一个实施例中,所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种。
其中,由于上下文的关系,事件代名词常用来指代某个事件,举例来说,2008年四川发生了一场大地震,这事引起了全世界的关注,其中,这事即为事件代名词。
事件专有名词是一类特定的名词,在文本中表示了某个事件的发生,举例来说,那几个月发生了几起火灾,其中,火灾即为事件专有名词。
动名词指的是动词ing形式的一种,兼有动词和名词特征的非限定动词,举例来说,读书是一种艺术,其中,读书即为动名词。
谓语动词指的是在句子中可以单独作谓语的动词,主要由实意动词充当,举例来说,一年以前,我们结婚了,其中,结婚即为谓语动词。
协助主要动词构成谓语的词叫助动词,形式动词则指本身不具有实在意义而只能用动名词或以动名词为中心语的偏正短语作宾语的动词。
动态动词表示一种运动或者状态的改变,举例来说,她抓起手机就往外跑,其中,抓起和跑即为动态动词。
静态动词通常表示一种静止状态,如听见、闻到、知道、热爱等。
在本发明一个实施例中,所述事件要素标签,包括:时间标签和地点标签;所述事件要素,包括:时间和地点中的任意一种或多种。
在本发明一个实施例中,可进一步包括:创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
在标注的过程中,可能由于词典库的不全面而造成部分词未被标注上,例如,假设“火灾”这一词并未在词典库中记载为事件专有名词,那么可能造成某句话中的“火灾”并未被标注,因此,为提供高质量的标注语料,可在自动完成对语料的标注后,将标注的语料分发给相应的终端,然后终端所对应的用户便可查看被遗漏的词,然后利用相应的事件指示词标签完成对遗漏的词的标注,在缩减了用户手动标注语料所用时间的同时,客观上保证了语料标注的准确性。
值得说明的是,在标注完成之后,为了进一步提高标注语料的质量,可对标注后的语料进行检测,也即检测相应的语料是否是由所属场景对应的语料标签中的各个标签(包括顶层标签、段标签等等)进行标注,以及是否出现错误的标签嵌套情况(举例来说,有一个语料,包括两个段落,假设该语料所属场景对应的顶层标签为<Q></Q>、段标签为<Q1></Q1>,进行句标签后的两个段落分别为A和B,那么最终正确的标注结果应为<Q1>A</Q1>。<Q1>B</Q1></Q>,但如果出现子级嵌套父级的情况,标注结果有可能就是<Q1><Q>A<Q></Q1>。<Q1><Q>B<Q></Q1>,违背标注原则),如果出现这两种情况中(第二种情况出现的原因:可能是分发给终端后,用户在标注的过程中进行了修改)的任意一种,均认定为标注失败,需重新进行标注。具体的,在对标注后的语料进行检测时,由于接收生语料时通过窗口能够知道该语料所属的场景(如社会),因此首先从预先接收到各个语料标签中获取社会这一场景对应的顶层标签(如<Event></Event>),接下来根据该顶层标签组装正则表达式,如<Event.*?>([\s\S]*?)</Event>,然后利用组装的正则表达式对标注后的语料进行检索,确定是否能够得到文本序列U,如果否,则提醒应重新进行标注,如果是,则获取社会这一场景对应的段标签,利用该段标签组装正则表达式,然后利用该段标签组成的正则表达式对上面得到的文本序列U进行检索,确定是否能够得到文本序列U1,如果否,则提醒应重新进行标注,如果是,则利用顶层标签组装成的正则表达式对文本序列U1进行检索,确定是否能够检索到文本序列U2,如果是,则说明出现了错误的标签嵌套情况,此时如果否,则继续获取社会这一场景对应的句标签,利用句标签组装相应的正则表达式,并利用该正则表达式对文本序列U1进行检索,确定是否能够得到文本序列U3,此时如果否,则提醒应重新进行标注,此时如果是,则继续用段标签组装的正则表达式对文本序列U3进行检索,确定是否能够得到文本序列U4,此时如果是,则说明出现错误的标签嵌套情况,应提醒重新进行标注,此时如果否,则获取社会这一场景对应的至少一个事件指示词标签和至少一个事件要素标签,并利用每一个事件指示词标签或者是一个事件要素标签分别组装正则表达式,利用此时组装的每一个正则表达式,对上面得到的文本序列U3再次进行检索,当得到文本序列U5后,再利用上面针对句标签组装的正则表达式对该文本序列U5进行检索,如果能够检索到本文序列U6,则说明存在错误的标签嵌套情况,此时应提醒重新进行标注。
下面将详细说明本发明实施例提供的一种语料标注方法,如图2所示,该方法可以包括如下步骤:
步骤201:接收外部输入的至少一种语料标签,其中,每一种语料标签对应一种场景。
本发明实施例中,可包括财经、科技、社会、娱乐、体育、环境以及军事等多种场景,每一种场景均对应有一种语料标签,每一种语料标签中又可包括:顶层标签、段标签、句标签、事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签、静态动词标签、时间标签和地点标签。也可以说,用户可根据自己需求对相应的场景下的语料标签进行自定义。
例如,针对上述各个场景中的社会这一场景,其对应的语料标签中的顶层标签为<Event type="thoughtebent"></Event>,时间标签为<Time></Time>、地点标签为<Location></Location>。
步骤202:接收外部输入的生语料。
步骤203:根据接收生语料的窗口,确定生语料所属的目标场景,其中,不同的窗口用来接收不同场景的生语料。
例如,通过窗口确定生语料所属的目标场景为社会。
步骤204:从至少一种语料标签中选择与目标场景对应的目标语料标签,其中,目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签。
步骤205:对生语料进行分段。
步骤206:对分段后得到的每一个段落进行分句。
步骤207:针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素。
步骤208:当存在事件指示词时,利用至少一个事件指示词标签中与该事件指示词相对应的事件指示词标签对该事件指示词进行标注,以及当存在事件要素时,利用至少一个事件要素标签中与该事件要素相对应的事件要素标签对该事件要素进行标注。
步骤209:利用句标签对当前句子进行标注。
步骤210:当当前句子所在段落中的每一个句子均被句标签标注后,利用段标签对当前的段落进行标注。
步骤211:当各个段落均被段标签标注后,利用顶层标签对各个段落组成的整体进行标注。
例如,“新华网成都5月12日电12日14时28分川西汶川发生地震,成都震感强烈”,针对其标注结果可如下:
新华网成都
<Time tid="t1"type="relTime">5月12日</Time>
电
<Time type="relTime"tid="t2">12日14时28分</Time>
<Location lid="l2">川西汶川</Location>发生
<Denoter type="emergency"did="d2">地震</Denoter>,
<Location lid="l1">成都</Location>
震感强烈
其上未被标注的词,可通过分发给用户,由用户凭借经验且利用相应的标签对其进行标注。
具体的,标注后的结果可如下:
<Event type="thoughtevent"eid="e1">
<Participant sid="s1">新华网</Participant>
<Location lid="l1">成都</Location>
<Time tid="t1"type="relTime">5月12日</Time>
<Denoter did="d1"type="statement">电</Denoter>
</Event>
<Event eid="e2">
<Time type="relTime"tid="t2">12日14时28分</Time>,
<Location lid="l2">川西汶川</Location>
发生
<Denoter type="emergency"did="d2">地震</Denoter>
</Event>,
<Event eid="e3">
<Location lid="l3">成都</Location>
<Denoter type="emergency"did="d3">震感</Denoter>强烈。
</Event>
本发明实施例提供了一种语料标注装置,如图3所示,该装置可包括:第一接收单元301、第二接收单元302以及标注单元303;
所述第一接收单元301,用于接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;
所述第二接收单元302,用于接收外部输入的生语料;
所述标注单元303,用于根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;利用所述目标语料标签对所述生语料进行标注。
如图4所示,在本发明一个实施例中,可进一步包括:确定单元401;
所述确定单元401,用于在所述第二接收单元302接收外部输入的生语料之后,且在所述标注单元303根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签之前,根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料。
在本发明一个实施例中,所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;
所述标注单元,用于对所述生语料进行分段;对分段后得到的每一个段落进行分句;针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;利用所述句标签对所述当前句子进行标注;当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注。
在本发明一个实施例中,所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种。
在本发明一个实施例中,所述事件要素标签,包括:时间标签和地点标签;所述事件要素,包括:时间和地点中的任意一种或多种。
如图5所示,在本发明一个实施例中,可进一步包括:处理单元501;
所述处理单元501,用于创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种计算机可读介质,包括计算机执行指令,当存储控制器的处理器执行所述计算机执行指令时,所述存储控制器执行上述任一实施例所述的语料标注方法。
本发明实施例提供了存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述存储控制器执行上述任一实施例所述的语料标注方法。
综上,本发明各个实施例至少具有如下有益效果:
1、在本发明实施例中,在进行语料标注时,预先会接收到至少一种语料标签,每一种语料标签对应一种场景,每一种语料标签可用来对属于相应场景的生语料进行标注,因此在接收到待标注的生语料时,可先根据该生语料所属的场景,从接收到的至少一种语料标签中找到与该场景相对应的目标语料标签,从而接下来利用该语料标签完成对该生语料的标注,整个标注过程不再是通过人工标注的形式实现,而是在接收到生语料后自动实现,因此缩短了语料标注的时间,提高了语料标注的效率。
2、在本发明实施例中,在自动完成对生语料的标注后,为了提高语料标注的质量,还可创建相应的任务包,并将任务包分发给相应的终端,以使相应终端对应的用户对自动标注后的语料进行检查,并对被遗漏的语料中的词进行再次标注,从而在避免了全部采用人工方式进行标注的同时,也进一步提高了语料标注的质量。
3、在本发明实施例中,还可对标注后的语料进行检测,检测是否是采用相应场景对应的语料标签中的各个标签进行标注,以及是否出现有错误的标签嵌套情况,如果是,则提醒重新进行标注,因此进一步提高了语料标注的质量。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (2)
1.一种语料标注方法,其特征在于,接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;还包括:
接收外部输入的生语料;
根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;
利用所述目标语料标签对所述生语料进行标注;
在所述接收外部输入的生语料之后,且在所述根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签之前,包括:
根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料;
所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;
所述利用所述目标语料标签对所述生语料进行标注,包括:
对所述生语料进行分段;
对分段后得到的每一个段落进行分句;
针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;
当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;
利用所述句标签对所述当前句子进行标注;
当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;
当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注;
所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;
所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种;
和/或,
所述事件要素标签,包括:时间标签和地点标签;
所述事件要素,包括:时间和地点中的任意一种或多种;
所述语料标注方法,进一步包括:
创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;
与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
2.一种语料标注装置,其特征在于,包括:第一接收单元、第二接收单元以及标注单元;
所述第一接收单元,用于接收外部输入的至少一种语料标签,其中,每一种所述语料标签对应一种场景;
所述第二接收单元,用于接收外部输入的生语料;
所述标注单元,用于根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签;利用所述目标语料标签对所述生语料进行标注;
所述语料标注装置,进一步包括:确定单元;
所述确定单元,用于在所述第二接收单元接收外部输入的生语料之后,且在所述标注单元根据所述生语料所属的目标场景,从所述至少一种语料标签中选择与所述目标场景对应的目标语料标签之前,根据接收所述生语料的窗口,确定所述生语料所属的所述目标场景,其中,不同的窗口用来接收不同场景的生语料;
所述目标语料标签,包括:顶层标签、段标签、句标签、至少一个事件指示词标签以及至少一个事件要素标签;
所述标注单元,用于对所述生语料进行分段;对分段后得到的每一个段落进行分句;针对分句后得到的每一个句子,根据预设的词典库找出当前句子中存在的事件指示词以及事件要素;当存在所述事件指示词时,利用所述至少一个事件指示词标签中与所述事件指示词相对应的事件指示词标签对所述事件指示词进行标注,以及当存在所述事件要素时,利用所述至少一个事件要素标签中与所述事件要素相对应的事件要素标签对所述事件要素进行标注;利用所述句标签对所述当前句子进行标注;当所述当前句子所在段落中的每一个句子均被所述句标签标注后,利用所述段标签对所述段落进行标注;当各个所述段落均被所述段标签标注后,利用所述顶层标签对各个所述段落组成的整体进行标注;
所述事件指示词标签,包括:事件代名词标签、事件专有名词标签、动名词标签、作修饰成分的动词标签、谓语动词标签、形式动词标签、助动词标签、动态动词标签以及静态动词标签;
所述事件指示词,包括:事件代名词、事件专有名词、动名词、作修饰成分的动词、谓语动词、形式动词、助动词、动态动词以及静态动词中的任意一种或多种;
和/或,
所述事件要素标签,包括:时间标签和地点标签;
所述事件要素,包括:时间和地点中的任意一种或多种;
所述语料标注装置,进一步包括:处理单元;
所述处理单元,用于创建至少一个任务包;每一个所述任务包中包括至少一个标注后的所述生语料;与多个终端建立通信,并将各个所述任务包分别发送至相应的终端上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711373853.XA CN108197101B (zh) | 2017-12-19 | 2017-12-19 | 一种语料标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711373853.XA CN108197101B (zh) | 2017-12-19 | 2017-12-19 | 一种语料标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197101A CN108197101A (zh) | 2018-06-22 |
CN108197101B true CN108197101B (zh) | 2021-09-14 |
Family
ID=62576935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711373853.XA Active CN108197101B (zh) | 2017-12-19 | 2017-12-19 | 一种语料标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197101B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069595B (zh) * | 2019-03-07 | 2023-11-07 | 平安科技(深圳)有限公司 | 语料标签确定方法、装置、电子设备及存储介质 |
CN110532391B (zh) * | 2019-08-30 | 2022-07-05 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782897A (zh) * | 2010-03-17 | 2010-07-21 | 上海大学 | 基于事件的中文语料标注方法 |
CN104731777A (zh) * | 2015-03-31 | 2015-06-24 | 网易有道信息技术(北京)有限公司 | 一种译文评价方法及装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
CN106874451A (zh) * | 2017-02-13 | 2017-06-20 | 长沙军鸽软件有限公司 | 一种自动建立个人专属语料库的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150019382A1 (en) * | 2012-10-19 | 2015-01-15 | Rakuten, Inc. | Corpus creation device, corpus creation method and corpus creation program |
-
2017
- 2017-12-19 CN CN201711373853.XA patent/CN108197101B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782897A (zh) * | 2010-03-17 | 2010-07-21 | 上海大学 | 基于事件的中文语料标注方法 |
CN104731777A (zh) * | 2015-03-31 | 2015-06-24 | 网易有道信息技术(北京)有限公司 | 一种译文评价方法及装置 |
CN106683662A (zh) * | 2015-11-10 | 2017-05-17 | 中国电信股份有限公司 | 一种语音识别方法和装置 |
CN106874451A (zh) * | 2017-02-13 | 2017-06-20 | 长沙军鸽软件有限公司 | 一种自动建立个人专属语料库的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108197101A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9424524B2 (en) | Extracting facts from unstructured text | |
JP4960461B2 (ja) | ウェブベースのコロケーション誤りの校正 | |
Neubig et al. | Safety information mining—what can nlp do in a disaster— | |
US10013450B2 (en) | Using knowledge graphs to identify potential inconsistencies in works of authorship | |
CN107256428B (zh) | 数据处理方法、数据处理装置、存储设备及网络设备 | |
US20160117954A1 (en) | System and method for automated teaching of languages based on frequency of syntactic models | |
US10970466B2 (en) | Inserting links that aid action completion | |
US10565311B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
US20140317495A1 (en) | Retroactive word correction | |
CN110287405B (zh) | 情感分析的方法、装置和存储介质 | |
US20130030793A1 (en) | Linguistic error detection | |
CN106610990A (zh) | 情感倾向性分析的方法及装置 | |
US10157223B2 (en) | Identifying trends associated with topics from natural language text | |
CN108197101B (zh) | 一种语料标注方法及装置 | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN105378706A (zh) | 实体提取反馈 | |
CN113705203A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN111488737B (zh) | 文本识别方法、装置及设备 | |
US20150293932A1 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
CN113709526A (zh) | 一种教学视频生成方法、装置、计算机设备及存储介质 | |
US20130232098A1 (en) | Implication determining device, implication determining method and implication determining program | |
CN116415575A (zh) | 一种近义词推荐方法、装置、电子设备及存储介质 | |
CN112651230B (zh) | 融合语言模型生成方法和装置、单词纠错方法和电子设备 | |
CA2849141A1 (en) | Retroactive word correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province Applicant after: INSPUR SOFTWARE Co.,Ltd. Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong Applicant before: INSPUR SOFTWARE Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |