CN102662930A - 一种语料标注方法及装置 - Google Patents
一种语料标注方法及装置 Download PDFInfo
- Publication number
- CN102662930A CN102662930A CN2012101110809A CN201210111080A CN102662930A CN 102662930 A CN102662930 A CN 102662930A CN 2012101110809 A CN2012101110809 A CN 2012101110809A CN 201210111080 A CN201210111080 A CN 201210111080A CN 102662930 A CN102662930 A CN 102662930A
- Authority
- CN
- China
- Prior art keywords
- confidence level
- annotation results
- corpus labeling
- language material
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012937 correction Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims description 209
- 239000000463 material Substances 0.000 claims description 123
- 238000012360 testing method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 23
- 150000001875 compounds Chemical class 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及计算机技术领域,公开了一种语料标注方法及装置,该方法为:语料标注装置在每次进行语料标注时,选择待标注的语料,并对该语料进行标注,以及根据已保存的语料标注历史记录,对上述语料对应的任意一标注结果分别进行可信度指示,这样,可以合理分配人工校对过程中的人力资源,有效解决现有技术中存在的庞大语料库中语料标注工作量大,效率低,准确率低的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语料标注方法及装置。
背景技术
在语言学中,语料库是指大量文本的集合,库中的文本即为语料,语料经过整理后,便具有既定的格式与标记。由大量既定格式与标记的语料组成的语料库可应用于词典编纂、语言教学、传统语言研究、自然语言处理中基于统计或者实例的研究等方面,因此,语料库是语言学研究的基础资源。语料标注是对语料库中的文本进行分词、词性标注、命名实体识别、句法加工、信息抽取等方面的工作,是建立准确的语料库和语言分析模型的基础。例如,词性语料标注就是对语句中每一个词的词性进行标注,比如对下面已经完成分词的语句进行词性标注:
我是一个兵
正确的标注结果为:
我/r是/v一个/mq兵/n
其中,r为代词;v为动词;mq为数量词;n为名词。
如图1所示,现有技术中的计算机辅助语料标注系统大致包含七个部分,分别为:待标注语料存储模块,语料选择模块,语料标注模块,语料标注结果显示模块,语料标注结果收集模块,完成标注语料存储模块,用户交互界面。具体工作过程参见图1,计算机将录入的语料存放至待标注语料存储模块中,语料选择模块从待标注语料存储模块中随机抽取一条或者多条语料;语料标注模块对语料选择模块抽取出的语料进行标注;语料标注结果显示模块将语料的标注结果显示在用户交互界面上,由人工在语料标注结果显示模块中对语料标注结果进行校对,校对包含同意正确的标注,和对错误语料标注进行添加、删除和更改,若语料标注错误,也可在语料标注结果显示模块中对标注结果进行修改,如语料标注模块可能对某些非常见的词语不能标注,例如,输入“我/r是/v一个/mq特种/?兵/n”,“?”表示未对“特种”进行标注,此时需要在语句标注结果显示模块中对标注结果进行修改;用户交互界面为用户显示语料标注结果;语料标注结果收集模块可以采集校对结果;完成标注语料存储模块存储语料标注结果收集模块采集的结果。
由此可见,虽然现有技术中的计算机辅助语料标注系统对提高语料标注效率进行了很大的改进,在一定程度上降低了语料标注占用的时间长度和错误率,但由于人工校对需要长时间集中精力工作,标注速率和标注准确度还是有待于进一步提高。
发明内容
本发明实施例中,在常规的计算机辅助语料标注系统中,设置了可信度指示单元,可以指示出不同语料标注结果对应各标注结果的可信度,用以解决语料标注效率低和准确率低的问题。
本发明实施例提供的具体技术方案如下:
一种语料标注方法,包括:
选择待标注的语料,并对所述语料进行标注;
根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示;
将所述语料对应的各标注结果与相应的可信度指示进行呈现。
一种语料标注装置,包括:
标注单元20,用于选择待标注的语料,并对所述语料进行标注;
可信度指示单元21,用于根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示;
呈现单元22,用于将所述语料对应的各标注结果与相应的可信度指示进行呈现。
本发明实施例中,语料标注装置在每次进行语料标注时,选择待标注的语料,并对该语料进行标注,以及根据已保存的语料标注历史记录,对上述语料对应的任意一标注结果分别进行可信度指示,这样,可以合理分配人工校对过程中的人力资源,有效解决现有技术中存在的庞大语料库中语料标注工作量大,效率低,准确率低的问题。
附图说明
图1为现有技术中的计算机辅助语料标注系统结构图;
图2为本发明实施例中的语料标注装置结构图;
图3为本发明实施例中的语料标注装置工作流程图;
图4为本发明实施例中构成语料标注历史记录的流程图。
具体实施方式
为了提高计算机辅助语料标注系统的标注速率和标注准确度,本发明实施例中,语料标注装置在每次进行语料标注时,选择待标注的语料,并对该语料进行标注,以及根据已保存的语料标注历史记录,对上述语料对应的任意一标注结果分别进行可信度指示,这样,可以有效节约人力资源,解决现有技术中存在的庞大语料库中语料标注工作量大,效率低,准确率低的问题。
下面结合附图对本发明优选的实施方式进行详细说明。
参阅图2所示,本发明实施例中,语料标注装置包括:标注单元20、可信度指示单元21和呈现单元22。标注单元20进一步包括待标注语料存储模块201、语料选择模块202、语料标注模块203;可信度指示单元21进一步包括可信度学习模块211、知识库212、可信度标注模块213;呈现单元22进一步包括语料标注结果显示模块221、语料标注结果收集模块222、完成标注语料存储模块223。
参阅图3所示,本发明实施例中,语料标注装置的详细流程如下:
步骤300:语料标注装置选择待标注的一条或多条语料,并对该语料进行标注。
所谓语料标注即是指语料标注是对语料库中的文本进行分词、词性标注、命名实体识别、句法加工、信息抽取等方面的工作,是建立准确的语料库和语言分析模型的基础。
本发明实施例中,各种语料可以预先保存在设定的存储区域内,为了避免一条语料进行多次重复标注,每一条存储在上述存储区域内的语料的属性都会被初始化为“未标注”状态,这样,语料标注装置只需要选择属性为“未标注”的语料进行标注即可。此外,如果语料标注装置允许多个客户端同时对语料进行标注,则还可以将选取的语料的属性修改为“正在标注”,从而避免了多客户端同时对同一条语料进行标注。
同时,语料标注装置中还设置了存有所有词性、词语搭配关系等语料标注库,例如,语料标注库中记录的词性为:r代表代词,mq代表数量词,a代表形容词,n代表名词。
步骤310:语料标注装置根据已保存的语料标注历史记录,对上述语料对应的各个标注结果分别进行可信度指示。
以任意一个标注结果为例,语料标注装置根据已保存的语料标注历史记录,计算在历史语料标注过程中,各个语料与其对应的任意一标注结果之间准确存在对应关系的次数,与上述语料与其对应的任意一标注结果之间被标注存在对应关系的总次数之间的百分比,并基于所述百分比获得所述任意一标注结果的可信度指示。
语料标注装置根据所保存的语料标注历史记录对上述语料对应的任意一个标注结果进行可信度指示时,可以采用但不限于以下任意一种方法:
直接将上述百分比作为上述语料对应的任意一标注结果的可信度指示。
将上述百分比对应的错误等级作为上述语料对应的任意一标注结果的可信度指示,例如,用阿拉伯数字0~6指示六个等级的语料指示语料标注装置进行语料标注的可信度指示,如用0代表完全可信,1代表比较可信,6代表未知可信度等作为语料标注结果的可信度指示。
将上述百分比对应的提示性语言作为上述语料对应的任意一标注结果的可信度指示,例如,用“完全可信”、“比较可信”、“可能出错”、“未知”等作为语料标注结果的可信度指示。
将上述百分比对应的颜色作为上述语料对应的任意一标注结果的可信度指示,例如,用黑色代表完全可信,蓝色代表比较可信,红色代表很可能出错,紫色代表未知可信度等作为语料标注结果的可信度指示。
将上述百分比对应的符号作为上述语料对应的任意一标注结果的可信度指示,例如,用“&”代表完全可信,“#”代表比较可信,“!”代表很可能出错,“?”代表未知可信度等作为语料标注结果的可信度指示。
此外,语料标注装置对语料对应的一个标注结果进行可信度指示后,还可以进一步提示可能的正确标注结果。例如,在“我/r是/v一个/a兵/n”中,对“一个”的标注是“a”(形容词),语料标注装置对该标注结果作出的可信度指示为“5”(表示该标注结果很可能错误)的同时,指出其可能的正确标注结果为“mq”(数量词)。
步骤320:语料标注装置将标注后的语料对应的各标注结果及相应的可信度指示进行呈现。
本发明实施例中,语料标注装置将标注后的语料对应的各标注结果及相应的可信度指示进行呈现后,可以对其进行校对处理,即修改可信度指示的具体数值,这一操作可以根据管理员(可以是普通标注者,可以是权威标注者)的指示完成。
在根据管理员指示进行校对处理的过程中,若管理员点击“确定”按钮,则语料标注装置确定当前校对的标注结果正确,若管理员点击“错误”按钮,则管理员确定当前校对的标注结果错误,在确定标注结果错误后,语料标注装置可根据管理员的指示对该标注结果进行修改。
在本发明实施例中,为了避免校对过程中的误输入,例如,将mq误输入为ma,而ma不是正确的词性标记,则语料标注装置可以设置词性选择下拉列表,方便管理员在校对过程中直接进行词性选择即可对错误的标注结果进行修改,而无须进行输入词性操作。当出现特殊词性或者特殊搭配关系,下拉列表中不存在时,也可以选择人工输入方法;此外,语料标注装置也可以根据管理员的指令对输入结果进行检查,以及时提醒管理员对误输入进行更改。
为了避免重复标注,语料标注装置会将每一条经过标注的语料的属性修改为“标注完毕”。
基于上述实施例,语料标注装置可以采用以下方式在预处理阶段生成上述步骤310中使用语料标注历史记录,该语料标注历史记录中包括根据历次语料标注过程中获得的各标注结果进行规律学习后形成的可信度指示知识库;具体为:
语料标注装置在每次执行语料标注过程后,收集历次语料标注结果生成可信度指示知识库。
其中,收集历次语料标注结果生成可信度指示知识库的方法,包括:
统计历次语料标注过程中获得的各标注结果内,任意语料对应的任意一标注结果的错误次数,与所述语料在历次语料标注中出现的总次数之间的百分比,并基于所述百分比获得所述任意一标注结果的可信度,根据所述语料可信度生成语料标注结果可信度表,并将语料标注结果可信度表作为可信度指示知识库,或者,
选择不同的语料特征,通过计算机学习生成相应语料可信度模型,基于该述模型能够判断任何一种语料标注结果是否错误,并将语料可信度模型作为可信度指示知识库。
例如,参阅图4所示,语料标注装置生成可信度指示知识库的详细过程如下:
步骤400:语料标注装置产生一个错误集合。
语料标注装置产生错误集合具体包含两种方法:
第一种方法为,对一部分语料进行标注,然后由管理员对获得的各标注结果进行检查,从中选取出错误的标注结果从而生成错误集合。
第二种方法为,存储一个包含正确标注结果的标注结果集合,从标注结果集合中任取一定数量语料标注结果作为训练集合,该标注结果集合中的剩余语料标注结果作为测试集合,则训练集合和测试集合可根据选取标注结果数量的不同可有多种组合方式,从上述所有组合中抽取任意种组合应用在训练集合上进行语料标注,生成模型后将其应用到测试集合中进行语料标注,记录上述模型在测试集合中的错误标注结果作为错误集合。
具体为:
语料标注装置存储一个包含正确标注结果的标注结果集合C(简称,集合C),集合C可以基于一批的语料标注结果,经管理员校对后获得,语料标注装置将集合C分为n份,从n中任意抽取k份组成训练集合T,剩下的(n-k)份组成测试集合H,此时不同的训练集合T和测试集合H共有Cn k种组合,从Cn k种组合中随机选取若干种(或者全部),所选取的每一种组合,应用在训练集合T上,选用Bayes(贝叶斯)、决策树、神经网络、支持向量机、条件随机场等方法,从而学习得出一个模型M,再将模型M应用到测试集合H上,获得模型M在测试集合H上进行语料标注的错误结果和正确结果,最后记录模型M在测试集合H中的错误的标注结果,得出错误集合。
例如,将集合C分为10份,即n=10,从n中任意抽取k=9份作为训练集合T,剩下的n-k=1份作为测试集合H,则不同的训练集合T和测试集合H共有C10 9=10中组合,取全部10种组合,语料标注装置对所述组合中的每一种在训练集合T上,从而学习得出模型M,再将模型M应用到测试集合H上,在测试集合H上对比模型M语料标注的错误结果和正确结果进行区别,最后收集模型M在测试集合H中错误的语料标注结果。又如,将集合C分为6份,从n中任意抽取k=4份作为训练集合T,剩下的n-k=2份作为测试集合H,则不同的训练集合T和测试集合H共有C6 4=15中组合,从中选取8种组合,语料标注装置对所述组合中的每一种在训练集合T上学习得出模型M,再将模型M应用到测试集合H上,最后收集模型M在测试集合H中错误的语料标注结果。通常来说,对于不同的训练集合T和测试集合H,从Cn k种组合中选择的种类越多,则获得的语料标注的标注结果越能全面反映模型可能产生的错误。
第二种方法中记录计算机学习模型M在语料库中进行语料标注过程中产生的错误,可以直接记录错误的标注结果,可以记录错误的标注结果的上下文情况,可以记录错误的标注结果的出现频率,还可以记录正确的标注结果,与记录不相符的即是错误的标注结果。例如,具体如表1所示:
表1
关注词语 | 词性标注错误 | 正确结果 | 上下文情况 |
特种 | a | b | 是一个*兵 |
活动 | n | v | 设计了*方案 |
...... | ...... | ...... | ...... |
活动 | n | v | 开展了很多* |
...... | ...... | ...... | ...... |
其中,“上下文情况”列中的“*”表示所关注词语。
所述“上下文情况”列中“*”可以只表示一个词,也可以表示多个词。例如,具体如表2所示:
表2
也可以采用上述第一种方法和第二种方法相结合的形式生成错误集合,此时,可选用某一种方法优先的形式生成错误集合。
步骤410:语料标注装置从错误集合中学习规律构造语料标注结果可信度表,根据该语料标注结果可信度表即可以对各种语料对应的各个标注结果进行可信度指示。
语料标注装置从错误集合中学习规律构造语料标注结果可信度表,包含但不限于以下两种方法:
第一种方法为:分别统计历次语料标注过程中获得的各标注结果内,每一种语料对应的每一个标注结果的错误次数,与相应语料在历次语料标注中出现的总次数之间的百分比,并基于获得的各百分比获得相应标注结果的可信度,再根据各标注结果的可信度生成语料标注结果可信度表,并将语料标注结果可信度表作为可信度指示知识库。
具体为:
以表1为例,通过下列公式计算表1中每一个词语进行语料标注过程中,对应标注结果概率:
其中,P1(W)为词语W在语料库中进行语料标注时对应标注结果出错概率;N1(W)为词语W在表1“关注词语”列中出现的次数,即词语W在进行语料标注过程中对应标注结果出现错误的次数;N2(W)为词语W在语料库中被标注的总次数。例如,关注词语“活动”在词性标注的语料标注错误记录表出现2次,则N1(W)=2,假设该词语在语料库中共被标注了5次,即其中3次为正确的语料标注,那么词语W在语料库中进行语料标注时出错概率为P1(W)=2/5=0.4。
而对于表1“关注词语”列中没有出现的词语,即在语料标注过程中其对应标注结果没有出现错误的词语,可以计算该词语所属词性的标注结果出现错误的概率,公式为:
其中,N1(label)为词语W被标注为label词性时,label词性标注结果在表1“错误部分”列中出现错误的次数;N2(label)为语料库中所有语料被标注为label词性的总次数。例如,词语“开展”没有出现在表1“关注词语”列中,该词语在语料标注中被标注为“n”名词。统计n在表1“错误部分”列中出现的次数,即N1(n)=2,假设在语料库中共有100个词被标注为名词,即N2(label)=100,则P2(开展,n)=2/100=0.02。
对于依存句法标注,同样可以采用公式1和公式2。公式1中,W表示一个搭配和关系;公式2中,W表示一个搭配,label表示一个关系。
对于在语料库中标注次数比较少的词语,采用P1(W)会使统计结果不准确,此时可以规定一个阈值Q,当某词语语料标注次数低于阈值Q时,采用P2(W,label)来计算该词语语料标注结果出错概率,当某词语语料标注次数高于阈值Q时,采用P1(W)计算该词语语料标注结果出错概率。此外,还可以使用P1(W)、P2(W,label)加权的方式计算该词语语料标注结果出错概率。例如,采用以下加权公式计算词语W语料标注结果出现错误概率:
P(W,label)=λ1×P1(W)+λ2×P2(W,label) 公式3
其中,λ1、λ2为加权系数,为预先设定值,且λ1+λ2=1。
在计算语料标注结果出现的错误概率时,还可以考虑上下文的影响。例如,对于公式1,可以进行结合上下文情况进行如下修改:
其中,c表示上下文情况。例如,当词语“活动”后跟一个名词(如方案)时,共进行语料标注次数为3次,其中,语料标注结果出现错误的次数为1次,即N1(W,c)=1,N2(W,c)=3,则P1(W,c)=1/3=0.33。
表1和表2中可以给出可能的正确结果,此时,可以统计某个词语或者搭配关系在表2“正确结果”列中所述正确结果中不同标注结果出现的次数,并统计该词语或者搭配关系在语料库中正确标注结果中不同标注结果出现的次数,得出该词语或者搭配关系在语料库语料标注正确标注结果中不同结果的概率,并加以排序。例如,在表1中,词语“活动”出现2次,正确结果标识词性均为“v”动词,在语料库中,词语“活动”正确标注结果共有3次,其中,2次是“v”动词,1次是“n”名词,则可以得出可能的正确标注结果:80%的可能性为动词,20%的可能性为名词。整理后得到语料标注可信度表,通过语料标注可信度表对上述语料标注结果进行可信度指示。
第二种方法为:计算机学习的方法。选择不同的语料特征,分别统计每一种语料特征对应的每一个标注结果的错误次数,与相应语料特征在历次语料标注中出现的总次数之间的百分比,生成相应语料可信度模型,并将语料可信度模型作为可信度指示知识库。
具体为:
计算机学习法可以选用Bayes(贝叶斯)、决策树、神经网络、支持向量机、条件随机场等方法。特征可以选择词语、搭配、条件等本身特征,也可以考虑上下文特征。例如,以计算机学习法支持向量机为例,对于词性语料标注问题,可以选择词语本身、被标注词性、前一个词语、前一个词语的标注词性、后一个词语、后一个词语的标注词性、语句长度等为特征。选定计算机学习的方法和语料特征后,即可对训练样本进行语料标注,训练样本由两部分组成:错误样本和标注正确的样本。其中,错误样本可以由语料标注对应的表1形成;标注正确的样本是正确的标注结果记录,并把正确的标注结果转化为特征和决策的形式,即基于上述每一种满足语料特征标注结果的错误次数与所有满足语料特征的标注总次数的百分比转化为语料标注出错概率表。例如,选择被标注词语词性、被标注词语的前一个词语的标注词性、被标注词语的后一个词语的标注词性三个为特征,则形成表3所示语料特征出错概率表:
表3
被标注词语词性 | 前一个词语词性 | 后一个词语词性 | 出错概率 |
a | mq | n | 15.1% |
n | u | n | 3.7% |
...... | ...... | ...... | ...... |
n | ad | null | 33.3% |
...... | ...... | ...... | ...... |
a | mq | u | 70% |
v | null | u | 12% |
上述语料特征出错概率表3中,“错误率”由所有满足三个特征的语料标注中的错误标注数目与所有满足三个特征的语料标注的总数目比值得出。
此时,可以根据语料特征出错概率表中的错误率,生成如表4所示错误率等级表:
表4
错误率 | 错误等级 |
0~0.01% | 0 |
0.01%~20% | 1 |
20%~40% | 2 |
40%~60% | 3 |
60%~80% | 4 |
80%~100% | 5 |
未知 | 6 |
结合语料特征出错概率表3和错误率等级表4,生成如表5所示训练样本可信度表:
表5
被标注词语词性 | 前一个词语词性 | 后一个词语词性 | 出错概率 | 可信度 |
a | mq | N | 15.1% | 1 |
n | u | N | 3.7% | 1 |
...... | ...... | ...... | ...... | ...... |
n | ad | null | 33.3% | 2 |
...... | ...... | ...... | ...... | ...... |
a | mq | U | 70% | 4 |
v | null | U | 12% | 1 |
将所述训练样本可信度表存储在语料标注装置中,通过支持向量机可以对其进行学习得出一个模型,如命名为POSCCclassifier,该模型可对任意一个新的语料标注结果得出可信度判断。
因此,语料标注装置选择不同的语料特征,通过计算机学习生成相应语料可信度模型,基于该述模型能够判断任何一种语料标注结果是否错误。语料标注装置通过可信度指示知识库,给出各语料对应任意一标注结果的可信度指示。例如,利用语料标注装置对“他们上个月开展了活动”语句进行语料标注,标注后的的结果为:
他们/r上/a个/q月/n开展/v了/u活动/n
此时,以关注词语“活动”为例,语料标注装置中的模型POSCCclassifier对上述语料标注结果作出可信度判断,给出“活动”的语料标注结果的可信度指示。
应用本发明实施例中的语料标注装置相较于现有技术下的计算机辅助语料标注系统,可有效提高语料标注的准确率和效率。例如,成立语料标注小组A和B,其中,组A和组B中人员数量相同,此处为每组3人,且组A和组B中人员语料标注平均水平相当。组A应用现有技术下的计算机辅助语料标注系统,组B应用本发明实施例中的语料标注装置,组A和组B分别对数量为10000句中文依存树库Z进行语料标注。组A和组B中的所有人员每天工作时间均为3小时。最后,组A使用52天完成中文依存树库Z中所有语料的语料标注工作,语料标注的平均速度为10000/(3*3*52)约为21句/小时;组B使用31天完成中文依存树库Z中所有语料的语料标注工作,语料标注的平均速度为10000/(3*3*31)约为37句/小时,组B相较于组A,语料标注效率提高了76%。且组B的语料标注结果正确率为相较于组A的语料标注结果正确率提高了5%~10%。由此可见,应用语料标注装置,可以有效提高语料标注工作的效率和准确率。
综上所述,本发明实施例中,语料标注装置在每次进行语料标注时,选择待标注的语料,并对该语料进行标注,以及根据已保存的语料标注历史记录,对上述语料对应的任意一标注结果分别进行可信度指示,这样,可以合理分配人工校对过程中的人力资源,有效解决现有技术中存在的庞大语料库中语料标注工作量大,效率低,准确率低的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种语料标注方法,其特征在于,包括:
选择待标注的语料,并对所述语料进行标注;
根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示;
将所述语料对应的各标注结果与相应的可信度指示进行呈现。
2.如权利要求1所述的方法,其特征在于,根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示,包括:
根据已保存的语料标注历史记录,计算在历史标注过程中,所述语料与所述任意一标注结果之间准确存在对应关系的次数,与所述语料与所述任意一标注结果之间被标注存在对应关系的总次数之间的百分比,并基于所述百分比获得所述任意一标注结果的可信度指示。
3.如权利要求2所述的方法,其特征在于,基于所述百分比获得所述任意一标注结果的可信度指示,包括:
直接将所述百分比作为所述任意一标注结果的可信度指示;或者,
将所述百分比对应的错误等级作为所述任意一标注结果的可信度指示;或者,
将所述百分比对应的提示性语言作为所述任意一标注结果的可信度指示;或者,
将所述百分比对应的颜色作为所述任意一标注结果的可信度指示;或者,
将所述百分比对应的符号作为所述任意一标注结果的可信度指示。
4.如权利要求1所述的方法,其特征在于,所述语料标注历史记录包括:根据历次语料标注过程中获得的各标注结果生成的可信度指示知识库。
5.如权利要求4所述的方法,其特征在于,根据历次语料标注过程获得各标注结果,包括:
存储一个包含正确标注结果的标注结果集合,从所述标注结果集合中任取一定数量标注结果作为训练集合,该标注结果集合中的剩余标注结果作为测试集合,则训练集合和测试集合可根据选取的具体标注结果的不同,有多种组合方式,从所述所有组合中抽取任意种组合应用在训练集合上进行语料标注,生成模型后将其应用到测试集合中进行语料标注,并将获得的错误标注结果作为历次语料标注获得的标注结果。
6.如权利要求4所述的方法,其特征在于,根据历次语料标注过程中获得的各标注结果,生成可信度指示知识库,包括:
在每次执行语料标注过程后,根据各标注结果的可信度进行规律学习生成可信度指示知识库。
7.如权利要求6所述的方法,其特征在于,在每次执行语料标注过程后根据各标注结果的可信度进行规律学习生成可信度指示知识库,包括:
分别统计历次语料标注过程中获得的各标注结果内,每一种语料对应的每一个标注结果的错误次数,与相应语料在历次语料标注中出现的总次数之间的百分比,并基于获得的各百分比获得相应标注结果的可信度,再根据各标注结果的可信度生成语料标注结果可信度表,并将语料标注结果可信度表作为可信度指示知识库;或者,
选择不同的语料特征进行任意语料特征组合,分别统计每一种语料特征组合对应的每一个标注结果的错误次数,与相应语料特征组合在历次语料标注中出现的总次数之间的百分比,基于所获得的各百分比生成相应语料可信度模型,并将语料可信度模型作为可信度指示知识库。
8.如权利要求1所述的方法,其特征在于,将所述语料对应的各标注结果与对应的可信度指示进行呈现,进一步包括:
将标注后的语料对应的各标注结果及相应的可信度指示进行呈现后,对其进行校对处理并存储。
9.一种语料标注装置,其特征在于,包括:
标注单元,用于选择待标注的语料,并对所述语料进行标注;
可信度指示单元,用于根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示;
呈现单元,用于将所述语料对应的各标注结果与相应的可信度指示进行呈现。
10.如权利要求9所述的装置,其特征在于,可信度指示单元根据已保存的语料标注历史记录,对所述语料对应的任意一标注结果分别进行可信度指示,包括:
可信度指示单元根据已保存的语料标注历史记录,计算在历史标注过程中,所述语料与所述任意一标注结果之间准确存在对应关系的次数,与所述语料与所述任意一标注结果之间被标注存在对应关系的总次数之间的百分比,并基于所述百分比获得所述任意一标注结果的可信度指示。
11.如权利要求10所述的装置,其特征在于,可信度指示单元基于所述百分比获得所述任意一标注结果的可信度指示,包括:
可信度指示单元直接将所述百分比作为所述任意一标注结果的可信度指示;或者,
可信度指示单元将所述百分比对应的错误等级作为所述任意一标注结果的可信度指示;或者,
可信度指示单元将所述百分比对应的提示性语言作为所述任意一标注结果的可信度指示;或者,
可信度指示单元将所述百分比对应的颜色作为所述任意一标注结果的可信度指示;或者,
可信度指示单元将所述百分比对应的符号作为所述任意一标注结果的可信度指示。
12.如权利要求9所述的装置,其特征在于,可信度指示单元根据历次语料标注过程中获得的各标注结果生成可信度指示知识库。
13.如权利要求12所述的装置,其特征在于,可信度指示单元根据历次语料标注过程获得各标注结果,包括:
可信度指示单元存储一个包含正确标注结果的标注结果集合,从所述标注结果集合中任取一定数量标注结果作为训练集合,该标注结果集合中的剩余标注结果作为测试集合,则训练集合和测试集合可根据选取的具体标注结果的不同,有多种组合方式,从所述所有组合中抽取任意种组合应用在训练集合上进行语料标注,生成模型后将其应用到测试集合中进行语料标注,并将获得的错误标注结果作为历次语料标注获得的标注结果。
14.如权利要求12所述的装置,其特征在于,可信度指示单元根据历次语料标注过程中获得的标注结果生成的可信度指示知识库,包括:
在每次执行语料标注过程后,可信度指示单元根据各标注结果的可信度进行规律学习形成可信度指示知识库。
15.如权利要求14所述的装置,其特征在于,所述可信度指示单元在每次执行语料标注过程后根据各标注结果的可信度进行规律学习生成可信度指示知识库,包括:
可信度指示单元分别统计历次语料标注过程中获得的各标注结果内,每一种语料对应的每一个标注结果的错误次数,与相应语料在历次语料标注中出现的总次数之间的百分比,并基于获得的各百分比获得相应标注结果的可信度,再根据各标注结果的可信度生成语料标注结果可信度表,并将语料标注结果可信度表作为可信度指示知识库;或者,
可信度指示单元选择不同的语料特征进行任意语料特征组合,分别统计每一种语料特征组合对应的每一个标注结果的错误次数,与相应语料特征组合在历次语料标注中出现的总次数之间的百分比,基于所获得的各百分比生成相应语料可信度模型,并将语料可信度模型作为可信度指示知识库。
16.如权利要求9所述的装置,其特征在于,呈现单元将所述语料对应的各标注结果与对应的可信度指示进行呈现,进一步包括:
呈现单元将标注后的语料对应的各标注结果及相应的可信度指示进行呈现后,对其进行校对处理并存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210111080.9A CN102662930B (zh) | 2012-04-16 | 2012-04-16 | 一种语料标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210111080.9A CN102662930B (zh) | 2012-04-16 | 2012-04-16 | 一种语料标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102662930A true CN102662930A (zh) | 2012-09-12 |
CN102662930B CN102662930B (zh) | 2015-04-22 |
Family
ID=46772425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210111080.9A Expired - Fee Related CN102662930B (zh) | 2012-04-16 | 2012-04-16 | 一种语料标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102662930B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN103902525A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语词性标注方法 |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
CN105068999A (zh) * | 2015-08-14 | 2015-11-18 | 浪潮集团有限公司 | 一种修正实体词识别的方法和装置 |
CN105159972A (zh) * | 2015-08-26 | 2015-12-16 | 苏州大学张家港工业技术研究院 | 一种评价类型分类方法与系统 |
CN105374350A (zh) * | 2015-09-29 | 2016-03-02 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105989081A (zh) * | 2015-02-11 | 2016-10-05 | 联想(北京)有限公司 | 一种语料处理方法和装置 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN108170670A (zh) * | 2017-12-08 | 2018-06-15 | 东软集团股份有限公司 | 待标注语料的分配方法、装置、可读存储介质及电子设备 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108897869A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 语料标注方法、装置、设备和存储介质 |
CN108959251A (zh) * | 2018-06-27 | 2018-12-07 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN109753976A (zh) * | 2017-11-01 | 2019-05-14 | 中国电信股份有限公司 | 语料标注装置和方法 |
WO2019113938A1 (zh) * | 2017-12-15 | 2019-06-20 | 华为技术有限公司 | 数据标注方法、装置及存储介质 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN110110327A (zh) * | 2019-04-26 | 2019-08-09 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110147547A (zh) * | 2019-04-09 | 2019-08-20 | 苏宁易购集团股份有限公司 | 一种基于迭代式学习的智能辅助标注方法及系统 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110427622A (zh) * | 2019-07-23 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语料标注的评估方法、装置及存储介质 |
CN110490444A (zh) * | 2019-08-13 | 2019-11-22 | 新华智云科技有限公司 | 标注任务分配方法、装置、系统及存储介质 |
CN110674638A (zh) * | 2019-09-23 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 语料标注系统及电子设备 |
CN110826304A (zh) * | 2019-11-13 | 2020-02-21 | 北京雅丁信息技术有限公司 | 一种医疗语料标注方法 |
CN111178021A (zh) * | 2019-11-29 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种项目对齐标注工具创建方法及系统 |
CN111783783A (zh) * | 2020-06-18 | 2020-10-16 | 哈尔滨市科佳通用机电股份有限公司 | 一种用于图像分割的标注系统及标注方法 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN114792085A (zh) * | 2022-06-22 | 2022-07-26 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN115757784A (zh) * | 2022-11-21 | 2023-03-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索系统及其检索方法 |
CN101067846A (zh) * | 2007-05-28 | 2007-11-07 | 上海电力学院 | 利用直方图计算信息源置信度百分比的方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101710306A (zh) * | 2009-12-15 | 2010-05-19 | 中国科学院软件研究所 | 一种软件可信性检测方法及系统 |
-
2012
- 2012-04-16 CN CN201210111080.9A patent/CN102662930B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1794240A (zh) * | 2006-01-09 | 2006-06-28 | 北京大学深圳研究生院 | 基于自然语言理解的计算机信息检索系统及其检索方法 |
CN101067846A (zh) * | 2007-05-28 | 2007-11-07 | 上海电力学院 | 利用直方图计算信息源置信度百分比的方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
CN101710306A (zh) * | 2009-12-15 | 2010-05-19 | 中国科学院软件研究所 | 一种软件可信性检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
李培峰: "基于Web的大规模语料库构建方法", 《计算机工程》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902525B (zh) * | 2012-12-28 | 2016-09-21 | 国网新疆电力公司信息通信公司 | 维吾尔语词性标注方法 |
CN103902525A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语词性标注方法 |
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN103530282B (zh) * | 2013-10-23 | 2016-07-13 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN105989081B (zh) * | 2015-02-11 | 2019-09-24 | 联想(北京)有限公司 | 一种语料处理方法和装置 |
CN105989081A (zh) * | 2015-02-11 | 2016-10-05 | 联想(北京)有限公司 | 一种语料处理方法和装置 |
CN104933588A (zh) * | 2015-07-01 | 2015-09-23 | 北京京东尚科信息技术有限公司 | 用于拓展商品品类的数据标注平台及方法 |
CN105068999A (zh) * | 2015-08-14 | 2015-11-18 | 浪潮集团有限公司 | 一种修正实体词识别的方法和装置 |
CN105159972A (zh) * | 2015-08-26 | 2015-12-16 | 苏州大学张家港工业技术研究院 | 一种评价类型分类方法与系统 |
CN105374350A (zh) * | 2015-09-29 | 2016-03-02 | 百度在线网络技术(北京)有限公司 | 语音标注方法及装置 |
CN105446956A (zh) * | 2015-12-02 | 2016-03-30 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN105446956B (zh) * | 2015-12-02 | 2018-08-28 | 北京信息科技大学 | 一种汉语概念复合块标注库规范化处理方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN107808661B (zh) * | 2017-10-23 | 2020-12-11 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN109753976B (zh) * | 2017-11-01 | 2021-03-19 | 中国电信股份有限公司 | 语料标注装置和方法 |
CN109753976A (zh) * | 2017-11-01 | 2019-05-14 | 中国电信股份有限公司 | 语料标注装置和方法 |
CN108170668A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本录入点定位方法及计算机可读存储介质 |
CN108170670A (zh) * | 2017-12-08 | 2018-06-15 | 东软集团股份有限公司 | 待标注语料的分配方法、装置、可读存储介质及电子设备 |
WO2019113938A1 (zh) * | 2017-12-15 | 2019-06-20 | 华为技术有限公司 | 数据标注方法、装置及存储介质 |
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108182448B (zh) * | 2017-12-22 | 2020-08-21 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN108959251A (zh) * | 2018-06-27 | 2018-12-07 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN108959251B (zh) * | 2018-06-27 | 2022-10-18 | 北京明略软件系统有限公司 | 一种标签切换方法和装置、计算机可读存储介质 |
CN108897869A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 语料标注方法、装置、设备和存储介质 |
CN108897869B (zh) * | 2018-06-29 | 2020-10-27 | 北京百度网讯科技有限公司 | 语料标注方法、装置、设备和存储介质 |
CN110147547A (zh) * | 2019-04-09 | 2019-08-20 | 苏宁易购集团股份有限公司 | 一种基于迭代式学习的智能辅助标注方法及系统 |
CN110264996B (zh) * | 2019-04-17 | 2021-12-17 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110110327B (zh) * | 2019-04-26 | 2021-06-22 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110110327A (zh) * | 2019-04-26 | 2019-08-09 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110427622A (zh) * | 2019-07-23 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语料标注的评估方法、装置及存储介质 |
CN110490444A (zh) * | 2019-08-13 | 2019-11-22 | 新华智云科技有限公司 | 标注任务分配方法、装置、系统及存储介质 |
CN110674638B (zh) * | 2019-09-23 | 2023-12-01 | 百度在线网络技术(北京)有限公司 | 语料标注系统及电子设备 |
CN110674638A (zh) * | 2019-09-23 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 语料标注系统及电子设备 |
CN112749150B (zh) * | 2019-10-31 | 2023-11-03 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN112749150A (zh) * | 2019-10-31 | 2021-05-04 | 北京中关村科金技术有限公司 | 一种错误标注数据的识别方法、装置和介质 |
CN110826304A (zh) * | 2019-11-13 | 2020-02-21 | 北京雅丁信息技术有限公司 | 一种医疗语料标注方法 |
CN111178021A (zh) * | 2019-11-29 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种项目对齐标注工具创建方法及系统 |
CN111783783A (zh) * | 2020-06-18 | 2020-10-16 | 哈尔滨市科佳通用机电股份有限公司 | 一种用于图像分割的标注系统及标注方法 |
CN114792085B (zh) * | 2022-06-22 | 2022-09-16 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN114792085A (zh) * | 2022-06-22 | 2022-07-26 | 中科雨辰科技有限公司 | 一种标注文本纠错的数据处理系统 |
CN115757784A (zh) * | 2022-11-21 | 2023-03-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
CN115757784B (zh) * | 2022-11-21 | 2023-07-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102662930B (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102662930B (zh) | 一种语料标注方法及装置 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
Singh et al. | PROSPECT: a system for screening candidates for recruitment | |
CN109710851B (zh) | 基于互联网模式下多源数据分析的就业推荐方法及系统 | |
Bekkerman et al. | High-precision phrase-based document classification on a modern scale | |
CN105677822A (zh) | 一种基于对话机器人的招生自动问答方法及系统 | |
CN102663139A (zh) | 一种情感词典构建方法及系统 | |
CN112632989B (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN107145584A (zh) | 一种基于n‑gram模型的简历解析方法 | |
CN105095091B (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
Nitin et al. | Analyzing educational comments for topics and sentiments: A text analytics approach | |
US10210251B2 (en) | System and method for creating labels for clusters | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN110008473A (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
Gurcan et al. | Expertise roles and skills required by the software development industry | |
Owen et al. | Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. | |
CN106485525A (zh) | 信息处理方法及装置 | |
CN104142952A (zh) | 报表展示方法和装置 | |
Cronin et al. | Analysis using natural language processing of feedback data from two mathematics support centres | |
CN113240562A (zh) | 一种基于nlp的产学研项目推荐匹配方法与系统 | |
CN110489514B (zh) | 提升事件抽取标注效率的系统及方法、事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150422 |
|
CF01 | Termination of patent right due to non-payment of annual fee |