CN110069602A - 语料标注方法、装置、服务器及存储介质 - Google Patents
语料标注方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN110069602A CN110069602A CN201910300478.9A CN201910300478A CN110069602A CN 110069602 A CN110069602 A CN 110069602A CN 201910300478 A CN201910300478 A CN 201910300478A CN 110069602 A CN110069602 A CN 110069602A
- Authority
- CN
- China
- Prior art keywords
- annotation results
- corpus
- model
- mark
- initial corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 22
- 235000013399 edible fruits Nutrition 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 239000000463 material Substances 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000001746 injection moulding Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例涉及信息处理技术领域,特别涉及一种语料标注方法、装置、服务器及存储介质。语料标注方法,包括:获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。采用本发明的实施方式,能够获取到初始语料的高质量的语料标注结果,减少单个标注人对语料标注质量的影响。
Description
技术领域
本发明实施例涉及信息处理技术领域,特别涉及语料标注方法、装置、服务器及存储介质。
背景技术
自然语言处理是指计算机接收自然语言形式的输入,在内部通过用户定义的算法对自然语言进行加工计算等,以返回用户期望的结果,通常可应用于文本检索、机器翻译、信息问答等领域。用户通常采用建立算法模型的方式来定义算法,建立的算法模型需要经过大量经过标注的原始语言材料的训练;对原始语言材料进行标注,指的是对原始语料进行加工,将各种表示语言特征的附码标注在相应的语言成分上,以便于计算机的识读。对原始语言材料进行标注的过程,简称为语料标注。
然而发明人发现相关技术中至少存在如下问题:传统的语料标注方法中,单条语料一般由单个标注人员对语料进行标注,且标注人员的认知水平和操作习惯等十分影响对语料的标注质量,从而导致语料的标注结果单一,难以判断标注结果的准确度。
发明内容
本发明实施方式的目的在于提供一种语料标注方法、装置、服务器及存储介质,能够获取到初始语料的高质量的语料标注结果,减少单个标注人对语料标注质量的影响。
为解决上述技术问题,本发明的实施方式提供了一种语料标注方法,包括以下步骤:获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。
本发明的实施方式还提供了一种语料标注装置,包括:获取模块,用于获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;标注模块,用于在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。
本发明的实施方式还提供了一种服务器,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述语料获取方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述语料获取方法。
本发明实施方式相对于现有技术而言,获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果,也就是说初始语料的最终标注结果,是在模型标注结果和偶数个人工标注结果中筛选出来的,即综合考量了模型标注结果和人工标注结果,一定程度上避免了标注人员的主观因素对标注结果的影响,偶数个人工标注结果的存在有效避免了标注结果来源过于单一的情况,且偶数个人工标注结果加上一个模型标注结果的数量为奇数,从而避免了在偶数个标注结果中无法确定唯一标注结果的情况。同时,由于初始语料的最终标注结果是唯一满足预设条件的标注结果,从而在一定程度上保证了标注结果的高质量和准确度。另外,对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到,以保证模型标注结果和人工标注结果的标注目的是一致的,且预设的标注模型在对初始语料的标注过程中也能得到不断更新。
另外,所述获取唯一满足预设条件的标注结果,包括:当在所述所有标注结果中,所述标注结果的种类小于或等于两种时,对各所述标注结果进行数量统计,其中,相同的标注结果的数量累计相加;将数量最多的所述标注结果判定为唯一满足预设条件的标注结果。当标注结果的种类小于或等于两种时,采用数量统计的方式,将相同的标注结果累加计数,不同的标注结果独立计数,通过各标注结果的数量来体现各标注结果出现的次数,而出现次数越多的标注结果,其在全部标注结果中体现的准确程度也越高,也就是说计数数量越多的标注结果,其准确程度越高;将数量最多的标注结果作为唯一满足预设条件的标注结果,也就是将准确程度最高的标注结果作为最终的标注结果,保证了最终标注结果的高质量和准确度。且由于偶数个人工标注结果加上一个模型标注结果的数量为奇数,从而在对标注结果进行计数时,不会出现标注结果的数量为均分相等的情况,也就不会导致无法获取到数量最多的标注结果的情况,有效提升了获取到唯一满足预设条件的标注结果的可能性。
另外,所述获取唯一满足预设条件的标注结果,包括:当在所述所有标注结果中,所述标注结果的种类大于两种时,获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果。当标注结果的种类大于两种,种类较多时,通过投票的方式令所有标注结果的标注方再次对标注结果进行评估,以将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果。
另外,所述获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果,包括:依次获取所述标注方对各所述标注结果的投票数,当获取到所述投票数超过所述标注方的半数的标注结果时,将所述投票数超过所述标注方的半数的标注结果判定为唯一满足预设条件的标注结果,也就是说令标注方依次对各标注结果进行投票,当标注方对一个标注结果的投票数超过标注方的半数时,说明标注方判定该标注结果的准确度较高,就将该标注结果判定为唯一满足预设条件的标注结果,从而无需再对剩余未投票的标注结果进行投票,一定程度上降低了获取到最终标注结果的过程复杂度,便于快捷获取到最终标注结果。
另外,在获取所述初始语料的最终标注结果后,比较所述初始语料的最终标注结果和所述模型标注结果;根据所述比较后的结果,计算所述标注模型的评分。通过比较初始语料的最终标注结果和模型标注结果,可对标注模型在上一次标注中的标注结果进行准确性的评估;根据比较后的结果计算标注模型的评分,可将标注模型的准确率或是错误率等以分数的形式量化,便于根据标注模型的评分清晰明了的获知到标注模型在历史标注过程中累计效果。
另外,所述标注模型的评分,包括:正评分和负评分;所述根据所述比较后的结果,计算所述标注模型的评分,包括:若所述初始语料的最终标注结果和所述模型标注结果一致,则将所述正评分增加第一预设值;若所述初始语料的最终标注结果和所述模型标注结果不一致,则将所述负评分增加第二预设值。上述提供了一种计算标注模型评分的方式,通过正评分和负评分直观的表示了标注模型的标注准确数和标注错误数。
另外,在获取所述初始语料的最终标注结果后,根据具有所述最终标注结果的所述初始语料,对所述标注模型进行迭代更新,使得预设的标注模型能够根据准确程度高的语料标注得到优化,以有效提高标注模型的标注准确率和标注效率等性能指标,从而提高下一次获取到的最终标注结果的准确程度。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本发明第一实施方式的语料标注方法的流程图;
图2是根据本发明第一实施方式的根据投票数判定唯一满足预设条件标注结果的流程图;
图3是根据本发明第二实施方式的语料标注方法的流程图;
图4是根据本发明第三实施方式的语料标注装置的结构方框图;
图5是根据本发明第四实施方式的服务器的结构方框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式设计一种语料标注方法,具体流程如图1所示,包括:
步骤101,获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;
步骤102,判断所有标注结果的种类是否小于或等于两种;若是,执行步骤103,若否,执行步骤104。
步骤103,对各标注结果进行数量统计,根据各标注结果的数量判定唯一满足预设条件的标注结果,将唯一满足预设条件的标注结果作为初始语料的最终标注结果。
步骤104,获取所有标注结果的标注方对标注结果的投票数,根据投票数判定唯一满足预设条件的标注结果,将唯一满足预设条件的标注结果作为初始语料的最终标注结果。
下面对本实施方式的语料标注方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
在步骤101中,获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到。对初始语料的偶数个人工标注结果,可通过传统的语料标注方法获取得到:将初始语料分配给偶数个语料标注人员,获取偶数个语料标注人员对初始语料的标注结果,避免单一的语料标注人员对标注结果造成较大的影响。对初始语料的模型标注结果,根据预设的标注模型获取得到,将上述分配至语料标注人员的初始语料作为预设的标注模型的输入,预设的标注模型的输出即为对初始语料的模型标注结果;输出的模型标注结果为1个。由于在对初始语料进行标注时,无论是人工进行标注还是模型进行标注,标注的目的都是统一的,因此预设的标注模型,是根据大量经过人工标注的初始语料训练得到的,以保证模型标注结果与人工标注结果的标注目的是一致的。例如,期望对初始语料的词性进行标注,则首先通过语料标注人员对若干个初始语料的词性进行标注,将标注了词性的上述初始语料作为训练材料,来建立预设的标注模型,从而得到了输出结果为词性的预设标注模型。
在步骤102中,判断所有标注结果的种类是否小于或等于两种;若标注结果的种类小于或等于两种,则采用数量统计的方式判定唯一满足预设条件的标注结果;若标注结果的种类大于两种,则采用投票的方式判定唯一满足预设条件的标注结果,以筛选出最终的一个保证了标注结果的高质量和准确度的标注结果。
在步骤103中,采用数量统计的方式判定唯一满足预设条件的标注结果,即对各标注结果进行数量统计,根据各标注结果的数量判定唯一满足预设条件的标注结果。具体地说,首先将各个标注结果的数量计为1;若存在多个相同的标注结果,则将多个相同的标注结果的数量(即数量1)累加,以得到各标注结果出现的数量,例如:
获取到对初始语料的4个人工标注结果和1个模型标注结果为:A,A,A,C,C,即标注结果的种类为A和C两种,则在对各标注结果进行数量统计后得到:
标注结果A的数量为3,标注结果C的数量为2;
由于相同的标注结果数量累加,说明对应数量越多的标注结果出现的次数也越多,在全部标注结果中体现出的准确程度也越高,从而筛选出数量最多的标注结果,判定为全部标注结果中准确程度最高的标注结果,作为唯一满足预设条件的标注结果,并将唯一满足预设条件的标注结果作为初始语料的最终标注结果,例如:
对上述标注结果A的数量为3,标注结果C的数量为2,数量最多的标注结果为标注结果A,则将标注结果A作为唯一满足预设条件的标注结果,即初始语料的最终标注结果。
且由于偶数个人工标注结果加上一个模型标注结果的数量为奇数,因此在对各标注结果进行数量统计时,不会出现标注结果的数量为均分相等的情况,可以确定的获取到唯一满足预设条件的标注结果。
在步骤104中,采用投票的方式判定唯一满足预设条件的标注结果,即对令所有标注结果的标注方(标注人员及标注模型)对各标注结果进行投票,根据对各标注结果的投票数判定唯一满足预设条件的标注结果。本实施方式中提供了一种根据对各标注结果的投票数判定唯一满足预设条件的标注结果的方式,即对步骤104的细化,具体如流程图2所示,下面对图2做具体说明:
步骤1041,依次获取标注方对标注结果的投票数;
步骤1042,判断获取到的标注结果的投票数是否超过标注方半数;若是,执行步骤1043,若否,执行步骤1041。
步骤1043,将投票数超过标注方的半数的标注结果判定为唯一满足预设条件的标注结果,将唯一满足预设条件的标注结果作为初始语料的最终标注结果。
具体地说,在标注结果的种类的大于两种时,令标注方(即提供人工标注结果的偶数个标注人员及标注模型)对各标注结果进行投票,标注方认为标注结果正确时则为该标注结果投一票;所有标注方对一个标注结果投票结束后,判断对该一个标注结果的投票数是否超过标注方半数;若投票数超过标注方半数,说明标注方判定该标注结果的准确度较高,则将投票数超过标注方的半数的标注结果判定为唯一满足预设条件的标注结果,从而无需再对剩余未投票的标注结果进行投票,一定程度上降低了获取到最终标注结果的过程复杂度;若投票数未超过标注方半数,则令标注方继续对下一个标注结果进行投票。
下面以一实例作具体说明:获取到对初始语料的4个人工标注结果和1个模型标注结果为:A,A,B,C,C,即标注结果的种类为A,B,C,则依次获取标注方对各标注结果的投票数:
首先获取到5个标注方对标注结果A的投票数,为2票,说明5个标注方中有2个标注方判定该标注结果是正确的;
而2票未超过5个标注方的半数,则跳过标注结果A,继续获取5个标注方对标注结果B的投票数;
获取到5个标注方对标注结果B的投票数,为4票,说明5个标注方中有4个标注方判定该标注结果是正确的;
而4票超过了5个标注方的半数,则将标注结果B判定为唯一满足预设条件的标注结果,并作为初始语料的最终标注结果,同时不再获取标注方对标注结果C进行投票的投票数。
本实施方式相对于现有技术而言,获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到的,以保证模型标注结果和人工标注结果的标注目的是一致的,且预设的标注模型在对初始语料的标注过程中也能得到不断更新;在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果,本实施方式中提供了两种获取到唯一满足预设条件的标注结果的方式:当标注结果的种类小于或等于两种时,采用数量统计的方式判定唯一满足预设条件的标注结果;当标注结果的种类大于两种时,采用投票的方式判定唯一满足预设条件的标注结果;也就是说初始语料的最终标注结果,是在模型标注结果和偶数个人工标注结果中筛选出来的,即综合考量了模型标注结果和人工标注结果,一定程度上避免了标注人员的主观因素对标注结果的影响,偶数个人工标注结果的存在有效避免了标注结果来源过于单一的情况,且偶数个人工标注结果加上一个模型标注结果的数量为奇数,从而避免了在偶数个标注结果中无法确定唯一标注结果的情况。
本发明的第二实施方式涉及一种语料标注方法,本实施方式与第一实施方式大致相同,在本发明第二实施方式中,在获取到初始语料的最终标注结果后,计算标注模型的评分,并根据具有最终标注结果的初始语料对标注模型进行迭代更新。本实施方式中的语料标注方法如图3所示,下面对图3的流程做具体说明:
步骤301,获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果。此步骤与步骤101大致相同,此处不再赘述。
步骤302,判断所有标注结果的种类是否小于或等于两种;若是,执行步骤303,若否,执行步骤304。此步骤与步骤102大致相同,此处不再赘述。
步骤303,对各标注结果进行数量统计,根据各标注结果的数量判定唯一满足预设条件的标注结果,将唯一满足预设条件的标注结果作为初始语料的最终标注结果。此步骤与步骤103大致相同,此处不再赘述。
步骤304,获取所有标注结果的标注方对标注结果的投票数,根据投票数判定唯一满足预设条件的标注结果,将唯一满足预设条件的标注结果作为初始语料的最终标注结果。此步骤与步骤104大致相同,此处不再赘述。
步骤305,计算标注模型的评分。
具体地说,在获取到初始语料的最终标注结果后,比较初始语料的最终标注结果和模型标注结果,根据比较后的结果,计算标注模型的评分。由于初始语料的最终标注结果是从包括人工标注结果和模型标注结果的所有标注结果中筛选出来的,因此最终标注结果可能与模型标注结果一致,或是与模型标注结果不一致;通过比较初始语料的最终标注结果和模型标注结果,可对标注模型在上一次标注中的标注结果进行准确性的评估。本实施方式中,在对标注模型进行评分时,包括正评分和负评分,正评分用于表示标注模型标注的准确数,负评分表示标注模型标注的错误数。当初始语料的最终标注结果和模型标注结果一致时,说明标注模型标注准确,则将所述正评分增加第一预设值;当初始语料的最终标注结果和模型标注结果不一致,说明标注模型标注错误,则将所述负评分增加第二预设值。第一预设值和第二预设值可根据实际需求进行设定,例如,为了客观表示标注模型的标注效果,可将第一预设值和第二预设值都设置为1,在初始语料的最终标注结果和模型标注结果一致时,将正评分加1,在初始语料的最终标注结果和模型标注结果不一致时,将负评分加1,从而令累加的正评分或负评分直观的表示标注模型标注的正确数和错误数。对标注模型进行量化评分,有助于清晰明了的获知到标注模型在历史标注过程中累计效果。
另外,在获取到初始语料的最终标注结果后,还可根据具有最终标注结果的初始语料,对标注模型进行迭代更新。由于本实施方式中涉及到的预设的标注模型,是需要应用于自然语言处理过程中,以提高语料标注的效率,节省语料标注的人工劳动的,因此标注模型需要根据具有高质量标注结果的语料进行迭代更新。当获取到初始语料的最终标注结果时,说明初始语料具有高质量的标注结果,可以作为对标注模型的训练材料,使得标注模型能够根据准确程度高的语料标注进行优化,以有效提高标注模型的标注准确率和标注效率等性能指标,从而提高下一次获取到的最终标注结果的准确程度。本实施方式中,可周期性地对标注模型进行迭代更新,或是在获取到一定数量的初始语料的最终标注结果后,对标注模型进行迭代更新。
本实施方式相对于现有技术而言,在获取到初始语料的最终标注结果后,比较初始语料的最终标注结果和模型标注结果,通过比较初始语料的最终标注结果和模型标注结果,可对标注模型在上一次标注中的标注结果进行准确性的评估。同时,还根据比较后的结果,计算标注模型的评分,以将标注模型的准确率或是错误率等以分数的形式量化,便于根据标注模型的评分清晰明了的获知到标注模型在历史标注过程中累计效果。另外,在获取到初始语料的最终标注结果后,还根据具有最终标注结果的初始语料,对标注模型进行迭代更新,使得预设的标注模型能够根据准确程度高的语料标注得到优化,以有效提高标注模型的标注准确率和标注效率等性能指标,从而提高下一次获取到的最终标注结果的准确程度。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种语料标注装置,如图4所示,包括:获取模块401和标注模块402及评分模块403。
获取模块401,用于获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;
标注模块402,用于在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。
在一个实例中,获取模块401获取唯一满足预设条件的标注结果的方式,包括:当在所述所有标注结果中,所述标注结果的种类小于或等于两种时,对各所述标注结果进行数量统计,其中,相同的标注结果的数量累计相加;将数量最多的所述标注结果判定为唯一满足预设条件的标注结果。
在一个实例中,获取模块401获取唯一满足预设条件的标注结果的方式,包括:当在所述所有标注结果中,所述标注结果的种类大于两种时,获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果。
在一个实例中,获取模块401获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果,包括:依次获取所述标注方对各所述标注结果的投票数,当获取到所述投票数超过所述标注方的半数的标注结果时,将所述投票数超过所述标注方的半数的标注结果判定为唯一满足预设条件的标注结果。
在一个实例中,评分模块403用于比较所述初始语料的最终标注结果和所述模型标注结果;根据所述比较后的结果,计算所述标注模型的评分。
在一个实例中,所述标注模型的评分,包括:正评分和负评分;评分模块403根据所述比较后的结果,计算所述标注模型的评分,包括:若所述初始语料的最终标注结果和所述模型标注结果一致,则将所述正评分增加第一预设值;若所述初始语料的最终标注结果和所述模型标注结果不一致,则将所述负评分增加第二预设值。
在一个实例中,获取模块401还用于在所述获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果后,根据具有所述最终标注结果的所述初始语料,对所述标注模型进行迭代更新。
不难发现,本实施方式为与第一实施方式或第二实施方式的相对应装置的实施例,本实施方式可与第一实施方式或第二实施方式互相配合实施,第一实施方式或第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,此处不再赘述。相应的,本实施方式中提到的相关技术细节也可应用在第一实施方式或第二实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种服务器,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述语料标注方法。
其中,存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器501。
处理器501负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述语料标注方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (10)
1.一种语料标注方法,其特征在于,包括:
获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;
在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。
2.根据权利要求1所述的语料标注方法,其特征在于,所述获取唯一满足预设条件的标注结果,包括:
当在所述所有标注结果中,所述标注结果的种类小于或等于两种时,对各所述标注结果进行数量统计,其中,相同的标注结果的数量累计相加;
将数量最多的所述标注结果判定为唯一满足预设条件的标注结果。
3.根据权利要求1所述的语料标注方法,其特征在于,所述获取唯一满足预设条件的标注结果,包括:
当在所述所有标注结果中,所述标注结果的种类大于两种时,获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果。
4.根据权利要求3所述的语料标注方法,其特征在于,所述获取所述所有标注结果的标注方对各所述标注结果的投票数,将投票数唯一满足预设条件的标注结果判定为唯一满足预设条件的标注结果,包括:
依次获取所述标注方对各所述标注结果的投票数,当获取到所述投票数超过所述标注方的半数的标注结果时,将所述投票数超过所述标注方的半数的标注结果判定为唯一满足预设条件的标注结果。
5.根据权利要求1所述的语料标注方法,其特征在于,还包括:
比较所述初始语料的最终标注结果和所述模型标注结果;
根据所述比较后的结果,计算所述标注模型的评分。
6.根据权利要求5所述的语料标注方法,其特征在于,所述标注模型的评分,包括:正评分和负评分;
所述根据所述比较后的结果,计算所述标注模型的评分,包括:
若所述初始语料的最终标注结果和所述模型标注结果一致,则将所述正评分增加第一预设值;
若所述初始语料的最终标注结果和所述模型标注结果不一致,则将所述负评分增加第二预设值。
7.根据权利要求1所述的语料标注方法,其特征在于,在所述获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果后,还包括:
根据具有所述最终标注结果的所述初始语料,对所述标注模型进行迭代更新。
8.一种语料标注装置,其特征在于,包括:
获取模块,用于获取对初始语料的偶数个人工标注结果,及对初始语料的模型标注结果;其中,所述对初始语料的模型标注结果根据预设的标注模型获取得到,所述预设的标注模型根据若干个经过人工标注的初始语料训练得到;
标注模块,用于在包括所述人工标注结果和所述模型标注结果的所有标注结果中,获取唯一满足预设条件的标注结果,作为所述初始语料的最终标注结果。
9.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的语料标注方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的语料标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300478.9A CN110069602B (zh) | 2019-04-15 | 2019-04-15 | 语料标注方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910300478.9A CN110069602B (zh) | 2019-04-15 | 2019-04-15 | 语料标注方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110069602A true CN110069602A (zh) | 2019-07-30 |
CN110069602B CN110069602B (zh) | 2021-11-19 |
Family
ID=67367804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910300478.9A Expired - Fee Related CN110069602B (zh) | 2019-04-15 | 2019-04-15 | 语料标注方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110069602B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261140A (zh) * | 2020-01-16 | 2020-06-09 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN112241445A (zh) * | 2020-10-26 | 2021-01-19 | 竹间智能科技(上海)有限公司 | 一种标注方法及装置、电子设备、存储介质 |
WO2022205585A1 (zh) * | 2021-03-30 | 2022-10-06 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
CN115757784A (zh) * | 2022-11-21 | 2023-03-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
US20080221874A1 (en) * | 2004-10-06 | 2008-09-11 | International Business Machines Corporation | Method and Apparatus for Fast Semi-Automatic Semantic Annotation |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
US20100023319A1 (en) * | 2008-07-28 | 2010-01-28 | International Business Machines Corporation | Model-driven feedback for annotation |
CN102541838A (zh) * | 2010-12-24 | 2012-07-04 | 日电(中国)有限公司 | 用于优化情感分类器的方法和设备 |
CN107291902A (zh) * | 2017-06-23 | 2017-10-24 | 中国人民解放军国防科学技术大学 | 一种基于混合分类技术的大众贡献审阅自动标注方法 |
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN108763218A (zh) * | 2018-06-04 | 2018-11-06 | 四川长虹电器股份有限公司 | 一种基于crf的影视检索实体识别方法 |
CN108874763A (zh) * | 2018-06-08 | 2018-11-23 | 深圳勇艺达机器人有限公司 | 一种基于群智的语料库数据标注方法及系统 |
CN108875768A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN109086814A (zh) * | 2018-07-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及网络设备 |
CN109271630A (zh) * | 2018-09-11 | 2019-01-25 | 成都信息工程大学 | 一种基于自然语言处理的智能标注方法及装置 |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和系统 |
-
2019
- 2019-04-15 CN CN201910300478.9A patent/CN110069602B/zh not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080221874A1 (en) * | 2004-10-06 | 2008-09-11 | International Business Machines Corporation | Method and Apparatus for Fast Semi-Automatic Semantic Annotation |
CN101127042A (zh) * | 2007-09-21 | 2008-02-20 | 浙江大学 | 一种基于语言模型的情感分类方法 |
CN101539907A (zh) * | 2008-03-19 | 2009-09-23 | 日电(中国)有限公司 | 词性标注模型训练装置、词性标注系统及其方法 |
US20100023319A1 (en) * | 2008-07-28 | 2010-01-28 | International Business Machines Corporation | Model-driven feedback for annotation |
CN102541838A (zh) * | 2010-12-24 | 2012-07-04 | 日电(中国)有限公司 | 用于优化情感分类器的方法和设备 |
CN107291708A (zh) * | 2016-03-30 | 2017-10-24 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于文本的自动识别文献研究的方法 |
CN107291902A (zh) * | 2017-06-23 | 2017-10-24 | 中国人民解放军国防科学技术大学 | 一种基于混合分类技术的大众贡献审阅自动标注方法 |
CN108875768A (zh) * | 2018-01-23 | 2018-11-23 | 北京迈格威科技有限公司 | 数据标注方法、装置和系统及存储介质 |
CN108763218A (zh) * | 2018-06-04 | 2018-11-06 | 四川长虹电器股份有限公司 | 一种基于crf的影视检索实体识别方法 |
CN108874763A (zh) * | 2018-06-08 | 2018-11-23 | 深圳勇艺达机器人有限公司 | 一种基于群智的语料库数据标注方法及系统 |
CN109086814A (zh) * | 2018-07-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及网络设备 |
CN109271630A (zh) * | 2018-09-11 | 2019-01-25 | 成都信息工程大学 | 一种基于自然语言处理的智能标注方法及装置 |
CN109543181A (zh) * | 2018-11-09 | 2019-03-29 | 中译语通科技股份有限公司 | 一种基于主动学习和深度学习相结合的命名实体模型和系统 |
Non-Patent Citations (2)
Title |
---|
DI LIU 等: "Sequence Labeling of Chinese Text Based on Bidirectional Gru-Cnn-Crf Model", 《2018 15TH INTERNATIONAL COMPUTER CONFERENCE ON WAVELET ACTIVE MEDIA TECHNOLOGY AND INFORMATION PROCESSING (ICCWAMTIP)》 * |
郭婷婷 等: "基于多特征的信息安全事件语料标注方法", 《现代计算机(专业版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261140A (zh) * | 2020-01-16 | 2020-06-09 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN111261140B (zh) * | 2020-01-16 | 2022-09-27 | 云知声智能科技股份有限公司 | 韵律模型训练方法及装置 |
CN112241445A (zh) * | 2020-10-26 | 2021-01-19 | 竹间智能科技(上海)有限公司 | 一种标注方法及装置、电子设备、存储介质 |
CN112241445B (zh) * | 2020-10-26 | 2023-11-07 | 竹间智能科技(上海)有限公司 | 一种标注方法及装置、电子设备、存储介质 |
WO2022205585A1 (zh) * | 2021-03-30 | 2022-10-06 | 苏州大学 | 一种数据标注的方法、系统、设备及可读存储介质 |
CN115757784A (zh) * | 2022-11-21 | 2023-03-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110069602B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069602A (zh) | 语料标注方法、装置、服务器及存储介质 | |
CN106202955B (zh) | 基于编码智能适配的诊断相关分组方法及系统 | |
CN110147456B (zh) | 一种图像分类方法、装置、可读存储介质及终端设备 | |
CN110287480A (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN109829038A (zh) | 基于深度学习的问答反馈方法、装置、设备及存储介质 | |
CN108090520A (zh) | 意图识别模型的训练方法、系统、装置及可读存储介质 | |
CN107798435A (zh) | 一种基于文本信息抽取的电力物资需求预测方法 | |
CN109754068A (zh) | 基于深度学习预训练模型的迁移学习方法及终端设备 | |
CN103020295B (zh) | 一种问题标签标注方法及装置 | |
CN111523324B (zh) | 命名实体识别模型的训练方法及装置 | |
CN110503136A (zh) | 台区线损异常分析方法、计算机可读存储介质及终端设备 | |
CN110263818A (zh) | 简历筛选的方法、装置、终端和计算机可读存储介质 | |
CN108629698A (zh) | 一种保险产品的定价方法、装置、终端设备及存储介质 | |
CN111159414A (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN106611058A (zh) | 一种试题搜索方法及装置 | |
CN108681751A (zh) | 确定事件影响因素的方法及终端设备 | |
He et al. | What matters for regional industrial dynamics in a transitional economy? | |
CN112287656A (zh) | 文本比对方法、装置、设备和存储介质 | |
CN110166498A (zh) | 用户类别确定方法及装置、计算机设备及存储介质 | |
CN113077147B (zh) | 学员课程智能推送方法、系统及终端设备 | |
CN107943912B (zh) | 一种响应式资源目录数据可视化管理方法、终端及装置 | |
CN113592192A (zh) | 短期电力负荷预测方法、装置及终端设备 | |
Westerlund | A sequential test for pair-wise convergence in Chinese provincial income | |
CN116596069A (zh) | 目标对象图谱构建方法、装置、电子设备及存储介质 | |
CN107666403A (zh) | 一种指标数据的获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211119 |