CN113343695B - 一种文本标注噪声检测方法、装置、存储介质及电子设备 - Google Patents
一种文本标注噪声检测方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113343695B CN113343695B CN202110587910.4A CN202110587910A CN113343695B CN 113343695 B CN113343695 B CN 113343695B CN 202110587910 A CN202110587910 A CN 202110587910A CN 113343695 B CN113343695 B CN 113343695B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- noise
- data set
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000002372 labelling Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000002790 cross-validation Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012937 correction Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000010354 integration Effects 0.000 abstract description 4
- 230000001537 neural effect Effects 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 abstract 1
- 238000009826 distribution Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本标注噪声检测方法、装置、存储介质及电子设备,该方法包括:获取待训练模型的样本数据集;根据样本数据集采用K折交叉验证得到模型预测结果;基于模型预测结果的输出计算样本数据集中每个数据的信任度;根据信任度和信任度阈值的关系确定样本数据集的噪声文本。通过实施本发明,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测方法的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测方法与概率估计和鲁棒性的方法相比,集成性强,简化了繁琐的工程步骤;能够提供灵活的信任度配置,检测过程及效果更加可控。
Description
技术领域
本发明涉及深度学习技术领域,具体涉及一种文本标注噪声检测方法、装置、存储介质及电子设备。
背景技术
在智能会话装置中,深度学习神经网络被广泛应用到其中的各种任务中:如话术分类,意图识别-语义槽识别等。而装置对用户下发的指令解析,依赖于神经网络模型的识别结果。
受限于众包、多标注人员主观判定差异等因素影响,在标注构建神经网络训练集的语料时,会存在不同程度的噪声/错误标注数据,在训练拟合神经网络时,噪声/错误标注数据会直接影响的模型效果,甚至错误识别用户意图。
在现有技术中,为了改善噪声/错误标注数据产生的影响,通常是从模型的鲁棒性或概率估计两方面进行改进。其中,模型的鲁棒性是通过修改模型训练的Loss函数、梯度裁剪、随模型训练动态修改训练数据的权重,试图在训练的过程中,减少噪声/错误标注在训练中的影响,进而增强模型应对噪声/错误标注的能力;概率估计是计算估计从纯净数据到噪声数据的转换矩阵,进而确定噪声数据的数据分布通过计算KL散度,以此指导优化在Loss函数的交叉熵。
然而,采用模型鲁棒性技术虽然一定程度上可以提高模型在面对噪声/错误标注的能力,但是这种能力不可控,而且不易优化和量化,在实际工程应用中并不实际,存在很大程度上的随机性;而采用概率估计相关的技术,计算估计转换矩阵难度大,在面对百万数量级的数据集时,计算也会变得复杂;此外,面对新补进数据后,数据分布都会发生变化,基于未补进数据时计算的转移矩阵并不适用于新的数据集,该技术无疑会使得工程变得更加繁琐。
发明内容
有鉴于此,本发明实施例提供了涉及一种文本标注噪声检测方法、装置、存储介质及电子设备,以解决现有技术中应对噪声/错误标注数据解决方式更为繁琐的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种文本标注噪声检测方法,包括:获取待训练模型的样本数据集;根据所述样本数据集采用K折交叉验证得到模型预测结果;基于模型预测结果的输出计算样本数据集中每个数据的信任度;根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本。
可选地,根据所述样本数据集采用K折交叉验证得到模型预测结果,包括:对所述样本数据集做K折切分,得到K份数据集;根据K份数据集进行训练,得到K个模型;根据K个模型进行预测,得到K个模型预测结果。
可选地,基于模型预测结果的输出计算样本数据集中每个数据的信任度,包括:基于信息熵理论,根据K个模型预测结果计算每一输出类型中每个数据的相应任务信任度;根据可调配权重、每个输出类型中每个数据的相应任务信任度计算得到每个数据的信任度。
可选地,根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本,包括:判断所述信任度和信任度阈值的大小;当所述信任度大于所述信任度阈值时,将对应数据确定为第一噪声文本。
可选地,根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本,还包括:当所述信任度小于所述信任度阈值时,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本;根据所述第一噪声文本和第二噪声文本确定所述样本数据集的噪声文本。
可选地,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本,包括:根据K个模型多数预测结果与样本数据集中的文本标注相同时的计算得到一致性分数;判断所述一致性分数和一致性阈值的大小;当所述一致性分数小于所述一致性阈值时,将相应的多数预测结果确定为第二噪声文本。
可选地,所述模型为单输出的分类模型或多输出的联合模型;当所述模型为多输出的联合模型时,输出类型包括命名实体识别任务的输出和分类任务的输出。
本发明实施例第二方面提供一种文本标注噪声检测装置,包括:数据获取模块,用于获取待训练模型的样本数据集;结果预测模块,用于根据所述样本数据集采用K折交叉验证得到模型预测结果;信任度计算模块,用于基于模型预测结果的输出计算样本数据集中每个数据的信任度;噪声文本确定模块,用于根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的文本标注噪声检测方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的文本标注噪声检测方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的文本标注噪声检测方法、装置、存储介质及电子设备,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测方法的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测方法与概率估计和鲁棒性的方法相比,集成性强,同时简化了繁琐的工程步骤;同时,该检测方法能够提供灵活的信任度配置,与鲁棒性的方法相比,检测过程及效果更加可控。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的文本标注噪声检测方法的流程图;
图2是根据本发明实施例的文本标注噪声检测方法的多模型预测结果示意图;
图3是根据本发明另一实施例的文本标注噪声检测方法的流程图;
图4是根据本发明另一实施例的文本标注噪声检测方法的流程图;
图5是根据本发明另一实施例的文本标注噪声检测方法的流程图;
图6是根据本发明实施例的文本标注噪声检测装置的结构框图;
图7是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图8是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本标注噪声检测方法,如图1所示,该检测方法包括如下步骤:
步骤S101:获取待训练模型的样本数据集;具体地,由于众包或者多标注人员主观判定差异的影响,在构建神经网络模型的训练集时,会导致训练集中存在不同程度的噪声/错误标注数据或称之为噪声文本。噪声文本的存在,可能会影响模型的训练效果,因此需要将噪声文本检测或识别出来。
在一实施例中,该待训练的模型可以是用于分类的模型,例如话术分类、意图识别模型;亦可是用于多输出的联合模型,例如意图-语义槽联合模型,即该模型可以用于意图识别及语义槽识别。此外,该待训练的模型可以是其他分类或命名实体任务的神经网络模型,本发明对此不做限定。
在一具体实施方式中,当待训练模型为意图-语义槽识别网络模型,该模型可以用于人工智能会话系统的信息抽取,属于联合神经网络模型,该模型为单输入多输出。通常情况下该模型的输入为待识别的句子,输出为意图和语义槽的识别结果。同时,该模型的训练数据集中包括多个标注数据或标注文本。其中,每条标注数据有三个标注信息:语义槽(Slots)、句子类型(Ques_types)、句子意图(intents)。例如,对于“北京今天天气怎么样”,可以按照如图2所示的方式对其进行标注。其中语义槽识别属于命名实体识别任务,意图识别和句子类型识别为分类任务。
步骤S102:根据样本数据集采用K折交叉验证得到模型预测结果。具体地,K折交叉验证,就是将数据集等比例划分成K份,以其中的一份作为测试数据,其他的K-1份数据作为训练数据。然后,这样算是一次实验,而K折交叉验证只有实验K次才算完成完整的一次,也就是说交叉验证实际是把实验重复做了K次,每次实验都是从K个部分选取一份不同的数据部分作为验证数据(保证K个部分的数据都分别做过验证数据),剩下的K-1个当作训练数据,最后共训练得到K个模型。
在一实施例中,对于获取的样本数据集,将其做K折切分,得到K份数据集;根据K份数据集进行训练,得到K个模型;根据K个模型对样本数据集全集(待检测数据)进行预测,每条样本数据得到K个模型预测结果。具体地,对于获取的同一样本数据,若在不同子集训练得到的模型在预测结果上存在差异,则可能是对于相似的数据存在不一致的标注(噪声/错误),导致两者的优化方向不同;或者是与样本数据相近的训练数据刚好未被分到训练集,导致相关特征训练不充分。
由此,通过对数据集做K-折切分,丢弃其中1折数据(或者说是将其作为验证数据)用余下K-1折的数据进行训练。这样,综合考虑K个模型对同一样本数据的预测结果,可减少仅考虑1次模型训练中因丢失数据带来的随机波动影响。最终可训练得到K个模型。用训练得到的K个模型对样本数据集全集(待检测数据)做预测,会得到K个模型预测结果。
步骤S103:基于模型预测结果的输出计算样本数据集中每个数据的信任度;具体地,信任度可以是基于K个模型关于同一条数据(文本)的预测结果,采用信息熵理论计算得到的。
在一实施例中,当模型为联合模型时,其输出为多个。例如意图-语义槽联合模型,其输出根据标注的类别可以分为命名实体识别任务和分类任务。在基于联合模型计算信任度时,可以基于其输出类型先确定每个输出类型对应的信任度。然后再针对每个数据(文本)结合每个输出类型对应的信任度确定该数据对应的信任度。
步骤S104:根据信任度和信任度阈值的关系确定样本数据集的噪声文本。
在一实施例中,由于信任度是基于信息熵理论计算的。而信息熵的本质是表示一个数据分布的趋同性的指标:信息熵越大,表示数据分布越混乱;信息熵越小,表示数据越有序。因此可以按照过半机制,在K个模型中:一半模型结果相同,余下一半模型结果最混乱的情况,计算当时情况的信息熵,并结合每个输出类型的权重,计算得到信任度阈值。同时,基于信任度的计算过程可知,信任度越大,则K个模型关于同一个数据的预测结果越各不相同,即样本数据集中数据可能出现标注错误的可能性越大。因此,通过比较信任度和信任度阈值的大小可以确定样本数据集的噪声文本。
本发明实施例提供的文本标注噪声检测方法,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测方法的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测方法与概率估计和鲁棒性的方法相比,集成性强,同时简化了繁琐的工程步骤;同时,该检测方法能够提供灵活的信任度配置,与鲁棒性的方法相比,检测过程及效果更加可控。
作为本发明实施例的一种可选的实施方式,如图3所示,步骤S103基于模型预测结果的输出类型计算样本数据集中每个数据的信任度,包括如下步骤:
步骤S201:基于信息熵理论,根据K个模型预测结果计算每一输出类型中每个数据的相应任务信任度。
在一实施例中,当模型为多输出的联合模型时,如意图-语义槽联合模型,根据上述内容可知,该模型的输出分为两种类型:一种是命名实体识别任务的输出,另一种是分类任务的输出。
其中,命名实体识别任务输出是对序列的预测,每个模型预测输出句子每个位置的预测值。例如,输入为“北京今天天气怎么样”,当K=3时,K个模型预测结果如下表1所示。
表1
Position | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Query | 北 | 京 | 今 | 天 | 天 | 气 | 怎 | 么 | 样 |
Model_1 | B-LOC | I-LOC | B-Time | I-Time | O | O | O | O | O |
Model_2 | O | O | O | O | B-Weather | I-Weather | O | O | O |
Model_3 | B-Contry | I-Contry | B-Time | I-Time | O | O | O | O | O |
即当输入为一个句子时,可以通过模型中的命名实体识别任务预测得到句子每个位置对应的标注。其中,一个句子则为一个数据或一个文本。命名实体识别任务输出的句子每个位置对应的标注即为第一输出类型。通过第一输出类型计算每个数据的命名实体识别任务的信任度时可以通过下列公式计算得到:
其中,L为句子X的句长,Confner表示句子X在命名实体识别任务(ner)的信任度,即第一信任度。表示K个模型对于句子X在位置l上,预测为标签Tagi的概率分布,i∈[1,M],l∈[1,L],每个位置共有M种槽位类别.通过上述公式可知,第一信任度即为K个模型在每个位置的信息熵H(X)的加和平均值。
具体地,以表1为例,在位置1上的共有3种可能,即对于句子中第一个位置的预测,通过三个模型(K=3)预测得到了三种不同的结果;则用于计算位置1的信息熵的概率分布为{1/3,1/3,1/3}。同理,在位置3上的共有2种可能(或者说是两种不同的预测结果),概率分布为{1/3,2/3}。
对于分类任务,其输出的是对整句的预测,每个模型预测输出句子的概率最大的分类结果。则句子X在分类任务(classification)的信任度可表示为:
其中,pj表示K个模型对于句子X预测为标签CLSj的分布概率,j∈[1,N],每个句子共有N种分类类别。
在一实施例中,当模型为单输出的分类模型时,则输出类型只有一种。此时,则可以根据具体输出类型对应的任务计算其信任度。例如输出类型是分类任务,则可以基于上述分类任务的计算过程,得到对应数据的信任度。
步骤S202:根据可调配权重、每个输出类型中每个数据的相应任务信任度计算得到每个数据的信任度。
在一实施例中,当模型为意图-语义槽联合模型时,根据上述内容可以计算得到每个输出类型中每个数据的相应任务信任度,即命名实体识别任务的信任度和分类任务的信任度。在确定每个输出类型中每个数据的相应任务信任度之后,可以结合计算的信任度以及其对应的权重计算每个句子或者每个数据的信任度。即对于一个句子X,信任度最终表示为联合模型各任务的加权平均值,具体表示为:
其中,m表示联合模型中的第m个任务,共有Tasks个任务,每个任务都是属于1个分类任务或1个命名实体识别任务。Confm表示第m个任务在当前句子X上,由K个模型计算得到的信任度,即X句子对应的第一信任度或第二信任度。weightm表示第m个任务的可调配权重,weightm∈(0,1),且weightm还可以表示为在度量全部K个模型关于句子X的全局信任度时,对当前任务m有多大的关注度;换言之,weightm越大,越关注于任务m的模型结果信任度。当训练多任务的联合模型时,可以基于经验及网格搜索确定得到每个任务的权重;同样地,这里的权重复用训练时,通过调参得到权重值。即可调配权重可以是复用指导训练全局loss时的权重。
在一实施例中,当模型为单输出的分类模型时,由于输出类型只有一种,因此可以直接将计算得到的对应任务的信任度作为该数据的信任度。即可以认为此时的可调配权重为1。
作为本发明实施例的一种可选的实施方式,如图4所示,步骤S104根据所述信任度和信任度阈值的关系确定样本数据集的噪声文本,包括如下步骤:
步骤S301:判断信任度和信任度阈值的大小;具体地,根据上述内容可知信任度是基于信息熵理论计算的。而信息熵的本质是表示一个数据分布的趋同性的指标:信息熵越大,表示数据分布越混乱;信息熵越小,表示数据越有序。同时,基于信任度的计算过程可知,信任度越大,则K个模型关于同一个数据的预测结果越各不相同,即样本数据集中数据可能出现标注错误的可能性越大。因此,通过比较信任度和信任度阈值的大小可以确定样本数据集的噪声文本。
步骤S302:当信任度大于信任度阈值时,将对应数据确定为第一噪声文本。具体地,当信任度大于信任度阈值时,则说明K个模型对于同一条数据(或同一个句子)预测结果多样性高,即K个模型预测结果均不相同,且分别属于不同的类型。此时,该句子的标注出现错误或者说该文本是噪声文本的可能性较大。可以将该句子确定为第一噪声文本。对于得到的所有第一噪声文本,可以将其都纳入检测结果集U1中。
步骤S303:当信任度小于信任度阈值时,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本。具体地,当信任度小于信任度阈值时,表明K个模型对于同一条数据预测结果趋同。但是不能就此确认该数据不是噪声文本。因此可以进一步将模型的预测结果和标注数据进行计算比对,即将K个模型多数相同的预测结果视为模型统一结果,与标注数据进行比较。其中,例如K=4,关于第一输出类型分类任务,有三个模型预测结果是相同的,则将该三个相同的模型预测结果作为模型统一结果;关于第二类命名实体任务,在同一数据的同一位置,有三个模型预测结果是相同的,则将该三个相同的模型在该位置上的预测结果作为模型统一结果。若各占一半的话,那么,取2个多数结果都进入到待比较结果中。
在一实施例中,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本时,先根据K个模型的多数预测结果与样本数据集中的文本标注是否相同计算得到一致性分数;然后判断一致性分数和一致性阈值的大小;当一致性分数小于一致性阈值时,将相应的多数预测结果确定为第二噪声文本。
在一具体实施方式中,在计算一致性分数时,可以分别计算命名实体识别任务的一致性分数和分类任务的一致性分数。其中,命名实体识别任务的一致性分数可以采用如下公式表示:
其中,表示命名实体识别任务的一致性分数。具体地,表示为在长度L的标注序列中,每个位置的K个模型多数预测结果与标注相同的数量占全部模型个数K的比例,并做全部位置L的加和平均值。X_predl表示在位置l上K个模型的多数预测结果;表示在位置l上预测结果与原数据标注相同且为X_predl的模型个数。
分类任务的一致性分数可以采用如下公式表示:
其中,表示分类任务的一致性分数。具体地,可表示为K个模型多数预测结果与标注相同的数量占比。X_pred表示K个模型与原始数据标注相同的多数预测结果;countX_pred表示预测结果为X_pred的模型个数。
在一实施例中,在联合模型多输出上,可以分别设置不同任务的各自阈值。即对于命名实体识别任务和分类任务可以分别设置各自的一致性阈值。根据上述公式可知,一致性分数表示的是K个模型的预测结果多大程度上与标注结果一致;一致性分数越大,表示两者越相近,即标注结果越可信;一致性分数越小,表示两者越不同,即标注越不可信。基于此,通过网格搜索方法结合人工抽样比对,设定允许一定程度模型误差区间的一致性阈值Qunif。
对于每条数据或每个句子计算得到的一致性分数可以分别和其对应的一致性阈值进行对比。若一致性分数小于一致性阈值,表示K个模型的多数预测结果与标注结果不同,为疑似噪声数据/错误标注数据的可能性较大。此时,将该句子确定为第二噪声文本。对于得到的所有第二噪声文本,可以将其都纳入检测结果集U2中。具体地,在将一致性分数和一致性阈值进行对比时,对于每个句子,可以将其计算的命名实体识别任务的一致性分数和分类任务的一致性分数分别和其对应的一致性阈值进行比较,只要二者之中有一个一致性分数小于一致性阈值,则将该句子作为第二噪声文本。
步骤S304:根据第一噪声文本和第二噪声文本确定样本数据集的噪声文本。具体地,在确定第一噪声文本和第二噪声文本,即检测结果集U1和检测记结果集U2后,可以确定样本数据集的噪声文本U。U可以表示为U=U1∪U2。将检测结果集U1和检测结果集U2取并集,即可得到样本数据集的噪声文本。
本发明实施例提供的文本标注噪声检测方法,在通过信任度和信任度阈值进行比较确定第一噪声文本的基础上,进一步以一致性分数和一致性阈值的比较结果确定了第二噪声文本。通过第一噪声文本和第二噪声文本取并集,最终确定了相应数据集的噪声文本。由此,该检测方法避免了确定的噪声文本的遗漏,进一步提高了确定的噪声文本的准确性。
作为本发明实施例的一种可选的实施方式,该文本标注噪声检测方法可以按照如图5所示的步骤实现:首先采用K折交叉验证(K-fold)对获取的样本数据集进行训练得到K个模型预测结果。然后基于联合模型的多任务输出,计算得到每条数据的信任度。将信任度和信任度阈值进行比较,当信任度大于信任度阈值时,将该数据加入信任度检测结果集U1,作为第一噪声文本。当信任度小于信任度阈值时,计算模型多数预测结果与标注结果的一致性指标,得到一致性分数。比较一致性分数和一致性阈值,当一致性分数小于一致性阈值时,将相应数据加入一致性检测结果集U2,作为第二噪声文本。将检测结果集U1和检测结果集U2取并集,即可计算得到样本数据集中的噪声文本U。
本发明实施例还提供一种文本标注噪声检测装置,如图6所示,该装置包括:
数据获取模块1,用于获取模型训练的样本数据集;详细内容参见上述方法实施例中步骤S101的相关描述。
结果预测模块2,用于根据所述样本数据集采用K折交叉验证得到模型预测结果;详细内容参见上述方法实施例中步骤S102的相关描述。
信任度计算模块3,用于基于模型预测结果的输出类型计算样本数据集中每个数据的信任度;详细内容参见上述方法实施例中步骤S103的相关描述。
噪声文本确定模块4,用于根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本。详细内容参见上述方法实施例中步骤S104的相关描述。
本发明实施例提供的文本标注噪声检测装置,提出了信任度度量指标,通过对数据样本集中的数据进行信任度评估,根据阈值筛选出噪声文本,可以用于工程上的数据标注纠错。并且,由于该检测装置的检测过程与神经模型无关,无需对模型做任何改动;因此,该检测装置与概率估计和鲁棒性的方法相比,集成性强,同时简化了繁琐的工程步骤;同时,该检测装置能够提供灵活的信任度配置,与鲁棒性的方法相比,检测过程及效果更加可控。
本发明实施例提供的文本标注噪声检测装置的功能描述详细参见上述实施例中文本标注噪声检测方法描述。
本发明实施例还提供一种存储介质,如图7所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中文本标注噪声检测方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图8所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的文本标注噪声检测方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-5所示实施例中的文本标注噪声检测方法。
上述电子设备具体细节可以对应参阅图1至图5所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (9)
1.一种文本标注噪声检测方法,其特征在于,包括:
获取待训练模型的样本数据集;
根据所述样本数据集采用K折交叉验证得到模型预测结果;
基于模型预测结果的输出计算样本数据集中每个数据的信任度;
根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本;
其中,基于模型预测结果的输出计算样本数据集中每个数据的信任度,包括:
基于信息熵理论,根据K个模型预测结果计算每一输出类型中每个数据的相应任务信任度;
根据可调配权重、每个输出类型中每个数据的相应任务信任度计算得到每个数据的信任度。
2.根据权利要求1所述的文本标注噪声检测方法,其特征在于,根据所述样本数据集采用K折交叉验证得到模型预测结果,包括:
对所述样本数据集做K折切分,得到K份数据集;
根据K份数据集进行训练,得到K个模型;
根据K个模型进行预测,得到K个模型预测结果。
3.根据权利要求2所述的文本标注噪声检测方法,其特征在于,根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本,包括:
判断所述信任度和信任度阈值的大小;
当所述信任度大于所述信任度阈值时,将对应数据确定为第一噪声文本。
4.根据权利要求3所述的文本标注噪声检测方法,其特征在于,根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本,还包括:
当所述信任度小于所述信任度阈值时,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本;
根据所述第一噪声文本和第二噪声文本确定所述样本数据集的噪声文本。
5.根据权利要求4所述的文本标注噪声检测方法,其特征在于,根据模型预测结果的一致性分数和一致性阈值的关系确定第二噪声文本,包括:
根据K个模型多数预测结果与样本数据集中的文本标注相同时的占比计算得到一致性分数;
判断所述一致性分数和一致性阈值的大小;
当所述一致性分数小于所述一致性阈值时,将相应的多数预测结果确定为第二噪声文本。
6.根据权利要求1所述的文本标注噪声检测方法,其特征在于,所述模型为单输出的分类模型或多输出的联合模型;
当所述模型为多输出的联合模型时,输出类型包括命名实体识别任务的输出和分类任务的输出。
7.一种文本标注噪声检测装置,其特征在于,包括:
数据获取模块,用于获取待训练模型的样本数据集;
结果预测模块,用于根据所述样本数据集采用K折交叉验证得到模型预测结果;
信任度计算模块,用于基于模型预测结果的输出计算样本数据集中每个数据的信任度;
噪声文本确定模块,用于根据所述信任度和信任度阈值的关系确定所述样本数据集的噪声文本;
所述信任度计算模块,包括:
第一计算模块,用于基于信息熵理论,根据K个模型预测结果计算每一输出类型中每个数据的相应任务信任度;
第二计算模块,用于根据可调配权重、每个输出类型中每个数据的相应任务信任度计算得到每个数据的信任度。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-6任一项所述的文本标注噪声检测方法。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-6任一项所述的文本标注噪声检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587910.4A CN113343695B (zh) | 2021-05-27 | 2021-05-27 | 一种文本标注噪声检测方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587910.4A CN113343695B (zh) | 2021-05-27 | 2021-05-27 | 一种文本标注噪声检测方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343695A CN113343695A (zh) | 2021-09-03 |
CN113343695B true CN113343695B (zh) | 2022-02-01 |
Family
ID=77472519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587910.4A Active CN113343695B (zh) | 2021-05-27 | 2021-05-27 | 一种文本标注噪声检测方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343695B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116688B (zh) * | 2021-10-14 | 2024-05-28 | 北京百度网讯科技有限公司 | 数据处理与数据质检方法、装置及可读存储介质 |
CN114386424B (zh) * | 2022-03-24 | 2022-06-10 | 上海帜讯信息技术股份有限公司 | 行业专业文本自动标注方法、装置、终端及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426826A (zh) * | 2015-11-09 | 2016-03-23 | 张静 | 一种基于标签噪声纠正的众包标注数据质量提升方法 |
CN107633444B (zh) * | 2017-08-29 | 2021-03-19 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
RU2678716C1 (ru) * | 2017-12-11 | 2019-01-31 | Общество с ограниченной ответственностью "Аби Продакшн" | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке |
CN108062394A (zh) * | 2017-12-18 | 2018-05-22 | 北京中关村科金技术有限公司 | 一种数据集的标注方法及相关装置 |
CN110851572A (zh) * | 2018-07-27 | 2020-02-28 | 北京京东尚科信息技术有限公司 | 会话标注方法、装置、存储介质及电子设备 |
CN109543756A (zh) * | 2018-11-26 | 2019-03-29 | 重庆邮电大学 | 一种基于主动学习的标签查询与更改方法 |
CN110110080A (zh) * | 2019-03-29 | 2019-08-09 | 平安科技(深圳)有限公司 | 文本分类模型训练方法、装置、计算机设备及存储介质 |
CN110705607B (zh) * | 2019-09-12 | 2022-10-25 | 西安交通大学 | 一种基于循环重标注自助法的行业多标签降噪方法 |
CN111914061B (zh) * | 2020-07-13 | 2021-04-16 | 上海乐言科技股份有限公司 | 文本分类主动学习的基于半径的不确定度采样方法和系统 |
CN112529210A (zh) * | 2020-12-09 | 2021-03-19 | 广州云从鼎望科技有限公司 | 模型训练方法、装置以及计算机可读存储介质 |
CN112686301A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 基于交叉验证的数据标注方法及相关设备 |
-
2021
- 2021-05-27 CN CN202110587910.4A patent/CN113343695B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113343695A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870768B2 (en) | Subject estimation system for estimating subject of dialog | |
US20190057164A1 (en) | Search method and apparatus based on artificial intelligence | |
CN106874441B (zh) | 智能问答方法和装置 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN110717099B (zh) | 一种推荐影片的方法及终端 | |
CN113343695B (zh) | 一种文本标注噪声检测方法、装置、存储介质及电子设备 | |
CN109635157B (zh) | 模型生成方法、视频搜索方法、装置、终端及存储介质 | |
CN104572631B (zh) | 一种语言模型的训练方法及系统 | |
CN109492217B (zh) | 一种基于机器学习的分词方法及终端设备 | |
US20180210897A1 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN113139051B (zh) | 文本分类模型训练方法、文本分类方法、设备和介质 | |
CN111382572A (zh) | 一种命名实体识别方法、装置、设备以及介质 | |
CN110019832B (zh) | 语言模型的获取方法和装置 | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
US9348810B2 (en) | Model learning method | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN113407776A (zh) | 标签推荐方法、装置、标签推荐模型的训练方法和介质 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN113792131B (zh) | 一种关键词的提取方法、装置、电子设备及存储介质 | |
CN112329430B (zh) | 一种模型训练方法、文本相似度确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |