CN113761925B - 基于噪声感知机制的命名实体识别方法、装置及设备 - Google Patents
基于噪声感知机制的命名实体识别方法、装置及设备 Download PDFInfo
- Publication number
- CN113761925B CN113761925B CN202110837136.8A CN202110837136A CN113761925B CN 113761925 B CN113761925 B CN 113761925B CN 202110837136 A CN202110837136 A CN 202110837136A CN 113761925 B CN113761925 B CN 113761925B
- Authority
- CN
- China
- Prior art keywords
- training
- sample
- text
- named entity
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000007246 mechanism Effects 0.000 title claims abstract description 39
- 230000008447 perception Effects 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 224
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种基于噪声感知机制的命名实体识别方法、装置及设备,其中方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。本发明提供的方法、装置、电子设备和存储介质,能够通过获取待识别文本的识别结果,根据识别结果对待识别文本进行命名实体类型判定,克服了命名实体识别数据集中正确样本和噪声样本难以区分的问题,实现了待识别文本的命名实体类型的精确识别。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于噪声感知机制的命名实体识别方法、装置及设备。
背景技术
随着互联网的大规模发展,信息的获取变得越来越容易,人们几乎无时无刻都会接触涉及各个领域的海量信息,比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的,并且存在一定程度的信息冗余。人们希望通过构建知识图谱来串联信息,使信息结构化。其中命名实体识别(Named Entity Recognition)是构建知识图谱的重要技术,主要研究如何识别出文本中实体的命名性指称项,并标明其类型(例如任命、地名、机构名、产品名等)。
现有的命名实体识别的深度学习方法,由于其训练的模型性能严重依赖于数据质量,并且现有的命名实体识别数据集中,不能保证所有的样本都是标注正确的;一些基于远程监督的数据集,往往含有较多的噪声样本;并且无法对正确标注但含有歧义的实体的正确样本和含有错误标注的噪声样本进行区分;而对于人工标注者,尤其是在众包平台上,同样容易出现标注错误,与此同时,重新标注一个规模较大并且完全正确的数据集是一个昂贵且困难的过程。
因此,现在亟需一种基于噪声感知机制的命名实体识别方法来解决上述问题。
发明内容
本发明提供基于噪声感知机制的命名实体识别方法,用以解决现有技术中对正确标注但含有歧义的实体的正确样本和含有错误标注的噪声样本难以区分的缺陷,实现含有较少噪声样本的干净的实体识别类型数据集。
本发明提供一种基于噪声感知机制的命名实体识别方法,包括:
确定待识别文本;
将所述待识别文本输入至命名实体识别模型,得到所述命名实体识别模型输出的识别结果;
所述命名实体识别模型是基于干净样本集合训练得到的,所述干净样本集合是基于原始样本集合中各样本文本的训练统计量,对所述原始样本集合进行噪声筛除得到的,所述训练统计量是在基于所述样本文本进行训练过程中统计的预测结果和标签之间的差异。
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述原始样本集合中各样本文本的训练统计量是基于如下步骤确定的:
基于所述原始样本集合中各样本文本及其标签,对初始命名实体识别模型进行多轮迭代训练,得到各样本文本在每轮训练中的预测结果;
基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量。
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量,包括:
确定任一样本文本在每轮训练中的第一预测概率和第二预测概率,所述第一预测概率为所述预测结果中属于所述任一样本文本的标签的概率,所述第二预测概率为所述预测结果中属于所述任一样本文本的其他标签类型的最大概率;所述其他标签类型为不包含所述第一预测概率所对应的标签类型的命名实体类型。
基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量。
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量,包括:
基于如下公式确定任一样本文本的训练统计量:
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述干净样本集合是基于如下步骤确定的:
筛除所述原始样本集合中训练统计量小于预设阈值的样本文本,得到所述干净样本集合。
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的;
所述调节项如下式所示:
LDCE=-plog(δp+(1-δ)q)
公式中,δ为超参数,p为命名实体模型预测的概率值,q为标签0-1向量。
根据本发明提供的一种基于噪声感知机制的命名实体识别方法,所述命名实体识别模型的训练函数是对所述条件随机场损失函数和所述调节项进行加权求和得到的。
本发明还提供一种基于噪声感知机制的命名实体识别装置,包括:
确定模块:用于确定待识别文本;
识别模块:用于将所述待识别文本输入至命名实体识别模型,得到所述命名实体识别模型输出的识别结果;
所述命名实体识别模型是基于干净样本集合训练得到的,所述干净样本集合是基于原始样本集合中各样本文本的训练统计量,对所述原始样本集合进行噪声筛除得到的,所述训练统计量是在基于所述样本文本进行训练过程中统计的预测结果和标签之间的差异。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于噪声感知机制的命名实体识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于噪声感知机制的命名实体识别方法的步骤。
本发明实施例提供的一种基于噪声感知机制的命名实体识别方法、装置及设备,针对原始样本集合设置噪声感知机制,通过感知原始样本集合中可能存在的噪声样本,实现了针对原始样本集合中噪声样本的筛除,为训练命名实体识别模型提供干净的训练样本集合;感知原始样本集合中可能存在的噪声样本是通过各样本文本进行训练过程中统计的预测结果和标签之间的差异得到的各样本文本的训练统计量实现的,训练统计量扩大了正确样本和噪声样本的差异程度,克服了原始样本集合中正确样本和噪声样本难以区分的问题;通过干净训练样本集合训练完成的命名实体识别模型能够对待识别文本进行更精准的识别待识别文本的命名实体类型,实现了待识别文本的命名实体类型的精确识别。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的用于基于噪声感知机制的命名实体识别方法的流程示意图;
图2是本发明实施例提供的用于获取原始样本集合中各样本文本训练统计量的流程示意图之一;
图3是本发明实施例提供的用于获取原始样本集合中各样本文本训练统计量的流程示意图之二;
图4是本发明实施例提供的用于命名实体识别方法的整体流程示意图;
图5是本发明实施例基于噪声感知机制的命名实体识别方法的系统架构图;
图6是本发明实施例基于噪声感知机制的命名实体识别装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的用于基于噪声感知机制的命名实体识别方法的流程示意图,如图1所示,本发明实施例提供了一种基于噪声感知机制的命名实体识别方法,包括:
步骤101:确定待识别文本。
具体地,待识别文本即需要进行命名实体识别的文本,待识别文本可以是用户直接输入的,也可以是将采集所得的音频进行语音转写后得到的,还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像,并对图像进行OCR(Optical CharacterRecognition,光学字符识别)得到的,本发明实施例对此不作限制。
步骤102:将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;
命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。
具体地,原始样本集合中包含大量经过标注的样本文本,此处标签为经过标注得到的与样本文本中对应命名实体的类型。考虑到通常的人工标注方式,可能会在原始样本集合中引入噪声样本,即标注错误的样本文本。如果直接应用存在噪声样本的原始样本集合作为训练集进行命名实体识别模型训练,可能会存在过拟合的问题,从而导致训练完成的实体识别模型对待识别文本进行识别的识别结果准确度低。
基于这一问题,本发明实施例针对原始样本集合设置噪声感知机制,通过感知原始样本集合中可能存在的噪声样本,实现对原始样本集合的噪声筛除,由此获得干净样本集合,此处干净样本集合即筛除了原始样本集合中的噪声样本之后的样本集合。
此处,感知原始样本集合中可能存在的噪声样本是通过原始样本集合中各样本文本的训练统计量实现的,训练统计量为基于样本文本进行训练过程中统计的预测结果和标签之间的差异。需要说明的是,为获取各样本文本的训练统计量而执行的训练过程,该训练过程是针对命名实体识别模型的训练过程,其中预测结果是训练过程中命名实体识别模型针对样本文本输出的,预测结果可以是样本文本中包含的命名实体的预测类型,也可以是样本文本中包含各种类型的命名实体的预测概率,本发明实施例对此不作具体限定。
在基于原始样本集合进行命名实体识别模型的训练过程中,训练的目的是命名实体识别模型更多的学习到正确样本和标签之间的对应关系,即正确样本的数量会高于噪声样本。因此,在对样本文本进行预测时,产生预测结果本身正确的概率也比较高,如果样本文本是正确样本,则其预测结果和标签趋于一致,此两者之间的差异会比较小;如果样本文本是噪声样本,则其预测结果和标签之间的差异会比较大。因此,可以将训练过程中每个样本文本的预测结果及其标签之间的差异,作为每个样本文本的训练统计量,以此衡量样本文本为噪声样本的可能性,并由此筛除噪声样本。
进一步地,预测结果和标签之间的差异,可以是两者类型是否相同,也可以是预测结果判定的不属于该标签的概率,还可以是预测结果中判定的属于非该标签类型的各个类型的最大概率与该标签概率的差值等,本发明实施例对此不作具体限定。
具体在基于每个样本文本的训练统计量,对原始样本集合进行噪声筛除时,可以将每个样本文本的训练统计量与预设的阈值进行比较,也可以对每个样本文本的训练统计量进行聚类,从而划分正确样本和噪声样本,也可以按照训练统计量从大到小的顺利进行排序,并从中选取前预设比例个样本文本作为噪声样本,本发明实施例对此不作限定。
在筛选得到干净样本集合后,即可基于干净样本集合重新训练命名实体识别模型,并将训练所得的命名实体识别模型应用到待识别文本的命名实体识别中,以减少噪声样本对命名实体识别模型训练的影响,提高了命名实体识别模型对待识别文本的识别的精确度。
本发明实施例提供的一种基于噪声感知机制的命名实体识别方法,针对原始样本集合设置基于训练统计量的噪声感知机制,通过感知原始样本集合中可能存在的噪声样本,实现了针对原始样本集合中噪声样本的筛除,为训练命名实体识别模型提供干净的训练样本集合;感知原始样本集合中可能存在的噪声样本是通过各样本文本进行训练过程中统计的预测结果和标签之间的差异得到的各样本文本的训练统计量实现的,训练统计量扩大了正确样本和噪声样本的差异程度,克服了原始样本集合中正确样本和噪声样本难以区分的问题,通过干净样本集合训练完成的命名实体识别模型,能够更精确的识别出待识别文本所属于的命名实体类型。
在上述实施例的基础上,图2为本发明实施例提供的用于获取原始样本集合中各样本文本训练统计量的流程示意图,如图2所示,原始样本集合中各样本文本的训练统计量是基于如下步骤得到:
步骤201:基于原始样本集合中各样本文本及其标签,对初始命名实体识别模型进行多轮迭代训练,得到各样本文本在每轮训练中的预测结果。
具体地,针对命名实体识别模型的训练,是通过多轮迭代的方式进行训练,其中初始命名实体识别模型是没有经过干净样本集合训练的命名实体识别模型;多轮迭代训练具体是对同一份原始样本集合进行多次的迭代训练,将每一轮迭代训练所得到的预测结果和标签用来对初始命名实体识别模型进行更新,更新后的初始命名实体模型对原始样本集合进行下一轮迭代训练;迭代次数可以固定于算法中,还可以是设置于配置文件中,还可以根据每轮迭代训练所得的损失函数值确定,本发明实施例不作限制。
步骤202:基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量。
具体地,针对各样本文本的训练统计量,是通过各样本文本经过命名实体识别模型的预测结果和标签的差异确定。其中单一样本文本的训练统计量确定的方式可以是将每轮训练的预测结果进行整合,并将整合后的预测结果和该样本文本的标签之间的差异作为该样本文本的训练统计量,还可以是分别计算每轮的预测结果与样本文本的标签之间的差异,并对每轮的差异进行整合以确定该样本文本的训练统计量。由此得到的训练统计量,与原始样本集合中的样本文本是一一对应的。
基于上述实施例,图3为本发明实施例提供的用于确定原始样本集合中各样本文本训练统计量的流程示意图,如图3所示,各样本文本训练统计量的确定方法具体包括:
步骤301:确定任一样本文本在每轮训练中的第一预测概率和第二预测概率;第一预测概率为预测结果中属于该样本文本的标签的概率,第二预测概率为预测结果中属于该样本文本的其他标签类型的最大概率;其他标签类型为标签集合中不包含第一预测概率所对应标签类型的标签类型。
具体地,预测结果包括对样本文本属于各种候选的命名实体类型的概率,由此得到的第一预测概率是预测结果中该样本文本属于标签类型的预测概率,第二预测概率是预测结果中不包含该样本文本对应标签类型的其他标签类型的预测概率中最大的概率,本发明实施例包括但不限制于以下例子:标签类型集合为{A,B,C,D},样本文本对应的标签类型为A,预测结果中A的概率为A’,B的概率为B’,C的概率为C’,D的概率为D’,则第一预测概率为A’,第二概率为B’、C’和D’中的最大概率。
步骤302:基于任一样本文本在每轮训练中的第一预测概率和第二预测概率的差值,确定该样本文本的训练统计量。
具体地,针对确定单一样本文本的训练统计量,是通过每一轮训练中得到的该样本文本的预测结果中获取第一预测概率和第二预测概率的差值,再对每一轮得到的差值进行整合得到该样本文本的训练统计量。
其中,一个优选的实例中,基于任一样本文本在每轮训练中的第一预测概率和第二预测概率的差值,确定该样本文本的训练统计量具体由以下公式确定:
公式中,x表示该样本文本,y为该样本文本的标签,LMD(x,y)为该样本文本的训练统计量;T为迭代训练次数,为该样本文本第t次迭代训练的第一预测概率,第一预测概率如前文所述为命名实体模型对属于该样本文本的标签类型的预测概率,为该样本文本第t次迭代训练的第二预测概率,第二预测概率如前文所述为预测结果中属于该样本文本的其他标签类型的预测概率的最大值。
在本发明实施例中通过训练统计量由对原始样本集合中的样本文本进行训练过程中统计的预测结果和标签之间的差异得到,扩大了正常样本和噪声样本的差异,为筛除原始样本集中的噪音样本提供了更显著的差异特征,保证了命名实体识别模型能够对待识别文本进行命名实体类型进行更精确的识别。
本发明另一实施例提供的命名实体模型训练方法中获取干净样本集合具体包括:
筛除原始样本集合中训练统计量小于预设阈值的样本文本,得到干净样本集合。
具体地,训练统计量公式的处理逻辑是每一轮先获取样本文本其他标签类型中最大概率,然后该样本文本所标注的标签类型的概率与该最大概率进行差值运算获取差值结果并记录,迭代完成后将每一轮的该样本文本对应的差值结果进行求和运算后再求均值,可见,根据上述逻辑该均值越大则预测结果和标签的差异越小,可见,当训练统计量的值小于预设阈值时表示的该训练统计量对应的样本文本为噪声文本。
筛除原始样本集合中训练统计量小于预设阈值的样本文本,得到干净样本集合,可以直接遍历原始样本集合中的每一个样本文本,将每一个样本文本与预设阈值对比,大于预设阈值时则进行下一个样本文本的处理,小于预设阈值的将该样本文本从原始样本集合中删除并进行下一个样本文本的处理,还可以是对原始样本集合中训练统计量先进行排序,然后排序后的集合中删除小于预设阈值的样本文本,本发明实施例对此不作限制。
在本发明实施例中通过去除原始样本集合中的噪音干扰样本,为训练命名实体识别模型提供干净的数据集,提升了模型的训练效果,保证了命名实体识别模型能够对待识别文本进行命名实体类型进行更精确的识别。
本发明另一实施例提供的命名实体模型训练方法中命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的;
调节项如下式所示:
LDCE=-plog(δp+(1-δ)q)
公式中,δ为超参数,p为命名实体模型预测的概率值,q为标签0-1向量。
具体地,针对命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的。需要说明的是超参数是在机器学习的上下文中,在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据;根据上述公式可知该调节项同时以信任标签信息和命名实体识别模型输出作为条件对命名实体识别模型进行训练,以防止训练过程中的过拟合。
基于上述实施例,本发明的另一实施例提供的命名实体识别模型的训练函数具体为条件随机场损失函数和调节项进行加权求和得到。
具体地,条件随机场损失函数和调节项进行加权求和得到的不完全信任损失函数作为命名实体识别的训练函数,其中条件随机场能够对中文进行分词和词性标注,主要进行词法分析,通过条件随机场损失函数和调节项进行加权求和作为训练函数,该函数能以更高的性能分析样本文本,并根据调节项对该样本文本进行预测。
其中,一个优选的实例中,条件随机场损失函数和调节项进行加权求和,具体如以下公式:
LIn-trust=αLCRF+βLDCE
公式中,α和β为两个可调节的超参数,LCRF为条件随机场的损失函数,LDCE为调节项。
在本发明实施例中通过条件随机场损失函数和调节项函数进行加权求和,防止在命名实体识别模型训练过程中的过拟合。
进一步地,图4为本发明实施例用于命名实体识别方法的整体流程示意图和图5为本发明实施例用于基于噪声感知机制的命名实体识别方法的系统架构图,结合图4和图5对本发明的基于噪声感知机制的命名实体识别方法实施例做进一步的补充说明:
第一步,确认训练数据,其中训练数据由样本文本和标签组成的原始数据集,原始数据集由正确样本和噪声样本组成。
第二步,将不完全信任损失函数作为命名实体识别模型的训练函数,基于前一步的训练数据对命名实体识别模型进行训练,训练数据中的每一个样本文本经过命名实体识别模型的处理输出一个Logit矩阵,其中,不完全信任损失函数有条件随机场损失函数和调节项进行加权求和,具体公式为:LIn-trust=αLCRF+βLDCE;Logit矩阵为一个维度为1×N的矩阵,N具体为标签类型的个数,Logit矩阵的具体含义是判断该样本文本属于哪个标签类型,并给该样本文本属于每个标签类型进行概率估计。
第三步,根据样本文本对应的Logit矩阵,获得预测结果和标签,将本次训练所得的预测结果和标签用来对初始命名实体识别模型进行更新。
第四步,基于第二步和第三步,使用训练数据对命名实体识别模型进行迭代训练,直至训练结束。
第五步,迭代训练完成后,通过样本统计量计算公式:对每一轮迭代得到的预测结果和标签的差异进行整合得到训练数据中每一个样本文本对应的样本统计量。其中,训练统计量公式的处理逻辑是每一轮先获取样本文本其他标签类型中最大概率,然后该样本文本所标注的标签类型的概率与该最大概率进行差值运算获取差值结果并记录,迭代完成后将每一轮的该样本文本对应的差值结果进行求和运算后再求均值,可知,根据上述逻辑该均值越大则预测结果和标签的差异越小。
第五步,针对于训练数据中每一个样本文本对应的样本统计量进行排序,基于预设的阈值,将小于该阈值的样本统计量对应的样本文本从训练数据中筛除,获得干净样本集合。
第六步,使用干净样本集合对命名实体识别模型进行训练得到训练完成的命名实体识别模型,该模型可以对待识别文本进行识别。
下面对本发明提供的基于噪声感知机制的命名实体识别装置进行描述,下文描述的基于噪声感知机制的命名实体识别装置与上文描述的基于噪声感知机制的命名实体识别方法可相互对应参照。
图6为基于噪声感知机制的命名实体识别装置,如图6所示,该装置包括:确定模块601和识别模块602。
其中,确定模块601:用于确定待识别文本。
识别模块602:用于将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果,命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。
在本发明实施例中,通过确定模块601来用于确定待识别的文本内容,通过识别模块602用于通过感知原始样本集合中可能存在的噪声样本,实现了针对原始样本集合中噪声样本的筛除,为训练命名实体识别模型提供干净的训练样本集合;感知原始样本集合中可能存在的噪声样本是通过各样本文本进行训练过程中统计的预测结果和标签之间的差异得到的各样本文本的训练统计量实现的,训练统计量扩大了正确样本和噪声样本的差异程度,克服了原始样本集合中正确样本和噪声样本难以区分的问题;通过干净训练样本集合训练完成的命名实体识别模型能够对待识别文本进行更精准的识别待识别文本的命名实体类型,实现了待识别文本的命名实体类型的精确识别。
基于上述任一实施例,识别模块602中用于得到原始样本集合中各样本文本的训练统计量的功能具体由以下子模块实现:
训练子模块:用于基于所述原始样本集合中各样本文本及其标签,对初始命名实体识别模型进行多轮迭代训练,得到各样本文本在每轮训练中的预测结果;
统计子模块:用于基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量。
基于上述任一实施例,训练子模块具体包括:用于处理确定任一样本文本在每轮训练中的第一预测概率和第二预测概率,所述第一预测概率为所述预测结果中属于所述任一样本文本的标签的概率,所述第二预测概率为所述预测结果中属于所述任一样本文本的其他标签类型的最大概率;所述其他标签类型为标签集合中不包含所述第一预测概率所对应标签类型的标签类型;统计子模块具体包括:基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量。
基于上述任一实施例,统计子模块用于基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量,包括:
基于如下公式确定任一样本文本的训练统计量:
基于上述任一实施例,识别模块602用于获取干净样本集合是基于如下步骤确定的:
筛除所述原始样本集合中训练统计量小于预设阈值的样本文本,得到所述干净样本集合。
基于上述任一实施例,训练子模块用于训练命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的。
基于上述任一实施例,训练子模块用于训练命名实体识别模型的训练函数是对条件随机场损失函数和调节项进行加权求和得到的。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于噪声感知机制的命名实体识别方法,该方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于噪声感知机制的命名实体识别方法,该方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于噪声感知机制的命名实体识别方法,该方法包括:确定待识别文本;将待识别文本输入至命名实体识别模型,得到命名实体识别模型输出的识别结果;命名实体识别模型是基于干净样本集合训练得到的,干净样本集合是基于原始样本集合中各样本文本的训练统计量,对原始样本集合进行噪声筛除得到的,训练统计量是在基于样本文本进行训练过程中统计的预测结果和标签之间的差异。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于噪声感知机制的命名实体识别方法,其特征在于,包括:
确定待识别文本;
将所述待识别文本输入至命名实体识别模型,得到所述命名实体识别模型输出的识别结果;
所述命名实体识别模型是基于干净样本集合训练得到的,所述干净样本集合是基于原始样本集合中各样本文本的训练统计量,对所述原始样本集合进行噪声筛除得到的,所述训练统计量是在基于所述样本文本进行训练过程中统计的预测结果和标签之间的差异;
所述原始样本集合中各样本文本的训练统计量是基于如下步骤确定的:
基于所述原始样本集合中各样本文本及其标签,对初始命名实体识别模型进行多轮迭代训练,得到各样本文本在每轮训练中的预测结果;
基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量;
所述基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量,包括:
确定任一样本文本在每轮训练中的第一预测概率和第二预测概率,所述第一预测概率为所述预测结果中属于所述任一样本文本的标签的概率,所述第二预测概率为所述预测结果中属于所述任一样本文本的其他标签类型的最大概率;所述其他标签类型为标签集合中不包含所述第一预测概率所对应标签类型的标签类型;
基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量;
所述基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量,包括:
基于如下公式确定任一样本文本的训练统计量:
所述干净样本集合是基于如下步骤确定的:
筛除所述原始样本集合中训练统计量小于预设阈值的样本文本,得到所述干净样本集合;
所述命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的;
所述调节项如下式所示:
LDCE=-plog(δp+(1-δ)q)
公式中,δ为超参数,p为命名实体模型预测的概率值,q为标签0-1向量;
所述命名实体识别模型的训练函数是对所述条件随机场损失函数和所述调节项进行加权求和得到的。
2.一种基于噪声感知机制的命名实体识别装置,其特征在于,包括:
确定模块:用于确定待识别文本;
识别模块:用于将所述待识别文本输入至命名实体识别模型,得到所述命名实体识别模型输出的识别结果;
所述命名实体识别模型是基于干净样本集合训练得到的,所述干净样本集合是基于原始样本集合中各样本文本的训练统计量,对所述原始样本集合进行噪声筛除得到的,所述训练统计量是在基于所述样本文本进行训练过程中统计的预测结果和标签之间的差异;
所述识别模块中用于得到原始样本集合中各样本文本的训练统计量的功能由以下子模块实现:
训练子模块:用于基于所述原始样本集合中各样本文本及其标签,对初始命名实体识别模型进行多轮迭代训练,得到各样本文本在每轮训练中的预测结果;
统计子模块:用于基于各样本文本在每轮训练中的预测结果和各样本文本的标签之间的差异,确定各样本文本的训练统计量;
所述训练子模块具体包括:用于处理确定任一样本文本在每轮训练中的第一预测概率和第二预测概率,所述第一预测概率为所述预测结果中属于所述任一样本文本的标签的概率,所述第二预测概率为所述预测结果中属于所述任一样本文本的其他标签类型的最大概率;所述其他标签类型为标签集合中不包含所述第一预测概率所对应标签类型的标签类型;统计子模块具体包括:基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量;
所述统计子模块用于基于所述任一样本在每轮训练中的第一预测概率和第二预测概率的差值,确定所述任一样本文本的训练统计量,包括:
基于如下公式确定任一样本文本的训练统计量:
所述识别模块用于获取干净样本集合是基于如下步骤确定的:
筛除所述原始样本集合中训练统计量小于预设阈值的样本文本,得到所述干净样本集合;
所述训练子模块用于训练命名实体识别模型的训练函数是基于条件随机场损失函数和调节项确定的,所述训练子模块用于训练命名实体识别模型的训练函数是对条件随机场损失函数和调节项进行加权求和得到的。
3.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1所述基于噪声感知机制的命名实体识别方法的步骤。
4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述基于噪声感知机制的命名实体识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837136.8A CN113761925B (zh) | 2021-07-23 | 2021-07-23 | 基于噪声感知机制的命名实体识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110837136.8A CN113761925B (zh) | 2021-07-23 | 2021-07-23 | 基于噪声感知机制的命名实体识别方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113761925A CN113761925A (zh) | 2021-12-07 |
CN113761925B true CN113761925B (zh) | 2022-10-28 |
Family
ID=78787895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110837136.8A Active CN113761925B (zh) | 2021-07-23 | 2021-07-23 | 基于噪声感知机制的命名实体识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761925B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417987A (zh) * | 2022-01-11 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法、数据识别方法、装置及设备 |
CN117744837B (zh) * | 2023-12-29 | 2024-08-20 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、文本检测方法、装置、存储介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
CN110362814A (zh) * | 2018-04-10 | 2019-10-22 | 普天信息技术有限公司 | 一种基于改进损失函数的命名实体识别方法及装置 |
CN111737552A (zh) * | 2020-06-04 | 2020-10-02 | 中国科学院自动化研究所 | 训练信息抽取模型和获取知识图谱的方法、装置和设备 |
CN112183099A (zh) * | 2020-10-09 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 基于半监督小样本扩展的命名实体识别方法及系统 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN112819023A (zh) * | 2020-06-11 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 样本集的获取方法、装置、计算机设备和存储介质 |
CN113076751A (zh) * | 2021-02-26 | 2021-07-06 | 北京工业大学 | 命名实体识别方法及系统、电子设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
CN111209396B (zh) * | 2019-12-27 | 2024-06-07 | 深圳市优必选科技股份有限公司 | 实体识别模型的训练方法及实体识别方法、相关装置 |
CN111738004B (zh) * | 2020-06-16 | 2023-10-27 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN111671399B (zh) * | 2020-06-18 | 2021-04-27 | 清华大学 | 噪声感知强度的测量方法、装置和电子设备 |
-
2021
- 2021-07-23 CN CN202110837136.8A patent/CN113761925B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362814A (zh) * | 2018-04-10 | 2019-10-22 | 普天信息技术有限公司 | 一种基于改进损失函数的命名实体识别方法及装置 |
CN110196908A (zh) * | 2019-04-17 | 2019-09-03 | 深圳壹账通智能科技有限公司 | 数据分类方法、装置、计算机装置及存储介质 |
CN111737552A (zh) * | 2020-06-04 | 2020-10-02 | 中国科学院自动化研究所 | 训练信息抽取模型和获取知识图谱的方法、装置和设备 |
CN112819023A (zh) * | 2020-06-11 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 样本集的获取方法、装置、计算机设备和存储介质 |
CN112183099A (zh) * | 2020-10-09 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 基于半监督小样本扩展的命名实体识别方法及系统 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113076751A (zh) * | 2021-02-26 | 2021-07-06 | 北京工业大学 | 命名实体识别方法及系统、电子设备和存储介质 |
Non-Patent Citations (6)
Title |
---|
Belainine Billal ; Alexsandro Fonseca ; Fatiha Sadat.Efficient natural language pre-processing for analyzing large data sets.《 2016 IEEE International Conference on Big Data (Big Data)》.2016, * |
一种解决命名实体识别数据集类别标记失衡的方法;许丽丹等;《四川大学学报(自然科学版)》;20200108(第01期);第88-94页 * |
基于BLSTM的命名实体识别方法;冯艳红等;《计算机科学》;20170516(第02期);第268-275页 * |
基于JCWA-DLSTM的法律文书命名实体识别方法;王得贤; 王素格; 裴文生; 李德玉;《中文信息学报》;20201015;第34卷(第10期);第51-58页 * |
基于n元词组表示的去噪方法及其在跨语言映射中的应用;于墨等;《智能计算机与应用》;20160428(第02期);第97-100页 * |
面向少量标注数据的命名实体识别研究;石教祥等;《情报工程》;20200815(第04期);第38-51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113761925A (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113761925B (zh) | 基于噪声感知机制的命名实体识别方法、装置及设备 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN112906397B (zh) | 一种短文本实体消歧方法 | |
CN111813954A (zh) | 文本语句中两实体的关系确定方法、装置和电子设备 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
US20200065369A1 (en) | Device for automatically detecting morpheme part of speech tagging corpus error by using rough sets, and method therefor | |
CN111190973A (zh) | 一种申报表的分类方法、装置、设备及存储介质 | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN112732863A (zh) | 电子病历标准化切分方法 | |
CN114091555A (zh) | 图像识别模型的训练方法、装置、电子设备及存储介质 | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN115687917A (zh) | 样本处理方法以及装置、识别模型训练方法及装置 | |
US8560469B2 (en) | Method for a pattern discovery and recognition | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
CN113934833A (zh) | 训练数据的获取方法、装置、系统及存储介质 | |
CN110309285B (zh) | 自动问答方法、装置、电子设备和存储介质 | |
CN113434630A (zh) | 客服服务评估方法、装置、终端设备及介质 | |
CN113704464A (zh) | 基于网络新闻的时评类作文素材语料库的构建方法及系统 | |
CN111767402A (zh) | 一种基于对抗学习的限定域事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |