CN111143571B - 实体标注模型的训练方法、实体标注方法以及装置 - Google Patents
实体标注模型的训练方法、实体标注方法以及装置 Download PDFInfo
- Publication number
- CN111143571B CN111143571B CN201811314682.8A CN201811314682A CN111143571B CN 111143571 B CN111143571 B CN 111143571B CN 201811314682 A CN201811314682 A CN 201811314682A CN 111143571 B CN111143571 B CN 111143571B
- Authority
- CN
- China
- Prior art keywords
- entity
- corpus
- model
- target field
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005457 optimization Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 238000000605 extraction Methods 0.000 description 10
- 238000004140 cleaning Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种实体标注模型的训练方法、实体标注方法以及装置,训练方法包括:将已标注语料以及目标领域的未标注语料输入到深度序列模型;通过深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型;通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型;将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,并得到实体标注模型,实体标注模型为训练完成的深度序列模型。通过上述方式,能够在不需要大量人工标注语料的前提下,实现不同领域的无监督实体标注。
Description
技术领域
本申请涉及人工智能模型应用技术领域,特别是涉及一种实体标注模型的训练方法、实体标注方法以及装置。
背景技术
命名实体识别是自然语言处理中的一项基本任务,可以识别出文本中的人名、地名等实体。随着现在人工智能的高速发展,以命名实体识别为基础的知识抽取、自动回答等应用对命名识别性能也提出了更高的要求。
传统的命名实体识别主要基于有监督的学习,需要专家或标注人员对实体类型进行定义以及对大量的语料进行标注,费时费力,无法满足现有的命名实体识别在不同领域的需求。
发明内容
本申请主要解决的技术问题是提供一种实体标注模型的训练方法、实体标注方法及装置,能够在不需要大量人工标注语料的前提下,实现不同领域的无监督实体标注。
为解决上述技术问题,本申请采用的第一个技术方案是:提供一种实体标注模型的训练方法,包括:将已标注语料以及目标领域的未标注语料输入到深度序列模型;通过深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型;通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型;将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,并得到实体标注模型,所述实体标注模型为训练完成的所述深度序列模型。
为解决上述技术问题,本申请采用的第二个技术方案是:提供一种实体标注方法,实体标注方法基于实体标注模型,实体标注模型是通过已标注语料以及目标领域的未标注语料对深度序列模型进行迭代优化得到的,包括:接收到待标注的语料;通过实体标注模型对待标注的语料进行实体抽取,并对实体的类型进行标注;输出待标注的语料的预测实体类型标注。
为解决上述技术问题,本申请采用的第三个技术方案是:提供一种实体标注模型的训练装置,包括语料输入模块、实体类型标注模块、答案预测模块以及模型优化模块,语料输入模块用于将已标注语料以及目标领域的未标注语料输入到深度序列模型;实体类型标注模块用于通过深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型;答案预测模块用于通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型;
模型优化模块用于将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,并得到实体标注模型,所述实体标注模型为训练完成的所述深度序列模型。
为解决上述技术问题,本申请采用的第四个技术方案是:提供一种智能装置,智能装置包括实体标注模型,实体标注模型是通过已标注语料以及目标领域的未标注语料对深度序列模型进行迭代优化得到的,包括:语料接收模块、实体类型标注模块以及输出模块;语料接收模块用于接收到待标注的语料;实体类型标注模块用于通过实体标注模型对待标注的语料进行实体抽取,并对实体的类型进行标注;输出模块用于输出待标注的语料的预测实体类型标注。
为解决上述技术问题,本申请采用的第五个技术方案是:提供一种智能终端,智能终端包括相互耦接的人机交互控制电路以及处理器及可在处理器上运行的计算机程序,处理器执行计算机程序时上述任一项实体标注模型的训练方法或执行上述任一项的实体标注方法的步骤。
为解决上述技术问题,本申请采用的第六个技术方案是:提供一种存储装置,存储装置上存储有程序数据,程序数据被处理器执行时实现上述任一项的实体标注模型的训练方法或实体标注方法。
本申请的有益效果是:本实施方式中,将已标注语料以及目标领域的未标注语料输入到深度序列模型,通过深度序列模型根据该已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型,再通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到预测实体类型,最后根据预测实体类型以及标注实体类型确定对深度序列模型是否进行再训练,并得到实体标注模型。上述方式中,能够在不需要人工干预的情况下利用已标注语料对目标领域的未标注语料进行实体类型的标注,降低了实体标注模型商用的入门门槛以及人力投入。并且,本实施方式中的无标注语料的领域并不做限定,可扩展性更强。
附图说明
图1是本申请实体标注模型的训练方法一实施方式的流程示意图;
图2是图1步骤102一具体实施方式的流程示意图;
图3是图1步骤104一具体实施方式的流程示意图;
图4是本申请实体标注模型的训练方法另一实施方式的流程示图;
图5是本申请实体标注方法一实施方式的流程示意图;
图6是本申请实体标注模型的训练装置一实施方式的结构示意图;
图7是本申请智能装置一实施方式的结构示意图;
图8是本申请智能终端一实施方式的结构示意图;
图9是本申请存储装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
深度序列模型是利用多层神经网络,对文字流作为一个序列进行处理的模型。
命名实体识别((Named Entity Recognition,简称NER),又称专名识别,是指识别文本中具有特定意义的实体,包括人名、地名、机构名、专用名词等。目前,命名实体识别是信息提取、问答系统、语句分析、及其翻译等面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般情况下,命名实体识别的任务就是识别出待处理语料中的实体类型,包括实体类、时间类以及数字类三大类,或者更为具体的分为人名、机构名、地名、时间、日期、货币和百分比七小类。
本申请是利用深度序列模型,能够在不需要大量人工标注语料的前提下,实现不同领域的无监督实体标注。
具体地,本申请提供一种实体标注模型的训练方法,如图1所示,包括如下步骤:
步骤101:将已标注语料以及目标领域的未标注语料输入到深度序列模型。
其中,该已标注语料可以从现有的语料库中获取,该已标注语料的具体语料内容可以不为同一领域。标注语料具体是指对语料中的实体类型进行了标注。
目标领域的未标注语料可以从网络中随机获取,该目标领域可以为知识抽取领域、问答领域、知识图谱领域等。目标领域的未标注语料可以从网络中随机获取。
已标注语料与目标领域的未标注语料也可以为不同领域的语料,也可以为相同或相似领域的语料。
为了方便后续处理,本实施方式中,首先对已标注语料以及目标领域的未标注语料进行预处理,获取到已标注语料以及目标领域的未标注语料的词向量。
该预处理具体包括对已标注语料以及目标领域的未标注语料进行去重和清洗处理。去除已标注语料中的重复语料以及目标领域的未标注语料中的重复语料,并对去重后的语料进行清洗,去除一些设定字符,如表情符号,语气词以及与一些标点字符等。去重和清洗完毕后,进一步地对去重和清洗后的已标注语料以及目标领域的未标注语料构建词向量,获取到已标注语料以及目标领域的未标注语料的词向量。再将已标注语料以及目标领域的未标注语料的词向量输入到深度序列模型。
步骤102:通过深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型。
由于本实施方式中用于训练该实体标注模型的语料为目标领域的未标注语料,为了得到本申请中用于确定预测实体类型的正确性的标注实体类型,本实施方式通过深度序列模型对上述目标领域的未标注语料进行实体抽取以及实体类型的标注。
具体地,为了清楚说明上述执行过程,如图2所示,包括如下步骤:
步骤1021:基于目标领域的未标注语料的上下文信息或在设定数据库中的概率确定目标领域的未标注语料的实体边界。
深度序列模型在接收到上述目标领域的未标注语料的词向量和已标注语料的词向量后,首先是将目标领域的未标注语料进行实体边界划分。在一个可选的实施方式中,可根据上述目标领域的未标注语料的上下文信息进行实体边界划分,比如“中国的首都是北京”,根据词性,“的”以及“是”为介词,可以确定介词前后的词语“中国”以及“北京”可能为两个实体词。
在另一个可选的实施方式中,也可以根据目标领域的未标注语料中的字符在设定数据库中的概率来进行实体划分。比如查找对应语料的每一个可能短语在数据库中出现的概率,将概率大于设定值的语料确定为一个实体。其中,上述设定数据库为常规网络数据库或者根据需要设定的标注语料数据库等,在此不做限定。比如无标注语料为“蓝色手机”,根据从数据库的查找,“手机”出现的概率高于设定值,“蓝色”的概率也高于设定值,但是“蓝色手机”的概率低于设定值,因此,确定“蓝色手机”不能单独构成一个实体,但“手机”和“蓝色”可以构成两个不同的实体。
由于已标注语料中的实体类型是经过标注的,因此,在另一个实施方式中,还可依据已标注语料中的实体类型对目标领域的未标注语料的实体进行边界划分。具体地,可查找目标领域的未标注语料中是否存在与已标注语料的实体相同的字符序列串,如果有,则直接确定该字符序列串对应的语料为一个实体。
在必要的时候,上述三种实体边界划分的方式可以相互结合起来同时使用,比如为了提高实体边界划分的准确性,首先查找与目标领域的未标注语料中的相同的实体,剩下的,再分别通过上下文信息或查找在设定数据库中出现的概率来划分。
步骤1022:利用实体边界对目标领域的未标注语料的实体进行抽取。
在对目标领域的未标注语料进行实体边界划分后,抽取划分出来的实体。
步骤1023:基于已标注语料的实体类型,将目标领域的未标注语料中的与已标注语料的实体类型相同的实体进行聚类,得到目标领域的未标注语料的标注实体类型。
本实施方式的目的在于对实体进行实体类型的标注,比如确定该实体属于实体类、时间类以及数字类三大类,或者为人名、机构名、地名、时间、日期、货币和百分比七小类中哪一种,采用的方式是利用已标注语料对抽取的目标领域的未标注语料的实体进行实体类型标注。具体地,本实施方式中采用的是聚类的方法。
顾名思义,聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,常规的有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
本实施方式中,是利用已标注语料的实体类型,将目标领域的未标注语料中与该实体类型对应的实体相同或相似的实体进行聚类。比如,在已标注语料中,北京的实体类型为地名、恩格斯的实体类型为人名,2018年为日期,那么,目标领域的未标注语料中的“北京”可直接标注为地名,“恩格斯”可直接标注为人名,“2018年”直接标注为日期。
步骤103:通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型。
由于本实施方式中的实体标注模型的初始模型为深度序列模型,因此,通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型。
步骤104:将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,并得到实体标注模型,所述实体标注模型为训练完成的所述深度序列模型。
由于深度序列模型本身并不具有很完善的实体类型标注功能,其输出的预测实体结果并不完全准确,或者准确率较低,因此,简单的一次优化并不能达到商用效果。为了提高实体标注模型的准确率,本实施方式采用的是迭代优化的方式对深度序列模型进行迭代训练。具体地,如图3所示,包括如下步骤:
步骤1041:将标注实体类型与预测实体类型进行比对,根据比对结果对深度序列模型进行优化训练,得到深度序列模型的当前优化模型参数。
具体地,对模型的训练一般是为获取到模型的优化参数,因此,在通过将标准实体类型与预测实体类型进行比对后,对深度序列模型进行训练,得到深度序列模型的当前优化模型参数。
步骤1042:基于目标领域的无标注语料以及已标注语料利用当前优化模型参数对深度序列模型进行迭代训练。
在得到当前优化模型参数后,即构成了第一次优化后的深度序列模型,进一步,继续将目标领域的无标注语料以及已标注语料进行处理后,输入到该第一次优化后的深度序列模型中,执行步骤102,得到标注实体类型与预测实体类型,并对上述标注实体类型与预测实体类型进行比对,根据比对结果对第一次优化后的深度序列模型进行再次优化,即得到第二次优化后的深度序列模型的当前优化模型参数。重复上述过程,对上一次得到的深度序列模型不断进行优化。
步骤1043:当迭代次数达到设定数量或迭代训练后的深度序列模型的输出正确率高于设定概率时,将经迭代训练后的深度序列模型确定为实体标注模型。
在一个可选的实施方式中,在进行迭代时,深度序列模型自动计数,每迭代优化一次,计数器加1,当迭代次数达到设定数量如50次时,发出提示信息,提醒迭代次数已完成,当前版本的深度序列模型可以确定为实体标注模型。
在另一个可选的实施方式中,也可以统计设定周期内的当前版本的深度序列模型对目标领域的未标注语料的进行实体类型预测的预测结果的准确率是否达到设定概率,如80%或85%等,如果达到了,发出提示信息,提醒当前版本的深度序列模型可以确定为实体标注模型。
在其他实施方式中,由于不同领域的语料库总是在不断更新,当前准确率已经很高的实体标注模型可能对新的语料进行处理时,准确率并不理想,因此,本实施方式的实体标注模型在投入使用后也可以定期或实时的再次进行优化,本实施方式不做限定。
本实施方式中,将已标注语料以及目标领域的未标注语料输入到深度序列模型,通过深度序列模型根据该已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型,再通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到预测实体类型,最后根据预测实体类型以及标注实体类型对深度序列模型进行训练,得到实体标注模型。上述方式中,能够在不需要人工干预的情况下利用已标注语料对目标领域的未标注语料进行实体类型标注,降低了实体标注模型商用的入门门槛以及人力投入。并且,本实施方式中的无标注语料的领域并不做限定,可扩展性更强。
另外,本实施方式中采用迭代优化的方式,能够进一步提高对现有数据的利用率,提高实体标注模型的预测准确率,增强实体标注模型的鲁棒性。
在另一个实施方式中,为了进一步地提高实体标注模型的预测准确率,本实施方式中充分利用已标注语料,先通过已标注语料对深度序列模型进行训练,再通过目标领域的无标注语料以及该已标注语料对训练后的深度序列模型进行迭代训练。如图4所示,包括如下步骤:
步骤401:将已标注语料以及目标领域的未标注语料输入到深度序列模型。
该步骤与步骤101相同,具体请参阅步骤101的相关文字描述,在此不再赘述。
步骤402:通过已标注语料对深度序列模型进行训练,得到训练后的深度序列模型。
具体地,通过深度序列模型对已标注语料进行实体类型预测,得到预测实体类型。将该预测实体类型与经过人工标注的实体类型进行比对,并根据比对结果对深度序列模型进行训练,并将训练后的深度序列模型作为初始模型。
由于已标注语料中的实体类型是经过人工标注的,准确性高,因此,通过该方式能够使初始模型具有相对的准确率,节省后续训练时间。
在另一个可选的实施方式中,如果已标注语料的数量较大,也可以在预设时间或设定次数内通过已标注语料对该深度序列模型进行迭代训练,以提高初始模型的性能。
步骤403:通过训练后的深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体抽取以及实体类型的标注,得到目标领域的未标注语料的标注实体类型。
该步骤与步骤102相同,具体请参阅步骤102的相关文字描述,在此不再赘述。
步骤404:通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型。
该步骤与步骤103相同,具体请参阅步骤103的相关文字描述,在此不再赘述。
步骤405:将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,得到实体标注模型,实体标注模型为训练完成的所述深度序列模型。
该步骤与步骤104相同,具体请参阅步骤104的相关文字描述,在此不再赘述。
区别于上述任一实施方式,本实施方式先通过已标注语料对深度序列模型进行训练,并将训练后的模型确定为初始模型,能够在不额外增加人力和财力成本的前提下,充分利用已有的标注语料对深度序列模型进行先训练,提高初始模型的性能,为后续对该初始模型进行训练时提供较好的模型基础。
参阅图5,图5是本申请实体标注方法一实施方式的流程示意图。本实施方式的实体标注方法基于实体标注模型,该实体标注模型是通过已标注语料以及目标领域的未标注语料对深度序列模型进行迭代优化得到的,具体通过图1-图4及其文字描述的上述任一实施方式的实体标注模型的训练方法训练而得到的。包括如下步骤:
步骤501:接收到待标注语料。
用户在使用智能装置进行实体标注时,一般会通过智能装置的人工界面利用语音输入或文字输入的方式输入待标注的语料,对应的智能装置接收上述待标注的语料。
步骤502:通过实体标注模型对待标注的语料进行实体抽取,并对实体的类型进行标注。
智能装置将待标注语料输入至实体标注模型,实体标注模型从数据库或网络知识图谱中获取该待标注的语料的实体的类型。
步骤503:输出待标注语料的预测实体类型标注。
具体地,智能装置可通过其人工界面显示该待标注语料的实体类型,在此不做限定。
在本实施方式中,智能装置接收到待标注语料,通过实体标注模型对待标注语料进行实体抽取,并对实体的类型进行标注,输出待标注语料的实体类型标注。实体标注模型是通过上述任一实施方式的实体标注模型的训练方法训练得到。
参阅图6,图6是本申请实体训练模型的训练装置一实施方式的结构示意图。包括语料输入模块601、实体类型标注模块602、答案预测模块603以及模型优化模块604。
语料输入模块601用于将已标注语料以及目标领域的未标注语料输入到深度序列模型。
其中,该已标注语料可以从现有的语料库中获取,该已标注语料的具体语料内容可以不为同一领域。标注语料具体是指对语料中的实体类型进行了标注。
目标领域的未标注语料可以从网络中随机获取,该目标领域可以为知识抽取领域、问答领域、知识图谱领域等。目标领域的未标注语料可以从网络中随机获取。
已标注语料与目标领域的未标注语料也可以为不同领域的语料,也可以为相同或相似领域的语料。
为了方便后续处理,本实施方式中,首先对已标注语料以及目标领域的未标注语料进行预处理,获取到已标注语料以及目标领域的未标注语料的词向量。
该预处理具体包括对已标注语料以及目标领域的未标注语料进行去重和清洗处理。去除已标注语料中的重复语料以及目标领域的未标注语料中的重复语料,并对去重后的语料进行清洗,去除一些设定字符,如表情符号,语气词以及与一些标点字符等。去重和清洗完毕后,进一步地对去重和清洗后的已标注语料以及目标领域的未标注语料构建词向量,获取到已标注语料以及目标领域的未标注语料的词向量。再将已标注语料以及目标领域的未标注语料的词向量输入到深度序列模型。
实体类型标注模块602用于通过深度序列模型根据已标注语料的实体类型对目标领域的未标注语料进行实体类型的标注,得到目标领域的未标注语料的标注实体类型。
由于实施方式中用于训练该实体标注模型的语料为目标领域的未标注语料,为了得到本申请中用于确定预测实体类型的正确性的标注实体类型,本实施方式将已标注语料以及目标领域的未标注语料的词向量输入到深度序列模型后,通过深度序列模型对上述目标领域的未标注语料进行实体抽取以及实体类型的标注。
具体地,实体类型标注模块602首先基于目标领域的未标注语料的上下文信息或在设定数据库中的概率确定目标领域的未标注语料的实体边界。
在一个可选的实施方式中,实体类型标注模块602可根据上述目标领域的未标注语料的上下文信息进行实体边界划分。
在另一个可选的实施方式中,实体类型标注模块602也可以根据目标领域的未标注语料中的字符在设定数据库中的概率来进行实体划分。比如查找对应语料的每一个可能短语在数据库中出现的概率,将概率大于设定值的语料确定为一个实体。其中,上述设定数据库为常规网络数据库或者根据需要设定的标注语料数据库等。
在另一个实施方式中,实体类型标注模块602还可依据已标注语料中的实体类型对目标领域的未标注语料的实体进行边界划分。具体地,可查找目标领域的未标注语料中是否存在与已标注语料的实体相同的字符序列串,如果有,则直接确定该字符序列串对应的语料为一个实体。
在必要的时候,上述三种实体边界划分的方式可以相互结合起来同时使用,比如为了提高实体边界划分的准确性,首先查找与目标领域的未标注语料中的相同的实体,剩下的,再分别通过上下文信息或查找在设定数据库中出现的概率来划分。
进一步地实体类型标注模块602利用实体边界对目标领域的未标注语料的实体进行抽取。基于标注语料的实体类型,将目标领域的未标注语料中的与已标注语料的实体类型相同的实体进行聚类,得到目标领域的未标注语料的标注实体类型。
本实施方式的目的在于对实体进行实体类型的标注,比如确定该实体属于实体类、时间类以及数字类三大类,或者为人名、机构名、地名、时间、日期、货币和百分比七小类中哪一种,采用的方式是利用已标注语料对抽取的目标领域的未标注语料的实体进行实体类型标注。具体地,本实施方式中采用的是聚类的方法。
顾名思义,聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,常规的有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。
本实施方式中,是利用已标注语料的实体类型,将目标领域的未标注语料中与该实体类型对应的实体相同或相似的实体进行具体。比如,在已标注语料中,北京的实体类型为地名、恩格斯的实体类型为人名,2018年为日期,那么,目标领域的未标注语料中的“北京”可直接标注为地名,“恩格斯”可直接标注为人名,“2018年”直接标注为日期。
在另一个实施方式中,为了进一步地提高实体标注模型的预测准确率,本实施方式中充分利用已标注语料,先通过已标注语料对深度序列模型进行训练,再通过目标领域的无标注语料以及该已标注语料对训练后的深度序列模型进行迭代训练。
具体地,实体类型标注模块602通过深度序列模型对已标注语料进行实体类型预测,得到预测实体类型。将该预测实体类型与经过人工标注的实体类型进行比对,并根据比对结果对深度序列模型进行训练,并将训练后的深度序列模型作为初始模型。
由于已标注语料中的实体类型是经过人工标注的,准确性高,因此,通过该方式能够使初始模型具有相对的准确率,节省后续训练时间。
在另一个可选的实施方式中,如果已标注语料的数量较大,也可以在预设时间或设定次数内通过已标注语料对该深度序列模型进行迭代训练,以提高初始模型的性能。
答案预测模块603用于通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型。
由于本实施方式中的实体标注模型的初始模型为深度序列模型,因此,答案预测模块603通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到目标领域的未标注语料的预测实体类型。
模型优化模块604用于将标注实体类型与预测实体类型进行比对,根据比对结果确定对深度序列模型是否进行再训练,得到实体标注模型,所述实体标注模型为训练完成的所述深度序列模型。
由于深度序列模型本身并不具有很完善的实体类型标注功能,其输出的预测实体结果并不完全准确,或者准确率较低,因此,简单的一次优化并不能达到商用效果,为了提高实体标注模型的准确率,本实施方式采用的是迭代优化的方式对深度序列模型进行迭代训练。
具体地,模型优化模块604先将标注实体类型与预测实体类型进行比对,根据比对结果对深度序列模型进行优化训练,得到深度序列模型的当前优化模型参数。然后再基于目标领域的无标注语料以及已标注语料利用当前优化模型参数对深度序列模型进行迭代训练。当迭代次数达到设定数量或迭代训练后的深度序列模型的输出的正确率高于设定概率时,将经迭代训练后的深度序列模型确定为实体标注模型。
在其他实施方式中,由于不同领域的语料库总是在不断更新,当时准确率已经很高的实体标注模型可能对新的语料进行处理时,准确率并不理想,因此,本实施方式的实体标注模型在投入使用后也可以定期或实时的再次进行优化,本实施方式不做限定。
区别于现有技术,本实施方式通过深度序列模型根据该已标注语料的实体类型对目标领域的未标注语料进行实体抽取以及实体类型的标注,得到目标领域的未标注语料的标注实体类型,再通过深度序列模型对目标领域的未标注语料进行实体类型预测,得到预测实体类型,最后根据预测实体类型以及标注实体类型对深度序列模型进行训练,得到实体标注模型。上述方式中,能够在不需要人工干预的情况下利用已标注语料对目标领域的未标注语料进行实体类型标注,降低了实体标注模型商用的入门门槛以及人力投入。并且,本实施方式中的无标注语料的领域并不做限定,可扩展性更强。另外,本实施方式中采用迭代优化的方式,能够进一步提高对现有数据的利用率,提高实体标注模型的预测准确率,增强实体标注模型的鲁为棒性。
参阅图7,图7是本申请智能装置一实施方式的结构示意图。
该智能装置包括实体标注模型,该实体标注模型是通过已标注语料以及目标领域的未标注语料对深度序列模型进行迭代优化得到的,具体通过图1-图4及其文字描述的上述任一实施方式的实体标注模型的训练方法训练而得到的。包括语料接收模块701、实体类型标注模块702以及输出模块703。
语料接收模块701用于接收到待标注的语料。
用户在使用智能装置进行实体标注时,一般会通过智能装置的人工界面利用语音输入或文字输入的方式输入待标注的语料,对应的语料接收模块701接收上述待标注的语料。
实体类型标注模块702用于通过实体标注模型对待标注的语料进行实体抽取,并对实体的类型进行标注。
实体类型标注模块702将该待标注的语料输入至实体标注模型,实体标注模型从数据库或网络知识图谱中获取该待标注的语料的实体的类型。
输出模块703用于输出待标注的语料的预测实体类型标注。
具体地,问题输出模块703可通过其人工界面显示该待标注语料的实体类型,在此不做限定。
区别于现有技术,在本实施方式中,通过对待标注语料进行实体抽取,并对实体的类型进行标注,输出待标注语料的实体类型标注。实体标注模型是通过上述任一实施方式的实体标注模型的训练方法训练得到。
参阅图8,图8是本申请智能终端一实施方式的结构示意图。其中,本实施方式的智能终端80包括人机交互控制电路802以及与该人机交互控制电路802耦接的处理器801。该处理器801上可运行计算机程序。处理器801在执行计算机程序时能够实现图1-图4及其相关文字描述的任一实施方式的实体标注模型的训练方法,或者执行图5及其相关文字描述的任一实施方式的实体标注方法。
请参与图9,本申请还提供一种存储装置的实施例的结构示意图。本实施例中,该存储装置90存储有处理器可运行的计算机指令91,该计算机指令91用于执行图1-图4及其相关文字描述的任一实施方式的实体标注模型的训练方法的步骤,或者执行图5及其相关文字描述的任一实施方式的实体标注方法步骤。
该存储装置90具体可以为U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory,)、磁碟或者光盘等可以存储计算机指令91的介质,或者也可以为存储有该计算机指令91的服务器,该服务器可将存储的计算机指令91发送给其他设备运行,或者也可以自运行该存储的计算机指令91。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种实体标注模型的训练方法,其特征在于,所述训练方法包括:
将已标注语料以及目标领域的未标注语料输入到深度序列模型;
通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型;
通过所述深度序列模型对所述目标领域的未标注语料进行实体类型预测,得到所述目标领域的未标注语料的预测实体类型;
将所述标注实体类型与所述预测实体类型进行比对,根据比对结果对所述深度序列模型进行优化训练,得到所述深度序列模型的当前优化模型参数;
基于所述当前优化模型参数对所述深度序列模型进行迭代训练;
根据迭代次数是否达到设定数量或迭代训练后的深度序列模型的输出正确率是否高于设定概率确定对所述深度序列模型是否进行再训练,并得到所述实体标注模型,所述实体标注模型为训练完成的所述深度序列模型;
所述通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型的步骤具体包括:
基于所述目标领域的未标注语料的上下文信息或/和在设定数据库中的概率确定所述目标领域的未标注语料的实体边界;
利用所述实体边界对所述目标领域的未标注语料的实体进行抽取;
基于所述已标注语料的实体类型,将所述目标领域的未标注语料中的与所述已标注语料的类型相同的实体进行聚类,得到所述目标领域的未标注语料的所述标注实体类型。
2.根据权利要求1所述的训练方法,其特征在于,所述基于所述当前优化模型参数对所述深度序列模型进行迭代训练的步骤具体包括:
基于所述目标领域的无标注语料以及所述已标注语料基于所述当前优化模型参数对所述深度序列模型进行迭代训练。
3.根据权利要求1所述的训练方法,其特征在于,所述根据迭代次数是否达到设定数量或迭代训练后的深度序列模型的输出正确率是否高于设定概率确定对所述深度序列模型是否进行再训练,并得到所述实体标注模型,所述实体标注模型为训练完成的所述深度序列模型的步骤具体包括:
当迭代次数达到设定数量或迭代训练后的深度序列模型的输出正确率高于设定概率时,将经所述迭代训练后的深度序列模型确定为所述实体标注模型。
4.根据权利要求1-3任一项所述的训练方法,其特征在于,所述通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型的步骤包括:
通过所述已标注语料对所述深度序列模型进行训练,得到训练后的深度序列模型;
通过所述训练后的深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的所述标注实体类型。
5.一种实体标注方法,其特征在于,所述实体标注方法基于实体标注模型,所述实体标注模型是通过权利要求1-4任一项训练方法训练得到的,包括:
接收到待标注的语料;
通过所述实体标注模型对所述待标注的语料进行实体抽取,并对所述实体的类型进行标注;
输出所述待标注的语料的实体类型标注。
6.一种实体标注模型的训练装置,其特征在于,包括语料输入模块、实体类型标注模块、答案预测模块以及模型优化模块,
所述语料输入模块用于将已标注语料以及目标领域的未标注语料输入到深度序列模型;
所述实体类型标注模块用于通过所述深度序列模型根据所述已标注语料的实体类型对所述目标领域的未标注语料进行实体类型的标注,得到所述目标领域的未标注语料的标注实体类型;其中,所述实体类型标注模块具体用于:基于所述目标领域的未标注语料的上下文信息或/和在设定数据库中的概率确定所述目标领域的未标注语料的实体边界;利用所述实体边界对所述目标领域的未标注语料的实体进行抽取;基于所述已标注语料的实体类型,将所述目标领域的未标注语料中的与所述已标注语料的类型相同的实体进行聚类,得到所述目标领域的未标注语料的所述标注实体类型;
所述答案预测模块用于通过所述深度序列模型对所述目标领域的未标注语料进行实体类型预测,得到所述目标领域的未标注语料的预测实体类型;
所述模型优化模块用于将所述标注实体类型与所述预测实体类型进行比对,根据比对结果对所述深度序列模型进行优化训练,得到所述深度序列模型的当前优化模型参数,基于所述当前优化模型参数对所述深度序列模型进行迭代训练,根据迭代次数是否达到设定数量或迭代训练后的深度序列模型的输出正确率是否高于设定概率确定对所述深度序列模型是否进行再训练,并得到所述实体标注模型,所述实体标注模型为训练完成的所述深度序列模型。
7.一种智能装置,其特征在于,所述智能装置包括实体标注模型,所述实体标注模型是通过权利要求1-4任一项训练方法训练得到的,包括:语料接收模块、实体类型标注模块以及输出模块;
所述语料接收模块用于接收到待标注的语料;
所述实体类型标注模块用于通过所述实体标注模型对所述进行实体抽取,并对所述实体的类型进行标注;
所述输出模块用于输出所述语料的实体类型标注。
8.一种智能终端,其特征在于,所述智能终端包括相互耦接的人机交互控制电路以及处理器及可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~4任一项所述的实体标注模型的训练方法或执行权利要求5所述的实体标注方法的步骤。
9.一种存储装置,其特征在于,所述存储装置上存储有程序数据,所述程序数据被处理器执行时实现如权利要求1~4任一项所述的实体标注模型的训练方法或权利要求5所述的实体标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811314682.8A CN111143571B (zh) | 2018-11-06 | 2018-11-06 | 实体标注模型的训练方法、实体标注方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811314682.8A CN111143571B (zh) | 2018-11-06 | 2018-11-06 | 实体标注模型的训练方法、实体标注方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111143571A CN111143571A (zh) | 2020-05-12 |
CN111143571B true CN111143571B (zh) | 2020-12-25 |
Family
ID=70515317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811314682.8A Active CN111143571B (zh) | 2018-11-06 | 2018-11-06 | 实体标注模型的训练方法、实体标注方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143571B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611802B (zh) * | 2020-05-21 | 2021-08-31 | 苏州大学 | 多领域实体识别方法 |
CN112036569B (zh) * | 2020-07-30 | 2021-07-23 | 第四范式(北京)技术有限公司 | 知识内容的标注方法、装置、计算机装置和可读存储介质 |
CN112329466A (zh) * | 2020-10-13 | 2021-02-05 | 北京三快在线科技有限公司 | 命名实体识别模型的构建方法、装置、设备以及存储介质 |
CN114648028A (zh) * | 2020-12-21 | 2022-06-21 | 阿里巴巴集团控股有限公司 | 标注模型的训练方法、装置、电子设备和存储介质 |
CN113255355B (zh) * | 2021-06-08 | 2024-09-20 | 北京明略软件系统有限公司 | 文本信息中的实体识别方法、装置、电子设备和存储介质 |
CN114492306A (zh) * | 2021-11-16 | 2022-05-13 | 马上消费金融股份有限公司 | 语料标注方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646091A (zh) * | 2011-02-22 | 2012-08-22 | 日电(中国)有限公司 | 依存关系标注方法、装置和系统 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9436759B2 (en) * | 2007-12-27 | 2016-09-06 | Nant Holdings Ip, Llc | Robust information extraction from utterances |
-
2018
- 2018-11-06 CN CN201811314682.8A patent/CN111143571B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646091A (zh) * | 2011-02-22 | 2012-08-22 | 日电(中国)有限公司 | 依存关系标注方法、装置和系统 |
CN103853710A (zh) * | 2013-11-21 | 2014-06-11 | 北京理工大学 | 一种基于协同训练的双语命名实体识别方法 |
CN108519978A (zh) * | 2018-04-10 | 2018-09-11 | 成都信息工程大学 | 一种基于主动学习的中文正式文本分词方法 |
Non-Patent Citations (1)
Title |
---|
电子病历命名实体和实体关系抽取研究综述;杨锦锋等;《自动化学报》;20140815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111143571A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110019843B (zh) | 知识图谱的处理方法及装置 | |
CN111090736B (zh) | 问答模型的训练方法、问答方法、装置及计算机存储介质 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN112069826A (zh) | 融合主题模型和卷积神经网络的垂直域实体消歧方法 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN110674301A (zh) | 一种情感倾向预测方法、装置、系统及存储介质 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN105631032B (zh) | 基于抽象语义推荐的问答知识库建立方法、装置及系统 | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN115906835A (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN114490937A (zh) | 基于语义感知的评论分析方法及装置 | |
CN110852104B (zh) | 家谱的识别方法及装置、存储介质、处理器 | |
CN118469005B (zh) | 基于大语言模型的医学知识图谱构建方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |