CN111985239B - 实体识别方法、装置、电子设备及存储介质 - Google Patents
实体识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111985239B CN111985239B CN202010756645.3A CN202010756645A CN111985239B CN 111985239 B CN111985239 B CN 111985239B CN 202010756645 A CN202010756645 A CN 202010756645A CN 111985239 B CN111985239 B CN 111985239B
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- unlabeled
- trained neural
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000002372 labelling Methods 0.000 claims abstract description 136
- 238000003062 neural network model Methods 0.000 claims abstract description 112
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000000873 masking effect Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 230000015654 memory Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Abstract
本发明公开了一种实体识别方法、装置、电子设备和存储介质,涉及自然语言处理领域,该方法解决实体识别需要大规模的标注语料样本的问题,包括:将待标注文本基于BERT模型学习以得到文本向量;利用已标注文本对各个神经网络模型进行初步训练,将各未标注文本分别基于模型集中其他N‑1个初步训练过的神经网络模型得到各未标注文本的N‑1组实体标签序列,基于各未标注文本和各未标注文本的N‑1组实体标签序列训练每个初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi;将文本向量分别基于多个协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列;基于投票规则选择一组候选标注序列作为待标注文本的标注结果。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)是自然语言处理领域应用最为广泛且最具实用性的关键技术之一,是知识图谱、机器翻译、问答系统等领域的基础,它的目的是识别出文本中有特定意义或者指代性强的实体并对它们分类,这些实体的类型主要包括人名、机构名、地点以及其他一些专有名词。
实体识别模型的训练方法一般分为有监督和无监督两种类型,其中无监督以CRF、HMM为常用模型,有监督则以神经网络模型为主要代表。无监督模型存在特征选择繁琐、可移植性差等缺点,而有监督模型最直观的缺点就是需要大量的标注语料,这往往需要消耗大量的人力去进行数据的标注,并且数据的标注质量会大大影响模型的识别准确率。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种实体识别方法,其基于初步训练过的神经网络模型获得未标注语料集中各未标注文本的实体标签序列,并根据各未标注文本的实体标签序列再次训练初步训练过的神经网络模型得到协同训练好的神经网络模型,待标注文本的文本向量通过协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列,并最终从多个候选标注序列中基于投票规则得到待标注文本的标注结果,可以减少对未标注语料集的人工标注成本,提高未标注语料集的标注质量,解决实体识别需要大规模的标注语料样本的问题。
本发明的目的之一采用以下技术方案实现:
将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;
基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
进一步地,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量之前,还包括:
获取待标注语料;
对所述待标注语料进行分句得到多个包括两个句子的待标注句子对;
剔除各所述待标注句子对中的无效字符分别得到各所述待标注文本。
进一步地,所述待标注文本包括两个句子,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量构成文本向量,包括:
在所述待标注文本的句首、句末和所述待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本;
对所述中间文本进行字符级切分得到多个单字,按照预设遮盖概率从多个单字中随机选取若干个单字,并对选取的单字进行遮盖处理得到学习文本;
将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量;
将各单字的词向量进行拼接得到所述文本向量。
进一步地,将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量,其中,所述BERT模型包括嵌入层和双向Transformer编码器,包括:
将所述学习文本输入所述嵌入层计算得到所述学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入,并由各所述单字的词嵌入、位置嵌入和句子类别嵌入组成各所述单字的嵌入向量;
将各所述单字的嵌入向量输入所述双向Transformer编码器计算得到各所述单字的词向量。
进一步地,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:
从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签;
根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi。
进一步地,从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签,包括:
若N-1组实体标签序列中各组实体标签序列的值相同,则从N-1组所述实体标签序列中任选一组实体标签序列作为所述样本标签。
进一步地,根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:
由各所述未标注文本与各所述未标注文本的样本标签分别组成各训练样本,并将各所述训练样本加入标注语料样本集Fi中得到新的标注语料样本集Fi’,其中,所述标注语料样本集Fi为所述初步训练过的神经网络模型mi在初步训练时使用的样本集;
根据所述新的标注语料样本集Fi’再次训练所述初步训练过的神经网络模型mi得到所述协同训练好的神经网络模型Mi。
本发明的目的之二在于提供一种实体识别装置,其基于初步训练过的神经网络模型获得未标注语料集中各未标注文本的实体标签序列,并根据各未标注文本的实体标签序列再次训练初步训练过的神经网络模型得到协同训练好的神经网络模型,待标注文本的文本向量通过协同训练好的神经网络模型和CRF模型计算得到多个候选标注序列,并最终从多个候选标注序列中基于投票规则得到待标注文本的标注结果,可以减少对未标注语料集的人工标注成本,提高未标注语料集的标注质量,解决实体识别需要大规模的标注语料样本的问题。
本发明的目的之二采用以下技术方案实现:
一种实体识别装置,其包括:
文本向量计算模块,用于将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
模型集和未标注语料集获取模块,用于获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
协同训练模块,用于对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
标注结果确定模块,用于将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时本发明目的之一的实体识别方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明目的之一的实体识别方法。
相比现有技术,本发明的有益效果在于:
本发明基于BERT模型学习待标注文本得到文本向量,可以有效表达待标注文本中各单字间的语义,提升了文本向量的表征能力,未标注预料集可以通过初步训练过的神经网络模型进行标注,相对于人工标注的标注结果稳定可靠,标注效率高,使得初步训练过的神经网络模型在训练过程中使用的标注语料样本集可以为小规模样本集,解决了实体识别采用神经网络模型进行有监督训练需要大规模的标注语料样本的问题。
附图说明
图1为本发明实施例一的实体识别方法流程图;
图2为本发明实施例二的文本向量学习方法流程图;
图3为本发明实施例三的实体识别装置的结构框图;
图4为本发明实施例四的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,以下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例一
实施例一提供了一种实体识别方法,请参照图1所示,包括以下步骤:
S110、将待标注文本基于BERT模型进行学习得到待标注文本中各单字的词向量,并由各单字的词向量组成文本向量。
BERT(Bidirectional Encoder Representations from Transformers)模型是一个用Transformer模型作为特征抽取器的深度双向预训练语言理解模型,本质上是通过在海量语料的基础上运行自监督学习方法为单词学习一个好的特征表示,自监督学习是指在没有人工标注的数据上运行的监督学习。Transformer模型是Google团队提出的一种NLP经典模型,如下述公式基于注意力机制来对一段文本进行建模,可以并行训练,而且能够拥有全局信息。因此,基于BERT模型学习获得待标注文本中各单字的词向量,由各单字的词向量构成的文本向量可以有效表达待标注文本中各单字间的语义,提升了文本向量的表征能力。
S120、获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2。
利用已标注文本分别对多个神经网络模型进行初步训练,分别得到各初步训练过的神经网络模型。各神经网络模型均为适合序列标注的神经网络模型,比如BiLSTM(Bi-directional Long Short-Term Memory,也称双向长短期记忆人工神经网络)模型、IDCNN(Iterated Dilated CNN)模型、BiGRU(Bi-directional Gated RNN,也称双向门控循环单元网络)模型等。为了方便说明,本实施例中N为3,假设模型集中训练好的神经网络模m1、m2和m3分别为BiLSTM模型、IDCNN模型和BiGRU模型,m1、m2和m3分别根据标注语料样本集F1、F2和F3进行学习训练,标注语料样本集F1、F2和F3可以是对一个标注语料集进行采样得到的。采样方式不限于重复放回采样方式和不重复不放回采样方式中的一种,在此不做限定。
标注语料样本集包括多组标注样本,每组标注样本包括标注文本和标识该标注文本中各单字的实体类型的样本标注标签。本实施例中,样本标注标签的标注策略采用常用的IOB标注策略,IOB标注策略中标注B的单字表示该单字是一个实体词语的开头,标注I的单字表示该单字是一个实体词语中除开头单字外的其他单字,标注O的单字表示该单字不属于实体词语。实体词语的实体类型可以为人名、机构名、地点名,可以使用PER表示人名,LOC表示地点名,ORG表示机构名。样本标注标签的标注策略不限于上述IOB标注策略。
根据标注语料样本集F1进行学习训练得到训练好的神经网络模m1具体为:标注语料样本集F1中的一个标注文本通过BERT模型转换为该标注文本中各单字的词向量,由各单字的词向量组成该标注文本的标注文本向量,根据标注语料样本集F1中的各标注文本的标注文本向量和样本标注标签训练BiLSTM模型即可得到训练好的神经网络模m1。同样可以得到训练好的神经网络模m2和训练好的神经网络模m3。
S130、对每个初步训练过的神经网络模型mi,将各未标注文本分别基于模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各未标注文本的N-1组实体标签序列,基于各未标注文本和各未标注文本的N-1组实体标签序列训练初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi。
示意性地,对初步训练过的神经网络模型m1进行协同训练,包括以下步骤:假设未标注预料集中未标注文本的数量为n,将未标注语料集中的第j(j=1,...,n)个未标注文本分别基于初步训练过的神经网络模型m2和初步训练过的神经网络模型m3计算得到第j个未标注文本的2组实体标签序列,实体标签表示未标注文本中单字所属的实体类型。
将n个未标注文本通过BERT模型转换为各单字的词向量,进而获得n个未标注文本的未标注文本向量,根据n个未标注文本的未标注文本向量和每个未标注文本的2组实体标签序列再次训练初步训练过的神经网络模型m1得到协同训练好的神经网络模型M1。
在一些实施例中,从每个未标注文本的2组实体标签序列中选择一组实体标签序列作为每个未标注文本的样本标签,根据n个未标注文本的未标注文本向量和每个未标注文本的样本标签再次训练初步训练过的神经网络模型m1得到协同训练好的神经网络模型M1。
优选地,若一个未标注文本的2组实体标签序列的值相同,则从2组实体标签序列中任选一组实体标签序列作为该未标注文本的样本标签,提高了样本标签的稳定性,进而提高协同训练好的神经网络模型的模型质量。
在其他的一些实施例中,比如N>3时,也可以基于少数服从多数的投票规则或者其他投票规则,从每个未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个未标注文本的样本标签,进而提高样本标签的稳定性。
在一些实施例中,由一个未标注文本及该未标注文本的样本标签组成一组训练样本,将n组训练样本加入标注语料样本集F1中得到新的标注语料样本集F1’,标注语料样本集F1为初步训练过的神经网络模型m1在初步训练时使用的样本集。据新的标注语料样本集F1’再次训练初步训练过的神经网络模型m1得到协同训练好的神经网络模型M1。使用人工标注的标注语料样本集和通过初步训练过的神经网络模型标注的训练样本,再次训练初步训练过的神经网络模型,可以平衡人工标注和模型标注的样本质量,提升协同训练好的神经网络模型的稳定性。
同样地,通过上述协同训练步骤也可以得到对初步训练过的神经网络模型m2和初步训练过的神经网络模型m3分别进行协同训练,得到协同训练好的神经网络模型M2和协同训练好的神经网络模型M3。当N>3时,对各初步训练过的神经网络模型mi(i=1,...,N)分别通过上述协同训练步骤也可以得到各协同训练好的神经网络模型Mi(i=1,...,N)。
基于这种协同训练方式可以大大减少初步训练过的神经网络模型在训练过程中使用的标注语料样本集的规模,未标注预料集可以通过初步训练过的神经网络模型进行标注,相对于人工标注的标注结果稳定可靠,标注效率高,解决了神经网络模型有监督训练需要大规模标注语料的问题,并且当需要对特定领域进行实体识别时,采用这种协同训练方式可以快速地获得该领域的标注语料。
S140、将文本向量分别基于N个协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列。
CRF(conditional random field,也称条件随机场)模型通常用于序列标注的任务,例如给定一个输入序列X=(x1,x2,x3,...,xn),求输出的序列Y=(y1,y2,y3,...,yn)。例如在中文分词中,X即是输入的句子,Y是句子中每一个单词对应的分词中的目标。
文本向量分别基于初步训练过的神经网络模m1、m2和m3计算分别得到三组标注标签序列。一组标注标签序列基于CRF模型计算可以得到待标注文本中各单字的单字标签,由待标注文本中各单字的单字标签组成该待标注文本的一组候选标注序列。假设CRF模型有L个状态特征函数s1,...,sL,其对应的权重分别是μ1,...,μL,还有K个状态转移特征函数t1,...,tK,其对应的权重分别是γ1,...,γK,将标签概率序列输入下述预测公式,求解预测公式的最大值,得到最佳的输出标签序列,根据最佳的输出标签序列得到各单字的单字标签:
其中,Z(k)是将输出归一化为0到1范围内的泛化因子,可以看成是所有输出序列的得分之和,对于某一个输出序列y,其得分是所有满足条件的特征函数的权重之和。
在由协同训练好的神经网络模型M1、M2和M3得到的三组标注标签序列的基础上分别对CRF模型进行上述无监督学习,分别得到三组候选标注序列,减少了无监督需要特征选择的步骤。
S150、基于预设的投票规则从N组候选标注序列中选择一组候选标注序列作为待标注文本的标注结果。
投票规则可以为少数服从多数投票规则,当三组候选标注序列相同则选择任一组候选标注序列作为待标注文本的标注结果;若两组候选标注序列相同,与第三组候选标注序列不同,则按少数服从多数原则从相同的两组候选标注序列中选择任一组候选标注序列作为待标注文本的标注结果。
在一些实施例中,考虑到三组候选标注序列互不相同的情况,将初步训练过的神经网络模型m1、m2和m3在初步训练时使用的标注语料样本集F1、F2和F3中的各标注文本,基于协同训练好的神经网络模型M1、M2和M3计算后再通过训练好的CRF模型计算,得到标注语料样本集F1、F2和F3中的各标注文本的三组候选标注序列,将三组候选标注序列分别与各标注文本在标注语料样本集中的样本标注标签进行准确率计算,将准确率最大的候选标注序列作为待标注文本的标注结果。
实施例二
实施例二是在实施例一基础上的改进,请参照图2所示,将待标注文本基于BERT模型进行学习得到待标注文本中各单字的词向量,并由各单字的词向量构成文本向量,包括以下步骤:
S210、在待标注文本的句首、句末和待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本。通常,句首标签、句末标签和分割标签分别使用[CLS]标签、[SEP]标签和[SEP]标签,在基于BERT模型进行学习时可以方便得获得各单字在待标注文本中的上下文信息。
S220、对中间文本进行字符级切分得到多个单字,按照预设遮盖概率从多个单字中随机选取若干个单字,并对选取的单字进行遮盖处理得到学习文本。通常,遮盖概率为15%,通过预测这部分被遮住的内容可以学习通用的词义、句法和语义信息。
在一些实施例中,遮盖处理可以采用遮盖符号替换选取的单字,比如遮盖符号[MASK]。
在一些实施例中,对选取的单字分别按照预设的第一概率、第二概率和第三概率用遮盖符号替换、用随机单字替换和不做替换,第一概率、第二概率和第三概率的总和为1,通常第一概率、第二概率和第三概率分别为80%、10%和10%。如果选取的单字全部采用遮盖符号替换,在模型学习中就会有一些没见过的单字,而加入部分随机单字和部分单字不进行替换操作可以保证模型可以学习每个单字的分布式表征,以提高模型的泛化能力。
S230、将学习文本输入BERT模型进行学习得到学习文本中各单字的词向量。
BERT模型包括嵌入层和双向Transformer编码器。将学习文本输入嵌入层计算可以得到学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入,并由各单字的词嵌入、位置嵌入和句子类别嵌入组成嵌入向量。词嵌入表示单字自身信息。位置嵌入是指将单字的位置信息编码成特征向量,位置嵌入是向模型中引入单字位置关系的至关重要的一环。句子类别嵌入用于区分两个句子,例如B是否是A的下文(对话场景,问答场景等),对于句子对,第一个句子的特征值是0,第二个句子的特征值是1。
具体地,对位置信息可以采用以下方式进行编码得到位置嵌入:
其中,pos表示单字在学习文本中的位置,pos=0,...,L-1,L表示学习文本的长度,dmodel表示预设的固定位置嵌入向量的维度,i=0,...,dmodel-1,PE为二维矩阵,行表示单字,列表示词嵌入。上述公式表示在每个单字的词嵌入的偶数位置添加sin编码,奇数位置添加cos编码,使用sin编码和cos编码可以得到单字之间的相对位置。
双向Transformer编码器是多层编码单元的堆叠,每个编码单元包括自注意力模块、残差网络、层归一化结构和DropOut层。Transformer模型是Google团队提出的一种NLP经典模型,如下述公式基于注意力机制来对一段文本进行建模,可以并行训练,而且能够拥有全局信息,并采用MultiHead多头机制以扩展模型专注于不同位置的能力,增大注意力单元的“表示子空间”,并通过层归一化和残差网络来解决深度学习中的退化问题。
其中,Q、K和V均表示各单字的嵌入向量乘以三个预设的系数矩阵得到的向量矩阵,dk为嵌入向量的维度,QKT表示学习文本中的每个单字对于该学习文本中所有单字的相互关系,这些相互关系在一定程度上反应了学习文本中不同单字之间的关联性以及重要程度,然后经过dk进行缩小之后再通过softmax归一化得到权重表示,最终输出学习文本所有嵌入向量的带权和,即各单字的词向量。通过利用这些相互关系来调整每个单字的重要性(权重)就可以获得每个单字的表达,这样每个单字的表达都蕴含了学习文本中其他单字的信息,相对于传统词向量表示更具有全局性。
S240、将各单字的词向量进行拼接得到文本向量。
将各单字的词向量进行拼接就可以得到待标注文本的文本向量,该文本向量可以有效表达待标注文本中各单字间的语义,提升了表征该待标注文本的能力。
在一些实施例中,将待标注文本基于BERT模型进行学习得到待标注文本中各单字的词向量之前,还包括:获取待标注语料,对待标注语料进行分句得到多个包括两个句子的待标注句子对,剔除各待标注句子对中的无效字符分别得到各待标注文本,有利于加快模型训练的效率。
实施例三
实施例三公开了一种对应上述实施例的一种实体识别装置,为上述实施例的虚拟装置结构,请参照图3所示,包括:
文本向量计算模块410,用于将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
模型集和未标注语料集获取模块420,用于获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
协同训练模块430,用于对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
标注结果确定模块440,用于将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图,如图4所示,该电子设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图4中以一个处理器310为例;电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的实体识别方法对应的程序指令/模块(例如,实体识别装置中的文本向量计算模块410、模型集和未标注语料集获取模块420、协同训练模块430和标注结果确定模块440)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例一至实施例二的实体识别方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收模型集、未标注语料集等。输出装置340可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行实体识别方法,该方法包括:
将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;
基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的实体识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述实体识别装置实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种实体识别方法,其特征在于:包括以下步骤:
将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;
基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
2.如权利要求1所述的一种实体识别方法,其特征在于:将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量之前,还包括:
获取待标注语料;
对所述待标注语料进行分句得到多个包括两个句子的待标注句子对;
剔除各所述待标注句子对中的无效字符分别得到各所述待标注文本。
3.如权利要求1所述的一种实体识别方法,其特征在于:所述待标注文本包括两个句子,将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量构成文本向量,包括:
在所述待标注文本的句首、句末和所述待标注文本中的两个句子之间分别放置句首标签、句末标签和分割标签得到中间文本;
对所述中间文本进行字符级切分得到多个单字,按照预设遮盖概率从多个单字中随机选取若干个单字,并对选取的单字进行遮盖处理得到学习文本;
将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量;
将各单字的词向量进行拼接得到所述文本向量。
4.如权利要求3所述的一种实体识别方法,其特征在于:将所述学习文本输入所述BERT模型进行学习得到所述学习文本中各单字的词向量,其中,所述BERT模型包括嵌入层和双向Transformer编码器,包括:
将所述学习文本输入所述嵌入层计算得到所述学习文本中各单字的词嵌入、位置嵌入和句子类别嵌入,并由各所述单字的词嵌入、位置嵌入和句子类别嵌入组成各所述单字的嵌入向量;
将各所述单字的嵌入向量输入所述双向Transformer编码器计算得到各所述单字的词向量。
5.如权利要求1所述的一种实体识别方法,其特征在于:基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:
从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签;
根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi。
6.如权利要求5所述的一种实体识别方法,其特征在于:从每个所述未标注文本的N-1组实体标签序列中选择一组实体标签序列作为每个所述未标注文本的样本标签,包括:
若N-1组实体标签序列中各组实体标签序列的值相同,则从N-1组所述实体标签序列中任选一组实体标签序列作为所述样本标签。
7.如权利要求5所述的一种实体识别方法,其特征在于:根据各所述未标注文本和各所述未标注文本的样本标签训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,包括:
由各所述未标注文本与各所述未标注文本的样本标签分别组成各训练样本,并将各所述训练样本加入标注语料样本集Fi中得到新的标注语料样本集Fi’,其中,所述标注语料样本集Fi为所述初步训练过的神经网络模型mi在初步训练时使用的样本集;
根据所述新的标注语料样本集Fi’再次训练所述初步训练过的神经网络模型mi得到所述协同训练好的神经网络模型Mi。
8.一种实体识别装置,其特征在于,其包括:
文本向量计算模块,用于将待标注文本基于BERT模型进行学习得到所述待标注文本中各单字的词向量,并由各所述单字的词向量组成文本向量;
模型集和未标注语料集获取模块,用于获取包括N个初步训练过的神经网络模型的模型集和包括多个未标注文本的未标注语料集,并将N个初步训练过的神经网络模型分别记为mi,i=1,...,N,N>2;
协同训练模块,用于对每个所述初步训练过的神经网络模型mi,将各所述未标注文本分别基于所述模型集中其他的N-1个初步训练过的神经网络模型进行识别得到各所述未标注文本的N-1组实体标签序列,基于各所述未标注文本和各所述未标注文本的N-1组实体标签序列,训练所述初步训练过的神经网络模型mi得到协同训练好的神经网络模型Mi,其中,所述实体标签表示所述未标注文本中单字所属的实体类型;
标注结果确定模块,用于将所述文本向量分别基于N个所述协同训练好的神经网络模型进行识别得到N组标注标签序列,并将N组所述标注标签序列分别基于N个训练好的CRF模型计算得到N组候选标注序列;基于预设的投票规则从N组所述候选标注序列中选择一组候选标注序列作为所述待标注文本的标注结果。
9.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时执行权利要求1至7任一项所述的实体识别方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述的实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756645.3A CN111985239B (zh) | 2020-07-31 | 2020-07-31 | 实体识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010756645.3A CN111985239B (zh) | 2020-07-31 | 2020-07-31 | 实体识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985239A CN111985239A (zh) | 2020-11-24 |
CN111985239B true CN111985239B (zh) | 2024-04-26 |
Family
ID=73444821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010756645.3A Active CN111985239B (zh) | 2020-07-31 | 2020-07-31 | 实体识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985239B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420205A (zh) * | 2020-12-08 | 2021-02-26 | 医惠科技有限公司 | 实体识别模型生成方法、装置及计算机可读存储介质 |
CN112507131A (zh) * | 2020-12-15 | 2021-03-16 | 深圳供电局有限公司 | 一种电力调度知识图谱构建方法、设备及系统 |
CN112613316B (zh) * | 2020-12-31 | 2023-06-20 | 北京师范大学 | 一种生成古汉语标注模型的方法和系统 |
CN112766485B (zh) * | 2020-12-31 | 2023-10-24 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
CN112883737B (zh) * | 2021-03-03 | 2022-06-14 | 山东大学 | 基于中文命名实体识别的机器人语言指令分析方法及系统 |
CN112905795A (zh) * | 2021-03-11 | 2021-06-04 | 证通股份有限公司 | 文本意图分类的方法、装置和可读介质 |
CN113255356B (zh) * | 2021-06-10 | 2021-09-28 | 杭州费尔斯通科技有限公司 | 一种基于实体词列表的实体识别方法和装置 |
CN113536795B (zh) * | 2021-07-05 | 2022-02-15 | 杭州远传新业科技有限公司 | 实体关系抽取的方法、系统、电子装置和存储介质 |
CN113761132B (zh) * | 2021-09-09 | 2024-03-19 | 上海明略人工智能(集团)有限公司 | 一种事件检测方法、系统、电子设备及存储介质 |
CN114496115B (zh) * | 2022-04-18 | 2022-08-23 | 北京白星花科技有限公司 | 实体关系的标注自动生成方法和系统 |
CN114781375A (zh) * | 2022-05-19 | 2022-07-22 | 中国电子科技集团公司第二十八研究所 | 一种基于bert与注意力机制的军事装备关系抽取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
-
2020
- 2020-07-31 CN CN202010756645.3A patent/CN111985239B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
基于BERT-Att-biLSTM模型的医学信息分类研究;於张闲;胡孔法;;计算机时代;20200315(03);全文 * |
基于BERT-BiLSTM-CRF的学者主页信息抽取;张秋颖;傅洛伊;王新兵;;计算机应用研究;20200630(S1);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111985239A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112214599B (zh) | 基于统计学和预训练语言模型的多标签文本分类方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
Wu et al. | TDv2: a novel tree-structured decoder for offline mathematical expression recognition | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114579706B (zh) | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 | |
CN116127978A (zh) | 基于医学文本的嵌套命名实体抽取方法 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN115391520A (zh) | 一种文本情感分类方法、系统、装置及计算机介质 | |
CN113989811A (zh) | 基于深度学习的贸易合同中项目公司、供应商的提取方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
Le et al. | An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents | |
CN116341555B (zh) | 命名实体识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051 Applicant after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd. Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051 Applicant before: Hangzhou Yuanchuan New Technology Co.,Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |