CN115545035B - 一种文本实体识别模型及其构建方法、装置及应用 - Google Patents
一种文本实体识别模型及其构建方法、装置及应用 Download PDFInfo
- Publication number
- CN115545035B CN115545035B CN202211506615.2A CN202211506615A CN115545035B CN 115545035 B CN115545035 B CN 115545035B CN 202211506615 A CN202211506615 A CN 202211506615A CN 115545035 B CN115545035 B CN 115545035B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- vocabulary
- layer
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本申请提出了一种文本实体识别模型的构建方法、装置及应用,包括以下步骤:获取至少一待识别文本,对每一所述待识别文本进行分词得到训练数据集;将所述训练数据集送入实体识别模型中,所述实体识别模型由编码模块和解码模块组成,所述编码模块将所述待识别文本的字向量特征和词向量特征进行融合后编码,得到编码结果,将编码结果输入到解码模块中,解码模块对编码结果进行解码,得到第一输出特征和第二输出特征,将第一输出特征和第二输出特征进行融合得到实体识别结果;使用损失函数对模型进行损失判断。本方案的模型构建方式可以使实体的识别更加准确,且训练效果更好,对文本实体的识别效率更高。
Description
技术领域
本申请涉及自然语言处理领域,特别是涉及一种文本实体识别模型及其构建方法、装置及应用。
背景技术
文本数据在城市治理各领域中大量存在并分布广泛,这些文本数据由于数据来源的问题,在以结构化的形式保存到数据库的过程中有很多利于后续城市治理的实体信息并没有存储记录下来,但是城市治理的问题案件描述内容文本中夹杂了大量有用的实体信息,发现并利用这些实体信息,完善结构化文本数据有利于推动后续智慧城市的治理工作任务。
实体识别算法是一种高效发现文本中实体对象的方法,是自然语言处理领域中最重要的任务之一,然而只以汉字为粒度识别实体的方式会使得模型缺失大量先验的词汇知识,另一方面文本中的实体会存在重叠的问题,导致实体识别性能不够鲁棒,如何利用词汇信息融入到模型同时提高模型区分实体的准确边界是提升实体识别的技术关键之一;此外,对城市治理场景下的文本进行大规模精细化的实体标注数据任务是一个高成本、低效率的工作,在精细化标注实体的过程中依然会存在大量漏标的实体,这些漏标的实体在训练过程中会干扰模型的学习,导致性能变差,解决该问题也是改善实体识别算法的关键。
发明内容
本申请实施例提供了一种文本实体识别模型及其构建方法、装置及应用,可以识别并提取文本中的实体内容。
第一方面,本申请实施例提供了一种文本实体识别模型的构建方法,所述方法包括:
获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的实体得到训练数据集;
将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层 得到实体识别结果。
第二方面,本申请实施例提供了一种文本实体识别模型,所述文本实体识别模型采用第一方面的构建方法进行构建得到。
第三方面,本申请实施例提供了一种文本实体识别方法,包括:
将所述至少一待识别文本输入到所述文本实体识别模型的编码模块中进行编码得到每一待识别文本的字向量特征和词向量特征,将所述字向量特征和对应的词向量特征在融合层进行融合得到融合特征,再对所述融合特征进行编码得到编码结果,将所述编码结果输入到解码模块中,所述解码模块先对所述编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合得到融合特征,基于所述融合特征预测每一所述待识别文本的实体词汇。
第四方面,本申请实施例提供了一种文本实体识别模型的构建装置,包括:
获取模块:获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的文本实体得到训练数据集;
构建模块:将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层得到实体识别结果。
第五方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种文本实体识别模型的构建方法。
第六方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括一种文本实体识别模型的构建方法。
本发明的主要贡献和创新点如下:
本申请实施例优化设计的文本实体识别模型将编码模块分为字向量编码模块和词向量编码模块,并通过一个融合模块将字向量特征和词向量特征进行融合,使得编码结果中的字向量特征融合了与之对应的词向量特征,将词汇向量融入到模型的同时提高了模型区分实体的准确率;在解码时将实体的起始位置特征和结尾位置特征进行交互计算,增强了模型发现复杂重叠实体的能力,加强了模型的鲁棒性。
优化文本实体识别模型的训练方式:根据文本的长度设置一定的比例,利用随机采样的方式获取该比例文本长度下的负样本词汇,优化了漏标实体对模型训练效果的影响,增强了模型的性能。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种文本实体识别模型的构建方法的流程图;
图2是根据本申请实施例的一种文本实体识别模型中编码模块的结构示意图;
图3是根据本申请实施例的一种文本实体识别模型中融合层的算法流程图;
图4是根据本申请实施例的一种文本实体识别模型中解码模块的结构示意图;
图5是根据本申请实施例的一种文本实体识别模型的构建装置的结构框图;
图6是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本申请实施例提供了一种文本实体识别模型的构建方法,可以高效的发现文本中的实体对象,并减少漏标对模型的影响,具体地,参考图1,所述方法包括:
获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的实体得到训练数据集;
将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层得到实体识别结果。
在一些实施例中,在“对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构”步骤中,对所述待识别文本进行分词得到初始词汇以及单字,依据所述初始词汇的词性筛选实体词汇并标记,再获取对应包含所述单字的每个初始词汇及所述初始词汇的词汇位置,依据对应每个单字的所述初始词汇及所述词汇位置构建所述字词结构。
具体的,所述字词结构表征每一所述待识别文本中每一单字和包含该单字的每一初始词汇;所述词汇位置表征每一所述初始词汇在对应每一所述待识别文本中的起始位置和结尾位置,且所述字词结构中的初始词汇带有实体词汇的标记信息。
具体的,利用jieba分词库对每一所述待识别文本进行全量分词,获取所述待识别文本中所有初始词汇以及单字,依据所述初始词汇的词性筛选获取具有实体含义的实体词汇。在一些实施例中,词性包括但不限于人名、地名、机构名。
示例性的,对每一所述待识别文本中的字词结构进行保存的方法为:[{单字1:[包含该单字的初始词汇的起始位置和结尾位置(单字11,(初始位置11,结尾位置11)) (单字12,(初始位置12,结尾位置12)) (单字13,(初始位置13,结尾位置13))]},…,{单字i:[包含该单字的初始词汇的起始位置和结尾位置 (单字i1,(初始位置i1,结尾位置i1)) (单字i2,(初始位置i2,结尾位置i2)) (单字i3,(初始位置i3,结尾位置i3))]}];对所述每一待识别文本中的实体词汇标记其词性类别并保存,每一所示待识别文本的所述实体词汇的保存方式为:{待识别文本text,[{词性tpye,实体词汇v1},…,{词性tpye,实体词汇vi}]}。
举例而言,以待识别文本为“今天是星期二”为例,该待识别文本经过分词后得到“今天”“今天是”“是星期二”“星期二”“星期”,其中的实体词汇为“星期二”,词性为日期,则对该待识别文本的字词结构保存为:[{今1:[ (今11,(111,211)) (今12,(112,312)) ]}];[{天1:[ (天11,(111,211)) (今12,(112,312)) ]}];[{是1:[ (是11,(111,311)) (是12,(312,612))]}];[{星1:[ (星11,(311,611)) (星12,(412,612)) (星11,(411,511)) ]}];[{期1:[(期11,(311,611)) (期12,(412,612)) (期11,(411,511)) ]}];[{二1:[ (二11,(311,611)) (二12,(412,612)) ]}]。将该待识别文本中的实体词汇保存为:{今天是星期二,[{日期,星期二}]}。
在一些实施例中,为了提高对待识别文本进行标记的准确率,减少因漏标,错标对所述文本实体识别模型训练过程中的影响,对所述分词后的待识别文本进行人工审核,对漏标进行重新标注,对错标进行纠正。
具体的,对所述实体词汇进行标记的目的是当所述实体识别模型识别结束时,根据对所述实体词汇的标记并结合损失函数来判断所述实体识别模型的识别结果是否准确。
在一些实施例中,考虑到词汇知识可以有效帮助模型理解字符之间的关系,本方案设计的编码模块由字向量编码模块和词向量编码模块组成,所述字向量编码模块由12层transformer层构成,第一层transformer和词向量编码模块后紧跟融合层,所述融合层将所述字向量特征和所述词向量特征进行维度统一后进行融合,以期利用融合词汇知识的字符特征指导后续字符特征进行训练。
且本方案只在最开始第一层的编码层进行词汇知识的融合,这样的考虑是因为transformer本身就是一个拟合能力比较强的网络,词汇知识融合之后可以让后续的编码层学习到融合的词汇关系特征。
具体的,所述编码模块的结构如图2所示,所述编码模块的词向量编码模块和字向量编码模块并行设置,且所述词向量编码模型后紧跟融合层,所述待识别文本输入到所述字向量编码模块的第一层transformer层进行字向量特征提取,得到所述待识别文本的字向量特征;将所述待识别文本中对应每个字的字词结构中的初始词汇输入到词向量编码模块中进行编码,得到每一字所对应词汇的词向量特征。
值得一提的是,本方案的每一个字对应的字词结构中包含至少一初始词汇,故对应每个字在经历词向量编码模块后也会得到对应每一所述词汇的词向量特征,则对应每个字包括至少一词向量特征。相同的,本方案的待识别文本输入到第一层transformer后得到对应每个字的字向量特征。在一些实施例中,所述词向量编码模块为一层transformer层,来对每一所述待识别文本中的词汇进行词向量特征的提取,本方案在此不做限定。
进一步的,对每一字的字词结构中所有的初始词汇处理后得到每一所述初始词汇的自适应权值,将每一字对应的字向量特征和对应该字的所有初始词汇的自适应权值运算后得到词汇权值向量的注意力矩阵,将所述词汇权值向量的注意力矩阵与对应该字的所述词特征向量相乘得到对应每个初始词汇的词汇权值得分,将每个初始词汇的所述词汇权值得分与对应的所述词向量特征进行求和,得到每个初始词汇的加权词汇向量特征,所述初始词汇的加权词汇向量特征与该字的所述字向量特征进行融合得到融合特征。
具体的,先通过所述词向量编码模块对所述待识别文本中的每个字的字词结构中的不同初始词汇进行编码,得到每一初始词汇的词向量特征,使用非线性变换的方式对所述词向量特征的维度进行变换,使得对应该字的所有所述词向量特征与该字的所述字向量特征的维度相同,以便于后续的融合。
将所述字向量特征进行重新组合得到组合词向量特征,使用双线性注意力机制获取每个所述组合词向量特征的权值,并与所述字向量特征结合得到一个注意力矩阵,将所述注意力矩阵与所述词向量特征相乘,经过softmax函数获取每一所述待识别文本中词向量特征的词汇权值得分,再将所述词汇权值得分与所述词向量特征进行求和并归一化,得到加权词汇向量特征,将所述加权词汇向量特征与所述字向量特征进行融合。
示例性的,如图3所示,每一字的字词结构中的所有词向量特征经过自适应学习层后进入双线性注意力机制后得到每个初始词汇的自适应权值,该字对应的字向量特征作为隐藏层特征和对应该字的所有初始词汇的自适应权值运算后得到词汇权值向量的注意力矩阵,将所述词汇权值向量的注意力矩阵与维度变换后的词向量特征相乘,再通过Softmax函数获取该字对应的字词结构中所有词向量特征的词汇权值得分,所述词汇权值得分与维度变换后的词向量特征进行求和并归一化,得到与该字对应的字词结构中所有词向量特征的加权词汇向量特征,所述加权词汇向量特征与该字的字向量特征进行融合,得到该字的第一融合特征。
示例性的,所述融合层的计算方式如下:
令所述词向量编码模块提取的词向量特征表示为Vi={vi1,vi2,…,vin},根据所述待识别文本中每个字词结构中的初始词汇的词汇位置获取对应该字词结构的所有词向量特征Hi={hi1,hi2,…,hin},再通过所述双线注意力机制获取每一字的所有初始词汇的自适应权值U,所述自适应权值U是由自适应层通过学习获得的一组权值矩阵,所述自适应层将不可学习的张量矩阵转成梯度传播中可学习的参数矩阵,利用文本实体识别模型在迭代收敛的过程中学习到可以表示词汇注意力的权值矩阵得到每一初始词汇的词向量特征的自适应权值U;
所述词汇权值得分的计算公式如下:
Si=softmax(HIUVI T)
其中Si={si1,si2,…,sin}表示每个词汇的词汇权值得分。
对所述词汇权值得分与所述词向量特征进行求和并归一化的计算公式如下:
所述加权词汇向量特征与所述字向量特征进行融合的计算公式如下:
其中,hi ’表示融合后的融合特征。
融合层的第一融合特征输入到编码模块的其他transformer层进行处理得到编码结果。
在一些实施例中,所述解码模块由第一解码模块和第二解码模块组成,所述第一解码模块将所述编码结果经过两个非线性映射层和一个自适应权值层得到第一输出特征;所述第二解码模块将所述编码结果中的字向量特征进行重新组合后通过一个非线性层得到第二输出特征。
具体的,所述解码模块如图4所示,第一解码模块包括并行的第一非线性映射层、自适应权值层、第二非线性映射层,其中第一非线性映射层和所述自适应权值层的输出融合得到注意力特征图,所述注意力特征图和所述第二非线性映射层的输出融合得到第一输出特征。所述编码结果分别经过两个非线性映射层分别获取预测词汇的起始位置和终止位置,所述自适应权值层在训练的过程中与所述预测词汇的起始位置通过交互计算的方式来获取该预测词汇的起始位置的权值参数,该权值参数和对应的第一非线性映射层映射层的输出融合后得到具有预测词汇的起始位置的注意力特征图,该注意力特征图和所述第二非线性映射层融合后得到第一输出特征。
具体的,所述自适应权值层通过矩阵乘法的形式与经过非线性映射层进行非线性变换的所述实体的起始位置进行计算,获取所述待识别文本中所有可能实体的起始位置的注意力特征,通过这种方法可以使得文本实体识别模型具备准确的定位文本实体的能力。
自适应权值层初始化为一个随机参数值的张量矩阵,将这个张量矩阵作为自适应权值层的初始权值参数,在训练过程中神经网络会利用梯度反向传播不断更新自适应的自适应权值层的权值参数,使得模型获得关注实体的起止位置信息的重要权值参数。
本方案将所述预测词汇的起始位置的注意力特征与所述实体的结尾位置的特征进行乘法的交互计算,得到所述第一输出特征,通过这种交互计算的方式能够增强文本实体识别模型发现复杂重叠实体的能力,在计算过程中,文本实体识别模型会利用梯度反向传播不断更新自适应权值层的权值参数,使得文本实体识别模型获得关注实体起始位置信息和结尾位置信息的权值参数。
具体的,所述第二解码模块将所述编码结果中的字向量特征中的初始词汇的起始位置和结尾位置进行重新组合得到重组词汇特征,其中所述重组词汇特征包括融合词汇的起始位置特征和结尾位置特征,将所述重组词汇特征通过非线性层进行映射得到所述第二输出特征。
具体的,将所述编码结果中的字向量特征的初始词汇的起始位置和结尾位置进行重新组合的计算公式如下:
其中,Si,j表示重新组合后的重组词汇特征,⊕表示融合操作,⊙表示向量元素相乘操作。
第一输出特征和第二输出特征融合后得到第二融合特征,第二融合特征输入到预测层中进行训练,所述第二融合特征中涵盖了预测词汇的起始位置特征和结尾位置特征。
在一些实施例中,将词汇的起始位置特征和结尾位置特征转化为二分类问题后,采用交叉熵损失函数来计算所述文本实体识别模型的损失。
具体的,因为所述文本实体识别模型的最终目的是学习到的待识别文本中存在的所有可能实体的起始位置和结尾位置并识别实体的类型,如果直接将预测的起始位置特征和结尾位置特征两两组合后采用损失函数来判断模型预测的损失,则会造成大量的错误,所以,本方案的预测层先判断某个实体的起始位置特征是否与某个结尾位置特征匹配为一个实体,若这个实体为真实实体则预测值为1,若这个实体为非实体则预测值为0,这样通过起始位置特征和结尾位置特征进行匹配识别之后,实体组合将会大大减少,最后在使用交叉熵损失函数来计算所述文本实体识别模型的损失。
具体的,当所述损失函数的值不再下降时,完成所述文本实体识别模型的训练,使用训练好的文本实体识别模型对待识别文本进行识别,得到待识别文本的文本实体。
在一些实施例中,所述文本实体识别模型训练时,优化器选择Adma,学习率设置为1e-5,最大的文本输入长度设置为256,批归一化大小设置为64,训练迭代次数设置为10轮。
由于在对每一所述待识别文本进行标注时会存在实体漏标的问题,使得在进行训练时会存在假的负样本,导致对文本实体识别模型的训练效果降低,所以,本申请实施例为了解决该问题,依据所述待识别文本的长度设置一定的比例,利用随机采样的方式获取该比例文本长度下的负样本词汇。
对应的,在一些实施例中,训练数据集中的负样本词汇是根据每一所述待识别文本的长度设置一定的比例,利用随机采样的方式获取该比例文本长度下的负样本词汇。
示例性的,一待识别文本如“勤劳勇敢的中国人民通过艰苦奋斗重新站在了世界之巅”中,存在实体<中国人民><世界>,非实体词汇<勤劳><勇敢><艰苦><奋斗><重新>,由于训练数据存在漏标问题,假设实体词<世界>漏标,则<世界>会被标注为非实体词汇,常规的处理方法为将<中国人民>这个实体词汇之外的所有词汇都默认是负样本,但是<世界>其实为实体词汇,这样会在训练过程中给模型带来干扰,所以,本申请实施例对负样本进行抽取的操作如下:
在待识别文本“勤劳勇敢的中国人民通过艰苦奋斗重新站在了世界之巅”中,非实体词汇(包含漏标实体)共7个,文本长度为24,将随机采样的比例设为文本长度的1/4,即6个字符长度,则从所述非实体词汇中选取词汇总长度为6个字符长度的词汇作为负样本,即从7个非实体词汇中选取3个词汇作为负样本。
实施例二
本方案提供一种文本实体识别模型,该文本实体识别模型采用上述文本实体识别模型的构建方法构建得到。关于该文本实体模型的具体结构内容与实施例一重复的内容不再重复说明。
值得一提的是,本方案的文本实体模型可被应用在城市治理领域,城市治理领域每天有大量的文字信息,如果逐一查看需要浪费大量的人力和时间,使用本申请实施例的文本实体识别模型对文本进行实体提取后再进行查看,可以节省大量人力和时间。
实施例三
本方案提供一种文本实体识别方法,包括:将所述至少一待识别文本输入到所述文本实体识别模型的编码模块中进行编码得到每一待识别文本的字向量特征和词向量特征,将所述字向量特征和对应的词向量特征在融合层进行融合得到融合特征,再对所述融合特征进行编码得到编码结果,将所述编码结果输入到解码模块中,所述解码模块先对所述编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合得到每一所述待识别文本的实体词汇。
实施例五
基于相同的构思,参考图5,本申请还提出了一种文本实体识别模型的构建装置,包括:
获取模块:获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的文本实体得到训练数据集;
构建模块:将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层得到实体识别结果。
实施例六
本实施例还提供了一种电子装置,参考图6,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种文本实体识别模型及其构建方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是待识别文本,待识别文本中实体的标注信息等,输出的信息可以待识别文本的实体词汇,实体类别等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的文本实体得到训练数据集;
S102、将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构的进行编码得到字向量特征和词向量特征;所述字向量特征和对应的词向量特征在融合层进行融合后得到融合特征,再对所述融合特征进行编码,得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,将所述第一输出特征和所述第二输出特征进行融合得到实体识别结果;
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图6中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本实体识别模型的构建方法,其特征在于,包括以下步骤:
获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的实体得到训练数据集,所述字词结构表征每一所述待识别文本中每一单字和包含该单字的每一初始词汇,且所述字词结构中的初始词汇带有实体词汇的标记信息;
将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,所述解码模块由第一解码模块和第二解码模块组成,所述第一解码模块将所述编码结果经过两个非线性映射层和一个自适应权值层得到第一输出特征;所述第二解码模块将所述编码结果中的字向量特征进行重新组合后通过一个非线性层得到第二输出特征,第一解码模块包括并行的第一非线性映射层、自适应权值层、第二非线性映射层,其中第一非线性映射层和所述自适应权值层的输出融合得到注意力特征图,所述注意力特征图和所述第二非线性映射层的输出融合得到第一输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层得到实体识别结果。
2.根据权利要求1所述的一种文本实体识别模型的构建方法,其特征在于,在“对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构”步骤中,对所述待识别文本进行分词得到初始词汇以及单字,依据所述初始词汇的词性筛选实体词汇并标记,再获取对应包含所述单字的每个初始词汇及所述初始词汇的词汇位置,依据对应每个单字的所述初始词汇及所述词汇位置构建所述字词结构。
3.根据权利要求1所述的一种文本实体识别模型的构建方法,其特征在于,所述编码模块由字向量编码模块和词向量编码模块组成,所述字向量编码模块由12层transformer层构成,第一层transformer以及词向量编码模块后紧跟融合层,所述融合层将所述字向量特征和所述词向量特征进行维度统一后进行融合。
4.根据权利要求3所述的一种文本实体识别模型的构建方法,其特征在于,在“所述字向量特征和词向量特征在融合层进行融合后得到融合特征”步骤中,对每一字的字词结构中所有的初始词汇处理后得到每一所述初始词汇的自适应权值,将每一字对应的字向量特征和对应该字的所有初始词汇的自适应权值运算后得到词汇权值向量的注意力矩阵,将所述词汇权值向量的注意力矩阵与对应该字的所述词向量特征相乘得到对应每个初始词汇的词汇权值得分,将每个初始词汇的所述词汇权值得分与对应的所述词向量特征进行乘积,得到每个初始词汇的加权词汇向量特征,所述初始词汇的加权词汇向量特征与该字的所述字向量特征进行融合得到融合特征。
5.根据权利要求1所述的一种文本实体识别模型的构建方法,其特征在于,所述第二解码模块将所述编码结果中的字向量特征中的初始词汇的起始位置和结尾位置进行重新组合得到重组词汇特征,其中所述重组词汇特征包括融合词汇的起始位置特征和结尾位置特征,将所述重组词汇特征通过非线性层进行映射得到所述第二输出特征。
6.根据权利要求1所述的一种文本实体识别模型的构建方法,其特征在于,训练数据集中的负样本词汇是根据每一所述待识别文本的长度设置一定的比例,利用随机采样的方式获取该比例文本长度下的负样本词汇。
7.一种文本实体识别方法,其特征在于,包括:
将至少一待识别文本输入到所述文本实体识别模型的编码模块中进行编码得到每一待识别文本的字向量特征和词向量特征,将所述字向量特征和对应的词向量特征在融合层进行融合得到融合特征,再对所述融合特征进行编码得到编码结果,将所述编码结果输入到解码模块中,所述解码模块先对所述编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,所述解码模块由第一解码模块和第二解码模块组成,所述第一解码模块将所述编码结果经过两个非线性映射层和一个自适应权值层得到第一输出特征;所述第二解码模块将所述编码结果中的字向量特征进行重新组合后通过一个非线性层得到第二输出特征,第一解码模块包括并行的第一非线性映射层、自适应权值层、第二非线性映射层,其中第一非线性映射层和所述自适应权值层的输出融合得到注意力特征图,所述注意力特征图和所述第二非线性映射层的输出融合得到第一输出特征,将所述第一输出特征和所述第二输出特征进行融合得到融合特征,基于所述融合特征预测每一所述待识别文本的实体词汇。
8.一种文本实体识别模型的构建装置,其特征在于,包括
获取模块:获取至少一待识别文本,对每一所述待识别文本进行分词得到每个所述待识别文本的至少一字词结构,并标记所述待识别文本的文本实体得到训练数据集;
构建模块:将所述训练数据集输入实体识别模型中进行训练以得到文本实体识别模型,其中所述实体识别模型由编码模块和解码模块组成,所述编码模块对所述待识别文本的所述字词结构进行编码得到字向量特征和词向量特征,所述字向量特征和词向量特征在融合层进行融合后得到融合特征,对所述融合特征进行编码得到编码结果,所述编码结果输入到解码模块中,所述解码模块先对编码结果进行解码得到第一输出特征,再对所述编码结果中的字向量特征进行解码得到第二输出特征,所述解码模块由第一解码模块和第二解码模块组成,所述第一解码模块将所述编码结果经过两个非线性映射层和一个自适应权值层得到第一输出特征;所述第二解码模块将所述编码结果中的字向量特征进行重新组合后通过一个非线性层得到第二输出特征,第一解码模块包括并行的第一非线性映射层、自适应权值层、第二非线性映射层,其中第一非线性映射层和所述自适应权值层的输出融合得到注意力特征图,所述注意力特征图和所述第二非线性映射层的输出融合得到第一输出特征,将所述第一输出特征和所述第二输出特征进行融合后输入到预测层得到实体识别结果。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-6任意一种文本实体识别模型的构建方法或权利要求7所述的一种文本实体识别方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-6任一项所述的一种文本实体识别模型的构建方法或权利要求7所述的一种文本实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506615.2A CN115545035B (zh) | 2022-11-29 | 2022-11-29 | 一种文本实体识别模型及其构建方法、装置及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211506615.2A CN115545035B (zh) | 2022-11-29 | 2022-11-29 | 一种文本实体识别模型及其构建方法、装置及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545035A CN115545035A (zh) | 2022-12-30 |
CN115545035B true CN115545035B (zh) | 2023-02-17 |
Family
ID=84721911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211506615.2A Active CN115545035B (zh) | 2022-11-29 | 2022-11-29 | 一种文本实体识别模型及其构建方法、装置及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545035B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116384515B (zh) * | 2023-06-06 | 2023-09-01 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011186A (zh) * | 2021-01-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196967B (zh) * | 2019-06-05 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 基于深度转换架构的序列标注方法和装置 |
-
2022
- 2022-11-29 CN CN202211506615.2A patent/CN115545035B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011186A (zh) * | 2021-01-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN115034224A (zh) * | 2022-01-26 | 2022-09-09 | 华东师范大学 | 一种融合多种文本语义结构图表示的新闻事件检测方法和系统 |
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于BERT的中文电子病历命名实体识别;李灵芳等;《内蒙古科技大学学报》;20200315(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115545035A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN110569353B (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN112487149A (zh) | 一种文本审核方法、模型、设备及存储介质 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN112784066B (zh) | 基于知识图谱的信息反馈方法、装置、终端和存储介质 | |
CN112418291B (zh) | 一种应用于bert模型的蒸馏方法、装置、设备及存储介质 | |
CN112084435A (zh) | 搜索排序模型训练方法及装置、搜索排序方法及装置 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110399547A (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
CN115545035B (zh) | 一种文本实体识别模型及其构建方法、装置及应用 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN112861518A (zh) | 文本纠错方法、装置和存储介质及电子装置 | |
CN114626380A (zh) | 实体识别的方法和装置、电子设备和存储介质 | |
CN115357699A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN116467417A (zh) | 问题答案的生成方法、装置、设备及存储介质 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN117851605B (zh) | 一种行业知识图谱构建方法、计算机设备及存储介质 | |
CN115952266A (zh) | 问题生成方法、装置、计算机设备和存储介质 | |
WO2022141855A1 (zh) | 文本正则方法、装置、电子设备及存储介质 | |
CN117371404B (zh) | 一种文本问答数据对生成方法及装置 | |
CN111538914A (zh) | 地址信息的处理方法和装置 | |
CN118277575B (zh) | 一种用于文本情感分析的集成对比方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |