CN116956929B

CN116956929B - 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置

Info

Publication number: CN116956929B
Application number: CN202311212214.0A
Authority: CN
Inventors: 杨雷; 韦韩; 郭洁; 赵莺菲; 程寿山
Original assignee: Research Institute of Highway Ministry of Transport
Current assignee: Research Institute of Highway Ministry of Transport
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-15
Anticipated expiration: 2043-09-20
Also published as: CN116956929A

Abstract

本申请中提供一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置，方法包括：对桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签；基于桥梁管养样本语句和桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；基于桥梁管养样本语句和桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；获取待处理的桥梁管养数据，并基于完成训练的实体抽取模型抽取桥梁管养专业词，基于完成训练的实体分类模型对桥梁管养专业词进行分类。

Description

针对桥梁管养文本数据的多特征融合命名实体识别方法、装置

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品。

背景技术

近年来，桥梁管养领域发展迅速，积累了大量文本数据。这些数据中蕴含着高质量的专业理论知识和实践经验，因此智能化地分析和利用这些数据成为未来发展的方向。然而，目前桥梁管养领域的智能化水平仍处于发展阶段，与新一代人工智能技术的结合不深，尤其是在利用自然语言处理算法处理海量文本数据方面的研究还相对较少。

另一方面，在人工智能领域中，随着BERT（Bidirectional EncoderRepresentation from Transformers）的出现，基于BERT构建的命名实体识别技术能够更准确高效地提取领域内的专业实体。这些从文本数据中提取出的专业实体可以用于多个方面。首先，它们可以用于构建知识图谱，进而搭建问答系统，帮助实现智能化的知识管理和知识问答。其次，这些实体可以用于实现高效准确的智能化检索，即通过从用户问题中抽取出的实体名进行智能搜索。最后，这些实体还可以用于构建基于实体的文本摘要自动生成系统。

然而，目前自然语言处理领域内的命名实体识别技术架构主要为BERT+CRF（Conditional Random Field）或BERT+BiLSTM（Bi-directional Long Short-TermMemory）+CRF的模式。研究方向主要集中在添加特征和拆分任务等方面。在添加特征方面，主要是在现有架构上添加领域内的字特征、词特征等，而很少有针对桥梁管养领域数据进行细粒度多特征融合的算法研究。在拆分任务方面，命名实体识别任务被拆分为实体抽取和实体分类任务，但在实体分类任务中对于桥梁管养领域数据中实体词较长的情况，缺乏相关的分析和优化研究。

因此，未来的研究方向应该是更深入地将桥梁管养领域与新一代人工智能技术相结合，特别是在利用自然语言处理算法处理海量文本数据方面。同时，需要针对桥梁管养领域的特点，进行细粒度多特征融合的算法研究，并对实体词较长的情况进行分析和优化。这样才能更好地实现桥梁管养领域的智能化发展。

发明内容

本申请的目的在于提出一种针对桥梁管养文本数据的多特征融合命名实体识别方法、装置、电子设备及计算机程序产品，用于解决或者克服现有技术中存在的上述技术问题。

一种针对桥梁管养文本数据的多特征融合命名实体识别方法，其包括：

获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；

对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签；

基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；

基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；

获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

一种针对桥梁管养文本数据的多特征融合命名实体识别装置，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，其包括：

第一融合训练单元，用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；

第二融合训练单元，基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；

实体抽取使能单元，用于获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

一种电子设备，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，其包括：存储器以及处理器，所述存储器上存储有计算机可执行程序，所述计算机可执行程序被所述处理器运行时，执行如下步骤：

一种计算机程序产品，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，其上存储有计算机可执行程序，所述计算机可执行程序被运行时执行如下步骤：

本申请中提供的技术方案中，通过获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签；基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。为此，可以达到如下技术效果：

针对桥梁管养领域中实体词较长且实体类别较多的情况，针对性采用两阶段任务模型（实体抽取模型和实体分类模型）以适应实体类别较多的现状，并且在两阶段任务中的分类任务中，提升缓解实体词较长可能带来的输入信息的损失问题，以提升实体分类任务的效果。此外，为更好的针对性利用桥梁管养领域的特征，在两阶段任务中的抽取任务中，引入了词特征和句特征，并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进，使得训练好的模型能够更好地识别桥梁管养领域的命名实体，为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础，提高了桥梁管养领域数据的智能化利用水平和效率。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的，附图中：

图1为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别方法的流程示意图。

图2为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别装置的结构示意图。

图3为本申请实施例一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

图1为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别方法的流程示意图。如图1所示，其包括：

S101、获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；

S102、对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签；

S103、基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；

S104、基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；

S105、获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

可选地，本实施例中，所述对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词，包括：

对所述桥梁管养样本数据进行分句，得到桥梁管养样本语句；

对所述桥梁管养样本语句进行分词，得到所述桥梁管养样本词。

可选地，所述对所述桥梁管养样本语句进行分词，得到所述桥梁管养样本词，包括：基于jieba库对所述桥梁管养样本语句进行分词，得到所述桥梁管养样本词。

本实施例中，为了便于后续进行分词处理，对分句处理得到的桥梁管养样本语句进行存储处理，在完成分词之后，对得到的所述桥梁管养样本词也进行存储处理。

本实施例中，分句过程中对桥梁管养数据进行分句处理后，每个桥梁管养样本语句可以当成一条数据进行存储。

可选地，所述对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签，包括：

基于实体的开始位置、实体的中间位置、实体的结束位置，对所述桥梁管养样本语句进行实体抽取标注得到所述桥梁管养实体抽取样本词的标签；

基于构建的实体类型词典，对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签。

可选地，对所述桥梁管养样本语句进行实体抽取标注（比如称之为第一阶段任务），具体利用BIOES标注法标注出每个字对应的实体类别，其中，BIOES（Beginning,Inside, Outside, End, Single）标注法中B表示实体的开始位置，I表示实体的中间位置，E表示实体的结束位置，O表示不属于任何实体，S表示只有一个字的实体。例如，针对句子“对长江大桥开展梁的跨中挠度监测”，利用BIOES标注法标注后得到所述桥梁管养实体抽取样本词的标签为“OBIIEOOSOBIIEOO”，其中每个字母与句子中的每个字一一对应，长江大桥和跨中挠度均被标注为BIIE，梁被标注为S，其他非实体词被标注为O。

可选地，对所述桥梁管养样本语句进行实体分类标注（比如又称之为第二阶段任务），定义出桥梁管养领域内的实体类型比如包含桥名、长度、时间、位置、编号、构件、部件、损伤、监测指标和特殊事件共10个实体类型。然后基于定义好的实体类型构建实体类型词典以进行标注。在实体抽取模型的训练过程中不会采用非实体数据，因此在标注时只标注桥梁管养样本语句中的实体，而不标注非实体，例如，针对上述句子“对长江大桥开展梁的跨中挠度监测”，只标注其中的实体，即“长江大桥”、“梁”和“跨中挠度”。因此基于定义的实体类型进行标注后的label（标签）如下：“长江大桥”的label为“桥名”，“梁”的label为“构件”，“跨中挠度”的label为“监测指标”。

本实施例中，可以通过收集的桥梁管养领域的实体类型构建出所述实体类型词典，以实现对实体类型的索引化。

可选地，所述基于构建的实体类型词典，对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签之后，还包括：将所述桥梁管养实体分类样本词的标签转换成数字索引，以在基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练时，将所述数字索引作为所述实体分类模型的真实训练标签，以对所述实体分类模型进行多特征融合训练。

在实际训练过程中，“桥名”、“构件”和“跨中挠度”等实体类型会转化为对应的模型可以读取的数字索引（比如“桥名”对应0，“特殊事件”对应9，其他类型均为0-9之间非重复数字），以便于模型训练时可以读取。

可选地，所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块（或者又可称之为稠密模块）、CRF模块（又可称之为条件随机场模块），所述Text2Vec模型中的参数被冻结，参数被冻结的含义是指所述Text2Vec模型的参数不再参与实体抽取模型的训练过程，参数值保持固定不变；

对应地，所述基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型，包括：

将所述桥梁管养样本语句转换成BERT输入数据，以输入到所述BERT模型中进行特征提取得到对应的BERT特征向量；

将所述桥梁管养样本语句以及所述桥梁管养样本词输入到所述Text2Vec模型中生成对应的句子语义向量以及分词语义向量；

对所述BERT特征向量、所述句子语义向量以及所述分词语义向量输入到注意力模块中以进行多特征融合，得到注意力向量；

将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数（BIOES标注法中的五个标注类型）相同的压缩向量；

将所述压缩向量输入到所述CRF模块中，得到桥梁管养实体预测值；

根据所述桥梁管养实体预测值与所述桥梁管养实体分类样本词的标签，计算两者之间的损失值，对所述实体抽取模型进行反向传播计算梯度，以不断调整所述BERT模型、所述注意力模块、所述Dense模块、所述CRF模块的参数，直至损失值达到预设标准，完成所述实体抽取模型的训练。

可选地，以下以在一具体场景中应用为例，对上述实体抽取模型的训练进行示例性说明。

具体来说，将所述桥梁管养样本语句转换成BERT输入数据，比如可以通过对所述桥梁管养样本语句进行分字后，在其开头加上前缀[CLS]，表示是开头，在其结尾加上后缀[SEP]，表示是结尾，从而转换成BERT输入数据。

将带有前后缀的桥梁管养样本语句的分字数据即BERT输入数据输入到BERT模型中，经过BERT模型处理后会为每个BERT输入数据即每个token产出一个768维的向量即对应的BERT特征向量，BERT特征向量标记为（其中i为正整数且token_num>=i>=1，用于区分不同的token；token_num为正整数，表示输入token的数量）。

在一具体场景中，使用的BERT模型为预训练BERT模型bert-base-chinese，该预训练BERT模型由于基于海量中文文本数据进行预训练，具备较丰富的中文语义表示能力，有助于在训练过程中加快模型的收敛速度和提高模型的性能。

进一步，将所述桥梁管养样本语句以及所述桥梁管养样本词分别输入到Text2Vec模型中生成桥梁管养样本语句对应的句子语义向量和每个所述桥梁管养样本词对应的分词语义向量。比如，其中Text2Vec模型为shibing624/text2vec-base-chinese模型，该模型利用CoSENT方法基于中文数据进行训练，在中文STS-B测试集上有较好效果。所述句子语义向量和分词语义向量比如可以都为768维的向量，句子语义向量标记为，分词语义向量标记为/>(其中j为正整数且word_num>=j>=1，用于区分不同的分词；word_num为正整数，表示所述桥梁管养样本词的总数量)。BERT特征向量与所述句子语义向量和分词语义向量一致，也为768维的向量。

本实施例中，通过引入基于Text2Vec模型产出的句子语义向量和分词语义向量，便于后续向量融合，实现特征融合。

将所述BERT特征向量（对应的768维向量）、所述句子语义向量（对应的768维向量）以及所述分词语义向量（对应的768维向量）输入到注意力模块中以进行多特征融合，得到注意力向量。

具体地，比如可以基于如下公式（1）对所述BERT特征向量、所述句子语义向量进行融合得到句子融合特征向量：

（1）

其中，表示第i个token的句子融合特征向量，/>表示第i个token的对应的BERT特征向量，/>表示句子语义向量，/>表示第i个token的BERT特征向量对应的融合权重值，其满足：0<=/><=1，i为正整数且token_num>=i>=1，用于区分不同的token，token_num为正整数，表示输入token的数量。

根据如下公式（2）融合分词语义向量和分词对应token的BERT特征向量，从而对每个分词包含的token的BERT特征向量表示中融入分词的语义特征：

（2）

其中，表示分词融合特征向量，其融合了分词word_j包含的第i个token的BERT特征向量和分词word_j对应的分词语义向量，/>表示分词word_j包含的第i个token的BERT特征向量，/>表示分词word_j对应的分词语义向量，表示分词word_j包含的第i个token的BERT特征向量对应的融合权重值，其满足：0<=/><=1，i为正整数且token_num>=i>=1，用于区分不同的token，token_num为正整数，表示输入token的数量；j为正整数且word_num>=j>=1，用于区分不同的桥梁管养样本词，word_num为正整数，表示句子分词后的桥梁管养样本词的总数量。

基于上述操作，得到每个token的BERT向量融合了整句向量后的句子特征融合向量，以及每个token的BERT特征向量融合了该token所属分词的分词语义向量后的分词特征融合向量/>。

根据如下公式（3），将上述两个融合向量的对应维度求和，得到最终融合后的注意力向量：

（3）

其中，表示第i个token对应的融合了句子特征融合向量和分词特征融合向量的注意力向量，/>表示融合整句向量和第i个token的BERT向量后的融合向量即句子特征融合向量，/>表示融合了分词word_j包含的第i个token的BERT特征向量和分词word_j对应分词语义向量后的融合向量即分词特征融合向量。其满足：i为正整数且token_num>=i>=1，用于区分不同的token，token_num为正整数，表示输入token的数量；j为正整数且word_num>=j>=1，用于区分不同的桥梁管养样本词，word_num为正整数，表示句子分词后的桥梁管养样本词的总数量。

将经过Attention模块处理得到的每个token对应的（768维）向量输入到Dense模块（比如其为三层的全连接神经网络）中，将每个/>压缩处理得到维度与标注的分类总数相同的压缩向量，比如为5维的压缩向量/>（5个维度分别对应BIOES标注法中的五个标注类型），然后将每个token对应的压缩向量/>输入到CRF模块中处理后得到最终按照BIOES标注法进行标注的实体抽取结果数据作为桥梁管养实体预测值。

可选地，所述实体分类模型包括：BIES Dense模块（又称之为BIES稠密神经网络模块中的B、I、E、S同上述BIOES中的解释），CharacterWise（字敏感） Dense模块，所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型，包括：

将所述桥梁管养样本语句中的实体在实体抽取模型中对应的BERT特征向量进行均值化得到平均BERT特征向量；

将所述平均BERT特征向量输入到所述BIES Dense模块中得到实体预融合向量；

将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量，并对其进行均值计算，得到字融合向量；

对所述实体预融合向量和所述字融合向量/>求和，得到桥梁管养专业词分类结果；

根据所述桥梁管养专业词分类结果和所述桥梁管养实体分类样本词的标签，计算实体分类模型的损失值；

根据所述实体分类模型的损失函数计算梯度，以调整所述BIES Dense模块，所述CharacterWise Dense模块的参数，直至所述实体分类模型的损失值达到预设标准，完成所述实体分类模型的训练。

针对桥梁管养领域中实体词较长且实体类别较多的情况，针对性采用两阶段任务模型（实体抽取模型和实体分类模型）以适应实体类别较多的现状，并且在两阶段任务中的分类任务中，引入了BIES Dense模块和CharacterWise Dense模块来提升缓解实体词较长可能带来的输入信息的损失问题，以提升实体分类任务的效果。此外，为更好的针对性利用桥梁管养领域的特征，在两阶段任务中的抽取任务中，在BERT+CRF框架上引入了词特征和句特征，并采用注意力模块学习基于注意力的融合方式。基于上面两个方面的改进，使得训练好的模型能够更好地识别桥梁管养领域的命名实体，为后续的知识图谱、智能问答和智能搜索研究和应用打下了基础，提高了桥梁管养领域数据的智能化利用水平和效率。

此处，需要说明的是，在上述所述实体分类模型进行训练时，使用到的BERT特征向量来自于所述实体抽取模型中的BERT模型，在完成实体抽取模型的训练之后，BERT模型的参数已经固定（或者相当于参数被冻结），在实体分类模型的训练过程中BERT的参数不再参与优化。

可选地，以下以在一具体场景中应用为例，对上述实体分类模型的训练进行示例性说明。

本实施例中，实体分类模型的输入为每个实体中按照BIOES标注法标注为B、I、E、S的字，由于O不是实体，因此不作为输入。找到第一阶段任务输入的句子数据，通过第一阶段任务训练好的BERT模型获取B、I、E、S的字对应的BERT特征向量（比如为768维向量），对这些向量求和后取平均值，得到平均BERT特征向量（比如为768维的求和平均向量），将平均BERT特征向量输入到BIES Dense模块（该模块为5层的全连接神经网络，输入维度为768，输出维度为10，对应10个实体类型），得到实体预融合向量；同时，将实体中每个字对应的BERT特征向量依次输入到CharacterWise Dense模块（该模块为3层的全连接神经网络，输入维度为768，输出维度为10，对应10个实体类型），得到对应的强化字向量，然后将所有字的强化字向量求和平均得到字融合向量/>。最终对实体预融合向量/>和字融合向量求和，得到10维的桥梁管养专业词分类结果。

本申请实施例中，先引入CharacterWise Dense模块来加强同一个实体中每个字对模型训练参数的影响，之后将上述Dense模块与BIES Dense模块的结果进行融合。

本实施例中，所述基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类，类似上述训练过程，在此不再赘述。

在本申请的另外一实施例中，提供了针对桥梁管养文本数据的多特征融合命名实体识别方法，其可以包括：

基于桥梁管养实体抽取样本词的标签和桥梁管养样本语句对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；

基于桥梁管养样本语句和桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；

获取待处理的桥梁管养数据，并基于完成训练的实体抽取模型抽取桥梁管养专业词，基于完成训练的实体分类模型对桥梁管养专业词进行分类。

进一步地，所述的方法还可以包括：

获取桥梁管养样本数据，并对桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；

对桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签。

图2为本申请实施例一种针对桥梁管养文本数据的多特征融合命名实体识别装置的结构示意图。如图2所示，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，针对桥梁管养文本数据的多特征融合命名实体识别装置可以包括：

第一融合训练单元203，用于基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；

第二融合训练单元204，用于基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型；

实体抽取使能单元205，用于获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取所述桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类。

图3为本申请实施例一种电子设备的结构示意图。如图3所示，其存储器以及处理器，所述存储器上存储有计算机可执行程序，在获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签之后，所述计算机可执行程序被所述处理器运行时，执行如下步骤：

本申请还提供一种计算机程序产品，其上存储有计算机可执行程序，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，所述计算机可执行程序被运行时执行如下步骤：

上述实施例中的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是，但不限于，随机存取存储介质（Random Access Memory，RAM），只读存储介质（Read Only Memory，ROM），可编程只读存储介质（Programmable Read-OnlyMemory，PROM），可擦除只读存储介质（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储介质（Electric Erasable Programmable Read-Only Memory，EEPROM）等。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种针对桥梁管养文本数据的多特征融合命名实体识别方法，其特征在于，包括：

获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类；

其中，所述实体分类模型包括：BIES Dense模块，CharacterWise Dense模块，所述基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练，直至训练结束，得到完成训练的实体分类模型，包括：

将所述BERT特征向量输入到所述CharacterWise Dense模块中得到强化字向量，并对所述强化字向量进行均值计算，得到字融合向量；

根据所述实体分类模型的损失函数计算梯度，以调整所述BIES Dense模块，所述CharacterWise Dense模块的参数，直至所述实体分类模型的损失值达到预设标准，完成所述实体分类模型的训练；

其中，所述实体抽取模型包括BERT模型、Text2Vec模型、注意力模块、Dense模块、CRF模块，所述Text2Vec模型的参数被冻结；

将所述注意力向量输入到所述Dense模块中对其进行压缩得到维度与标注的分类总数相同的压缩向量；

2.根据权利要求1所述的方法，其特征在于，所述对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述桥梁管养样本语句进行分词，得到所述桥梁管养样本词，包括：基于jieba库对所述桥梁管养样本语句进行分词，得到所述桥梁管养样本词。

4.根据权利要求1所述的方法，其特征在于，所述对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于构建的实体类型词典，对所述桥梁管养样本语句进行实体分类标注得到所述桥梁管养实体分类样本词的标签之后，还包括：将所述桥梁管养实体分类样本词的标签转换成数字索引，以在基于所述桥梁管养样本语句和所述桥梁管养实体分类样本词的标签对实体分类模型进行多特征融合训练时，将所述数字索引做为所述实体分类模型的真实训练标签，以对所述实体分类模型进行多特征融合训练。

6.一种针对桥梁管养文本数据的多特征融合命名实体识别装置，其特征在于，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，所述针对桥梁管养文本数据的多特征融合命名实体识别装置包括：

实体抽取使能单元，用于获取待处理的桥梁管养数据，并基于所述完成训练的实体抽取模型抽取桥梁管养专业词，基于所述完成训练的实体分类模型对所述桥梁管养专业词进行分类；

7.一种电子设备，其特征在于，针对获取桥梁管养样本数据，并对所述桥梁管养样本数据进行预处理，得到桥梁管养样本语句和桥梁管养样本词；对所述桥梁管养样本语句进行标注得到桥梁管养实体抽取样本词的标签以及桥梁管养实体分类样本词的标签的情形，所述电子设备包括：存储器以及处理器，所述存储器上存储有计算机可执行程序，所述计算机可执行程序被所述处理器运行时，执行如下步骤：基于所述桥梁管养样本语句和所述桥梁管养实体抽取样本词的标签对实体抽取模型进行多特征融合训练，直至训练结束，得到完成训练的实体抽取模型；