CN116341554B

CN116341554B - 面向生物医学文本的命名实体识别模型的训练方法

Info

Publication number: CN116341554B
Application number: CN202310574300.XA
Authority: CN
Inventors: 刘际; 张传民; 李红旗
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-29
Anticipated expiration: 2043-05-22
Also published as: CN116341554A

Abstract

本发明提供了一种面向生物医学文本的命名实体识别模型的训练方法。该方法包括：利用输入层处理训练集，得到初始向量矩阵和语言模型矩阵，并利用嵌入层将初始向量矩阵和语言模型矩阵中的词嵌入向量进行向量相加融合运算，得到多维度词嵌入向量；利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量，并利用条件随机场层处理多维度向量，得到标签信息；利用损失函数通过处理标签信息和标注信息，并利用损失值通过反向传播对命名实体识别模型进行参数更新；利用验证集对参数更新后的命名实体识别模型进行验证，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型。

Description

面向生物医学文本的命名实体识别模型的训练方法

技术领域

本发明涉及计算机自然语言处理领域，特别涉及一种面向生物医学文本的命名实体识别模型的训练方法、面向生物医学文本的命名实体识别方法、电子设备以及存储介质。

背景技术

随着计算机以及生命科学技术的发展，不同学科之间的综合性越来越强，生物医学领域的文献数量呈现为指数级地增长。面对如此海量增长的数据，如何从中进行文本数据挖掘，抽取其中包含的信息成为自然语言处理与生物医学领域中研究的重要方向之一。

信息抽取（Information Extraction, IE）的主要任务是从文本中抽取出特定的信息，其中的关键技术为命名实体识别。在生物医学领域中，生物医学文本主要由非结构化或者结构化的文本组成，例如医学教材、电子病历等，这些文本中包含许多专业名词或医学术语，如各种疾病、细胞、蛋白质、医学检查等名称，因此进行命名实体识别，是用自然语言处理技术对生物医学文本进行数据挖掘的必不可少的环节。

由于生物医学文本句式多变、实体边界模糊、无统一的命名规则且存在大量的缩写和简略形式，面对当前指数级增长的数字化文本，通过引入丰富的领域知识表示或通过外部知识库指导等方式对实体进行消歧和链接，以保持命名实体的一致性是后期性能提升需要面临和解决的问题之一。

发明内容

鉴于上述问题，本发明提供了一种面向生物医学文本的命名实体识别模型的训练方法、面向生物医学文本的命名实体识别方法、电子设备以及存储介质，以期至少能够解决上述问题之一。

根据本发明的第一个方面，提供了一种面向生物医学文本的命名实体识别模型的训练方法，其特征在于，包括：

对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集；

利用动态规划方法对生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集；

基于Transformer神经网络和词汇增强方法构建命名实体识别模型并对命名实体识别模型的参数进行初始化，其中，命名实体识别模型包括基于词汇增强方法的输入层、嵌入层、Transformer层、基于标签间依赖信息的条件随机场层以及输出层；

利用基于词汇增强方法的输入层分批次处理训练集，得到初始向量矩阵和语言模型矩阵，并利用嵌入层将初始向量矩阵中的词嵌入向量和语言模型矩阵中的词嵌入向量进行向量相加融合运算，得到多维度词嵌入向量；

利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量，并利用基于标签间依赖信息的条件随机场层处理多维度向量，得到标签信息，并通过输出层输出标签信息；

利用损失函数通过处理标签信息和与标签信息相对应的训练集中的标注信息，得到损失值，并利用损失值通过反向传播对命名实体识别模型进行参数更新；

利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型。

根据本发明的实施例，上述对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集包括：

从医学领域的文献中采集生物医学文本数据，并按照句号对采集到的生物医学文本数据进行分割和整理，得到初始生物医学文本数据集；

从初始生物医学文本数据集中筛选出带有生物医学命名实体的文本数据，得到筛选后的生物医学文本数据集；

按照预设的生物医学标注规范，对筛选后的生物医学文本数据集进行多轮次的专家标注，得到带有标注信息的生物医学文本数据集，其中，标注信息包括生物医学命名实体的内容、生物医学命名实体的类型、生物医学命名实体的起始位置以及生物医学命名实体的终止位置；

按照预设的数据交换格式，对带有标注信息的生物医学文本数据集进行格式化处理，得到生物医学文本数据集。

根据本发明的实施例，上述利用动态规划方法对生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集包括：

按照标点符号，对生物医学文本数据集中的生物医学文本数据进行初步分割预处理，得到具有多个句子片段的生物医学文本数据集；

按照预设的最长连续句子序列的定义，构建具有多个句子片段的生物医学文本数据集的有向无环图；

根据预设的约束条件，选择符合预设冗余度和预设交叉均匀度的分割方式，通过动态规划方法对有向无环图进行二次分割预处理，得到预处理后的生物医学文本数据集；

将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集。

根据本发明的实施例，上述利用基于词汇增强方法的输入层分批次处理训练集，得到初始向量矩阵和语言模型矩阵包括：

利用基于词汇增强方法的输入层随机打乱训练集中生物医学文本数据的次序，并将打乱次序的训练集分批次输入到基于词汇增强方法的输入层中；

利用基于词汇增强方法的输入层处理训练集，得到具有词嵌入向量的初始向量矩阵；

利用分词工具所构建的词汇词典对具有词嵌入向量的初始向量矩阵进行遍历，得到具有词嵌入向量的初始向量矩阵中每条生物医学文本数据的词汇信息；

基于词汇信息的起始位置和词汇信息的终止位置，构建具有词嵌入向量的语言模型矩阵。

根据本发明的实施例，上述利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量包括：

利用Transformer层的编码器对多维度词嵌入向量进行编码，得到编码结果；

利用Transformer层的缺失比例因子的注意力头对编码结果进行自注意力机制计算，得到计算结果，其中，Transformer层的缺失比例因子注意力头包括相对位置信息机制和方向信息机制；

利用Transformer层的解码器对计算结果进行解码，并通过Transformer层的全连接层对解码结果进行处理，得到多维度向量。

根据本发明的实施例，上述利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型包括：

利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果；

在验证结果不满足预设效果和/或训练轮次不满足预设训练轮次的前提下，对命名实体识别模型进行迭代训练和参数更新，直到满足预设效果和/或达到预设训练轮次，得到训练完成的命名实体识别模型。

根据本发明的实施例，上述基于标签间依赖信息的条件随机场层通过引入标签间的依赖信息进而防止条件随机场网络产生异常的结果。

根据本发明的第二个方面，提供了一种面向生物医学文本的命名实体识别方法，其特征在于，包括：

利用动态规划方法对生物医学文本数据中的命名实体进行预处理，得到预处理后的命名实体；

利用训练完成的命名实体模型对预处理后的命名实体进行处理，得到命名实体的识别预测结果，其中，识别预测结果包括命名实体的内容、命名实体的类型、命名实体的起始位置以及命名实体的终止位置，训练完成的命名实体模型根据上述面向生物医学文本的命名实体识别模型的训练方法训练得到；

将识别预测结果按照用户指定的数据交换格式进行存储并将格式化的识别预测结果输出到用户终端上。

根据本发明的第二个方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行面向生物医学文本的命名实体识别模型的训练方法以及面向生物医学文本的命名实体识别方法。

根据本发明的第二个方面，提供了一种计算机可读存储介质，其特征在于，其上存储有可执行指令，该指令被处理器执行时使处理器执行面向生物医学文本的命名实体识别模型的训练方法以及面向生物医学文本的命名实体识别方法。

本发明提供的上述模型训练方法，能够得到具有良好准确率和召回率的面向生物医学文本的命名实体识别模型。本发明提供的上述模型训练方法采用动态规划的方法分割过长的语句，避免了相关信息丢失和错误地在命名实体中间分割语句的问题；同时，本发明提供的上述模型训练方法采用经过大规模数据训练的预训练模型初始化词嵌入向量，同时引入了经过命名实体识别任务适配的Transformer模型，增强了模型中注意力机制对短距离信息的关注，加强了命名实体识别任务的准确程度；此外，本发明提供的上述模型训练方法引入了词汇增强的方法，加强了词嵌入向量在词语方面的权重，增强了词语在句子中的影响，使整个模型对于短长度命名实体有更高的关注度。

附图说明

图1是根据本发明实施例的面向生物医学文本的命名实体识别模型的训练方法的流程图；

图2是根据本发明实施例获取生物医学文本数据集的流程图；

图3是根据本发明实施例对生物医学文本数据集进行预处理的流程图；

图4是根据本发明实施例的命名实体识别模型的结构示意图；

图5是根据本发明实施例的获取初始向量矩阵和语言模型矩阵的流程图；

图6是根据本发明实施例获取多维度词嵌入向量的流程图；

图7是根据本发明实施例获取训练完成的命名实体识别模型的流程图；

图8是根据本发明实施例面向生物医学文本的命名实体识别方法的流程图；

图9示意性示出了根据本发明实施例的适于实现面向生物医学文本的命名实体识别模型的训练方法以及面向生物医学文本的命名实体识别方法的电子设备的方框图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

命名实体识别指识别文本中具有特定意义的实体，在生物医学领域中主要包括：基因、蛋白质、疾病、化学物、药物、通路等等。由于生物医学实体在描述上具有多个词组合在一起作为实体名称，没有标准的命名规则导致一个实体产生多种命名方式，缩写具有歧义和一个实体嵌套在另一个实体的内部的四个特点，生物医学实体识别任务的难度大于通用领域的命名实体识别任务。目前命名实体识别的方法大致可分为基于词典的方法、基于规则的方法、基于统计机器学习和基于深度学习的方法。

然而现有技术中的生物医学文本的命名实体识别方法存在识别准确率和召回率差、实体辩解不清晰以及实体间嵌套等问题。

为此本发明提供了一种基于Transformer和词汇增强方法的面向生物医学文本的命名实体识别方法，旨在解决现有技术中的各种技术问题。

需要特别指出的是，本发明的技术方案所涉及的生物医学文本数据的获取得到了相关数据所有者的授权，并在相关数据所有者的许可下，对上述生物医学文本数据进行处理、应用以及存储等，相关过程符合法律法规的规定，采取了必要和可靠的保密措施，符合公序良俗的要求。

图1是根据本发明实施例的面向生物医学文本的命名实体识别模型的训练方法的流程图。

如图1所示，上述面向生物医学文本的命名实体识别模型的训练方法包括操作S110~操作S170。

在操作S110，对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集。

图2是根据本发明实施例获取生物医学文本数据集的流程图。

如图2所示，上述对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集包括操作S210~操作S240。

在操作S210，从医学领域的文献中采集生物医学文本数据，并按照句号对采集到的生物医学文本数据进行分割和整理，得到初始生物医学文本数据集。

上述医学领域或生物领域的文献包括医学教材、临床实践和电子病历等，从上述文献中采集文本数据；上述文献可以是电子文献也可以是非电子文献。

通过操作S210初步收集大量生物医学文本数据，形成电子文本数据，并按照句号作为分割，将生物医学文本数据按序号分条形成文本数据集。

在操作S220，从初始生物医学文本数据集中筛选出带有生物医学命名实体的文本数据，得到筛选后的生物医学文本数据集。

在操作S230，按照预设的生物医学标注规范，对筛选后的生物医学文本数据集进行多轮次的专家标注，得到带有标注信息的生物医学文本数据集，其中，标注信息包括生物医学命名实体的内容、生物医学命名实体的类型、生物医学命名实体的起始位置以及生物医学命名实体的终止位置。

上述操作S220~操作S230筛选含有生物医学命名实体的文本数据，标注文本中的每个命名实体内容、实体的起始位置和实体的中止位置。

具体的，首先组织标注人员学习生物医学标注规范，组织标注人员进行标注，采取多轮迭代模式，每个生物医学文本由由两名标注人员负责。一标者完成标注任务后，记录存在疑问的地方，接着由二标人负责检查并记录下不一致和不确定的地方。与医学专家商量讨论后获得统一的解决方案。讨论之后再由一标者负责修改标注，形成最后的三标文件。

在操作S240，按照预设的数据交换格式，对带有标注信息的生物医学文本数据集进行格式化处理，得到生物医学文本数据集。

操作S240旨在将文本数据、标注信息按照json格式输出，形成数据集。

具体的，每条文本数据包含文本与实体信息，实体信息包含起始位置、中止位置、实体类型、实体内容四个部分。

在操作S120，利用动态规划方法对生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集。

图3是根据本发明实施例对生物医学文本数据集进行预处理的流程图。

如图3所示，上述利用动态规划方法对生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集包括操作S310~操作S340。

由于模型自身的限制，每条输入的语句不超过128字符，然而数据集中的语句有许多语句超过128字符，简单的固定长度的分割方法容易导致文本信息丢失，例如分割恰好位于实体内部，此时将导致训练噪声增大，为避免此分割方法带来的噪声，本发明采用动态规划的方法分割语句，以此保证分割后的语句能覆盖全文，并且子语句满足最小冗余度，即保证子语句数量最少。

在操作S310，按照标点符号，对生物医学文本数据集中的生物医学文本数据进行初步分割预处理，得到具有多个句子片段的生物医学文本数据集。

读入数据集中的文本数据，将原始文本按照中英文句号、逗号、感叹号和问号进行初步分割，获得多个句子片段。

在操作S320，按照预设的最长连续句子序列的定义，构建具有多个句子片段的生物医学文本数据集的有向无环图。

上述操作S320通过构建有向无环图用于选取候选子文本。

具体的，本发明将每个子语句按序定义为sent1、sent2、sent3, 规定最长子段落是满足最大长度限制条件下的最长连续句子序列，即再添加下一句就会超出最大长度，如Para1{Sent1, Sent2, Sent3}，本发明以所有合法的最长子段落作为节点，按顺序将具有交叉或相连的子段落之间用有向边连接，边的权重为两个段落之间的交叉度。

在操作S330，根据预设的约束条件，选择符合预设冗余度和预设交叉均匀度的分割方式，通过动态规划方法对有向无环图进行二次分割预处理，得到预处理后的生物医学文本数据集。

上述操作S330通过使用动态规划算法，通过有向无环图，构建最长子语句。

在满足约束的条件下，选择冗余度最小且交叉最为均匀的分割方式，通过动态规划算法，构造最优子片段集，满足子片段长度小于128字符且所有子片段的合集能覆盖原始文本。

在操作S340，将预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集。

上述操作S340通过读取分割完成后的文本数据，构成数据集。

对于每条文本数据，采用BIO标注法，对每个实体的第一个字符标记为B，第二个字符到最后一个字符标记为I，其他非实体字符标记为O；另外的，由于文本包含多种实体，对于不同实体，采取不同的标记方法，如B-dis、I-dis，B-equ、I-equ等共19种标记，将文本数据与标记数据分别输出到文件中。

在操作S130，基于Transformer神经网络和词汇增强方法构建命名实体识别模型并对命名实体识别模型的参数进行初始化，其中，命名实体识别模型包括基于词汇增强方法的输入层、嵌入层、Transformer层、基于标签间依赖信息的条件随机场层以及输出层。

图4是根据本发明实施例的命名实体识别模型的结构示意图。

基于Transformer和词汇增强方法的面向生物医学文本的命名实体识别模型结构如图4所示，包含输入层、嵌入层、其中，输入层和嵌入层均基于词汇增强方法进行构建、Transformer层、条件随机场层、输出层。如图4所示，通过输入层获得词矩阵，上述词矩阵经过BERT（Bidirectional Encoder Representations from Transformers）词嵌入处理得到词汇增强矩阵以及经过嵌入层处理得到词汇增强嵌入向量。

其中，输入层用于接受文本信息及标注信息输入，按照模型的需要执行必要的数据预处理，例如标准化以及由文本到向量的转化等，以满足网络的输入需要。

嵌入层用于初始化词嵌入向量，供后续训练使用。通过加载经过预训练的大规模BERT模型，并使用医疗文本进行训练的模型的权重，构建词嵌入向量，将输入的词向量转化为768维词嵌入向量，方便后续输入到模型中进行训练。

词汇增强方法用于构建词汇增强词典，采用N-gram方法，与词嵌入向量融合，增强实体信息。

由于命名实体基本都是词汇，为了增强模型对词汇的敏感度，首先使用中文分词工具构建词汇词典，然后遍历每条文本数据，若文本数据中存在词汇，记录词汇出现的起始位置与终止位置，然后根据上述信息，构建N-gram矩阵，将该矩阵进行Embedding编码，将步骤302中的词嵌入向量与每个字对应的N-gram向量表示结合起来，然后相加，并一起被输入至后续结构之中，增强词汇在句子词嵌入向量中的权重，以此使模型增强对词汇的关注。

构建适配NER任务的Transformer层用于提取特征；本发明构建的模型延续了基于深度学习的命名实体识别模型的思想，使用transformer模型进行训练，但传统的transformer模型中的自注意力机制包含scale factor，该参数的作用是为了得到分布相对均匀的attention权重，但是在命名实体识别任务中，并不需要关注所有词，因此取消了scale factor。原始transformer中的注意力头公式如公式（1）所示：

（1），本发明采用的模型注意力头的公式如公式（2）所示：/>（2），其中，上述/>分别表示关键向量、查询向量以及价值向量，上述/>表示激活函数，上述/>表示评分函数，上述/>表示缩放因子，上述/>表示相对位置标记，同时在进行位置编码时，引入相对位置信息与方向信息，能够更好地适配命名实体识别任务。

CRF层引入了标签间的依赖信息，防止网络产生不合常理的结果，例如一个实体第一个字的标签为B-dis，而后续字的标签，只能为I-dis和O，而无法出现B-dis、B-equ、I-equ等标签。

在操作S140，利用基于词汇增强方法的输入层分批次处理训练集，得到初始向量矩阵和语言模型矩阵，并利用嵌入层将初始向量矩阵中的词嵌入向量和语言模型矩阵中的词嵌入向量进行向量相加融合运算，得到多维度词嵌入向量。

图5是根据本发明实施例的获取初始向量矩阵和语言模型矩阵的流程图。

如图5所示，上述利用基于词汇增强方法的输入层分批次处理训练集，得到初始向量矩阵和语言模型矩阵包括操作S510~操作S540。

首先读取参数文件，加载在大规模自然语言处理数据集上预训练的模型（BERT）权重。同时，经过预处理后的生物医学文件数据集按照3:1的比例划分训练集和验证集。

在操作S510，利用基于词汇增强方法的输入层随机打乱训练集中生物医学文本数据的次序，并将打乱次序的训练集分批次输入到基于词汇增强方法的输入层中。

将训练数据分批次输入到网络输入层中，每批次24条文本数据，每条数据不超过128字符，长度不足128字符的补足，经过输入层后获得24128的向量矩阵与N-gram矩阵。

载入训练集数据并随机打乱次序，按照一定输入逐批次读入文本，并同步到GPU的显存中。加载在BERT模型上预训练的权重，并将模型同步到GPU的显存中。

在操作S520，利用基于词汇增强方法的输入层处理训练集，得到具有词嵌入向量的初始向量矩阵。

对每一批次的文本数据，经过输入层后得到24128维度的初始向量矩阵。

在操作S530，利用分词工具所构建的词汇词典对具有词嵌入向量的初始向量矩阵进行遍历，得到具有词嵌入向量的初始向量矩阵中每条生物医学文本数据的词汇信息。

在操作S540，基于词汇信息的起始位置和词汇信息的终止位置，构建具有词嵌入向量的语言模型矩阵。

对初始向量矩阵中的每条数据检测所含词汇信息，并进行标记生成语言模型（N-gram）矩阵

通过上述操作能够充分挖掘数据集中命名实体的表征。

将上述初始向量矩阵和语言模型矩阵输入到嵌入（Embedding）层中，将两个矩阵得到的词嵌入向量相加融合，获得最终的24128/>768维的词嵌入向量。

在操作S150，利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量，并利用基于标签间依赖信息的条件随机场层处理多维度向量，得到标签信息，并通过输出层输出标签信息；

图6是根据本发明实施例获取多维度词嵌入向量的流程图。

如图6所示，上述利用Transformer层对多维度词嵌入向量进行处理，得到多维度向量包括操作S610~操作S630。

在操作S610，利用Transformer层的编码器对多维度词嵌入向量进行编码，得到编码结果。

在操作S620，利用Transformer层的缺失比例因子的注意力头对编码结果进行自注意力机制计算，得到计算结果，其中，Transformer层的缺失比例因子注意力头包括相对位置信息机制和方向信息机制。

在操作S630，利用Transformer层的解码器对计算结果进行解码，并通过Transformer层的全连接层对解码结果进行处理，得到多维度向量。

将词嵌入向量输入到主体Transformer网络中，经全连接层转化为24128/>21的向量。

对于每一批次的文本词嵌入向量数据，上述操作S610~操作S630将其送入主体的经过命名实体识别适配的Transformer模型中，模型基本结构为编码器解码器结构，经过embedding编码后进行自注意力机制计算，使用更改后的Attention公式，将结果输出到解码器中，经过全连接层获得24128/>21的向量。

上述操作能够获得具有多重特征的词向量，从而能够更准确对命名实体进行识别。同时，将多维度向量输入到CRF层中，引入不同标签之间的依赖信息，最终使用维特比算法进行解码。

在操作S160，利用损失函数通过处理标签信息和与标签信息相对应的训练集中的标注信息，得到损失值，并利用损失值通过反向传播对命名实体识别模型进行参数更新。

通过损失函数计算预测结果与真值的误差，执行反向传播；对于所输出的预测结果，将其与训练数据进行的标注中提供的真值作对比，使用损失函数计算损失值，将这一损失值应用在网络的反向传播中用于更新权重，推进网络的学习进程。

在操作S170，利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型。

图7是根据本发明实施例获取训练完成的命名实体识别模型的流程图。

如图7所示，上述利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据验证结果对命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型包括操作S710~操作S720。

在操作S710，利用验证集对参数更新后的命名实体识别模型进行验证，得到验证结果。

在操作S720，在验证结果不满足预设效果和/或训练轮次不满足预设训练轮次的前提下，对命名实体识别模型进行迭代训练和参数更新，直到满足预设效果和/或达到预设训练轮次，得到训练完成的命名实体识别模型。

在验证集上测试模型效果，判断模型效果是否有所提升，若连续4轮训练没有提升或经过规定次数训练后，将终止训练，如果模型仍有提升，则重复步骤上述操作S140至操作S170，模型终止训练后，将当前最优的模型权重保存到权重文件中。

下面结合另一实施例对上述操作S110~操作S170做进一步详细地说明。

本发明主要解决现有命名实体识别技术在面向生物医学文本时，由于生物医学实体的特点导致的模型效果不好的问题。本发明提出一种基于Transformer和词汇增强方法的面向生物医学文本的命名实体识别方法，通过引入外部知识库，增强词汇信息，以提高模型识别效果。

本发明提出一种基于Transformer和词汇增强方法的面向生物医学文本的命名实体识别方法，包括步骤一至步骤五。

步骤一，生物医学文本数据集获取。从医学教材、临床实践和电子病历等采集文本数据；筛选含有生物医学命名实体的文本数据，标注文本中的每个命名实体内容、实体的起始位置和实体的中止位置；将文本数据、标注信息按照json格式输出，形成数据集。

步骤二，数据集预处理。读取数据集，初步分割语句，构建有向无环图，以选取候选子文本片段；使用动态规划算法，构建最长子语句；读取分割完成后的文本数据，构成数据集。

步骤三，构建命名实体识别模型。构建输入层，用于接受文本信息及标注信息输入；构建Embedding层，用于初始化词嵌入向量，供后续训练使用；构建词汇增强词典，采用N-gram方法，与词嵌入向量融合，增强实体信息；构建适配NER任务的Transformer网络，用于提取特征；构建CRF层，用于引入标签之间的依赖信息，防止产生不合常理的特征；将所构建的网络进行组合，得到命名实体识别模型。

步骤四，在步骤二构建的数据集上训练模型。读取参数文件，加载在大规模自然语言处理数据集上预训练的模型权重；从步骤二处理生成的数据集中读取文本训练集数据；将训练数据分批次输入到网络中，每批次24条文本数据，每条数据不超过128字符，首先经过预训练模型，获取768维度的词嵌入向量；对于每条文本数据，检测含词汇信息，并将每个词汇转化为词嵌入向量，与前述步骤得到的词嵌入向量进行融合，增强词汇信息；将词嵌入向量输入到主体Transformer网络中，经全连接层转化为24128/>21的向量；将得到的向量输入到CRF层中，引入不同标签之间的依赖信息，最终使用维特比算法进行解码；通过损失函数计算预测结果与真值的误差，执行反向传播；在验证集上测试模型效果，判断模型效果是否有所提升，若连续4轮训练没有提升或经过规定次数训练后，将终止训练，如果模型仍有提升，则重复进行训练，模型终止训练后，将当前最优的模型权重保存到权重文件中。

步骤五，部署模型用于命名实体识别任务。将改进的生物医学命名实体识别模型部署到用于运算的设备上；读取参数文件，加载步骤四中训练完成的模型权重；读取输入的文本信息，按照步骤二的方法对输入的文本信息进行预处理；将处理好的文本信息输入到命名实体识别模型中，执行命名实体识别预测；将检测结果中包含的命名实体的内容、位置信息和类别信息输出到json文件中。

本发明提供的上述命名实体识别模型可进行部署以用于命名实体识别任务。

本发明能够使用pytorch的部署工具或者fastapi等工具，将步骤四训练好的模型部署到服务器中，作为服务端，使用web网页作为前端，通过前端网页向后端发送POST请求，传送文本数据，后端得到数据后输入到模型中进行预测，结果将输出到前端网页中显示。

模型的部署与使用流程如下：（1）将改进的生物医学命名实体识别模型部署到用于运算的设备上；（2）读取参数文件，加载中训练完成的模型权重；（3）读取输入的文本信息，并按照预设的方法对输入的文本信息进行预处理；（4）将处理好的文本信息输入到命名实体识别模型中，执行命名实体识别预测；（5）将检测结果中包含的命名实体的内容、位置信息和类别信息输出到json文件中。

包含本发明提供的上述命名实体识别模型的分析系统具有高通量、高精度，运算速度快，对硬件要求和成像质量要求较低，兼容性好，用户界面友好，操作简单，可大规模推广应用在科研院所的动物行为学实验分析过程中。

图8是根据本发明实施例面向生物医学文本的命名实体识别方法的流程图。

如图8所示，上述面向生物医学文本的命名实体识别方法包括操作S810~操作S830。

在操作S810，利用动态规划方法对生物医学文本数据中的命名实体进行预处理，得到预处理后的命名实体。

在操作S820，利用训练完成的命名实体模型对预处理后的命名实体进行处理，得到命名实体的识别预测结果，其中，识别预测结果包括命名实体的内容、命名实体的类型、命名实体的起始位置以及命名实体的终止位置，训练完成的命名实体模型根据上述面向生物医学文本的命名实体识别模型的训练方法训练得到。

在操作S830，将识别预测结果按照用户指定的数据交换格式进行存储并将格式化的识别预测结果输出到用户终端上。

经测试，本发明实施例提供的基于Transformer和词汇增强方法的面向中文生物医学文本的命名实体识别方法可应对中文生物医学命名实体边界不清晰、实体间嵌套等问题，在满足实施命名实体识别任务需求的同时，具有优良的准确率和召回率。

如图9所示，根据本发明实施例的电子设备900包括处理器901，其可以根据存储在只读存储器（ROM）902中的程序或者从存储部分908加载到随机访问存储器（RAM）903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器 901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备900还可以包括输入/输出（I/O）接口905，输入/输出（I/O）接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

至此，已经结合附图对本发明实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

依据以上描述，本领域技术人员应当对本发明的自动驾驶的轨迹预测方法有了清楚的认识。

还需要说明的是，实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围。贯穿附图，相同的元素由相同或相近的附图标记来表示。在可能导致对本发明的理解造成混淆时，将省略常规结构或构造。

并且图中各部件的形状和尺寸不反映真实大小和比例，而仅示意本发明实施例的内容。另外，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。

除非有所知名为相反之意，本说明书及所附权利要求中的数值参数是近似值，能够根据通过本发明的内容所得的所需特性改变。具体而言，所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字，应理解为在所有情况中是受到“约”的用语所修饰。一般情况下，其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向生物医学文本的命名实体识别模型的训练方法，其特征在于，包括：

对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与所述筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集；

利用动态规划方法对所述生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将所述预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集；

基于Transformer神经网络和词汇增强方法构建所述命名实体识别模型并对所述命名实体识别模型的参数进行初始化，其中，所述命名实体识别模型包括基于词汇增强方法的输入层、基于词汇增强方法的嵌入层、Transformer层、基于标签间依赖信息的条件随机场层以及输出层；

利用所述基于词汇增强方法的输入层分批次处理所述训练集，得到初始向量矩阵和语言模型矩阵，并利用所述嵌入层将所述初始向量矩阵中的词嵌入向量和所述语言模型矩阵中的词嵌入向量进行向量相加融合运算，得到多维度词嵌入向量；

利用所述Transformer层对所述多维度词嵌入向量进行处理，得到多维度向量，并利用所述基于标签间依赖信息的条件随机场层处理所述多维度向量，得到标签信息，并通过所述输出层输出所述标签信息；

利用损失函数通过处理所述标签信息和与所述标签信息相对应的所述训练集中的标注信息，得到损失值，并利用所述损失值通过反向传播对所述命名实体识别模型进行参数更新；

利用所述验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据所述验证结果对所述命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型；

其中，利用动态规划方法对所述生物医学文本数据集进行预处理，得到预处理后的生物医学文本数据集，并将所述预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集包括：

按照标点符号，对所述生物医学文本数据集中的生物医学文本数据进行初步分割预处理，得到具有多个句子片段的生物医学文本数据集；

根据预设的约束条件，选择符合预设冗余度和预设交叉均匀度的分割方式，通过动态规划方法对所述有向无环图进行二次分割预处理，得到所述预处理后的生物医学文本数据集；

将所述预处理后的生物医学文本数据集按照预设比例随机划分为训练集和验证集；

其中，利用所述基于词汇增强方法的输入层分批次处理所述训练集，得到初始向量矩阵和语言模型矩阵包括：

利用所述基于词汇增强方法的输入层随机打乱所述训练集中生物医学文本数据的次序，并将打乱次序的训练集分批次输入到所述基于词汇增强方法的输入层中；

利用所述基于词汇增强方法的输入层处理所述训练集，得到具有词嵌入向量的初始向量矩阵；

利用分词工具所构建的词汇词典对所述具有词嵌入向量的初始向量矩阵进行遍历，得到所述具有词嵌入向量的初始向量矩阵中每条生物医学文本数据的词汇信息；

基于所述词汇信息的起始位置和所述词汇信息的终止位置，构建具有词嵌入向量的语言模型矩阵；

其中，利用所述Transformer层对所述多维度词嵌入向量进行处理，得到多维度向量包括：

利用所述Transformer层的编码器对所述多维度词嵌入向量进行编码，得到编码结果；

利用所述Transformer层的缺失比例因子的注意力头对所述编码结果进行自注意力机制计算，得到计算结果，其中，所述Transformer层的缺失比例因子注意力头包括相对位置信息机制和方向信息机制；

利用所述Transformer层的解码器对所述计算结果进行解码，并通过Transformer层的全连接层对解码结果进行处理，得到所述多维度向量；

其中，所述Transformer层的注意力头如下式所示：

，

其中，分别表示关键向量、查询向量以及价值向量，/>表示激活函数，/>表示评分函数，/>表示相对位置标记。

2.根据权利要求1所述的方法，其特征在于，对采集到的生物医学文本数据进行筛选和标注，并将筛选得到的生物医学文本数据以及与所述筛选得到的生物医学文本数据相对应的标注信息进行格式化处理，得到生物医学文本数据集包括：

从所述初始生物医学文本数据集中筛选出带有生物医学命名实体的文本数据，得到筛选后的生物医学文本数据集；

按照预设的生物医学标注规范，对所述筛选后的生物医学文本数据集进行多轮次的专家标注，得到带有标注信息的生物医学文本数据集，其中，所述标注信息包括所述生物医学命名实体的内容、所述生物医学命名实体的类型、所述生物医学命名实体的起始位置以及所述生物医学命名实体的终止位置；

按照预设的数据交换格式，对所述带有标注信息的生物医学文本数据集进行格式化处理，得到生物医学文本数据集。

3.根据权利要求1所述的方法，其特征在于，利用所述验证集对参数更新后的命名实体识别模型进行验证，得到验证结果，根据所述验证结果对所述命名实体识别模型进行迭代训练和参数更新，直到满足预设条件，得到训练完成的命名实体识别模型包括：

利用所述验证集对参数更新后的命名实体识别模型进行验证，得到所述验证结果；

在所述验证结果不满足预设效果和/或训练轮次不满足预设训练轮次的前提下，对所述命名实体识别模型进行迭代训练和参数更新，直到满足预设效果和/或达到预设训练轮次，得到所述训练完成的命名实体识别模型。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于标签间依赖信息的条件随机场层通过引入标签间的依赖信息进而防止条件随机场网络产生异常的结果。

5.一种面向生物医学文本的命名实体识别方法，其特征在于，包括：

利用训练完成的命名实体模型对所述预处理后的命名实体进行处理，得到所述命名实体的识别预测结果，其中，所述识别预测结果包括所述命名实体的内容、所述命名实体的类型、所述命名实体的起始位置以及所述命名实体的终止位置，所述训练完成的命名实体模型根据权利要求1-4任一项所述的训练方法训练得到；

将所述识别预测结果按照用户指定的数据交换格式进行存储并将格式化的识别预测结果输出到用户终端上。

6.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-5中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1-5中任一项所述的方法。