CN109871545B

CN109871545B - 命名实体识别方法及装置

Info

Publication number: CN109871545B
Application number: CN201910325442.6A
Authority: CN
Inventors: 张露
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2022-08-05
Anticipated expiration: 2039-04-22
Also published as: WO2020215870A1; EP3961475A4; CN109871545A; EP3961475A1; US20210103701A1; US11574124B2

Abstract

本发明提供了一种命名实体识别方法及装置，属于信息技术领域。其中，命名实体识别方法，包括：获取训练数据，所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型；将所述训练文本中的词和字符分别转化为词向量和字向量，利用所述词向量和所述字向量训练预设的长短期记忆模型，输出特征向量；利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。本发明的技术方案能够提高命名实体识别的精度。

Description

命名实体识别方法及装置

技术领域

本发明涉及信息技术领域，特别是指一种命名实体识别方法及装置。

背景技术

命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在医疗领域，从电子病历中自动识别命名实体对于医学知识库的构建和临床决策支持起着重要作用。相比通用领域的命名实体识别，中文电子病历的命名实体识别由于电子病历中句子较短、缩略语多导致命名实体识别的精度不高。

发明内容

本发明要解决的技术问题是提供一种命名实体识别方法及装置，能够提高命名实体识别的精度。

为解决上述技术问题，本发明的实施例提供技术方案如下：

一方面，提供一种命名实体识别方法，包括：

获取训练数据，所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型；

将所述训练文本中的词和字符分别转化为词向量和字向量，利用所述词向量和所述字向量训练预设的长短期记忆模型，输出特征向量；

利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；

使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。

可选地，所述将所述训练文本中的词和字符转化为向量包括：

利用结巴分词工具对所述训练文本进行分词；

将分词结果转化为词向量；

将所述训练文本中的每一字符转化为字向量。

可选地，所述训练文本为中文电子病历，所述结巴分词工具使用的数据库为国际疾病分类数据库。

可选地，所述利用转化后的词向量和字向量训练预设的长短期记忆模型，输出特征向量包括：

将所述词向量输入所述长短期记忆模型，输出表示词特征的词向量，将该词向量与字向量进行拼接，得到第一过渡特征向量；

将所述第一过渡特征向量输入所述长短期记忆模型，得到第二过渡特征向量；

将所述第二过渡特征向量与所述第一过渡特征向量进行拼接，输入所述长短期记忆模型，得到所述特征向量。

可选地，所述利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型包括：

用LBFGS算法作为优化算法，迭代多次优化所述条件随机场模型。

本发明实施例还提供了一种命名实体识别装置，包括：

获取模块，用于获取训练数据，所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型；

训练模块，用于将所述训练文本中的词和字符分别转化为词向量和字向量，利用所述词向量和所述字向量训练预设的长短期记忆模型，输出特征向量；

优化模块，用于利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；

识别模块，用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。

可选地，所述训练模块包括：

分词单元，用于利用结巴分词工具对所述训练文本进行分词；

词向量转化单元，用于将分词结果转化为词向量；

字向量转化单元，用于将所述训练文本中的每一字符转化为字向量。

可选地，所述训练模块包括：

第一训练单元，用于将所述词向量输入所述长短期记忆模型，输出表示词特征的词向量，将该词向量与字向量进行拼接，得到第一过渡特征向量；

第二训练单元，用于将所述第一过渡特征向量输入所述长短期记忆模型，得到第二过渡特征向量；

第三训练单元，用于将所述第二过渡特征向量与所述第一过渡特征向量进行拼接，输入所述长短期记忆模型，得到所述特征向量。

可选地，所述优化模块具体用于用LBFGS算法作为优化算法，迭代多次优化所述条件随机场模型。

本发明实施例还提供了一种命名实体识别设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的命名实体识别方法中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的命名实体识别方法中的步骤。

本发明的实施例具有以下有益效果：

上述方案中，根据词向量和字向量共同提取特征向量，能够同时获取字符和词的特征，同时还大大减少了分词的错误；另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别，能够吸收更多的字符和词特征，从而能更进一步的提升实体识别的精度。

附图说明

图1为本发明实施例命名实体识别方法的流程示意图；

图2为本发明实施例命名实体识别装置的结构框图；

图3为本发明具体实施例实体识别方法的流程示意图。

具体实施方式

为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明的实施例针对现有技术中中文电子病历的命名实体识别精度不高的问题，提供一种命名实体识别方法及装置，能够提高命名实体识别的精度。

本发明的实施例提供一种命名实体识别方法，如图1所示，包括：

步骤101：获取训练数据，所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型；

事先可以人工对训练文本中的命名实体进行标注，同时标注命名实体对应的实体类型。比如“小明出生在云南，现在在中国四川省成都市工作”，标注的内容包括：小明-人名；云南-地名；中国-地名；四川-地名；成都-地名；其中，人名和地名为实体类型，小明、云南、中国、四川、成都为命名实体。

步骤102：将所述训练文本中的词和字符分别转化为词向量和字向量，利用所述词向量和所述字向量训练预设的长短期记忆模型，输出特征向量；

因计算机仅能对数值型的类型进行计算，而输入的词和字符是字符型，计算机不能直接计算，因此需要将词和字符转化为数值向量。利用词向量和字向量训练预设的长短期记忆模型，可以提取出基于字粒度的字向量特征以及融合语义信息的词向量特征。

步骤103：利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；

采用条件随机场模型可以预测每个词和字符的实体类型。

步骤104：使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。

将待处理数据输入训练好的长短期记忆模型和条件随机场模型，即可输出待处理数据中的命名实体。

本实施例中，根据词向量和字向量共同提取特征向量，能够同时获取字符和词的特征，同时还大大减少了分词的错误；另外采用长短期记忆模型和条件随机场模型相结合进行命名实体的识别，能够吸收更多的字符和词特征，从而能更进一步的提升实体识别的精度。

一具体实施例中，所述将所述训练文本中的词和字符转化为向量包括：

利用结巴分词工具对所述训练文本进行分词；

其中，结巴分词工具可以很好地对中文文本进行分词，分词的正确性高。

将分词结果转化为词向量；

具体地，可以将分词结果采用公知的word2vec算法将词转化为一个词向量，词向量可以为一个300维的向量。

将所述训练文本中的每一字符转化为字向量，具体地，可以采用公知的word2vec算法将字符转化为一个128维的向量。

一具体实施例中，所述利用转化后的词向量和字向量训练预设的长短期记忆模型，输出特征向量包括：

将所述词向量输入所述长短期记忆模型，输出表示词特征的词向量，将词向量与字向量进行拼接，得到第一过渡特征向量；

本实施例中采用了三次长短期记忆模型，这就是堆栈长短期记忆模型，采用堆栈长短期记忆模型能够解决特征在网络训练传递过程中关键信息丢失的问题，有利于关键特征的提取。当然，本发明的技术方案中，采用长短期记忆模型的次数并不局限为三次，还可以其他数量，仅以三次为例进行说明。

用LBFGS算法作为优化算法，迭代多次优化所述条件随机场模型，LBFGS算法是神经网络的优化算法，它适合处理大规模数据，收敛速度快，能节省大量的存储空间和计算资源。

本发明实施例还提供了一种命名实体识别装置，如图2所示，包括：

获取模块21，用于获取训练数据，所述训练数据包括训练文本、标注出的所述训练文本中的命名实体及对应的实体类型；

训练模块22，用于将所述训练文本中的词和字符分别转化为词向量和字向量，利用所述词向量和所述字向量训练预设的长短期记忆模型，输出特征向量；

优化模块23，用于利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；

采用条件随机场模型可以预测每个词和字符的实体类型。

识别模块24，用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别。

一具体实施例中，所述训练模块22包括：

词向量转化单元，用于将分词结果转化为词向量；

其中，结巴分词工具可以很好地对中文文本进行分词，分词的正确性高。具体地，可以将分词结果采用公知的word2vec算法将词转化为一个词向量，词向量可以为一个300维的向量。

字向量转化单元，用于将所述训练文本中的每一字符转化为字向量，具体地，可以采用公知的word2vec算法将字符转化为一个128维的字嵌入向量。

进一步地，所述训练模块22包括：

第一训练单元，用于将所述词向量输入所述长短期记忆模型，输出表示词特征的词向量，将该词向量与所述字向量进行拼接，得到第一过渡特征向量；

可选地，所述优化模块23具体用于用LBFGS算法作为优化算法，迭代多次优化所述条件随机场模型，LBFGS算法是神经网络的优化算法，它适合处理大规模数据，收敛速度快，能节省大量的存储空间和计算资源。

由于中文电子病历的命名实体识别中电子病历句子较短、缩略语多导致命名实体识别的精度不高，因此可以采用本发明的技术方案提高中文电子病历的命名实体识别的精度，如图3所示，本实施例包括以下步骤：

步骤301：数据预处理；

首先可以建立训练数据库，训练数据库中包括大量的中文电子病历，可以请专业人员详细标注中文电子病历中的命名实体及实体类型，实体类型一共可以分为5大类，包括：身体部位、疾病和诊断、症状和体征、检查与检验以及治疗，分别用{B,D,S,C,T}作为5大类实体的标签，非实体用{X}表示。

步骤302：提取并整合字向量和词向量的特征向量；

可以利用数据库为国际疾病分类数据库ICD10的结巴分词工具对训练数据库中的中文电子病历进行分词，如原中文电子病历上记载“给与右下肢持续皮牵引”，分词后的结果为“给与”、“右下肢”、“持续”、“皮”、“牵引”，并利用word2vec算法将分词结果转化为词向量。结巴分词工具是一个计算语言概率的算法模型，通过统计每一种分词结果的概率，即合理性，可以得到符合说话或行文习惯的分词结果。

导入的ICD10中包含很多临床实体名词，导入结巴分词工具中后，能够帮助识别医学专用名词，提高分词的正确性。之后采用BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆网络)模型对词向量特征进行学习以获得表征词的词向量。

另外，获得训练数据库中的中文电子病历的基于字的字向量特征，将每个字或字符用字向量(比如字嵌入向量)表示，即不同的密集型向量表示不同的字或字符。学习后的词向量与字向量特征进行拼接得到第一过渡特征向量X,再采用BiLSTM模型学习结合的向量特征X，得到第二过渡特征向量H₀。

将特征X与特征H₀结合，作为BiLSTM模型的输入再学习其中的高级特征，得到最终的特征向量。

其中，将特征X与特征H₀结合作为BiLSTM模型的输入，就是残差学习。在上述特征处理步骤中，一共采用了三次BiLSTM这就是堆栈BiLSTM。

步骤303：利用特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型；

在训练过程中使用LBFGS算法作为优化算法，迭代多次，得到最终的条件随机场模型(Conditional Random Fields,CRF)，条件随机场模型可以预测每个词和字符的实体类型，条件随机场模型的输入是高级特征，输出是输入文本和文本对应的类型，即非实体(用X表示)和实体类型(B,D,S,C,T)。

步骤304：将待处理数据输入长短期记忆模型和条件随机场模型，得到待处理数据中的命名实体。

之后利用训练好的长短期记忆模型以及优化后的条件随机场模型即可对待处理数据进行命名实体的识别，将待处理数据输入训练好的长短期记忆模型和条件随机场模型，即可输出待处理数据中的命名实体。

在利用长短期记忆模型以及条件随机场模型进行命名实体的识别后，可以利用精度以及召回率来衡量长短期记忆模型结合条件随机场模型的命名实体识别性能。

本实施例的技术方案提供了一种结合字特征和词特征的堆栈残差BiLSTM中文电子病历命名实体识别方法，不仅增加了输入特征信息的丰富度，而且减少了训练过程中特征信息的损失，从而提高了中文电子病历中命名实体识别的准确率。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、用户设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理用户设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理用户设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理用户设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理用户设备上，使得在计算机或其他可编程用户设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程用户设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者用户设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者用户设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者用户设备中还存在另外的相同要素。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别；

所述利用转化后的词向量和字向量训练预设的长短期记忆模型，输出特征向量包括：

将所述第二过渡特征向量与所述第一过渡特征向量进行拼接，输入所述长短期记忆模型，得到所述特征向量；

所述将所述训练文本中的词和字符转化为向量包括：利用国际疾病分类数据库ICD10辅助结巴分词工具对训练文本进行分词，其中，所述训练文本为中文电子病历；

将分词结果转化为词向量；

将所述训练文本中的每一字符转化为字向量；

所述利用所述特征向量、标注出的命名实体及对应的实体类型优化预设的条件随机场模型包括：

2.一种命名实体识别装置，其特征在于，包括：

识别模块，用于使用所述长短期记忆模型和所述条件随机场模型对待处理数据进行命名实体的识别；

所述训练模块包括：

第三训练单元，用于将所述第二过渡特征向量与所述第一过渡特征向量进行拼接，输入所述长短期记忆模型，得到所述特征向量；

所述训练模块还包括：

利用国际疾病分类数据库ICD10辅助结巴分词工具对训练文本进行分词，其中，所述训练文本为中文电子病历；

词向量转化单元，用于将分词结果转化为词向量；

字向量转化单元，用于将所述训练文本中的每一字符转化为字向量；

所述优化模块具体用于用LBFGS算法作为优化算法，迭代多次优化所述条件随机场模型。

3.一种命名实体识别设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1中所述的命名实体识别方法中的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1中所述的命名实体识别方法中的步骤。