CN112101031A

CN112101031A - 一种实体识别方法、终端设备及存储介质

Info

Publication number: CN112101031A
Application number: CN202010863708.5A
Authority: CN
Inventors: 洪万福; 钱智毅; 刘剑涵
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-12-18
Anticipated expiration: 2040-08-25
Also published as: CN112101031B

Abstract

本发明涉及一种实体识别方法、终端设备及存储介质，该方法中包括：S1：构建包含待识别文本对应领域实体的词图；S2：通过词向量嵌入层将待识别文本中的每个词表示为词汇张量；S3：将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体；图神经网络模块包括图注意力网络层与双向图卷积网络层；S4：将待识别文本的词汇张量和候选实体通过双向循环神经网络层转换为含上下文信息的中间计算张量；S5：将中间计算张量输入CRF解码层进行解码，得到最终识别的待识别文本中包含的实体。本发明通过对实体边界的二次图结构建模，利用图神经网络对实体边界的关系解析，以减轻实体边界判定不足对结果准确率的影响。

Description

一种实体识别方法、终端设备及存储介质

技术领域

本发明涉及文本识别领域，尤其涉及一种实体识别方法、终端设备及存储介质。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。目前实体识别方法包括有：

1.有监督的学习方法：此类算法需要利用大规模的已标注语料对模型进行参数训练。目前常用的模型或方法包括隐马尔可夫模型(HMM)、语言模型、最大熵模型、支持张量机(SVM)、决策树(DT)和条件随机场(CRF)等。目前基于条件随机场的方法是命名实体识别中最成功的方法。

2.半监督的学习方法：此类算法利用标注的小数据集(种子数据)自举学习。

3.无监督的学习方法：此类算法利用词汇资源等进行上下文聚类。

4.混合方法：几种模型相结合或利用统计方法和人工总结的知识库。

值得一提的是，由于深度学习在自然语言的广泛应用，基于深度学习的命名实体识别方法也展现出不错的效果，此类方法基本还是把命名实体识别当做序列标注任务来做，比较经典的方法是循环神经网络(LSTM)结合条件随机场(CRF)模型(LSTM+CRF)与双向循环神经网络(BiLSTM)结合条件随机场模型(BiLSTM+CRF)。

但现有方法存在以下问题：

1.现有基于循环神经网络的实体识别模型需要大量高质量已标注训练数据，而具体的专业领域场景通常缺少高质量的已标注实体，这给现有模型训练带来很大挑战。

2.现有实体识别模型无法很好处理嵌套实体的情况(如实体：厦门集美软件园，其中厦门，集美，软件园以及集美软件园分别均又是独立实体)，通常的做法是取最外层(最长)的实体，而忽略其内部存在的其他实体。

3.现有的实体识别技术的瓶颈在于对实体边界判定的精确度不足。通常稀疏的边界标签和模糊匹配会让实体识别的结果准确度无法达到预期。

发明内容

为了解决上述问题，本发明提出了一种实体识别方法、终端设备及存储介质。

具体方案如下：

一种实体识别方法，包括以下步骤：

S1：构建包含待识别文本对应领域实体的词图；

S2：通过词向量嵌入层将待识别文本中的每个词表示为词汇张量；

S3：将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体；图神经网络模块包括图注意力网络层与双向图卷积网络层；

S4：将待识别文本的词汇张量和候选实体通过双向循环神经网络层转换为含上下文信息的中间计算张量；

S5：将中间计算张量输入CRF解码层进行解码，得到最终识别的待识别文本中包含的实体。

进一步的，词图的构建方法为：将字典中包含的所有字组成词图的顶点集，如果两个字之间能够构成一个实体，则将这两个字之间用代表无向关系的直线进行连接；针对每个顶点，根据该顶点对应的字在实体中可能存在的位置设定其对应的位置标记。

进一步的，位置标记包括五种，分别为：开始、中间、结尾、单个字自成实体和非实体词汇。

进一步的，步骤S3中首先通过图注意力网络层将待识别文本的所有词汇张量与步骤S1构建的词图进行匹配，提取出与待识别文本的所有词汇张量相关性较高的顶点集，之后通过双向图卷积网络层对顶点集中的各顶点进行卷积聚合，将卷积聚会后的顶点集作为候选实体的集合。

进一步的，在图注意力网络层的匹配过程中，还包括根据词图中每个顶点对应的位置标记和顶点与顶点之间的连线，确定提取的顶点集中的顶点是否均能构成实体，将不同构成实体的顶点剔除。

进一步的，步骤S4还包括根据词汇张量和候选实体构建实体交互图，实体交互图的顶点由待识别文本中的词和候选实体组成，通过实体交互图的顶点捕获实体的上下文信息，通过实体交互图中的实体及其相邻实体捕获实体的语义和边界信息。

进一步的，步骤S5中CRF解码层解码后输出待识别文本中每个字的位置标记组成的序列。

一种实体识别终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，并具有以下有益效果：

1.通过引入专业领域的词典，并对专业词典进行图结构分解组合，进而充分挖掘现有专业领域词典中的潜在实体；

2.通过对文本实体进行分层处理后，结合传统神经网络和图神经网络对不同层次的实体进行分别构建与识别，以实现对嵌套的实体进行识别；

3.通过对实体边界的二次图结构建模，利用图神经网络对实体边界的关系解析，以减轻实体边界判定不足对结果准确率的影响。

附图说明

图1所示为本发明实施例一方法的流程图。

图2所示为该实施例中各模块之间的流程图。

图3所示为该实施例中词图的示意图。

图4所示为该实施例中卷积聚合的示意图。

图5所示为该实施例中实体交互图的示意图。

图6所示为该实施例中具有BIEOS标注的序列的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种实体识别方法，如图1和图2所示，所述方法包括以下步骤：

S1：构建包含待识别文本对应领域实体的词图。

该实施例中针对每个领域的字典均构建一个词图，将字典中包含的所有字组成词图的顶点集，如果两个字之间可以构成一个实体，则将这两个字之间用代表无向关系的直线进行连接。

通常实体由多个字组成，一个实体中不同字的位置关系是不同的且固定的，为了获取实体中的不同字的位置关系，该实施例中设定标记集BIESO，用来分别记录不同顶点对应的不同字处于实体中的下列五种情况中的哪种：开始(B：begin)、中间(I:inside)、结尾(E：end)、单个字自成实体(S：single)和非实体词汇(O：other)。

如图3所示，其为以“李明出生在中国，祖籍为福建厦门”为例构建的词图。图中每个字均标注BIES表示该词有可能作为某个实体的开始、中间、结尾或者单个字自成实体。

S2：通过词向量嵌入层(word embedding)将待识别文本中的每个词表示为词汇张量。

所述词向量嵌入层用于将每个句子进行分词后的每个词(包括字)表示为词向量后再拼接成新的张量，该实施例中设定该新的张量为词汇张量，即将每个词分配一个固定长度的向量表示。向量即为1维张量，因后续计算的结果通常为多维，所以此处用张量表示。

所述分词由常用的分词算法进行即可，分词后的词不一定为实体，如“李明出生在中国，是福建厦门人”进行分词的结果为：“李明，出生，在，中国，是，福建，厦门，人”。

所述词向量的理论基于分布式假设，即一个词的出现与含义，跟它的上下文有关，可以根据上下文来预测某个词，此处上下文的信息即包含了语义信息，如：苹果很好吃，应该买苹果；苹果很好用，应该买苹果。同样对于苹果这个实体，第一个句子中表示的是水果，第二个句子指的是手机品牌，这便是上下文语义信息的作用。

S3：将待识别文本的所有词汇张量通过图神经网络模块从构建的词图中提取待识别文本对应的候选实体。

图神经网络模块包括图注意力网络层与双向图卷积网络层。

A：图注意力网络层：通过注意力机制来提升实体的筛选速度。

注意力机制：以实体“福建厦门”为例，如果词图中有大量的顶点，在没有注意力机制的情况下需要逐一匹配所有可能的组合，而在有注意力机制的情况下，可以让匹配过程聚焦在与实体相关性较高的顶点集中，所述相关性较高为两个字在词图中的距离较短，所述距离为两个字在词图中对应的顶点之间连接所需要经过的边的数量。

B：双向图卷积网络层：将顶点张量的周围信息进行卷积聚合的过程，以获取更抽象的张量表示。该层的主要用于提取更加抽象的词汇张量特征。

如图4所示，X3的邻居顶点有X1、X2、X4，通过双向图卷积网络层的卷积聚合操作后得到Z3顶点。

该实施例中首先通过图注意力网络层将待识别文本的所有词汇张量与步骤S1构建的词图进行匹配，提取出与待识别文本的所有词汇张量相关性较高的顶点集，之后通过双向图卷积网络层对顶点集中的各顶点进行卷积聚合，将卷积聚会后的顶点集作为候选实体的集合。

S4：将步骤S2生成的待识别文本的词汇张量和步骤S3生成的候选实体通过双向循环神经网络层(BiLSTM)转换为含上下文信息的中间计算张量。

该层主要用于通过训练序列预测(给出第一个字，预测下一个字，以此类推，通过不断训练该过程，最终该层能够学习到：当输入一个字之后，可以比较准确的预测下一个字)来获取词汇的张量特征表示，该特征表示具有上下文信息。

该实施例中通过词汇张量和候选实体构建实体交互图，以将实体的结构和语义以图的形式进行整合。

实体交互图的顶点由待识别文本中的词和候选实体组成，以捕获实体的上下文信息，而实体交互图中的实体及其相邻实体可以捕获实体的语义和边界信息。如图5所示，图中深色圆圈表示顶点，浅色圆圈表示实体。

该实施例中CRF解码层的输入为中间计算张量，输出为具有BIEOS标注的序列(如图6所示，第一行为中文输入，第二行为输出的具有BIEOS标注的序列)，通过对每个词进行BIEOS标注，可以确定待识别文本中的各词所在实体中的位置与对应实体。

本发明实施例一具有以下有益效果：

实施例二：

本发明还提供一种实体识别终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述实体识别终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述实体识别终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述实体识别终端设备的组成结构仅仅是实体识别终端设备的示例，并不构成对实体识别终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述实体识别终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述实体识别终端设备的控制中心，利用各种接口和线路连接整个实体识别终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述实体识别终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述实体识别终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种实体识别方法，其特征在于，包括以下步骤：

S1：构建包含待识别文本对应领域实体的词图；

2.根据权利要求1所述的实体识别方法，其特征在于：词图的构建方法为：将字典中包含的所有字组成词图的顶点集，如果两个字之间能够构成一个实体，则将这两个字之间用代表无向关系的直线进行连接；针对每个顶点，根据该顶点对应的字在实体中可能存在的位置设定其对应的位置标记。

3.根据权利要求2所述的实体识别方法，其特征在于：位置标记包括五种，分别为：开始、中间、结尾、单个字自成实体和非实体词汇。

4.根据权利要求1所述的实体识别方法，其特征在于：步骤S3中首先通过图注意力网络层将待识别文本的所有词汇张量与步骤S1构建的词图进行匹配，提取出与待识别文本的所有词汇张量相关性较高的顶点集，之后通过双向图卷积网络层对顶点集中的各顶点进行卷积聚合，将卷积聚会后的顶点集作为候选实体的集合。

5.根据权利要求4所述的实体识别方法，其特征在于：在图注意力网络层的匹配过程中，还包括根据词图中每个顶点对应的位置标记和顶点与顶点之间的连线，确定提取的顶点集中的顶点是否均能构成实体，将不同构成实体的顶点剔除。

6.根据权利要求1所述的实体识别方法，其特征在于：步骤S4还包括根据词汇张量和候选实体构建实体交互图，实体交互图的顶点由待识别文本中的词和候选实体组成，通过实体交互图的顶点捕获实体的上下文信息，通过实体交互图中的实体及其相邻实体捕获实体的语义和边界信息。

7.根据权利要求2所述的实体识别方法，其特征在于：步骤S5中CRF解码层解码后输出待识别文本中每个字的位置标记组成的序列。

8.一种实体识别终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任一所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～7中任一所述方法的步骤。