CN113420557A

CN113420557A - 中文命名实体识别方法、系统、设备及存储介质

Info

Publication number: CN113420557A
Application number: CN202110644825.7A
Authority: CN
Inventors: 徐卫志; 龙开放; 赵晗; 于惠; 范胜玉; 耿艳芳; 曹洋; 蔡晓雅; 李广震
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-21
Anticipated expiration: 2041-06-09
Also published as: CN113420557B

Abstract

本公开公开了中文命名实体识别方法、系统、设备及存储介质，包括：获取待识别的句子；将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体。本发明可以在自然语言描述的文本中提取出每个节点的多个特征信息。可以为每个待识别的句子识别出对应的中文命名实体。

Description

中文命名实体识别方法、系统、设备及存储介质

技术领域

本公开涉及自然语言处理技术领域，特别是涉及中文命名实体识别方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

随着深度学习的不断发展，自然语言处理这个领域也得到了更广泛的关注，尤其是对于上游任务，如：命名实体识别，上游任务的好坏直接影响下游任务的性能与精准度。命名实体识别在关系抽取，问答系统，情感分析，知识图谱的建立等任务中扮演着重要的角色。所以，如何提高命名实体识别的性能成为了当前迫切需要解决的任务。

自然语言处理是计算机科学领域的一个重要方向，它被称为“人工智能皇冠上的明珠”。自然语言处理是一门融合了语言学、计算机科学、数学于一体的学科，它的研究涉及到自然语言(人们日常使用语言)。自然语言处理主要应用于舆情监测、自动摘要、文本分类、机器翻译、语音识别、问题回答、文本分类等方面。

命名实体识别又被称为是“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。它的任务主要是包括这两个部分，一是实体边界识别，二是确定实体类别，即确定实体是人名、地名、机构名、或其他等。命名实体识别是自然语言处理的上游任务，命名实体识别的性能好坏直接影响下游任务的性能。

目前，对于中文命名实体识别(NER)的方法主要包括基于字符的NER模型和基于词的NER模型，中文命名实体识别与英文的命名实体识别因为语言类别的问题，中文NER比英文NER面临的挑战更多。如，中文NER不像英文NER一样天然有空格作为分割，中文没有明确的实体边界，其次，中文的组成结构复杂，且大多实体包含实体嵌套问题，故此，提升中文NER性能任务迫在眉睫。

命名实体识别的主要任务是识别文档中的特定的实体，如：人名、地名、时间、机构名等。然后再给这些实体打上特定的标签，一般情况下打标签的方式有BIO、BIOES这两种方式，如用BIOES打标签，B表示实体的开头，I表示实体的中间，E是实体的结尾，S表示的是单个实体，O表示不是要识别的实体。BIO方式跟BIOES一样，只是实体结尾的标签用I代替，单个实体直接用B表示。

在传统方法中，有基于词典的命名实体识别与基于规则的命名实体识别。基于词典的命名实体识别在很大程度上依赖语料库，同时会出现冲突问题导致性能下降。基于规则的命名实体识别，利用手工构造模板，通过实体与规则进行类型判断，但是规则的构建依赖于具体的语言、领域与文本风格，需要很多专业知识，耗时耗力耗资。目前最常用的有基于统计学习的命名实体识别，如隐马尔可夫模型，最大熵模型、支持向量机模型，条件随机场模型等。

发明内容

为了解决现有技术的不足，本公开提供了中文命名实体识别方法、系统、设备及存储介质；

第一方面，本公开提供了中文命名实体识别方法；

中文命名实体识别方法，包括：

获取待识别的句子；

将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体。

第二方面，本公开提供了中文命名实体识别系统；

中文命名实体识别系统，包括：

获取模块，其被配置为：获取待识别的句子；

识别模块，其被配置为：将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体。

第三方面，本公开还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本公开还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

与现有技术相比，本公开的有益效果是：

本发明可以在自然语言描述的文本中提取出每个节点的多个特征信息。可以为每个待识别的句子识别出对应的中文命名实体。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了中文命名实体识别方法；

中文命名实体识别方法，包括：

S101：获取待识别的句子；

S102：将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体。

进一步地，所述中文命名实体识别模型，包括：依次连接的门控图神经网络GatedGraph Neural Network(GGNN)、空洞卷积神经网络Iterated Dilated ConvolutionalNeural Networks(ID-CNNs)和条件随机场conditional Random Field(CRF)。

进一步地，所述训练后的中文命名实体识别模型，训练步骤包括：

构建训练集；所述训练集，包括已知中文命名实体的句子和多个词典；

基于训练集，构建门控图神经网络GGNN；

再将训练集，输入到门控图神经网络GGNN中，门控图神经网络GGNN对输入的每个字提取节点特征；

将节点特征，输入到空洞卷积神经网络ID-CNNs中再进行特征提取，得到最终特征；

将最终特征和已知中文命名实体的BIO标签，输入到条件随机场CRF中，得到训练后的中文实体识别模型。

进一步地，所述BIO标签，B表示当前字属于中文命名实体的开头，I表示当前字属于中文命名实体的中间，O表示当前字不属于中文命名实体。

进一步地，所述基于训练集，构建门控图神经网络GGNN；具体包括：

在构建门控图神经网络GGNN的过程中，将已知中文命名实体的句子中的每个字视为一个节点，根据当前字与相邻字所组成的词是否归属于一个词典，来建立节点与之间的边；若当前字与相邻字所组成的词归属于一个词典，则表示相邻节点之间存在连接边；否则，表示相邻节点之间不存在连接边；对于每个连接边，设置连接边的标签，所述连接边的标签用于表示词中两个字的前后顺序；当对一个字典判断完毕，则继续对下一个字典进行判断。

本申请对多个字典进行判断，以实现门控图神经网络GGNN的完整性，实现多个字典尽可能多的词汇的囊括。例如，字典1中只收录了“长江”这个实体名称，而字典2中收录了“长江大桥”这个实体名词，如果只对一个实体名词进行判断，则会丢弃一个实体名词，对多个字典进行判断则可以避免实体名词的遗漏，继而，在实际使用阶段保证中文命名实体识别的准确性提高。

进一步地，所述S102：将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体；具体包括：

将待识别的句子，输入到门控图神经网络GGNN中，门控图神经网络GGNN对输入的每个字提取节点特征；

将最终特征，输入到条件随机场CRF中，得到待识别句子中每个字的BIO标签。

进一步地，所述待识别的句子，包括若干个中文命名实体。

本发明的训练阶段，包括三个部分，首先，第一部分利用输入节点与不同词典的词汇信息构造出一个图，然后用图神经网络提取每个节点的信息，第二部分，将每个节点的信息输入空洞卷积中丰富节点的信息，第三步，用条件随机场对其输出节点进行解码。

第一步，利用输入节点与不同词典的词汇信息构造出一个图G：＝(V，E，L)，其中V是节点的集合，V＝V_c∪V_s∪V_e，V_c表示的是字符节点，V_s和V_e分别表示字典的开始与结束节点，E是边的集合，L是边的标签的集合：

l_c分配给相邻字符的连接边的标签，表示文本中的字符的自然顺序，l_gi分配给所有边，用于指示是否存在与字典中相匹配的实体。

如图1所示，节点c_n表示的是句子中的每个节点的部分,如图1中c₁到c₈分别表示“南京市长江大桥啊”单个字符，其中为了整合词汇信息，这里整合了多个词典的信息，图中引入了四种不同的词典，其中v_s与v_e表示的是包含在这个词典中的词汇的开头与结束，例如，词典中包含“南京”这个词汇，然后，就通过起始节点，字符节点，终止节点将该词典中的词汇信息整合进图中。

然后使用门控制图神经网络提取每个节点特征，具体计算公式如下：

A＝[A₁,…,A_|L|] (2)

其中，公式(1)中

表示节点的初始状态，W^c和W^g是节点表示的字符或词典的查找表，W^bi是一个双字符嵌入表。图的结构信息存储在邻接矩阵A中，该矩阵用于在每个步骤重新获取相邻节点的状态。为了适应多图结构，将A扩展为包括不同标签的边，贡献系数转换为A中边的权重。公式(3)是贡献系数转换公式。然后通过GRU经过时间t步后得到每个节点的输出

第二步，将第一步用GGNN得到的每个节点的特征表示作为ID-CNNs的第一层输入，如图1所示，通过空洞卷积网络进一步提取特征。

具体公式如下：

其中，公式(10)中，i_t表示的是第一次的输入，我们将扩展宽度为δ的第j个扩张宽度卷积层表示为

表示第一层，扩展宽度为1，公式(11)和公式(12)分别是中间层和最后一层的卷积计算，其中r表示的是ReLU激活函数，我们将上述的一次的计算称为块(B)，一共反复计算四次，故公式(13)中的

是上一次计算的最后一层的输出，经过4次运算，得到最终的输出

从而得到每个节点的最终特征

第三步，对于每一次block的输出都预测序列的类标，这种方式可以起到类似CRF的效果。例如假设执行两次block，则第一次block可以预测每一时刻对应不同类别的概率。而第二次block接收第一次block的输出，可以预测每一时刻输出之间的关系，类似CRF。公式如下：

实施例二

本实施例提供了中文命名实体识别系统；

中文命名实体识别系统，包括：

获取模块，其被配置为：获取待识别的句子；

此处需要说明的是，上述获取模块和识别模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.中文命名实体识别方法，其特征是，包括：

获取待识别的句子；

2.如权利要求1所述的中文命名实体识别方法，其特征是，所述中文命名实体识别模型，包括：依次连接的门控图神经网络GGNN、空洞卷积神经网络ID-CNNs和条件随机场CRF。

3.如权利要求1所述的中文命名实体识别方法，其特征是，所述训练后的中文命名实体识别模型，训练步骤包括：

基于训练集，构建门控图神经网络GGNN；

4.如权利要求1所述的中文命名实体识别方法，其特征是，所述BIO标签，B表示当前字属于中文命名实体的开头，I表示当前字属于中文命名实体的中间，O表示当前字不属于中文命名实体。

5.如权利要求1所述的中文命名实体识别方法，其特征是，所述基于训练集，构建门控图神经网络GGNN；具体包括：

6.如权利要求1所述的中文命名实体识别方法，其特征是，将待识别的句子，输入到训练后的中文命名实体识别模型中，得到中文命名实体；具体包括：

7.如权利要求1所述的中文命名实体识别方法，其特征是，所述待识别的句子，包括若干个中文命名实体。

8.中文命名实体识别系统，其特征是，包括：

获取模块，其被配置为：获取待识别的句子；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。