CN110516256A

CN110516256A - 一种中文命名实体提取方法及其系统

Info

Publication number: CN110516256A
Application number: CN201910815302.7A
Authority: CN
Inventors: 张亮
Original assignee: Dilu Technology Co Ltd
Current assignee: Dilu Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本发明公开了一种中文命名实体提取方法及其系统，包括以下步骤，数据模块采集数据制作数据集并形成训练测试数据；提取模型下载BERT模型及预训练代码；所述BERT模型基础上增加BILSTM+CRF算法模块；训练所述提取模型，当所述提取模型收敛达到精度指标时,将它部署进行实体提取。本发明的有益效果：基于BERT的中文命名实体提取技术，精度较之前的方法更高，同时泛化性能更好；自动识别实体不需要建立字典匹配、不需要总是增加文本来维护匹配的字典.较于其他深度学习方法，BERT有更强的表征能力，因此整个算法会具有更好的泛化性能。

Description

一种中文命名实体提取方法及其系统

技术领域

本发明涉及自然语言处理的技术领域，尤其涉及一种聊天系统中的中文命名实体提取方法及中文命名实体提取系统。

背景技术

近年来随着互联网和信息产业的高速发展，大量的非结构化文本数据不断增长，面对海量的文本数据，如何高效地进行信息管理和数据挖掘成为了研究热点之一，而信息抽取技术也逐渐受到了人们的关注。目前在一些公司的对话系统中,往往需要嵌入NLP的技术来让用户工作更加便捷,例如当聊天中出现我今天需要请假时,系统背后的NLP算法会提取请假两个字，然后系统自动跳入请假页面进入请假填写流程.。因此一个系统的实体识别技术很重要。

但是传统基于规则的命名实体提取技术,需要构建完备的词库,耗费巨大的人力。统计方法中，例如条件随机场、隐马尔可夫模型受限于特征的选择和语料。深度学习用于实体提取的方法如lstm结合crf的方法，虽然较上两种方法改进很多，但是泛化性能不够，对一些语料库中不存在的实体也会出现漏识别问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

因此，本发明解决的一个技术问题是：提出一种中文命名实体提取方法，不需要总是增加文本来维护匹配的字典，具有更好的泛化性能。

为解决上述技术问题，本发明提供如下技术方案：一种中文命名实体提取方法，包括以下步骤，数据模块采集数据制作数据集并形成训练测试数据；提取模型下载BERT模型及预训练代码；所述BERT模型基础上增加BILSTM+CRF算法模块；训练所述提取模型，当所述提取模型收敛达到精度指标时,将它部署进行实体提取。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述数据模块还包括以下步骤，采用调查问卷的形式采集人们常用于请假与出差的语句；收集公开的数据集来提取地点和人名；对采集的数据集进行打标签。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述对采集的数据集进行打标包括以下步骤，将不需要提取的数据标签为0；地点标签的后缀为LOC和人名为PER；出差标签的后缀为CHU和请假为JIA；每种实体的开始的字的标签前缀是B，跟在后面的前缀为I。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述BERT模型通过下载谷歌的BERT预训练模型获得，预训练的中文BERT模型及代码来自于GoogleResearch的BERT，能够实现词向量嵌入。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述BERT模型作为词向量模型，增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，把下游具体NLP任务的逐渐移到预训练产生词向量上，包括预训练产生词向量和对词向量操作两个过程。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述BERT模型包括以下步骤，双向encoding，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替；使用Transformer做encoder实现上下文相关，并通过self-attention减小mask标记权重；提升至句子级别，学习句子/句对关系表示，句子级负采样。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述下游具体NLP任务主要分为以下，序列标注，分词、实体识别以及语义标注；分类任务，文本分类和情感计算；句子关系判断，entailment、QA和自然语言推理；生成式任务，机器翻译和文本摘要。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述BILSTM+CRF算法模块包括以下定义步骤，定义输入X＝{x₁，x₂，...，x_n}，得到预测序列y＝(y₁，y₂，...，y_n)；定义预测序列得分：

其中P_i，y_i为第i个位置softmax输出为y_i的概率，Ayi，yi+1为从yi到yi+1的转移概率。

作为本发明所述的中文命名实体提取方法的一种优选方案，其中：所述BILSTM+CRF算法模块包括以下训练步骤，对于每个训练样本X，求出所有可能的标注序列y的得分S(X，y)，对所有得分进行归一化：

利用损失函数对真实标记序列y的概率取log；

最大化真实标记序列的概率，即训练了转移概率矩阵A和所述BiLSTM中的参数。

本发明解决的另一个技术问题是：提出一种中文命名实体提取系统，不需要总是增加文本来维护匹配的字典，具有更好的泛化性能。

为解决上述技术问题，本发明提供如下技术方案：包括数据模块、提取模型和训练模块；所述数据模块用于采集数据并制作数据集和形成训练测试数据；所述提取模型用于部署进行所述中文命名实体提取；所述训练模块用于所述提取模型的数据训练。

本发明的有益效果：基于BERT的中文命名实体提取技术，精度较之前的方法更高，同时泛化性能更好；自动识别实体不需要建立字典匹配、不需要总是增加文本来维护匹配的字典较于其他深度学习方法，BERT有更强的表征能力，因此整个算法会具有更好的泛化性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一种实施例所述中文命名实体提取方法的整体流程结构示意图；

图2为本发明第一种实施例所述BERT模型的结构示意图；

图3为本发明第一种实施例所述BILSTM+CRF模块的结构示意图；

图4为本发明第二种实施例所述中文命名实体提取系统的整体原理结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～3的示意，本实施例中提出一种在聊天的中文命名实体提取方法，命名实体识别是信息抽取的一项子任务，其目的是从大量的文本信息中抽取出指定的实体。命名实体识别其中的人名、地名、组织机构名等是结构化信息的核心元素，组织的测评任务就是从文本数据中自动地发现这些实体以及识别它们对应的类别。随后命名实体类别被细化成了多类在自然语言处理应用领域中，命名实体识别是信息检索、知识图谱、机器翻译、情感分析、问答系统等多项自然语言处理应用的基础任务，例如：我们需要利用命名实体识别技术自动识别用户的查询，然后将查询中的实体链接到知识图谱对应的结点上，其识别的准确率将会直接影响到后续的一系列工作。因此，命名实体识别作为自然语言处理的基础核心任务，对它的研究具有重要意义和价值。中文命名实体识别是命名实体识别在中文领域的一个划分，由于汉语自身的特点，中文命名实体识别仍存在许多难题，相比英文命名实体识别最大的区别在于汉语中词的边界是模糊的，而词是语义信息的基本载体，因此中文命名实体识别通常需要涉及中文分词任务，其问题规模更加复杂，这些问题逐渐成为了学术界和工业界关注的热点，对中文命名实体识别技术的研究着重要的意义。

还需要说明的是，早期的命名实体识别大都是基于规则的方法，规则的方法主要通过语言学专家构造的规则模版，通过规则模版进行匹配。这类方法大多依赖于知识库和词典的建立，人工成本较高且可移植性较差。

中文命名实体识别可以基于字符序列或词序列进行序列标注，在基于字符序列的标注方法中，字符的语义信息相比词的语义信息往往比较薄弱，而基于词序列的标注方法需要对文本先进行分词预处理，分词的准确率直接影响到了命名实体识别的结果，一个错误的分词结果再也无法正确地识别其中的命名实体，因此这种方法往往比较依赖于分词模型的准确率，两者各有优劣。由于在汉语中，词是最基本的语义载体，所以人在进行汉语阅读理解的时候，往往是一边观察字符序列，一边进行分词，然后不断地通过对上下文的观测理解，对词边界进行修正，这两个过程相辅相成，是同时进行的。接着我们可以得到词序列，每个词包含一定的语义信息，再通过词序列我们可以得到篇章级的语义理解，也即本实施例引入的词向量。

进一步的，本实施例的方法具体包括以下步骤，

S1：数据模块100采集数据制作数据集并形成训练测试数据；本步骤中数据模块100还包括以下步骤，

采用调查问卷的形式采集人们常用于请假与出差的语句；

收集公开的数据集来提取地点和人名；

对采集的数据集进行打标签。

本步骤中进一步的，对采集的数据集进行打标包括以下步骤，

将不需要提取的数据标签为0；

地点标签的后缀为LOC和人名为PER；

出差标签的后缀为CHU和请假为JIA；

每种实体的开始的字的标签前缀是B，跟在后面的前缀为I。

如下举例子的示意：

我(0)今(0)天(0)去(0)上(B-LOC)海(I-LOC)出(B-CHU)差(I-CHU)，其中里面不需要提取的数据标签为0，地点标签的后缀为LOC，人名为PER，出差为CHU，请假为JIA。每种实体的开始的字的标签前缀是B，跟在后面的前缀为I。

S2：提取模型200下载BERT模型201及预训练代码，本步骤中BERT模型201通过下载谷歌的BERT预训练模型获得，预训练的中文BERT模型及代码来自于Google Research的BERT，能够实现词向量嵌入。BERT：全称是BidirectionalEncoderRepresentationfromTransformers，即双向Transformer的Encoder，BERT的模型架构基于多层双向转换解码，因为decoder是不能获要预测的信息的，模型的主要创新点都在pre-traing方法上，即用了MaskedLM和NextSentencePrediction两种方法分别捕捉词语和句子级别的representation。

BERT模型201作为词向量模型，增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，把下游具体NLP任务的逐渐移到预训练产生词向量上，包括预训练产生词向量和对词向量操作两个过程。

更加具体的，BERT模型201包括以下步骤，双向encoding，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替；使用Transformer做encoder实现上下文相关，并通过self-attention减小mask标记权重；提升至句子级别，学习句子/句对关系表示，句子级负采样。

下游具体NLP任务主要分为以下：

序列标注，分词、实体识别以及语义标注；

分类任务，文本分类和情感计算；

句子关系判断，entailment、QA和自然语言推理；

生成式任务，机器翻译和文本摘要。

S3：BERT模型基础上增加BILSTM+CRF算法模块202，BiLSTM+CRF是深度学习框架；且BILSTM+CRF算法模块202包括以下定义步骤，

定义输入X＝{x₁，x₂，...，x_n}，得到预测序列y＝(y₁，y₂，...，y_n)；

定义预测序列得分：

训练步骤，

对于每个训练样本X，求出所有可能的标注序列y的得分SX，y，对所有得分进行归一化：

利用损失函数对真实标记序列y的概率取log；

最大化真实标记序列的概率，即训练了转移概率矩阵A和BiLSTM中的参数。

S4：训练提取模型200，当提取模型200收敛达到精度指标时,将它部署进行实体提取。

还需要说明的是，本实施中由于softmax层的输出是相互独立的，即虽然BiLSTM学习到了上下文的信息，但是输出相互之间并没有影响，它只是在每一步挑选一个最大概率值的label输出。这样就会导致如B-person后再接一个B-person的问题。而crf中有转移特征，即它会考虑输出label之间的顺序性，所以考虑用crf去做BiLSTM的输出层。且训练提取模型200采用为深度训练网络模型，具有更高的预测精度。

场景一：

传统基于规则的命名实体提取技术,需要构建完备的词库,耗费巨大的人力。统计方法中，例如条件随机场、隐马尔可夫模型受限于特征的选择和语料。深度学习用于实体提取的方法如lstm结合crf的方法，虽然较上两种方法改进很多，但是泛化性能不够，对一些语料库中不存在的实体也会出现漏识别问题。

为验证本方法相对传统方法具有较高的提取精度。

本实验基于人民日报1998年1月和6月标记的新闻预料作为本实验的语料，命名实体识别主要包括人名、地名、组织机构名、时间、日期、数字等实体，其中时间、数字具有较明显的特征，通过基于规则的方法就能取得较好的结果，而人名、地名、组织机构名的识别比较困难。本实验针对这三个实体进行测试。

下表1展示数据集中三个实体的数量。

语料	人名	地名	组织机构名
				数量	14212	6580	8806

本实验的评价指标有三个准确率P,召回率R，F值，这三个值越大说明效果越好。

与本文方法比较的方法主要有HMM、MEMM、Bilstm。本实验测试软件基于Python实现，分别测试在三种实体上的P值、R值和F1值，PER代表人名，LOC代表地名,ORG代表组织机构名，实验效果如下表2：

P(PER)

R(PER)

F1(PER)

P(LOC)

R(LOC)

F1(LOC)

P(ORG)

R(ORG)

F1(ORG)

HMM

69.87％

59.28％

64.14％

60.92％

46.50％

52.74％

60.23％

49.05％

54.07％

MEMM

63.19％

42.77％

51.01％

60.02％

40.12％

48.09％

58.77％

41.83％

48.87％

Bilstm

90.09％

77.76％

83.48％

82.66％

66.86％

73.93％

87.33％

67.45％

76.11％

本文方法

95.12％

81.23％

87.58％

89.12％

76.21％

82.16％

92.88％

85.21％

88.88％

从实验数据可以看出，本文方法的各项指标的值均明显高于其他方法。

实施例2

参照图4的示意，示意为本实施例中一种中文命名实体提取系统，上述中文命名实体提取方法依托于本实施例实现。具体的，该系统包括数据模块100、提取模型200和训练模块300；其中数据模块100用于采集数据并制作数据集和形成训练测试数据；提取模型200用于部署进行中文命名实体提取；训练模块300用于提取模型200的数据训练。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种中文命名实体提取方法，其特征在于：包括以下步骤，

数据模块(100)采集数据制作数据集并形成训练测试数据；

提取模型(200)下载BERT模型(201)及预训练代码；

所述BERT模型基础上增加BILSTM+CRF算法模块(202)；

训练所述提取模型(200)，当所述提取模型(200)收敛达到精度指标时,将它部署进行实体提取。

2.如权利要求1所述的中文命名实体提取方法，其特征在于：所述数据模块(100)还包括以下步骤，

采用调查问卷的形式采集人们常用于请假与出差的语句；

收集公开的数据集来提取地点和人名；

对采集的数据集进行打标签。

3.如权利要求1或2所述的中文命名实体提取方法，其特征在于：所述对采集的数据集进行打标包括以下步骤，

将不需要提取的数据标签为0；

地点标签的后缀为LOC和人名为PER；

出差标签的后缀为CHU和请假为JIA；

每种实体的开始的字的标签前缀是B，跟在后面的前缀为I。

4.如权利要求3所述的中文命名实体提取方法，其特征在于：所述BERT模型(201)通过下载谷歌的BERT预训练模型获得，预训练的中文BERT模型及代码来自于Google Research的BERT，能够实现词向量嵌入。

5.如权利要求4所述的中文命名实体提取方法，其特征在于：所述BERT模型(201)作为词向量模型，增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征，把下游具体NLP任务的逐渐移到预训练产生词向量上，包括预训练产生词向量和对词向量操作两个过程。

6.如权利要求4或5所述的中文命名实体提取方法，其特征在于：所述BERT模型(201)包括以下步骤，

双向encoding，类似完形填空，尽管仍旧看到所有位置信息，但需要预测的词已被特殊符号代替；

使用Transformer做encoder实现上下文相关，并通过self-attention减小mask标记权重；

提升至句子级别，学习句子/句对关系表示，句子级负采样。

7.如权利要求6所述的中文命名实体提取方法，其特征在于：所述下游具体NLP任务主要分为以下，

序列标注，分词、实体识别以及语义标注；

分类任务，文本分类和情感计算；

句子关系判断，entailment、QA和自然语言推理；

生成式任务，机器翻译和文本摘要。

8.如权利要求7所述的中文命名实体提取方法，其特征在于：所述BILSTM+CRF算法模块(202)包括以下定义步骤，

定义预测序列得分：

9.如权利要求8所述的中文命名实体提取方法，其特征在于：所述BILSTM+CRF算法模块(202)包括以下训练步骤，

对于每个训练样本X，求出所有可能的标注序列y的得分S(X，y)，对所有得分进行归一化：

利用损失函数对真实标记序列y的概率取log；

10.一种中文命名实体提取系统，其特征在于：包括数据模块(100)、提取模型(200)和训练模块(300)；

所述数据模块(100)用于采集数据并制作数据集和形成训练测试数据；

所述提取模型(200)用于部署进行所述中文命名实体提取；

所述训练模块(300)用于所述提取模型(200)的数据训练。