CN111967265B

CN111967265B - 一种数据集自动生成的中文分词与实体识别联合学习方法

Info

Publication number: CN111967265B
Application number: CN202010895913.XA
Authority: CN
Inventors: 程良伦; 莫非; 张伟文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-09-15
Anticipated expiration: 2040-08-31
Also published as: CN111967265A

Abstract

本发明公开了一种数据集自动生成的中文分词与实体识别联合学习方法，所述方法包括以下步骤：第一步、目标领域数据集的构建；第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的字符向量表示层，得到每个汉字字符的向量表示；第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的开关切换的Bi‑LSTM细胞层和一个开关切换的双向LSTM神经网络中，得到每个汉字字符的隐藏状态；第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码，提升NER模型识别实体边界的能力以及准确率。

Description

一种数据集自动生成的中文分词与实体识别联合学习方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种数据集自动生成的中文分词与实体识别联合学习方法。

背景技术

目前我国经济的发展模式正处于加快转变的阶段，各个领域都存在大量的数据，比如海洋领域，海洋是高质量发展的战略要地，是调整产业结构的一个重要着力点。海洋经济与陆地经济相互依存，互动发展，共同推动区域经济发展，对国民经济的稳定和就业都发挥着巨大作用。当前海洋产业存在着许多问题，如区域协调性差、产业布局不合理、过度开采与污染严重、设备运行成本高，政府、行业、企业数据无法共享，获取数据困难等，因此要实现海洋全部潜力，需要对海洋经济发展采取可持续方法。

而大数据、知识图谱是海洋经济发展的核心驱动力，是世界各国推动新兴海洋经济可持续性发展的重要手段。海洋新兴经济增长进入大数据、知识驱动的新阶段海洋经济呈现大数据形态，数据覆盖海洋经济所有企业与产品，有政府报告、海洋产业新闻、行业调查报告等。如果能够从这些多源异构数据中构建出产业地图和知识图谱，那就可以立体反映海洋经济区域特征，直观提供产业规划决策，清晰反映产业格局现状、潜力，为区域经济协调发展提供决策。

如何加工这些多源异构数据涉及到了自然语言处理技术，而中文分词和中文命名体识别是知识图谱构建过程中信息抽取的关键环节，其目的是从多源异构数据中抽取出重要的领域知识元，它们的效果好坏直接影响到后续关系抽取以及事件抽取任务。

中文命名实体识别，即Chinese Named Entity Recognition(CNER)，是指识别中文文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简言之，就是识别中文文本中的实体指称的边界和类别。当前的主流是深度学习方法，主要是通过大规模的语料库训练出分布式的词向量表示，然后将其输入到神经网络(RNN、Bi-LSTM、GRU等)中进行语义特征提取，接着将提取出的特征输入到推理层，常常是条件随机场CRF或者softmax。

NER通常是假设在分词已经完成的情况下完成的，即假定分词达到了接近完美的效果，但是在实际情况中，分词通常是命名体识别的前一个步骤，其效果直接影响着NER的效果。

因此，需要提供一种基于分词任务联合学习的命名体识别方法来提升NER模型识别实体边界的能力以及准确率。

发明内容

针对现有技术的不足，本发明的目的在于提供一种数据集自动生成的中文分词与实体识别联合学习方法，用于提升NER模型识别实体边界的能力以及准确率。

为达此目的，本发明采用以下技术方案：一种数据集自动生成的中文分词与实体识别联合学习方法，其特征在于，所述方法包括以下步骤：

第一步、目标领域数据集的构建：准备一个与目标领域相近的带标注的实体识别数据集；从中抽出所有的实体名字；随机使用预定义的目标领域中的实体名字自动替代目标数据集中随机选取的句子中的同一种类型的实体名字，从而产生语法和语义上正确的新的相似句子；根据原始句子中的标签推断出新的相似句子中的实体标签；重复上述步骤直至产生预定义好的句子个数，由此产生新的目标领域的数据集；

第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的汉字字符向量表示层，得到每个汉字字符的向量表示；

第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的长短期记忆网络LSTM细胞层和一个开关切换的双向LSTM神经网络中，计算开关的状态，神经网络根据开关的状态来选择切换至其中一个LSTM细胞，之后，得到每个汉字字符的隐藏状态；

第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码。

进一步的，所述第一步中的所述准备一个与目标领域相近的带标注的实体识别数据集具体为：使用python编写的爬虫对目标领域相关的各大网站进行大量的新闻文本爬取，然后将爬取的新闻文本存储到MySQL数据库中。

进一步的，所述第一步中的所述预定义的目标领域中的实体名字具体为：目标领域专家对实体类别和名字进行预定义，生成一张实体类别和实体名字的表格，并保存到所述MySQL数据库中。

进一步的，所述第一步中的所述从中抽出所有的实体名字具体为：从选定的中文分词数据集带标签数据集中随机选取一定数量的句子，然后随机使用所述第二步中预定义好的实体类别下的实体名字对从数据集中随机选取的句子中同一类别下的实体名字自动进行随机替换，由此产生新的句子，重复上述过程直至产生足够数量的句子，构成一个新的目标领域的带标签的数据集，并将所述数据集存储到所述MySQL数据库中。

进一步的，所述将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的汉字字符向量表示层，得到每个汉字字符的向量表示，包括：将得到的数据集中的带有的一串汉字字符序列的句子s转换为稠密向量，在所述汉字字符向量表示层中：

向量矩阵是为了将每一个汉字字符映射为稠密向量，其中D是向量的维度，V是词表大小，将输入的句子表示为s＝{w₁,w₂,…,w_N}，其中N是输入句子s的长度，w_i∈R^V是第i个汉字字符的独热向量表示，最终字符向量表示层的输出是一个字符向量序列[x₁,x₂,…,x_N]，其中x_i＝Ew_i∈R^D。

进一步的，所述第三步中的开关切换的Bi-LSTM细胞层用来提取句子中汉子字符的局部和全局上下文特征信息，开关状态所述开关切换的Bi-LSTM细胞层用以下公式表示为：

其中θ^(s)＝{θ₁ ^(s),θ₂ ^(s),…,θ_K ^(s)}表示相应LSTM的参数，t表示每一个时间步。

进一步的，当开关根据不同任务的属性来选择切换到相应的Bi-LSTM细胞层的情况下,引入一个任务向量其中m是任务的ID编号，

开关切换Bi-LSTM的公式可以简化为：

与开关切换Bi-LSTM相似，对中文分词和实体识别联合学习也使用了双向的开关切换LSTM，最终Bi-Switch-LSTM抽取出来的特征可以表示如下：

其中和/>分别是前向和后向自适应LSTMs的隐藏状态，所以LSTMs最终的隐藏状态是将二者连接起来，因此前向和后向开关的状态分别是/>和

最终特征抽取层的输出是开关切换的双向LSTM网络的隐藏状态h_t。

进一步的，所述的句子s的标签序列可以表示为：

y＝[y₁,y₂,…,y_N]

其中是第i个汉字字符标签的独热向量表示，L是标签的数量。

进一步的，所述CRF层的输入是由特征抽取层的开关切换的双向LSTM生成的字符向量的隐藏状态，即h＝[h₁,h₂,…,h_N]，CRF层的输出是标签序列y，给定输入h，标签序列y的条件概率可以用下列公式计算：

其中Y(s)是句子s所有可能的标签序列集合，θ是参数集合，ψ(h_i,y_i,y_i-1)是势函数，在所述模型中，势函数可以计算为：

其中和/>是CRF层的参数，θ＝{W,T}

最终损失函数可以表示为：

其中S是训练数据中的所有句子的集合，h_s和y_s分别是句子s的开关切换的双向LSTM的隐藏状态和标签序列。

进一步的，中文分词模块的损失函数计算如下：

其中是句子s在分词任务中的标签序列，θ^seg是中文分词模型中的参数集合，h_s是共享开关切换的双向LSTM网络输出的隐藏状态，

联合训练模型的总损失函数是命名体识别任务的损失函数和中文分词任务的损失函数的组合，可计算如下式：

L＝(1-λ)L_CNER+λL_CWS

其中，λ∈[0，1)是控制中文分词任务的损失在总损失中的相对重要性的系数。

本发明的有益效果：本发明公开了一种数据集自动生成的中文分词与实体识别联合学习方法，所述方法包括以下步骤：第一步、目标领域数据集的构建；第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的字符向量表示层，得到每个汉字字符的向量表示；第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的开关切换的Bi-LSTM细胞层和一个开关切换的双向LSTM神经网络中，得到每个汉字字符的隐藏状态；第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码，提升NER模型识别实体边界的能力以及准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种数据集自动生成的中文分词与实体识别联合学习方法的目标领域的数据集的构建流程图；

图2为本发明实施例提供的一种数据集自动生成的中文分词与实体识别联合学习方法的框架图。

具体实施方式

本发明实施例提供了一种数据集自动生成的中文分词与实体识别联合学习方法，用于提升NER模型识别实体边界的能力以及准确率。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

本发明实施例数据集自动生成的中文分词与实体识别联合学习的符合真实的应用场景，能够提升NER模型识别实体边界的能力以及准确率，具有很强的实用性。

下面对中文分词和中文命名实体识别等名词进行解释：

中文分词，即Chinese Word Segmentation(CWS)，是将连续的汉字序列按照一定的规范切分，得到一个个单独的词的过程。中文分词与英文分词区别很大，对英文而言，单词之间以空格作为自然分界符，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，需要人为切分。当前分词算法大致分为两类：基于词典分词算法和基于统计的分词方法。基于词典分词算法易产生歧义问题；基于统计的分词方法常见有HMM、CRF、SVM、深度学习等算法。

中文命名实体识别，即Chinese Named Entity Recognition(CNER)，是指识别中文文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简言之，就是识别中文文本中的实体指称的边界和类别。早期主要是基于规则的方法，但是这需要人工制定大量的规则，可行性不高，同时命名实体是变化无穷的，规则却是有限的且机器依赖领域知识，不能很好地迁移和泛化。第二种是基于特征的有监督学习方法(传统机器学习方法)，主要有HMM、ME、CRF和SVM，主要依赖于复杂的特征工程。当前的主流是深度学习方法，主要是通过大规模的语料库训练出分布式的词向量表示，然后将其输入到神经网络(RNN、Bi-LSTM、GRU等)中进行语义特征提取，接着将提取出的特征输入到推理层，常常是条件随机场CRF或者softmax。

NER通常是假设在分词已经完成的情况下完成的，即假定分词达到了接近完美的效果，但是在实际情况中，分词通常是命名体识别的前一个步骤，其效果直接影响着NER的效果。因此基于分词任务联合学习的命名体识别方法符合真实的应用场景，能够提升NER模型识别实体边界的能力以及准确率，具有很强的实用性。

请参考图1，图1为本发明实施例的一种数据集自动生成的中文分词与实体识别联合学习方法的目标领域的数据集的构建流程图，所述方法包括以下步骤：

具体的，以海洋领域的为例，准备好一个与海洋领域相近的带标注的实体识别数据集，从中抽出所有的实体名字，随机使用预定义的海洋领域中的实体名字去自动替代目标数据集中随机选取的句子中的同一种类型的实体名字，从而产生语法和语义上正确的新的相似句子，根据原始句子中的标签我们能够很容易就推断出新的相似句子中的实体标签，重复上述步骤直至产生预定义好的句子个数，由此产生新的海洋领域的数据集。

第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的长短期记忆网络(Long Short-Term Memory,LSTM)细胞层和一个开关切换的双向LSTM神经网络中，计算开关的状态，神经网络根据开关的状态来选择切换至其中一个LSTM细胞，之后，得到每个汉字字符的隐藏状态；

具体的，使用python编写的爬虫对各大海洋新闻网站、政府网站进行大量的新闻文本爬取，然后将爬取的新闻文本存储到MySQL数据库中。

具体的，海洋领域专家对实体类别和名字进行预定义，生成一张实体类别和实体名字的表格，然后保存到MySQL数据库中。

进一步的，所述第一步中的所述从中抽出所有的实体名字具体为：从选定的中文分词数据集(Microsoft research asia，msra)和中文分词数据集(Peking University，PKU)带标签数据集中随机选取一定数量的句子，然后随机使用所述第二步中预定义好的实体类别下的实体名字对从数据集中随机选取的句子中同一类别下的实体名字自动进行随机替换，由此产生新的句子，重复上述过程直至产生足够数量的句子，构成一个新的目标领域的带标签的数据集，并将所述数据集存储到所述MySQL数据库中。

具体的，如图1所示，从选定的MSRA和PKU带标签数据集中随机选取一定数量的句子，然后随机使用第二步中预定义好的实体类别下的实体名字对从数据集中随机选取的句子中同一类别下的实体名字自动进行随机替换，由此产生新的句子，重复上述过程直至产生足够数量的句子，构成一个新的海洋产业新闻领域的带标签的数据集，并将其存储到MySQL数据库中。

上述内容完成了对新的海洋产业新闻领域的带标签的数据集的构建。

进一步的，如图2所示，在具体的实施例中，从构建海洋产业新闻和知识图谱构建的实际应用领域出发，然后基于前面的数据集，提出一种中文分词和实体识别联合学习方法。

中文实体识别任务可视为一个序列标注任务，又可分为两个子任务：从句子中抽取实体名字和识别实体的类型，而中文分词的目标则是将文本或者句子分割为一个个词语，即预测词语的边界。因此可以中文分词和中文实体识别高度相关，能够帮助实体识别更加精确地预测实体边界，有利于识别未登录词，虽然分词和实体识别是联合学习的，但它们的地位并不是相同的，分词是作为实体识别的辅助任务的。

具体的，所述将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的汉字字符向量表示层，得到每个汉字字符的向量表示，包括：将得到的数据集中的带有的一串汉字字符序列的句子s转换为稠密向量，在所述汉字字符向量表示层中：

本层的目的是将的数据集中由汉字字符串组成的句子s转换为稠密向量。

在本层中向量矩阵是为了将每一个汉字字符映射为稠密向量，其中D是向量的维度，V是词表大小，将输入的句子表示为s＝{w₁,w₂,…,w_N}，其中N是输入句子s的长度，w_i∈R^V是第i个汉字字符的独热向量表示，最终字符向量表示层的输出是一个字符向量序列[x₁,x₂,…,x_N]，其中x_i＝Ew_i∈R^D。

进一步的，本层是开关切换的Bi-LSTM层，目的是提取句子中汉字字符的局部和全局上下文特征信息。

需要说明的是BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。

如图2所示，所述第三步中的开关切换的Bi-LSTM细胞层用来提取句子中汉子字符的局部和全局上下文特征信息，开关状态所述开关切换的Bi-LSTM细胞层用以下公式表示为：

进一步的，与此同时，因为开关也会根据不同任务的属性来选择切换到相应的LSTM层所以引入一个任务向量其中m是任务的ID编号，

当开关根据不同任务的属性来选择切换到相应的Bi-LSTM细胞层的情况下,引入一个任务向量

开关切换Bi-LSTM的上述公式可以简化为：

进一步的如图2所示，第三层是条件随机场CRF层，在命名体识别任务中，邻近标签之间通常有很强的依赖关系，因此对句子中的汉字字符序列的标签进行联合解码的效果胜过对他们单独解码。

在这层中，我们使用一阶线性链CRF对汉字字符的标签进行解码，所述的句子s的标签序列可以表示为：

y＝[y₁,y₂,…,y_N]

其中和/>是CRF层的参数，θ＝{W,T}

最终损失函数可以表示为：

进一步的，中文分词的目的是将中文文本切分为一个个词语，是实体识别的前去步骤，因此与中文命名体识别高度相关，有助于提高中文命名体边界识别的准确率。因此我们提出了一个联合训练框架对分词和实体识别进行了联合学习，见图2。在这个联合训练框架中，CNER和CWS模型共享了相同的汉字字符向量表示和相同的开关切换的双向LSTM网络，即它们的参数是共享的。通过这种方法，我们可以对分词过程中的有用信息进行编码，以学习感知词边界的上下文中文字符向量表示，这对于预测实体边界是非常用的。注意到在我们的联合训练框架中CENR和CWS的地位不是平等的，CWS是用来辅助CNER任务的。

中文分词模块的损失函数计算如下：

L＝(1-λ)L_CNER+λL_CWS

综上所述，本发明公开了一种数据集自动生成的中文分词与实体识别联合学习方法，所述方法包括以下步骤：第一步、目标领域数据集的构建；第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的字符向量表示层，得到每个汉字字符的向量表示；第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的开关切换的Bi-LSTM细胞层和一个开关切换的双向LSTM神经网络中，得到每个汉字字符的隐藏状态；第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码，提升NER模型识别实体边界的能力以及准确率。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据集自动生成的中文分词与实体识别联合学习方法，其特征在于，所述方法包括以下步骤：

第一步、目标领域数据集的构建：准备一个与目标领域相近的带标注的实体识别数据集；从中抽出所有的实体名字；随机使用预定义的目标领域中的实体名字自动替代目标数据集中随机选取的句子中的同一种类型的实体名字，从而产生语法和语义上正确的新的相似句子；根据原始句子中的标签推断出新的相似句子中的实体标签；重复上述步骤直至产生预定义好的句子个数，由此产生新的目标领域的数据集；所述第一步中的所述准备一个与目标领域相近的带标注的实体识别数据集具体为：使用python编写的爬虫对目标领域相关的各大网站进行新闻文本爬取，然后将爬取的新闻文本存储到MySQL数据库中；所述第一步中的所述预定义的目标领域中的实体名字具体为：目标领域专家对实体类别和名字进行预定义，生成一张实体类别和实体名字的表格，并保存到所述MySQL数据库中；

第四步：将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF，CRF对汉字字符标签进行联合解码；

所述第一步中的所述从中抽出所有的实体名字具体为：从选定的中文分词数据集带标签数据集中随机选取一定数量的句子，然后随机使用所述第二步中预定义好的实体类别下的实体名字对从数据集中随机选取的句子中同一类别下的实体名字自动进行随机替换，由此产生新的句子，重复上述过程直至产生若干句子，构成一个新的目标领域的带标签的数据集，并将所述数据集存储到所述MySQL数据库中；所述将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的汉字字符向量表示层，得到每个汉字字符的向量表示，包括：将得到的数据集中的带有的一串汉字字符序列的句子s转换为稠密向量，在所述汉字字符向量表示层中：

向量矩阵是为了将每一个汉字字符映射为稠密向量，其中D是向量的维度，V是词表大小，将输入的句子表示为s＝{w₁,w₂,…,w_N}，其中N是输入句子s的长度，w_i∈R^V是第i个汉字字符的独热向量表示，最终字符向量表示层的输出是一个字符向量序列[x₁,x₂,…,x_N]，其中x_i＝Ew_i∈R^D；所述第三步中的开关切换的Bi-LSTM细胞层用来提取句子中汉字字符的局部和全局上下文特征信息，开关状态/>所述开关切换的Bi-LSTM细胞层用以下公式表示为：

其中θ^(s)＝{θ₁ ^(s),θ₂ ^(s),…,θ_K ^(s)}表示相应LSTM的参数，t表示每一个时间步；是汉字字符x在时间步t映射得到的字符向量，s_t,k是第k个LSTM单元在时间步t输出的隐藏状态，e_m是ID为m的任务向量；

当开关根据不同任务的属性来选择切换到相应的Bi-LSTM细胞层的情况下,引入一个任务向量其中m是任务的ID编号，

开关切换Bi-LSTM的公式可以简化为：

2.根据权利要求1所述的数据集自动生成的中文分词与实体识别联合学习方法，其特征在于，所述的句子s的标签序列可以表示为：

y＝[y₁,y₂,…,y_N]

3.根据权利要求1所述的数据集自动生成的中文分词与实体识别联合学习方法，其特征在于，所述CRF层的输入是由特征抽取层的开关切换的双向LSTM生成的字符向量的隐藏状态，即h＝[h₁,h₂,…,h_N]，CRF层的输出是标签序列y，给定输入h，标签序列y的条件概率可以用下列公式计算：

其中Y(s)是句子s所有可能的标签序列集合，θ是参数集合，ψ(h_i,y_i,y_i-1)是势函数，

在所述模型中，势函数可以计算为：

其中和/>是CRF层的参数，θ＝{W,T}

最终损失函数可以表示为：

4.根据权利要求3所述的数据集自动生成的中文分词与实体识别联合学习方法，其特征在于，

中文分词模块的损失函数计算如下：

其中是句子s在分词任务中的标签序列，θ^seg是中文分词模型中的参数集合，h_s是共享开关切换的双向LSTM网络输出的隐藏状态，联合训练模型的总损失函数是命名体识别任务的损失函数和中文分词任务的损失函数的组合，可计算如下式：

L＝(1-λ)L_CNER+λL_CWS