CN113312918A

CN113312918A - 融合部首向量的分词和胶囊网络法律命名实体识别方法

Info

Publication number: CN113312918A
Application number: CN202110647232.6A
Authority: CN
Inventors: 王星; 蹇木伟; 陈吉; 于丽美
Original assignee: Linyi University; Shandong University of Finance and Economics
Current assignee: Linyi University; Shandong University of Finance and Economics
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-27
Anticipated expiration: 2041-06-10
Also published as: CN113312918B

Abstract

本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法，其特征在于,具体包括以下步骤：S1：分词；S2：构建法律数据集；S3：提取句间特征；S4：提取句子内部特征H；S5：将语料句子内部特征和句间特征联合表示。通过本发明的技术方案，提升词向量的表征能力，使特征提取阶段不需要繁杂的网络，结构就能得到丰富的上下文信息，提升了小规模领域标注数据集上的分词效果，帮助NER任务进行数据预处理，找到准确的实体边界，增强模型在法律领域的适应性，能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用，帮助提取文本中的关键信息。

Description

融合部首向量的分词和胶囊网络法律命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，特别涉及一种融合部首向量的分词和胶囊网络法律命名实体识别方法。

背景技术

对于中文NER任务，主要面临以下几个问题：（1）实体边界问题，评判一个实体是否被正确识别的一个方面就是实体边界是否正确。影响实体边界识别的原因是中文与英文不同，中文序列中没有明显的标志词和空格来区分词边界，比如英文实体可以根据首字母是否大写进行判断，NER任务的第一步就是确定词的边界，按照一定的规则切分成一个个的词。汉语分词与NER任务互相影响,分词准确率很大程度上影响命名实体识别的准确率。（2）实体类型问题，评判实体是否被识别正确的第二个方面为实体类型是否分类正确，在深度学习NER方法中，需要通过对上下文进行特征提取，计算特征判断实体类别。另外NER与其他任务相比，训练语料较少导致通用的识别多种类型的NER模型性能较差。对于领域NER来说，训练语料规模的局限性也同样导致实验效果不优。

针对以上问题，本发明同时构建分词模型和法律领域NER模型。首先为了对实体边界进行更精确的识别，在数据处理阶段，本发明使用预训练语言模型与汉字偏旁部首融合构建分词模型R-ALBERT。通过R-ALBERT分词模型将文本数据分词后，对语料进行标注。将预处理后的语料通过BERT获取词向量和句向量。然后通过BILSTM提取句子内部特征，通过胶囊网络提取句子间文本特征，最后通过SoftMax对命名实体类别进行预测。具体来说，本发明主要是利用了部首信息提升词向量的表征能力，重构ALBERT的输入向量，使模型能够在小规模数据集上提取丰富特征，提高分词模型在领域分词的效果。然后通过BILSTM提取句子内部文本特征，使模型能够获得词与词之间的语义关系等特征，融合胶囊网络提取的句子间特征实现法律领域命名实体识别，提高领域中命名实体识别的准确度。

发明内容

为了弥补现有技术的不足，本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法。

本发明是通过如下技术方案实现的：一种融合部首向量的分词和胶囊网络法律命名实体识别方法，其特征在于, 具体包括以下步骤：

S1：分词；利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合，通过卷积神经网络序列标注得到法律数据集语料分词结果；

S2：构建法律数据集；通过R-ALBERT分词模型得到语料分词结果，对预料进行四词位标注；

S3：提取句间特征；将分词后的训练语料利用BERT语言模型得到句向量和词向量，通过胶囊网络对句子向量表示的文本数据进行计算，提取句子间特征E；

S4：提取句子内部特征H；将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H；

S5：将语料句子内部特征和句间特征联合表示；通过得到的文本特征进行序列标注得到实体识别结果。

作为优选方案，步骤S1中，具体包括以下步骤：

S1-1：特征表示；在ALBERT训练词向量的过程中，模型将文本数据处理成词向量、位置向量和段向量相加的模式，R-ALBERT分词模型中，除了原始的三种向量之外，加入字符的偏旁部首向量R，汉字的偏旁部首承载着一个汉字的形体特征和引申词义，与其他向量融合能够丰富词向量的表征内容；

S1-2：特征提取；特征提取阶段使用卷积神经网络提取文本局部特征，获得相邻词语互相之间的关联信息；计算过程如公式（1），

(1)

其中

表示卷积之后的文本特征，

为卷积核，

表示文本序列，b为偏置；

S1-3：标签推理；将提取到的特征线性变换后，通过SoftMax计算每一个标签对于字符的概率，取最大概率标签标记字符，实现分词；字符标签包括{B,M,E,S},其中B表示一个词的开始字符，M表示词的中间字符，E表示结尾字符，S表示单字成词；标签推理过程如公式（2）~（4），

	(2)
			(3)
	(4)

其中，

表示文本特征线性变换后的结果，之后作为条件概率的输入得到条件概率

，条件概率中X为文本序列，y为标签序列；T表示文本序列中的字符个数；最后通过公式（4）得到最大标签概率。

作为优选方案，步骤S2中，还包括检查利用R-ALBERT分词模型分词之后的语料，将错误部分进行纠正，对专有名词进行重新标注。

作为优选方案，步骤S3中，具体包括以下步骤：

S3-1：将训练语料通过BERT得到句向量，将句向量作为胶囊网络的输入，利用能够提取空间特征的胶囊网络来提取文本的句子间特征；

S3-2：在胶囊网络中，首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊；然后对文本进行n次卷积操作，将n次卷积提取到的特征组合，得到初级胶囊层中的特征；再对胶囊进行卷积得到胶囊卷积层中更深层次的特征，初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化，动态路由计算过程如公式（5）~（8），

	（5）
			（6）
	（7）
			（8）

卷积胶囊层得到的特征为

，通过权重共享矩阵

变换后得到投票向量

表示第i个胶囊与第j个实体的对应关系，然后经过SoftMax函数为每个投票向量分配一个权重系数

，从而计算对应于每个命名实体类别j的

的加权和

；最后通过非线性挤压函数作为激活函数得到对实体的向量

，以用于下一次迭代。

作为优选方案，步骤S4中，具体包括以下步骤：利用BILSTM网络对词向量表示的文本进行特征提取，以得到文本句子内部的上下文特征；BILSTM计算过程如公式（9）~（11），

	(9)
			(10)
	(11)

其中

和

分别表示正向LSTM和反向LSTM提取的特征，H为隐藏层计算，公式（9）、（10）中的

、

表示正向和反向输入数据

的权重参数，

表示上一时刻正向和反向的隐藏层输出的权重参数，

、

表示正向LSTM层和反向LSTM层的偏置，由公式（9）（10）得到正向和反向文本特征之后，通过公式（11）的concat拼接得到最终特征向量

。

作为优选方案，步骤S5中，具体包括以下步骤：通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E，将两种层级的特征通过拼接得到特征提取层的最终文本特征，通过SoftMax对序列进行计算，得到实体识别中每一个字符对应的标签概率，选取概率最大的标签作为字符最终的标签，得到实体识别结果，计算过程如公式（12）~（13）：

	(12)
			(13)

其中X表示融合句子间特征和句子内部特征的特征序列，w为线性变换参数，最后通过argmax得到最大概率的标签序列Y，完成实体识别。

本发明由于采用了以上技术方案，与现有技术相比使其具有以下有益效果：本发明的R-ALBERT分词模型将汉字部首信息作为预训练语言模型输入的一部分，与原始模型的词向量、段向量、位置向量融合后进行词向量训练，能够提升词向量的表征能力，能够使文本在表征层面就具有丰富的文本上下文、词义、语义以及句子间等信息，在特征提取阶段不需要繁杂的网络，结构就能得到丰富的上下文信息，提升了小规模领域标注数据集上的分词效果，帮助NER任务进行数据预处理，找到准确的实体边界。在命名实体识别任务中，本发明融合BERT句向量和词向量，结合胶囊网络提取文本特征，将文本数据中，句子间和句子内词与词之间的关联和特征进行提取和融合，增强模型在法律领域的适应性，能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用，帮助提取文本中的关键信息。并且作为信息提取的子任务，命名实体识别的效果提升能够对智能司法的关系抽取、知识图谱构建等任务有直接帮助。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为R- ALBERT分词训练过程；

图2为命名实体识别模型结构；

图3为胶囊网络。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面结合图1至图3对本发明的实施例的融合部首向量的分词和胶囊网络法律命名实体识别方法进行具体说明。

如图1至图3所示，本发明提出了一种融合部首向量的分词和胶囊网络法律命名实体识别方法，其特征在于, 具体包括以下步骤：

S1：分词；利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合，通过卷积神经网络序列标注得到法律数据集语料分词结果；具体包括以下步骤：

S1-1：特征表示；在ALBERT训练词向量的过程中，模型将文本数据处理成词向量、位置向量和段向量相加的模式，本发明中的R-ALBERT分词模型中，除了原始的三种向量之外，加入字符的偏旁部首向量R，汉字的偏旁部首承载着一个汉字的形体特征和引申词义，与其他向量融合能够丰富词向量的表征内容；

(1)

其中

表示卷积之后的文本特征，

为卷积核，

表示文本序列，b为偏置；

	(2)
			(3)
	(4)

其中，

S2：构建法律数据集；通过R-ALBERT分词模型得到语料分词结果，对预料进行四词位标注；检查利用R-ALBERT分词模型分词之后的语料，将错误部分进行纠正，对专有名词进行重新标注。

S3：提取句间特征；将分词后的训练语料利用BERT语言模型得到句向量和词向量，通过胶囊网络对句子向量表示的文本数据进行计算，提取句子间特征E；具体包括以下步骤：由于法律语料中句子与句子之间存在着较强的逻辑关系和语义联系，句子与句子之间的特征提取有助于得到精确的实体标注结果。在此步骤中，

S3-2：在胶囊网络中，首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊；然后对文本进行n次卷积操作，将n次卷积提取到的特征组合，得到初级胶囊层中的特征；再对胶囊进行卷积得到胶囊卷积层中更深层次的特征，初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化，目的是将有用的特征传递到卷积胶囊层，卷积胶囊层得到的特征包含了更深层次特征。动态路由计算过程如公式（5）~（8），

	（5）
			（6）
	（7）
			（8）

卷积胶囊层得到的特征为

，通过权重共享矩阵

变换后得到投票向量

，从而计算对应于每个命名实体类别j的

的加权和

；最后通过非线性挤压函数作为激活函数得到对实体的向量

，以用于下一次迭代。

S4：提取句子内部特征H；将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H；具体包括以下步骤：利用BILSTM网络对词向量表示的文本进行特征提取，以得到文本句子内部的上下文特征；BILSTM计算过程如公式（9）~（11），

	(9)
			(10)
	(11)

其中

和

、

表示正向和反向输入数据

的权重参数，

表示上一时刻正向和反向的隐藏层输出的权重参数，

、

。

S5：将语料句子内部特征和句间特征联合表示；通过得到的文本特征进行序列标注得到实体识别结果。具体包括以下步骤：通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E，将两种层级的特征通过拼接得到特征提取层的最终文本特征，通过SoftMax对序列进行计算，得到实体识别中每一个字符对应的标签概率，选取概率最大的标签作为字符最终的标签，得到实体识别结果，计算过程如公式（12）~（13）：

	(12)
			(13)

在本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合部首向量的分词和胶囊网络法律命名实体识别方法，其特征在于, 具体包括以下步骤：

2.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S1中，具体包括以下步骤：

(1)

其中

表示卷积之后的文本特征，

为卷积核，

表示文本序列，b为偏置；

(2)

(3)

(4)

其中，

3.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S2中，还包括检查利用R-ALBERT分词模型分词之后的语料，将错误部分进行纠正，对专有名词进行重新标注。

4.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S3中，具体包括以下步骤：

（5）

（6）

（7）

（8）

卷积胶囊层得到的特征为

，通过权重共享矩阵

变换后得到投票向量

，从而计算对应于每个命名实体类别j的的加权和

；最后通过非线性挤压函数作为激活函数得到对实体的向量

，以用于下一次迭代。

5.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S4中，具体包括以下步骤：利用BILSTM网络对词向量表示的文本进行特征提取，以得到文本句子内部的上下文特征；BILSTM计算过程如公式（9）~（11），

(9)

(10)

(11)

其中

和

、

表示正向和反向输入数据

的权重参数，

表示上一时刻正向和反向的隐藏层输出的权重参数，

、

。

6.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S5中，具体包括以下步骤：通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E，将两种层级的特征通过拼接得到特征提取层的最终文本特征，通过SoftMax对序列进行计算，得到实体识别中每一个字符对应的标签概率，选取概率最大的标签作为字符最终的标签，得到实体识别结果，计算过程如公式（12）~（13）：

(12)

(13)