CN114912453A - 基于增强序列特征的中文法律文书命名实体识别方法 - Google Patents

基于增强序列特征的中文法律文书命名实体识别方法 Download PDF

Info

Publication number
CN114912453A
CN114912453A CN202210549703.4A CN202210549703A CN114912453A CN 114912453 A CN114912453 A CN 114912453A CN 202210549703 A CN202210549703 A CN 202210549703A CN 114912453 A CN114912453 A CN 114912453A
Authority
CN
China
Prior art keywords
word
sequence
character
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210549703.4A
Other languages
English (en)
Inventor
王颖洁
张程烨
汪祖民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202210549703.4A priority Critical patent/CN114912453A/zh
Publication of CN114912453A publication Critical patent/CN114912453A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了基于增强序列特征的中文法律文书命名实体识别方法,包括:将待识别法律文书中的句子作为字符序列进行处理,对句子中每个字符的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量;使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量;使用注意力机制,将字符级特征融入所述,进而得到融合字词的特征向量;所述融合字词的特征向量输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列。本发明大幅提高了实体识别的准确率。

Description

基于增强序列特征的中文法律文书命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于增强序列特征的中文法律文书命名实体识别方法。
背景技术
近年来,随着计算机网络和人工智能技术的高速发展,自然语言处理已经成为海量文本信息处理的重要方法。命名实体识别作为自然语言处理任务的核心,在提高文本识别准确率和可靠性方面具有重大的意义。但是,传统基于字符的神经网络在实体抽取上存在固有缺陷,即无法充分利用汉字本身隐含的特征信息,极大的影响了实体识别效果。
字嵌入(CE,Character Embedding)作为处理中文文本信息的常用方法,将中文的汉字根据词典转换为向量形式,从而可以作为神经网络的输入。现有的CE方法在实体模糊抽取的应用场景下具有一定优势。Liu K等人通过改进的CNN模型,对字和词两个级别的特征进行融合。P.Das等人基于图聚类算法,采用无监督方法提取语料库中的实体关系,可以有效的将实体进行分类。但在实体类型复杂,实体间存在依赖关系的环境下,已有嵌入机制都难以实现相对理想的效果。其主要原因为,单独的字嵌入无法考虑到句子上下文的特征信息,造成语义信息的丢失。
针对上述问题,国内外许多研究人员都展开了研究。Dong X Y等人使用自注意力机制,将字和词两种特征进行融合后输入模型,提高了实体抽取的准确性。Li F等人提出一种动态元嵌入方法,在特定的任务中可以取得良好效果,其领域迁移性较差。但上述方法仍存在不足之处:(1)当前字嵌入方法大多仅使用预训练词典的方式,而忽视了汉字本身的特征信息。(2)在处理词嵌入的过程中,会产生一个字对应多个词的标注冲突问题;(3)由于模型复杂度较高,导致其训练时间较长,无法频繁对模型进行更新。
发明内容
针对中文法律文书中关系复杂、词汇专业性强且识别率低的问题,本发明提出基于一种增强序列特征的中文法律文书命名实体识别方法(FSLTM,Feature Subsequencebased Lattice-Transformer Model),其大幅提高了实体识别的准确率。
为实现上述目的,本申请提出基于增强序列特征的中文法律文书命名实体识别方法,包括:
将待识别法律文书中的句子S=[c1,c2,...,cn-1,cn]作为字符序列进行处理,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量
Figure BDA0003654281680000021
使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;
设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量
Figure BDA0003654281680000022
使用注意力机制,将字符级特征融入所述特征向量
Figure BDA0003654281680000023
进而得到融合字词的特征向量
Figure BDA0003654281680000024
所述融合字词的特征向量
Figure BDA0003654281680000031
输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列
Figure BDA0003654281680000032
Figure BDA0003654281680000033
进一步的,对于新增的法律文书,在输入到改进的Transformer法律文书实体抽取模型后,抽取出其中新出现的词
Figure BDA0003654281680000034
Figure BDA0003654281680000035
作为幻象空间模型PSM的输入,得到对应的预测特征序列
Figure BDA0003654281680000036
将所述实体特征序列
Figure BDA0003654281680000037
和新增的预测特征序列
Figure BDA0003654281680000038
共同输入到条件随机场层CRF,得到预测的标签结果。
进一步的,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,具体为:对字符的拼音、字形和笔画进行特征提取,获取对应的特征编码表;根据所述特征编码表得到其拼音子向量
Figure BDA0003654281680000039
字形子向量
Figure BDA00036542816800000310
和笔画子向量
Figure BDA00036542816800000311
故字特征向量
Figure BDA00036542816800000312
Figure BDA00036542816800000313
进一步的,所述字特征向量融合预训练词典,得到增强的字特征向量
Figure BDA00036542816800000314
具体为:根据预训练词典,得到字符ci对应的词嵌入向量
Figure BDA00036542816800000315
将所述词嵌入向量
Figure BDA00036542816800000316
与字特征向量
Figure BDA00036542816800000317
合并,得到增强的字特征向量
Figure BDA00036542816800000318
进一步的,使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度,具体为:将字符序列中的潜在词语表示为
Figure BDA00036542816800000319
其中h表示该词开始位置对应字的下标,t表示该词结束位置对应字的下标,L表示该词的长度,因此L=t-h。
更进一步的,设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量
Figure BDA0003654281680000041
同时使用注意力机制,将字符级特征融入所述特征向量
Figure BDA0003654281680000042
进而得到融合字词的特征向量
Figure BDA0003654281680000043
具体为:
首先设定融合过滤器F的窗口大小window_size=2,对于各个长度的词语,使用softmax函数对其进行筛选和融合,得到相同长度词语的特征向量
Figure BDA0003654281680000044
其中<SL-1[*,m:m+1],FL-1>k为克罗内克积运算;SL-1表示词长度为L-1的序列,[*,m,m+1]表示对每两个相邻的列进行计算,m表示当前的列数,范围为[0,d-1],d为该长度词向量的个数,bL-1表示词长度为L-1的偏移量,上标K是克罗内克积运算符的表示形式;
使用注意力机制,将字符级特征融入所述特征向量
Figure BDA0003654281680000045
得到融合字词的特征向量
Figure BDA0003654281680000046
其中
Figure BDA0003654281680000047
Figure BDA0003654281680000048
为哈达玛积运算;
Figure BDA0003654281680000049
为输入控制向量,
Figure BDA00036542816800000410
为特征控制向量,um为输出控制向量:
其中
Figure BDA00036542816800000411
Figure BDA00036542816800000412
Wi为输入权重矩阵,Wf为特征权重矩阵,bi为输入偏移补偿量,bf为特征偏移补偿量,Ui为输入注意力权重矩阵,Uf为特征注意力权重矩阵。
Figure BDA00036542816800000413
表示长度为L-1的潜在词语。
更进一步的,改进的Transformer法律文书实体抽取模型包括一个编码器层、一个解码器层和一个注意力层;
将融合字词的特征向量
Figure BDA00036542816800000414
输入到编码器层,所述编码器层包括浅层的预训练CNN网络和两层Bi-LSTM神经网络,在CNN网络的输出与最后一层Bi-LSTM神经网络的输出之间建立一个残差连接,得到编码器层的输出特征向量
Figure BDA0003654281680000051
其中CNN网络用于提取融合字词向量的基本特征,Bi-LSTM网络用于提取融合字词向量的上下文信息;
在解码器层,将预定义的标签序列进行向量化嵌入处理,再经过两层LSTM神经网络进行信息提取,得到解码器层的输出特征向量
Figure BDA0003654281680000052
然后将编码器层与解码器层的输出特征向量进行维度拼接,再加上其位置编码的计算值pn,共同作为注意力层的输入
Figure BDA0003654281680000053
其中
Figure BDA0003654281680000054
Figure BDA0003654281680000055
在注意力层,使用残差注意力机制学习权重分布系数,加强对关键字词的关注,进一步捕获输入文本的序列特征
Figure BDA0003654281680000056
同时采用并行计算方式,缩短模型训练时间;所述注意力层输出特征信息向量
Figure BDA0003654281680000057
进一步的,对于新增的法律文书,在输入到改进的Transformer法律文书实体抽取模型后,抽取出其中新出现的词
Figure BDA0003654281680000058
Figure BDA0003654281680000059
作为幻象空间模型PSM的输入,得到对应的预测特征序列
Figure BDA00036542816800000510
具体为:
与词汇表进行对照,筛选出法律文书句子中出现的新词
Figure BDA00036542816800000511
并将所述新词作为幻象空间模型PSM的输入;
在幻象空间模型PSM中获取新词含义,从相近的词库
Figure BDA00036542816800000512
中,选择包含最有意义(相似度最高)的信息
Figure BDA00036542816800000513
作为新词
Figure BDA00036542816800000514
的近似替代;
将新增法律文书句子拆分为字的集合
Figure BDA00036542816800000515
并根据新词所包含的代表信息
Figure BDA00036542816800000516
得到新词的嵌入向量
Figure BDA00036542816800000517
Figure BDA00036542816800000518
作为幻象空间模型PSM的输出;
所述新词的嵌入向量
Figure BDA00036542816800000519
输入至改进的Transformer法律文书实体抽取模型,实现过程与融合字词特征的输入向量相同,改进的Transformer法律文书实体抽取模型输出的结果即为新词对应的预测特征序列
Figure BDA0003654281680000061
进一步的,将所述实体特征序列
Figure BDA0003654281680000062
和新增的预测特征序列
Figure BDA0003654281680000063
共同输入到条件随机场层CRF,输出预测的标签结果,具体为:
对实体特征序列
Figure BDA0003654281680000064
和新增的预测特征序列
Figure BDA0003654281680000065
进行克罗内克积运算,得到融合的特征序列Mn
将融合的特征序列Mn输入至条件随机场层CRF进行标签分类,生成最优的标注序列Predict_label=[tag1,t0g2,…,tagn-1,tagn]。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:本方法可以基于特征子序列充分挖掘字词的隐含信息,并利用改进的Transformer模型处理特征信息,能够大幅提高司法领域法律文书实体识别的准确率。同时提出了一种用于动态更新的幻象空间模型PSM,利用司法领域语料库中新词的近义词进行内容提取,可以处理新出现的专业词汇,实现了词汇的动态扩展。
附图说明
图1为基于增强序列特征的中文法律文书命名实体识别方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
实施例1
如图1所示,本申请提供基于增强序列特征的中文法律文书命名实体识别方法,具体包括:
S1:将待识别法律文书中的句子S=[c1,c2,...,cn-1,cn]作为字符序列进行处理,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量
Figure BDA0003654281680000071
使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;
具体的,本发明着重于对汉字的拼音、字形和笔画进行特征提取,并分别获取了对应的特征编码表,如表1~3所示。根据特征编码表可以得到其拼音子向量
Figure BDA0003654281680000072
字形子向量
Figure BDA0003654281680000073
和笔画子向量
Figure BDA0003654281680000074
如表可知,对汉字的“囚”进行编码,其结果为“qiu1G58674”,其中“qiu1”为其拼音特征
Figure BDA0003654281680000075
“G”为其字形特征
Figure BDA0003654281680000076
“58674”为其笔画特征
Figure BDA0003654281680000077
对上述特征进行整理,得到字特征向量
Figure BDA0003654281680000078
表1汉字拼音特征编码表
Figure BDA0003654281680000079
表2汉字字形特征编码表
Figure BDA00036542816800000710
表3汉字笔画特征编码表
Figure BDA0003654281680000081
根据预训练词典,得到字符ci对应的词嵌入向量
Figure BDA0003654281680000082
将所述词嵌入向量
Figure BDA0003654281680000083
与字特征向量
Figure BDA0003654281680000084
合并,得到增强的字特征向量
Figure BDA0003654281680000085
将字符序列中的潜在词语表示为
Figure BDA0003654281680000086
其中h表示该词开始位置对应字的下标,t表示该词结束位置对应字的下标,L表示该词的长度,因此L=t-h。
S2:设置融合过滤器F,对各个长度的词语(字视作长度为1的词向量)进行筛选和融合,得到相同长度的特征向量
Figure BDA0003654281680000087
使用注意力机制,将字符级特征融入所述特征向量
Figure BDA0003654281680000088
进而得到融合字词的特征向量
Figure BDA0003654281680000089
具体的,首先设定融合过滤器F的窗口大小window_size=2,对于各个长度的词向量(字视作长度为1的词向量),使用softmax函数对其进行筛选和融合,得到相同长度词语的特征向量
Figure BDA00036542816800000810
Figure BDA00036542816800000811
其中<SL-1[*,m:m+1],FL-1>K为克罗内克积运算;SL-1表示词长度为L-1的序列,[*,m,m+1]表示对每两个相邻的列进行计算,m表示当前的列数,范围为[0,d-1],d为该长度词向量的个数,bL-1表示词长度为L-1的偏移量,上标K是克罗内克积运算符的表示形式;
使用注意力机制,将字符级特征融入所述特征向量
Figure BDA00036542816800000812
得到融合字词的特征向量
Figure BDA00036542816800000813
其中
Figure BDA00036542816800000814
Figure BDA00036542816800000815
为哈达玛积运算;
Figure BDA00036542816800000816
为输入控制向量,
Figure BDA00036542816800000817
为特征控制向量,um为输出控制向量:
其中
Figure BDA0003654281680000091
Figure BDA0003654281680000092
Wf为输入权重矩阵,Wf为特征权重矩阵,bi为输入偏移补偿量,bf为特征偏移补偿量,Ui为输入注意力权重矩阵,Uf为特征注意力权重矩阵。
Figure BDA0003654281680000093
表示长度为L-1的潜在词语。
S3:所述融合字词的特征向量
Figure BDA0003654281680000094
输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列
Figure BDA0003654281680000095
具体的,改进的Transformer法律文书实体抽取模型包括一个编码器层、一个解码器层和一个注意力层;
编码器层:将融合字词的特征向量
Figure BDA0003654281680000096
输入到编码器层,所述编码器层包括浅层的预训练CNN网络和两层Bi-LSTM神经网络,在CNN网络的输出与最后一层Bi-LSTM神经网络的输出之间建立一个残差连接,得到编码器层的输出特征向量
Figure BDA0003654281680000097
其中CNN网络用于提取融合字词向量的基本特征,Bi-LSTM网络用于提取融合字词向量的上下文信息;
解码器层:将预定义的标签序列进行向量化嵌入处理,再经过两层LSTM神经网络进行信息提取,得到解码器层的输出特征向量
Figure BDA0003654281680000098
然后将编码器层与解码器层的输出特征向量进行维度拼接,再加上其位置编码的计算值pn,共同作为注意力层的输入
Figure BDA0003654281680000099
其中
Figure BDA00036542816800000910
Figure BDA00036542816800000911
注意力层:使用残差注意力机制学习权重分布系数,加强对关键字词的关注,捕获输入文本的序列特征
Figure BDA00036542816800000912
同时采用并行计算方式,缩短模型训练时间;所述注意力层输出特征信息向量
Figure BDA00036542816800000913
S4:对于新增的法律文书,在输入到改进的Transformer法律文书实体抽取模型后,抽取出其中新出现的词
Figure BDA0003654281680000101
Figure BDA0003654281680000102
作为幻象空间模型PSM的输入,得到对应的预测特征序列
Figure BDA0003654281680000103
具体的,与词汇表进行对照,筛选出法律文书句子中出现的新词
Figure BDA0003654281680000104
并将所述新词作为幻象空间模型PSM的输入,对其进行处理;
从在线词典、维基百科、网络搜索等网站上收集新词的含义,并检查它们所表达的单词是否存在于现有嵌入模型中;当模型没有嵌入某些单词时,会通过PSM模型被另一种表达方式替换。对于PSM模型,首先需要从相近的词库中选取与新词含义相近的词,作为新词的近似替代。由于本发明是对司法领域法律文书进行处理,其中出现的法律专有名词,所包含的信息和已有的法律专有名词有相近之处,因此可以从相近的词库
Figure BDA0003654281680000105
中,选择包含最有意义(相似度最高)的信息
Figure BDA0003654281680000106
作为新词
Figure BDA0003654281680000107
的近似替代。
将新增法律文书句子拆分为字的集合
Figure BDA0003654281680000108
并根据新词所包含的代表信息
Figure BDA0003654281680000109
得到新词的嵌入向量
Figure BDA00036542816800001010
Figure BDA00036542816800001011
作为幻象空间模型PSM的输出;
所述新词的嵌入向量
Figure BDA00036542816800001012
输入至改进的Transformer法律文书实体抽取模型,实现过程与融合字词特征的输入向量相同,所述改进的Transformer法律文书实体抽取模型输出的结果即为新词对应的预测特征序列
Figure BDA00036542816800001013
S5:将实体特征序列
Figure BDA00036542816800001014
和新文本的预测特征序列
Figure BDA00036542816800001015
共同输入到CRF层,输出预测的标签结果。
对实体特征序列
Figure BDA00036542816800001016
和新增的预测特征序列
Figure BDA00036542816800001017
进行克罗内克积运算,得到融合的特征序列Mn
将融合的特征序列Mn输入至条件随机场层CRF进行标签分类,生成最优的标注序列Predict_label=[tag1,tag2,…,tagn-1,tagn]。所述CRF层是用于字符级别的序列标注,可以在训练数据时自动学习约束条件,来保证最终预测结果是最优的。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (9)

1.基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,包括:
将待识别法律文书中的句子S=[c1,c2,...,cn-1,cn]作为字符序列进行处理,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,所述字特征向量融合预训练词典,得到增强的字特征向量
Figure FDA0003654281670000011
使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度;
设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量
Figure FDA0003654281670000012
使用注意力机制,将字符级特征融入所述特征向量
Figure FDA0003654281670000013
进而得到融合字词的特征向量
Figure FDA0003654281670000014
所述融合字词的特征向量
Figure FDA0003654281670000015
输入至改进的Transformer法律文书实体抽取模型中,提取所述待识别法律文书中的实体特征序列
Figure FDA0003654281670000016
Figure FDA0003654281670000017
2.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,对于新增的法律文书,在输入到改进的Transformer法律文书实体抽取模型后,抽取出其中新出现的词
Figure FDA0003654281670000018
作为幻象空间模型PSM的输入,得到对应的预测特征序列
Figure FDA0003654281670000019
将所述实体特征序列
Figure FDA00036542816700000110
和新增的预测特征序列
Figure FDA00036542816700000111
共同输入到条件随机场层CRF,得到预测的标签结果。
3.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,对句子中每个字符ci的拼音、字形和笔画三个特征进行提取,得到字特征向量,具体为:对字符的拼音、字形和笔画进行特征提取,获取对应的特征编码表;根据所述特征编码表得到其拼音子向量
Figure FDA0003654281670000021
字形子向量
Figure FDA0003654281670000022
和笔画子向量
Figure FDA0003654281670000023
故字特征向量
Figure FDA0003654281670000024
4.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,所述字特征向量融合预训练词典,得到增强的字特征向量
Figure FDA0003654281670000025
具体为:根据预训练词典,得到字符ci对应的词嵌入向量
Figure FDA0003654281670000026
将所述词嵌入向量
Figure FDA0003654281670000027
与字特征向量
Figure FDA0003654281670000028
合并,得到增强的字特征向量
Figure FDA0003654281670000029
5.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,使用所述增强的字特征向量,对字符序列中的潜在词语进行表示,并标识词语位置信息和长度,具体为:将字符序列中的潜在词语表示为
Figure FDA00036542816700000210
其中h表示该词开始位置对应字的下标,t表示该词结束位置对应字的下标,L表示该词的长度,因此L=t-h。
6.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,设置融合过滤器F,对各个长度的词语进行筛选和融合,得到相同长度的特征向量
Figure FDA00036542816700000211
同时使用注意力机制,将字符级特征融入所述特征向量
Figure FDA00036542816700000212
进而得到融合字词的特征向量
Figure FDA00036542816700000213
具体为:
首先设定融合过滤器F的窗口大小,对于各个长度的词语,使用softmax函数对其进行筛选和融合,得到相同长度词语的特征向量
Figure FDA00036542816700000214
其中<SL-1[*,m:m+1],FL-1>K为克罗内克积运算;SL-1表示词长度为L-1的序列,[*,m,m+1]表示对每两个相邻的列进行计算,m表示当前的列数,范围为[0,d-1],d为该长度词向量的个数,bL-1表示词长度为L-1的偏移量,上标K是克罗内克积运算符的表示形式;
使用注意力机制,将字符级特征融入所述特征向量
Figure FDA0003654281670000031
得到融合字词的特征向量
Figure FDA0003654281670000032
其中
Figure FDA0003654281670000033
Figure FDA0003654281670000034
为哈达玛积运算;
Figure FDA0003654281670000035
为输入控制向量,
Figure FDA0003654281670000036
为特征控制向量,um为输出控制向量:
其中
Figure FDA0003654281670000037
Figure FDA0003654281670000038
Wi为输入权重矩阵,Wf为特征权重矩阵,bi为输入偏移补偿量,bf为特征偏移补偿量,Ui为输入注意力权重矩阵,Uf为特征注意力权重矩阵。
Figure FDA0003654281670000039
表示长度为L-1的潜在词语。
7.根据权利要求1所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,改进的Transformer法律文书实体抽取模型包括一个编码器层、一个解码器层和一个注意力层;
将融合字词的特征向量
Figure FDA00036542816700000310
输入到编码器层,所述编码器层包括浅层的预训练CNN网络和两层Bi-LSTM神经网络,在CNN网络的输出与最后一层Bi-LSTM神经网络的输出之间建立一个残差连接,得到编码器层的输出特征向量
Figure FDA00036542816700000311
其中CNN网络用于提取融合字词向量的基本特征,Bi-LSTM网络用于提取融合字词向量的上下文信息;
在解码器层,将预定义的标签序列进行向量化嵌入处理,再经过两层LSTM神经网络进行信息提取,得到解码器层的输出特征向量
Figure FDA00036542816700000312
然后将编码器层与解码器层的输出特征向量进行维度拼接,再加上其位置编码的计算值pn,共同作为注意力层的输入
Figure FDA00036542816700000313
其中
Figure FDA00036542816700000314
Figure FDA00036542816700000315
在注意力层,使用残差注意力机制学习权重分布系数,加强对关键字词的关注,捕获输入文本的序列特征
Figure FDA0003654281670000041
同时采用并行计算方式,缩短模型训练时间;所述注意力层输出特征信息向量
Figure FDA0003654281670000042
8.根据权利要求2所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,对于新增的法律文书,在输入到改进的Transformer法律文书实体抽取模型后,抽取出其中新出现的词
Figure FDA0003654281670000043
作为幻象空间模型PSM的输入,得到对应的预测特征序列
Figure FDA0003654281670000044
具体为:
与词汇表进行对照,筛选出法律文书句子中出现的新词
Figure FDA0003654281670000045
并将所述新词作为幻象空间模型PSM的输入;
在幻象空间模型PSM中获取新词含义,从相近的词库
Figure FDA0003654281670000046
中,选择包含最有意义的信息
Figure FDA0003654281670000047
作为新词
Figure FDA0003654281670000048
的近似替代;
将新增法律文书句子拆分为字的集合
Figure FDA0003654281670000049
并根据新词所包含的代表信息
Figure FDA00036542816700000410
得到新词的嵌入向量
Figure FDA00036542816700000411
Figure FDA00036542816700000412
作为幻象空间模型PSM的输出;
所述新词的嵌入向量
Figure FDA00036542816700000413
输入至改进的Transformer法律文书实体抽取模型,所述改进的Transformer法律文书实体抽取模型输出的结果即为新词对应的预测特征序列
Figure FDA00036542816700000414
9.根据权利要求8所述基于增强序列特征的中文法律文书命名实体识别方法,其特征在于,将所述实体特征序列
Figure FDA00036542816700000415
和新增的预测特征序列
Figure FDA00036542816700000416
共同输入到条件随机场层CRF,输出预测的标签结果,具体为:
对实体特征序列
Figure FDA00036542816700000417
和新增的预测特征序列
Figure FDA00036542816700000418
进行克罗内克积运算,得到融合的特征序列Mn
将融合的特征序列Mn输入至条件随机场层CRF进行标签分类,生成最优的标注序列Predict_label=[tag1,tag2,...,tagn-1,tagn]。
CN202210549703.4A 2022-05-20 2022-05-20 基于增强序列特征的中文法律文书命名实体识别方法 Pending CN114912453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210549703.4A CN114912453A (zh) 2022-05-20 2022-05-20 基于增强序列特征的中文法律文书命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210549703.4A CN114912453A (zh) 2022-05-20 2022-05-20 基于增强序列特征的中文法律文书命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114912453A true CN114912453A (zh) 2022-08-16

Family

ID=82768455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210549703.4A Pending CN114912453A (zh) 2022-05-20 2022-05-20 基于增强序列特征的中文法律文书命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114912453A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN116521870A (zh) * 2023-04-28 2023-08-01 重庆邮电大学 一种基于大数据的法律文书要素智能识别方法
CN116756596A (zh) * 2023-08-17 2023-09-15 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115688777B (zh) * 2022-09-28 2023-05-05 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN116521870A (zh) * 2023-04-28 2023-08-01 重庆邮电大学 一种基于大数据的法律文书要素智能识别方法
CN116756596A (zh) * 2023-08-17 2023-09-15 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备
CN116756596B (zh) * 2023-08-17 2023-11-14 智慧眼科技股份有限公司 文本聚类模型训练方法、文本聚类方法、装置及相关设备

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN111814477B (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
KR20190065665A (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN113268576A (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112989830B (zh) 一种基于多元特征和机器学习的命名实体识别方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN112347247A (zh) 基于LDA和Bert的特定类别文本标题二分类方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination