CN113312918A - 融合部首向量的分词和胶囊网络法律命名实体识别方法 - Google Patents

融合部首向量的分词和胶囊网络法律命名实体识别方法 Download PDF

Info

Publication number
CN113312918A
CN113312918A CN202110647232.6A CN202110647232A CN113312918A CN 113312918 A CN113312918 A CN 113312918A CN 202110647232 A CN202110647232 A CN 202110647232A CN 113312918 A CN113312918 A CN 113312918A
Authority
CN
China
Prior art keywords
text
word
sentence
vectors
capsule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110647232.6A
Other languages
English (en)
Other versions
CN113312918B (zh
Inventor
王星
蹇木伟
陈吉
于丽美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi University
Shandong University of Finance and Economics
Original Assignee
Linyi University
Shandong University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linyi University, Shandong University of Finance and Economics filed Critical Linyi University
Priority to CN202110647232.6A priority Critical patent/CN113312918B/zh
Publication of CN113312918A publication Critical patent/CN113312918A/zh
Application granted granted Critical
Publication of CN113312918B publication Critical patent/CN113312918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,具体包括以下步骤:S1:分词;S2:构建法律数据集;S3:提取句间特征;S4:提取句子内部特征H;S5:将语料句子内部特征和句间特征联合表示。通过本发明的技术方案,提升词向量的表征能力,使特征提取阶段不需要繁杂的网络,结构就能得到丰富的上下文信息,提升了小规模领域标注数据集上的分词效果,帮助NER任务进行数据预处理,找到准确的实体边界,增强模型在法律领域的适应性,能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用,帮助提取文本中的关键信息。

Description

融合部首向量的分词和胶囊网络法律命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,具体而言,特别涉及一种融合部首向量的分词和胶囊网络法律命名实体识别方法。
背景技术
对于中文NER任务,主要面临以下几个问题:(1)实体边界问题,评判一个实体是否被正确识别的一个方面就是实体边界是否正确。影响实体边界识别的原因是中文与英文不同,中文序列中没有明显的标志词和空格来区分词边界,比如英文实体可以根据首字母是否大写进行判断,NER任务的第一步就是确定词的边界,按照一定的规则切分成一个个的词。汉语分词与NER任务互相影响,分词准确率很大程度上影响命名实体识别的准确率。(2)实体类型问题,评判实体是否被识别正确的第二个方面为实体类型是否分类正确,在深度学习NER方法中,需要通过对上下文进行特征提取,计算特征判断实体类别。另外NER与其他任务相比,训练语料较少导致通用的识别多种类型的NER模型性能较差。对于领域NER来说,训练语料规模的局限性也同样导致实验效果不优。
针对以上问题,本发明同时构建分词模型和法律领域NER模型。首先为了对实体边界进行更精确的识别,在数据处理阶段,本发明使用预训练语言模型与汉字偏旁部首融合构建分词模型R-ALBERT。通过R-ALBERT分词模型将文本数据分词后,对语料进行标注。将预处理后的语料通过BERT获取词向量和句向量。然后通过BILSTM提取句子内部特征,通过胶囊网络提取句子间文本特征,最后通过SoftMax对命名实体类别进行预测。具体来说,本发明主要是利用了部首信息提升词向量的表征能力,重构ALBERT的输入向量,使模型能够在小规模数据集上提取丰富特征,提高分词模型在领域分词的效果。然后通过BILSTM提取句子内部文本特征,使模型能够获得词与词之间的语义关系等特征,融合胶囊网络提取的句子间特征实现法律领域命名实体识别,提高领域中命名实体识别的准确度。
发明内容
为了弥补现有技术的不足,本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法。
本发明是通过如下技术方案实现的:一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。
作为优选方案,步骤S1中,具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
Figure 777616DEST_PATH_IMAGE002
(1)
其中
Figure DEST_PATH_IMAGE003
表示卷积之后的文本特征,
Figure 819522DEST_PATH_IMAGE004
为卷积核,
Figure DEST_PATH_IMAGE005
表示文本序列,b为偏置;
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
Figure DEST_PATH_IMAGE007
(2)
Figure 100002_DEST_PATH_IMAGE009
(3)
Figure DEST_PATH_IMAGE011
(4)
其中,
Figure 116642DEST_PATH_IMAGE012
表示文本特征线性变换后的结果,之后作为条件概率的输入得到条件概率
Figure 100002_DEST_PATH_IMAGE013
,条件概率中X为文本序列,y为标签序列;T表示文本序列中的字符个数;最后通过公式(4)得到最大标签概率。
作为优选方案,步骤S2中,还包括检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
作为优选方案,步骤S3中,具体包括以下步骤:
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)~(8),
Figure 100002_DEST_PATH_IMAGE015
(5)
Figure DEST_PATH_IMAGE017
(6)
Figure DEST_PATH_IMAGE019
(7)
Figure DEST_PATH_IMAGE021
(8)
卷积胶囊层得到的特征为
Figure 320221DEST_PATH_IMAGE022
,通过权重共享矩阵
Figure DEST_PATH_IMAGE023
变换后得到投票向量
Figure 654689DEST_PATH_IMAGE024
表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数
Figure DEST_PATH_IMAGE025
,从而计算对应于每个命名实体类别j的
Figure 297023DEST_PATH_IMAGE024
的加权和
Figure 510966DEST_PATH_IMAGE026
;最后通过非线性挤压函数作为激活函数得到对实体的向量
Figure DEST_PATH_IMAGE027
,以用于下一次迭代。
作为优选方案,步骤S4中,具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
Figure DEST_PATH_IMAGE029
(9)
Figure DEST_PATH_IMAGE031
(10)
Figure DEST_PATH_IMAGE033
(11)
其中
Figure 885447DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的
Figure 450421DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
表示正向和反向输入数据
Figure 896446DEST_PATH_IMAGE038
的权重参数,
Figure DEST_PATH_IMAGE039
表示上一时刻正向和反向的隐藏层输出的权重参数,
Figure 230475DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量
Figure 838174DEST_PATH_IMAGE042
作为优选方案,步骤S5中,具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):
Figure 624864DEST_PATH_IMAGE044
(12)
Figure 343421DEST_PATH_IMAGE046
(13)
其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。
本发明由于采用了以上技术方案,与现有技术相比使其具有以下有益效果:本发明的R-ALBERT分词模型将汉字部首信息作为预训练语言模型输入的一部分,与原始模型的词向量、段向量、位置向量融合后进行词向量训练,能够提升词向量的表征能力,能够使文本在表征层面就具有丰富的文本上下文、词义、语义以及句子间等信息,在特征提取阶段不需要繁杂的网络,结构就能得到丰富的上下文信息,提升了小规模领域标注数据集上的分词效果,帮助NER任务进行数据预处理,找到准确的实体边界。在命名实体识别任务中,本发明融合BERT句向量和词向量,结合胶囊网络提取文本特征,将文本数据中,句子间和句子内词与词之间的关联和特征进行提取和融合,增强模型在法律领域的适应性,能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用,帮助提取文本中的关键信息。并且作为信息提取的子任务,命名实体识别的效果提升能够对智能司法的关系抽取、知识图谱构建等任务有直接帮助。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为R- ALBERT分词训练过程;
图2为命名实体识别模型结构;
图3为胶囊网络。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图3对本发明的实施例的融合部首向量的分词和胶囊网络法律命名实体识别方法进行具体说明。
如图1至图3所示,本发明提出了一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,本发明中的R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
Figure 594274DEST_PATH_IMAGE002
(1)
其中
Figure 107295DEST_PATH_IMAGE003
表示卷积之后的文本特征,
Figure 443599DEST_PATH_IMAGE004
为卷积核,
Figure 700268DEST_PATH_IMAGE005
表示文本序列,b为偏置;
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
Figure 805627DEST_PATH_IMAGE007
(2)
Figure 489549DEST_PATH_IMAGE009
(3)
Figure 47569DEST_PATH_IMAGE011
(4)
其中,
Figure 107929DEST_PATH_IMAGE012
表示文本特征线性变换后的结果,之后作为条件概率的输入得到条件概率
Figure 67795DEST_PATH_IMAGE013
,条件概率中X为文本序列,y为标签序列;T表示文本序列中的字符个数;最后通过公式(4)得到最大标签概率。
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;具体包括以下步骤:由于法律语料中句子与句子之间存在着较强的逻辑关系和语义联系,句子与句子之间的特征提取有助于得到精确的实体标注结果。在此步骤中,
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,目的是将有用的特征传递到卷积胶囊层,卷积胶囊层得到的特征包含了更深层次特征。动态路由计算过程如公式(5)~(8),
Figure 185268DEST_PATH_IMAGE015
(5)
Figure 433847DEST_PATH_IMAGE017
(6)
Figure 94635DEST_PATH_IMAGE019
(7)
Figure 846691DEST_PATH_IMAGE021
(8)
卷积胶囊层得到的特征为
Figure 403574DEST_PATH_IMAGE022
,通过权重共享矩阵
Figure 936186DEST_PATH_IMAGE023
变换后得到投票向量
Figure 338349DEST_PATH_IMAGE024
表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数
Figure 7228DEST_PATH_IMAGE025
,从而计算对应于每个命名实体类别j的
Figure 469433DEST_PATH_IMAGE024
的加权和
Figure 489342DEST_PATH_IMAGE026
;最后通过非线性挤压函数作为激活函数得到对实体的向量
Figure 429616DEST_PATH_IMAGE027
,以用于下一次迭代。
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
Figure 421843DEST_PATH_IMAGE029
(9)
Figure 117266DEST_PATH_IMAGE031
(10)
Figure 296575DEST_PATH_IMAGE033
(11)
其中
Figure 102857DEST_PATH_IMAGE034
Figure 949590DEST_PATH_IMAGE035
分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的
Figure 550336DEST_PATH_IMAGE036
Figure 482519DEST_PATH_IMAGE037
表示正向和反向输入数据
Figure 30175DEST_PATH_IMAGE038
的权重参数,
Figure 793732DEST_PATH_IMAGE039
表示上一时刻正向和反向的隐藏层输出的权重参数,
Figure 503062DEST_PATH_IMAGE040
Figure 984859DEST_PATH_IMAGE041
表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量
Figure 70627DEST_PATH_IMAGE042
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):
Figure 891952DEST_PATH_IMAGE044
(12)
Figure 100080DEST_PATH_IMAGE046
(13)
其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。
2.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S1中,具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
Figure DEST_PATH_IMAGE001
(1)
其中
Figure DEST_PATH_IMAGE002
表示卷积之后的文本特征,
Figure 492474DEST_PATH_IMAGE003
为卷积核,
Figure DEST_PATH_IMAGE004
表示文本序列,b为偏置;
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
Figure 612877DEST_PATH_IMAGE005
(2)
Figure DEST_PATH_IMAGE006
(3)
Figure 923772DEST_PATH_IMAGE007
(4)
其中,
Figure DEST_PATH_IMAGE008
表示文本特征线性变换后的结果,之后作为条件概率的输入得到条件概率
Figure DEST_PATH_IMAGE009
,条件概率中X为文本序列,y为标签序列;T表示文本序列中的字符个数;最后通过公式(4)得到最大标签概率。
3.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S2中,还包括检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
4.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S3中,具体包括以下步骤:
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)~(8),
Figure DEST_PATH_IMAGE010
(5)
Figure 988156DEST_PATH_IMAGE011
(6)
Figure DEST_PATH_IMAGE012
(7)
Figure DEST_PATH_IMAGE013
(8)
卷积胶囊层得到的特征为
Figure DEST_PATH_IMAGE014
,通过权重共享矩阵
Figure DEST_PATH_IMAGE015
变换后得到投票向量
Figure DEST_PATH_IMAGE016
表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数
Figure 943473DEST_PATH_IMAGE017
,从而计算对应于每个命名实体类别j的的加权和
Figure DEST_PATH_IMAGE018
;最后通过非线性挤压函数作为激活函数得到对实体的向量
Figure 906881DEST_PATH_IMAGE019
,以用于下一次迭代。
5.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S4中,具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
Figure DEST_PATH_IMAGE020
(9)
Figure 705073DEST_PATH_IMAGE021
(10)
Figure DEST_PATH_IMAGE022
(11)
其中
Figure 107235DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的
Figure 182639DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
表示正向和反向输入数据
Figure 707161DEST_PATH_IMAGE027
的权重参数,
Figure DEST_PATH_IMAGE028
表示上一时刻正向和反向的隐藏层输出的权重参数,
Figure 868015DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量
Figure 870606DEST_PATH_IMAGE031
6.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S5中,具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):
Figure DEST_PATH_IMAGE032
(12)
Figure 800516DEST_PATH_IMAGE033
(13)
其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。
CN202110647232.6A 2021-06-10 2021-06-10 融合部首向量的分词和胶囊网络法律命名实体识别方法 Active CN113312918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647232.6A CN113312918B (zh) 2021-06-10 2021-06-10 融合部首向量的分词和胶囊网络法律命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647232.6A CN113312918B (zh) 2021-06-10 2021-06-10 融合部首向量的分词和胶囊网络法律命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113312918A true CN113312918A (zh) 2021-08-27
CN113312918B CN113312918B (zh) 2022-05-17

Family

ID=77377995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647232.6A Active CN113312918B (zh) 2021-06-10 2021-06-10 融合部首向量的分词和胶囊网络法律命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113312918B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113889281A (zh) * 2021-11-17 2022-01-04 重庆邮电大学 一种中文医疗智能实体识别方法、装置及计算机设备
CN113935459A (zh) * 2021-09-23 2022-01-14 广西师范大学 一种基于bert的深度神经网络模型的自动评卷方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109299262A (zh) * 2018-10-09 2019-02-01 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN112270193A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 基于bert-flat的中文命名实体识别方法
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法
CN112800764A (zh) * 2020-12-31 2021-05-14 江苏网进科技股份有限公司 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935459A (zh) * 2021-09-23 2022-01-14 广西师范大学 一种基于bert的深度神经网络模型的自动评卷方法
CN113889281A (zh) * 2021-11-17 2022-01-04 重庆邮电大学 一种中文医疗智能实体识别方法、装置及计算机设备
CN113889281B (zh) * 2021-11-17 2024-05-03 华美浩联医疗科技(北京)有限公司 一种中文医疗智能实体识别方法、装置及计算机设备

Also Published As

Publication number Publication date
CN113312918B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
CN108897989B (zh) 一种基于候选事件元素注意力机制的生物事件抽取方法
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112115238A (zh) 一种基于bert和知识库的问答方法和系统
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN115017358B (zh) 一种多模态交互的跨模态检索方法及系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115455189A (zh) 基于提示学习的政策文本分类方法
Schaback et al. Multi-level feature extraction for spelling correction
Tarride et al. A comparative study of information extraction strategies using an attention-based neural network
Oka et al. Fully automated short answer scoring of the trial tests for common entrance examinations for Japanese university
CN114048314A (zh) 一种自然语言隐写分析方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN114064269A (zh) 一种地址匹配方法、装置及终端设备
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant