CN113312918A - 融合部首向量的分词和胶囊网络法律命名实体识别方法 - Google Patents
融合部首向量的分词和胶囊网络法律命名实体识别方法 Download PDFInfo
- Publication number
- CN113312918A CN113312918A CN202110647232.6A CN202110647232A CN113312918A CN 113312918 A CN113312918 A CN 113312918A CN 202110647232 A CN202110647232 A CN 202110647232A CN 113312918 A CN113312918 A CN 113312918A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- sentence
- vectors
- capsule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 94
- 239000002775 capsule Substances 0.000 title claims abstract description 61
- 230000011218 segmentation Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000001125 extrusion Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,具体包括以下步骤:S1:分词;S2:构建法律数据集;S3:提取句间特征;S4:提取句子内部特征H;S5:将语料句子内部特征和句间特征联合表示。通过本发明的技术方案,提升词向量的表征能力,使特征提取阶段不需要繁杂的网络,结构就能得到丰富的上下文信息,提升了小规模领域标注数据集上的分词效果,帮助NER任务进行数据预处理,找到准确的实体边界,增强模型在法律领域的适应性,能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用,帮助提取文本中的关键信息。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,特别涉及一种融合部首向量的分词和胶囊网络法律命名实体识别方法。
背景技术
对于中文NER任务,主要面临以下几个问题:(1)实体边界问题,评判一个实体是否被正确识别的一个方面就是实体边界是否正确。影响实体边界识别的原因是中文与英文不同,中文序列中没有明显的标志词和空格来区分词边界,比如英文实体可以根据首字母是否大写进行判断,NER任务的第一步就是确定词的边界,按照一定的规则切分成一个个的词。汉语分词与NER任务互相影响,分词准确率很大程度上影响命名实体识别的准确率。(2)实体类型问题,评判实体是否被识别正确的第二个方面为实体类型是否分类正确,在深度学习NER方法中,需要通过对上下文进行特征提取,计算特征判断实体类别。另外NER与其他任务相比,训练语料较少导致通用的识别多种类型的NER模型性能较差。对于领域NER来说,训练语料规模的局限性也同样导致实验效果不优。
针对以上问题,本发明同时构建分词模型和法律领域NER模型。首先为了对实体边界进行更精确的识别,在数据处理阶段,本发明使用预训练语言模型与汉字偏旁部首融合构建分词模型R-ALBERT。通过R-ALBERT分词模型将文本数据分词后,对语料进行标注。将预处理后的语料通过BERT获取词向量和句向量。然后通过BILSTM提取句子内部特征,通过胶囊网络提取句子间文本特征,最后通过SoftMax对命名实体类别进行预测。具体来说,本发明主要是利用了部首信息提升词向量的表征能力,重构ALBERT的输入向量,使模型能够在小规模数据集上提取丰富特征,提高分词模型在领域分词的效果。然后通过BILSTM提取句子内部文本特征,使模型能够获得词与词之间的语义关系等特征,融合胶囊网络提取的句子间特征实现法律领域命名实体识别,提高领域中命名实体识别的准确度。
发明内容
为了弥补现有技术的不足,本发明提供了一种融合部首向量的分词和胶囊网络法律命名实体识别方法。
本发明是通过如下技术方案实现的:一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。
作为优选方案,步骤S1中,具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
作为优选方案,步骤S2中,还包括检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
作为优选方案,步骤S3中,具体包括以下步骤:
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)~(8),
卷积胶囊层得到的特征为,通过权重共享矩阵变换后得到投票向量表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数,从而计算对应于每个命名实体类别j的的加权和;最后通过非线性挤压函数作为激活函数得到对实体的向量,以用于下一次迭代。
作为优选方案,步骤S4中,具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
其中和分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的、表示正向和反向输入数据的权重参数,表示上一时刻正向和反向的隐藏层输出的权重参数,、表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量。
作为优选方案,步骤S5中,具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):
其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。
本发明由于采用了以上技术方案,与现有技术相比使其具有以下有益效果:本发明的R-ALBERT分词模型将汉字部首信息作为预训练语言模型输入的一部分,与原始模型的词向量、段向量、位置向量融合后进行词向量训练,能够提升词向量的表征能力,能够使文本在表征层面就具有丰富的文本上下文、词义、语义以及句子间等信息,在特征提取阶段不需要繁杂的网络,结构就能得到丰富的上下文信息,提升了小规模领域标注数据集上的分词效果,帮助NER任务进行数据预处理,找到准确的实体边界。在命名实体识别任务中,本发明融合BERT句向量和词向量,结合胶囊网络提取文本特征,将文本数据中,句子间和句子内词与词之间的关联和特征进行提取和融合,增强模型在法律领域的适应性,能够在具有特殊实体表示形式和构词方法的法律领域实现精度较高的命名实体识别结果。法律领域的命名实体识别可以在智能司法中起到重要的帮助作用,帮助提取文本中的关键信息。并且作为信息提取的子任务,命名实体识别的效果提升能够对智能司法的关系抽取、知识图谱构建等任务有直接帮助。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为R- ALBERT分词训练过程;
图2为命名实体识别模型结构;
图3为胶囊网络。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图3对本发明的实施例的融合部首向量的分词和胶囊网络法律命名实体识别方法进行具体说明。
如图1至图3所示,本发明提出了一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,本发明中的R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;具体包括以下步骤:由于法律语料中句子与句子之间存在着较强的逻辑关系和语义联系,句子与句子之间的特征提取有助于得到精确的实体标注结果。在此步骤中,
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,目的是将有用的特征传递到卷积胶囊层,卷积胶囊层得到的特征包含了更深层次特征。动态路由计算过程如公式(5)~(8),
卷积胶囊层得到的特征为,通过权重共享矩阵变换后得到投票向量表示第i个胶囊与第j个实体的对应关系,然后经过SoftMax函数为每个投票向量分配一个权重系数,从而计算对应于每个命名实体类别j的的加权和;最后通过非线性挤压函数作为激活函数得到对实体的向量,以用于下一次迭代。
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
其中和分别表示正向LSTM和反向LSTM提取的特征,H为隐藏层计算,公式(9)、(10)中的、表示正向和反向输入数据的权重参数,表示上一时刻正向和反向的隐藏层输出的权重参数,、表示正向LSTM层和反向LSTM层的偏置,由公式(9)(10)得到正向和反向文本特征之后,通过公式(11)的concat拼接得到最终特征向量。
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。具体包括以下步骤:通过胶囊网络和BILSTM网络特征提取后会得到句子间文本特征H和句子内部特征E,将两种层级的特征通过拼接得到特征提取层的最终文本特征,通过SoftMax对序列进行计算,得到实体识别中每一个字符对应的标签概率,选取概率最大的标签作为字符最终的标签,得到实体识别结果,计算过程如公式(12)~(13):
其中X表示融合句子间特征和句子内部特征的特征序列,w为线性变换参数,最后通过argmax得到最大概率的标签序列Y,完成实体识别。
在本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于, 具体包括以下步骤:
S1:分词;利用字根向量R与ALBERT的位置向量、段向量、词嵌入融合,通过卷积神经网络序列标注得到法律数据集语料分词结果;
S2:构建法律数据集;通过R-ALBERT分词模型得到语料分词结果,对预料进行四词位标注;
S3:提取句间特征;将分词后的训练语料利用BERT语言模型得到句向量和词向量,通过胶囊网络对句子向量表示的文本数据进行计算,提取句子间特征E;
S4:提取句子内部特征H;将BERT的词向量表示的文本向量通过BILSTM神经网络提取句子内部特征H;
S5:将语料句子内部特征和句间特征联合表示;通过得到的文本特征进行序列标注得到实体识别结果。
2.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S1中,具体包括以下步骤:
S1-1:特征表示;在ALBERT训练词向量的过程中,模型将文本数据处理成词向量、位置向量和段向量相加的模式,R-ALBERT分词模型中,除了原始的三种向量之外,加入字符的偏旁部首向量R,汉字的偏旁部首承载着一个汉字的形体特征和引申词义,与其他向量融合能够丰富词向量的表征内容;
S1-2:特征提取;特征提取阶段使用卷积神经网络提取文本局部特征,获得相邻词语互相之间的关联信息;计算过程如公式(1),
S1-3:标签推理;将提取到的特征线性变换后,通过SoftMax计算每一个标签对于字符的概率,取最大概率标签标记字符,实现分词;字符标签包括{B,M,E,S},其中B表示一个词的开始字符,M表示词的中间字符,E表示结尾字符,S表示单字成词;标签推理过程如公式(2)~(4),
3.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S2中,还包括检查利用R-ALBERT分词模型分词之后的语料,将错误部分进行纠正,对专有名词进行重新标注。
4.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S3中,具体包括以下步骤:
S3-1:将训练语料通过BERT得到句向量,将句向量作为胶囊网络的输入,利用能够提取空间特征的胶囊网络来提取文本的句子间特征;
S3-2:在胶囊网络中,首先经过卷积层对文本特征计算得到初级胶囊层中的胶囊;然后对文本进行n次卷积操作,将n次卷积提取到的特征组合,得到初级胶囊层中的特征;再对胶囊进行卷积得到胶囊卷积层中更深层次的特征,初级胶囊层和胶囊卷积层之间通过动态路由的方式进行迭代优化,动态路由计算过程如公式(5)~(8),
5.根据权利要求1所述的一种融合部首向量的分词和胶囊网络法律命名实体识别方法,其特征在于,所述步骤S4中,具体包括以下步骤:利用BILSTM网络对词向量表示的文本进行特征提取,以得到文本句子内部的上下文特征;BILSTM计算过程如公式(9)~(11),
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647232.6A CN113312918B (zh) | 2021-06-10 | 2021-06-10 | 融合部首向量的分词和胶囊网络法律命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647232.6A CN113312918B (zh) | 2021-06-10 | 2021-06-10 | 融合部首向量的分词和胶囊网络法律命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312918A true CN113312918A (zh) | 2021-08-27 |
CN113312918B CN113312918B (zh) | 2022-05-17 |
Family
ID=77377995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647232.6A Active CN113312918B (zh) | 2021-06-10 | 2021-06-10 | 融合部首向量的分词和胶囊网络法律命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312918B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112464663A (zh) * | 2020-12-01 | 2021-03-09 | 小牛思拓(北京)科技有限公司 | 一种多特征融合的中文分词方法 |
CN112800764A (zh) * | 2020-12-31 | 2021-05-14 | 江苏网进科技股份有限公司 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
-
2021
- 2021-06-10 CN CN202110647232.6A patent/CN113312918B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN112270193A (zh) * | 2020-11-02 | 2021-01-26 | 重庆邮电大学 | 基于bert-flat的中文命名实体识别方法 |
CN112464663A (zh) * | 2020-12-01 | 2021-03-09 | 小牛思拓(北京)科技有限公司 | 一种多特征融合的中文分词方法 |
CN112800764A (zh) * | 2020-12-31 | 2021-05-14 | 江苏网进科技股份有限公司 | 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN113889281B (zh) * | 2021-11-17 | 2024-05-03 | 华美浩联医疗科技(北京)有限公司 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113312918B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN115017358B (zh) | 一种多模态交互的跨模态检索方法及系统 | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN112766507B (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN118332138B (zh) | 一种航行通告文本处理方法、计算机程序产品及终端 | |
Schaback et al. | Multi-level feature extraction for spelling correction | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN114064269A (zh) | 一种地址匹配方法、装置及终端设备 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN111767402B (zh) | 一种基于对抗学习的限定域事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |