CN113743118A - 基于融合关系信息编码的法律文书中的实体关系抽取方法 - Google Patents
基于融合关系信息编码的法律文书中的实体关系抽取方法 Download PDFInfo
- Publication number
- CN113743118A CN113743118A CN202110828204.4A CN202110828204A CN113743118A CN 113743118 A CN113743118 A CN 113743118A CN 202110828204 A CN202110828204 A CN 202110828204A CN 113743118 A CN113743118 A CN 113743118A
- Authority
- CN
- China
- Prior art keywords
- relationship
- relation
- entity
- code
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 title claims description 27
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 11
- 238000005314 correlation function Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 229940079593 drug Drugs 0.000 description 16
- 239000003814 drug Substances 0.000 description 16
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 15
- 229960002069 diamorphine Drugs 0.000 description 15
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241000700605 Viruses Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于融合关系信息编码的法律文书中的实体关系抽取方法,包括以下步骤:S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;S2、使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;S3、将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;S4、使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;S5、通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于融合关系信息编码的法律文书中的实体关系抽取方法。
背景技术
在法律行业,检察机关、律师、法官等从事司法相关行业工作人员在工作时往往需要翻阅大量相关的案件文书。自然语言处理领域中的实体关系抽取技术可以帮助司法人员快速获取文书原告、被告以及执法机关等实体之间的关系。对于法律文书而言,关系抽取的主要任务就是提取出被告人、警方、被害人等法律实体和它们之间的关联(这里的关联是事先定义的关系),并以此构建类似于(subject,relation,object)的三元组(其中,subject代表主实体, relation代表关系,object代表客实体)。以往的实体关系抽取主要使用流水现方法,分为两步:①命名实体识别(Named Entity Recognition,NER);②关系分类(Relation Classification,RC)。即根据命名实体识别结果对其进行关系分类。命名实体识别的目标是识别出文本中的人名、机构名、地名等命名实体。关系分类是一个多分类问题,首先需要预先对关系类型进行定义;然后再对已识别的实体进行两两配对;最后判断实体对的所属关系。流水线方法存在以下缺点:一是错误的传递问题,识别错误的实体会对之后的关系分类器的性能造成极大的干扰;二是忽略了命名实体识别和关系分类之间的内在联系,只是机械地对命名实体识别的结果进行分类,没有考虑到实体在句子中的语义。这样的抽取方法抽取效率低下,且难以识别如图1所示重叠实体关系。
发明内容
本发明的目的是提供一种可以识别出重叠的实体关系的基于融合关系信息编码的法律文书中的实体关系抽取方法。
本发明所采用的技术方案是:
提供一种基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,包括以下步骤:
S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
S2、使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
S3、将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
S4、使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
S5、通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
接上述技术方案,联合标注法具体对每个关系都进行标注,其中1、2分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。
接上述技术方案,权值法具体先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度;然后将计算后得到的相关度向量输入softmax函数,计算得到原始文本编码中各个词的权值;最后将各词的原始编码与对应的权值相乘,得到最终的融合信息编码。
接上述技术方案,神经网络模型LSTM中仅包含一个LSTM解码器。
接上述技术方案,多通道卷积神经网络的通道数为目标关系表中关系类别的个数。
本发明还提供了一种基于融合关系信息编码的法律文书中的实体关系抽取系统,包括:
标注模块,用于根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
原始文本编码模块,用于使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
关系信息编码模块,用于将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
融合信息编码模块,用于使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
识别模块,用于通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
接上述技术方案,标注模块具体采用联合标注法对每个关系都进行标注,其中1、2分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。
接上述技术方案,融合信息编码模块具体采用权值法,先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度;然后将计算后得到的相关度向量输入softmax函数,计算得到原始文本编码中各个词的权值;最后将各词的原始编码与对应的权值相乘,得到最终的融合信息编码。
接上述技术方案,神经网络模型LSTM中仅包含一个LSTM解码器。
本发明还提供了一种计算机存储介质,其内存储可被处理器执行的计算机程序,该计算机程序具体执行上述技术方案所述的基于融合关系信息编码的法律文书中的实体关系抽取方法。
本发明产生的有益效果是:本发明通过引入联合标记的方法,对训练数据进行处理,优化了模型识别重叠实体的能力。通过引入融合关系信息的向量编码信息,在原有的文本特征上,增加了关系的信息,有利于模型准确率的提高。通过对编码方式的改进,在解码之前先获得了文本原有的信息,使得输入解码器的编码根据不同的关系进行改变,就可以让各关系所对应的不同编码共享同一个解码器,以此大大缩短了模型训练所需要的时间。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是实体关系重叠事例;
图2是本发明基于融合关系信息编码的法律文书中的实体关系抽取方法的流程示意图一;
图3是本发明实施例涉毒类的法律文书中预先定义的目标关系表;
图4是本发明实施例联合标注法过程示意图;
图5是本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取流程示意图二;
图6是本发明实施例拼接融合的示意图;
图7是本发明实施例获取关系信息的模块具体结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图2所示,本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取方法主要包括以下步骤:
S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
S2、使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
S3、将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
S4、使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
S5、通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
传统的实体关系抽取方法把实体关系抽取问题视作实体对之间的多分类问题,将离散的关系标签分配给实体对。若s表示主体,o表示客体,r表示关系,分类器需要根据和计算出两者对应的关系标签,计算方法如式(1)所示:
f(s,o)→r (1)
由于大多数的实体对之间不存在关系,所以各类别分布极不平衡,且存在同一实体参与多个关系的重叠现象,分类器的训练难以进行。
本发明提出的联合标注方法在每个关系上都对文本进行了标注,将有利于解决实体关系重叠问题。在解码前先获得文本的关系信息,将其与文本的原始编码融合,使得输入解码器的编码根据不同的关系进行改变,就可以让各关系所对应的不同编码共享同一个解码器。由于编码中带有关系信息,解码器可以识别出目标编码从属于哪个关系,从而对该关系进行针对性解码。
若设g为文本获取关系信息的结构,则分类器可表示为式(2):
f(g(word))→t (2)
其中word代表某个词语的编码,t为该词语所对应的标签。
根据式(2)所述的关系抽取模式,用户可以根据自身需求,建立自身所需要的关系类型表。
以涉毒类的法律文书为例,可简要分为如图3中的11种关系。根据定义的关系,使用联合标注法对每个关系都进行标注。联合标注法中各词语的标签只有0、1和2这三种选择。其中,1、2分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。
如图3所示,实体“王海洋”和“毒品海洛因”包含于关系三元组(王海洋,藏匿,毒品海洛因),实体“毒品海洛因”和“10克”包含于关系三元组 (毒品海洛因,质量,10克),在关系“藏匿”中,“王海洋”的标签为1,“毒品海洛因”的标签为2,在关系“质量”中,“毒品海洛因”的标签为1,“10 克”的标签为2。除此之外的其他词语,均不存在于任何关系中,因此它们的标签全为0。
关系信息的融合让原本不变的文本编码在各关系上具有差异性,使得解码器可以分辨出同一文本在不同关系下的区别。关系信息是针对每个关系进行构建,它的数量应与关系数量相等,为使网络规模不会随着关系数量的增加而过分扩大,使用多通道的卷积神经网络计算文本的关系信息,每一个通道对应一种关系。
步骤3中获取关系信息的模块具体结构如图7所示,由于词向量只带有词语本身的信息,为使文本的编码带有上下文信息,模型采用BERT作为原始编码。将其接入之后的卷积神经网络,可以使得输出的关系信息同时考虑到文本的全局信息和局部信息。经过池化后(经过卷积神经网络CNN处理后,每个关系都对应一个二维的特征向量,这样的特征向量虽然带有较多的关系信息,但是计算也会更加复杂,会加大训练时间。使用池化层可以在保证不丢失关系特征信息的前提下,对上游的特征向量进行降维处理。将每个关系的特征向量从二维变成一维后,当所有关系的向量复合在一起时便形成了一个二维向量,可以直接使用LSTM进行解码。同时,因为降维处理,模型参数也会变少,对后续步骤的计算速度提升也有很大帮助。),各通道输出的向量即为对应的关系信息,将其称作关系信息向量。
得到关系信息后,需要将其与文本的原始编码进行融合,使得进入解码器的输入具有关系信息。在不同的关系中,文本中每个词的重要性都具有差异性。计算每一个词与对应关系向量的相关度,根据相关度大小来计算各词所占的权重,以此来获取关系信息,其中,词与关系向量的相关度可以使用相关度函数来计算。设文本的关系信息向量为rel,文本中第i个词的原始编码为vi,相关度函数可以采用向量点积,如式(3)所以说
f(rel,vi)=relTvi (3)
对于输入的句子S={v1,v2,...,vn},其获取融合编码的具体流程如下:
1)、利用相关度函数计算文本的关系信息编码与原文本的相关度;
e=(f(rel,v1),…,f(rel,vn))
2)、将计算后得到的相关度向量输入softmax函数,计算得到文本中各个词的权值;
α=softmax(e)
3)、将各词的原始编码与对应的权值相乘,得到最终的融合结果。
x=(α1vi,α2vi,…,αnvi)
步骤S5中的解码层可利用LSTM作为解码器,构建一个联合模型。与多解码器联合抽取模型相比,该模型的解码器只使用了一个LSTM解码器,关系信息通过多通道的卷积神经网络获取,通道数为关系类别的个数。经过linear 线性回归处理后,输出的编码为0、1、2的标签序列,其中1代表关系中的主实体,2代表关系中的客实体,0代表该词是非关系实体。对于最终输出的标签序列,在所有关系上各自将对应的实体合并成三元组;如果文本中某关系存在多个实体对,则采用邻近匹配的原则对主客体进行配对。
实施示例:
一、场景描述
输入:被告人王海洋在住所卧室藏匿毒品海洛因5克。
输出:目标文本的标签序列可以组合成关系(王海洋,藏匿,毒品海洛因) 和关系(毒品海洛因,质量,10克)。
二、具体步骤
本发明可以对法律文书中的关系进行快速识别,必要时可以构建相关的法律文书数据库,快速获取具有类似实体关系和案件情节的法律文书,便于司法从业人员查阅。
步骤1:根据自身需要,定义如图3所示的关系列表。图3列举了法律文书毒品领域的常见关系,根据用户的需求可以继续对此关系表进行扩充。
步骤2:根据步骤1生成的关系表,对法律文书进行联合标注工作。如图4所示,联合标注法中各词语的标签只有0、1和2这三种选择。其中,1、2 分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。对于已标注的序列,在所有关系上各自将对应的实体合并成三元组。如果文本中某关系存在多个实体对,则采用邻近匹配的原则对主客体进行配对。如图3所示,实体“王海洋”和“毒品海洛因”包含于关系三元组(王海洋,藏匿,毒品海洛因),实体“毒品海洛因”和“10克”包含于关系三元组(毒品海洛因,质量,10克),在关系“藏匿”中,“王海洋”的标签为1,“毒品海洛因”的标签为2,在关系“质量”中,“毒品海洛因”的标签为1,“10克”的标签为2。除此之外的其他词语,均不存在于任何关系中,因此它们的标签全为0。
步骤3:使用BERT预训练模型对步骤2中经过标注的训练文本进行编码工作,获得其对应的原始文本编码。
步骤4:将步骤3中获得的原始文本编码输入多通道卷积神经网络,获得各个关系所对应的关系信息编码;
步骤5:使用权值法对步骤3中获得的原始文本编码和步骤4中获得的关系信息编码进行融合,得到对应的融合信息编码;
步骤6:将步骤5中的融合信息编码输入解码层经由LSTM单解码器进行解码,与多解码器联合抽取模型相比,该模型的解码器只使用了一个LSTM解码器,关系信息通过多通道的卷积神经网络获取,通道数为关系类别的个数。步骤7:将步骤6中得到的解码序列经过linear线性回归处理后,输出的编码为0、1、2的标签序列,其中1代表关系中的主实体,2代表关系中的客实体, 0代表该词是非关系实体。对于最终输出的标签序列,在所有关系上各自将对应的实体合并成三元组;如果文本中某关系存在多个实体对,则采用邻近匹配的原则对主客体进行配对(临近匹配原则会按照主实体的顺序,优先匹配主实体附近的客实体。按照此原则匹配的实体对准确率要更高。)。由此得到最后的关系抽取结果。
本发明实施例基于融合关系信息编码的法律文书中的实体关系抽取系统,包括:
标注模块,用于根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
原始文本编码模块,用于使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
关系信息编码模块,用于将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
融合信息编码模块,用于使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
识别模块,用于通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
上述实施例的系统主要用于实现基于级联模型和数据增强的法律命名实体识别方法实施例,各个模块的功能参见上文方法实施例,在此不一一赘述。
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于融合关系信息编码的法律文书中的实体关系抽取系统,被处理器执行时实现方法实施例的基于融合关系信息编码的法律文书中的实体关系抽取方法。
综上,本发明的创新之处在于:
1、传统的实体关系抽取方法把实体关系抽取问题视作实体对之间的多分类问题,将离散的关系标签分配给实体对。本发明通过引入联合标记的方法,对训练数据进行处理,优化了模型识别重叠实体的能力。由于大多数的实体对之间不存在关系,所以各类别分布极不平衡,且存在同一实体参与多个关系的重叠现象,分类器的训练难以进行。本文提出的联合抽取的方法在每个关系上进行对应的实体识别工作,能够提高重叠实体关系的识别效率。
2、传统的编码方式往往通过BERT等预训练模型直接进行编码工作,本发明在此基础上引入融合关系信息的向量编码信息。使得我们的编码序列在拥有BERT生成的带有上下文语义的文本特征的基础上上,融入了预先定义的关系信息,有利于模型关系抽取准确率的提高。
3、通过对编码方式的改进,使得其在解码之前预先获得了文本原有的信息。相比传统方法使用多个解码器进行解码,本发明输入解码器的编码根据不同的关系进行解码,就可以让各关系所对应的不同编码共享同一个解码器,大大缩短了模型训练所需要的时间。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,包括以下步骤:
S1、根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
S2、使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
S3、将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
S4、使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
S5、通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
2.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,联合标注法具体对每个关系都进行标注,其中1、2分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。
3.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,权值法具体先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度;然后将计算后得到的相关度向量输入softmax函数,计算得到原始文本编码中各个词的权值;最后将各词的原始编码与对应的权值相乘,得到最终的融合信息编码。
4.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,神经网络模型LSTM中仅包含一个LSTM解码器。
5.根据权利要求1所述的基于融合关系信息编码的法律文书中的实体关系抽取方法,其特征在于,多通道卷积神经网络的通道数为目标关系表中关系类别的个数。
6.一种基于融合关系信息编码的法律文书中的实体关系抽取系统,其特征在于,包括:
标注模块,用于根据预先建立的法律文书中的目标关系表使用联合标记法对训练文本中的主体、客体和非实体进行标注;
原始文本编码模块,用于使用与预训练模型BERT对经过标注的训练文本进行编码,得到原始文本编码;
关系信息编码模块,用于将原始文本编码输入多通道卷积神经网络,获得目标关系表中各个关系类别所对应的关系信息编码;
融合信息编码模块,用于使用权值法对原始文本编码和关系信息编码进行融合,得到融合信息编码;
识别模块,用于通过神经网络模型LSTM对融合信息编码进行解码,得到最后的实体关系识别结果。
7.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统,其特征在于,标注模块具体采用联合标注法对每个关系都进行标注,其中1、2分别对应关系中的主体标签和客体标签,0对应关系中的非实体标签。
8.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统,其特征在于,融合信息编码模块具体采用权值法,先使用向量点积、余弦相似度或者映射矩阵作为相关度函数计算文本的关系信息编码与原始文本编码的相关度;然后将计算后得到的相关度向量输入softmax函数,计算得到原始文本编码中各个词的权值;最后将各词的原始编码与对应的权值相乘,得到最终的融合信息编码。
9.根据权利要求6所述的基于融合关系信息编码的法律文书中的实体关系抽取系统,其特征在于,神经网络模型LSTM中仅包含一个LSTM解码器。
10.一种计算机存储介质,其特征在于,其内存储可被处理器执行的计算机程序,该计算机程序具体执行权利要求1-5中任一项所述的基于融合关系信息编码的法律文书中的实体关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828204.4A CN113743118A (zh) | 2021-07-22 | 2021-07-22 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828204.4A CN113743118A (zh) | 2021-07-22 | 2021-07-22 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743118A true CN113743118A (zh) | 2021-12-03 |
Family
ID=78728884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828204.4A Pending CN113743118A (zh) | 2021-07-22 | 2021-07-22 | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743118A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN110705313A (zh) * | 2019-10-09 | 2020-01-17 | 沈阳航空航天大学 | 一种基于特征抽取和语义增强的文本摘要生成方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN110866098A (zh) * | 2019-10-29 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
CN111046670A (zh) * | 2019-12-09 | 2020-04-21 | 大连理工大学 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN112084331A (zh) * | 2020-08-27 | 2020-12-15 | 清华大学 | 文本处理、模型训练方法、装置、计算机设备和存储介质 |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2021
- 2021-07-22 CN CN202110828204.4A patent/CN113743118A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
WO2021000362A1 (zh) * | 2019-07-04 | 2021-01-07 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110705313A (zh) * | 2019-10-09 | 2020-01-17 | 沈阳航空航天大学 | 一种基于特征抽取和语义增强的文本摘要生成方法 |
CN110866098A (zh) * | 2019-10-29 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
CN111046670A (zh) * | 2019-12-09 | 2020-04-21 | 大连理工大学 | 基于毒品案件法律文书的实体及关系联合抽取方法 |
CN111241209A (zh) * | 2020-01-03 | 2020-06-05 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN112084331A (zh) * | 2020-08-27 | 2020-12-15 | 清华大学 | 文本处理、模型训练方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, pages 20 - 32 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580424A (zh) * | 2022-04-24 | 2022-06-03 | 之江实验室 | 一种用于法律文书的命名实体识别的标注方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
US9218364B1 (en) | Monitoring an any-image labeling engine | |
US9037600B1 (en) | Any-image labeling engine | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN109598586A (zh) | 一种基于注意力模型的推荐方法 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN110928961A (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN115983271A (zh) | 命名实体的识别方法和命名实体识别模型的训练方法 | |
CN116523583A (zh) | 电子商务数据分析系统及其方法 | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN116304120A (zh) | 多媒体检索方法、装置、计算设备和存储介质 | |
Lu et al. | Domain-aware se network for sketch-based image retrieval with multiplicative euclidean margin softmax | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN113743118A (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN113326701A (zh) | 嵌套实体识别方法、装置、计算机设备及存储介质 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN117251622A (zh) | 对象推荐的方法、装置、计算机设备和存储介质 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
CN116127087A (zh) | 一种知识图谱构建方法、装置、电子设备及存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN112270189B (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN112925983A (zh) | 一种电网资讯信息的推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |