CN113609857A - 基于级联模型和数据增强的法律命名实体识别方法及系统 - Google Patents
基于级联模型和数据增强的法律命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN113609857A CN113609857A CN202110828255.7A CN202110828255A CN113609857A CN 113609857 A CN113609857 A CN 113609857A CN 202110828255 A CN202110828255 A CN 202110828255A CN 113609857 A CN113609857 A CN 113609857A
- Authority
- CN
- China
- Prior art keywords
- data
- legal
- model
- word
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012795 verification Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims 1
- 238000002372 labelling Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 6
- 229960002069 diamorphine Drugs 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于级联模型和数据增强的法律命名实体识别方法,包括以下步骤:对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示和带有上下文语义的词语级别的向量表示;S2、将两个向量表示进行融合;S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;S4、使用两个CRF条件随机场解码,得到实体序列和属性序列并拼接,得到最后的标签表示;S5、将最后的标签表示与验证集进行比较,调整模型参数信息,反复训练,得到最好的模型;S6、输入中文法律文书案列,模型自动进行判断并输出法律文书中的法律实体。
Description
技术领域
本发明涉及中文语言处理及识别技术领域,尤其涉及基于级联模型和数据增强的法律命名实体识别方法及系统。
背景技术
使用人工智能技术建立智慧法院系统,能够帮助法务人员对相似案件作出裁决,提高办案的效率。要对法律文书进行语义理解,首先要解决的就是法律实体的识别问题。NER(Named Entity Recognition,命名实体识别)是指从文本中抽取特定的命名实体的过程,是一个序列标注的分裂任务,对每一个输入的字符,赋予可能性最大的标注序列。如输入“武汉市”,那么输出对应“武”的标签为“B-L”。前部分的“B”包含着实体的标识信息,后部分“L”是用户定义的特定属性的信息。传统的NER任务将实体和属性作为一个组合标记进行识别。
现有的中文命名实体识别方法主要分为机器学习方法和深度学习方法。机器学习方法需要预先设计规则模式,然后通过字符串搜索和匹配的手段实现实体的识别。但易受预先规则的限制,可移植性较差,对未登录词的识别效果不佳。深度学习方法相比机器学习方法具有更高的准确性,但仍存在实体嵌套、实体堆叠等问题。长度较长和相关联性较强的法律实体,会导致上述问题更加严重。例如“上海市静安区西苏州路85弄静安河滨花园小区”在法律文书中被视作为一个地址实体,而传统的方法在识别时往往会在“上海市”、“静安区”处进行划分,无法达到法律实体识别的要求。
发明内容
本发明主要目的在于,提供一种基于级联结构和数据增强的法律文书法律命名实体识别方法,通过大量的数据,训练一个级联结构的深度学习经验模型,对输入的中文法律文书中的命名实体自动进行识别,同时,通过对法律文书进行标签线性化数据增强操作,提高数据的数量以及质量,从而使上述深度模型具有更高的鲁棒性和适用性。
本发明所采用的技术方案是:提供一种基于级联模型和数据增强的法律命名实体识别方法,其特征在于,包括以下步骤:
S1、对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示,并构建带有上下文语义的词语级别的向量表示;
S2、将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
S4、使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
S5、将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
S6、输入中文法律文书案列,模型自动进行判断并输出法律文书中的法律实体。
接上述技术方案,训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。
接上述技术方案,具体使用标签线性化数据增强方法对法律判决文书数据集进行处理,将数据的实体标签放置于中文字符前,生成增强数据。
接上述技术方案,具体按照“B,M,E,O”实体规则和“D,T,N,L”属性规则对BiLSTM层的结果进行解码。
接上述技术方案,文本的深层特征为带有上下文信息的特征向量。
本发明还提供了一种基于级联模型和数据增强的法律命名实体识别系统,包括:
字符级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示;
词语级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的词语级别的向量表示;
字词特征融合模块,用于将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
BiLSTM处理模块,用于使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
双CRF处理模块,用于使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
模型训练模块,用于将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
识别模块,用于输入中文法律文书案列,通过模型自动进行判断并输出法律文书中的法律实体。
接上述技术方案,训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。
接上述技术方案,具体使用标签线性化数据增强方法对法律判决文书数据集进行处理,将数据的实体标签放置于中文字符前,生成增强数据。
接上述技术方案,具体按照“B,M,E,O”实体规则和“D,T,N,L”属性规则对BiLSTM层的结果进行解码。
本发明还提供了一种计算机存储介质,其内存储有可被处理器执行的计算机程序,该计算机程序执行接上述技术方案所述的基于级联模型和数据增强的法律命名实体识别方法。
本发明产生的有益效果是:本发明通过将字符级别和词语级别的双特征进行融合,在词语级别向量本身带有词语边界信息的基础上,通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差,通过自带的词边界信息能够改善法律长实体识别难的问题。此外使用级联结构对BiLSTM层提取的特征进行解码,具体通过两个CRF对属性和实体两种方式进行解码,引入更多的实体本身的信息去规范CRF的输出结果,从而提高模型的效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例基于级联模型和数据增强的法律命名实体识别方法流程图;
图2为本发明实施例的数据增强方法原理;
图3为本发明实施例的模型结构图;
图4为本发明实施例的字符、词语级别向量拼接原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明融合字符级别和词语级别的双重特征,引入词与词之间的相关性的同时,通过字符信息对分词误差导致的错误进行修正;进一步采用级联结构将传统NER任务分解成实体识别和属性识别两个级联的子任务,提高了识别效果。
如图1所示,本发明实施例基于级联模型和数据增强的法律命名实体识别方法,包括以下步骤:
S1、对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示,并构建带有上下文语义的词语级别的向量表示;
S2、将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
S4、使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
S5、将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
S6、输入中文法律文书案列,模型自动进行判断并输出法律文书中的法律实体。
针对法律标注数据匮乏的问题,本发明主要采用标签线性化的数据增强方法对数据样本规模进行扩充。如图2所示,本发明采用BMEO标记方法对数据进行标记。其中B代表实体开头Begin,M代表实体中间Middle,E代表实体尾部End,O代表非实体部分Object。而标记后面的部分代表实体的属性,本发明中L代表地址属性,D代表毒品属性,N代表人名属性,W代表质量属性。比如“武汉市”对应的标记为“B-L M-L E-L”。图2中Null行代表原始数据。SR(Synonyms Replace)表示不考虑停用词,在句子中随机抽取n个词替换成从同义词词典中抽取的同义词的同义词替换数据增强方法;RD(Randomly Delete)表示将句子中的每个词,以概率p随机删除的随机删除数据增强方法;RS(Randomly Swap)表示随机交换句子中两个词的位置,该过程可以重复n次的随机替换数据增强方法。Label行表示标签线性化数据增强方法。该方法通过将除了上述O以外的标签,放置于实体词语之前进行数据增强。在生成新数据所对应的BMEO标注时,将添加的标签作为“O”类进行标记。以此保证在不破坏句子完整性的情况下,进一步强调实体在句中所处位置的信息。
数据增强获取新数据的算法如下:
步骤1:使用标签线性化数据增强方法,对中文法律数据进行处理,将原数据中除了O以外的实体标记置于对应的中文字符前方,生成如图2的Label行中文段所示的增强数据;
步骤2:对步骤1生成的增强数据进行标注。其中中文字符按照原始数据标记情况进行标记,因数据增强而添加到数据中的字符,所对应的标记为“O”,生成如图2的Label行所示的标注;
步骤3:对原始数据进行过采样操作,根据样本标签少的样本的规律去生成更多该标签样本,这样使得数据趋向于平衡。
本发明通过标签线性化数据增强方法能够扩大数据数量,从而增幅模型的识别效果。
本发明实施例中,将增强数据与过采样后的原始数据进行1:1混合,得到最后的训练数据集。本发明通过在大量数据上训练一个经验模型来进行法律命名实体的自动识别,数据质量和数量越好,模型效果越好。
模型训练部分通过如图3所示的级联结构深度学习模型对上述增强后的数据进行训练,在不断优化后得到一个能够实现法律文书实体识别的深度学习模型,以此解决法律文书的命名实体识别问题。
NER是一个序列标注任务,对每一个输入的字符,赋予可能性最大的标注序列。如输入“武汉市”,那么“武”对应的输出标签为”“B-L”。标签前部分的“B”包含着实体的标识信息,后部分“L”是用户定义的特定属性的信息。传统的NER任务将实体和属性作为一个组合标记进行识别。本发明将其重构成两个级联的子任务,采用两个CRF对实体标签序列和属性标签序列分别进行解码,以此提高模型效果。
融合字词特征的级联模型的模型框架如图3所示。给定一个句子S,有Sc={c1,c2,…,ci},Sw={w1,w2,…wt}两种输入。其中Sc是句子S字符级别的输入,ci表示句子S中的第i个字符;Sw是词语别的输入,wt表示句子S中的第t个词语。
对于字符级别的输入Sc,BERT的输入模块通过式(1)会将每个输入ci编码成向量ei,得到输入序列然后作为BERT内部Transformer编码网络的输入词表示,进一步计算出输入序列的字符级别的向量表示其中,Etoken表示字嵌入,Eseg表示句子嵌入,Epos表示位置嵌入。
ei=Etoken(ci)+Eseg(ci)+Epos(ci) (1)
在字词向量拼接过程中,因为词语级别的向量预先进行分词,字词级别的向量不能完全进行匹配。本发明通过图4所示的方法,在每个字符向量后面放置与其对应的词语向量,完成向量拼接。式(6)将字符级别和词语级别的向量表示进行拼接。
本发明实施例引入字符级别和词语级别的双特征,在词语级别向量本身带有词语边界信息的基础上,通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差。通过自带的词边界信息能够改善法律长实体识别难的问题。
将得到的向量由BiLSTM进行(7)~(12)的处理,得到带有内部特征信息的hi(BiLSTM的特征是可以获取带有上下文特征的特征向量。这种向量互相之间的权值和比重可以反映出彼此在中文内的指代消息。比如“苹果是红色的。”,苹果和红色经过BiLSTM产生的向量会在数值或者加权后有呈现相关性。这就是带有上下文信息的特征向量。)其中σ是sigmoid函数;⊙是点乘运算;xt是t时刻的输入向量;ht是隐含状态向量,储存着t时刻前后的所有信息。U不同门对输入向量xt的权重;W是不同门对隐含状态向量ht的权重;b是不同门的偏置向量。
it=σ(Wiht-1+Uixi+bi) (7)
ft=σ(Wfht-1+Ufxt+bf) (8)
ot=σ(Woht-1+Uoxt+bo) (11)
ht=ot-1⊙tanh(ct) (12)
将其按照式(15)进行拼接,得到最终的结果序列W={w1,w2,…,wn}。根据标签对应关系,可以得到最终的输出。
使用级联结构(两个CRF并联的结构)对BiLSTM层提取的特征进行解码,通过两个CRF对属性和实体两种方式进行解码,可引入更多的实体本身的信息去规范CRF的输出结果,从而提高模型的效果。
综上,将上述步骤进行简化后,模型训练部分的步骤为:
步骤3:将字符级别Lc和词语级别的向量表示Lw,按照图3所示方法进行式(6)所示的向量拼接,生成融合字词特征的向量表示L;
步骤4:使用BiLSTM双向长短记忆神经网络对融合字词信息的特征向量L进行处理,提取文本的深层特征;
步骤6:将步骤5中的序列W1和W2按照式(15)所示的方法进行拼接,得到最后的标签表示W;
步骤7:将预测的结果与正确结果进行比较,使用Optimizer优化器调整模型参数信息,再次训练;
步骤8:重复上述操作,直至评价指标P,R,F水平趋于稳定;
步骤9:选取指标性能最好的模型,作为实际应用的模型;
步骤10:输入中文法律文书案列“余海洋吸食海洛因”,模型自动进行判断,输出每个字符对应的标注序列“B-N、M-N、E-N、O、O、B-D、M-D、E-D”,通过标注对应的含义,解析出句子中的法律实体“余海洋(人名属性实体)”、“海洛因(毒品属性实体)”。
实施示例:
一、场景描述
输入:犯罪嫌疑人余海洋涉嫌吸食毒品海洛因10.2g。
输出:余海洋(姓名属性实体)、海洛因(毒品属性实体)、10.2g(质量属性实体)。
二、具体步骤
本发明解决法律命名实体识别方法
步骤1:使用标签线性化数据增强方法,对中文法律数据进行处理,将原数据中除了O以外的实体标记,至于对应的中文字符前方,生成如说明书附图中图1的Label行中文段所示的增强数据;
步骤2:对步骤1生成的增强数据进行标注。其中中文字符按照原始数据标记情况进行标记,因数据增强而添加到数据中的字符,所对应的标记为“O”,生成如说明书附图中图1的Label行所示的标注;
步骤3:对原始数据进行过采样操作,根据样本标签少的样本的规律去生成更多该标签样本,这样使得数据趋向于平衡;
步骤4:将增强数据与过采样后的原始数据进行1:1混合,得到训练数据集。
步骤7:将字符级别Lc和词语级别的向量表示Lw,按照图3所示方法进行式(6)所示的向量拼接,生成融合字词特征的向量表示L;
步骤8:使用BiLSTM双向长短记忆神经网络对融合字词信息的特征向量L进行处理,提取文本的深层特征;
步骤10:将步骤9中的序列W1和W2按照式(15)所示的方法进行拼接,得到最后的标签表示W;
步骤11:将预测的结果与正确结果进行比较,使用Optimizer优化器调整模型参数信息,再次训练;
步骤12:重复上述操作,直至评价指标P,R,F水平趋于稳定;
步骤13:选取指标性能最好的模型,作为实际应用的模型;
步骤14:输入中文法律文书案列“余海洋吸食海洛因”,模型自动进行判断,输出每个字符对应的标注序列“B-N、M-N、E-N、O、O、B-D、M-D、E-D”,通过标注对应的含义,解析出句子中的法律实体“余海洋(人名属性实体)”、“海洛因(毒品属性实体)”。
该系统在Win10环境下基于Python运行,所使用的深度学习框架为TensorFlow,版本为1.1.2。实验结果表明,本发明提出的方法对法律文书(毒品类)命名实体识别方法优于传统法。
本发明还提供一种基于级联模型和数据增强的法律命名实体识别系统,包括:
字符级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示;
词语级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的词语级别的向量表示;
字词特征融合模块,用于将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
BiLSTM处理模块,用于使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
双CRF处理模块,用于使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
模型训练模块,用于将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
识别模块,用于输入中文法律文书案列,通过模型自动进行判断并输出法律文书中的法律实体。
上述实施例的系统主要用于实现基于级联模型和数据增强的法律命名实体识别方法实施例,各个模块的功能参见上文方法实施例,在此不一一赘述。
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于基于级联模型和数据增强的法律命名实体识别系统,被处理器执行时实现方法实施例的基于级联模型和数据增强的法律命名实体识别方法。
综上,本发明的创新之处在于:
1.引入字符级别和词语级别的双特征,在词语级别向量本身带有词语边界信息的基础上,通过引入带有上下文语义的字符级别向量来修正因分词错误而导致的词语级别向量所导致的误差。通过自带的词边界信息能够改善法律长实体识别难的问题。
2.使用级联结构对BiLSTM层提取的特征进行解码,通过两个CRF对属性和实体两种方式进行解码,引入更多的实体本身的信息去规范CRF的输出结果,从而提高模型的效果。
3.法律领域命名实体识别数据没有标准的标注数据集,人工采集及处理的法律文书数据集往往质量和数量都不理想。而深度学习方法是通过在大量数据上训练一个经验模型,来进行法律命名实体的自动识别,数据质量和数量越好,模型效果越好。通过标签线性化数据增强方法能够扩大数据数量,从而增幅模型的识别效果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于级联模型和数据增强的法律命名实体识别方法,其特征在于,包括以下步骤:
S1、对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示,并构建带有上下文语义的词语级别的向量表示;
S2、将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
S3、使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
S4、使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
S5、将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
S6、输入中文法律文书案列,模型自动进行判断并输出法律文书中的法律实体。
2.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法,其特征在于,训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。
3.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法,其特征在于,具体使用标签线性化数据增强方法对法律判决文书数据集进行处理,将数据的实体标签放置于中文字符前,生成增强数据。
4.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法,其特征在于,具体按照“B,M,E,O”实体规则和“D,T,N,L”属性规则对BiLSTM层的结果进行解码。
5.根据权利要求1所述的基于级联模型和数据增强的法律命名实体识别方法,其特征在于,文本的深层特征为带有上下文信息的特征向量。
6.一种基于级联模型和数据增强的法律命名实体识别系统,其特征在于,包括:
字符级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的字符级别的向量表示;
词语级别向量表示构建模块,用于对经过数据增强后的训练数据进行处理,构建带有上下文语义的词语级别的向量表示;
字词特征融合模块,用于将字符级别的向量表示和词语级别的向量表示进行融合,将每个字符向量后面放置与其对应的词语向量,完成向量拼接,生成融合字词特征的向量表示;
BiLSTM处理模块,用于使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征;
双CRF处理模块,用于使用两个CRF条件随机场,分别按照实体规则和属性规则对BiLSTM层的结果进行解码,得到实体序列和属性序列;并将实体序列和属性序列进行拼接,得到最后的标签表示;
模型训练模块,用于将最后的标签表示与验证集进行比较,调整模型参数信息,再次训练,直至验证集测试的指标水平趋于稳定,选取稳定前,指标性能最好的模型;
识别模块,用于输入中文法律文书案列,通过模型自动进行判断并输出法律文书中的法律实体。
7.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统,其特征在于,训练数据为经过增强后的数据与经过过采样后的原始数据进行1:1混合得到。
8.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统,其特征在于,具体使用标签线性化数据增强方法对法律判决文书数据集进行处理,将数据的实体标签放置于中文字符前,生成增强数据。
9.根据权利要求6所述的基于级联模型和数据增强的法律命名实体识别系统,其特征在于,具体按照“B,M,E,O”实体规则和“D,T,N,L”属性规则对BiLSTM层的结果进行解码。
10.一种计算机存储介质,其特征在于,其内存储有可被处理器执行的计算机程序,该计算机程序执行权利要求1-5中任一项所述的基于级联模型和数据增强的法律命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828255.7A CN113609857B (zh) | 2021-07-22 | 2021-07-22 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828255.7A CN113609857B (zh) | 2021-07-22 | 2021-07-22 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609857A true CN113609857A (zh) | 2021-11-05 |
CN113609857B CN113609857B (zh) | 2023-11-28 |
Family
ID=78338054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828255.7A Active CN113609857B (zh) | 2021-07-22 | 2021-07-22 | 基于级联模型和数据增强的法律命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609857B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
-
2021
- 2021-07-22 CN CN202110828255.7A patent/CN113609857B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN111310470A (zh) * | 2020-01-17 | 2020-06-19 | 西安交通大学 | 一种融合字词特征的中文命名实体识别方法 |
CN112836046A (zh) * | 2021-01-13 | 2021-05-25 | 哈尔滨工程大学 | 一种四险一金领域政策法规文本实体识别方法 |
Non-Patent Citations (1)
Title |
---|
孔祥鹏;吾守尔・斯拉木;杨启萌;李哲;: "基于迁移学习的维吾尔语命名实体识别", 东北师大学报(自然科学版), no. 02, pages 63 - 70 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114429132A (zh) * | 2022-02-24 | 2022-05-03 | 南京航空航天大学 | 一种基于混合格自注意力网络的命名实体识别方法和装置 |
CN115438190A (zh) * | 2022-09-06 | 2022-12-06 | 国家电网有限公司 | 一种配电网故障辅助决策知识抽取方法及系统 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN116822477B (zh) * | 2023-05-16 | 2024-04-30 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113609857B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897908B (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN110688854B (zh) | 命名实体识别方法、装置及计算机可读存储介质 | |
CN113609857A (zh) | 基于级联模型和数据增强的法律命名实体识别方法及系统 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN114372465B (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN114154504B (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114036950B (zh) | 一种医疗文本命名实体识别方法及系统 | |
CN115329766B (zh) | 一种基于动态词信息融合的命名实体识别方法 | |
CN112784576B (zh) | 一种文本依存句法分析方法 | |
CN114529903A (zh) | 文本细化网络 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN112966117A (zh) | 实体链接方法 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |