CN112989830B - 一种基于多元特征和机器学习的命名实体识别方法 - Google Patents
一种基于多元特征和机器学习的命名实体识别方法 Download PDFInfo
- Publication number
- CN112989830B CN112989830B CN202110251787.9A CN202110251787A CN112989830B CN 112989830 B CN112989830 B CN 112989830B CN 202110251787 A CN202110251787 A CN 202110251787A CN 112989830 B CN112989830 B CN 112989830B
- Authority
- CN
- China
- Prior art keywords
- word
- named entity
- referee document
- model
- referee
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000010801 machine learning Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 52
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 206010039203 Road traffic accident Diseases 0.000 description 7
- 238000002372 labelling Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于多元特征和机器学习的命名实体识别方法。本发明将多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,构建标签对序列;构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型。本发明提升了预测精度。
Description
技术领域
本发明涉及一种交通肇事案件裁判文书命名实体识别方法,更具体地说,涉及一种基于多元特征和机器学习的命名实体识别方法。
背景技术
最高人民法院公布的数据显示,仅2019年上半年,各省(区、市)法院新收案件数量达到1488.9万件,同比上升14.54%。这些海量的案件涉及到了多种多样、错综复杂的信息,给法官和律师等从业人员分析案情带来了沉重的负担。因此,越来越多的法院开始探索运用大数据、人工智能等新技术构建智慧司法体系,其中,命名实体识别(Name EntityRecognition,NER)就是构建智慧司法的关键环节之一,对于法律领域文本的自动信息抽取有着极其重要的意义。命名实体识别一般指识别文本中具有特定意义的实体,如人名、地名、机构名、专有名词等,具体地说,就是识别自然文本中的实体指称的边界和类别。通过在裁判文书语料库上训练命名实体识别模型,可以自动捕捉到案情中的关键信息,进而为事件抽取、相似案件推送、辅助判决等场景提供基础服务。
目前,针对通用领域的命名实体识别已经取得了一些进展,对常见的人名、地名、机构名等实体的识别效果较为理想。但是针对司法领域的命名实体识别研究还处在探索阶段,尤其是对于犯罪后果、责任承担、到案情况、赔偿情况等难度较高的实体识别尚无成熟的方案。
发明内容
本发明针对现有技术的不足,提供一种基于多元特征和机器学习的交通肇事案件裁判文书命名实体识别方法。该方法借助自然语言处理中的预训练语言模型和人工构建的领域词典、双向长短期记忆神经网络和条件随机场模型,对交通肇事案件裁判文书中涉及的命名实体进行识别。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采取的技术方案是:一种基于多元特征和机器学习的命名实体识别方法,包括以下步骤:
步骤1:多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,得到每个单词的命名实体类别以及每个单词的位置,进一步构建标签对序列;
步骤2:构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型。
作为优选,步骤1所述处理后裁判文书单词序列为:
paperi={wi,1,wi,2,…,wi,n},i∈[1,K]
其中,paperi表示第i个处理后裁判文书单词序列,wi,j表示第i个处理后裁判文书单词序列中第j个单词,n为每个处理后裁判文书单词序列中单词的数量,K表示处理后裁判文书的数量。
步骤1所述构建标签对序列为:
Itemi={(typei,1,posi,1),(typei,2,posi,2),…,(typei,n,posi,n)}
typei,j∈{D1,D2,…,DM}
posi,j∈{B,I,E,S,O}
其中,typei,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别,posi,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置,D1,D2,…,DM代表M种命名实体类别,posi,j∈{B,I,E,S,O}代表M种命名实体位置,
其中,B表示该单词处于typei,j实体的开头,I表示该单词处于typei,j实体的内部,E表示该单词处于typei,j实体的末尾,S表示该单词自身构成了完整的typei,j实体,O表示该单词不在任何实体的范围内。
作为优选,步骤2所述多元特征提取层,提取处理后裁判文书单词序列的词向量和领域词典相似度特征;
在提取词向量特征时,使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式。不同于word2vec等词向量生成方法,BERT借助self-attention机制能够更有效地捕捉单词之间的上下文关系,获得更合语境的词向量表示。
对于第i个处理后裁判文书单词序列即paperi={wi,1,wi,2,…,wi,n},通过BERT模型获得每个单词wi,j的单词向量其中d表示词向量的维度;
进一步构建第i个处理后裁判文书单词词向量向量表示:Vi={Vi,1,Vi,2,…,Vi,n}。
在提取领域词典相似度特征时,本专利在大量裁判文书的基础上构建了L个领域词典Dict={dict1,dict2,…,dictL},每个词典dictk包含ck个单词
对于输入文书paperi中的每个单词wi,j,分别计算该单词与词典dictk中所有单词对应词向量的余弦相似度CosSim,并取平均值作为wi,j与dictk的相似度,相似度计算公式所下所示:
通过这种方式,每个单词wi,j都会得到一个领域词典相似度向量Si,j中的每个元素代表单词wi,j与各领域词典的相似度。
由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成,所以这样可以将人工总结的先验知识引入到模型中,从而提高模型的效果。
对于paperi中的每个单词wi,j,将对应的词向量Vi,j和领域词典相似度向量Si,j连接在一起,即可获得该单词的特征向量
通过多元特征提取层的处理,对于第i个处理后裁判文书单词序列即paperi,输出第i个处理后裁判文书单词序列的特征矩阵fi={fi,1,fi,2,…,fi,n};
步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征;
步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成,每个LSTM单元对应一个细胞状态C和一个隐层状态h;
对于t时刻的LSTM单元,接收来自上一个单元的细胞状态Ct-1和隐层状态ht-1,通过内部的遗忘门ft、记忆门it和输出门ot计算出新的细胞状态Ct和隐层状态ht,其中,细胞状态Ct就包含了t时刻之前的所有有用信息,三个门的计算公式如下:
ft=sigmoid(Wf[ht-1,xt]+bf)
it=sigmoid(Wi[ht-1,xt]+bi)
ot=sigmoid(Wo[ht-1,xt]+bo)
其中,W和b分别表示权重矩阵和偏置矩阵,xt是第t个单词对应的词向量,sigmoid是一种非线性激活函数,可将自变量映射到0到1之间的值。
细胞状态Ct和隐层状态ht的计算公式如下:
其中,
ht=ot·tanh(Ct)
对于paperi中的第t个单词wit,将其前向和后向分别计算出的隐层状态和/>组合起来,即可获得新的隐层状态/>
经过双向长短期记忆神经网络层层的处理,对于上一层输入的fi={fi,1,fi,2,…,fi,n},输出新的特征矩阵hi={hi,1,hi,2,…,hi,n}。
随后,将hi输入到softmax分类器中,即可计算出初步的命名实体预测结果zi={zi,1,zi,2,…,zi,n},其中zi,j表示单词wi,j对应各命名实体类别的概率,即zi,j={zi,j,1,zij,1,…,zi,j,M},zi,j,k表示单词wi,j属于第k类命名实体的概率,选择概率最大的类别即可作为预测出的类别;
所述条件随机场层用于优化命名实体识别结果;
从而对上一层输出的概率分布zij={zij,1,zij,1,…,zij,M}进行修正,输出最终的预测结果pi={pi1,pi2,…,pin},其中,pij={pij,1,pij,1,…,pij,M};
步骤2所述构建损失函数模型为:
在搭建好上述模型后,即可将训练集输入到模型中进行迭代训练。由于命名实体识别本质上类似于多分类问题,因此使用交叉熵的方式来定义模型的损失函数,如下所示。
其中,若单词wi,j的真实标签typei,j=Dm,则yij,m=1,否则yij,m=0;pij,m表示模型预测出的wi,j属于第m类命名实体的概率。K表示裁判文书的数量,n表示每篇裁判文书的单词数量,M表示命名实体类别的数量;
在定义裁判文书命名实体识别模型的损失函数后,使用Adam算法对模型不断更新和优化。
本发明将神经网络模型和经典的统计机器学习方法结合起来,并融入了包括词向量和领域词典相似度在内的多元特征,在大量的交通肇事案件裁判文书上进行了训练,得到了可用于提取文书中各种命名实体的模型,相对于面向通用领域的命名实体识别方法,提升了精度。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的模型架构图。
图3是本发明实施例使用到的长短期记忆神经网络的结构图。
具体实施方式
本发明提供的方法能够用计算机软件技术实现流程。下面结合图1至图3介绍本发明的具体实施例。
参见图1,第一实施例为一种基于多元特征和机器学习的命名实体识别方法,包括以下步骤:
步骤1:多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,得到每个单词的命名实体类别以及每个单词的位置,进一步构建标签对序列;
步骤1所述处理后裁判文书单词序列为:
paperi={wi,1,wi,2,…,wi,n},i∈[1,K]
其中,paperi表示第i个处理后裁判文书单词序列,wi,j表示第i个处理后裁判文书单词序列中第j个单词,K=1000表示处理后裁判文书的数量,n=300表示每个处理后裁判文书单词序列中单词的数量。
步骤1所述构建标签对序列为:
Itemi={(typei,1,posi,1),(typei,2,posi,2),…,(typei,n,posi,m)}
typei,j∈{D1,D2,…,DM}
posi,j∈{B,I,E,S,O}
其中,typei,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别,posi,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置,M=12表示命名实体类别的数量,D1,D2,…,DM代表M种命名实体类别,posi,j∈{B,I,E,S,O}代表单词在命名实体中的位置。
其中,B表示该单词处于typei,j实体的开头,I表示该单词处于typei,j实体的内部,E表示该单词处于typei,j实体的末尾,S表示该单词自身构成了完整的typei,j实体,O表示该单词不在任何实体的范围内。
步骤2、构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型;
步骤2所述多元特征提取层,提取处理后裁判文书单词序列的词向量和领域词典相似度特征;
在提取词向量特征时,使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式。不同于word2vec等词向量生成方法,BERT借助self-attention机制能够更有效地捕捉单词之间的上下文关系,获得更合语境的词向量表示。
对于第i个处理后裁判文书单词序列即papero={wi,1,wi,2,…,wi,n},通过BERT模型获得每个单词wi,j的单词向量其中d表示词向量的维度;
进一步构建第i个处理后裁判文书单词词向量向量表示:Vi={Vi,1,Vi,2,…,Vi,n}。
在提取领域词典相似度特征时,本专利在大量裁判文书的基础上构建了L=10个领域词典Dict={dict1,dict2,…,dictL},每个词典dictk包含ck个单词
对于输入文书paperi中的每个单词wi,j,分别计算该单词与词典dictk中所有单词对应词向量的余弦相似度CosSim,并取平均值作为wi,j与dictk的相似度,相似度计算公式所下所示:
通过这种方式,每个单词wi,j都会得到一个领域词典相似度向量Si,j中的每个元素代表单词wi,j与各领域词典的相似度。
由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成,所以这样可以将人工总结的先验知识引入到模型中,从而提高模型的效果。
对于paperi中的每个单词wi,j,将对应的词向量Vi,j和领域词典相似度向量Si,j连接在一起,即可获得该单词的特征向量
通过多元特征提取层的处理,对于第i个处理后裁判文书单词序列即paperi,输出第i个处理后裁判文书单词序列的特征矩阵fi={fi,1,fi,2,…,fi,n};
步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征;
步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成,每个LSTM单元对应一个细胞状态C和一个隐层状态h;
对于t时刻的LSTM单元,接收来自上一个单元的细胞状态Ct-1和隐层状态ht-1,通过内部的遗忘门ft、记忆门it和输出门ot计算出新的细胞状态Ct和隐层状态ht,其中,细胞状态Ct就包含了t时刻之前的所有有用信息,三个门的计算公式如下:
ft=sigmoid(Wf[ht-1,xt]+bf)
it=sigmoid(Wi[ht-1,xt]+bi)
ot=sigmoid(Wo[ht-1,xt]+bo)
其中,W和b分别表示权重矩阵和偏置矩阵,xt是第t个单词对应的词向量,sigmoid是一种非线性激活函数,可将自变量映射到0到1之间的值。
细胞状态Ct和隐层状态ht的计算公式如下:
其中,
ht=ot·tanh(Ct)
对于paperi中的第t个单词wit,将其前向和后向分别计算出的隐层状态和/>组合起来,即可获得新的隐层状态/>
经过双向长短期记忆神经网络层层的处理,对于上一层输入的fi={fi,1,fi,2,…,fi,n},输出新的特征矩阵hi={hi,1,hi,2,…,hi,n}。
随后,将hi输入到softmax分类器中,即可计算出初步的命名实体预测结果zi={zi,1,zi,2,…,zi,n},其中zi,j表示单词wi,j对应各命名实体类别的概率,即zi,j={zi,j,1,zij,1,…,zi,j,M},zi,j,k表示单词wi,j属于第k类命名实体的概率,选择概率最大的类别即可作为预测出的类别;
所述条件随机场层用于优化命名实体识别结果;
从而对上一层输出的概率分布zij={zij,1,zij,1,…,zij,M}进行修正,输出最终的预测结果pi={pi1,pi2,…,pin},其中,pij={pij,1,pij,1,…,pij,M};
步骤2所述构建损失函数模型为:
在搭建好上述模型后,即可将训练集输入到模型中进行迭代训练。由于命名实体识别本质上类似于多分类问题,因此使用交叉熵的方式来定义模型的损失函数,如下所示。
其中,若单词wi,j的真实标签typei,j=Dm,则yij,m=1,否则yij,m=0;pij,m表示模型预测出的wi,j属于第m类命名实体的概率。K表示裁判文书的数量,n表示每篇裁判文书的单词数量,M表示命名实体类别的数量;
在定义裁判文书命名实体识别模型的损失函数后,使用Adam算法对模型不断更新和优化。
第二实施例为以交通肇事案件裁判文书为例对本发明的流程进行一个具体的阐述,如下:
步骤1、定义交通肇事案件裁判文书中的命名实体、标注格式,具体包括以下子步骤:
(a)命名实体的定义。根据《中华人民共和国道路交通安全法》、《中华人民共和国道路交通安全法实施条例》、最高人民法院《关于审理交通肇事刑事案件具体应用法律若干问题的解释》等法律法规,以及近5年来各省市交通肇事案件的统计分析结果,将交通肇事案件裁判文书中涉及的命名实体定义为12类,如表1所示。
表1交通肇事案件裁判文书涉及的命名实体
(b)命名实体的标注格式。本发明以BIOES格式标注数据中的命名实体,具体地说,B-begin表示某实体的开头单词,I-inside表示某实体的中间单词,E-end表示某实体的末尾单词,S-single表示某单词本身就是一个完整的实体,O-outside表示某单词不属于任何实体。例如,“认定被告人张三负主要责任”经过分词后可以标注成以下格式:
表2命名实体标注格式示例
(c)标注数据并检验数据可靠性。根据BIOES格式,使用人工与自动化工具相结合的方法,标注出所有数据中的命名实体。然后采用人工抽样的方式对标注结果进行检验,以保证数据标注的可靠性。抽样比例为10%,所使用的检验指标是准确率precision、召回率recall和两者的调和平均数F1-score,计算方法如式(8)(9)(10)所示。在本发明中,F1-score达到95%以上认为数据是可靠的,可以用于实验。
步骤2、对数据进行预处理,具体包括以下子步骤:
(a)分词和词性标注。基于经典的条件随机场模型,在大量的司法语料上训练了专门的分词模型和词性标注模型,并辅以司法领域词典,以提高分词和词性标注的准确率。其中,词典一部分来源于互联网上公开的词典库,一部分来源于人工总结。
(b)去除停用词。本发明所使用的停用词库一部分来源于互联网上公开的停用词库,其中收录了大量无意义的功能词,如“的”、“了”、“此外”等;停用词库另一部分来源于借助TF-IDF方法生成的不重要单词列表,其中大部分是司法领域的无意义的单词,如“依法”、“意见”等。
(c)划分数据集。在获取到完整的交通肇事案件裁判文书后,抽取其犯罪事实和判决结果部分组成数据集,获得2700篇数据,经过上述预处理后进行标注。打乱分布后,将数据按照80%:10%:10%的比例划分为训练集、验证集、测试集。
上述预处理步骤的示例如下:
步骤3、搭建裁判文书命名实体识别模型,模型主要由多元特征提取层、Bi-LSTM层、CRF层组成,具体包括以下子步骤:
(a)定义多元特征提取层,用于提取裁判文书的词向量和领域词典相似度两种特征。
在提取词向量特征时,使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式,以便于后续处理。不同于word2vec等词向量生成方法,BERT借助self-attention机制能够更有效地捕捉单词之间的上下文关系,获得更合语境的词向量表示。对于输入的由N个单词组成的裁判文书paperi={wi,1,wi,2,…,wi,N},通过BERT模型获得每个单词wi,j的向量表示然后输入到后面的网络中,其中d=300,也即每个单词可由300维的向量表示。
在提取领域词典相似度特征时,本专利在大量裁判文书的基础上人工定义了10类领域词典Dict={dict1,dict2,…,dict10},其中,dict1表示人名类词典,dict2表示地名类词典,dict3表示时间类词典,dict4表示汽车类词典,dict5表示医学类词典,dict6表示交通类词典,dict7表示经济类词典,dict8表示保险类词典,dict9表示生活类词典,dict10表示司法类词典。
对于输入文书paperi中的每个单词wi,j,分别计算该单词与词典dictk(k=1,2,…,10)中所有单词对应词向量的余弦相似度,并取平均值作为wi,j与dictk的相似度,如式(1)所示。通过这种方式,每个单词wi,j都会得到一个维度为10的向量,向量中的每个元素代表该单词与对应领域词典的相似度,由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成,所以这样可以将人工总结的先验知识引入到模型中,从而提高模型的效果。
通过多元特征提取层的处理,对于输入的由N个单词组成的裁判文书paperi={wi,1,wi,2,…,wi,N},可输出一个维度为N×310的特征矩阵。
(b)定义Bi-LSTM即双向长短期记忆神经网络层,提取文本特征。Bi-LSTM是循环神经网络的一种,可以有效提取自然语言等序列化数据中的关键信息。对于t时刻的LSTM单元,它接收来自上一个单元的细胞状态Ct-1和隐层状态ht-1,通过遗忘门ft、记忆门it和输出门ot产生新的细胞状态Ct和隐层状态ht,其中,细胞状态Ct就包含了t时刻之前的所有有用信息。通过这种方式,可以计算出任意位置单词的前向和后向特征向量,将其组合起来即可得到包含完整信息的特征向量。
(c)定义CRF层,优化命名实体识别结果。在使用Bi-LSTM层提取出裁判文书的特征向量后,即可送入softmax分类器中,得到每一个单词所对应各种命名实体类别的概率,并选取概率最高的类别作为预测出的结果。但在实际情况下该结果并不总是合理的,这是因为命名实体识别任务有着天然的“语法规则”,例如一个命名实体标注只能以B或者S开头,以E或者S结束。因此,有必要使用CRF层对最终的识别结果进行全局性约束,以确保识别结果符合BIOES规则。CRF全称是Conditional RandomField,即条件随机场,它是一种经典的序列标注算法,通过学习大量的训练数据,它可以自动地捕获命名实体之间的依赖关系和约束关系,从而对上一层输出的概率分布进行修正,得到最终的预测结果。
步骤4、模型训练与测试。
在搭建好上述命名实体识别模型后,即可将训练集输入到模型中进行迭代训练,在训练过程中使用Adam优化算法来不断更新网络中的权重,相对于SGD、RMSprop等优化算法,Adam算法的收敛速度更快,也更容易找到全局最优的权重。根据训练后得到的模型在验证集上的效果,不断地对模型的超参数如学习率、drop-out、batch-size等进行调整。最后,观察模型在测试集上的表现,计算准确率、召回率和F1值,并与其他的模型进行对比分析。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (1)
1.一种基于多元特征和机器学习的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:多个原始裁判文书通过分词处理、去除停用词处理得到多个处理后裁判文书单词序列,将处理后裁判文书单词序列中每个单词进行人工标注,得到每个单词的命名实体类别以及每个单词的位置,进一步构建标签对序列;
步骤2:构建裁判文书命名实体识别模型,所述裁判文书命名实体识别模型由多元特征提取层、双向长短期记忆神经网络层、条件随机场层依次级联构组成;将处理后裁判文书单词序列输入裁判文书命名实体识别模型,通过预测得到每个单词对应的命名实体类别标签和位置标签,进一步结合标签对序列中每个单词的命名实体类别以及每个单词的位置构建损失函数模型,通过优化训练得到优化后裁判文书命名实体识别模型;
步骤1所述处理后裁判文书单词序列为:
paperi={wi,1,wi,2,…,wi,n},i∈[1,K]
其中,paperi表示第i个处理后裁判文书单词序列,wi,j表示第i个处理后裁判文书单词序列中第j个单词,n为每个处理后裁判文书单词序列中单词的数量,K表示处理后裁判文书的数量;
步骤1所述构建标签对序列为:
Itemi={(typei,1,posi,1),(typei,2,posi,2),…,(typei,n,posi,n)}
typei,j∈{D1,D2,…,DM}
post,j∈{B,I,E,S,O}
其中,typei,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体类别,posi,j表示第i个处理后裁判文书单词序列中第j个单词的命名实体位置,D1,D2,…,DM代表M种命名实体类别,posi,j∈{B,I,E,S,O}代表M种命名实体位置,
其中,B表示该单词处于typei,j实体的开头,I表示该单词处于typei,j实体的内部,E表示该单词处于typei,j实体的末尾,S表示该单词自身构成了完整的typei,j实体,O表示该单词不在任何实体的范围内;
步骤2所述多元特征提取层,提取处理后裁判文书单词序列的词向量和领域词典相似度特征;
在提取词向量特征时,使用BERT预训练语言模型将文本形式的单词转化为对应的向量形式;
对于第i个处理后裁判文书单词序列即paperi={wi,1,wi,2,…,wi,n},通过BERT模型获得每个单词wi,j的单词向量其中d表示词向量的维度;
进一步构建第i个处理后裁判文书单词词向量向量表示:Vi={Vi,1,Vi,2,…,Vi,n};
在提取领域词典相似度特征时,在大量裁判文书的基础上构建了L个领域词典Dict={dict1,dict2,…,dictL},每个词典dictk包含ck个单词
对于输入文书paperi中的每个单词wi,j,分别计算该单词与词典dictk中所有单词对应词向量的余弦相似度CosSim,并取平均值作为wi,j与dictk的相似度,相似度计算公式所下所示:
通过这种方式,每个单词wi,j都会得到一个领域词典相似度向量Si,j中的每个元素代表单词wi,j与各领域词典的相似度;
由于各领域词典的分类和构成由人工在大量裁判文书的基础上完成,所以这样可以将人工总结的先验知识引入到模型中,从而提高模型的效果;
对于paperi中的每个单词wi,j,将对应的词向量Vi,j和领域词典相似度向量Si,j连接在一起,即可获得该单词的特征向量fi,j,
通过多元特征提取层的处理,对于第i个处理后裁判文书单词序列即paperi,输出第i个处理后裁判文书单词序列的特征矩阵fi={fi,1,fi,2,…,fi,n};
步骤2所述双向长短期记忆神经网络层用于进一步提取文本语义特征;
步骤2所述双向长短期记忆神经网络层由n个LSTM单元组成,每个LSTM单元对应一个细胞状态C和一个隐层状态h;
对于t时刻的LSTM单元,接收来自上一个单元的细胞状态Ct-1和隐层状态ht-1,通过内部的遗忘门ft、记忆门it和输出门ot计算出新的细胞状态Ct和隐层状态ht,其中,细胞状态Ct就包含了t时刻之前的所有有用信息,三个门的计算公式如下:
ft=sigmoid(Wf[ht-1,xt]+bf)
it=sigmoid(Wi[ht-1,xt]+bi)
ot=sigmoid(Wo[ht-1,xt]+bo)
其中,W和b分别表示权重矩阵和偏置矩阵,xt是第t个单词对应的词向量,sigmoid是一种非线性激活函数,可将自变量映射到0到1之间的值;
细胞状态Ct和隐层状态ht的计算公式如下:
其中,
ht=ot·tanh(Ct)
对于paperi中的第t个单词wit,将其前向和后向分别计算出的隐层状态和/>组合起来,即可获得新的隐层状态/>
经过双向长短期记忆神经网络层层的处理,对于上一层输入的fi={fi,1,fi,2,…,fi,n},输出新的特征矩阵hi={hi,1,hi,2,…,hi,n};
随后,将hi输入到softmax分类器中,即可计算出初步的命名实体预测结果zi={zi,1,zi,2,…,zi,n},其中zi,j表示单词wi,j对应各命名实体类别的概率,即zi,j={zi,j,1,zij,1,…,zi,j,M},zi,j,k表示单词wi,j属于第k类命名实体的概率,选择概率最大的类别即可作为预测出的类别;
所述条件随机场层用于优化命名实体识别结果;
从而对上一层输出的概率分布zij={zij,1,zij,1,…,zij,M}进行修正,输出最终的预测结果pi={pi1,pi2,…,pin},其中,pij={pij,1,pij,1,…,pij,M};
步骤2所述构建损失函数模型为:
在搭建好上述模型后,即可将训练集输入到模型中进行迭代训练;
使用交叉熵的方式来定义模型的损失函数,如下所示;
其中,若单词wi,j的真实标签typei,j=Dm,则yij,m=1,否则yij,m=0;pij,m表示模型预测出的wi,j属于第m类命名实体的概率;K表示裁判文书的数量,n表示每篇裁判文书的单词数量,M表示命名实体类别的数量;
在定义裁判文书命名实体识别模型的损失函数后,使用Adam算法对模型不断更新和优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251787.9A CN112989830B (zh) | 2021-03-08 | 2021-03-08 | 一种基于多元特征和机器学习的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251787.9A CN112989830B (zh) | 2021-03-08 | 2021-03-08 | 一种基于多元特征和机器学习的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989830A CN112989830A (zh) | 2021-06-18 |
CN112989830B true CN112989830B (zh) | 2023-08-18 |
Family
ID=76336033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251787.9A Active CN112989830B (zh) | 2021-03-08 | 2021-03-08 | 一种基于多元特征和机器学习的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989830B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806494B (zh) * | 2021-10-11 | 2022-05-27 | 中国人民解放军国防科技大学 | 一种基于预训练语言模型的命名实体识别方法 |
CN116432693B (zh) * | 2023-03-15 | 2024-02-09 | 北京擎盾信息科技有限公司 | 大规模预训练语言模型的构建方法、装置、存储介质及电子装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
-
2021
- 2021-03-08 CN CN202110251787.9A patent/CN112989830B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
WO2020052184A1 (zh) * | 2018-09-10 | 2020-03-19 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
Non-Patent Citations (1)
Title |
---|
面向食品安全裁判文书的命名实体识别方法研究;李书钦;刘召;史运涛;计算机时代(第010期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112989830A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN112015863B (zh) | 一种基于图神经网络的多元特征融合中文文本分类方法 | |
CN111079985B (zh) | 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110569508A (zh) | 融合词性和自注意力机制的情感倾向性分类方法及系统 | |
CN113221567A (zh) | 司法领域命名实体及关系联合抽取方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN111159336B (zh) | 一种半监督司法实体及事件联合提取方法 | |
CN112749562A (zh) | 命名实体识别方法、装置、存储介质及电子设备 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111666373A (zh) | 一种基于Transformer的中文新闻分类方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN111753058A (zh) | 一种文本观点挖掘方法及系统 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |