CN115062104A - 融合知识提示的法律文本小样本命名实体识别方法 - Google Patents
融合知识提示的法律文本小样本命名实体识别方法 Download PDFInfo
- Publication number
- CN115062104A CN115062104A CN202210535070.1A CN202210535070A CN115062104A CN 115062104 A CN115062104 A CN 115062104A CN 202210535070 A CN202210535070 A CN 202210535070A CN 115062104 A CN115062104 A CN 115062104A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- referee
- sentence
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合知识提示的法律文本小样本命名实体识别方法,属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系,从中国裁判文书网平台获取了2760篇裁定书和判决书文档;然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码,通过注意力加权得到句子的特征表示,结合构造的模板指导生成式预训练模型GPT生成词的类别向量;最后,利用全连接层将句子向量转化为跨度向量,生成语义标签,最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下,由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题,提升了法律实体识别的准确率和模型的迁移能力。
Description
技术领域
本发明涉及融合知识提示的法律文本小样本命名实体识别方法,属于自然语言处理与机器学习领域。
背景技术
命名实体识别是自然语言处理中的一项基础任务,旨在从文本中获取实体并对其标签分类,它作为信息抽取、机器翻译等下游任务的基础,应用范围广泛。目前,命名实体识别技术只是在有限的领域和实体类型中取得了较好的成绩,但这些技术无法很好地迁移到其他特定领域中。
随着特定领域自然语言处理任务的需求不断增加,在法律领域应用命名实体识别方法获取原被告姓名、案件属性、依据法条、责任承担与涉案财产等具备领域特点的实体,能够辅助法官决策实现智慧法庭。因此,研究法律领域下的命名实体识别任务是具有应用价值的。
目前基于法律文本的命名实体识别方法包括三类:基于领域相似文本表示的方法,它依赖源域和法律领域的相似的文本表示,未充分考虑法律领域实体的特殊性;基于领域词典的方法,考虑模型迁移能力,但人工设置领域词典的成本较高;基于神经网络CNN、RNN、LSTM以及Bert预训练模型的方法,例如应用于法律领域实体识别任务中的Bert-BiLSTM-CRF主流模型,但是该方法缺少高质量的法律领域样本,识别法律实体的准确率不高,训练模型成本较高,因此针对法律小样本命名实体识别的研究仍然存在挑战。
综上所述,现有的法律文本的命名实体识别方法主要存在以下问题:(1)基于文本相似性表示的方法,没有更新网络参数,不能改善跨域实例表示,降低了领域适配能力,同时未充分考虑实体标签的深层语义信息;(2)基于领域词典的方法是利用枚举生成候选实体,存在严重的效率问题,未充分挖掘法律实体标签间关系;(3)公开的法律文本数据集较少,同时模型训练时依赖标注语料,在小样本上训练时容易造成过拟合问题。
发明内容
本发明的目的是融合提示学习方法,对法律领域小样本构造模板,借助模板对预训练模型微调,优化标签分类效果。针对法律领域的实体边界及其类型分布和通用领域中的实体有较大差别的问题,本发明通过引入法律领域的专业知识构建实体和非实体知识模板,用知识模板指导预训练模型,进行提示与微调,优化分类器,将标签映射到更广泛的语义空间上,避免了深度学习模型重新训练参数,同时减少了对标注数据的需求,充分利用了模板中实体和标签语义信息,提升语言模型的小样本学习潜力。
本发明的设计原理为:首先,从中国裁判文书网获取裁判文书原始数据,对裁判文书预处理;其次,人工定义裁判文书的正样本模板和负样本模板,定义标签集和自然词集;最后,构建裁判文书命名实体识别模型,将句子级别的裁判文书输入Bert预训练模型,输出句子特征向量,裁判文书向量与模板向量连接后使用GPT生成式预训练模型解码,对模板中的掩码做预测生成任务,结合标签特征向量最小化损失函数,优化实体分类效果。
本发明的技术方案是通过如下步骤实现的:
步骤1,从中国裁判文书网获取原始裁判文书数据,预定义五类裁判文书的命名实体,分别是原被告姓名(Person)、案件属性(Case)、依据法条(Regulations)、责任承担(Responsibility)与涉案财产(Compensate)。
步骤2,基于大量的裁判文书中的实体和非实体知识,构建提示模板、标签集和自然词集映射关系。
步骤2.1,通过人工构建实体知识的正例和负例模板引导预训练模型进行微调。
步骤2.2,预定义模型空间的实体类别标签集L={l1,l2,…,l|L|}和语义空间的自然词集Y={y1,y2,…,y|L|}。
步骤3,构建裁判文书命名实体识别模型,识别裁定书和判决书两类文书中存在的五类法律实体。
步骤3.1,将裁判文书中的每个词表示为token嵌入向量和记录每个词时间属性的嵌入向量,组合两个向量后输入到Bert预训练模型中,输出第i个句子的表示Wi。
步骤3.2,使用GPT生成式预训练模型作为隐变量解码器,结合步骤3.1输出的句子向量,基于模板中当前元素及其前向元素的语义信息得到当前元素标签的特征表示,基于提示模板增强特征向量表示。
步骤3.3,依据句子中标签的特征表示向量,利用全连接层将句子向量转换为跨度向量,计算属于五类标签的实体特征的非归一化概率,定义模型的损失函数,生成较高置信度的类别标签,优化标签分类效果。
有益效果
相比于Bert-BiLSTM-CRF的方法,本发明基于法律领域的模板和标签指导预训练语言模型的微调,降低了对标注数据的需求和模型训练成本,优化标签分类结果,充分考虑了语义空间中距离较近的类别词。构造模板和标签适用于法律领域小样本任务,实现了裁判文书中的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体,提升了特定领域的实体识别准确率、模型迁移与领域适配能力。
附图说明
图1为本发明融合知识提示的法律文本小样本命名实体识别方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存16G,操作系统是windows 10,64位;服务器的具体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
实验数据是从中国裁判文书网获取的裁判文书,包括裁定书和判决书两类数据集。基于法律领域的裁判文书命名实体识别实验数据,裁定书文档总数是2060篇,判决书文档总数是700篇,两种文书的训练集分别是2000条和600条,两种文书分别随机抽取10条对模型验证与测试。
实验采用F1值评价裁判文书中实体标签分类的结果,计算方法见公式(1)。
Precision精确率和Recall召回率计算方法见公式(2),(3)。
其中,TP是将正确的实体预测正确的数目,FN是将非实体预测为负类的数目,FP是将非实体预测为正确的实体的数目。F1值综合了精确率和召回率的调和平均值,将F1作为裁判文书命名实体识别的效果评价指标,F1值越高,模型效果越好。
本次实验的具体流程为:
步骤1,从中国裁判文书网获取原始裁判文书数据,预定义裁判文书的命名实体,将裁定书和判决书两类文书通过去除停用词操作得到处理后的裁判文书。基于公开停用词库与TF-IDF词频统计结果,去除法律领域的无意义词,例如,“申请”“裁定”“依法”等,得到处理后的裁判文书数据。依据原始裁判文书数据的统计结果分析,其中民事案件裁定书和判决书中涉及的实体包括原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体。
步骤2,基于大量裁判文书中的实体和非实体知识,构建正例模板T+和负例模板T-、标签集和自然词集映射关系。
步骤2.1,基于大量裁判文书数据k表示第k个句子,N表示句子中的词数。本发明通过人工构建实体知识的正例和负例模板Template=[T+,T-],提升裁判文书实体识别的效果。其中,T+设为“[X1],[X2]是一个[MASK]类实体。”,T-设为“[X1],[MASK]不是一个实体。”。[X1]表示句子级别的裁判文书[X2]处是由预训练模型得到的实体特征向量,[MASK]处是待预测生成的实体类别标签。例如,模板实例设置为“[X1],侵权纠纷系列案是一个[MASK]实体”,其中,侵权纠纷系列案是[X2]。
依据裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体的特点,利用实体知识和非实体知识,定义模板实例见表1。
表1.领域知识模板实例
在模板实例表中,三个正例模板的[MASK]处分别填入“案件属性”,“依据法条”,“责任承担”。
步骤2.2,预定义模型空间的实体类别标签集L={l1,l2,…,l|L|}和语义空间的自然词集Y={y1,y2,…,y|L|},Y={Person,Case,Regulations,Responsibility,Compensate},人名实体匹配外部语料库中的类型。其中,|L|表示实体类别数,标签集和自然词集相对应。
步骤3,构建裁判文书命名实体识别模型,由Bert预训练模型、GPT生成式预训练模型连接组成。将步骤1中句子级裁判文书输入模型中,输出每个句子的词向量表示,通过步骤2.1构建的模板微调模型参数,输出融合模板信息的句子特征向量。
步骤3.1,获取句子级裁判文书的token嵌入向量U和位置嵌入向量P,n是句子中词的数量,令Z=U+P,Z是组合嵌入向量,将Z输入到Bert预训练模型中,每个头中自注意力层的计算过程见公式(4),(5),(6)。
融合底层的特征信息,即结合Q、K、V矩阵计算注意力权重矩阵A,计算过程见公式(7)。
矩阵A中每个元素aij表示qi与kj之间的权重参数。对于第i个词zi,将其前向和后向分别计算出的隐层状态和注意力权重组合起来,即可获得新的隐层状态hn,输出第i个句子的表示:Wi={wi,1,wi,2,wi,3,…,wi,n}。
步骤3.2,训练好Bert模型后,然后使用GPT生成式预训练模型作为隐变量解码器,由于模板中有[MASK]的存在,基于当前元素和掩码之前元素,预测第i个词出现的概率,结合步骤3.1隐变量hn和token嵌入向量,计算过程见公式(8),(9)。
h0=UWte+Wpe (8)
Wte表示token嵌入矩阵,Wpe表示位置嵌入矩阵,计算词wi的条件概率,依据概率值预测[MASK]处的类别信息,实现基于模板提示的微调操作。
对于第k个句子中的第t个token的标签,属于L类(L=1,2,3,4,5)的概率表示为[ft,1(Xk;hn),ft,2(Xk;hn),ft,3(Xk;hn),ft,4(Xk;hn),ft,5(Xk;hn)]。其中,ft,L(Xk;hn)表示第t个token属于第L类的概率,生成语义标签过程见公式(10),(11)。
其中,k表示文档中的句子数,n表示句子中的字数,Mk表示第k个句子的语义标签空间,mk,n表示第k个句子中第n个token所属标签子空间,由不同token的类别标签组成,计算属于第l类的token非归一化概率,生成较高置信度的类别标签。
步骤3.3,通过最小化损失函数,预测高置信度的类别标签。损失函数见公式(12)。
其中,l表示实体类别数,若第k个句子中第n个词的真实标签是l,那么mk,n,l=1,否则,mk,n,l=0;fn,l(Xk;h[MASK])表示模型预测出的第n个词属于第l类实体的概率,使用Adam算法优化实体标签分类结果。
本发明使用知识模板、标签词引导预训练模型,微调模型参数,结合模板提示输出实体类别标签,将标签映射到语义向量空间中。本发明随机抽取20篇文档测试,实验结果表明能正确识别出所有的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体,相对于通用领域和法律领域的其他实体识别方法,模型识别实体的准确率较高,较大程度上降低模型训练成本,提升了召回率和模型的性能。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.融合知识提示的法律文本小样本命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,从中国裁判文书网获取原始裁定书和判决书两类文书数据,构建裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类命名实体,通过去除停用词操作得到处理后的民事案件裁定书和判决书;
步骤2,构建裁判文书中的实体和非实体知识模板、标签词和自然词映射关系;
步骤3,构建裁判文书命名实体识别模型,模型由Bert预训练模型、GPT生成式预训练模型、全连接层组成,将句子级裁判文书序列输入模型中,Bert对句子进行编码,使用GPT模型解码,结合提示模板微调预训练模型,预测生成掩码处的实体类别标签,对每个实体的类别进行标签映射,构建损失函数优化标签分类结果。
3.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法,其特征在于:步骤3中生成文档的语义标签空间,最小化损失函数,优化标签分类结果;结合Bert预训练模型最后一层的隐变量hn和法律模板Template,利用GPT生成式预训练模型,使用公式h0=UWte+Wpe和预测掩码处的实体类型,U表示token嵌入向量,Wte表示token嵌入矩阵,Wpe表示位置嵌入矩阵;使用公式计算属于第l类的token非归一化概率,ft,L(Xk;hn)表示第t个token是第L类的概率,k、n分别表示第k个句子和第n个字;生成语义标签空间的公式是:表示第k个句子的语义标签空间;mk,n表示第k个句子中第n个token所属标签子空间,由不同token的类别标签组成;表示标签分类的损失函数;
通过生成语义标签空间,优化实体分类效果,其中,l表示实体类别数,若第k个句子中第n个词的真实标签是l,那么mk,n,l=1,否则,mk,n,l=0;fn,l(Xk;h[MASK])表示模型预测出的第n个词属于第l类实体的概率,提升了实体识别的召回率和模型的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535070.1A CN115062104A (zh) | 2022-05-17 | 2022-05-17 | 融合知识提示的法律文本小样本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535070.1A CN115062104A (zh) | 2022-05-17 | 2022-05-17 | 融合知识提示的法律文本小样本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062104A true CN115062104A (zh) | 2022-09-16 |
Family
ID=83199349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210535070.1A Pending CN115062104A (zh) | 2022-05-17 | 2022-05-17 | 融合知识提示的法律文本小样本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062104A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116306599A (zh) * | 2023-05-23 | 2023-06-23 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN117273003A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
-
2022
- 2022-05-17 CN CN202210535070.1A patent/CN115062104A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116011456B (zh) * | 2023-03-17 | 2023-06-06 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116822477A (zh) * | 2023-05-16 | 2023-09-29 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN116822477B (zh) * | 2023-05-16 | 2024-04-30 | 浙江法之道信息技术有限公司 | 一种法律文书自动生成系统 |
CN116306599A (zh) * | 2023-05-23 | 2023-06-23 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
CN116306599B (zh) * | 2023-05-23 | 2023-09-08 | 上海蜜度信息技术有限公司 | 基于生成文本的忠实度优化方法、系统、设备及存储介质 |
CN117273003A (zh) * | 2023-11-14 | 2023-12-22 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
CN117273003B (zh) * | 2023-11-14 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、模型训练方法以及命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110297870B (zh) | 一种金融领域中文新闻标题情感分类方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN110532557B (zh) | 一种无监督的文本相似度计算方法 | |
CN115062104A (zh) | 融合知识提示的法律文本小样本命名实体识别方法 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN108415906B (zh) | 基于领域自动识别篇章机器翻译方法、机器翻译系统 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN114238636A (zh) | 一种基于翻译匹配的跨语言属性级情感分类方法 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN112580330A (zh) | 基于中文触发词指导的越南语新闻事件检测方法 | |
CN116167379A (zh) | 一种基于bert和实体位置信息的实体关系抽取方法 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN113705222B (zh) | 槽识别模型训练方法及装置和槽填充方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |