CN114372470A - 基于边界检测和提示学习的中文法律文本实体识别方法 - Google Patents

基于边界检测和提示学习的中文法律文本实体识别方法 Download PDF

Info

Publication number
CN114372470A
CN114372470A CN202210279342.6A CN202210279342A CN114372470A CN 114372470 A CN114372470 A CN 114372470A CN 202210279342 A CN202210279342 A CN 202210279342A CN 114372470 A CN114372470 A CN 114372470A
Authority
CN
China
Prior art keywords
entity
text
module
boundary
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210279342.6A
Other languages
English (en)
Other versions
CN114372470B (zh
Inventor
李芳芳
彭亦楠
彭中礼
黎娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210279342.6A priority Critical patent/CN114372470B/zh
Publication of CN114372470A publication Critical patent/CN114372470A/zh
Application granted granted Critical
Publication of CN114372470B publication Critical patent/CN114372470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明中提供了一种基于边界检测和提示学习的中文法律文本实体识别方法,属于数据处理技术领域,具体包括:文本编码模块输出文本向量;将文本向量输入实体边界检测模块,输出文本中实体的边界检测结果;基于构建好的法律文本语料库进行进一步的领域预训练,得到适用于法律领域的预训练模型;在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;对实体边界检测模块和实体类型预测模块进行联合训练,得到适用于中文法律文本实体识别任务的模型。通过本发明的方案,提高了法律文本命名实体识别时的适应性和精准度。

Description

基于边界检测和提示学习的中文法律文本实体识别方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于边界检测和提示学习的中文法律文本实体识别方法。
背景技术
目前,随着我国法律法规的不断完善以及人民法律意识的不断提高,各类案件数量急剧增加,为目前司法领域的相关工作带来了极大的压力。而通过对法律文本进行命名实体识别,能够准确、高效地提取出法律文本中的关键信息,减轻司法部门工作压力,同时对案件分析、确定罪名等工作有着重要的辅助作用。因此,如何利用命名实体识别技术对法律文本进行命名实体识别成为了众多研究者攻克的热点问题。
目前处理中文法律文本命名实体识别任务的主流方法是基于深度学习的方法,其常见的做法是对文本进行编码后,利用深度学习模型捕获文本的语义特征,再输入到分类层对文本中的实体进行识别和分类。但是这种方法存在着一些不足:首先,中文不存在天然分隔符,在进行实体识别过程中,不仅需要考虑到文本的语义信息,还需要考虑到实体的边界信息。但目前的方法往往是只考虑到了文本的语义信息,或是只考虑到了实体的边界信息,没有将文本的语义信息和实体的边界信息综合起来考虑,从而导致后续实体识别的效果不佳。其次,目前的方法在进行法律文本命名实体识别任务时,往往是将其视为一个序列标注问题,即预测文本中的每一个字所属的标签,标签指示着当前字在实体中所处的位置以及该实体的类别,本质上属于一个多分类的问题。但法律文本属于特殊领域的文本,其具有专业性强、语境复杂、待识别实体类型多等特点,在对法律文本的每个字预测标签时,标签类别数较多,难以对每个字进行正确分类,这也导致了最后命名实体识别的效果不佳。
可见,亟需一种适应性和识别精度高的基于边界检测和提示学习的中文法律文本实体识别方法。
发明内容
有鉴于此,本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法,至少部分解决现有技术中存在对文本适应性和识别精准度较差的问题。
本发明提供了一种基于边界检测和提示学习的中文法律文本实体识别方法,包括:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
根据本发明的一种具体实现方式,所述步骤1具体包括:
步骤1.1,将文本输入文本编码模块,使用已公开的基于大规模中文新闻语料训练得到的字向量对输入的文本进行编码,得到文本的向量化表示
Figure DEST_PATH_IMAGE001
,其中,
Figure DEST_PATH_IMAGE002
表示文本的向量表示,
Figure DEST_PATH_IMAGE003
表示文本的长度,
Figure DEST_PATH_IMAGE004
表示编码维度。
根据本发明的一种具体实现方式,所述步骤2具体包括:
步骤2.1,将文本表示
Figure DEST_PATH_IMAGE005
分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示
Figure 895199DEST_PATH_IMAGE005
映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为文本表示
Figure 936973DEST_PATH_IMAGE005
经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,
Figure DEST_PATH_IMAGE008
为文本表示
Figure 716710DEST_PATH_IMAGE005
经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,
Figure DEST_PATH_IMAGE009
表示实体头部边界特征捕获模块的输出,
Figure DEST_PATH_IMAGE010
表示实体尾部边界特征捕获模块的输出;
步骤2.2,将文本表示
Figure 174237DEST_PATH_IMAGE005
输入到文本语义特征捕获模块中,对于文本语义特征捕获模块,使用双向长短期记忆网络来捕获文本的语义特征,具体计算方式如公式(5)所示:
Figure DEST_PATH_IMAGE011
其中
Figure DEST_PATH_IMAGE012
为文本表示
Figure 50926DEST_PATH_IMAGE005
经过实体语义特征捕获模块中双向长短期记忆网络之后的输出;
步骤2.3,将实体头部边界特征捕获模块的输出
Figure DEST_PATH_IMAGE013
和实体尾部边界特征捕获模块的输出
Figure 935705DEST_PATH_IMAGE010
输入到双仿射注意力机制模块中,具体计算方式如公式(6)和(7)所示:
Figure DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
分别为
Figure 265055DEST_PATH_IMAGE009
Figure 463955DEST_PATH_IMAGE010
的第
Figure DEST_PATH_IMAGE017
个元素;
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
为可训练的参数;
Figure DEST_PATH_IMAGE021
为双仿射注意力机制模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出
Figure 257468DEST_PATH_IMAGE012
输入到一个多层感知机中,再将多层感知机的输出
Figure DEST_PATH_IMAGE022
和双仿射注意力机制模块的输出
Figure 313149DEST_PATH_IMAGE021
相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界。具体计算方式如公式(8)、(9)所示:
Figure DEST_PATH_IMAGE023
其中
Figure DEST_PATH_IMAGE024
为实体边界检测模块的输出,其元素为文本中任意两个字是否形成实体边界的概率,根据计算出的概率即可得到实体边界识别的结果,同时利用交叉熵损失函数计算得出实体边界检测模块的损失
Figure DEST_PATH_IMAGE025
根据本发明的一种具体实现方式,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
根据本发明的一种具体实现方式,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.2,构建用于提示学习的模板
Figure DEST_PATH_IMAGE026
,具体如公式(10)所示:
Figure DEST_PATH_IMAGE027
其中,
Figure DEST_PATH_IMAGE028
为待进行实体识别的法律文本,
Figure DEST_PATH_IMAGE029
为一个分隔符号,
Figure DEST_PATH_IMAGE030
代表文本
Figure 192112DEST_PATH_IMAGE028
的一个实体片段,即实体边界检测模块预测出的实体片段,
Figure DEST_PATH_IMAGE031
表示随机初始化的向量表示,
Figure DEST_PATH_IMAGE032
表示需要预训练模型进行预测的词语;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测
Figure 827378DEST_PATH_IMAGE032
部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的
Figure DEST_PATH_IMAGE033
部分进行调整和优化,假设实体类型集合为
Figure DEST_PATH_IMAGE034
,输入文本为
Figure DEST_PATH_IMAGE035
,其包含的实体片段为
Figure DEST_PATH_IMAGE036
,对于一个实体类型
Figure DEST_PATH_IMAGE037
,其标签词集合为
Figure DEST_PATH_IMAGE038
,则
Figure DEST_PATH_IMAGE039
中的一个实体片段
Figure DEST_PATH_IMAGE040
类型被预测为
Figure DEST_PATH_IMAGE041
的概率为:
Figure 100002_DEST_PATH_IMAGE042
则实体类型预测模块的损失函数
Figure DEST_PATH_IMAGE043
为:
Figure DEST_PATH_IMAGE044
根据本发明的一种具体实现方式,所述步骤5具体包括:
步骤5.1,对实体边界检测模块和实体类型预测模块进行联合训练,将两个模块的联合损失降到最低,从而获得一个最优的法律文本命名实体识别模型,联合损失
Figure DEST_PATH_IMAGE045
计算方式为:
Figure DEST_PATH_IMAGE046
本发明中的基于边界检测和提示学习的中文法律文本实体识别方案,包括:步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
本发明的有益效果为:通过本发明的方案,将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中,在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,通过将实体的边界信息和语义信息相融合,能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。在实体类型预测模块中,本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数,只对构建的模板进行训练,这就大大降低了训练的成本,同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测,能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识,从而使得实体类型的预测结果更加精确。最后,通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型,提高了法律文本命名实体识别时的适应性和精准度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图;
图2为本发明提供的另一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图;
图3为本发明提供的实体边界检测模块预测结果示意图。
具体实施方式
下面结合附图对本发明进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法,所述方法可以应用于中文法律文本识别过程中。
参见图1,为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
具体实施时,本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,在中文法律文本命名实体识别任务中,将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体边界检测模块中捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,将实体的边界信息和语义信息相融合后进行实体边界检测。通过这种方式能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出通过构建法律文本语料库,对已开源的中文预训练模型进行进一步的领域预训练,使得预训练模型能够学习到法律领域文本的数据分布,从而提升预训练模型在法律文本命名实体识别任务中的能力。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体类型预测模块构建适用于命名实体识别任务的模板后,以模板和经过领域预训练的预训练模型为基础,基于提示学习思想进行实体类型识别。通过这种方式能够使得训练的成本大大降低,充分保留预训练模型的语言知识,让模型在进行实体类型预测的过程中能够充分利用到预训练模型丰富的语言知识,从而提高实体类型预测的效果。
所述基于边界检测和提示学习的中文法律文本实体识别方法通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。
本发明提供的基于边界检测和提示学习的中文法律文本实体识别方法,通过将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中,在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,通过将实体的边界信息和语义信息相融合,能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。在实体类型预测模块中,本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数,只对构建的模板进行训练,这就大大降低了训练的成本,同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测,能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识,从而使得实体类型的预测结果更加精确。最后,通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。通过这种方式也能够有效解决利用传统命名实体识别方法进行法律文本命名实体识别任务时难度大、精度低的问题,提高了法律文本命名实体识别时的适应性和精准度。
在上述实施例的基础上,所述步骤1具体包括:
步骤1.1,将文本输入文本编码模块,使用已公开的基于大规模中文新闻语料训练得到的字向量对输入的文本进行编码,得到文本的向量化表示
Figure DEST_PATH_IMAGE047
,其中,
Figure 662348DEST_PATH_IMAGE005
表示文本的向量表示,
Figure DEST_PATH_IMAGE048
表示文本的长度,
Figure DEST_PATH_IMAGE049
表示编码维度。
可选的,所述步骤2具体包括:
步骤2.1,将文本表示
Figure DEST_PATH_IMAGE050
分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
Figure DEST_PATH_IMAGE051
其中,
Figure DEST_PATH_IMAGE052
为文本表示
Figure DEST_PATH_IMAGE053
经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,
Figure DEST_PATH_IMAGE054
为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,
Figure DEST_PATH_IMAGE055
表示实体头部边界特征捕获模块的输出,
Figure DEST_PATH_IMAGE056
表示实体尾部边界特征捕获模块的输出;
步骤2.2,将文本表示
Figure DEST_PATH_IMAGE057
输入到文本语义特征捕获模块中,对于文本语义特征捕获模块,使用双向长短期记忆网络来捕获文本的语义特征,具体计算方式如公式(5)所示:
Figure DEST_PATH_IMAGE058
其中
Figure DEST_PATH_IMAGE059
为文本表示
Figure 341460DEST_PATH_IMAGE057
经过实体语义特征捕获模块中双向长短期记忆网络之后的输出;
步骤2.3,将实体头部边界特征捕获模块的输出
Figure DEST_PATH_IMAGE060
和实体尾部边界特征捕获模块的输出
Figure DEST_PATH_IMAGE061
输入到双仿射注意力机制模块中,具体计算方式如公式(6)和(7)所示:
Figure DEST_PATH_IMAGE062
其中,
Figure DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
分别为
Figure 645402DEST_PATH_IMAGE060
Figure 982842DEST_PATH_IMAGE061
的第
Figure DEST_PATH_IMAGE065
个元素;
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE068
为可训练的参数;
Figure DEST_PATH_IMAGE069
为双仿射注意力机制模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出
Figure DEST_PATH_IMAGE070
输入到一个多层感知机中,再将多层感知机的输出
Figure DEST_PATH_IMAGE071
和双仿射注意力机制模块的输出
Figure DEST_PATH_IMAGE072
相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界。具体计算方式如公式(8)、(9)所示:
Figure DEST_PATH_IMAGE073
其中
Figure DEST_PATH_IMAGE074
为实体边界检测模块的输出,其元素为文本中任意两个字是否形成实体边界的概率,根据计算出的概率即可得到实体边界识别的结果,同时利用交叉熵损失函数计算得出实体边界检测模块的损失
Figure DEST_PATH_IMAGE075
例如,所述基于边界检测和提示学习的中文法律文本实体识别方法,所述实体边界检测模块,目的是将实体的边界信息和语义信息相融合来进行实体边界检测,得到实体边界识别的结果,为后续实体类型预测模块提供良好的基础。例如,对于句子:“被告人王某甲已被逮捕”,实体边界检测模块会预测出文本中每两个字能否形成实体边界,如图3所示:
其中“0”代表文本中的两个字不是实体的边界;“1”代表文本中的两个字是实体的边界。在此句子中,实体边界检测模块预测出“王”和“甲”两个字能够构成一个实体的边界,即可获得实体片段“王某甲”。
进一步的,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
例如,可以通过整理和筛选,选择出了24万条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库,用于后续对已开源的中文预训练模型进行进一步的领域预训练。然后以哈工大发布的在中文维基语料库上训练得到的预训练模型BERT-base为基础,利用已构建好的法律文本语料库,使用Masked Language Model(MLM)和NextSentence Prediction (NSP)两个无监督任务对预训练模型BERT-base进行进一步的领域预训练。Masked Language Model任务的主要原理是随机将输入中15%的词遮盖起来,再通过其他词预测被遮盖的词。同时在遮盖的过程中,为了缓解数据分布偏差,BERT 并不总是将词直接进行遮盖,80% 的概率会以“[MASK]”标记对其进行遮盖,10% 的概率将其换成一个随机词,剩下10%的概率不进行替换,还用原来的词。通过该任务可以学习到词的上下文特征、语法结构特征、句法特征等,保证了特征提取的全面性。而Next SentencePrediction任务的主要目的是通过迭代训练学习到样本中两个句子之间的关系。如对样本中的两个句子A和B,若B被预测为是A的真实的后一句,则标签为IsNext;若是语料库中的随机一句,则标签为NotNext。通过Masked Language Model和Next Sentence Prediction两个预训练任务,得到了基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述构建法律文本语料库并对已开源的中文预训练模型进行进一步的领域预训练,目的是让预训练模型能够充分学习到法律领域文本的数据分布,提升其在法律文本命名实体识别任务中的能力。
在上述实施例的基础上,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.2,构建用于提示学习的模板
Figure DEST_PATH_IMAGE076
,具体如公式(10)所示:
Figure DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE078
为待进行实体识别的法律文本,
Figure DEST_PATH_IMAGE079
为一个分隔符号,
Figure DEST_PATH_IMAGE080
代表文本
Figure DEST_PATH_IMAGE081
的一个实体片段,即实体边界检测模块预测出的实体片段,
Figure DEST_PATH_IMAGE082
表示随机初始化的向量表示,
Figure DEST_PATH_IMAGE083
表示需要预训练模型进行预测的词语;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测
Figure 937898DEST_PATH_IMAGE083
部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的
Figure 273064DEST_PATH_IMAGE082
部分进行调整和优化,假设实体类型集合为
Figure DEST_PATH_IMAGE084
,输入文本为
Figure 64303DEST_PATH_IMAGE081
,其包含的实体片段为
Figure DEST_PATH_IMAGE085
,对于一个实体类型
Figure DEST_PATH_IMAGE086
,其标签词集合为
Figure DEST_PATH_IMAGE087
,则
Figure DEST_PATH_IMAGE088
中的一个实体片段
Figure DEST_PATH_IMAGE089
类型被预测为
Figure DEST_PATH_IMAGE090
的概率为:
Figure DEST_PATH_IMAGE091
则实体类型预测模块的损失函数
Figure DEST_PATH_IMAGE092
为:
Figure DEST_PATH_IMAGE093
例如,对于“被害人”实体,其标签词集合中包含:“受害人”, “事主”, “被害者”,“受害者” , “遇害者”等词语。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述实体类型预测模块,目的是基于提示学习的思想,以构建好的模板和经过领域预训练的预训练模型为基础,利用预训练模型丰富的语言知识预测出实体片段所属的类型。例如,对于句子:“被告人王某甲已被逮捕”,根据实体边界检测模块的输出结果能够获取到实体片段“王某甲”,然后实体类型预测模块会输出实体片段“王某甲”的实体类型:被害人。
进一步的,所述步骤5具体包括:
步骤5.1,对实体边界检测模块和实体类型预测模块进行联合训练,将两个模块的联合损失降到最低,从而获得一个最优的法律文本命名实体识别模型,联合损失
Figure DEST_PATH_IMAGE094
计算方式为:
Figure DEST_PATH_IMAGE095
具体实施时,本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述对实体边界检测模块和实体类型预测模块进行联合训练的主要目的是对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于边界检测和提示学习的中文法律文本实体识别方法,其特征在于,包括:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤1.1,将文本输入文本编码模块,使用已公开的基于大规模中文新闻语料训练得到的字向量对输入的文本进行编码,得到文本的向量化表示
Figure 782879DEST_PATH_IMAGE001
,其中,
Figure 44227DEST_PATH_IMAGE002
表示文本的向量表示,
Figure 292806DEST_PATH_IMAGE003
表示文本的长度,
Figure 281491DEST_PATH_IMAGE004
表示编码维度。
3.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤2.1,将文本表示
Figure 564704DEST_PATH_IMAGE002
分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示
Figure 996954DEST_PATH_IMAGE002
映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
Figure 732829DEST_PATH_IMAGE005
Figure 525204DEST_PATH_IMAGE006
其中,
Figure 662924DEST_PATH_IMAGE007
为文本表示
Figure 496DEST_PATH_IMAGE002
经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,
Figure 223667DEST_PATH_IMAGE008
为文本表示
Figure 695100DEST_PATH_IMAGE002
经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,
Figure 811960DEST_PATH_IMAGE009
表示实体头部边界特征捕获模块的输出,
Figure 710646DEST_PATH_IMAGE010
表示实体尾部边界特征捕获模块的输出;
步骤2.2,将文本表示
Figure 576707DEST_PATH_IMAGE002
输入到文本语义特征捕获模块中,对于文本语义特征捕获模块,使用双向长短期记忆网络来捕获文本的语义特征,具体计算方式如公式(5)所示:
Figure 320672DEST_PATH_IMAGE011
其中
Figure 557618DEST_PATH_IMAGE012
为文本表示
Figure 361626DEST_PATH_IMAGE002
经过实体语义特征捕获模块中双向长短期记忆网络之后的输出;
步骤2.3,将实体头部边界特征捕获模块的输出
Figure 824969DEST_PATH_IMAGE009
和实体尾部边界特征捕获模块的输出
Figure 247991DEST_PATH_IMAGE010
输入到双仿射注意力机制模块中,具体计算方式如公式(6)和(7)所示:
Figure 214810DEST_PATH_IMAGE013
其中,
Figure 579932DEST_PATH_IMAGE014
Figure 264991DEST_PATH_IMAGE015
分别为
Figure 491704DEST_PATH_IMAGE009
Figure 313030DEST_PATH_IMAGE010
的第
Figure 989999DEST_PATH_IMAGE016
个元素;
Figure 21409DEST_PATH_IMAGE017
Figure 910867DEST_PATH_IMAGE018
Figure 727645DEST_PATH_IMAGE019
为可训练的参数;
Figure 309936DEST_PATH_IMAGE020
为双仿射注意力机制模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出
Figure 94221DEST_PATH_IMAGE012
输入到一个多层感知机中,再将多层感知机的输出
Figure 787371DEST_PATH_IMAGE021
和双仿射注意力机制模块的输出
Figure 190146DEST_PATH_IMAGE022
相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界,具体计算方式如公式(8)、(9)所示:
Figure 943338DEST_PATH_IMAGE023
其中
Figure 90286DEST_PATH_IMAGE024
为实体边界检测模块的输出,其元素为文本中任意两个字是否形成实体边界的概率,根据计算出的概率即可得到实体边界识别的结果,同时利用交叉熵损失函数计算得出实体边界检测模块的损失
Figure 711760DEST_PATH_IMAGE025
4.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
5.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.2,构建用于提示学习的模板
Figure 362184DEST_PATH_IMAGE026
,具体如公式(10)所示:
Figure 896065DEST_PATH_IMAGE028
其中,
Figure 264729DEST_PATH_IMAGE029
为待进行实体识别的法律文本,
Figure 424315DEST_PATH_IMAGE030
为一个分隔符号,
Figure 194825DEST_PATH_IMAGE031
代表文本
Figure 899607DEST_PATH_IMAGE029
的一个实体片段,即实体边界检测模块预测出的实体片段,
Figure 755567DEST_PATH_IMAGE032
表示随机初始化的向量表示,
Figure 718844DEST_PATH_IMAGE033
表示需要预训练模型进行预测的词语;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测
Figure 78281DEST_PATH_IMAGE033
部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的
Figure 485123DEST_PATH_IMAGE032
部分进行调整和优化,假设实体类型集合为
Figure 562800DEST_PATH_IMAGE034
,输入文本为
Figure 329768DEST_PATH_IMAGE029
,其包含的实体片段为
Figure 809291DEST_PATH_IMAGE035
,对于一个实体类型
Figure 511668DEST_PATH_IMAGE036
,其标签词集合为
Figure 954937DEST_PATH_IMAGE037
,则
Figure 135383DEST_PATH_IMAGE031
中的一个实体片段类型被预测为
Figure 594046DEST_PATH_IMAGE036
的概率为:
Figure 467324DEST_PATH_IMAGE038
则实体类型预测模块的损失函数
Figure 394960DEST_PATH_IMAGE039
为:
Figure 113517DEST_PATH_IMAGE040
6.根据权利要求1所述的方法,其特征在于,所述步骤5具体包括:
步骤5.1,对实体边界检测模块和实体类型预测模块进行联合训练,将两个模块的联合损失降到最低,从而获得一个最优的法律文本命名实体识别模型,联合损失
Figure 692266DEST_PATH_IMAGE041
计算方式为:
Figure DEST_PATH_IMAGE042
CN202210279342.6A 2022-03-22 2022-03-22 基于边界检测和提示学习的中文法律文本实体识别方法 Active CN114372470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279342.6A CN114372470B (zh) 2022-03-22 2022-03-22 基于边界检测和提示学习的中文法律文本实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279342.6A CN114372470B (zh) 2022-03-22 2022-03-22 基于边界检测和提示学习的中文法律文本实体识别方法

Publications (2)

Publication Number Publication Date
CN114372470A true CN114372470A (zh) 2022-04-19
CN114372470B CN114372470B (zh) 2022-07-29

Family

ID=81145620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279342.6A Active CN114372470B (zh) 2022-03-22 2022-03-22 基于边界检测和提示学习的中文法律文本实体识别方法

Country Status (1)

Country Link
CN (1) CN114372470B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN117574159A (zh) * 2024-01-12 2024-02-20 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质
CN113886571A (zh) * 2020-07-01 2022-01-04 北京三星通信技术研究有限公司 实体识别方法、装置、电子设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886571A (zh) * 2020-07-01 2022-01-04 北京三星通信技术研究有限公司 实体识别方法、装置、电子设备及计算机可读存储介质
WO2022005188A1 (en) * 2020-07-01 2022-01-06 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN112215004A (zh) * 2020-09-04 2021-01-12 中国电子科技集团公司第二十八研究所 一种基于迁移学习在军事装备文本实体抽取中的应用方法
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法
CN113468330A (zh) * 2021-07-06 2021-10-01 北京有竹居网络技术有限公司 信息获取方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高隽: "面向法律庭审记录文书的发言人指代消解研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011456A (zh) * 2023-03-17 2023-04-25 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统
CN116011456B (zh) * 2023-03-17 2023-06-06 北京建筑大学 基于提示学习的中文建筑规范文本实体识别方法及系统
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116579345B (zh) * 2023-07-14 2023-10-24 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN117574159A (zh) * 2024-01-12 2024-02-20 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统
CN117574159B (zh) * 2024-01-12 2024-05-10 北京华品博睿网络技术有限公司 一种预训练模型的训练方法及系统

Also Published As

Publication number Publication date
CN114372470B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
Zhao et al. Generating natural adversarial examples
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN110119786B (zh) 文本话题分类方法及装置
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
CN114372470B (zh) 基于边界检测和提示学习的中文法律文本实体识别方法
CN112784578B (zh) 法律要素提取方法、装置和电子设备
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN111597803B (zh) 一种要素提取方法、装置、电子设备及存储介质
CN109783636B (zh) 一种基于分类器链的汽车评论主题提取方法
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112257444B (zh) 金融信息负面实体发现方法、装置、电子设备及存储介质
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
Mu et al. A character-level BiLSTM-CRF model with multi-representations for Chinese event detection
Vinitha et al. Error detection in indic ocrs
CN112541082A (zh) 一种文本情感分类方法及系统
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant