CN114372470A - 基于边界检测和提示学习的中文法律文本实体识别方法 - Google Patents
基于边界检测和提示学习的中文法律文本实体识别方法 Download PDFInfo
- Publication number
- CN114372470A CN114372470A CN202210279342.6A CN202210279342A CN114372470A CN 114372470 A CN114372470 A CN 114372470A CN 202210279342 A CN202210279342 A CN 202210279342A CN 114372470 A CN114372470 A CN 114372470A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- module
- boundary
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明中提供了一种基于边界检测和提示学习的中文法律文本实体识别方法,属于数据处理技术领域,具体包括:文本编码模块输出文本向量;将文本向量输入实体边界检测模块,输出文本中实体的边界检测结果;基于构建好的法律文本语料库进行进一步的领域预训练,得到适用于法律领域的预训练模型;在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;对实体边界检测模块和实体类型预测模块进行联合训练,得到适用于中文法律文本实体识别任务的模型。通过本发明的方案,提高了法律文本命名实体识别时的适应性和精准度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于边界检测和提示学习的中文法律文本实体识别方法。
背景技术
目前,随着我国法律法规的不断完善以及人民法律意识的不断提高,各类案件数量急剧增加,为目前司法领域的相关工作带来了极大的压力。而通过对法律文本进行命名实体识别,能够准确、高效地提取出法律文本中的关键信息,减轻司法部门工作压力,同时对案件分析、确定罪名等工作有着重要的辅助作用。因此,如何利用命名实体识别技术对法律文本进行命名实体识别成为了众多研究者攻克的热点问题。
目前处理中文法律文本命名实体识别任务的主流方法是基于深度学习的方法,其常见的做法是对文本进行编码后,利用深度学习模型捕获文本的语义特征,再输入到分类层对文本中的实体进行识别和分类。但是这种方法存在着一些不足:首先,中文不存在天然分隔符,在进行实体识别过程中,不仅需要考虑到文本的语义信息,还需要考虑到实体的边界信息。但目前的方法往往是只考虑到了文本的语义信息,或是只考虑到了实体的边界信息,没有将文本的语义信息和实体的边界信息综合起来考虑,从而导致后续实体识别的效果不佳。其次,目前的方法在进行法律文本命名实体识别任务时,往往是将其视为一个序列标注问题,即预测文本中的每一个字所属的标签,标签指示着当前字在实体中所处的位置以及该实体的类别,本质上属于一个多分类的问题。但法律文本属于特殊领域的文本,其具有专业性强、语境复杂、待识别实体类型多等特点,在对法律文本的每个字预测标签时,标签类别数较多,难以对每个字进行正确分类,这也导致了最后命名实体识别的效果不佳。
可见,亟需一种适应性和识别精度高的基于边界检测和提示学习的中文法律文本实体识别方法。
发明内容
有鉴于此,本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法,至少部分解决现有技术中存在对文本适应性和识别精准度较差的问题。
本发明提供了一种基于边界检测和提示学习的中文法律文本实体识别方法,包括:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
根据本发明的一种具体实现方式,所述步骤1具体包括:
根据本发明的一种具体实现方式,所述步骤2具体包括:
步骤2.1,将文本表示分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
其中,为文本表示经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,表示实体头部边界特征捕获模块的输出,表示实体尾部边界特征捕获模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出输入到一个多层感知机中,再将多层感知机的输出和双仿射注意力机制模块的输出相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界。具体计算方式如公式(8)、(9)所示:
根据本发明的一种具体实现方式,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
根据本发明的一种具体实现方式,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的部分进行调整和优化,假设实体类型集合为,输入文本为,其包含的实体片段为,对于一个实体类型,其标签词集合为,则中的一个实体片段类型被预测为的概率为:
根据本发明的一种具体实现方式,所述步骤5具体包括:
本发明中的基于边界检测和提示学习的中文法律文本实体识别方案,包括:步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
本发明的有益效果为:通过本发明的方案,将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中,在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,通过将实体的边界信息和语义信息相融合,能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。在实体类型预测模块中,本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数,只对构建的模板进行训练,这就大大降低了训练的成本,同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测,能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识,从而使得实体类型的预测结果更加精确。最后,通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型,提高了法律文本命名实体识别时的适应性和精准度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图;
图2为本发明提供的另一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图;
图3为本发明提供的实体边界检测模块预测结果示意图。
具体实施方式
下面结合附图对本发明进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明提供一种基于边界检测和提示学习的中文法律文本实体识别方法,所述方法可以应用于中文法律文本识别过程中。
参见图1,为本发明提供的一种基于边界检测和提示学习的中文法律文本实体识别方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
具体实施时,本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,在中文法律文本命名实体识别任务中,将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体边界检测模块中捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,将实体的边界信息和语义信息相融合后进行实体边界检测。通过这种方式能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出通过构建法律文本语料库,对已开源的中文预训练模型进行进一步的领域预训练,使得预训练模型能够学习到法律领域文本的数据分布,从而提升预训练模型在法律文本命名实体识别任务中的能力。
所述基于边界检测和提示学习的中文法律文本实体识别方法提出在实体类型预测模块构建适用于命名实体识别任务的模板后,以模板和经过领域预训练的预训练模型为基础,基于提示学习思想进行实体类型识别。通过这种方式能够使得训练的成本大大降低,充分保留预训练模型的语言知识,让模型在进行实体类型预测的过程中能够充分利用到预训练模型丰富的语言知识,从而提高实体类型预测的效果。
所述基于边界检测和提示学习的中文法律文本实体识别方法通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。
本发明提供的基于边界检测和提示学习的中文法律文本实体识别方法,通过将中文法律文本实体识别任务视为实体边界识别和实体类型预测两个子任务,并设计了实体边界检测模块和实体类型预测模块来分别处理两个子任务。在实体边界检测模块中,在捕获实体头部边界特征、实体尾部边界特征和文本语义特征后,通过将实体的边界信息和语义信息相融合,能够使得实体边界检测模块具备更好地识别实体边界的能力,提升实体边界识别的效果。在实体类型预测模块中,本发明基于提示学习来对实体的类型进行预测。提示学习在训练的过程中会冻结预训练模型的参数,只对构建的模板进行训练,这就大大降低了训练的成本,同时也不会在训练过程中对预训练模型的语言知识造成丢失。因此通过提示学习的方式对实体的类型进行预测,能够在进行实体类型预测的过程中充分利用到预训练模型丰富的语言知识,从而使得实体类型的预测结果更加精确。最后,通过对实体边界检测模块和实体类型预测模块进行联合训练,能够对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。通过这种方式也能够有效解决利用传统命名实体识别方法进行法律文本命名实体识别任务时难度大、精度低的问题,提高了法律文本命名实体识别时的适应性和精准度。
在上述实施例的基础上,所述步骤1具体包括:
可选的,所述步骤2具体包括:
步骤2.1,将文本表示分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
其中,为文本表示经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,表示实体头部边界特征捕获模块的输出,表示实体尾部边界特征捕获模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出输入到一个多层感知机中,再将多层感知机的输出和双仿射注意力机制模块的输出相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界。具体计算方式如公式(8)、(9)所示:
例如,所述基于边界检测和提示学习的中文法律文本实体识别方法,所述实体边界检测模块,目的是将实体的边界信息和语义信息相融合来进行实体边界检测,得到实体边界识别的结果,为后续实体类型预测模块提供良好的基础。例如,对于句子:“被告人王某甲已被逮捕”,实体边界检测模块会预测出文本中每两个字能否形成实体边界,如图3所示:
其中“0”代表文本中的两个字不是实体的边界;“1”代表文本中的两个字是实体的边界。在此句子中,实体边界检测模块预测出“王”和“甲”两个字能够构成一个实体的边界,即可获得实体片段“王某甲”。
进一步的,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
例如,可以通过整理和筛选,选择出了24万条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库,用于后续对已开源的中文预训练模型进行进一步的领域预训练。然后以哈工大发布的在中文维基语料库上训练得到的预训练模型BERT-base为基础,利用已构建好的法律文本语料库,使用Masked Language Model(MLM)和NextSentence Prediction (NSP)两个无监督任务对预训练模型BERT-base进行进一步的领域预训练。Masked Language Model任务的主要原理是随机将输入中15%的词遮盖起来,再通过其他词预测被遮盖的词。同时在遮盖的过程中,为了缓解数据分布偏差,BERT 并不总是将词直接进行遮盖,80% 的概率会以“[MASK]”标记对其进行遮盖,10% 的概率将其换成一个随机词,剩下10%的概率不进行替换,还用原来的词。通过该任务可以学习到词的上下文特征、语法结构特征、句法特征等,保证了特征提取的全面性。而Next SentencePrediction任务的主要目的是通过迭代训练学习到样本中两个句子之间的关系。如对样本中的两个句子A和B,若B被预测为是A的真实的后一句,则标签为IsNext;若是语料库中的随机一句,则标签为NotNext。通过Masked Language Model和Next Sentence Prediction两个预训练任务,得到了基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述构建法律文本语料库并对已开源的中文预训练模型进行进一步的领域预训练,目的是让预训练模型能够充分学习到法律领域文本的数据分布,提升其在法律文本命名实体识别任务中的能力。
在上述实施例的基础上,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的部分进行调整和优化,假设实体类型集合为,输入文本为,其包含的实体片段为,对于一个实体类型,其标签词集合为,则中的一个实体片段类型被预测为的概率为:
例如,对于“被害人”实体,其标签词集合中包含:“受害人”, “事主”, “被害者”,“受害者” , “遇害者”等词语。本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述实体类型预测模块,目的是基于提示学习的思想,以构建好的模板和经过领域预训练的预训练模型为基础,利用预训练模型丰富的语言知识预测出实体片段所属的类型。例如,对于句子:“被告人王某甲已被逮捕”,根据实体边界检测模块的输出结果能够获取到实体片段“王某甲”,然后实体类型预测模块会输出实体片段“王某甲”的实体类型:被害人。
进一步的,所述步骤5具体包括:
具体实施时,本发明的上述实施例所述的基于边界检测和提示学习的中文法律文本实体识别方法,所述对实体边界检测模块和实体类型预测模块进行联合训练的主要目的是对两个模块的效果共同进行优化,最终得到适用于中文法律文本实体识别任务的模型。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种基于边界检测和提示学习的中文法律文本实体识别方法,其特征在于,包括:
步骤1,将文本输入文本编码模块,文本编码模块输出文本向量;
步骤2,将文本向量输入实体边界检测模块,捕获实体头部边界特征、实体尾部边界特征和文本语义特征,输出文本中实体的边界检测结果;
步骤3,构建法律文本语料库,基于构建好的法律文本语料库对已开源的中文预训练模型进行进一步的领域预训练,得到适用于法律领域的预训练模型;
步骤4,在实体类型预测模块中,基于提示学习思想,根据实体边界检测模块输出的结果构建适用于命名实体识别任务的模板,再利用模板和预训练模型进行提示学习,输出实体类型的预测结果;
步骤5,对实体边界检测模块和实体类型预测模块进行联合训练,最终得到适用于中文法律文本实体识别任务的模型。
3.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤2.1,将文本表示分别输入到实体边界头部特征捕获模块和实体边界尾部特征捕获模块中,捕获实体的头部信息和尾部信息,其中,所述实体边界头部特征捕获模块和所述实体边界尾部特征捕获模块均使用门控循环神经网络和一个多层感知机来将文本表示映射到实体头部和尾部向量表示空间,具体计算方式如公式(1)、(2)、(3)和(4)所示:
其中,为文本表示经过实体头部边界特征捕获模块中门控循环神经网络之后的输出,为文本表示经过实体尾部边界特征捕获模块中门控循环神经网络之后的输出,表示实体头部边界特征捕获模块的输出,表示实体尾部边界特征捕获模块的输出;
步骤2.4,将文本语义特征捕获模块中双向长短期记忆网络的输出输入到一个多层感知机中,再将多层感知机的输出和双仿射注意力机制模块的输出相加,并输入到Softmax层中进行分类,从而判断文本中的任意两个字是否为一个实体的边界,具体计算方式如公式(8)、(9)所示:
4.根据权利要求1所述的方法,其特征在于,所述步骤3具体包括:
步骤3.1,通过整理和筛选,选择出了多条法律文本,并在不破坏文本语义的基础上,将每条长度大于512的文本截断为长度小于512的多条短文本,并将文本数据以一行一条的形式构建成法律文本语料库;
步骤3.2,利用构建好的法律文本语料库使用掩码语言模型任务和下一句预测任务两个无监督任务对预训练模型BERT-base进行进一步的领域预训练,得到基于法律文本语料库进行进一步领域预训练之后的BERT-base模型。
5.根据权利要求1所述的方法,其特征在于,所述步骤4具体包括:
步骤4.1,根据法律文本实体识别任务中待识别的实体类别,利用同义词词典找到每一个实体类别的同义词,并将这些同义词作为该实体类别的标签词,构建出该实体类别的标签词集合;
步骤4.3,对构建好的模板进行训练,在实体类型预测模块,利用构建好的模板和进行了领域预训练的预训练模型来预测文本中实体片段的类别,在训练过程中,利用预训练模型来预测部分出现的词语,同时在训练过程中冻结预训练模型的参数,只对模板中的部分进行调整和优化,假设实体类型集合为,输入文本为,其包含的实体片段为,对于一个实体类型,其标签词集合为,则中的一个实体片段类型被预测为的概率为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279342.6A CN114372470B (zh) | 2022-03-22 | 2022-03-22 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279342.6A CN114372470B (zh) | 2022-03-22 | 2022-03-22 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114372470A true CN114372470A (zh) | 2022-04-19 |
CN114372470B CN114372470B (zh) | 2022-07-29 |
Family
ID=81145620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210279342.6A Active CN114372470B (zh) | 2022-03-22 | 2022-03-22 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372470B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116579345A (zh) * | 2023-07-14 | 2023-08-11 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN117574159A (zh) * | 2024-01-12 | 2024-02-20 | 北京华品博睿网络技术有限公司 | 一种预训练模型的训练方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215004A (zh) * | 2020-09-04 | 2021-01-12 | 中国电子科技集团公司第二十八研究所 | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113468330A (zh) * | 2021-07-06 | 2021-10-01 | 北京有竹居网络技术有限公司 | 信息获取方法、装置、设备及介质 |
CN113886571A (zh) * | 2020-07-01 | 2022-01-04 | 北京三星通信技术研究有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
-
2022
- 2022-03-22 CN CN202210279342.6A patent/CN114372470B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886571A (zh) * | 2020-07-01 | 2022-01-04 | 北京三星通信技术研究有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
WO2022005188A1 (en) * | 2020-07-01 | 2022-01-06 | Samsung Electronics Co., Ltd. | Entity recognition method, apparatus, electronic device and computer readable storage medium |
CN112215004A (zh) * | 2020-09-04 | 2021-01-12 | 中国电子科技集团公司第二十八研究所 | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 |
CN112446216A (zh) * | 2021-02-01 | 2021-03-05 | 华东交通大学 | 一种融合中心词信息的嵌套命名实体识别方法与装置 |
CN112989835A (zh) * | 2021-04-21 | 2021-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113468330A (zh) * | 2021-07-06 | 2021-10-01 | 北京有竹居网络技术有限公司 | 信息获取方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
高隽: "面向法律庭审记录文书的发言人指代消解研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅰ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116011456A (zh) * | 2023-03-17 | 2023-04-25 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116011456B (zh) * | 2023-03-17 | 2023-06-06 | 北京建筑大学 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
CN116579345A (zh) * | 2023-07-14 | 2023-08-11 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN116579345B (zh) * | 2023-07-14 | 2023-10-24 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN117574159A (zh) * | 2024-01-12 | 2024-02-20 | 北京华品博睿网络技术有限公司 | 一种预训练模型的训练方法及系统 |
CN117574159B (zh) * | 2024-01-12 | 2024-05-10 | 北京华品博睿网络技术有限公司 | 一种预训练模型的训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114372470B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Generating natural adversarial examples | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
Niu et al. | Multi-modal multi-scale deep learning for large-scale image annotation | |
CN114372470B (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN112784578B (zh) | 法律要素提取方法、装置和电子设备 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN111597803B (zh) | 一种要素提取方法、装置、电子设备及存储介质 | |
CN109783636B (zh) | 一种基于分类器链的汽车评论主题提取方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN115221325A (zh) | 一种基于标签语义学习和注意力调整机制的文本分类方法 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
CN113722490A (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN114328934A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Mu et al. | A character-level BiLSTM-CRF model with multi-representations for Chinese event detection | |
Vinitha et al. | Error detection in indic ocrs | |
CN112541082A (zh) | 一种文本情感分类方法及系统 | |
Ahmad et al. | Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |