CN114036933A - 基于法律文书的信息抽取方法 - Google Patents
基于法律文书的信息抽取方法 Download PDFInfo
- Publication number
- CN114036933A CN114036933A CN202210019571.4A CN202210019571A CN114036933A CN 114036933 A CN114036933 A CN 114036933A CN 202210019571 A CN202210019571 A CN 202210019571A CN 114036933 A CN114036933 A CN 114036933A
- Authority
- CN
- China
- Prior art keywords
- legal document
- legal
- word
- words
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 114
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 101100533306 Mus musculus Setx gene Proteins 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- CZPRKINNVBONSF-UHFFFAOYSA-M zinc;dioxido(oxo)phosphanium Chemical compound [Zn+2].[O-][P+]([O-])=O CZPRKINNVBONSF-UHFFFAOYSA-M 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 4
- 235000017491 Bambusa tulda Nutrition 0.000 description 4
- 241001330002 Bambuseae Species 0.000 description 4
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 4
- 239000011425 bamboo Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241000196324 Embryophyta Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 241000009328 Perro Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种基于法律文书的信息抽取方法,包括:步骤1,获取法律文书无监督数据,对法律文书无监督数据进行数据预处理及数据清洗,去除法律文书无监督数据中的噪声,形成基于法律文书的语料库;步骤2,对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现,得到初步法律文书领域词典候选集,对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理,得到最终的法律文书领域词典。本发明语义理解能力强,减少了人工标注,增强了对通用词汇的学习能力,精度高,为法律文书的其它下游任务或其它领域的信息抽取提供参考,会使得模型获得更好的泛化性能,提升模型对于实体分类的效果。
Description
技术领域
本发明涉及信息抽取技术领域,特别涉及一种基于法律文书的信息抽取方法。
背景技术
现有的专门针对法律文书数据做命名实体提取的模型方法还很匮乏,且有标注的高质量法律文书数据非常稀缺。另一方面,开放的无人工标注的法律文书数据一般数量巨大,较容易获取,且随着时间的发展会产生大量的新数据,但获取到的数据常常属于原始的纯文本数据,对于基于有监督学习的模型,面对这些数据将显得无能为力。其次,法律文书往往存在许多专有名词和专业术语,即具有较强的领域性,通用的模型一般难以考虑数据的领域性。
法律文书的信息抽取是一项新兴的业务需求,近年来,随着以裁判文书为代表的司法大数据不断公开,以及自然语言处理技术的不断发展突破,如何将人工智能技术应用在司法领域,辅助司法工作者提升案件处理的效率和公正性,逐渐成为法律智能研究的热点。其中对于提取文书中的某些重要信息的需求,如罪名、犯罪嫌疑人名、作案工具等,一个最直接的想法便是利用自然语言处理技术中的命名实体识别相关的技术来解决。
命名实体识别是人工智能自然语言处理领域一项重要的技术,其任务是抽取文本数据中的命名实体数据,如人名、地名、时间等,这些实体数据将可以利用到其它下游任务中,如关系抽取、机器阅读理解、对话问答系统等,其本身也是构建知识图谱的必要数据基础。
对于实体抽取任务,传统方法曾使用规则、专有字典匹配等方法进行,但这些任务智能化程度极低,需要大量时间去编写规则、制作词典等,且对于新出现的文本和新的需求措手不及,对于信息飞速增长的今天,此类方法已不适于单独处理实体抽取任务。
目前常用的实体识别的方法,主要有基于传统的统计机器学习方法和深度学习方法,前者如使用机器学习中的HMM(隐马尔可夫模型)、CRF(条件随机场)等模型直接对有标注的文本序列建模,需要人工提取文本中的特征,需要标注者本身具有一定的机器学习知识,难度很大,且此类方法在需要语义及上下文理解的实体上表现欠佳。深度学习方法可以自动提取文本中的特征而且效果明显好于传统的统计学习方法,RNN结构的深度学习模型利用了文本序列化的特点,使模型可以学习到较远距离的语义信息,此类模型如BiLSTM-CRF及其各类变体,一度成为处理命名实体识别任务的主流模型。然而在多数情况下深度学习的方法需要依赖大量的标注数据来训练一个拥有可观效果的模型。
近期,在深度学习领域,随着如ELMo、GPT、BERT等预训练语言模型的出现与飞速发展,使用预训练语言模型加上自然语言处理具体下游任务的微调训练开始成为主流处理各类任务的新型关键范式,此类预训练模型先在大型的语料上进行无监督的预训练,使模型学习到语料中语言的语义信息,并将预训练好的参数保存在模型中,在下游任务训练时,只需对有标注的数据进行有监督的微调即可得到下游任务模型,比之于传统深度学习模型,在大多数下游任务都取得了更好的效果,且对标注语料的需求大大减小。
在法律领域的法律文书信息抽取任务中,也面临着许多问题和挑战,在法律文书中,实体类型往往较多且粒度细,文本表述专业性较强,人工标注数据方法需要标注人员具有一定的领域知识水平,对标注人员提出了较高的要求,这就导致这一领域有标注的数据量和数据规模很难达到深度学习的需求,所以迫切需要一种能够适应法律文书数据、充分利用少量标注数据达到较高精度的方法;领域内,包括法律法律文书的文书,获取无结构无监督的数据是简单而易行的,而直接利用传统的深度学习模型或是纯粹基于预训练模型加上微调的方法是无法利用这些无标注的数据,直接在领域标注数据上训练往往也不会取得很可观的效果。
发明内容
本发明提供了一种基于法律文书的信息抽取方法,其目的是为了解决传统方法没有考虑法律文书数据中的新词术语,法律文书有监督标注数据往往数量稀少,学习效果欠佳,抽取的实体数据分类不准确的问题。
为了达到上述目的,本发明的实施例提供了一种基于法律文书的信息抽取方法,包括:
步骤1,获取法律文书无监督数据,对法律文书无监督数据进行数据预处理及数据清洗,去除法律文书无监督数据中的噪声,形成基于法律文书的语料库;
步骤2,对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现,得到初步法律文书领域词典候选集,对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理,得到最终的法律文书领域词典;
步骤3,在开源的中文BERT基础预训练语言模型的基础上,利用最终的法律文书领域词典,改进开源的中文BERT基础预训练语言模型的预训练任务,得到针对法律文书的改进预训练任务,并在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量,得到新的中文BERT基础预训练语言模型;
步骤4,将基于法律文书的语料库输入新的中文BERT基础预训练语言模型中进行训练,得到法律文书预训练模型;
步骤5,将法律文书预训练模型采取针对法律文书有监督数据的文本分类与命名实体识别的多任务联合学习方式,在法律文书有监督数据上进行微调训练,得到法律文书信息抽取模型;
步骤6,将待提取的法律文书输入法律文书信息抽取模型,法律文书信息抽取模型对待提取的法律文书进行信息抽取,得到各个标签类型的法律文书的信息抽取结果。
其中,所述步骤2具体包括:
步骤21,通过互信息依次计算基于法律文书的语料库中两个连续字符或单词组合的互信息得分并依次将两个连续字符或单词组合进行连接组成新候选词;
步骤22,依次计算步骤21组成的新候选词的左熵得分和右熵得分;
步骤23,依次将所有新候选词的互信息得分、左熵得分和右熵得分相加,得到所有新候选词的新词得分;
步骤24,设置新词得分阈值,将所有新候选词的新词得分依次与新词得分阈值进行比较,将高于新词得分阈值的新候选词选入初步法律文书领域词典候选集;
步骤25,利用针对法律文书的规则设计正则表达式对初步法律文书领域词典候选集进行数据清洗,去除初步法律文书领域词典候选集中的噪声词语;
步骤26,根据通用词典排除去除噪声后的初步法律文书领域词典候选集中的通用词;
步骤27,基于法律文书中的特定的词组或短语,对排除通用词后的初步法律文书领域词典候选集进行高频词组合,并进行筛查选入词典,以发现法律文书中的特定短语搭配;
步骤28,根据去除停用词后的初步法律文书领域词典候选集和短语去重后的词典形成最终领域词典。
其中,所述步骤21具体包括:
步骤211,互信息计算公式,如下所示:
其中,x和y表示某个特定的数据集Z中的单个或多个连续字符,MI(x,y)表示x、y的互信息,表示在某个特定的数据集Z上x、y以连续字符出现的概率,p(x)表示在某个特定的数据集Z上x出现的概率,p(y)表示在某个特定的数据集Z上y出现的概率;
在某个特定的数据集Z上x出现的概率,如下所示:
其中,f(x)表示在某个特定的数据集Z上x出现的频次;
在某个特定的数据集Z上y出现的概率,如下所示:
其中,f(y)表示在某个特定的数据集Z上y出现的频次;
在某个特定的数据集Z上x、y以连续字符出现的概率,如下所示:
步骤212,将x与y进行连接组成新候选词ω。
其中,所述步骤22具体包括:
步骤221,左熵计算公式,如下所示:
其中,E L (ω)表示左熵,ω表示词,a表示某个特定的数据集Z上出现在词ω左边的字符,A表示左边字符候选集;
步骤222,右熵计算公式,如下所示:
其中,E R (ω)表示右熵,b表示数据集上出现在词ω右边的字符,B表示右边字符候选集。
其中,所述步骤27具体包括:
步骤271,当初步法律文书领域词典候选集中的多个词经常同时在紧邻位置出现时,初步判定多个词组成为一个短语,记录当前短语出现频次;
步骤272,根据基于法律文书的语料库的大小设定选入词典的短语频次阈值;
步骤273,通过停用词表去除初步法律文书领域词典候选集中的停用词和包含停用词的短语,得到去除停用词后的初步法律文书领域词典候选集;
步骤274,判断去除停用词后的初步法律文书领域词典候选集中的各短语出现的频次是否超过短语频次阈值,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次超过短语频次阈值时,将当前短语选入词典,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次不超过短语频次阈值时,继续判断去除停用词后的初步法律文书领域词典候选集中的其他短语,直到去除停用词后的初步法律文书领域词典候选集所有短语判断完成后,执行步骤274;
步骤275,对词典进行短语去重处理,得到短语去重后的词典。
其中,所述步骤3具体包括:
步骤31,去除开源的中文BERT基础预训练语言模型中的下一句预测任务;
步骤32,将开源的中文BERT基础预训练语言模型中掩码语言模型的加入掩码的方式修改为全词掩码,得到改进后的掩码语言模型,使用改进后的掩码语言模型对整个词进行掩码时,在选取掩码词时优先选取法律文书词汇,在掩码比例不足时继续选择其它词汇;其中,获取整个词的方式为将法律文书词典加入到jieba词典中,通过jieba分词工具分解出输入的法律文书中的中文法律文书词汇和通用词汇;
步骤33,在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量;
步骤34,得到新的中文BERT基础预训练语言模型,其中,法律文书中的字符串与法律文书词典和jieba分词工具中的通用词典进行匹配,采用最长匹配原则,匹配出相应词汇,进而得到文书中单个中文字符相对于其匹配词的相对位置,通过4种方式表示,即单字,词首,词中,词尾,分别记为0,1,2,3。
其中,所述步骤5具体包括:
步骤51,法律文书预训练模型中设置有文本分类与命名实体识别的多任务联合学习方式进行信息抽取的学习,命名实体识别任务通过法律文书有监督数据学习法律文书中关键信息的位置和该段的关键信息归属的类别,文本分类任务学习法律文书中的类别信息,文本分类任务为命名实体识别任务提供类别信息,其中,当标注文本中实体数量为0时,文本分类标签记为0;当标注文本中实体数量小于实体类别数量的三分之一时,文本分类标签记为1;当标注文本中实体数量大于等于实体类别数量的三分之一时,文本分类标签记为2;
步骤52,将法律文书有监督数据输入法律文书预训练模型,法律文书预训练模型同时进行文本分类任务与命名实体识别任务,文本分类任务作为命名实体识别任务的辅助,得到法律文书信息抽取模型。
其中,所述步骤5还包括:
文本分类任务的损失函数,如下所示:
其中,所述步骤5还包括:
对于输入文本的某个位置下标为d的命名实体识别任务的损失函数,如下所示:
一段完整的输入文本D的命名实体识别任务的损失函数,如下所示:
其中,所述步骤5还包括:
法律文书信息抽取模型的总体损失函数,如下所示:
其中,loss_total表示法律文书信息抽取模型的总体损失函数。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的基于法律文书的信息抽取方法,(1)首先针对传统方法不会关注领域新词的缺点,利用互信息和左熵、右熵的原理构建无监督新词发现算法,基于大量法律文书无监督数据利用新词发现算法,提取出领域中的新词,可以为上下文发现实体提供重要的线索,或其本身就是待抽取的实体,本发明将这些新词作为外部词典加入本发明模型的预训练过程进行学习;(2)本发明以预训练语言模型为理论基础,在现有开源预训练模型的基础上,利用易于采集的大量无监督法律文书数据以及改进的预训练任务进行进一步无监督预训练,在增强预训练模型在法律文书上的语义理解能力的同时,又可避免大量费时费力的人工标注。改进的预训练任务在掩码语言模型任务的基础上,利用开放的通用词典和领域词典加入针对中文的全词掩码,并在现有开源预训练模型的嵌入层加入相对位置向量,增强模型对通用词汇尤其是领域词汇的学习能力;(3)在进行有监督微调训练时,采用“命名实体识别任务+文本分类”多任务的训练方式,提升模型的学习效果,其中文本分类任务基于实体的标注结果进行,无需进一步人工标注,同时,多任务联合学习较单任务学习相比,多任务学习通过引入归纳偏置起到与正则化相同的作用,能够获得更多额外的信息来源来提高当前任务的学习性能,会使得模型获得更好的泛化性能,提升模型对于实体分类的效果。
附图说明
图1为本发明的总体流程图;
图2为本发明的具体流程图;
图3为本发明的新词发现算法生成领域词典流程图;
图4为本发明的法律文书预训练示意图;
图5为本发明的开源的中文BERT模型加入相对位置向量示意图;
图6为本发明的多任务联合学习示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的方法没有考虑法律文书数据中的新词术语,法律文书有监督标注数据往往数量稀少,学习效果欠佳,抽取的实体数据分类不准确的问题,提供了一种基于法律文书的信息抽取方法。
如图1至图6所示,本发明的实施例提供了一种基于法律文书的信息抽取方法,包括:步骤1,获取法律文书无监督数据,对法律文书无监督数据进行数据预处理及数据清洗,去除法律文书无监督数据中的噪声,形成基于法律文书的语料库;步骤2,对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现,得到初步法律文书领域词典候选集,对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理,得到最终的法律文书领域词典;步骤3,在开源的中文BERT基础预训练语言模型的基础上,利用最终的法律文书领域词典,改进开源的中文BERT基础预训练语言模型的预训练任务,得到针对法律文书的改进预训练任务,并在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量,得到新的中文BERT基础预训练语言模型;步骤4,将基于法律文书的语料库输入新的中文BERT基础预训练语言模型中进行训练,得到法律文书预训练模型;步骤5,将法律文书预训练模型采取针对法律文书有监督数据的文本分类与命名实体识别的多任务联合学习方式,在法律文书有监督数据上进行微调训练,得到法律文书信息抽取模型;步骤6,将待提取的法律文书输入法律文书信息抽取模型,法律文书信息抽取模型对待提取的法律文书进行信息抽取,得到各个标签类型的法律文书的信息抽取结果。
本发明的上述实施例所述的基于法律文书的信息抽取方法,法律文书的特征:法律文书相较于通常的文书,一般为官方文书,主要阐述犯罪事实、犯罪经过或宣判结果,表述较为书面且正式,其中不可避免的含有法律文书的术语或特定表达,而在文书中又常含有与法律案件相关的要素,如犯罪嫌疑人姓名、作案时间、作案地点等,蕴含着案件的关键信息,这些相关要素往往种类繁多,如文书中的人名,可能是犯罪嫌疑人、受害人、相关人或其它,确定其类别需要上下文信息的指示;法律文书有监督数据:纯文书数据,没有任何人工标注;法律文书无监督数据:对于信息抽取任务,有监督数据指的是在文书数据上含有人工标注的需要提取的数据。
其中,所述步骤2具体包括:步骤21,通过互信息依次计算基于法律文书的语料库中两个连续字符或单词组合的互信息得分并依次将两个连续字符或单词组合进行连接组成新候选词;
步骤211,互信息计算公式,如下所示:
其中,x和y表示某个特定的数据集Z中的单个或多个连续字符,MI(x,y)表示x、y的互信息,表示在某个特定的数据集Z上x、y以连续字符出现的概率,p(x)表示在某个特定的数据集Z上x出现的概率,p(y)表示在某个特定的数据集Z上y出现的概率;
在某个特定的数据集Z上x出现的概率,如下所示:
其中,f(x)表示在某个特定的数据集Z上x出现的频次;
在某个特定的数据集Z上y出现的概率,如下所示:
其中,f(y)表示在某个特定的数据集Z上y出现的频次;
在某个特定的数据集Z上x、y以连续字符出现的概率,如下所示:
步骤212,将x与y进行连接组成新候选词ω;
步骤22,依次计算步骤21组成的新候选词的左熵得分和右熵得分;
步骤221,左熵计算公式,如下所示:
其中,E L (ω)表示左熵,ω表示词,a表示某个特定的数据集Z上出现在词ω左边的字符,A表示左边字符候选集;
步骤222,右熵计算公式,如下所示:
其中,E R (ω)表示右熵,b表示数据集上出现在词ω右边的字符,B表示右边字符候选集;步骤23,依次将所有新候选词的互信息得分、左熵得分和右熵得分相加,得到所有新候选词的新词得分;步骤24,设置新词得分阈值,将所有新候选词的新词得分依次与新词得分阈值进行比较,将高于新词得分阈值的新候选词选入初步法律文书领域词典候选集;步骤25,利用针对法律文书的规则设计正则表达式对初步法律文书领域词典候选集进行数据清洗,去除初步法律文书领域词典候选集中的噪声词语;步骤26,根据通用词典排除去除噪声后的初步法律文书领域词典候选集中的通用词;步骤27,基于法律文书中的特定的词组或短语,对排除通用词后的初步法律文书领域词典候选集进行高频词组合,并进行筛查选入词典,以发现法律文书中的特定短语搭配:步骤271,当初步法律文书领域词典候选集中的多个词经常同时在紧邻位置出现时,初步判定多个词组成为一个短语,记录当前短语出现频次;步骤272,根据基于法律文书的语料库的大小设定选入词典的短语频次阈值;步骤273,通过停用词表去除初步法律文书领域词典候选集中的停用词和包含停用词的短语,得到去除停用词后的初步法律文书领域词典候选集;步骤274,判断去除停用词后的初步法律文书领域词典候选集中的各短语出现的频次是否超过短语频次阈值,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次超过短语频次阈值时,将当前短语选入词典,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次不超过短语频次阈值时,继续判断去除停用词后的初步法律文书领域词典候选集中的其他短语,直到去除停用词后的初步法律文书领域词典候选集所有短语判断完成后,执行步骤274;
步骤275,对词典进行短语去重处理,得到短语去重后的词典;步骤28,根据去除停用词后的初步法律文书领域词典候选集和短语去重后的词典形成最终领域词典。
本发明的上述实施例所述的基于法律文书的信息抽取方法,基于互信息、左熵和右熵的计算新词得分,互信息是信息论中用于度量两个事件集合之间的相关性的度量尺度,在统计学中常用来衡量两随机变量和间的相互关联程度。所述基于法律文书的信息抽取方法使用互信息来考察两个连续字符或单词组合成新短语的概率,再次对互信息得出的新候选词的左右切分度及内部结合紧密程度进行考察,分别采用计算左熵和右熵的方法,新词发现算法的使用目的是为了一定程度上挖掘出专有领域出现的新词、热词、专有词汇、表述等。由于中文文本中,语义单位往往是词汇或短语,词汇、短语提供着丰富的上下文信息,将这些领域新词融于模型的训练过程,将有益于模型对领域语义信息的理解,从而增强模型处理任务的效果,新词发现算法是完全无监督的,而且高效、简单易于理解,可行性高。
其中,所述步骤3具体包括:步骤31,去除开源的中文BERT基础预训练语言模型中的下一句预测任务;步骤32,将开源的中文BERT基础预训练语言模型中掩码语言模型的加入掩码的方式修改为全词掩码,得到改进后的掩码语言模型,使用改进后的掩码语言模型对整个词进行掩码时,在选取掩码词时优先选取法律文书词汇,在掩码比例不足时继续选择其它词汇;其中,获取整个词的方式为将法律文书词典加入到jieba词典中,通过jieba分词工具分解出输入的法律文书中的中文法律文书词汇和通用词汇;步骤33,在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量;步骤34,得到新的中文BERT基础预训练语言模型,其中,法律文书中的字符串与法律文书词典和jieba分词工具中的通用词典进行匹配,采用最长匹配原则,匹配出相应词汇,进而得到文书中单个中文字符相对于其匹配词的相对位置,通过4种方式表示,即单字,词首,词中,词尾,分别记为0,1,2,3。
本发明的上述实施例所述的基于法律文书的信息抽取方法,采用掩码语言模型任务通过对输入的法律文书中的字符施加随机掩码,并在训练时预测掩码位置实际的字符来学习法律文书中的上下文信息和语义信息;原始的预训练模型中,为了减少词表不存在词(out of vocabulary,OOV)的情况出现,对于中文是基于字符来处理,所以随机掩码是也基于单个中文字符来进行,故对于上下文的学习是基于字符进行的;对法律文书的中文加入全词掩码,若某个子词被选中为掩码,则将所属的整个词汇都进行掩码,如一段文书“公安机关逮捕了犯罪嫌疑人刘某某”,对于“公安机关”这个法律文书词组,采用原始的方式随机掩码时可能的结果为“#安#关”,采用全词掩码,在该段文书的结果为“####逮捕了犯罪嫌疑人刘某某”,模型预测时,将会对词汇的整个位置进行学习和预测,完成掩码后数据输入模型仍保持基于字符的方式;将领域词典加入到jieba词典中,通过jieba工具将领域词汇和通用词分出,进行掩码时,优先掩码法律文书词汇,掩码比例不足时,再继续掩码其它词汇,通过全词掩码的方式,使开源的中文BERT模型在预训练阶段学习到词汇尤其是领域词汇的信息。
本发明的上述实施例所述的基于法律文书的信息抽取方法,改进了开源的中文BERT模型的输入向量,开源的中文BERT模型输入向量是由3种向量组成的,分别是:字符向量,(绝对)位置向量,分段向量。开源的中文BERT模型中虽加入每个字符相对整段文本的绝对位置,但对某些位置之间的相对关系不自觉的忽视了,为了更好的指示词汇信息,充分考虑词汇间字符的关系,所述基于法律文书的信息抽取方法加入第四个向量:相对位置向量,其中,相对的意思是某个字符相对其在匹配词中的位置,匹配词使用领域词典和jieba分词工具中的通用词典进行匹配,采用最长匹配原则,并使用4种方式表示相对位置,即单字,词首,词中,词尾;记为0,1,2,3,如仍是此段文书“公安机关逮捕了犯罪嫌疑人刘某某”,利用法律文书词典匹配到词汇“公安机关”,则“公”字记为该词的词首,“安”和“机”都是词中,“关”是词尾,之后对应转化为向量与其它三种向量一同加入模型中,改进后的输入向量如图5所示。
本发明的上述实施例所述的基于法律文书的信息抽取方法,BERT(BidirectionalEncoder Representation from Transformers,双向编码表示器),从提出开始就在各类自然语言处理任务上达到异常优秀的效果。BERT实现自然语言处理任务主要遵循“预训练+微调”的范式,即先将模型在大规模语料上学习语言的语义信息,而后加入能适应下游任务的处理框架,进行任务的微调训练,使其可以处理具体任务,由于利用了先前学习到的语言语义特性,所以比之于以往直接进行下游任务训练的模型,常常能达到更好的效果。为了缓解法律文书的标注数据稀缺的问题,所述基于法律文书的信息抽取方法基于开源的中文BERT模型,进行法律文书进一步的预训练,同时改进原有的预训练任务;BERT在处理中文文本时,一般是基于单个汉字字符进行处理,即直接把汉字字符转为字符向量,如按分词处理,很可能会出现大量词表不存在词(out of vocabulary,OOV)的情况,而基于字符建立词表,只需较小的词表即可涵盖大多数的中文字符。BERT在做预训练任务时,使用了掩码语言模型(Masked Language Model,MLM),通过对输入样本中的字符施加随机掩码,并在训练时预测掩码位置实际的字符来学习语言之间的上下文信息和语义信息。如使用按中文字符处理的方式,掩码语言模型在进行掩码时,也只会掩蔽单个汉字字符,而不会考虑字符所属词语,故而进行训练预测时也只考虑单个位置的情况,而在汉语中,语义单位往往不只是单个字符,词语也提供着丰富的上下文信息。
对中文加入采用全词掩码(Whole Word Masking, WWM),若某个子词被选中为掩码,则将所属的整个单词都进行掩码,而数据输入模型仍是基于字符的方式。全词掩码与普通掩码的区别可见表1。为了找出整词,所述基于法律文书的信息抽取方法使用了jieba分词工具,将领域词典加入到jieba词典中,jieba工具便可以将领域词汇和通用词分出,再通过全词掩码的方式,使模型在预训练阶段学习到词汇尤其是领域词汇的信息。
表1 全词掩码示例
修改原版模型的预训练任务之后,即可在领域语料库上训练得到法律文书预训练模型,供下一步任务使用。优点:采用预训练模型可以提供语言上的语义信息,且基于注意力机制的预训练模型,可以处理更长距离的语义依赖,所述基于法律文书的信息抽取方法改进了文本掩码方式和输入向量,同时把领域词典利用起来,在领域语料上进行进一步的预训练,相比于仅使用少量标注数据进行有监督训练的方法,可以使模型学习到更多的领域知识和领域语义信息,这在模型的训练和预测中都将会是强有力的武器,进而节省后期大量数据处理和标注的人力物力,达到更好的模型效果。
其中,所述步骤5具体包括:步骤51,法律文书预训练模型中设置有文本分类与命名实体识别的多任务联合学习方式进行信息抽取的学习,命名实体识别任务通过法律文书有监督数据学习法律文书中关键信息的位置和该段的关键信息归属的类别,文本分类任务学习法律文书中的类别信息,文本分类任务为命名实体识别任务提供类别信息,其中,当标注文本中实体数量为0时,文本分类标签记为0;当标注文本中实体数量小于实体类别数量的三分之一时,文本分类标签记为1;当标注文本中实体数量大于等于实体类别数量的三分之一时,文本分类标签记为2;步骤52,将法律文书有监督数据输入法律文书预训练模型,法律文书预训练模型同时进行文本分类任务与命名实体识别任务,文本分类任务作为命名实体识别任务的辅助,得到法律文书信息抽取模型。
其中,所述步骤5还包括:
文本分类任务的损失函数,如下所示:
其中,所述步骤5还包括:
对于输入文本的某个位置下标为d的命名实体识别任务的损失函数,如下所示:
一段完整的输入文本D的命名实体识别任务的损失函数,如下所示:
其中,所述步骤5还包括:
法律文书信息抽取模型的总体损失函数,如下所示:
其中,loss_total表示法律文书信息抽取模型的总体损失函数。
本发明的上述实施例所述的基于法律文书的信息抽取方法,法律文书预训练模型进行多任务联合训练的示意如图6,多任务学习在预训练任务之后,属于模型进行微调的阶段,进行的是有监督学习,其中,文本分类任务和命名实体识别任务同时进行,BERT模型可以根据自身的特点,利用每次输入文本的最开头位置的[CLS]标签作为文本分类的结果,其余每个位置经过softmax函数输出的结果作为实体标注的结果,由于针对实体识别的有监督数据中一般不含有文本分类相关的标注,对于文本分类任务,将根据实体的数量自动划分文本分类的类别,分为3类,如此可避免再进行人工标注,划分类别的方式如表2:
表2 文本分类任务的再标注
所述基于法律文书的信息抽取方法在实体识别任务中加入另一文本分类任务联合训练模型,其中,文本分类根据实体数量和类别进行自划分标注,无需二次标注,有效的将当前的标注信息运用于另一任务,使得此多任务训练易于展开。同时,多任务联合学习较单任务学习相比,多任务学习通过引入归纳偏置起到与正则化相同的作用,往往能够获得更多额外的信息来源来提高当前任务的学习性能,会使得模型获得更好的泛化性能。将法律文书预训练模型用于信息抽取的命名实体识别任务时,利用多任务联合学习进行训练,增加对整段文本类别的学习以获取更丰富的潜在信息,通过文本分类任务辅助命名实体识别任务,最终的目的是提升模型的泛化性能。
本发明的上述实施例所述的基于法律文书的信息抽取方法,利用互信息和左熵、右熵的原理构建新词发现算法,基于大量领域无监督数据利用新词发现算法,提取出领域中的新词,组成词典,无需任何标注数据,后续可以将这些词汇信息将可以加入到预训练任务中发挥作用,基于预训练语言模型加以领域数据进行进一步领域预训练,同时将新词发现算法提取的词汇加入到预训练过程中,在预训练过程中加入对词汇的处理,可以将海量而难以处理的无标注领域数据利用了起来,还可使预训练模型在训练中更多的关注词汇信息,符合中文的语言特点,达到增强领域语义理解的效果,通过在该语言、该领域上的语义理解的提升,使得总体模型可以在标注数据较少的情况下仍可以取得较好的任务效果,或是对提升模型处理下游任务的效果都大有裨益。采用多任务联合学习的方式进行预训练模型的有监督微调训练,在进行命名实体识别任务的同时进行文本分类任务,且文本分类任务的学习可以根据数据中实体的数量进行,无需做进一步的文本分类标注,总体训练时的损失函数是两个任务损失函数的相加值,训练目标即是最小化总体损失函数,通过多任务学习的新模型效果较原先会有所提升。
本发明的上述实施例所述的基于法律文书的信息抽取方法,法律文书示例:益阳市赫山区人民检察院指控,被告人谌某生因女儿谌某于2004年5月被雷某辉家饲养的狗咬伤,双方为此产生纠纷。后经法院判决,由雷支付其医药费等各项费用共计10847.68元,而雷拒不支付,被告人谌某生遂于2010年1月27日16时许,携带汽油窜至雷某辉的立某竹艺厂,将汽油泼至竹艺厂内存放的凉席上点燃后逃离现场,被在场人员抓获并扭送至公安机关。经鉴定,被损物品价值29370元。公诉机关认为,被告人谌某生的行为已触犯《中华人民共和国刑法》××之规定,构成××罪。并向本院移送了有关证据材料,要求依法判处。
将法律文书示例输入法律文书信息抽取模型进行法律文书的信息抽取,法律文书信息抽取模型输出法律文书的信息抽取结果如下:
'标签':'嫌疑人','抽取位置':'谌某生(17;20);谌某生(96;99);谌某生(198;201)';
'标签':'受害人','抽取位置':'雷某辉(34;37);雷(62;63);雷(87;88);雷某辉(122;125)';
'标签':'物品价值','抽取位置':'29370元(181;187)';
'标签':'作案工具','抽取位置':'汽油(118;120);汽油(133;135)';
'标签':'作案时间','抽取位置':'2010年1月27日16时许(101;115)';
'标签':'作案地点','抽取位置':'竹艺厂内(137;141)';
'标签':'组织机构','抽取位置':'益阳市赫山区人民检察院(0;11);公安机关(166;170);公诉机关(188;192)'。
以上结果以标签类型进行分条,对于法律文书的信息抽取结果,其中标签信息是根据有监督标注数据中存在的标签类型进行分类的,是事先预定义的,训练时模型根据标注数据进行学习,预测时由模型在给出相应抽取结果的分类结果,抽取位置指示了相应抽取结果在原文本中的位置。
本发明的上述实施例所述的基于法律文书的信息抽取方法,以预训练语言模型为理论基础,在现有开源预训练模型的基础上,利用易于采集的大量无标注法律文书数据以及改进的预训练任务进行进一步无监督预训练,在增强预训练模型在法律文书上的语义理解能力的同时,又可避免大量费时费力的人工标注;改进的预训练任务首先根据新词发现算法构造领域词典,其次在掩码语言模型任务的基础上,利用开放的通用词典和领域词典加入针对中文的全词掩码,并在嵌入层加入相对位置向量,增强模型对通用词汇尤其是领域词汇的学习能力;在进行有监督微调训练任务时,采用“命名实体识别任务+文本分类”多任务的训练方式,提升模型的学习效果,其中文本分类任务基于实体的标注结果进行,无需进一步人工标注;在法律文书数据集上的实验表明,所述基于法律文书的信息抽取方法基于领域数据进一步进行预训练,采用多任务学习的方式进行模型微调,在领域标注数据集较少的情况下,仍然可以取得较高的精度。同时所述基于法律文书的信息抽取方法还可为法律文书的其它下游任务或其它领域的信息抽取提供参考。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于法律文书的信息抽取方法,其特征在于,包括:
步骤1,获取法律文书无监督数据,对法律文书无监督数据进行数据预处理及数据清洗,去除法律文书无监督数据中的噪声,形成基于法律文书的语料库;
步骤2,对基于法律文书的语料库基于法律文书的语料库采用新词发现算法进行新词发现,得到初步法律文书领域词典候选集,对初步法律文书领域词典候选集进行去噪、去通用词和组合高频词的筛查处理,得到最终的法律文书领域词典;
步骤3,在开源的中文BERT基础预训练语言模型的基础上,利用最终的法律文书领域词典,改进开源的中文BERT基础预训练语言模型的预训练任务,得到针对法律文书的改进预训练任务,并在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量,得到新的中文BERT基础预训练语言模型;
步骤4,将基于法律文书的语料库输入新的中文BERT基础预训练语言模型中进行训练,得到法律文书预训练模型;
步骤5,将法律文书预训练模型采取针对法律文书有监督数据的文本分类与命名实体识别的多任务联合学习方式,在法律文书有监督数据上进行微调训练,得到法律文书信息抽取模型;
步骤6,将待提取的法律文书输入法律文书信息抽取模型,法律文书信息抽取模型对待提取的法律文书进行信息抽取,得到各个标签类型的法律文书的信息抽取结果。
2.根据权利要求1所述的基于法律文书的信息抽取方法,其特征在于,所述步骤2具体包括:
步骤21,通过互信息依次计算基于法律文书的语料库中两个连续字符或单词组合的互信息得分并依次将两个连续字符或单词组合进行连接组成新候选词;
步骤22,依次计算步骤21组成的新候选词的左熵得分和右熵得分;
步骤23,依次将所有新候选词的互信息得分、左熵得分和右熵得分相加,得到所有新候选词的新词得分;
步骤24,设置新词得分阈值,将所有新候选词的新词得分依次与新词得分阈值进行比较,将高于新词得分阈值的新候选词选入初步法律文书领域词典候选集;
步骤25,利用针对法律文书的规则设计正则表达式对初步法律文书领域词典候选集进行数据清洗,去除初步法律文书领域词典候选集中的噪声词语;
步骤26,根据通用词典排除去除噪声后的初步法律文书领域词典候选集中的通用词;
步骤27,基于法律文书中的特定的词组或短语,对排除通用词后的初步法律文书领域词典候选集进行高频词组合,并进行筛查选入词典,以发现法律文书中的特定短语搭配;
步骤28,根据去除停用词后的初步法律文书领域词典候选集和短语去重后的词典形成最终领域词典。
3.根据权利要求2所述的基于法律文书的信息抽取方法,其特征在于,所述步骤21具体包括:
步骤211,互信息计算公式,如下所示:
其中,x和y表示某个特定的数据集Z中的单个或多个连续字符,MI(x,y)表示x、y的互信息,表示在某个特定的数据集Z上x、y以连续字符出现的概率,p(x)表示在某个特定的数据集Z上x出现的概率,p(y)表示在某个特定的数据集Z上y出现的概率;
在某个特定的数据集Z上x出现的概率,如下所示:
其中,f(x)表示在某个特定的数据集Z上x出现的频次;
在某个特定的数据集Z上y出现的概率,如下所示:
其中,f(y)表示在某个特定的数据集Z上y出现的频次;
在某个特定的数据集Z上x、y以连续字符出现的概率,如下所示:
步骤212,将x与y进行连接组成新候选词ω。
5.根据权利要求4所述的基于法律文书的信息抽取方法,其特征在于,所述步骤27具体包括:
步骤271,当初步法律文书领域词典候选集中的多个词经常同时在紧邻位置出现时,初步判定多个词组成为一个短语,记录当前短语出现频次;
步骤272,根据基于法律文书的语料库的大小设定选入词典的短语频次阈值;
步骤273,通过停用词表去除初步法律文书领域词典候选集中的停用词和包含停用词的短语,得到去除停用词后的初步法律文书领域词典候选集;
步骤274,判断去除停用词后的初步法律文书领域词典候选集中的各短语出现的频次是否超过短语频次阈值,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次超过短语频次阈值时,将当前短语选入词典,当去除停用词后的初步法律文书领域词典候选集中的当前短语出现的频次不超过短语频次阈值时,继续判断去除停用词后的初步法律文书领域词典候选集中的其他短语,直到去除停用词后的初步法律文书领域词典候选集所有短语判断完成后,执行步骤274;
步骤275,对词典进行短语去重处理,得到短语去重后的词典。
6.根据权利要求5所述的基于法律文书的信息抽取方法,其特征在于,所述步骤3具体包括:
步骤31,去除开源的中文BERT基础预训练语言模型中的下一句预测任务;
步骤32,将开源的中文BERT基础预训练语言模型中掩码语言模型的加入掩码的方式修改为全词掩码,得到改进后的掩码语言模型,使用改进后的掩码语言模型对整个词进行掩码时,在选取掩码词时优先选取法律文书词汇,在掩码比例不足时继续选择其它词汇;其中,获取整个词的方式为将法律文书词典加入到jieba词典中,通过jieba分词工具分解出输入的法律文书中的中文法律文书词汇和通用词汇;
步骤33,在开源的中文BERT基础预训练语言模型的嵌入层加入相对位置向量;
步骤34,得到新的中文BERT基础预训练语言模型,其中,法律文书中的字符串与法律文书词典和jieba分词工具中的通用词典进行匹配,采用最长匹配原则,匹配出相应词汇,进而得到文书中单个中文字符相对于其匹配词的相对位置,通过4种方式表示,即单字,词首,词中,词尾,分别记为0,1,2,3。
7.根据权利要求6所述的基于法律文书的信息抽取方法,其特征在于,所述步骤5具体包括:
步骤51,法律文书预训练模型中设置有文本分类与命名实体识别的多任务联合学习方式进行信息抽取的学习,命名实体识别任务通过法律文书有监督数据学习法律文书中关键信息的位置和该段的关键信息归属的类别,文本分类任务学习法律文书中的类别信息,文本分类任务为命名实体识别任务提供类别信息,其中,当标注文本中实体数量为0时,文本分类标签记为0;当标注文本中实体数量小于实体类别数量的三分之一时,文本分类标签记为1;当标注文本中实体数量大于等于实体类别数量的三分之一时,文本分类标签记为2;
步骤52,将法律文书有监督数据输入法律文书预训练模型,法律文书预训练模型同时进行文本分类任务与命名实体识别任务,文本分类任务作为命名实体识别任务的辅助,得到法律文书信息抽取模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019571.4A CN114036933B (zh) | 2022-01-10 | 2022-01-10 | 基于法律文书的信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210019571.4A CN114036933B (zh) | 2022-01-10 | 2022-01-10 | 基于法律文书的信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036933A true CN114036933A (zh) | 2022-02-11 |
CN114036933B CN114036933B (zh) | 2022-04-22 |
Family
ID=80147379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210019571.4A Active CN114036933B (zh) | 2022-01-10 | 2022-01-10 | 基于法律文书的信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036933B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN114881043A (zh) * | 2022-07-11 | 2022-08-09 | 四川大学 | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
CN115391496A (zh) * | 2022-10-28 | 2022-11-25 | 北京澜舟科技有限公司 | 一种法律文书案例抽取方法、系统和存储介质 |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN116384379A (zh) * | 2023-06-06 | 2023-07-04 | 天津大学 | 一种基于深度学习的中文临床术语标准化方法 |
CN116662579A (zh) * | 2023-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN110569405A (zh) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | 一种基于bert的政务公文本体概念抽取方法 |
CN111209738A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 一种联合文本分类的多任务命名实体识别方法 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
CN113177412A (zh) * | 2021-04-05 | 2021-07-27 | 北京智慧星光信息技术有限公司 | 基于bert的命名实体识别方法、系统、电子设备及存储介质 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
WO2021169400A1 (zh) * | 2020-02-28 | 2021-09-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体识别方法、装置及电子设备 |
CN113377916A (zh) * | 2021-06-22 | 2021-09-10 | 哈尔滨工业大学 | 一种面向法律文本的多关系中主要关系的抽取方法 |
US20210390127A1 (en) * | 2020-06-16 | 2021-12-16 | Virginia Tech Intellectual Properties, Inc. | Methods and systems for generating summaries given documents with questions and answers |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
-
2022
- 2022-01-10 CN CN202210019571.4A patent/CN114036933B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108920460A (zh) * | 2018-06-26 | 2018-11-30 | 武大吉奥信息技术有限公司 | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 |
CN110569405A (zh) * | 2019-08-26 | 2019-12-13 | 中电科大数据研究院有限公司 | 一种基于bert的政务公文本体概念抽取方法 |
CN111209738A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 一种联合文本分类的多任务命名实体识别方法 |
WO2021169400A1 (zh) * | 2020-02-28 | 2021-09-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体识别方法、装置及电子设备 |
CN111738004A (zh) * | 2020-06-16 | 2020-10-02 | 中国科学院计算技术研究所 | 一种命名实体识别模型的训练方法及命名实体识别的方法 |
US20210390127A1 (en) * | 2020-06-16 | 2021-12-16 | Virginia Tech Intellectual Properties, Inc. | Methods and systems for generating summaries given documents with questions and answers |
CN113177412A (zh) * | 2021-04-05 | 2021-07-27 | 北京智慧星光信息技术有限公司 | 基于bert的命名实体识别方法、系统、电子设备及存储介质 |
CN113190656A (zh) * | 2021-05-11 | 2021-07-30 | 南京大学 | 一种基于多标注框架与融合特征的中文命名实体抽取方法 |
CN113377916A (zh) * | 2021-06-22 | 2021-09-10 | 哈尔滨工业大学 | 一种面向法律文本的多关系中主要关系的抽取方法 |
CN113836281A (zh) * | 2021-09-13 | 2021-12-24 | 中国人民解放军国防科技大学 | 一种基于自动问答的实体关系联合抽取方法 |
Non-Patent Citations (3)
Title |
---|
PARMINDER BHATIA等: "Towards Fast and Unified Transfer Learning Architectures for Sequence Labeling", 《2019 18TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA)》 * |
李芳芳,任星凯,毛星亮等: "《基于多任务联合训练的法律文本机器阅读理解模型》", 《中文信息学报》 * |
林佳瑞,程志刚,韩宇等: "《基于BERT 预训练模型的灾害推文分类方法》", 《图学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114611486A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN114611486B (zh) * | 2022-03-09 | 2022-12-16 | 上海弘玑信息技术有限公司 | 信息抽取引擎的生成方法及装置、电子设备 |
CN114881043A (zh) * | 2022-07-11 | 2022-08-09 | 四川大学 | 基于深度学习模型的法律文书语义相似度评估方法及系统 |
CN115391496A (zh) * | 2022-10-28 | 2022-11-25 | 北京澜舟科技有限公司 | 一种法律文书案例抽取方法、系统和存储介质 |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN116127977B (zh) * | 2023-02-08 | 2023-10-03 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN116384379A (zh) * | 2023-06-06 | 2023-07-04 | 天津大学 | 一种基于深度学习的中文临床术语标准化方法 |
CN116662579A (zh) * | 2023-08-02 | 2023-08-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN116662579B (zh) * | 2023-08-02 | 2024-01-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机及存储介质 |
CN116702786A (zh) * | 2023-08-04 | 2023-09-05 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
CN116702786B (zh) * | 2023-08-04 | 2023-11-17 | 山东大学 | 融合规则和统计特征的中文专业术语抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114036933B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114036933B (zh) | 基于法律文书的信息抽取方法 | |
AU2020103654A4 (en) | Method for intelligent construction of place name annotated corpus based on interactive and iterative learning | |
CN109918666A (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN106407113B (zh) | 一种基于Stack Overflow和commit库的bug定位方法 | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110457690A (zh) | 一种专利创造性的判断方法 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113204967A (zh) | 简历命名实体识别方法及系统 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN115935995A (zh) | 面向知识图谱生成的非遗丝织领域实体关系抽取方法 | |
CN113935324B (zh) | 基于词集合特征加权的跨境民族文化实体识别方法及装置 | |
CN114969294A (zh) | 一种音近敏感词的扩展方法 | |
Wu et al. | One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction | |
CN112989830A (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN116821351A (zh) | 一种基于跨度信息的端到端电力知识图谱关系抽取方法 | |
CN112613316B (zh) | 一种生成古汉语标注模型的方法和系统 | |
Huang et al. | Named Entity Recognition in Chinese Judicial Domain Based on Self-attention mechanism and IDCNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |