CN116304035B - 一种复杂案件中的多被告多罪名关系抽取方法及装置 - Google Patents
一种复杂案件中的多被告多罪名关系抽取方法及装置 Download PDFInfo
- Publication number
- CN116304035B CN116304035B CN202310176690.5A CN202310176690A CN116304035B CN 116304035 B CN116304035 B CN 116304035B CN 202310176690 A CN202310176690 A CN 202310176690A CN 116304035 B CN116304035 B CN 116304035B
- Authority
- CN
- China
- Prior art keywords
- name
- crime
- model
- book
- criminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 14
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000013145 classification model Methods 0.000 claims abstract description 17
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004821 distillation Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 5
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013526 transfer learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种复杂案件中的多被告多罪名关系抽取方法及装置。本方法为:1)获取多个案件的刑事判决书,并从每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落;2)对于每一裁判结果段落,从中抽取出当事人姓名和罪名,得到多人多罪的文书集合M;3)从集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号,找到对应的起诉书;4)根据各起诉书和集合M生成训练集训练串联模型,其包括BERT+CRF命名体识别模型和BERT分类模型;5)对训练后的BERT分类模型训练,得到一预测模型;6)对于一案件,从该案件的起诉书中提取本院认为段落并将其输入到预测模型,得到该案件中人名与罪名的对应关系。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种复杂案件中多个被告人多个罪名关系挂靠方法、装置。
背景技术
被告人和罪名作为案件的关键要素在法官审理中具有重要的意义。而往往法官在审理案件过程中,梳理复杂案件中多个被告人和多个罪名的挂靠关系,占据了法官案件审理过程中的大量时间和精力。所以,辅助法官快速梳理复杂案件中多人多罪的挂靠关系,能大大减少法官的审理时间、提升办案效率,有利于缓解案多人少矛盾。
目前缺乏多被告多罪名关系抽取技术,用于辅助法官快速梳理复杂案件中多人多罪的挂靠关系,因此如何实现多被告多罪名关系抽取是目前亟待解决的技术问题。
发明内容
本发明是一种解决复杂案件中的多被告多罪名关系抽取的方法及装置,其中包括基于起诉书和判决书互相校验的训练样本自动标注方法,利用了两种文书之间的各种关系,完成训练样本的自动生生成;基于pipeline结构的命名体识别模型和分类模型的关系抽取方法,基于领域内其他知识迁移学习的方法,基于伪标签的模型压缩方法等等,具体流程如图1所示。
一种复杂案件中的多被告多罪名关系抽取方法,包括以下步骤:
步骤(1)获取初始数据集:首先收集大量的刑事判决书,并对刑事判决书进行分段,抽取出本院认为段落和审理经过段落和裁判结果段落。
步骤(2)裁判结果段中每个被告人的犯罪过程都会详细描述,并且会用换行符“\n”切分开每个被告人的罪行。首先基于“\n”切分更小粒度的文本,然后利用正则表达式和hanlp等模型从上述文本中抽取出当事人姓名和罪名,进而可以将每个被告人和罪名挂靠上关系,最后选择去重后人数和罪名数都大于2的文书,作为多人多罪的文书集合M={M1,M2,…,Mi}。该集合中元素中包含案号、本院认为段落、审理经过段落、裁判结果段落、被告人和罪名的实体以及关系信息。
步骤(3)从上述集合M获取审理经过段落集合Msljg={Msljg1,Msljg2,…,Msljgi};根据集合Msljg={Msljg1,Msljg2,…,Msljgi}去审理经过段落匹配对应的前审案号。
步骤(4)根据筛选出的前审案号找到对应的起诉书。
步骤(5)根据所述起诉书的特点,首先对起诉书进行分段,抽取出本院认为段落。
步骤(6)基于起诉书的本院认为段落利用hanlp等模型和正则表达式的方式继续抽取人名和罪名,得到起诉书的人名集合和罪名集合并去重得到Qname={Qname1,Qname2,…,Qnamei}和Qcrime={Qcrime1,Qcrime2,…,Qcrimei}。
步骤(7)将上述判决书集合M={M1,M2,…,Mi}中被告人姓名集合Mname={Mname1,Mname2,…,Mnamei}和罪名集合Mcrime={Mcrime1,Mcrime2,…,Mcrimei}与Qname={Qname1,Qname2,…,Qnamei}和Qcrime={Qcrime1,Qcrime2,…,Qcrimei}进行匹配,若Mname=Qname&&Mcrime=Qcrime,则认为是标准的多人多罪样本,进而到起诉书的本院认为段落进行反标,自动生成训练集。因为起诉书中没有关系信息,需要借助判决书中案号、被告人姓名、罪名等信息去起诉书中反标。
步骤(8)将训练集带入基于领域内数据预训练的BERT+CRF命名体识别模型进行训练,完成人名和罪名的精细化抽取。
步骤(9)将训练集带入基于领域内数据预训练的BERT分类模型进行训练,进而抽取出人名和罪名之间的关系。
步骤(10)基于步骤(8)和步骤(9)完成两个模型训练并形成串联模型,进而实现一站式的抽取。并保存最优的训练模型。即利用所述训练集中的样本数据训练串联模型;所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型;所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型,得到每一样本数据中的人名和罪名之间的关系。
步骤(11)基于迁移学习的思想,将最优的模型迁移到起诉书对应的判决书中的本院认为段进行预测,发现可以直接预测出判决书中多人多罪的答案。进一步的,利用所述文书集合M中每一样本对应的被告人和罪名之间的关系,对该样本对应的判决书中本院认为段落信息进行反向标注,将标注的判决书作为训练集结合上述最优模型进行二段训练,直至在K折验证下的准确率上达到稳定,并保存新的最优模型。
步骤(12)上述过程在一定程度上实现了迁移学习,将二段训练后最优模型和一段最优模型在起诉书上进行对比验证,发现二段模型有较大提升,进而使用最优的二段模型作为最佳预测模型。
步骤(13)选择基于模型剪枝蒸馏思想压缩的ALBERT_TINY模型,即将训练后的BERT分类模型作为ALBERT_TINY模型,结合上述起诉书和判决书混合的训练集继续训练,发现准确率相较基于BERT训练的模型还有一定差距。
步骤(14)进一步的基于主动学习建立伪标签的思想,结合判决书数量多易标注的特点,将大量无标住的判决书作为预测集结合二段模型预测的方式生成伪标签数据,并通过裁判结果段落反向验证的方式得到大量准确的伪标签样本,形成伪标注数据,之后带入ALBERT_TINY模型进行训练。
对于一待提取的案件,从该案件的起诉书中提取本院认为段并将其输入到训练后的ALBERT_TINY模型,得到该案件中人名与罪名的对应关系。
进一步的发现通过伪标签标注数据训练的模型可以在起诉书中的预测准确率达到91.5%,相较于上述基于BERT训练的模型准确率仅下降1.5%,但是显存占用可由400多兆降到70多兆,预测速度也提升到毫秒级。
基于本发明构思,还提供一种多被告多罪名关系抽取的装置,其包括:
数据集构造模块,用于判决书和起诉书互相标注的方式完成大数量训练样本的构造。
模型训练模块,用于基于pipeline式的命名体识别和关系抽取训练方法,训练基于多被告人多罪名关系挂靠的提取模型,并通过伪标签结合压缩模型albert_tiny的方式提升推理速度;
预测模块,用于采用上述深度学习方法训练好的模型,预测目标文书中多被告人多罪名的挂靠关系。
本发明相对于现有技术具有以下有益效果:
本发明提供了一种复杂案件中的多被告多罪名关系抽取方法,该方法利用自标注生成训练样本的方式,结合命名体识别和关系分类模型的方法,结合伪标签和模型压缩的方法,克服了传统正则抽取容易出错的问题,解决较少人力成本的情况下标注多人多罪的关系挂靠问题。
附图说明
图1为本发明的方法流程图。
图2为BERT+CRF模型结构图。
具体实施方式
为进一步阐述本发明的技术解决方案,下面通过附图和具体实例来详细说明上述各步骤,但所举实施例不作为对本发明的限定:
(1)从法信智推平台收集完整的100000篇公开一审刑事判决书集合W={W1,W2,…,W100000},并采用正则表达式对W集合中的文书进行分段,得到本院认为段落集合V={V1,V2,…,V100000},审理经过段落集合S={S1,S2,…,S100000},裁判结果段落集合C={C1,C2,…,C100000}。正则表达式如下表所示:
(2)裁判结果段中每个被告人的犯罪过程都会详细描述,并且会用换行符“\n”切分开每个被告人的罪行。具体格式样例如下所示:
(3)将上述裁判结果段落用“\n”切分,切成一行一行的短文本,利用关键词取犯罪信息相关文本,然后根据hanlp和foolnltk多个命名体模型识别校验的方式的抽取出被告人姓名,为了提高数据集的质量,具体的分别用hanlp和foolnltk抽取到的名字一致则认为抽取的名字正确,由于hanlp抽取不到罪名实体,根据法律人员专业领域知识生成的罪名列表,以正则的方式去上述匹配罪名,遍历上述的“\n”切分的结合,祛重后记录姓名和罪名的结果集合数量,筛选出被告人姓名和罪名数量都大于2的文书集合M={M1,M2,…,Mi},该集合中元素中包含案号Mah、本院认为段落Mbyrw、审理经过段落Msljg、裁判结果段落Mcpjg、当事人姓名Mname和罪名Mcrime以及关系信息Mrelation。
(4)由于刑事判决书中的审理经过蕴含着前审案号,基于上述集合M,利用正则表达式的方式在审理经过段落Msljg={Msljg1,Msljg2,…,Msljgi}抽取出前审的关联案号集合。审理经过段落和正则表达式如下所示:
(5)基于前审关联案号从12309检察网去匹配出对应的刑事起诉书集合Q={Q1,Q2,…,Qi}。。
(6)将起诉书进行分段,抽取出本院认为段落,但是起诉书的本院认为段没有“\n”这种特征将被告人和罪名切分短文本,所以,直接利用基于(3)的思想利用hanlp和foolnltk多个命名体模型识别校验的方式的抽取出被告人姓名,正则表达式的方式抽取出罪名,将抽取的人名集合和罪名集合祛重,进而可以获取新的人名集合Qname={Qname1,Qname2,…,Qnamei}和新的罪名集合Qcrime={Qcrime1,Qcrime2,…,Qcrimei},若Mname=Qname&&Mcrime=Qcrime,则认为是标准的多人多罪样本,进而将从判决书中得到的关系带入起诉书中进行反标,生成训练集。因为起诉书中没有关系信息,需要借助判决书中案号、被告人姓名、罪名等信息去起诉书中反标。
(7)首先基于上述训练集的命名实体数据,结合BERT预训练模型将数据进行向量化。
(8)然后利用CRF条件随机场模型学习标签之间的约束关系,完成命名体识别,基于上述逻辑,进行命名体识别训练,调整参数,保存最优的modelA。此模型可以解决hanlp等通用模型不能抽取罪实体的缺陷,并借助领域内语料完成更精准的被告人姓名抽取。具体的模型结构如图2所示。
(9)然后继续基于上述训练集的实体关系数据利用BERT分类模型进行关系模型的训练。首先将训练集带入BERT进行向量化,然后利用softmax函数计算出概率,此模型只有两个关系,有犯罪(罪行),没有犯罪(N)。经过多轮测试后保存最优的关系模型modelB。
(10)将上述步骤(9)和步骤(10)训练好的模型进行串联,结合成一站式的抽取模型modelC,modelC在人工标注的起诉书本院认为段的测试集上准确率可达87%。
(11)基于迁移学习的思想,将起诉书训练好的模型modelC迁移到基于案号关联的判决书中本院认为段预测,可以直接预测出判决书中的多人多罪的挂靠关系。
(12)进一步根据集合M={M1,M2,…,Mi}中的信息对判决书的本院认为段落进行标注,生成基于判决书的训练集。
(13)将上述训练集带入训练好的模型modelC进行二段训练,得到最优模型modelD。通过验证发现modelD相较于modelC的在起诉书测试集中的准确率可由87%上升至93%。
(14)为了提高推理速度,达到工业级的上线目标。选择蒸馏剪枝后的ALBERT_TINY模型,结合上述起诉书和判决书混合的训练集继续训练,并保存最优模型tiny_modelD,但准确率只能达到80%左右。
(15)基于主动学习建立伪标签的思想,将10000篇新无标住的判决书作为预测集利用modelD进行预测,进而生成伪标签数据,并通过裁判结果段落中的人名罪名关系信息反向验证得到准确的伪标签样本。之后带入ALBERT_TINY模型进行训练。
(16)进一步的利用伪标签训练的模型可以在起诉书中的预测准确率达到91.5%,相较于上述modelD模型的准确率仅下降1.5%,但是显存占用可由400多兆降到70多兆,并且预测速度得到提升,响应时间达到毫秒级。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
需要明确,以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容,本领域的普通技术人员可以理解,并据以实施。当前的实施例是示例性而非局限性,在不脱离本发明的精神和范围内,各种替换、变化和修改都被包括在本发明的范围中,本发明的保护范围以权利要求书界定的范围为准。
Claims (8)
1.一种复杂案件中的多被告多罪名关系抽取方法,其步骤包括:
1)获取多个案件的刑事判决书,并从每一所述刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落;
2)对于每一所述裁判结果段落,从中抽取出当事人姓名和罪名,生成被告人与对应罪名的挂靠关系;对所抽取信息进行去重后,筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书,得到多人多罪的文书集合M;文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系;
3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号;
4)根据筛选出的前审关联案号找到对应的起诉书;
5)从各所述起诉书中抽取出本院认为段落;
6)从所述起诉书的本院认为段落中抽取人名和罪名并去重,得到起诉书的人名集合Qname和罪名集合Qcrime;
7)将所述文书集合M中被告人姓名集合Mname、罪名集合Mcrime与人名集合Qname、罪名集合Qcrime分别进行匹配,若Mname=Qname且Mcrime=Qcrime,则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本,对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标,生成训练集;
8)利用所述训练集中的样本数据训练串联模型;所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型;所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型,得到每一样本数据中的人名和罪名之间的关系;
9)利用所述文书集合M中样本对应的被告人和罪名之间的关系,对所述训练集内各样本对应的判决书中本院认为段落信息进行标注,将标注的判决书作为训练集训练步骤8)训练后的串联模型,得到一预测模型;
10)将训练后的BERT分类模型作为ALBERT_TINY模型;将大量无标注的判决书输入所述预测模型,将输出结果作为对应判决书的伪标签数据,得到伪标签样本;利用判决书的裁判结果段落对对应的伪标签样本进行验证,筛选出准确的伪标签样本,然后利用准确的伪标签样本训练蒸馏剪枝的ALBERT_TINY模型,得到一新的预测模型;
11)对于一待提取的案件,从该案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型,得到该案件中人名与罪名的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述BERT+CRF命名体识别模型为基于领域内数据预训练的BERT+CRF命名体识别模型。
3.根据权利要求1所述的方法,其特征在于,所述BERT分类模型为基于领域内数据预训练的BERT分类模型。
4.根据权利要求1或2或3所述的方法,其特征在于,首先基于裁判结果段落中的换行符“\n”对裁判结果段落进行切分,然后利用正则表达式从切分所得文本中抽取出当事人姓名和罪名,生成被告人与对应罪名的挂靠关系;然后对所抽取信息进行去重后,筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书,得到多人多罪的文书集合M。
5.根据权利要求1或2或3所述的方法,其特征在于,筛选出人数、罪名数都大于2的裁判结果段落对应的刑事判决书,得到多人多罪的文书集合M。
6.一种复杂案件中的多被告多罪名关系抽取装置,其特征在于,包括
数据集构造模块,用于构造训练集,其方法为:1)对刑事判决书集合中的每一刑事判决书中抽取出本院认为段落、审理经过段落和裁判结果段落;2)对于每一所述裁判结果段落,从中抽取出当事人姓名和罪名,生成被告人与对应罪名的挂靠关系;对所抽取信息进行去重后,筛选出包含多人、多罪名的裁判结果段落对应的刑事判决书,得到多人多罪的文书集合M;文书集合M中的每个文本包含刑事判决书的案号、本院认为段落、审理经过段落、裁判结果段落、被告人、罪名、被告人与对应罪名挂靠关系;3)从所述文书集合M中的各审理经过段落中抽取出各刑事判决书对应的前审关联案号;4)根据筛选出的前审关联案号找到对应的起诉书;5)从各所述起诉书中抽取出本院认为段落;6)从所述起诉书的本院认为段落中抽取人名和罪名并去重,得到起诉书的人名集合Qname和罪名集合Qcrime;7)将所述文书集合M中被告人姓名集合Mname、罪名集合Mcrime与人名集合Qname、罪名集合Qcrime分别进行匹配,若Mname=Qname且Mcrime=Qcrime,则判定所述文书集合M中每一案号对应的刑事判决书为一多人多罪样本,对每一多人多罪样本对应的所述起诉书的本院认为段落进行反标,生成训练集;
模型训练模块,用于利用所述训练集中的样本数据训练串联模型;所述串联模型包括BERT+CRF命名体识别模型和BERT分类模型;所述BERT+CRF命名体识别模型用于从输入的样本数据中抽取人名和罪名并将其输入BERT分类模型,得到每一样本数据中的人名和罪名之间的关系;以及利用所述文书集合M中样本对应的被告人和罪名之间的关系,对所述训练集内各样本对应的判决书中本院认为段落信息进行标注,将标注的判决书作为训练集训练上述训练后的串联模型,得到一预测模型;然后将训练后的BERT分类模型作为ALBERT_TINY模型;然后将大量无标注的判决书输入所述预测模型,将输出结果作为对应判决书的伪标签数据,得到伪标签样本;利用判决书的裁判结果段落对对应的伪标签样本进行验证,筛选出准确的伪标签样本,然后利用准确的大量伪标签样本训练蒸馏剪枝的ALBERT_TINY模型;
预测模块,用于对于一目标案件,从该目标案件的起诉书中提取本院认为段落并将其输入到训练后的ALBERT_TINY模型,得到该目标案件中人名与罪名的对应关系。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至5任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176690.5A CN116304035B (zh) | 2023-02-28 | 2023-02-28 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310176690.5A CN116304035B (zh) | 2023-02-28 | 2023-02-28 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116304035A CN116304035A (zh) | 2023-06-23 |
CN116304035B true CN116304035B (zh) | 2023-11-03 |
Family
ID=86823375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310176690.5A Active CN116304035B (zh) | 2023-02-28 | 2023-02-28 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304035B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350642A (zh) * | 2023-08-29 | 2024-01-05 | 前方高能人工智能科技(成都)有限公司 | 一种自动化生成文书资料的人机协同平台 |
CN117648407B (zh) * | 2024-01-26 | 2024-04-16 | 山东管理学院 | 一种体育赛事数据统计方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033249A (zh) * | 2018-07-05 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 公检法领域结构化文书的信息提取方法、装置及存储介质 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN110688856A (zh) * | 2019-10-08 | 2020-01-14 | 杭州费尔斯通科技有限公司 | 一种裁判文书信息提取方法 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
WO2020135247A1 (zh) * | 2018-12-24 | 2020-07-02 | 北京国双科技有限公司 | 法律文书解析方法及装置 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN112597763A (zh) * | 2020-12-16 | 2021-04-02 | 大连理工大学 | 司法文书信息提取和关联展示方法、装置及存储介质 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN113011161A (zh) * | 2020-12-29 | 2021-06-22 | 中国航天科工集团第二研究院 | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 |
CN113377916A (zh) * | 2021-06-22 | 2021-09-10 | 哈尔滨工业大学 | 一种面向法律文本的多关系中主要关系的抽取方法 |
-
2023
- 2023-02-28 CN CN202310176690.5A patent/CN116304035B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033249A (zh) * | 2018-07-05 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 公检法领域结构化文书的信息提取方法、装置及存储介质 |
WO2020135247A1 (zh) * | 2018-12-24 | 2020-07-02 | 北京国双科技有限公司 | 法律文书解析方法及装置 |
CN109933789A (zh) * | 2019-02-27 | 2019-06-25 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN110688856A (zh) * | 2019-10-08 | 2020-01-14 | 杭州费尔斯通科技有限公司 | 一种裁判文书信息提取方法 |
CN111026869A (zh) * | 2019-12-10 | 2020-04-17 | 山东大学 | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN112905713A (zh) * | 2020-11-13 | 2021-06-04 | 昆明理工大学 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
CN112597763A (zh) * | 2020-12-16 | 2021-04-02 | 大连理工大学 | 司法文书信息提取和关联展示方法、装置及存储介质 |
CN113011161A (zh) * | 2020-12-29 | 2021-06-22 | 中国航天科工集团第二研究院 | 一种基于深度学习与模式匹配的人案物关联关系抽取方法 |
CN113377916A (zh) * | 2021-06-22 | 2021-09-10 | 哈尔滨工业大学 | 一种面向法律文本的多关系中主要关系的抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于罪名相关成分标注的刑事裁判文书概要信息提取;刘晨;李兵;吴卫星;;山东科技大学学报(自然科学版)(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116304035A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116304035B (zh) | 一种复杂案件中的多被告多罪名关系抽取方法及装置 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110457696A (zh) | 一种面向档案数据的人才与政策智能匹配系统和方法 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN110717324A (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN113688635B (zh) | 一种基于语义相似度的类案推荐方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
US20240331435A1 (en) | Systems and Methods for Generating Document Numerical Representations | |
CN115221864A (zh) | 一种多模态假新闻检测方法及系统 | |
CN106095758B (zh) | 一种基于词向量模型的文学作品竞猜方法 | |
Pandey et al. | Ensem_SLDR: classification of cybercrime using ensemble learning technique | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN112560811A (zh) | 端到端的音视频抑郁症自动检测研究方法 | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 | |
Yang et al. | Identifying the central figure of a scientific paper | |
CN115115483B (zh) | 一种融合隐私保护的学生综合能力评测方法 | |
Madhusudhan et al. | Attributional analysis of multi-modal fake news detection models (Grand Challenge) | |
CN115374943A (zh) | 一种基于域对抗迁移网络的数据认知计算方法及其系统 | |
CN109190556B (zh) | 一种公证意愿真实性鉴别方法 | |
CN114822734A (zh) | 基于循环卷积神经网络的中医病案分析方法 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |