CN110750974A - 一种裁判文书结构化处理方法及系统 - Google Patents
一种裁判文书结构化处理方法及系统 Download PDFInfo
- Publication number
- CN110750974A CN110750974A CN201910893066.0A CN201910893066A CN110750974A CN 110750974 A CN110750974 A CN 110750974A CN 201910893066 A CN201910893066 A CN 201910893066A CN 110750974 A CN110750974 A CN 110750974A
- Authority
- CN
- China
- Prior art keywords
- document
- paragraph
- referee
- language model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 87
- 230000011218 segmentation Effects 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 18
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000012795 verification Methods 0.000 claims abstract description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 abstract description 2
- 230000014509 gene expression Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Engineering & Computer Science (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种裁判文书结构化处理方法及系统,所述方法包括:建立裁判文书语料库;分析裁判文书结构;标注裁判文书,将标注的裁判文书划分为训练集和验证集;构建语言模型并预训练;计算预训练语言模型的损失函数;将训练集输入预训练语言模型,输出训练集中裁判文书的向量表示;利用该向量及训练集标注数据训练预测分段模型,获得初步的预测分段模型;将验证集输入预训练语言模型,将输出的向量输入初步预测分段模型,对比输出的分段结果与裁判文书标注调整优化预测分段模型,得到最优预测分段模型;利用本发明可提升裁判文书结构化处理准确率,降低对人工核查的依赖,提升裁判文书结构化处理效率。
Description
技术领域
本发明涉及文本智能处理领域,具体地,涉及一种裁判文书结构化处理方法及系统。
背景技术
裁判文书是人民法院依法作出的具有法律意义的文书,包含判决书、裁定书、调解书、决定书等多种类型文书。目前,裁判文书的结构化处理主要基于裁判文书自身的段落结构,辅之以不同段落的表述特征,总结出适用于不同段落结构的正则表达式,并在此基础上泛化正则表达式的,通过正则匹配实现裁判文书结构化处理。
现有的裁判文书结构化处理方法高度依赖于正则表达式的完整性和准确性,由于海量裁判文书中表述的多样性需要持续丰富正则表达式,同时也可能会面临现有的正则表达式无法实现逐年新增裁判文书的结构化处理。利用正则表达式进行裁判文书结构化处理的另一个问题在于,由于大量正则表达式同时存在,需要人工排序正则表达式的适用顺序,排除不同正则表达式之间的冲突,这使得分段结果的准确率严重依赖于人工操作。
发明内容
为了更加高效、准确地实现裁判文书结构化处理,本发明充分考虑我国现行法律规范和司法实践,结合文书类型、审理程序、案件类型以及其他影响裁判文书结构的因素,例如是否公益诉讼、是否小额诉讼等,融合现有的正则方式与机器学习算法,能够高效准确实现对表述方式多样、段落结构复杂的裁判文书的结构化处理。
为实现上述发明目的,本发明一方面提供了一种裁判文书结构化处理方法,所述方法包括:
收集历史裁判文书,建立裁判文书语料库;
分析裁判文书结构,将裁判文书分为若干部分,每个部分对应一个标签;
将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落;
从裁判文书语料库中提取部分裁判文书,将每篇裁判文书的每个段落打上裁判文书结构标签之一,作为标注数据;
将标注数据划分为训练集和验证集;
构建语言模型,即构建一个利用词汇embedding预测单词序列的概率分布模型。普通的语言模型是指给定一个句子中前面的词,计算下一个词的条件概率。本发明中的语言模型引入两个预训练任务,任务一是双向Masked LM,双向语言模型比传统的单向语言模型更能捕捉上下文的语义信息;任务二是next sentence预测,用于捕捉段落之间的关系。预训练语言模型,包括:给定每个单词初始的向量表示,使用以上两个预测任务预训练语言模型,在语言模型训练过程中更新单词向量;
计算预训练语言模型的损失函数,我们采用计算条件概率的方法构造一个损失函数,并进行优化;
将训练集输入预训练语言模型,得到输入段落的向量表示,并基于该向量表示及输入段落的标注数据训练预测分段模型,得到初步预测分段模型;
将验证集输入预训练语言模型,得到输入段落的向量表示,将该向量表示输入初步预测分段模型,得到输入段落的初步预测分段结果;对比预测的分段结果与标注的分段结果优化初步预测分段模型,得到最优预测分段模型;
将待预测的段落x输入预训练语言模型,得到段落x的向量表示,将段落x的向量表示输入最优预测分段模型,得到段落x的分段结果。
本发明提出了一种裁判文书结构化处理方法,分析历史裁判文书结构,结构化解析裁判文书;人工标注小部分裁判文书,得到裁判文书分段的真实标签;利用机器学习方法训练得到预测分段模型,实现自动化解析裁判文书。
优选的,裁判文书的结构包括:判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。
优选的,第一预测任务是双向Masked LM,给定一个段落,随机删除段落中的一个或几个词,预测删除的词,实现双向的语言模型;
第二预测任务是next sentence预测,在预训练语言模型预时分两种情况选择两个段落,一种是选择裁判文书中顺序相连的两个段落;另一种是从所有裁判文书的段落中随机选择两个没有上下文关系的段落拼接在一起,此处的两个段落可以不属于同一篇裁判文书。使得语言模型除了做上述Masked语言模型任务外,同时预测段落关系,判断第二个段落是否为第一个段落的后续段落。
优选的,所述方法还包括:对裁判文书语料库中的每篇裁判文书,将两个段落用分隔符[SEP]隔开,起到分隔段落的目的,每个段落前设置起始符号[CLS],[CLS]表示CLASS,即该位置的特征用于分类模型。
优选的,所述方法还包括:微调语言模型的最后一层首先将语料信息输入语言模型,转化为向量表示,然后输入隐藏层,将隐藏层的输出输入输出层,在输出层对隐藏层的输出添加激活函数。具体方法为:根据标志起始符号[CLS]生成一组特征向量,将[CLS]位置看作语料的一部分,预测该位置,计算将其分为裁判文书结构标签之一的概率,Softmax层归一化将段落分为指定裁判文书结构标签之一的概率。再添加一个输出层将[CLS]对应位置概率最大的标签值输出,最终[CLS]对应位置的输出即为这个段落的分类结果。
优选的,语言模型的损失函数为两个预测任务的损失函数之和;利用梯度下降法求损失函数的最优解,得到每个单词最终的词嵌入向量。
优选的,每个单词的最终词嵌入向量由三个向量拼接而成,包括:位置向量、单词向量和段落向量,位置向量表示单词顺序,单词向量表示普通的单词嵌入向量,段落向量表示每个段落中单词的整体向量。
另一方面,与本发明中的方法对应,本发明还提供了一种裁判文书结构化处理系统,所述系统包括:
数据收集与语料库建立单元,用于收集历史裁判文书,建立裁判文书语料库;
裁判文书结构分析单元,用于分析裁判文书结构,将裁判文书分为若干部分,每个部分对应一个标签;
裁判文书自然段分隔单元,用于将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落;
裁判文书标注单元,用于从裁判文书语料库中提取部分裁判文书,将每篇裁判文书的每个段落打上裁判文书结构标签之一,作为标注数据;
标注数据划分单元,用于将标注数据划分为训练集和验证集;
语言模型构建与预训练单元,用于构建和预训练语言模型,包括:给定每个单词初始的向量表示,使用两个预测任务训练语言模型,在语言模型训练过程中更新单词向量;
计算单元,用于计算预训练语言模型的损失函数;
初步预测分段模型获得单元,用于将训练集输入预训练语言模型,得到输入段落的向量表示,输入该向量表示及段落标注数据训练预测分段模型,得到初步预测分段模型;
最优预测分段模型获得单元,用于将验证集输入预训练语言模型,得到输入段落的向量表示,将该向量表示输入初步预测分段模型,得到输入段落的初步预测分段结果;对比预测的分段结果与标注的分段结果优化初步预测分段模型,得到最优预测分段模型;
分段结果获得单元,用于将待预测的段落x输入预训练语言模型,得到段落x的向量表示,将段落x的向量表示输入最优预测分段模型,得到段落x的分段结果。
优选的,裁判文书的结构包括:判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。
优选的,第一预测任务是双向Masked LM,给定一个段落,随机删除段落中的一个或几个词,预测删除的词,实现双向的语言模型;
第二预测任务是next sentence预测,在预训练语言模型时分两种情况选择两个段落,一种是选择裁判文书中顺序相连的两个段落;另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起,此处的两个段落可以不属于同一篇裁判文书。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明利用机器学习算法实现裁判文书结构化处理,克服了裁判文书书写多样性的困难,实现不同结构裁判文书的精准结构化处理,提升裁判文书结构化处理准确率,降低对人工核查的依赖,提升裁判文书结构化处理效率。相对于传统的裁判文书结构化处理方法,本发明结构化处理裁判文书更快更准,为基于裁判文书结构化的信息抽取、案件检索等提供扎实的支撑。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中一种裁判文书结构化处理方法的流程示意图;
图2是本发明中一种裁判文书结构化处理系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参考图1,本申请提供了本发明提出了一种裁判文书结构化处理方法,分析历史裁判文书结构,结构化解析裁判文书。人工标注小部分裁判文书,得到裁判文书分段的真实标签,利用机器学习方法训练得到预测分段模型,自动化解析没有标签的裁判文书。具体步骤如下:
1.收集历史裁判文书,建立裁判文书语料库。
2.分析裁判文书结构,包括判决书名称,法院名称,文书类型,案号,当事人信息,案件审理信息,原告诉称,被告辩称,第三人述称,证据,法院认定事实,法院说理部分,裁判依据,裁判结果,案件受理费,上诉法院,文书尾部以及附录共18个部分。
3.将每篇裁判文书按照自然段分隔为多个段落。
4.人工标注小部分裁判文书,将每个段落打上上述18个标签之一,作为带有真实标签的标注数据。
5.将步骤4中的标注数据按比例8:2划分为训练集和验证集。
6.对裁判文书语料库中所有的裁判文书,将两个段落用分隔符[SEP]隔开,段落前设置起始符号[CLS]。
7.预训练语言模型,首先给定每个单词初始的向量表示,使用两个新的无监督预测任务训练语言模型,在训练过程中更新单词向量。任务1是双向Masked LM,给定一个段落,随机删除段落中的一个或几个词,预测删除的词,实现双向的语言模型。随机选择语料中15%的单词,用[Mask]掩码代替原始单词,然后利用语言模型正确预测被替换的单词。执行[mask]掩码代替的单词中,只有80%被替换成[mask]标记,10%被随机替换成另外一个单词,10%不做改动。任务2是next sentence预测,在预训练语言模型时分两种情况选择两个段落,一种是选择裁判文书中真正顺序相连的两个段落;另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起,此处两个段落可以不属于同一篇裁判文书。要求语言模型除了做上述的Masked语言模型任务外,同时预测段落关系,判断第二个段落是否是第一个段落的后续段落。
8.计算预训练语言模型的损失函数,这里的损失函数是步骤7中两个预训练任务的损失函数之和。利用梯度下降法求损失函数的最优解,得到每个单词最终的词嵌入向量。每个单词的最终词嵌入向量由三个向量拼接而成,分别是位置向量、单词向量和段落向量,位置向量即单词顺序,单词向量即普通的单词嵌入向量、段落向量即每个段落中单词的整体向量。
9.进入分类预测阶段,微调上述模型的最后一层,具体方法为:根据标志起始符号[CLS]生成一组特征向量,将[CLS]位置看作语料的一部分,预测该位置,计算将其分为裁判文书结构标签之一的概率,Softmax层归一化将段落分为指定裁判文书结构标签之一的概率。再添加一个输出层将[CLS]对应位置概率最大的标签值输出,最终[CLS]对应位置的输出即为这个段落的分类结果。将步骤5的训练集输入预训练语言模型,得到输入段落的向量表示,再结合输入段落的真实标签训练预测分段模型,得到初步预测分段模型。
10.将验证集输入预训练语言模型,得到对应段落的语义表示,即步骤8中的段落向量表示。将该向量表示输入初步预测分段模型,得到段落的初步预测分段结果。对比预测的分段结果与人工标注的分段结果进一步优化预测分段模型,得到最优预测分段模型。
11.将待预测的段落x输入预训练语言模型,得到段落x的语义表示,即步骤8中的段落向量表示,再输入步骤10得到的最优预测分段模型,即可得到段落x的分段结果。
请参考图2,本发明实施例还提供了一种裁判文书结构化处理系统,所述系统包括:
数据收集与语料库建立单元,用于收集历史裁判文书,建立裁判文书语料库;
裁判文书结构分析单元,用于分析裁判文书结构,将裁判文书分为若干部分,每个部分对应一个标签;
裁判文书自然段分隔单元,用于将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落;
裁判文书标注单元,用于从裁判文书语料库中提取部分裁判文书,将每篇裁判文书的每个段落打上裁判文书结构标签之一,作为标注数据;
标注数据划分单元,用于将标注数据划分为训练集和验证集;
语言模型构建与预训练单元,用于构建语言模型并预训练,包括给定每个单词初始的向量表示,使用两个预测任务训练语言模型,在语言模型训练过程中更新单词向量,得到预训练语言模型;
计算单元,用于计算预训练语言模型的损失函数;
初步预测分段模型获得单元,用于将训练集输入预训练语言模型,得到输入段落的向量表示,并基于该向量表示及输入段落的标注数据训练预测分段模型,得到初步预测分段模型;
最优预测分段模型获得单元,用于将验证集输入预训练语言模型,得到输入段落的向量表示,将该向量表示输入初步预测分段模型,得到段落的初步预测分段结果;对比预测的分段结果与标注的分段结果优化初步的预测分段模型,得到最优预测分段模型;
分段结果获得单元,用于将待预测的段落x输入预训练语言模型,得到段落x的向量表示,将段落x的向量表示输入最优预测分段模型,得到段落x的分段结果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种裁判文书结构化处理方法,其特征在于,所述方法包括:
收集历史裁判文书,建立裁判文书语料库;
分析裁判文书结构,将裁判文书分为若干部分,每个部分对应一个标签;
将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落;
从裁判文书语料库中提取部分裁判文书,将每篇裁判文书的每个段落打上裁判文书结构标签之一,作为标注数据;
将标注数据划分为训练集和验证集;
构建语言模型,预训练语言模型,包括:给定每个单词初始的向量表示,使用两个预测任务训练语言模型,在语言模型训练过程中更新单词向量,得到预训练语言模型;
计算预训练语言模型的损失函数;
将训练集输入预训练语言模型,得到段落的向量表示;输入该向量表示及段落的标注数据训练预测分段模型,得到初步预测分段模型;
将验证集输入预训练语言模型,得到段落的向量表示;将该向量表示输入初步预测分段模型,得到输入段落的初步预测分段结果;对比预测的分段结果与标注的分段结果优化初步预测分段模型,得到最优预测分段模型;
将待预测的段落x输入预训练语言模型,得到段落x的向量表示,将段落x的向量表示输入最优预测分段模型,得到段落x的分段结果。
2.根据权利要求1所述的一种裁判文书结构化处理方法,其特征在于,裁判文书的结构包括:判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。
3.根据权利要求1所述的一种裁判文书结构化处理方法,其特征在于:
第一预测任务是双向Masked LM,给定一个段落,随机删除段落中的一个或几个词,预测删除的词,实现双向的语言模型;
第二预测任务是next sentence预测,在预训练语言模型时分两种情况选择两个段落,一种是选择裁判文书中顺序相连的两个段落;另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接。
4.根据权利要求1所述的一种裁判文书结构化处理方法,其特征在于,所述方法还包括:对裁判文书语料库中的每篇裁判文书,将两个段落用分隔符[SEP]隔开,每个段落前设置起始符号[CLS]。
5.根据权利要求4所述的一种裁判文书结构化处理方法,其特征在于,所述方法还包括:微调语言模型的最后一层,具体方法为:根据起始符号[CLS]的标志生成一组特征向量,将[CLS]位置看作语料的一部分,预测该位置,计算将其分为裁判文书结构标签之一的概率,Softmax层归一化将段落分为指定的裁判文书结构标签之一的概率;再添加一个输出层将[CLS]对应位置概率最大的标签值输出,最终[CLS]对应位置的输出即为这个段落的分类结果。
6.根据权利要求3所述的一种裁判文书结构化处理方法,其特征在于,语言模型的损失函数为两个预测任务的损失函数之和;利用梯度下降法求损失函数的最优解,得到每个单词最终的词嵌入向量。
7.根据权利要求6所述的一种裁判文书结构化处理方法,其特征在于,每个单词最终的词嵌入向量由三个向量拼接而成,包括:位置向量、单词向量和段落向量,位置向量表示单词顺序,单词向量表示普通的单词嵌入向量,段落向量表示每个段落中单词的整体向量。
8.一种裁判文书结构化处理系统,其特征在于,所述系统包括:
数据收集与语料库建立单元,用于收集历史裁判文书,建立裁判文书语料库;
裁判文书结构分析单元,用于分析裁判文书结构,将裁判文书分为若干部分,每个部分对应一个标签;
裁判文书自然段分隔单元,用于将裁判文书语料库中的每篇裁判文书按照自然段分隔为多个段落;
裁判文书标注单元,用于从裁判文书语料库中提取部分裁判文书,对每篇裁判文书的每个段落打上裁判文书结构标签之一,作为标注数据;
标注数据划分单元,用于将标注数据划分为训练集和验证集;
语言模型构建与预训练单元,用于构建语言模型并预训练,包括:给定每个单词初始的向量表示,使用两个预测任务训练语言模型,在语言模型训练过程中更新单词向量,得到预训练语言模型;
计算单元,用于计算预训练语言模型的损失函数;
初步预测分段模型获得单元,用于将训练集输入预训练语言模型,得到输入段落的向量表示,输入该向量表示及段落的标注数据训练预测分段模型,得到初步预测分段模型;
最优预测分段模型获得单元,用于将验证集输入预训练语言模型,得到输入段落的向量表示,将该向量表示输入初步预测分段模型,得到段落的初步预测分段结果;对比预测的分段结果与标注的分段结果优化初步预测分段模型,得到最优预测分段模型;
分段结果获得单元,用于将待预测的段落x输入预训练语言模型,得到段落x的向量表示,将段落x的向量表示输入最优预测分段模型,得到段落x的分段结果。
9.根据权利要求8所述的一种裁判文书结构化处理系统,其特征在于,裁判文书的结构包括:判决书名称、法院名称、文书类型、案号、当事人信息、案件审理信息、原告诉称、被告辩称、第三人述称、证据、法院认定事实、法院说理部分、裁判依据、裁判结果、案件受理费、上诉法院、文书尾部以及附录共18个部分。
10.根据权利要求8所述的一种裁判文书结构化处理系统,其特征在于,第一预测任务是双向Masked LM,给定一个段落,随机删除段落中的一个或几个词,预测删除的词,实现双向的语言模型;
第二预测任务是next sentence预测,在预训练语言模型时分两种情况选择两个段落,一种是选择裁判文书中顺序相连的两个段落;另一种是从所有裁判文书段落中随机选择两个没有上下文关系的段落拼接在一起。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893066.0A CN110750974B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书结构化处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893066.0A CN110750974B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书结构化处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750974A true CN110750974A (zh) | 2020-02-04 |
CN110750974B CN110750974B (zh) | 2023-04-25 |
Family
ID=69276787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910893066.0A Active CN110750974B (zh) | 2019-09-20 | 2019-09-20 | 一种裁判文书结构化处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750974B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475626A (zh) * | 2020-06-22 | 2020-07-31 | 上海冰鉴信息科技有限公司 | 裁判文书结构化分块方法及装置 |
CN111563374A (zh) * | 2020-03-23 | 2020-08-21 | 北京交通大学 | 一种基于司法裁判文书的人员社交关系抽取方法 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112330501A (zh) * | 2020-10-30 | 2021-02-05 | 南京智慧图谱信息技术有限公司 | 一种文书处理方法、装置、电子设备及存储介质 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN113282750A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 模型训练方法及系统及装置及介质 |
TWI757767B (zh) * | 2020-06-16 | 2022-03-11 | 國立政治大學 | 自動產生裁判要旨的方法 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
US20130243324A1 (en) * | 2004-12-03 | 2013-09-19 | Google Inc. | Method and system for character recognition |
US20130325442A1 (en) * | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815205A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN106815206A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN108763483A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种面向裁判文书的文本信息抽取方法 |
CN108763485A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于文本相似度的裁判文书的证据链关系模型构建方法 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
WO2019109918A1 (zh) * | 2017-12-06 | 2019-06-13 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、计算机可读存储介质和计算机设备 |
CN110196980A (zh) * | 2019-06-05 | 2019-09-03 | 北京邮电大学 | 一种基于卷积网络在中文分词任务上的领域迁移 |
-
2019
- 2019-09-20 CN CN201910893066.0A patent/CN110750974B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7275029B1 (en) * | 1999-11-05 | 2007-09-25 | Microsoft Corporation | System and method for joint optimization of language model performance and size |
US20130243324A1 (en) * | 2004-12-03 | 2013-09-19 | Google Inc. | Method and system for character recognition |
US20130325442A1 (en) * | 2010-09-24 | 2013-12-05 | National University Of Singapore | Methods and Systems for Automated Text Correction |
CN106815206A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106815205A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
CN106815204A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书的分段方法及装置 |
WO2019109918A1 (zh) * | 2017-12-06 | 2019-06-13 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、计算机可读存储介质和计算机设备 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108334500A (zh) * | 2018-03-05 | 2018-07-27 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
CN108763483A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种面向裁判文书的文本信息抽取方法 |
CN108763485A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于文本相似度的裁判文书的证据链关系模型构建方法 |
CN108984518A (zh) * | 2018-06-11 | 2018-12-11 | 人民法院信息技术服务中心 | 一种面向裁判文书的文本分类方法 |
CN110196980A (zh) * | 2019-06-05 | 2019-09-03 | 北京邮电大学 | 一种基于卷积网络在中文分词任务上的领域迁移 |
Non-Patent Citations (4)
Title |
---|
祝振媛: "基于信息分类的网络书评内容挖掘与整合研究", 《图书情报工作》 * |
郑少婉;陆培民;: "基于自然语义处理的裁判文书分割系统" * |
郑少婉等: "基于自然语义处理的裁判文书分割系统", 《信息技术与网络安全》 * |
高良才等: "一种自动发现、分割与标注引文元数据的方法", 《北京大学学报(自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563374A (zh) * | 2020-03-23 | 2020-08-21 | 北京交通大学 | 一种基于司法裁判文书的人员社交关系抽取方法 |
CN111563374B (zh) * | 2020-03-23 | 2022-08-19 | 北京交通大学 | 一种基于司法裁判文书的人员社交关系抽取方法 |
TWI757767B (zh) * | 2020-06-16 | 2022-03-11 | 國立政治大學 | 自動產生裁判要旨的方法 |
CN111475626A (zh) * | 2020-06-22 | 2020-07-31 | 上海冰鉴信息科技有限公司 | 裁判文书结构化分块方法及装置 |
CN111858938A (zh) * | 2020-07-23 | 2020-10-30 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN111858938B (zh) * | 2020-07-23 | 2024-05-24 | 鼎富智能科技有限公司 | 一种裁判文书标签的提取方法及装置 |
CN112330501A (zh) * | 2020-10-30 | 2021-02-05 | 南京智慧图谱信息技术有限公司 | 一种文书处理方法、装置、电子设备及存储介质 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112347738B (zh) * | 2020-11-04 | 2023-09-15 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112699218A (zh) * | 2020-12-30 | 2021-04-23 | 成都数之联科技有限公司 | 模型建立方法及系统及段落标签获得方法及介质 |
CN113282750A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 模型训练方法及系统及装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110750974B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750974A (zh) | 一种裁判文书结构化处理方法及系统 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109213861B (zh) | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 | |
CN111143550A (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
CN110532563B (zh) | 文本中关键段落的检测方法及装置 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN110705607B (zh) | 一种基于循环重标注自助法的行业多标签降噪方法 | |
CN111651996A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112070138A (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN110717041A (zh) | 一种案件检索方法及系统 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN116956929B (zh) | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 | |
CN113051887A (zh) | 一种公告信息元素抽取方法、系统及装置 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN114492460B (zh) | 基于衍生提示学习的事件因果关系抽取方法 | |
CN113204967A (zh) | 简历命名实体识别方法及系统 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN112181814B (zh) | 一种针对于缺陷报告的多标签标记方法 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |