CN110825872A - 一种提取和分类诉讼请求信息的方法及系统 - Google Patents

一种提取和分类诉讼请求信息的方法及系统 Download PDF

Info

Publication number
CN110825872A
CN110825872A CN201910858940.7A CN201910858940A CN110825872A CN 110825872 A CN110825872 A CN 110825872A CN 201910858940 A CN201910858940 A CN 201910858940A CN 110825872 A CN110825872 A CN 110825872A
Authority
CN
China
Prior art keywords
litigation
request
model
training
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910858940.7A
Other languages
English (en)
Other versions
CN110825872B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN201910858940.7A priority Critical patent/CN110825872B/zh
Publication of CN110825872A publication Critical patent/CN110825872A/zh
Application granted granted Critical
Publication of CN110825872B publication Critical patent/CN110825872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提取和分类诉讼请求信息的方法及系统,包括:采集相关诉讼书,建立原始数据语料库;识别出诉讼书中诉讼请求相关的文档部分;利用正则表达式识别出诉讼请求项;分类诉讼请求,每个类别的诉讼请求对应一个类别标签;标注诉讼请求项并构建数据集,将上述数据集划分为训练集和测试集;构建神经网络模型并进行预训练获得预训练模型;利用训练集训练预训练模型获得训练后的模型;利用测试集测试训练后的模型获得最优分类模型;将待分类的诉讼请求项输入最优分类模型,输出诉讼请求项的类别标签;本方法及系统实现了诉讼书中的诉讼请求与标准诉讼请求类别的精准匹配。

Description

一种提取和分类诉讼请求信息的方法及系统
技术领域
本发明涉及自然语言智能处理领域,具体地,涉及一种提取和分类诉讼请求信息的方法及系统。
背景技术
诉讼书是当事人因自身合法权益遭受侵害而向人民法院提起诉讼请求的文书。目前,当事人向人民法院提交的诉讼书为纸质文书,扫描后以图片形式存储,诉讼书中的诉讼请求信息无法直接用于人民法院审判流程。现有方法一般采用OCR识别技术将诉讼书扫描件中的诉讼请求转换为可编辑的文字,再用于辅助人民法院后续的审判工作。
诉讼书中当事人的诉讼请求一般分为多项,现有的OCR识别技术仅能够满足一般的文字识别需求,无法区分不同项的诉讼请求。目前提取诉讼请求仍然采用全文正则匹配或者人工手动添加的方式,无法实现精准高效的匹配相应标准诉讼请求及有效分类。
发明内容
为了满足人民法院围绕诉讼请求进行审判的需要,本发明以当事人向人民法院提交的诉讼书为起点,基于OCR识别技术对诉讼书的识别结果,实现诉讼请求的识别及多项诉讼请求的分项处理。利用海量裁判文书训练预训练模型微调预训练模型,实现诉讼书中的诉讼请求与标准诉讼请求的精准匹配。
为实现上述发明目的,本发明一方面提供了一种提取和分类诉讼请求信息的方法,所述方法包括:
采集相关诉讼书,建立原始数据语料库;
利用OCR识别技术将原始数据语料库中的诉讼书图片识别成诉讼书文档,从诉讼书文档中识别出诉讼请求相关的文档部分;
拼接诉讼请求相关的文档部分中每一行内容得到诉讼请求相关的段落;
利用正则表达式识别诉讼请求相关段落中的诉讼请求项;
分析诉讼书,分类诉讼请求,每个类别的诉讼请求对应一个类别标签;
针对识别出的诉讼请求项,将其中一部分诉讼请求项分别打上上述类别标签之一并构建数据集,将上述数据集划分为训练集和测试集;
构建神经网络模型,利用若干民事裁判文书预训练神经网络模型,获得预训练模型;
将训练集输入预训练模型,预训练模型通过attention_mask对训练集做mask处理,然后利用embedding词向量层加载预训练好的词向量;将词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类,输出模型预测的分类结果,获得训练后的模型;
利用测试集测试训练后的模型,基于测试结果调整模型参数获得最优分类模型;
将待分类的诉讼请求项输入最优分类模型,输出诉讼请求分类的类别标签。
优选的,因诉讼书中诉讼请求部分始终以“文字诉讼请求”或“请求事项”开头,以“文字事实与理由”或“事实和理由”结束,所以可以通过正则表达式提取诉讼请求相关的文档部分。针对诉讼书文档,将以“文字诉讼请求”或“请求事项”开头,以“文字事实与理由”或“事实和理由”结束的部分识别为诉讼请求相关的文档部分。
优选的,从诉讼书文档中识别出诉讼请求相关的文档部分后,拼接诉讼请求相关的文档部分之前,本方法还包括:利用语法纠错算法修正诉讼请求相关的文档部分中文字的语法错误。
优选的,利用正则表达式识别出诉讼请求相关段落中以数字“1”至“9”或以汉字“一”至“九”开头,以“句号”或“分号”结尾的字符串,并用换行符替换数字“1”至“9”或者汉字“一”至“九”,即可将诉讼请求相关段落拆分为单独的诉讼请求句子。
优选的,诉讼请求的类别包括但不限于:要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定。
优选的,训练集输入预训练模型后,预训练模型通过attention_mask对训练集做mask处理前,还包括以下处理:
预训练模型根据已有字典对输入的训练样本做数据预处理,即检验训练集中的文字是否存在字典中,将单词替换成字典中的ID编号,并对每段文本长度做截长补短处理,具体为:对于长度小于预设长度的句子,在句子末端填充0,使该句子的长度等于预设长度;对于长度大于预设长度的句子,截断超出预设长度的部分,使截断后句子长度等于预设长度。模型根据字典中每个词的编号进行词嵌入得到词向量。
优选的,词向量由三部分组成:字向量、句向量和位置信息向量。
优选的,利用测试集测试训练后的模型,得到验证的准确率、召回率和F1-score,调整模型参数获得最优分类模型。
优选的,所述民事裁判文书为中国裁判文书网数据库中的民事裁判文书。
另一方面,与本发明中的方法对应,本发明还提供了一种提取和分类诉讼请求信息的系统,所述系统包括:
数据采集及语料库建立单元,用于采集相关诉讼书,建立原始数据语料库;
诉讼请求文档识别单元,用于利用OCR识别技术将原始数据语料库中的诉讼书图片识别成诉讼书文档,从诉讼书文档中识别出诉讼请求相关的文档部分;
拼接单元,用于拼接诉讼请求相关的文档部分中每一行内容得到诉讼请求相关的段落;
诉讼请求项识别单元,用于利用正则表达式识别出诉讼请求相关段落中的诉讼请求项;
诉讼请求分类单元,用于分析诉讼书,分类诉讼请求,每个类别的诉讼请求对应一个类别标签;
标注及数据集构建单元,用于针对识别出的诉讼请求项,将其中一部分诉讼请求项分别打上上述类别标签之一,并构建数据集,将上述数据集划分为训练集和测试集;
模型构建及预训练单元,用于构建神经网络模型,利用若干民事裁判文书预训练神经网络模型获得预训练模型;
预训练模型训练单元,将训练集输入预训练模型,预训练模型通过attention_mask对训练集做mask处理,然后利用embedding词向量层加载预训练好的词向量;将词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类,获得训练后的模型;
最优分类模型获得单元,用于利用测试集测试训练后的模型,基于测试结果调整模型参数获得最优分类模型;
分类单元,用于将待分类的诉讼请求项输入最优分类模型,输出诉讼请求分类的类别标签。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明通过分项处理诉讼请求,实现诉讼请求按照不同请求事项自动分为不同项;标注分项后的诉讼请求与法律知识库整理的标准诉讼请求,利用基于海量裁判文书语料库训练的预训练模型实现诉讼请求的文本分类,从诉讼书中提取当事人的多项诉讼请求,为人民法院办理案件提供审理思路导向,围绕诉讼请求有针对性地审理案件,提高审判效率,避免遗漏审判事项。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是本发明中方法训练阶段的流程示意图;
图2是本发明中方法应用阶段的流程示意图;
图3是本发明中系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
请参考图1,本申请提供了一种提取诉讼请求信息的方法,首先利用OCR识别技术识别上传至系统的诉讼书图片,再分类诉讼书中所涉及的诉讼请求部分。具体步骤如下:
1.汇总相关诉讼书,作为原始数据语料库;
2.利用OCR识别技术将图片形式的诉讼书识别成文字,利用程序读取每一行,识别出以“诉讼请求”或“请求事项”开头,以“事实与理由”或“事实和理由”结束的部分,即为诉讼书中诉讼请求相关的部分;
3.利用语法纠错算法(KenLM、RNN_CRF)修正诉讼请求相关部分中的谐音字词、语法错误、字词补全、错别字等常见语法错误;
4.由于OCR识别技术只能以段落形式识别相关文字,需要利用程序拼接诉讼请求相关部分的每一行内容,得到诉讼请求相关段落;
5.利用正则表达式识别出以数字‘1’至‘9’或‘一’至‘九’开头,以‘。’、‘.’、‘;’、‘;’结尾的字符串,并用换行符替换‘1’至‘9’或‘一’至‘九’,得到诉讼请求项;
6.根据法律相关人士梳理,最终得到63个诉讼请求类别,包括要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定等;
7.将部分诉讼请求项分别人工打上上述63个标签之一,作为真实的标签,构建数据集;
8.将上述数据集按照8:2划分为训练集和测试集;
9.本发明利用中国裁判文书网上2600万份民事裁判文书预训练构建的神经网络模型,训练出基于海量裁判文书语料的预训练模型;
10.将训练集输入上述预训练模型,首先模型会根据已有字典对输入训练样本做数据预处理,即检验训练集中的文字是否存在字典中,将单词替换成字典中的ID编号,并对每段文本长度做截长补短的处理,具体为:对于长度小于预设长度的短句子,在句子末端填充0,使填充后的句子长度等于预设长度;对于长度大于预设长度的句子,截断句子长度超出预设长度的部分,使截断后的句子长度等于预设长度。
11.接下来,模型先通过attention_mask对预处理好的诉讼请求项做mask处理,然后利用embedding词向量层加载预训练好的词向量,词向量由三部分组成:字向量、句向量、位置信息向量;将叠加后的词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类实现最终的分类效果;
12.利用测试集测试训练好的模型,得到验证的准确率、召回率和F1-score,调整模型参数得到最优分类模型;
13.实际应用时,将处理好的真实诉讼请求项输入最优分类模型,可以直接输出分类的类别标签。
请参考图1,训练阶段:1.利用语法纠错算法(KenLM、RNN_CRF)对OCR识别出的诉讼书文字部分做语法纠错,并利用正则表达式识别出诉讼请求部分。识别出诉讼请求项后,人工标注诉讼请求项,构建诉讼请求数据集;2.将诉讼请求数据集划分为训练集和测试集,将训练集输入预训练模型进行模型微调,利用测试集验证模型效果,得到最优分类模型。
请参考图2,应用阶段:首先利用OCR识别技术识别出真实诉讼书的文字,,并利用正则表达式提取诉讼请求部分并分项,将每项诉讼请求输入最优分类模型,输出每项诉讼请求的类别。
请参考图3,本发明实施例提供了一种提取和分类诉讼请求信息的系统,所述系统包括:
数据采集及语料库建立单元,用于采集相关诉讼书,建立原始数据语料库;
诉讼请求文档识别单元,用于利用OCR识别技术将原始数据语料库中的诉讼书图片识别成诉讼书文档,从诉讼书文档中识别出诉讼请求相关的文档部分;
拼接单元,用于拼接诉讼请求相关的文档部分的每一行内容得到诉讼请求相关的段落;
诉讼请求项识别单元,利用正则表达式识别出诉讼请求相关的段落中的诉讼请求项;
诉讼请求分类单元,用于分析诉讼书行,分类诉讼请求,每个类别的诉讼请求对应一个类别标签;
标注及数据集构建单元,用于针对识别出的诉讼请求项,将其中一部分诉讼请求项分别打上上述类别标签之一,并构建数据集,将上述数据集划分为训练集和测试集;
模型构建及预训练单元,用于构建神经网络模型,利用若干民事裁判文书预训练神经网络模型获得预训练模型;
预训练模型训练单元,用于将训练集输入预训练模型,预训练模型通过attention_mask对训练集做mask处理,然后利用embedding词向量层加载预训练好的词向量;将词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类获得训练后的模型;
最优分类模型获得单元,用于利用测试集测试训练后的模型,基于测试结果调整模型参数获得最优分类模型;
分类单元,用于将待分类的诉讼请求项输入最优分类模型,输出诉讼请求分类的类别标签。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种提取和分类诉讼请求信息的方法,其特征在于,所述方法包括:
采集相关诉讼书,建立原始数据语料库;
利用OCR识别将原始数据语料库的诉讼书图片识别成诉讼书文档,从诉讼书文档中识别出诉讼请求相关的文档部分;
拼接诉讼请求相关的文档部分中每一行内容,得到诉讼请求相关的段落;
利用正则表达式识别出诉讼请求相关段落中的诉讼请求项;
分析诉讼书,对诉讼请求进行分类,每个类别的诉讼请求对应一个类别标签;
针对识别出的诉讼请求项,将其中一部分诉讼请求项分别打上上述类别标签之一,完成数据集构建,将上述数据集划分为训练集和测试集;
构建神经网络模型,利用若干民事裁判文书预训练神经网络模型获得预训练模型;
将训练集输入预训练模型,预训练模型通过attention_mask对训练集做mask处理,然后利用embedding词向量层加载预训练好的词向量;将词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类获得训练后的模型;
利用测试集测试训练后的模型,基于测试结果调整模型参数获得最优模型;
将待分类的诉讼请求项输入最优模型,输出诉讼请求分类的类别标签。
2.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,识别诉讼书文档中以文字“诉讼请求”或“请求事项”开头、以文字“事实与理由”或“事实和理由”结束的文档部分为诉讼请求相关的文档部分。
3.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,从诉讼书文档中识别出诉讼请求相关的文档部分之后,拼接诉讼请求相关的文档部分之前,本方法还包括:利用语法纠错算法修正诉讼请求相关的文档部分中的文字语法错误。
4.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,利用正则表达式识别诉讼请求相关段落中以数字“1”至“9”或汉字“一”至“九”开头,以句号或分号结尾的字符串,并用换行符替换数字“1”至“9”或汉字“一”至“九”,得到诉讼请求项。
5.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,诉讼请求的类别包括但不限于:要求确认存在劳动关系、要求解除劳务派遣合同、要求支付劳务派遣费、要求退还保证金、要求支付拖欠工资、要求支付经济补偿金、要求解除竞业限制约定。
6.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,训练集输入预训练模型后,预训练模型通过attention_mask对训练集做mask处理前,还包括以下处理:
预训练模型根据已有的字典对输入训练样本做数据预处理,即检验训练集中的文字是否存在字典中,将单词替换成字典中的ID编号,并对每一段文本长度做如下处理:对于长度小于预设长度的句子,在该句子末端填充0,使填充后的句子长度等于预设长度;对于长度大于预设长度的句子,截断超出预设长度的部分,使截断后的句子长度等于预设长度。
7.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,词向量由三部分组成:字向量、句向量和位置信息向量。
8.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,利用测试集测试训练后的模型,得到验证的准确率、召回率和F1-score,调整模型参数获得最优分类模型。
9.根据权利要求1所述的一种提取和分类诉讼请求信息的方法,其特征在于,所述民事裁判文书为中国裁判文书网数据库中的民事裁判文书。
10.一种提取和分类诉讼请求信息的系统,其特征在于,所述系统包括:
数据采集及语料库建立单元,用于采集相关诉讼书,建立原始数据语料库;
诉讼请求文档识别单元,用于利用OCR识别将原始数据语料库的诉讼书图片识别成诉讼书文档,从诉讼书文档中识别出诉讼请求相关的文档部分;
拼接单元,用于拼接诉讼请求相关的文档部分中每一行内容,得到诉讼请求相关的段落;
诉讼请求项识别单元,用于利用正则表达式识别出诉讼请求相关段落中的诉讼请求项
诉讼请求分类单元,用于分析诉讼书,对诉讼请求进行分类,每个类别的诉讼请求对应一个类别标签;
标注及数据集构建单元,用于针对识别出的诉讼请求项,将其中一部分诉讼请求项分别打上类别标签之一,完成数据集构建,将上述数据集划分为训练集和测试集;
模型构建及预训练单元,用于构建神经网络模型,利用若干民事裁判文书预训练神经网络模型获得预训练模型;
预训练模型训练单元,将训练集输入预训练模型,预训练模型通过attention_mask对训练集做mask处理,然后利用embedding词向量层加载预训练好的词向量;将词向量归一化和dropout后,经12层双层双向transformer处理后接入线性层分类,获得训练后的模型;
最优分类模型获得单元,用于利用测试集测试训练后的模型,基于测试结果调整模型参数获得最优分类模型;
分类单元,用于将待分类的诉讼请求项输入最优分类模型,输出诉讼请求分类的类别标签。
CN201910858940.7A 2019-09-11 2019-09-11 一种提取和分类诉讼请求信息的方法及系统 Active CN110825872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910858940.7A CN110825872B (zh) 2019-09-11 2019-09-11 一种提取和分类诉讼请求信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910858940.7A CN110825872B (zh) 2019-09-11 2019-09-11 一种提取和分类诉讼请求信息的方法及系统

Publications (2)

Publication Number Publication Date
CN110825872A true CN110825872A (zh) 2020-02-21
CN110825872B CN110825872B (zh) 2023-05-23

Family

ID=69547986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910858940.7A Active CN110825872B (zh) 2019-09-11 2019-09-11 一种提取和分类诉讼请求信息的方法及系统

Country Status (1)

Country Link
CN (1) CN110825872B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
WO2013086113A2 (en) * 2011-12-09 2013-06-13 Tiversa Ip, Inc. System for forensic analysis of search terms
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
CN108170715A (zh) * 2017-12-01 2018-06-15 厦门快商通信息技术有限公司 一种文本分类内容提取方法及文本结构化处理方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN109446511A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109726287A (zh) * 2018-12-25 2019-05-07 银江股份有限公司 一种基于迁移学习和深度学习的人民调解案例分类系统及方法
CN109886270A (zh) * 2019-01-17 2019-06-14 大连理工大学 一种面向电子卷宗笔录文本的案件要素识别方法
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012014918A1 (ja) * 2010-07-28 2012-02-02 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
WO2013086113A2 (en) * 2011-12-09 2013-06-13 Tiversa Ip, Inc. System for forensic analysis of search terms
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
CN108170715A (zh) * 2017-12-01 2018-06-15 厦门快商通信息技术有限公司 一种文本分类内容提取方法及文本结构化处理方法
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法
CN109446511A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN109446332A (zh) * 2018-12-25 2019-03-08 银江股份有限公司 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法
CN109726287A (zh) * 2018-12-25 2019-05-07 银江股份有限公司 一种基于迁移学习和深度学习的人民调解案例分类系统及方法
CN109886270A (zh) * 2019-01-17 2019-06-14 大连理工大学 一种面向电子卷宗笔录文本的案件要素识别方法
CN109992664A (zh) * 2019-03-12 2019-07-09 平安科技(深圳)有限公司 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ILIAS CHALKIDIS 等: "Deep learning in law: early adaptation and legal word embeddings trained on large corpora", 《ARTIFICIAL INTELLIGENCE AND LAW》 *
嵇旋 等: "面向裁判文书的隐私内容检测方法", 《 重庆邮电大学学报(自然科学版) 》 *
李嘉伟: "面向法院裁判文书的质量检测技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备

Also Published As

Publication number Publication date
CN110825872B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111177326B (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
CN108334500A (zh) 一种基于机器学习算法的裁判文书标注方法及装置
CN110334640A (zh) 一种票据审核方法及系统
CN110517130A (zh) 一种智能记账方法及其系统
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN112418812A (zh) 分布式全链路自动化智能通关系统、方法及存储介质
CN112163553A (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN112632989A (zh) 一种合同文本中风险信息的提示方法、装置及设备
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN111488458B (zh) 国际贸易商品代码的自动识别处理方法及系统
CN117112782A (zh) 一种招标公告信息提取方法
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN115455148A (zh) 一种合同的智能审查方法及装置
CN112597306A (zh) 一种基于bert的旅游评论意见挖掘方法
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN114003692A (zh) 合同文本信息的处理方法、装置、计算机设备及存储介质
CN110825872A (zh) 一种提取和分类诉讼请求信息的方法及系统
CN116777607A (zh) 一种基于nlp技术的智能审计方法
CN116306502A (zh) 一种针对bert分类任务的数据标注优化系统及方法
CN116823422A (zh) 一种表单数据处理方法及装置
CN114549177A (zh) 保函审查方法、装置、系统与计算机可读存储介质
CN111858938B (zh) 一种裁判文书标签的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Applicant after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: 610000 No.2, 4th floor, building 1, Jule Road intersection, West 1st section of 1st ring road, Wuhou District, Chengdu City, Sichuan Province

Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant