CN110502634A - 一种案由的判定和抓取方法及其系统 - Google Patents

一种案由的判定和抓取方法及其系统 Download PDF

Info

Publication number
CN110502634A
CN110502634A CN201910742625.8A CN201910742625A CN110502634A CN 110502634 A CN110502634 A CN 110502634A CN 201910742625 A CN201910742625 A CN 201910742625A CN 110502634 A CN110502634 A CN 110502634A
Authority
CN
China
Prior art keywords
case
data
denoising
judgement
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910742625.8A
Other languages
English (en)
Inventor
孔伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910742625.8A priority Critical patent/CN110502634A/zh
Publication of CN110502634A publication Critical patent/CN110502634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种案由的判定和抓取方法及其系统,判定方法包括以下步骤:获取待判定的案件描述文本数据;对文本数据进行分词处理和去噪处理;从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;所述抓取方法包括以下步骤:利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;对获取到的案例信息数据通过正则表达式进行结构化数据清洗。本发明利用技术手段实现智能定案由可以更方便地提高处理案件的速率,给使用的用户和律师带来巨大的帮助。

Description

一种案由的判定和抓取方法及其系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种案由的判定和抓取方法及其系统。
背景技术
在法律案件处理中,时间成本高。由于是海量数据,每篇案例都需要根据特征建立特征库,并且计算与其他案例的相似度。另外考虑到建立好的模型也是非常巨大的,所以在运行计算的时间也会增加。
如今,“人工智能”已被引用到各个领域且取得了不错的结果,那么将其应用在法律行业上也会有很好的成绩。伴随着案例网络数据库的数据增加,使得我们有了最基础的数据来源,对数据进行深入的分析、深度挖掘。分析是我们最重要的工具,结合海量的案例库,建设一个案例分析平台对回测、调试很有必要性的,并且依靠法律专业人员进行知识补充使得更加准确和完善。利用技术手段实现智能定案由可以更方便地提高处理案件的速率,给使用的用户和律师带来巨大的帮助。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种案由的判定和抓取方法及其系统,以解决现有技术的不足。
为实现上述目的,本发明的一种案由的判定和抓取方法,所述判定方法包括以下步骤:
获取待判定的案件描述文本数据;
对所述文本数据进行分词处理和去噪处理;
从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;
将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;
所述抓取方法包括以下步骤:
利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;
对获取到的案例信息数据通过正则表达式进行结构化数据清洗,清洗后的结构化数据包含多个分类数据,所述分类数据包括案例的案由、案例的判决时间、案例的诉讼时间、案例所引用的法律法规。
对所述文本数据进行分词处理和去噪处理,具体包括:
利用分词器对案情文本信息进行分词处理;以及利用word2vector技术对分词后的词进行向量化处理;或者利用预定的规则词库和噪音词库对分词处理后的案情文本信息进行去噪处理。
一种案由的判定和抓取系统,其特征在于,包括:
获取模块,用于获取待判定的案件描述文本数据;
预处理模块,用于对所述文本数据进行分词处理和去噪处理;
关键字提取模块,用于从经过分词处理和去噪处理的文本数据中进行关键字提取;
判定模块,用于将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;
案例信息数据抓取模块,用于利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;
和结构化数据清洗模块,用于对获取到的案例信息数据通过正则表达式进行结构化数据清洗。
本发明的有益效果是:
本发明的整个分析的过程如下:第一步,将用户描述好的案件获取,并将特征提取出来。第二部,寻找与案件特征最相似的案例库中的案件,第三步,根据特征分数进行倒排获取案例。给用户推荐出案例的所属的案由,和案件各个分类的数据,比如,诉讼请求、判决结果、案件的诉讼时间、哪些律师办理的等等。利用技术手段实现智能定案由可以更方便地提高处理案件的速率,给使用的用户和律师带来巨大的帮助。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明具体实施例提供抓取案例的装置流程图;
图2为本发明具体实施例提供基于机器学习处理的装置流程图;
图3为本发明具体实施例的案由相似案例的判定装置的结构示意图。
具体实施方式
为了解决上述问题,本发明实施提出一种案由的判定方法,包括:获取待判定的案件描述文本数据;对所述文本数据进行分词处理和去噪处理;从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;将提取到的关键字数据带入案由分类器,生成对所述案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得。
为了解决上述问题,本发明实施还提出了一种案由的判定装置,包括:获取模块,用于获取待判定的案情文本信息;预处理模块,用于对所述案情文本信息进行分词处理和去噪处理;关键字提取模块,用于从经过分词处理和去噪处理的案情文本信息中进行关键字提取;关键词转换模块,用于将关键词和隐含的关键词进行特征建模;判定模块,用于将特征带入案由分类器,生成对所述待判定的案情的案由判定结果,案由分类器通过训练案例网络库语料获得。
为了解决上述问题,本发明实施还提出一种抓取案例的装置,包括:获取案例网络库的数据模块,用于特征建模;预处理模块,用于将案例数据分词处理、纠错处理和去噪处理。
为了解决上述问题,本发明实施还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的案由的判定方法的步骤。
为了解决上述问题,本发明实施还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的案由的判定方法的步骤。
本申请实施例提供了一种案由的判定方法、装置及计算机设备、存储介质,在输入案情文本信息后,可以智能的判定案由,提高了办案的效率,并且给法律专业人员的办案提供了辅助作用,对非法律人员的相关咨询提供了指导性帮助。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
本申请提出一种抓取案例方法,图1示出了本申请的一种抓取案例的处理流程图。如图1所示,该处理方法包括:
利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据,对获取到的案例文本信息通过正则表达式进行结构化数据清洗,清洗后的结构化数据包含很多个分类数据,如案例的案由,案例的判决时间,案例的诉讼时间,案例所引用的法律法规等等。
本申请提出一种提供基于机器学习处理方法,如图2所示,该处理方法包括:
通过清洗脚本对裁判文书数据清洗出多样的结构化数据标签,并将案例的重要文本段落(审理经过,当事人的诉称、事实和理由部分)分词抽取出关键词特征和语义特征,并将结构化数据标签、特征存储到分类模型进行训练语料。训练分为两步,第一步训练分类标注模型,第二部训练详细分类标注模型。第一步的模型输出作为第二步的模型输入。针对各种不同的案情描述,都可由标注模型来预测处理,保证案例的信息粒度在一个可控的范围。
本申请提出一种案由的判定方法,图3示出了本申请的一种案由相似案例的判定方法的处理流程图。如图3所示,该处理方法包括:
步骤30,获取待判定的案情文本信息;
步骤31,对所述的案情进行分词和去噪处理,并提取出有价值信息的特征;
步骤32,利用分布式计算框架将特征与训练好的语料模型进行计算;
步骤33,通过分类模型,生成对所述案情的最准确的案件案由结果,分类模型由案例网络库训练的语料获取;
步骤34,判定结果。
在本申请的一种实施方式中,在步骤31中,对所述案情文本信息进行处理,具体包括:
利用分词器对所述案情文本信息进行分词处理;以及利用word2vector技术对分词后的词进行向量化处理。
在本申请的一种实施方式中,在步骤31中,对所述案情文本信息进行去噪处理,具体包括:利用设定的规则词库和噪音词库对分词处理后的案情文本信息进行去噪处理。规则词库和噪音词库是预先就已经做好的,以下只做简单描述:
因为词性中包含着大量的规则以及特征,这对分析文本规律有着重大的意义,所以利用词性标注器对案情进行分词处理,得到标注词性后的案情数据语料库。如下所示:
...双方/n父母/n出资/vn购买/v了/ul一套/m房屋/n。/x这个/r案子/n现在/t,/x起诉/v离婚/v...。
对每篇案例进行分析,找出一些相对当前类型的案例造成影响的词,形成一个噪音词库;比如上面的了、这个、案子。并且这些词在大部分案例中出现的频率很高,也就对建立特征造成了很大的影响,所以预先将这些词汇找出,做出噪音词库。
同理,规则词库则是找出分词后的词组相对有价值的,通过筛选各个同类型案情的分词结果并去噪得到的词组再进行判定和组合,加入法律专业人士的诊断所形成的规则词库;
同义词库则是由专业人士对规则词库的补充;
语义分析,将句子进行拆分,拆分后的文本串计算权重,再根据规则词库对文本串中的词组赋予更高的权重,并设置一定的阈值,提取出文本串的核心词。
潜在主题分析,对每一篇案例,从主题分布中抽取一个主题,从上述被抽到的主题所对应的单词分布中抽到一个单词,重复上述过程直至遍历案例中的每一个单词。
综上所述,本申请实施例提供了一种案由的判定和抓取方法、装置及计算机设备,在输入案情文本信息后,可以智能的判定案由并给出相似案例,不但简化了检索的过程,提高了办案的效率,而且给法律专业人员的办案提供了辅助作用,对非法律人员的相关咨询提供了指导性帮助。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种案由的判定和抓取方法,其特征在于,所述判定方法包括以下步骤:
获取待判定的案件描述文本数据;
对所述文本数据进行分词处理和去噪处理;
从经过分词处理和去噪处理的文本数据中进行关键字提取,所述关键字用以表征主要事实说明;
将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;
所述抓取方法包括以下步骤:
利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;
对获取到的案例信息数据通过正则表达式进行结构化数据清洗,清洗后的结构化数据包含多个分类数据,所述分类数据包括案例的案由、案例的判决时间、案例的诉讼时间、案例所引用的法律法规。
2.根据权利要求1所述的案由的判定和抓取方法,其特征在于,对所述文本数据进行分词处理和去噪处理,具体包括:
利用分词器对案情文本信息进行分词处理;以及利用word2vector技术对分词后的词进行向量化处理;或者利用预定的规则词库和噪音词库对分词处理后的案情文本信息进行去噪处理。
3.一种案由的判定和抓取系统,其特征在于,包括:
获取模块,用于获取待判定的案件描述文本数据;
预处理模块,用于对所述文本数据进行分词处理和去噪处理;
关键字提取模块,用于从经过分词处理和去噪处理的文本数据中进行关键字提取;
判定模块,用于将提取到的关键字数据带入案由分类器,生成对案情的判定结果,所述案由分类器通过训练案例网络库学习语料获得;
案例信息数据抓取模块,用于利用网络爬虫在案例网络库网站进行搜索爬取,抓取其中的案例信息数据;
和结构化数据清洗模块,用于对获取到的案例信息数据通过正则表达式进行结构化数据清洗。
CN201910742625.8A 2019-08-13 2019-08-13 一种案由的判定和抓取方法及其系统 Pending CN110502634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910742625.8A CN110502634A (zh) 2019-08-13 2019-08-13 一种案由的判定和抓取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910742625.8A CN110502634A (zh) 2019-08-13 2019-08-13 一种案由的判定和抓取方法及其系统

Publications (1)

Publication Number Publication Date
CN110502634A true CN110502634A (zh) 2019-11-26

Family

ID=68588052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910742625.8A Pending CN110502634A (zh) 2019-08-13 2019-08-13 一种案由的判定和抓取方法及其系统

Country Status (1)

Country Link
CN (1) CN110502634A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991999A (zh) * 2019-12-02 2020-04-10 深圳市华云中盛科技股份有限公司 执法裁量效率的提高方法、装置、计算机设备及存储介质
CN111651594A (zh) * 2020-05-15 2020-09-11 上海交通大学 基于键值记忆网络的案件案由分类方法及介质
CN111797221A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 类似案件推荐方法及装置
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN112989018A (zh) * 2021-05-19 2021-06-18 江苏联著实业股份有限公司 一种基于语义分析的档案自动开放鉴定方法及系统
CN113673243A (zh) * 2021-08-23 2021-11-19 上海浦东华宇信息技术有限公司 文本类型识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质
US20190197100A1 (en) * 2017-12-26 2019-06-27 RELX Inc. Systems, methods and computer program products for mining text documents to identify seminal issues and cases

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
US20190197100A1 (en) * 2017-12-26 2019-06-27 RELX Inc. Systems, methods and computer program products for mining text documents to identify seminal issues and cases
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991999A (zh) * 2019-12-02 2020-04-10 深圳市华云中盛科技股份有限公司 执法裁量效率的提高方法、装置、计算机设备及存储介质
CN111651594A (zh) * 2020-05-15 2020-09-11 上海交通大学 基于键值记忆网络的案件案由分类方法及介质
CN111651594B (zh) * 2020-05-15 2023-06-09 上海交通大学 基于键值记忆网络的案件案由分类方法及介质
CN111797221A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 类似案件推荐方法及装置
CN111797221B (zh) * 2020-06-16 2023-12-08 北京北大软件工程股份有限公司 类似案件推荐方法及装置
CN112966682A (zh) * 2021-05-18 2021-06-15 江苏联著实业股份有限公司 一种基于语义分析的档案分类方法及系统
CN112989018A (zh) * 2021-05-19 2021-06-18 江苏联著实业股份有限公司 一种基于语义分析的档案自动开放鉴定方法及系统
CN112989018B (zh) * 2021-05-19 2021-08-17 江苏联著实业股份有限公司 一种基于语义分析的档案自动开放鉴定方法及系统
CN113673243A (zh) * 2021-08-23 2021-11-19 上海浦东华宇信息技术有限公司 文本类型识别方法及装置
CN113673243B (zh) * 2021-08-23 2022-04-22 上海浦东华宇信息技术有限公司 文本类型识别方法及装置

Similar Documents

Publication Publication Date Title
CN110502634A (zh) 一种案由的判定和抓取方法及其系统
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN108090070B (zh) 一种中文实体属性抽取方法
CN109460459B (zh) 一种基于日志学习的对话系统自动优化方法
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN105512687A (zh) 训练情感分类模型和文本情感极性分析的方法及系统
CN110598005A (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
CN110609983B (zh) 一种政策文件结构化分解方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
Djatmiko et al. A review of sentiment analysis for non-English language
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
KR20190104656A (ko) 텍스트에서 제목을 추출하는 방법 및 장치
Mohan et al. Sarcasm Detection Using Bidirectional Encoder Representations from Transformers and Graph Convolutional Networks
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
Xi et al. Research on deep learning for natural language processing
Peleshchak et al. Text Tonality Classification Using a Hybrid Convolutional Neural Network with Parallel and Sequential Connections Between Layers.
CN116795979A (zh) 一种基于触发词增强的标签信号指导事件检测方法
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
KasthuriArachchi et al. Deep learning approach to detect plagiarism in sinhala text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination