CN110287287B - 案由的预测方法、装置及服务器 - Google Patents

案由的预测方法、装置及服务器 Download PDF

Info

Publication number
CN110287287B
CN110287287B CN201910524657.0A CN201910524657A CN110287287B CN 110287287 B CN110287287 B CN 110287287B CN 201910524657 A CN201910524657 A CN 201910524657A CN 110287287 B CN110287287 B CN 110287287B
Authority
CN
China
Prior art keywords
case
entry
entries
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910524657.0A
Other languages
English (en)
Other versions
CN110287287A (zh
Inventor
杨天行
彭彬
张一麟
李习君
宋勋超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910524657.0A priority Critical patent/CN110287287B/zh
Publication of CN110287287A publication Critical patent/CN110287287A/zh
Application granted granted Critical
Publication of CN110287287B publication Critical patent/CN110287287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种案由的预测方法、装置及服务器。本发明提供的案由的预测方法,包括:对待预测案件的案情描述文本进行分词,获得词条集合;根据预先存储的词条与案由之间的对应关系,确定词条集合对应的多个目标案由,以及多个目标案由中每个目标案由对应的多个高频词条;分别确定每个目标案由对应的多个高频词条与词条集合的匹配程度;将匹配程度最高的目标案由确定为待预测案件的案由。本发明提高了案由预测的效率和准确性。

Description

案由的预测方法、装置及服务器
技术领域
本发明涉及数据处理技术,尤其涉及一种案由的预测方法、装置及服务器。
背景技术
案由是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称或罪名,在罪名预测或者法律条款推荐等一些具有实际应用需求的场景中,往往需要根据案件的案情描述文本来确定出案件的案由。
当前,在确定案件的案由时,通常是由专业人员人工阅读案件的相关卷宗,分析其中的案情描述来确定相应的案由。这样的人工方式往往效率低下,且容易受到人员的业务水平高低不同的影响,导致结果的准确性无法保证。
因此,亟需一种既能提高效率又能保证结果准确性的案由预测方法。
发明内容
本发明提供一种案由的预测方法、装置及服务器,以提高案由的预测效率和准确性。
本发明提供一种案由的预测方法,包括:
对待预测案件的案情描述文本进行分词,获得词条集合;
根据预先存储的词条与案由之间的对应关系,确定该词条集合对应的多个目标案由,以及该多个目标案由中每个目标案由对应的多个高频词条;
分别确定每个目标案由对应的多个高频词条与该词条集合的匹配程度;
将匹配程度最高的目标案由确定为该待预测案件的案由。
可选的,该对待预测案件的描述文本进行分词之前,该方法还包括:
获取多个裁判文书样本数据,对每个样本数据进行匹配性校验,确定有效样本数据;其中,每个样本数据中包括案情描述文本和对应的案由;
对该有效样本数据中的案情描述文本进行分词,统计样本数据中每个词条在每个案由中出现的次数、每个案由出现的总次数、每个案由对应的所有案情描述文本的分词总词条数以及每个案由对应的多个高频词条;
根据每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数;
将该有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系数据,和,该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据存储为词条与案由之间的对应关系。
可选的,根据每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数,包括:
将每个词条在每个案由中出现的次数除以每个案由出现的总次数,再乘以预设的第一系数,得到第一影响因子;
将每个词条在每个案由中出现的次数除以每个案由对应的所有案情描述文本的分词总词条数,再乘以预设的第二系数,得到第二影响因子;
将每个词条在每个案由中出现的次数、该第一影响因子和该第二影响因子加权求和,得到每个词条对每个案由的影响力分数。
可选的,该统计每个案由对应的多个高频词条,包括:
统计每个案由中出现次数较多的第一数量个目标词条;
统计每个案由的目标词条中不具有区分度的词条,该不具有区分度的词条是指在第二数量个案由的目标词条中出现的词条;
将每个案由的目标词条去除该不具有区分度的词条后确定为每个案由对应的多个高频词条。
可选的,根据预先存储的词条与案由之间的对应关系,确定该词条集合对应的多个目标案由,包括:
根据该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据,将该词条集合中每个词条对应的影响力分数较高的预设数量个刑事案由确定为该词条集合对应的多个目标刑事案由。
可选的,该对待预测案件的案情描述文本进行分词,获得词条集合,包括:
对待预测案件的案情描述文本进行分词,获得分词词条;
对该分词词条进行同义词挖掘,获得挖掘词条;
将该分词词条和该挖掘词条确定为该词条集合。
可选的,分别确定每个目标案由对应的多个高频词条与该词条集合的匹配程度,包括:
分别确定每个目标案由对应的多个高频词条与该词条集合中相同词条的数量;
将该相同词条的数量与该词条集合中词条的数量的比值确定为每个目标案由对应的多个高频词条与该词条集合的匹配程度。
本发明提供一种案由的预测装置,包括:
分词模块,用于对待预测案件的案情描述文本进行分词,获得词条集合;
第一确定模块,用于根据预先存储的词条与案由之间的对应关系,确定该词条集合对应的多个目标案由,以及该多个目标案由中每个目标案由对应的多个高频词条;
第二确定模块,用于分别确定每个目标案由对应的多个高频词条与该词条集合的匹配程度;
第三确定模块,用于将匹配程度最高的目标案由确定为待预测案件的案由。
可选的,该案由的预测装置还包括:
获取模块,用于获取多个裁判文书样本数据,对每个样本数据进行匹配性校验,确定有效样本数据;其中,每个样本数据中包括案情描述文本和对应的案由;
统计模块,用于对该有效样本数据中的案情描述文本进行分词,统计样本数据中每个词条在每个案由中出现的次数、每个案由出现的总次数、每个案由对应的所有案情描述文本的分词总词条数以及每个案由对应的多个高频词条;
第四确定模块,用于根据每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数;
存储模块,用于将该有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系数据,和,该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据存储为词条与案由之间的对应关系。
可选的,该第四确定模块具体用于:
将每个词条在每个案由中出现的次数除以每个案由出现的总次数,再乘以预设的第一系数,得到第一影响因子;将每个词条在每个案由中出现的次数除以每个案由对应的所有案情描述文本的分词总词条数,再乘以预设的第二系数,得到第二影响因子;将每个词条在每个案由中出现的次数、该第一影响因子和该第二影响因子加权求和,得到每个词条对每个案由的影响力分数。
可选的,该统计模块具体用于:
统计每个案由中出现次数较多的第一数量个目标词条;统计每个案由的目标词条中不具有区分度的词条,该不具有区分度的词条是指在第二数量个案由的目标词条中出现的词条;将每个案由的目标词条去除该不具有区分度的词条后确定为每个案由对应的多个高频词条。
可选的,该第一确定模块具体用于:
根据该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据,将该词条集合中每个词条对应的影响力分数较高的预设数量个刑事案由确定为该词条集合对应的多个目标刑事案由。
可选的,该分词模块具体用于:
对待预测案件的案情描述文本进行分词,获得分词词条;对该分词词条进行同义词挖掘,获得挖掘词条;将该分词词条和该挖掘词条确定为该词条集合。
可选的,该第二确定模块具体用于:
分别确定每个目标案由对应的多个高频词条与该词条集合中相同词条的数量;将该相同词条的数量与该词条集合中词条的数量的比值确定为每个目标案由对应的多个高频词条与该词条集合的匹配程度。
本发明提供一种服务器,包括存储器和处理器;该存储器和该处理器连接;
该存储器,用于存储计算机程序;
该处理器,用于在计算机程序被执行时,实现如上述任一项中的案由的预测方法。
本发明提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上述任一项中的案由的预测方法。
本发明提供一种案由的预测方法、装置及服务器,通过对待预测案件的案情描述文本进行分词,获得词条集合;根据预先存储的词条与案由之间的对应关系,确定词条集合对应的多个目标案由,以及多个目标案由中每个目标案由对应的多个高频词条;分别确定每个目标案由对应的多个高频词条与词条集合的匹配程度;将匹配程度最高的目标案由确定为待预测案件的案由。可见,该案由的预测方法、装置及服务器根据预先存储的词条与案由之间的对应关系确定待预测案件可能对应的多个目标案由,再进一步通过目标案由的高频词条与词条集合的匹配程度确定出待预测案件的案由,提高了案由预测的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种案由的预测方法的流程示意图一;
图2为本发明提供的一种案由的预测方法的流程示意图二;
图3为本发明提供的一种案由的预测装置的结构示意图一;
图4为本发明提供的一种案由的预测装置的结构示意图二;
图5为本发明提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在罪名预测或者法律条款推荐等一些具有实际应用需求的场景中,需要根据案件的案情描述文本来确定出案件的案由。当前,确定案件的案由通常是由专业人员,如法官或律师等阅读案件的相关卷宗,结合自己的专业知识对案由进行确定。然而,基于这种人工阅读卷宗的方式,效率较为低下且容易受到人员专业水平的影响,准确度无法保证。并且,对于普通用户,当有咨询类的相关需求时,由于不具备专业知识,往往无法快速的通过阅读卷宗的方式确定出案件的案由。为解决上述问题,本发明提出一种案由的预测方法,以提高案由预测的效率和准确度。
图1为本发明提供的一种案由的预测方法的流程示意图一。本实施例的执行主体为案由的预测装置,该装置可以通过软件和/或硬件的方式实现,本实施例中,该装置可以集成在服务器中。如图1所示,本实施例的方法可以包括:
S101、对待预测案件的案情描述文本进行分词,获得词条集合。
案情描述文本是确定案由的依据,其中记录了案件发生的详细情况,例如案情描述文本中可以包括“A某在公交车上偷盗财物,在与车上乘客发生争执后持刀将乘客刺伤”等语句,对案情描述文本进行分词,可以将案情描述文本中较长的语句转化为词条集合,其中,对案情描述文本的分词可以从多个维度,词条可以为词语、词组、短语或者短句等,例如词条集合中可以包括公交车、偷盗财物、争执、持刀、将乘客刺伤等;又如,词条可以为动词、动宾短语,如携带毒品、吸食毒品等,或者主体客体词,如区分贪污或者受贿等,以使得通过词条集合可以区分相似的案情描述文本。同时分词还可以将案情描述文本中的无用词汇过滤掉,例如将连接词和语气词等词汇过滤掉。
S102、根据预先存储的词条与案由之间的对应关系,确定词条集合对应的多个目标案由,以及多个目标案由中每个目标案由对应的多个高频词条。
词条与案由之间的对应关系可以预先存储在案由的预测装置中,或者,还可以存储在案由的预测装置可以访问的其他设备中。词条与案由之前的对应关系可以为多种,例如,每个词条对应的不同的案由,每个词条对应的案由的概率,每个词条在对应的案由的历史出现次数,还可以包括每个案由对应的词条,每个案由对应的出现频率较高的词条等。这些词条与案由之间的对应关系可以通过历史数据获得,例如可以从网络上已经公开的各种案件的裁判文本中进行统计获得。因此,根据预先存储的词条与案由之前的对应关系,可以对词条集合中每个词条对应的案由进行筛选,例如根据词条出现次数较多和/或词条对应的概率较高的案由选择为目标案由,并且确定每个目标案由对应的多个高频词条。
S103、分别确定每个目标案由对应的多个高频词条与词条集合的匹配程度。
S104、将匹配程度最高的目标案由确定为待预测案件的案由。
将每个目标案由对应的多个高频词条和词条集合中的每个词条分别进行比较,确定词条之间的相似程度,根据词条之间的相似程度确定每个目标案由对应的多个高频词条与所述词条集合的匹配程度,并且将匹配程度最高的目标案由确定为带预测案件的案由。
本实施例提供的案由的预测方法,包括对待预测案件的案情描述文本进行分词,获得词条集合;根据预先存储的词条与案由之间的对应关系,确定词条集合对应的多个目标案由,以及多个目标案由中每个目标案由对应的多个高频词条;分别确定每个目标案由对应的多个高频词条与词条集合的匹配程度;将匹配程度最高的目标案由确定为待预测案件的案由。可见,该方法首先根据预先存储的词条与案由之间的对应关系确定待预测案件可能对应的多个目标案由,再进一步通过目标案由的高频词条与词条集合的匹配程度确定出待预测案件的案由,提高了案由预测的效率和准确性。
可选的,S101中对待预测案件的案情描述文本进行分词,获得词条集合,可以包括:
对待预测案件的案情描述文本进行分词,获得分词词条;对分词词条进行同义词挖掘,获得挖掘词条;将分词词条和挖掘词条确定为所述词条集合。
具体的,本实施例中可以依据汉语词汇解释、网络搜索结果摘要相似度、网络搜索共现等角度对分词词条进行同义词挖掘获得挖掘词条,从而使得根据由分词词条和挖掘词条共同组成的词条集合来确定的案由结果更为准确。
在在上述实施例中,预先存储的词条与案由之间的对应关系决定了目标案由的确定,以下结合具体实施例对词条与案由之间的对应关系做进一步说明。图2为本发明提供的一种案由的预测方法的流程示意图二。如图2所示,在图1所示实施例的基础上,S101中对待预测案件的描述文本进行分词之前,该方法还包括:
S201、获取多个裁判文书样本数据,对每个样本数据进行匹配性校验,确定有效样本数据。
其中,每个样本数据中包括案情描述文本和对应的案由。
本实施例中裁判文书样本数据可以从网络上获取,每个样本数据中均包括了案情描述文本和已经判决的该案件的案由。然而,由于从网络上获取到的样本数据中可能包括一些无效样本数据,例如案情描述文本和案由明显不对应,或者样本数据中有信息缺失等,因此需要首先对样本数据进行一次筛选,确定出有效样本数据。
具体地,在对样本数据进行筛选时,可以对每个样本数据进行匹配性校验,例如将裁判文书的标题、裁判文书中依据的相关法条以及裁判文书中的本院认为段落等进行校验,从中选取多个字段进行交叉验证,最终确定出有效的样本数据。
S202、对有效样本数据中的案情描述文本进行分词,统计样本数据中每个词条在每个案由中出现的次数、每个案由出现的总次数、每个案由对应的所有案情描述文本的分词总词条数以及每个案由对应的多个高频词条。
在上述获得有效样本数据后,对于每个有效样本数据,即可获得一个案情描述文本与案由的对应数据。对每个案情描述文本进行分词,即可获得每个案情描述文本对应的词条与案由的对应数据。从而将所有有效样本数据进行分词处理后,可以统计出样本数据中的每个词条在每个案由中出现的次数,例如词条“醉酒”在案由“危险驾驶罪”中出现了45123次,词条“海洛因”在案由“走私贩卖运输毒品罪”中出现了12215次,词条“奸淫”在案由“强奸罪”中出现了8531次。
根据每个词条在每个案由中出现的次数统计出每个案由对应的多个高频词条,例如可以统计出案由“危险驾驶罪”对应的高频词条为:血液、乙醇、醉酒、机动车、轿车、酒后驾驶、血样…等等,高频词条的数量可以根据实际需要确定。
此外,还可统计每个案由对应的所有案情描述文本的分词总词条数以及样本数据中每个案由出现的总次数。
S203、根据每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数。
每个词条对每个案由的影响力分数越高,则表示案情描述文本中具有该每个词条的情况下,相应的案件的案由为该每个案由的概率越大。本实施例中,每个词条对每个案由的影响力分数不仅根据每个词条在每个案由中出现的次数确定,同时还结合每个案由对应的所有案情描述文本的分词总词条数以及每个案由出现的总次数,从而可以对出现总次数较多的热门案由和出现总次数较少的冷门案由均能准确的确定出每个词条对每个案由的影响力分数。
S204、将有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系数据,和,所述有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据存储为词条与案由之间的对应关系。
上述步骤中获得的各类数据均为表示词条与案由之间的对应关系的数据,将各对应关系进行存储,即可在后对待预测案件的案由进行预测时,依据该预先存储的词条与案由之间的对应关系来进行确定。
本实施例提供的案由的预测方法,通过对样本数据的筛选,保证了后续获得的统计数据的准确性,并且在确定每个词条对每个案由的影响力分数时,综合了对其产生影响的多种因素,使得获得的影响力分数更为准确。
在图2所示实施例的基础上,每个词条对每个案由的影响力分数具体可以根据以下方法确定:
将有效样本数据中每个词条在每个案由中出现的次数除以有效样本数据中每个案由出现的总次数,再乘以预设的第一系数,得到第一影响因子;将每个词条在每个案由中出现的次数除以每个案由对应的所有案情描述文本的分词总词条数,再乘以预设的第二系数,得到第二影响因子;将每个词条在每个案由中出现的次数、第一影响因子和第二影响因子加权求和,得到每个词条对每个案由的影响力分数。其中,第一系数和第二系数的值可以根据实际需要进行设置。
每个词条对每个案由的影响力分数可以通过以下公式计算:
score=αA+βB+γC
其中,score为影响力分数;A为每个词条在每个案由中出现的次数;B为第一影响因子;C为第二影响因子;α、β和γ为加权系数,加权系数可以根据具体情况进行设定,通过调整加权系统α、β和γ可以调整影响力分数的准确度,α、β和γ的调整步长可以为0.01。
示例的,若样本数据中案由为“故意伤害罪”的数据为1000例,即案由“故意伤害罪”出现的总次数为1000;其中,案由为“故意伤害罪”的1000个样本数据分词后的总词条数为50000,该总词条数为总词条频次;词条“殴打”在案由“故意伤害罪”下出现了500次,第一系数为100,第二系数为3000,α为0.25,β为0.4,γ为0.35,则词条“殴打”对案由“故意伤害罪”的影响力分数为:
Figure BDA0002097787050000101
上述每个词条对每个案由的影响力分数的计算方法,结合了每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数进行计算,从而在后续过程中,可以根据影响力分数确定待预测案件的目标案由,而避免了单纯依赖出现次数确定目标案由时导致的出现次数较少的案由准确率下降。
可选的,在图2所示实施例的基础上,S202中统计每个案由对应的多个高频词条,包括:
统计每个案由中出现次数较多的第一数量个目标词条;统计每个案由的目标词条中不具有区分度的词条,所述不具有区分度的词条是指在第二数量个案由的目标词条中出现的词条;将每个案由的目标词条去除所述不具有区分度的词条后确定为每个案由对应的多个高频词条。其中,第一数量和第二数量可以根据实际情况进行设置。
示例的,确定出每个案由的目标词条后,若词条“打架”出现在超过20个案由的目标词条中,例如案由故意伤害、寻衅滋事、聚众斗殴、妨害公务、抢劫罪等,即词条“打架”在多个案由的目标词条中重复出现,基于词条“打架”无法区分上述各个案由,即词条“打架”不具备区分度,因此将词条“打架”从目标词条中去除,将剩余的具有区分度的目标词条确定为高频词条,该方法避免了案由对应的高频词条重复率过高,而导致根据词条无法准确确定案由。
在上述实施例的基础上,S102中根据预先存储的词条与案由之间的对应关系,确定词条集合对应的多个目标案由,可以包括:
根据有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据,将词条集合中每个词条对应的影响力分数较高的预设数量个案由确定为词条集合对应的多个目标案由。
由于每个词条对每个案由的影响力分数越高,则表示案情描述文本中具有该每个词条的情况下,相应的案件的案由为该每个案由的概率越大,因此,将词条集合中每个词条对应的影响力分数较高的案由确定为词条集合对应的多个目标案由,目标案由的数量可以根据实际情况进行设置;之后,即可将该多个目标案由中高频词条与词条集合匹配程度最高的目标案由确定为待预测案件的案由。
进一步地,S103中分别确定每个目标案由对应的多个高频词条与词条集合的匹配程度,可以包括:
分别确定每个目标案由对应的多个高频词条与所述词条集合中相同词条的数量;将所述相同词条的数量与所述词条集合中词条的数量的比值确定为每个目标案由对应的多个高频词条与所述词条集合的匹配程度。
图3为本发明提供的一种案由的预测装置的结构示意图一。如图3所示,该案由的预测装置30可以包括:
分词模块301,用于对待预测案件的案情描述文本进行分词,获得词条集合;
第一确定模块302,用于根据预先存储的词条与案由之间的对应关系,确定该词条集合对应的多个目标案由,以及该多个目标案由中每个目标案由对应的多个高频词条;
第二确定模块303,用于分别确定每个目标案由对应的多个高频词条与该词条集合的匹配程度;
第三确定模块304,用于将匹配程度最高的目标案由确定为待预测案件的案由。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在上述实施例的基础上,本发明还可提供一种案由的预测装置。图4为本发明提供的一种案由的预测装置的结构示意图二。如图4所示,在图3所示实施例的基础上,该案由的预测装置30还包括:
获取模块401,用于获取多个裁判文书样本数据,对每个样本数据进行匹配性校验,确定有效样本数据;其中,每个样本数据中包括案情描述文本和对应的案由;
统计模块402,用于对该有效样本数据中的案情描述文本进行分词,统计样本数据中每个词条在每个案由中出现的次数、每个案由出现的总次数、每个案由对应的所有案情描述文本的分词总词条数以及每个案由对应的多个高频词条;
第四确定模块403,用于根据每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数;
存储模块404,用于将该有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系数据,和,该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据存储为词条与案由之间的对应关系。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,第四确定模块403具体用于:
将每个词条在每个案由中出现的次数除以每个案由出现的总次数,再乘以预设的第一系数,得到第一影响因子;将每个词条在每个案由中出现的次数除以每个案由对应的所有案情描述文本的分词总词条数,再乘以预设的第二系数,得到第二影响因子;将每个词条在每个案由中出现的次数、该第一影响因子和该第二影响因子加权求和,得到每个词条对每个案由的影响力分数。
可选的,该统计模块402还具体用于:
统计每个案由中出现次数较多的第一数量个目标词条;统计每个案由的目标词条中不具有区分度的词条,该不具有区分度的词条是指在第二数量个案由的目标词条中出现的词条;将每个案由的目标词条去除该不具有区分度的词条后确定为每个案由对应的多个高频词条。
可选的,第一确定模块302具体用于:
根据该有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据,将该词条集合中每个词条对应的影响力分数较高的预设数量个刑事案由确定为该词条集合对应的多个目标刑事案由。
可选的,该分词模块301具体用于:
对待预测案件的案情描述文本进行分词,获得分词词条;对该分词词条进行同义词挖掘,获得挖掘词条;将该分词词条和该挖掘词条确定为该词条集合。
可选的,该第二确定模块303具体用于:
分别确定每个目标案由对应的多个高频词条与该词条集合中相同词条的数量;将该相同词条的数量与该词条集合中词条的数量的比值确定为每个目标案由对应的多个高频词条与该词条集合的匹配程度。
图5为本发明提供的一种服务器的结构示意图。如图5所示,服务器50包括存储器501和处理器502;存储器501和处理器502连接
存储器501,用于存储计算机程序。
处理器502,用于在计算机程序被执行时,实现如上述任一实施例中的案由的预测方法。
本发明还可提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如上述任一实施例中的案由的预测方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种案由的预测方法,其特征在于,包括:
对待预测案件的案情描述文本进行分词,获得词条集合;
根据预先存储的词条与案由之间的对应关系,确定所述词条集合对应的多个目标案由,以及所述多个目标案由中每个目标案由对应的多个高频词条,其中,所述对应关系包括有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系,和,每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系,所述影响力分数是根据所述有效样本数据中的每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数确定的;
分别确定所述每个目标案由对应的多个高频词条与所述词条集合的匹配程度;
将匹配程度最高的目标案由确定为所述待预测案件的案由。
2.根据权利要求1所述的方法,其特征在于,所述对待预测案件的描述文本进行分词之前,所述方法还包括:
获取多个裁判文书样本数据,对每个样本数据进行匹配性校验,确定有效样本数据;其中,每个样本数据中包括案情描述文本和对应的案由;
对所述有效样本数据中的案情描述文本进行分词,统计所述有效样本数据中每个词条在每个案由中出现的次数、每个案由出现的总次数、每个案由对应的所有案情描述文本的分词总词条数以及每个案由对应的多个高频词条;
根据所述每个词条在每个案由中出现的次数、所述每个案由出现的总次数以及所述每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数;
将所述有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系数据,和,所述有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据存储为词条与案由之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个词条在每个案由中出现的次数、所述每个案由出现的总次数以及所述每个案由对应的所有案情描述文本的分词总词条数,确定每个词条对每个案由的影响力分数,包括:
将所述每个词条在每个案由中出现的次数除以所述每个案由出现的总次数,再乘以预设的第一系数,得到第一影响因子;
将所述每个词条在每个案由中出现的次数除以所述每个案由对应的所有案情描述文本的分词总词条数,再乘以预设的第二系数,得到第二影响因子;
将所述每个词条在每个案由中出现的次数、所述第一影响因子和所述第二影响因子加权求和,得到每个词条对每个案由的影响力分数。
4.根据权利要求2所述的方法,其特征在于,所述统计每个案由对应的多个高频词条,包括:
统计每个案由中出现次数较多的第一数量个目标词条;
统计每个案由的目标词条中不具有区分度的词条,所述不具有区分度的词条是指在第二数量个案由的目标词条中出现的词条;
将每个案由的目标词条去除所述不具有区分度的词条后确定为每个案由对应的多个高频词条。
5.根据权利要求2-4中任一项所述的方法,其特征在于,所述根据预先存储的词条与案由之间的对应关系,确定所述词条集合对应的多个目标案由,包括:
根据所述有效样本数据中每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系数据,将所述词条集合中每个词条对应的影响力分数较高的预设数量个刑事案由确定为所述词条集合对应的多个目标刑事案由。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述对待预测案件的案情描述文本进行分词,获得词条集合,包括:
对待预测案件的案情描述文本进行分词,获得分词词条;
对所述分词词条进行同义词挖掘,获得挖掘词条;
将所述分词词条和所述挖掘词条确定为所述词条集合。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述分别确定所述每个目标案由对应的多个高频词条与所述词条集合的匹配程度,包括:
分别确定每个目标案由对应的多个高频词条与所述词条集合中相同词条的数量;
将所述相同词条的数量与所述词条集合中词条的数量的比值确定为每个目标案由对应的多个高频词条与所述词条集合的匹配程度。
8.一种案由的预测装置,其特征在于,包括:
分词模块,用于对待预测案件的案情描述文本进行分词,获得词条集合;
第一确定模块,用于根据预先存储的词条与案由之间的对应关系,确定所述词条集合对应的多个目标案由,以及所述多个目标案由中每个目标案由对应的多个高频词条,其中,所述对应关系包括有效样本数据中每个案由与每个案由对应的多个高频词条之间的对应关系,和,每个词条、每个词条对应的案由以及每个词条对每个案由的影响力分数之间的对应关系,所述影响力分数是根据所述有效样本数据中的每个词条在每个案由中出现的次数、每个案由出现的总次数以及每个案由对应的所有案情描述文本的分词总词条数确定的;
第二确定模块,用于分别确定所述每个目标案由对应的多个高频词条与所述词条集合的匹配程度;
第三确定模块,用于将匹配程度最高的目标案由确定为所述待预测案件的案由。
9.一种服务器,其特征在于,包括存储器和处理器;所述存储器和所述处理器连接;
所述存储器,用于存储计算机程序;
所述处理器,用于在计算机程序被执行时,实现如上述权利要求1-7中任一项所述的案由的预测方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上述权利要求1-7中任一项所述的案由的预测方法。
CN201910524657.0A 2019-06-18 2019-06-18 案由的预测方法、装置及服务器 Active CN110287287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910524657.0A CN110287287B (zh) 2019-06-18 2019-06-18 案由的预测方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910524657.0A CN110287287B (zh) 2019-06-18 2019-06-18 案由的预测方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN110287287A CN110287287A (zh) 2019-09-27
CN110287287B true CN110287287B (zh) 2021-11-23

Family

ID=68005350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910524657.0A Active CN110287287B (zh) 2019-06-18 2019-06-18 案由的预测方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN110287287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925900B (zh) * 2021-02-26 2023-10-03 北京百度网讯科技有限公司 搜索信息处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776937A (zh) * 2016-12-01 2017-05-31 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107784041A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 裁判文书案由的获取方法和装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN109388796A (zh) * 2017-08-11 2019-02-26 北京国双科技有限公司 裁判文书的推送方法及装置
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604312A (zh) * 2007-12-07 2009-12-16 宗刚 信息的检索管理交流的方法和系统
US8473279B2 (en) * 2008-05-30 2013-06-25 Eiman Al-Shammari Lemmatizing, stemming, and query expansion method and system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784041A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 裁判文书案由的获取方法和装置
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置
CN106776937A (zh) * 2016-12-01 2017-05-31 腾讯科技(深圳)有限公司 一种确定内链关键词的方法和装置
CN107291688A (zh) * 2017-05-22 2017-10-24 南京大学 基于主题模型的裁判文书相似度分析方法
CN109388796A (zh) * 2017-08-11 2019-02-26 北京国双科技有限公司 裁判文书的推送方法及装置
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN109614479A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于距离向量的裁判文书推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sentence Boundary Detection in Legal Text;George Sanchez;《Proceedings of the Natural Legal Language Processing Workshop》;20190607;31-38 *
Siamese-CNN算法研究及其在法院裁判预测中的应用;韩金波;《中国优秀硕士学位论文全文数据库 社会科学I辑》;20190215;G120-224 *

Also Published As

Publication number Publication date
CN110287287A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN109359175B (zh) 电子装置、诉讼数据处理的方法及存储介质
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
US11455301B1 (en) Method and system for identifying entities
US8577155B2 (en) System and method for duplicate text recognition
CN108920633B (zh) 一种论文相似度的检测方法
CN106528532A (zh) 文本纠错方法、装置及终端
CN108021545B (zh) 一种司法文书的案由提取方法及装置
CN111866605B (zh) 一种视频审核方法和服务器
CN108108346B (zh) 文档的主题特征词抽取方法及装置
WO2015085805A1 (zh) 一种确定图片簇描述文本核心词的方法及装置
CN109033212A (zh) 一种基于相似度匹配的文本分类方法
CN106021532B (zh) 关键词的显示方法和装置
CN116383366B (zh) 一种应答信息确定方法、电子设备及存储介质
CN110287287B (zh) 案由的预测方法、装置及服务器
CN110827177A (zh) 类案文书查找方法及装置
CN105404903B (zh) 信息处理方法、装置及电子设备
CN108021595B (zh) 检验知识库三元组的方法及装置
CN105893397B (zh) 一种视频推荐方法及装置
US20220270589A1 (en) Information processing device, information processing method, and computer program product
CN112559679B (zh) 政法新媒体传播力的检测方法、装置、设备及存储介质
CN109034040B (zh) 一种基于演员表的人物识别方法、装置、设备和介质
CN113392184A (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN108882033B (zh) 一种基于视频语音的人物识别方法、装置、设备和介质
CN115221891B (zh) 基于上下文语义分析的目标信息检测方法、装置、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant