CN108596360A - 一种基于机器学习的判决预测方法及系统 - Google Patents
一种基于机器学习的判决预测方法及系统 Download PDFInfo
- Publication number
- CN108596360A CN108596360A CN201810218371.5A CN201810218371A CN108596360A CN 108596360 A CN108596360 A CN 108596360A CN 201810218371 A CN201810218371 A CN 201810218371A CN 108596360 A CN108596360 A CN 108596360A
- Authority
- CN
- China
- Prior art keywords
- document
- judgement
- weighted value
- prediction
- candidate keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010801 machine learning Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 18
- 230000006698 induction Effects 0.000 claims description 6
- 230000007547 defect Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于机器学习的判决预测方法及系统,该预测方法包括:得到判决文书的第一候选关键词;将第一预测权重值与实际权重值的偏离程度小于第一预设阈值,且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词;将判决文书与相应的关键词进行训练得到判决模型;通过判决模型和待判决文书得到判决建议文书,根据判决建议文书得到判决建议。本发明实施例通过对已有的判决文书进行处理得到其中的关键词,并利用判决和关键词的对应关系进行训练得到相应的判决模型,在需要进行审判时,将待判决文件输入所述判决模型,进而得到符合条件的判决文件,从而为法官提供判决建议,保证案件的审判无差错,量刑适中,做到同案同判和司法公正。
Description
技术领域
本发明涉及判决辅助判决预测技术领域,尤其涉及一种基于机器学习的判决预测方法及系统。
背景技术
随着法院信息化建设的持续不断地发展,法院保存了海量信息,比如全国法院每天都会产生大量的判决文书(比如:裁定文书,调解文书,判决文书等),据统计,目前的各类判决文书有上千万份,而且每天还在不断快速增加。判决文书是最重要的一类判决文书,它通常由3部分组成:(1)庭审记录;(2)本院认为;(3)案件的判决结果。
随着国家法治建设的深入推进,法院目前对法官的审判结果实行终身责任制。因此法官需要对案件的审判无差错,量刑适中,做到同案同判和司法公正。但目前由于案多人少,法官面临审判时间长,效率低等问题。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种基于机器学习的判决预测方法,包括:
对预存储的每一个判决文书进行数据清洗,得到每一个所述判决文书的第一候选关键词;
基于所述判决文书计算所述第一候选关键词的第一预测权重值,并计算所述第一预测权重值与实际权重值的偏离程度;
将所述偏离程度小于第一预设阈值,且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词;将所述判决文书与相应的关键词进行训练得到判决模型;
录入待判决文书,通过所述判决模型和待判决文书得到判决建议文书,根据所述判决建议文书得到判决建议。
基于上述技术方案,本发明实施例还可以做出如下改进。
可选的,所述通过所述判决模型和待判决文书得到相应的所述判决文书,作为判决建议文书,根据所述判决建议文书得到判决建议,具体包括:
对所述待判决文书进行数据清洗,得到所述判决文书的第二候选关键词;
基于所述待判决文书计算所述第二候选关键词的第二预测权重值,并计算所述第二预测权重值与实际权重值的偏离程度;将偏离程度小于第一预设阈值,且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词;
将所述搜索关键词输入所述判决模型,得到相应的所述判决文书,作为判决建议文书;
归纳总结所述判决建议文书,得出所述待判决文书的判决建议。
可选的,该判决预测方法还包括:
通过如下计算公式计算所述第一预测权重值:
其中,W为所述第一预测权重值;t为所述第一候选关键词在所述判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N为包含所述第一候选关键词的所述判决文书的数量;w为根据所述第一候选关键词的重要程度预设置的权重值;
通过如下计算公式计算所述第二预测权重值:
其中,W'为所述第二预测权重值;t'为所述第二候选关键词在所述待判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N'为包含所述第二候选关键词的所述判决文书的数量;w'为根据所述第二候选关键词的重要程度预设置的权重值。
可选的,该判决预测方法还包括:
通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为所述第一预测权重值与实际权重值的偏离程度,c为所述第一候选关键词,n表示所述判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量;
通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为所述第二预测权重值与实际权重值的偏离程度,c'为所述第二候选关键词,n表示所述判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量。
可选的,所述对预存储的每一个判决文书进行数据清洗,具体包括:
对所述预存储判决文书进行文本分词,得到备选词组合;
去除所述备选词组合中的停用词,得到所述判决文书的第一候选关键词。
本发明实施例还提供了一种基于机器学习的判决预测系统,包括:语料库、数据处理子系统、数据计算子系统和数据录入子系统;
所述数据处理子系统,用于对所述语料库中预存储的每一个判决文书进行数据清洗,得到每一个所述判决文书的第一候选关键词;
所述数据计算子系统,用于基于所述判决文书计算所述第一候选关键词的第一预测权重值,并计算所述第一预测权重值与实际权重值的偏离程度;
所述数据处理子系统,还用于将所述偏离程度小于第一预设阈值,且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词;
所述数据处理子系统,还用于将所述判决文书与相应的关键词进行训练得到判决模型;
所述数据处理子系统,还用于接收数据录入子系统录入的待判决文书,并通过所述判决模型和待判决文书得到相应的所述判决文书,作为判决建议文书,根据所述判决建议文书得到判决建议。
可选的,所述数据处理子系统,具体用于,对所述待判决文书进行数据清洗,得到所述判决文书的第二候选关键词;通过所述数据计算子系统基于所述待判决文书计算所述第二候选关键词的第二预测权重值,并计算所述第二预测权重值与实际权重值的偏离程度;将偏离程度小于第一预设阈值,且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词;将所述搜索关键词输入所述判决模型,得到相应的所述判决文书,作为判决建议文书;归纳总结所述判决建议文书,得出所述待判决文书的判决建议。
可选的,所述数据计算子系统,具体用于,通过如下计算公式计算所述第一预测权重值:
其中,W为所述第一预测权重值;t为所述第一候选关键词在所述判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N为包含所述第一候选关键词的所述判决文书的数量;w为根据所述第一候选关键词的重要程度预设置的权重值;
所述数据计算子系统,还用于通过如下计算公式计算所述第二预测权重值:
其中,W'为所述第二预测权重值;t'为所述第二候选关键词在所述待判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N'为包含所述第二候选关键词的所述判决文书的数量;w'为根据所述第二候选关键词的重要程度预设置的权重值。
可选的,所述数据计算子系统,具体用于,通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为所述第一预测权重值与实际权重值的偏离程度,c为所述第一候选关键词,n表示所述判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量;
所述数据计算子系统,还用于通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为所述第二预测权重值与实际权重值的偏离程度,c'为所述第二候选关键词,n表示所述判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量。
可选的,所述数据处理子系统,具体用于,对所述预存储判决文书进行文本分词,得到备选词组合;去除所述备选词组合中的停用词,得到所述判决文书的第一候选关键词。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例通过对已有的判决文书进行处理得到其中的关键词,并利用判决和关键词的对应关系进行训练得到相应的判决模型,在需要进行审判时,将待判决文件输入所述判决模型,进而得到符合条件的判决文件,从而为法官提供判决建议,保证案件的审判无差错,量刑适中,做到同案同判和司法公正。
附图说明
图1是本发明实施例提供的一种基于机器学习的判决预测方法流程示意图;
图2是本发明又一实施例提供的一种基于机器学习的判决预测方法流程示意图;
图3是本发明另一实施例提供的一种基于机器学习的判决预测系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种基于机器学习的判决预测方法,包括:
对预存储的每一个判决文书进行数据清洗,得到每一个判决文书的第一候选关键词;
具体的,通过对判决文书进行数据清洗,清除该判决文书中的无关词语,如停用词或连接词之类的与实际内容无关的词汇,对预存储判决文书进行文本分词,不同的语句构造的句子中,不同的分割方式造成语义的不同,在此处进行文本分词可采用正向/反向最大匹配、长词优先等分词策略,以保证语义最大保留,得到备选词组合;去除备选词组合中的停用词,得到判决文书的第一候选关键词。
基于判决文书计算第一候选关键词的第一预测权重值,并计算第一预测权重值与实际权重值的偏离程度;
具体的,通过如下计算公式计算第一预测权重值:
其中,W为第一预测权重值;t为第一候选关键词在判决文书中出现的次数;D为语料库中判决文书的总数;N为包含第一候选关键词的判决文书的数量;w为根据第一候选关键词的重要程度预设置的权重值;从计算公式中可以表明该第一候选关键词的第一预测权重值与该第一候选关键词在判决文书中出现的次数成正比,与包含该第一候选关键词的判决文书的数量呈反比,最后将其与预设置的权重值相乘,该预设置的权重值是根据过往判决中关键词的比例得出的,避免部分案件中的内容不一致导致第一候选关键词的预测权重值较低,导致第一候选关键词丢失。
通过如下计算公式计算第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为第一预测权重值与实际权重值的偏离程度,c为第一候选关键词,n表示判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量;在本计算公式中,通过该关键词在所有的判决文件中的包含和不包含的关系程度,计算该第一候选关键词的偏离程度进行计算,偏离程度越大说明该第一候选关键词越不可能是关键词。
将偏离程度小于第一预设阈值,且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词;将判决文书与相应的关键词进行训练得到判决模型;
具体的,根据两个计算公式分别计算第一候选关键词的预测权重值和偏离程度,由此筛选出真实的关键词,将该关键词与对应的判决文书进行训练,得到相应的判决模型,以方便后续待判决案件从中筛选出与待判决案件相类似的案件的判决文书。
录入待判决文书,通过判决模型和待判决文书得到判决建议文书,根据判决建议文书得到判决建议;
具体的,通过将待判决文书输入判决模型,从中与待判决文件相似的判决文书,将相似的判决文书的审判结果进行汇总,得到该待判决案件的判决建议。
上述实施例中,通过对已有的判决文件进行数据清洗,分别得到不同判决文件的候选关键词,每个判决文件的候选关键词的数量较多,其中有一些并不是关键词,因此通过计算候选关键词的权重值,并通过该候选关键词在不同判决文件中的包含关系,从侧面计算该候选关键词与真实值的偏离程度,以验证该候选关键词权重值是否可用,从而得到其中符合条件的候选关键词作为关键词,通过该关键词与相应的判决文书通过机器学习进行训练得到相应的判决模型,其中,机器学习包括:向量机、逻辑回归和深度学习等机器学习方法,将待判决的文书输入判决模型,通过待判决文书的关键词得到与待判决文件相似的判决文书,将相似的判决文书的审判结果进行汇总,得到该待判决案件的判决建议。
如图2所示,在一个具体的实施例中,通过判决模型和待判决文书得到相应的判决文书,作为判决建议文书,根据判决建议文书得到判决建议,具体包括:
对待判决文书进行数据清洗,得到判决文书的第二候选关键词;
基于待判决文书计算第二候选关键词的第二预测权重值,并计算第二预测权重值与实际权重值的偏离程度;将偏离程度小于第一预设阈值,且第二预测权重值大于第二预设阈值的第二候选关键词作为搜索关键词;
将搜索关键词输入判决模型,得到相应的判决文书,作为判决建议文书;
归纳总结判决建议文书,得出待判决文书的判决建议。
在本实施例中,通过如下计算公式计算第二预测权重值:
其中,W'为第二预测权重值;t'为第二候选关键词在待判决文书中出现的次数;D为语料库中判决文书的总数;N'为包含第二候选关键词的判决文书的数量;w'为根据第二候选关键词的重要程度预设置的权重值。
在本实施例中,通过如下计算公式计算第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为第二预测权重值与实际权重值的偏离程度,c'为第二候选关键词,n表示判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量。
如图3所示,本发明实施例还提供了一种基于机器学习的判决预测系统,包括:语料库、数据处理子系统、数据计算子系统和数据录入子系统;
在本实施例中,数据处理子系统,用于对语料库中预存储的每一个判决文书进行数据清洗,得到每一个判决文书的第一候选关键词;
具体的,数据处理子系统,具体用于,对预存储判决文书进行文本分词,得到备选词组合;去除备选词组合中的停用词,得到判决文书的第一候选关键词。
在本实施例中,数据计算子系统,用于基于判决文书计算第一候选关键词的第一预测权重值,并计算第一预测权重值与实际权重值的偏离程度;
具体的,通过如下计算公式计算第一预测权重值:
其中,W为第一预测权重值;t为第一候选关键词在判决文书中出现的次数;D为语料库中判决文书的总数;N为包含第一候选关键词的判决文书的数量;w为根据第一候选关键词的重要程度预设置的权重值;
具体的,通过如下计算公式计算第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为第一预测权重值与实际权重值的偏离程度,c为第一候选关键词,n表示判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量。
在本实施例中,数据处理子系统,还用于将偏离程度小于第一预设阈值,且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词。
在本实施例中,数据处理子系统,还用于将判决文书与相应的关键词进行训练得到判决模型。
在本实施例中,数据处理子系统,还用于接收数据录入子系统录入的待判决文书,并通过判决模型和待判决文书得到相应的判决文书,作为判决建议文书,根据判决建议文书得到判决建议;
具体的,对待判决文书进行数据清洗,得到判决文书的第二候选关键词;通过数据计算子系统基于待判决文书计算第二候选关键词的第二预测权重值,并计算第二预测权重值与实际权重值的偏离程度,具体的,通过如下计算公式计算第二预测权重值:
其中,W'为第二预测权重值;t'为第二候选关键词在待判决文书中出现的次数;D为语料库中判决文书的总数;N'为包含第二候选关键词的判决文书的数量;w'为根据第二候选关键词的重要程度预设置的权重值;通过如下计算公式计算第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为第二预测权重值与实际权重值的偏离程度,c'为第二候选关键词,n表示判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量;将偏离程度小于第一预设阈值,且第二预测权重值大于第二预设阈值的第二候选关键词作为搜索关键词;将搜索关键词输入判决模型,得到相应的判决文书,作为判决建议文书;归纳总结判决建议文书,得出待判决文书的判决建议。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于机器学习的判决预测方法,其特征在于,包括:
对预存储的每一个判决文书进行数据清洗,得到每一个所述判决文书的第一候选关键词;
基于所述判决文书计算所述第一候选关键词的第一预测权重值,并计算所述第一预测权重值与实际权重值的偏离程度;
将所述偏离程度小于第一预设阈值,且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词;将所述判决文书与相应的关键词进行训练得到判决模型;
录入待判决文书,通过所述判决模型和待判决文书得到判决建议文书,根据所述判决建议文书得到判决建议。
2.根据权利要求1所述的基于机器学习的判决预测方法,其特征在于,所述通过所述判决模型和待判决文书得到相应的所述判决文书,作为判决建议文书,根据所述判决建议文书得到判决建议,具体包括:
对所述待判决文书进行数据清洗,得到所述判决文书的第二候选关键词;
基于所述待判决文书计算所述第二候选关键词的第二预测权重值,并计算所述第二预测权重值与实际权重值的偏离程度;将偏离程度小于第一预设阈值,且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词;
将所述搜索关键词输入所述判决模型,得到相应的所述判决文书,作为判决建议文书;
归纳总结所述判决建议文书,得出所述待判决文书的判决建议。
3.根据权利要求2所述的基于机器学习的判决预测方法,其特征在于,该判决预测方法还包括:
通过如下计算公式计算所述第一预测权重值:
其中,W为所述第一预测权重值;t为所述第一候选关键词在所述判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N为包含所述第一候选关键词的所述判决文书的数量;w为根据所述第一候选关键词的重要程度预设置的权重值;
通过如下计算公式计算所述第二预测权重值:
其中,W'为所述第二预测权重值;t'为所述第二候选关键词在所述待判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N'为包含所述第二候选关键词的所述判决文书的数量;w'为根据所述第二候选关键词的重要程度预设置的权重值。
4.根据权利要求3所述的基于机器学习的判决预测方法,其特征在于,该判决预测方法还包括:
通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为所述第一预测权重值与实际权重值的偏离程度,c为所述第一候选关键词,n表示所述判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量;
通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为所述第二预测权重值与实际权重值的偏离程度,c'为所述第二候选关键词,n表示所述判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量。
5.根据权利要求1-4中任一所述的基于机器学习的判决预测方法,其特征在于,所述对预存储的每一个判决文书进行数据清洗,具体包括:
对所述预存储判决文书进行文本分词,得到备选词组合;
去除所述备选词组合中的停用词,得到所述判决文书的第一候选关键词。
6.一种基于机器学习的判决预测系统,其特征在于,包括:语料库、数据处理子系统、数据计算子系统和数据录入子系统;
所述数据处理子系统,用于对所述语料库中预存储的每一个判决文书进行数据清洗,得到每一个所述判决文书的第一候选关键词;
所述数据计算子系统,用于基于所述判决文书计算所述第一候选关键词的第一预测权重值,并计算所述第一预测权重值与实际权重值的偏离程度;
所述数据处理子系统,还用于将所述偏离程度小于第一预设阈值,且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词;
所述数据处理子系统,还用于将所述判决文书与相应的关键词进行训练得到判决模型;
所述数据处理子系统,还用于接收数据录入子系统录入的待判决文书,并通过所述判决模型和待判决文书得到相应的所述判决文书,作为判决建议文书,根据所述判决建议文书得到判决建议。
7.根据权利要求6所述的基于机器学习的判决预测系统,其特征在于,所述数据处理子系统,具体用于,对所述待判决文书进行数据清洗,得到所述判决文书的第二候选关键词;通过所述数据计算子系统基于所述待判决文书计算所述第二候选关键词的第二预测权重值,并计算所述第二预测权重值与实际权重值的偏离程度;将偏离程度小于第一预设阈值,且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词;将所述搜索关键词输入所述判决模型,得到相应的所述判决文书,作为判决建议文书;归纳总结所述判决建议文书,得出所述待判决文书的判决建议。
8.根据权利要求7所述的基于机器学习的判决预测系统,其特征在于,所述数据计算子系统,具体用于,通过如下计算公式计算所述第一预测权重值:
其中,W为所述第一预测权重值;t为所述第一候选关键词在所述判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N为包含所述第一候选关键词的所述判决文书的数量;w为根据所述第一候选关键词的重要程度预设置的权重值;
所述数据计算子系统,还用于通过如下计算公式计算所述第二预测权重值:
其中,W'为所述第二预测权重值;t'为所述第二候选关键词在所述待判决文书中出现的次数;D为所述语料库中所述判决文书的总数;N'为包含所述第二候选关键词的所述判决文书的数量;w'为根据所述第二候选关键词的重要程度预设置的权重值。
9.根据权利要求7所述的基于机器学习的判决预测系统,其特征在于,所述数据计算子系统,具体用于,通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度:
其中,P(t,n)为所述第一预测权重值与实际权重值的偏离程度,c为所述第一候选关键词,n表示所述判决文书的类别;X为包含c且属于n的判决文书的数量;M表示包含c且不属于n的判决文书的数量;N表示不包含c且属于n的判决文书的数量;Y表示不包含c且不属于n的判决文书的数量;
所述数据计算子系统,还用于通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度:
其中,P'(t,n)为所述第二预测权重值与实际权重值的偏离程度,c'为所述第二候选关键词,n表示所述判决文书的类别;X'为包含c'且属于n的判决文书的数量;M'表示包含c'且不属于n的判决文书的数量;N'表示不包含c'且属于n的判决文书的数量;Y'表示不包含c'且不属于n的判决文书的数量。
10.根据权利要求6-9中任一所述的基于机器学习的判决预测系统,其特征在于,所述数据处理子系统,具体用于,对所述预存储判决文书进行文本分词,得到备选词组合;去除所述备选词组合中的停用词,得到所述判决文书的第一候选关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810218371.5A CN108596360B (zh) | 2018-03-16 | 2018-03-16 | 一种基于机器学习的判决预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810218371.5A CN108596360B (zh) | 2018-03-16 | 2018-03-16 | 一种基于机器学习的判决预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596360A true CN108596360A (zh) | 2018-09-28 |
CN108596360B CN108596360B (zh) | 2021-03-12 |
Family
ID=63626599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810218371.5A Active CN108596360B (zh) | 2018-03-16 | 2018-03-16 | 一种基于机器学习的判决预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596360B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815467A (zh) * | 2018-12-20 | 2019-05-28 | 广州恒巨信息科技有限公司 | 一种司法调解文书智能生成方法、系统及装置 |
CN110738039A (zh) * | 2019-09-03 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
WO2020063513A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
CN110968688A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法数据的处理方法及系统 |
CN110969276A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 判决预测方法、判决预测模型获得方法及装置 |
CN111222308A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 案件判决书生成方法、装置、电子设备 |
CN113033176A (zh) * | 2021-05-19 | 2021-06-25 | 苏州黑云智能科技有限公司 | 一种法院案件判决预测方法 |
CN113051918A (zh) * | 2019-12-26 | 2021-06-29 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751437A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于强化学习的网页页面主动式检索系统 |
US20120283954A1 (en) * | 2011-05-02 | 2012-11-08 | Tyler Stuart Bray | Method for quantitative analysis of complex proteomic data |
CN106296495A (zh) * | 2016-08-09 | 2017-01-04 | 点击律(上海)网络科技有限公司 | 一种诉讼结果的预测方法及系统 |
-
2018
- 2018-03-16 CN CN201810218371.5A patent/CN108596360B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751437A (zh) * | 2008-12-17 | 2010-06-23 | 中国科学院自动化研究所 | 基于强化学习的网页页面主动式检索系统 |
US20120283954A1 (en) * | 2011-05-02 | 2012-11-08 | Tyler Stuart Bray | Method for quantitative analysis of complex proteomic data |
CN106296495A (zh) * | 2016-08-09 | 2017-01-04 | 点击律(上海)网络科技有限公司 | 一种诉讼结果的预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
李盛瑜,何文: ""一种对聊天文本进行特征选取的方法研究"", 《计算机科学》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020063513A1 (zh) * | 2018-09-30 | 2020-04-02 | 北京国双科技有限公司 | 案情描述要素提取方法、机器学习模型获得方法及装置 |
CN110968688A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 司法数据的处理方法及系统 |
CN110969276A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 判决预测方法、判决预测模型获得方法及装置 |
CN110969276B (zh) * | 2018-09-30 | 2022-08-12 | 北京国双科技有限公司 | 判决预测方法、判决预测模型获得方法及装置 |
CN109815467A (zh) * | 2018-12-20 | 2019-05-28 | 广州恒巨信息科技有限公司 | 一种司法调解文书智能生成方法、系统及装置 |
CN110738039A (zh) * | 2019-09-03 | 2020-01-31 | 平安科技(深圳)有限公司 | 一种案件辅助信息的提示方法、装置、存储介质和服务器 |
CN111222308A (zh) * | 2019-12-17 | 2020-06-02 | 共道网络科技有限公司 | 案件判决书生成方法、装置、电子设备 |
CN113051918A (zh) * | 2019-12-26 | 2021-06-29 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
CN113051918B (zh) * | 2019-12-26 | 2024-05-14 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
CN113033176A (zh) * | 2021-05-19 | 2021-06-25 | 苏州黑云智能科技有限公司 | 一种法院案件判决预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108596360B (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596360A (zh) | 一种基于机器学习的判决预测方法及系统 | |
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
Song et al. | Personalized sentiment classification based on latent individuality of microblog users | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
Cui et al. | Sliding selector network with dynamic memory for extractive summarization of long documents | |
Ling et al. | Integrating extra knowledge into word embedding models for biomedical NLP tasks | |
CN106502989A (zh) | 情感分析方法及装置 | |
CN108733675B (zh) | 基于大量样本数据的情感评价方法及装置 | |
Golubev et al. | Improving results on Russian sentiment datasets | |
Al Wazrah et al. | Sentiment analysis using stacked gated recurrent unit for arabic tweets | |
CN112287656B (zh) | 文本比对方法、装置、设备和存储介质 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN110298038A (zh) | 一种文本打分方法及装置 | |
Aujla | Language experience predicts semantic priming of lexical decision. | |
Hung | Domain-specific versus general-purpose word representations in sentiment analysis for deep learning models | |
Jayanto et al. | Aspect-based sentiment analysis for hotel reviews using an improved model of long short-term memory. | |
Wiedemann et al. | UHH-LT at SemEval-2019 task 6: Supervised vs. unsupervised transfer learning for offensive language detection | |
Potamias et al. | NTUA-ISLab at SemEval-2019 task 9: mining suggestions in the wild | |
CN106294312B (zh) | 信息处理方法和信息处理系统 | |
Bsir et al. | Document model with attention bidirectional recurrent network for gender identification | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
JP5542744B2 (ja) | 文章抽出装置およびプログラム | |
CN109241993A (zh) | 融合用户和整体评价信息的评价对象情感分类方法及装置 | |
Yadav et al. | Effectiveness of domain-based lexicons vis-à-vis general lexicon for aspect-level sentiment analysis: A comparative analysis | |
KR20230134711A (ko) | 산학 연계 프로젝트를 위한 연구자 매칭 장치, 매칭 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |