CN110969549B - 一种司法数据处理方法及系统 - Google Patents

一种司法数据处理方法及系统 Download PDF

Info

Publication number
CN110969549B
CN110969549B CN201811162957.0A CN201811162957A CN110969549B CN 110969549 B CN110969549 B CN 110969549B CN 201811162957 A CN201811162957 A CN 201811162957A CN 110969549 B CN110969549 B CN 110969549B
Authority
CN
China
Prior art keywords
network model
criminal
vector
training
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811162957.0A
Other languages
English (en)
Other versions
CN110969549A (zh
Inventor
戴威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811162957.0A priority Critical patent/CN110969549B/zh
Publication of CN110969549A publication Critical patent/CN110969549A/zh
Application granted granted Critical
Publication of CN110969549B publication Critical patent/CN110969549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种司法数据处理方法及系统。获取需要预测刑期的代办理案件的案件文本信息,基于对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入至预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。经由上述过程是实现对刑期的预测,通过网络模型处理由法律文书分词的到的文本分词数据,得到法律文书对应的预测的刑期,从而帮助法务人员快速确定待办理案件的预测刑期。

Description

一种司法数据处理方法及系统
技术领域
本发明涉及深度学习技术领域,尤其涉及一种司法数据处理方法及系统。
背景技术
随着现代社会的发展,法律是文明社会发展过程中的产物之一。法律通常是指由社会认可国家确认立法机关制定规范的行为准则,并由国家强制力保证规定当事人权利和义务为内容的,对全体社会成员具有普遍约束力的一种特殊行为规范。当社会成员之间出现纠纷时,由司法机关按照法律进行立案裁定。
现有技术中,对于触犯法律的人,都是通过法官以及陪审团阅读法律文本和案件的司法文书,然后提出自己关于判决的意见,最后由法官综合陪审团的意见进行判决,并决定刑期的长短。
但是,当某个嫌疑人同时触犯多条法律时,会增加工作量,法官以及陪审团可能会出现疏漏,并且效率低下,进而导致判决不准确。
发明内容
有鉴于此,本发明实施例提供一种司法数据处理方法及系统,以解决现有进行刑期判决存在耗时长、准确性低和效率低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明第一方面公开了一种司法数据处理方法,包括:
获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;
对所述文本信息进行分词处理,得到文本分词数据;
将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到。
优选的,所述网络模型通过以下方式融合得到,包括:
获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期;
将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述RAM Net网络作为所述神经网络模型的第三层,构建所述神经网络模型;
基于所述训练文本对所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
优选的,将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,包括:
将所述文本分词数据映射至词向量模型中进行词向量处理,得到词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量;
将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量;
基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
优选的,所述将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量,包括:
将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;
将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
本发明第二方面公开了一种司法数据处理系统,包括:
获取单元,用于获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;
分词单元,用于所述文本信息进行分词处理,得到文本分词数据;
预测单元,用于将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到。
优选的,所述系统还包括:训练单元;所述训练单元包括:
词向量训练模块,用于获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期;
融合模块,用于将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述RAM Net网络作为所述神经网络模型的第三层,构建所述神经网络模型;
训练模块,用于基于所述训练文本对所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
优选的,所述预测单元包括:
词向量处理模块,用于将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量;
处理模块,用于将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量,所述词向量包括用于表征刑期的刑期表征向量;
输出模块,用于基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
优选的,所述处理模块包括:
第一处理子模块,用于将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;
第二处理子模块,用于将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
本发明第三方面公开了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的辅助司法案件裁定的司法数据处理方法。
本发明第四方面公开了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一项所述的辅助司法案件裁定的司法数据处理方法。
经由上述技术方案可知,本发明公开了一种司法数据处理方法、系统、存储介质及处理器。基于获取需要预测刑期的代办理案件的案件文本信息,对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入至预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。经由上述过程是实现对刑期的预测,通过网络模型处理由法律文书分词的到的文本分词数据,得到法律文书对应的预测的刑期,从而帮助法务人员快速确定代办理案件的预测刑期。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种司法数据处理方法流程示意图;
图2为本发明实施例公开的另一种司法数据处理方法流程示意图;
图3为本发明实施例公开的另一种司法数据处理方法流程示意图;
图4为本发明实施例公开的另一种司法数据处理方法流程示意图;
图5为本发明实施例公开的一种司法数据处理系统结构图;
图6为本发明实施例公开的另一种司法数据处理系统结构图;
图7为本发明实施例公开的另一种司法数据处理系统结构图;
图8为本发明实施例公开的另一种司法数据处理系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,现有技术中,只能通过人工判断案件信息对应的刑期,但是由于法律资料众多,人的经历有限,所以人工判断刑期耗费的时间较长,并且可能会遗漏案件信息中的某些量刑细节,或者掺杂个人情绪导致量刑有失公允。因此,本发明公开了一种司法数据处理方法及系统,以实现在不过多的耗费人力以及时间成本的情况下快速、准确的预测案件的使用刑期。
实施例一
如图1所示的方法,为本发明实施例公开的一种司法数据处理方法的流程示意图。上述方法至少包括如下步骤:
步骤S101:获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息。
在具体实现步骤S101的过程中,司法数据包括但不仅限于刑期。案件信息包括但不仅限于代办理案件的文本信息。
步骤S102:对所述文本信息进行分词处理,得到文本分词数据。
需要说明的是,这里的文本信息为代办理案件的案件信息中的事实描述段落,事实描述段落包括:主要犯罪事实,犯罪经过描述,检察院的认定以及自首等与案件相关的内容。
在步骤S102中,分词处理是对连续的字序按照一定的规范重新组合成词序列的过程,而得到的文本分词数据则是单独的词数据。
步骤S103:将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到。
步骤S103的具体执行过程中,如图2所示,主要包括以下步骤:
步骤S201:将所述文本分词数据映射至词向量模型中进行词向量处理,得到词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量。
在步骤S201中,词向量模型对文本分词数据的处理过程是讲文本分词数据映射到100维度的空间内,通过表征词与词之间的相似性,从而得到词向量。其中,这里的维度值一般为50~250,可根据具体情况而定,这里优选100维度。
此外,上述词向量模型中包含了出现在语料库中的低频长尾词,低频长尾次在词向量模型中有唯一的词向量表达。
步骤S202:将所述词向量依次输入胶囊网络和RAM Net网络进行处理,得到刑期向量。
为了能够清楚的描述步骤S202中,融合RAM Net网络和胶囊网络的网络模型对词向量的处理过程,下面进行举例说明。
例如,胶囊网络模型包含5个神经元单元,单个神经元单位输出维度为256。在使用词向量模型对一案件的文本信息进行处理后,得到100维度的词向量,将100维度经由双向LSTM网络层进行处理得到两个128维度的向量,然后拼接为256维度的向量。将256维度的向量通过胶囊网络进行处理得到1280维度的向量,然后经由全连接层转换为500维度,将500维度的向量经由RAM Net网络处理然后输出250维度的向量F,向量F就是案件的文本信息对应的刑期向量。
全连接层的每一个结点都与RAM Net网络和胶囊网络模型的所有结点相连,用来把网络模型中胶囊网络输出的向量转换后输入RAM Net网络。
步骤S203:基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
上述本发明实施例公开的一种司法数据处理办法,通过获取需要预测刑期的代办理案件的案件文本信息,对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。因此,通过本发明公开的司法数据处理办法,能够帮助法官以及陪审团快速、准确的预测案件的刑期,得到案件文本信息对应的预测的刑期。
基于上述本发明实施例公开的一种司法数据处理方法,在执行步骤S202的过程中,具体的执行过程,如图3所示,步骤包括:
步骤S301:将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量。
需要说明的是,双向循环神经网络简称为双向LSTM网络。此外,所述第一向量中的第一仅仅是为了区分不同的两个向量。
步骤S302:将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
上述本发明实施例公开的一种司法数据处理办法,通过获取需要预测刑期的代办理案件的案件文本信息,对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。因此,通过本发明公开的司法数据处理办法,能够帮助法官以及陪审团快速、准确的预测案件的刑期,得到案件文本信息对应的预测的刑期。
基于上述本发明实施例公开的一种法律文书的确定方法。在执行步骤S103的过程中,所涉及的网络模型为预先构建的,所述网络模型的构建的过程,如图4所示,包括如下步骤:
步骤S401:获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期。
需要说明的是,对训练文本进行词向量训练得到词向量模型的训练,可以通过Word2vec进行训练,也可以通过Glove进行训练,但不仅限于以上方式进行训练。
此外,步骤S401中的词向量的维度选择原理和步骤S201中词向量的维度选择原理相同,这里就不再进行过多的赘述。
步骤S402:将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述RAM Net网络作为所述神经网络模型的第三层,构建所述神经网络模型。
在执行步骤S402的过程中,先由胶囊网络对输入层进行词向量训练得出的向量进行处理,再由RAM Net网络对胶囊网络输出的向量进行处理;也可以先由RAM Net网络对输入层进行词向量训练得出的向量进行处理,再由胶囊网络对RAM Net网络输出的向量进行处理。
优选的,先由胶囊网络对输入层进行词向量训练得出的向量进行处理,再由RAMNet网络对胶囊网络输出的向量进行处理。
步骤S403:基于所述训练文本所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
需要说明的是,所述融合RAM Net网络和胶囊网络的网络模型的训练,具体的训练过程为:
首先,利用规则判定系统得到训练文本中的审理查明及事实判定段落,其中,审理查明及事实判定段是文书中对于情节有细节描述的段落。
然后,通过文书解析系统可以得到判决书的罪名、法条、刑期、单人或多人犯案等信息。
最后,通过文书及解析出的信息对RAM Net网络和胶囊网络模型进行训练,从而将得到的训练好的融合RAM Net网络和胶囊网络的神经网络模型作为网络模型。
进一步的,在词向量模型层和胶囊网络层中间可以增加一层双向LSTM网络层,将文本转化后的向量首尾相接,以避免因为顺序错误引起的文本丢失。
进一步的,为了能够得到更优的网络模型,在网络模型训练过程中设置训练次数,初始学习率以及在学习过程中按预先设定的步骤进行学习率衰减,从而优化学习能力,网络模型经过多次的训练达到预设训练次数时,停止训练即可得到预期的网络模型。为了更加方便理解,这里进行举例说明。
例如,在一个文书库中选取已经所需要学习的已公开文书,将第一学习文书输入网络模型中学习,基于初始学习率为1e-3,随后每隔25000个训练步骤,学习率衰减为原来的0.65倍,该过程为1次网络模型学习,将输入的15本进行训练完成后,就停止获取文库中的文书进行训练学习。
需要说明的是,网络模型的训练数据一般很大,几十万到几百万。由于硬件显存的限制,一般一次训练会读取一批数据,而这读取这一批数据就是一个训练步骤。例如,设这批数据量为256条,那么对256条数据读取一次就是一个训练步骤。
上述本发明实施例公开的一种司法数据处理方法,通过获取需要预测刑期的代办理案件的案件文本信息,对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。因此,通过本发明公开的司法数据处理办法,能够帮助法官以及陪审团快速、准确的预测案件的刑期,得到案件文本信息对应的预测的刑期。
进一步的,还公开了一种融合RAM Net网络和胶囊网络的网络模型构建方法,通过将RAM Net网络和胶囊网络分别作为神经网络模型结构中的一个网络层,使训练后的网络模型既有胶囊网络丰富的向量表达能力,又有RAM Net网络中attention机制,使网络能“注意”到自首等细致的情节,使司法数据处理方法能够更准确的预测待处理案件的刑期。
实施例二
与上述本发明实施例公开的一种司法数据处理方法相对应,本发明实施例还公开相应的司法数据处理系统。如图5所示,为本发明实施例公开的一种司法数据处理系统,该司法数据处理系统包括:
获取单元501,用于获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息。
分词单元502,用于所述文本信息进行分词处理,得到文本分词数据。
预测单元503,用于将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到。
优选的,所述系统,如图6所示,还包括训练单元504,所述训练单元504包括:
词向量训练模块5041,用于获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期。
融合模块5042,用于将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述RAM Net网络作为所述神经网络模型的第三层,构建所述神经网络模型。
训练模块5043,用于基于所述训练文本对所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
优选的,所述预测模块503,如图7所示,包括:
词向量处理模块5031,用于将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量。
处理模块5032,用于将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量。
输出模块5033,用于基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
优选的,所述处理单元5032,如图8所示,包括:
第一处理子模块801,用于将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量。
第二处理子模块802,用于将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
上述本发明实施例公开的司法数据处理系统中各个单元具体执行原理进而执行过程,与上述本发明实施例公开的司法数据处理方法相同,可参见上述本发明实施例一公开的司法数据处理方法中相应部分,这里就不再过多赘述。
基于上述本发明实施例公开的法律文书的确定方法,上述各个模块可以通过一种由处理器和存储器构成的硬件设备实现。具体为:上述各个模块作为程序单元存储于存储器中,由处理器执行存储在存储器中的上述程序单元来实现司法数据的处理。
其中,处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现司法数据的处理。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
进一步的,本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述司法数据处理方法。
进一步的,本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;对所述文本信息进行分词处理,得到文本分词数据;将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果。
其中,所述网络模型由RAM Net网络和胶囊网络与神经网络模型融合得到。
其中,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,包括:将所述文本分词数据映射至词向量模型中进行词向量处理,得到词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量;将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量;基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
其中,所述将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量,包括:
将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
本发明实施例中公开的设备可以是PC、PAD、手机等。
进一步的,本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现进度条的显示。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;对所述文本信息进行分词处理,得到文本分词数据;将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果。
其中,所述网络模型通过将RAM Net网络和胶囊网络与神经网络模型融合得到。
其中,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,包括:将所述文本分词数据映射至词向量模型中进行词向量处理,得到词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量;将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量;基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据。
其中,所述将所述词向量依次输入胶囊网络模型和RAM Net网络进行处理,得到刑期向量,包括:将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;将经过全连接层映射的第一向量输入RAM Net网络进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
本发明实施例通过由处理器和存储器构成的硬件设备获取需要预测刑期的代办理案件的案件文本信息,对案件信息的文本信息进行分词处理,得到文本分词数据,然后将文本分词数据输入预先训练得到的网络模型进行处理,得到法律文书对应的刑期预测结果。因此,通过本发明公开的司法数据处理办法,能够帮助法官以及陪审团快速、准确的预测案件的刑期,得到案件文本信息对应的预测的刑期,因此,通过本发明公开的由处理器和存储器构成的硬件设备能够帮助法务人员确定带预测案件的刑期。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、客户端、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种司法数据处理方法,其特征在于,包括:
获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;
对所述文本信息进行分词处理,得到文本分词数据;
将所述文本分词数据映射至词向量模型中进行词向量处理,得到词向量,所述词向量模型为网络模型的输入层,所述词向量包括用于表征刑期的刑期特征向量;
将所述词向量依次输入胶囊网络模型和循环注意力网络RAM Net进行处理,得到刑期向量;
基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到,所述全连接层的每一个结点都与所述循环注意力网络RAM Net和所述胶囊网络模型的所有结点相连,用于将网络模型中胶囊网络输出的向量转换后输入循环注意力网络RAM Net;
所述网络模型通过以下方式融合得到,包括:
获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期;
将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述循环注意力网络RAM Net作为所述神经网络模型的第三层,构建所述神经网络模型;
基于所述训练文本对所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述词向量依次输入胶囊网络模型和循环注意力网络RAM Net进行处理,得到刑期向量,包括:
将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;
将经过全连接层映射的第一向量输入循环注意力网络RAM Net进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
3.一种司法数据处理系统,其特征在于,包括:
获取单元,用于获取需要预测司法数据的待办理案件的案件信息,所述司法数据包括刑期,所述案件信息包括所述待办理案件的文本信息;
分词单元,用于所述文本信息进行分词处理,得到文本分词数据;
预测单元,用于将所述文本分词数据输入预先训练得到的网络模型进行处理,获取对应所述待办理案件的刑期预测结果,所述网络模型通过将循环注意力网络RAM Net和胶囊网络模型与神经网络模型融合得到;
所述预测单元包括:
词向量处理模块,用于将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层,所述词向量包括用于表征刑期的刑期表征向量;
处理模块,用于将所述词向量依次输入胶囊网络模型和循环注意力网络RAM Net进行处理,得到刑期向量,所述词向量包括用于表征刑期的刑期特征向量;
输出模块,用于基于所述网络模型的全连接层将所述刑期向量连接至预先建立的刑期类标,获取所述刑期向量中对应刑期类标的刑期回归结果,将所述刑期回归结果作为预测的司法数据,所述全连接层的每一个结点都与所述循环注意力网络RAM Net和所述胶囊网络模型的所有结点相连,用于将网络模型中胶囊网络输出的向量转换后输入循环注意力网络RAM Net;
所述系统还包括:训练单元;所述训练单元包括:
词向量训练模块,用于获取已公开的司法文书作为训练文本,对所述训练文本进行词向量训练,得到词向量模型,所述训练文本包括案件信息以及已经做出判决的刑期;
融合模块,用于将所述词向量模型作为所述神经网络模型的输入层,将所述胶囊网络作为所述神经网络模型的第二层,将所述循环注意力网络RAM Net作为所述神经网络模型的第三层,构建所述神经网络模型;
训练模块,用于基于所述训练文本对所述神经网络模型进行训练,将迭代次数达到预设迭代次数或者训练轮次达到指定次数的神经网络模型作为网络模型。
4.根据权利要求3所述的系统,其特征在于,所述处理模块包括:
第一处理子模块,用于将经过双向循环神经网络层进行训练的所述词向量,输入胶囊网络模型进行处理,得到第一维度数量的第一向量;
第二处理子模块,用于将经过全连接层映射的第一向量输入循环注意力网络RAM Net进行处理,得到第二维度数量的第二向量,并将所述第二向量作为刑期向量。
5.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-2中任一项所述司法数据处理方法。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-2中任一项所述司法数据处理方法。
CN201811162957.0A 2018-09-30 2018-09-30 一种司法数据处理方法及系统 Active CN110969549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811162957.0A CN110969549B (zh) 2018-09-30 2018-09-30 一种司法数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811162957.0A CN110969549B (zh) 2018-09-30 2018-09-30 一种司法数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN110969549A CN110969549A (zh) 2020-04-07
CN110969549B true CN110969549B (zh) 2023-08-25

Family

ID=70029328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811162957.0A Active CN110969549B (zh) 2018-09-30 2018-09-30 一种司法数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN110969549B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639494A (zh) * 2020-04-20 2020-09-08 北京大学 案件事理关系确定方法及系统
CN111985680B (zh) * 2020-07-10 2022-06-14 昆明理工大学 基于胶囊网络与时序的刑事多罪名预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN108549646A (zh) * 2018-04-24 2018-09-18 中译语通科技股份有限公司 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端
WO2018171515A1 (zh) * 2017-03-21 2018-09-27 腾讯科技(深圳)有限公司 一种词汇挖掘方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171515A1 (zh) * 2017-03-21 2018-09-27 腾讯科技(深圳)有限公司 一种词汇挖掘方法、装置及设备
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN108549646A (zh) * 2018-04-24 2018-09-18 中译语通科技股份有限公司 一种基于胶囊的神经网络机器翻译系统、信息数据处理终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于动态路由的胶囊网络在文本分类上的探索;maomao2017;《CSDN》;全文 *

Also Published As

Publication number Publication date
CN110969549A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
Verenich et al. Survey and cross-benchmark comparison of remaining time prediction methods in business process monitoring
US20190354887A1 (en) Knowledge graph based learning content generation
CN112860841B (zh) 一种文本情感分析方法、装置、设备及存储介质
CN110990560B (zh) 一种司法数据处理方法及系统
CN112115257A (zh) 用于生成信息评估模型的方法和装置
CN105354327A (zh) 一种基于大数据分析的接口api推荐方法及系统
CN110781396A (zh) 一种信息推荐方法、装置、设备及存储介质
CN110969549B (zh) 一种司法数据处理方法及系统
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN112015896A (zh) 基于人工智能的情感分类方法、以及装置
Behera et al. Machine learning approach for reliability assessment of open source software
CN110008470B (zh) 报表的敏感性分级方法和装置
Kralj Novak et al. Handling disagreement in hate speech modelling
CN110969017A (zh) 一种司法数据的处理方法及系统
Subhiksha et al. Prediction of phone prices using machine learning techniques
CN117216393A (zh) 信息推荐方法、信息推荐模型的训练方法及装置、设备
CN116628346A (zh) 搜索词推荐模型的训练方法及装置
CN113822684B (zh) 黑产用户识别模型训练方法、装置、电子设备及存储介质
CN114254588B (zh) 数据标签处理方法和装置
CN116956102A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
KR102284440B1 (ko) 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법
CN115238188A (zh) 一种对象推荐方法和系统及对象推荐模型系统
CN111178925B (zh) 用户画像的属性预测方法、装置、服务器和计算机可读介质
CN110990522B (zh) 一种法律文书的确定方法和系统
CN113221762A (zh) 代价平衡决策方法、保险理赔决策方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant