CN110990522A - 一种法律文书的确定方法和系统 - Google Patents

一种法律文书的确定方法和系统 Download PDF

Info

Publication number
CN110990522A
CN110990522A CN201811156952.7A CN201811156952A CN110990522A CN 110990522 A CN110990522 A CN 110990522A CN 201811156952 A CN201811156952 A CN 201811156952A CN 110990522 A CN110990522 A CN 110990522A
Authority
CN
China
Prior art keywords
legal document
legal
network model
vector
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811156952.7A
Other languages
English (en)
Other versions
CN110990522B (zh
Inventor
戴威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811156952.7A priority Critical patent/CN110990522B/zh
Publication of CN110990522A publication Critical patent/CN110990522A/zh
Application granted granted Critical
Publication of CN110990522B publication Critical patent/CN110990522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种法律文书的确定方法和系统,通过对获取到的第一法律文书的文本信息进行分词处理,得到文书分词数据,然后根据得到的分词数据得到第一法律文书的第一表征向量,以及获取法律文书集合中每个第二法律文书的第二表征向量,基于第一表征向量和所述第二法律文书的第二表征向量,确定第一法律文书对应的第二法律文书。通过上述公开的法律文书确定方法。通过上述过程,基于第一表征向量和每个第二法律文书的第二表征向量,从而确定第一法律文书对应的第二法律文书。从而实现快速帮助法务人员在法律库中寻找到与本案相似案件法律文书。

Description

一种法律文书的确定方法和系统
技术领域
本发明涉及数据处理技术领域,具体为一种法律文书的确定方法及系统。
背景技术
随着现代社会的发展,法律是文明社会发展过程中的产物之一。法律通常是指由社会认可国家确认立法机关制定规范的行为准则,并由国家强制力保证规定当事人权利和义务为内容的,对全体社会成员具有普遍约束力的一种特殊行为规范。当社会成员之间出现纠纷时,由司法机关按照法律进行立案裁定。
在立案进行裁定的过程中,由法务人员基于具体事件所对应的法条做出最终的裁定。在现有技术中,都是通过人力阅读理解案件,并通过对案件的分析,再去查阅与本案相类似的案件,也就是对应本案的历史案件,然后借鉴相类似案件的判罚完成本案的判定,以示法律的公平。
但是,由于案件库存中案件量大,一方面,法务人员在案件库中寻找到与本案相对应的案件时,会花去大量时间。另一方面,法务人员寻找到的案件未必是相对应的案件,需要重新查询,从而降低了查询效率。
发明内容
有鉴于此,本发明实施例提供了一种法律文书的确定方法及系统,以实现快速查询并获取与本案相对应的案件的目的。
为实现上述目的,本发明提供如下技术方案:
本发明第一方面公开了一种法律文书的确定方法,包括:
对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据;
利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量;
获取法律文书集合中每个第二法律文书的第二表征向量;
基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书;
其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量。
优选的,所述利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量,包括:
将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到。
优选的,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型通过将TextCNN 卷积网络和胶囊网络模型与神经网络模型融合得到,包括:
将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层;
将所述词向量分别输入卷积网络和胶囊网络模型进行处理,集合所述 TextCNN卷积网络和胶囊网络模型的输出向量,得到所述第一法律文书的第一表征向量。
优选的,所述获取法律文书集合中每个第二法律文书的第二表征向量,包括:
获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据;
将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量。
优选的,所述基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书,包括:
计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值;
依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
本发明第二方面公开了一种法律文书的确定系统,包括:
第一处理单元,用于对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据,并利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量;其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量;
第二处理单元,用于获取法律文书集合中每个第二法律文书的第二表征向量;
确定单元,用于基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
优选的,所述第二处理单元包括:
分词单元,用于获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据;
表征向量处理单元,用于将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到。
优选的,所述确定单元,包括:
计算单元,用于计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值;
确定子单元,用于依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
本发明第三方面公开了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述本发明第一方面公开的法律文书的确定方法。
本发明第四方面公开了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上述本发明第一方面公开的法律文书的确定方法。
由上述内容可知,本发明的一种法律文书的确定方法及系统。通过对获取到的第一法律文书的文本信息进行分词处理,得到文书分词数据,然后根据得到的分词数据得到第一法律文书的第一表征向量,以及获取法律文书集合中每个第二法律文书的第二表征向量,基于第一表征向量和所述第二法律文书的第二表征向量,确定第一法律文书对应的第二法律文书。通过上述公开的法律文书确定方法,。通过上述过程,基于第一表征向量和每个第二法律文书的第二表征向量,从而确定第一法律文书对应的第二法律文书。从而实现快速帮助法务人员在法律库中寻找到与本案相似案件法律文书。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种法律文书的确定方法流程图;
图2为本发明实施例提供的另一种法律文书的确定方法流程图;
图3为本发明实施例提供的另一种法律文书的确定方法流程图;
图4为本发明实施例提供的另一种法律文书的确定方法流程图;
图5为本发明实施例提供的一种法律文书的确定系统结构示意图;
图6为本发明实施例提供的另一种法律文书的确定系统结构示意图;
图7为本发明实施例提供的另一种法律文书的确定系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
参见图1,为本发明实施例提供一种法律文书的确定方法的流程图,上述方法至少包括如下步骤:
步骤S101:对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据。
需要说明的是,这里的文本信息为第一法律文书的事实描述段落,事实描述段包括:主要犯罪事实,犯罪经过的描述,检察院的认定以及自首等与案件相关内容。
在步骤S101中,分词处理是对连续的字序按照一定的规范重新组合成词序列的过程,而得到的文本分词数据则是单独的词数据。
步骤S102:利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量。
其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量。
在执行步骤S102时,其具体执行过程为:将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得。
需要说明的是,所述网络模型由卷积网络和胶囊网络模型训练得到。具体的训练过程为:
首先,将利用规则判定系统得到文书库中的文书中的审理查明及事实判定段落。其中,审理查明及事实判定段是文书中对于情节有细节描述的段落。
然后,通过文书解析系统可以得到判决书的罪名、法条、刑期、单人或多人犯案等信息。最后,通过文书及解析出的信息对卷积网络和胶囊网络模型进行训练,从而将得到的训练好的卷积网络和胶囊网络模型作为网络模型。
进一步的,为了能够得到更优的网络模型,在网络模型训练过程中设置训练次数,初始学习率以及在学习过程中按预先设定的步骤进行学习率衰减,从而优化学习能力,网络模型经过多次的训练达到预设训练次数时,停止训练即可得到预期的网络模型。为了更加方便理解,这里进行举例说明。
例如,在一个文书库中选取所需要学习的文书,将第一学习文书输入网络模型中学习,基于初始学习率为1e-3,随后每隔25000个训练步骤,学习率衰减为原来的0.65倍,该过程为1次网络模型学习,将输入的15本进行训练完成后,就停止获取文库中的文书进行训练学习。
需要说明的是,网络模型的训练数据一般很大,几十万到几百万,硬件显存限制一般一次训练会读取一批数据,而这读取这一批数据就是一个训练步骤。例如,设这批数据量为256条,那么对256条数据读取一次就是一个训练步骤。
执行上述将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量的具体执行过程,如图2所示,主要包括以下步骤:
步骤S201:将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层。
在步骤S201中,词向量模型对文本数据分词的处理过程是将将文本数据分词映射到一定100维度的空间内,通过表征词与词之间的相似性,从而得到词向量。其中,这里的维度值一般为50~250,可根据具体情况而定,这里优选100维度。
在步骤S201中,上述词向量模型中包含了出现在语料库中的低频长尾词,而低频长尾词在词向量模型中有唯一的词向量表达。
步骤S202:将所述词向量分别输入卷积网络和胶囊网络模型进行处理,集合所述TextCNN卷积网络和胶囊网络模型的输出向量,得到所述第一法律文书的第一表征向量。
为了能够清楚的描述步骤S202中卷积网络和胶囊网络模型对词向量进行处理的过程,下面进行举例说明。
例如,卷积网络具有1*1到5*5种卷积核,通道数为256。胶囊网络模型包含5个神经元单元,单个神经元单位输出维度为256。在使用词向量模型对一文书进行处理后,得到100维度的词向量,将100维度的词向量分为两路,一路将100维度词向量通过卷积网络和胶囊网络模型的全连接层转换为256 维度,在卷积网络输出1280维度的向量。另一路将100维度词向量经由胶囊网络模型的5个神经元单元处理,输出1280维度的向量。
经由上述卷积网络和胶囊网络模型两路处理,将两路输出的维度向量进行拼接,得到2560维度的向量,在经过全连接层处理就能得到该文书的表征向量。全连接层的每一个结点都与卷积网络和胶囊网络模型的所有结点相连,用来把卷积网络和胶囊网络模型两路处理到的向量综合起来。
步骤S103:获取法律文书集合中每个第二法律文书的第二表征向量。
在具体实现中,步骤S103的具体执行过程,如图3所示,主要包括以下步骤:
步骤301:获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据。
需要说明的是,法律文书集合可以为法律文书库,也可以为经过搜索引擎得到的法律文书集合,无论是哪一种文书集合都对方案整体不构成影响。
这里得到的第二文本分词与步骤S101中得到第一文本分词数据原理相同,这里就不再进行过多赘述。
步骤302:将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量。
需要说明的是,步骤S103中获取法律文书集合中每个第二法律文书的第二表征向量与步骤S102中获取第一法律文书的第一表征向量可同时进行,也可先执行步骤S102后再执行步骤S103,或者还可以先执行步骤S103再执行步骤S102,本方案优选的为先执行步骤S102再执行步骤S103。
需要说明的是,这里的执行原理与步骤S102中获得第一表征向量原理相同,这里就不再进行过多的赘述。
步骤S104:基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
在执行步骤S104时,如图4所示,具体执行步骤为:
步骤S401:计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值。
在步骤S401中,通过计算第一表征向量和每个第二法律文书的表征向量的距离值,这里的距离为欧氏距离,即欧几里得距离,这里指在m维空间中两个表征向量点之间的真实距离。在步骤中的排序,方式可以通过距离值进行降序排序或者升序排序。
步骤S402:依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
本发明实施例通过对获取到的第一法律文书的文本信息进行分词处理,得到文书分词数据,然后将得到的分词数据输入至神经网络模型进行处理,得到第一法律文书的第一表征向量,获取法律文书集合中每个第二法律文书的第二表征向量,基于第一表征向量和所述第二法律文书的第二表征向量,确定第一法律文书对应的第二法律文书。通过上述公开的法律文书确定方法,基于第一法律文书的第一表征向量与每个第二法律文书的第二表征向量关系,确定所述第一法律文书对应的第二法律文书,因此,通过本发明公开的法律文书确定方法能够为法务人员在法律库中寻找到与本案相似案件文书。
与上述本申请实施例提供的一种法律文书的确定方法相对应,本申请实施例还提供相应的法律文书的确定系统。参见图5,为本申请实施例公开的一种法律文书的确定系统,该法律文书的确定系统包括:
第一处理单元501,用于对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据,并利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量;其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量。
第二处理单元502,用于获取法律文书集合中每个第二法律文书的第二表征向量;
确定单元503,用于基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
优选的,所述第二处理单元502,如图6所示,包括:
分词单元601,用于获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据。
表征向量处理单元602,用于将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到。
优选的,所述确定单元503,如图7所示,包括:
计算单元701,用于计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值。
确定子单元702,用于依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
上述本发明实施例公开的法律文书的确定装置中各个单元具体执行原理进而执行过程,与上述本发明实施例公开的法律文书的确定方法相同,可参见上述本发明实施例公开的法律文书的确定方法中相应部分,这里就不再过多赘述。
基于上述本发明实施例公开的法律文书的确定方法,上述各个模块可以通过一种由处理器和存储器构成的硬件设备实现。具体为:上述各个模块作为程序单元存储于存储器中,由处理器执行存储在存储器中的上述程序单元来实现法律文书的推荐。
其中,处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现法律文书的确定。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
进一步的,本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述法律文书的确定方法。
进一步的,本发明实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据;根据所述文本分词数据得到所述第一法律文书的第一表征向量;获取法律文书集合中每个第二法律文书的第二表征向量;基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
其中,具体根据所述文本分词数据得到所述第一法律文书的第一表征向量,包括:将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型由融合卷积网络和胶囊网络的卷积神经网络训练得到。
其中,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,包括:将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层;将所述词向量分别输入卷积网络和胶囊网络模型进行处理,得到所述第一法律文书的第一表征向量。
其中,所述获取法律文书集合中每个第二法律文书的第二表征向量,包括:获取法律文书集合的表征向量集合F,所述法律文书集合由第二法律文书构成,所述表征向量集合F由所述第二法律文书的第二表征向量构成。
其中,所述基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书,包括:对所述第一表征向量和所述每个第二法律文书的表征向量进行距离计算,得到距离结果,通过所述距离结果对所述法律文书集合中的每个第二法律文书进行相似度排序;基于排序结果确定所述第一法律文书对应的第二法律文书。
本发明实施例中公开的设备可以是PC、PAD、手机等。
进一步的,本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现进度条的显示。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据;根据所述文本分词数据得到所述第一法律文书的第一表征向量;获取法律文书集合中每个第二法律文书的第二表征向量;基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
其中,具体根据所述文本分词数据得到所述第一法律文书的第一表征向量,包括:将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型由融合卷积网络和胶囊网络的卷积神经网络训练得到。
其中,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,包括:将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层;将所述词向量分别输入卷积网络和胶囊网络模型进行处理,得到所述第一法律文书的第一表征向量。
其中,所述获取法律文书集合中每个第二法律文书的第二表征向量,包括:获取法律文书集合的表征向量集合F,所述法律文书集合由第二法律文书构成,所述表征向量集合F由所述第二法律文书的第二表征向量构成。
其中,所述基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书,包括:对所述第一表征向量和所述每个第二法律文书的表征向量进行距离计算,得到距离结果,通过所述距离结果对所述法律文书集合中的每个第二法律文书进行相似度排序;基于排序结果确定所述第一法律文书对应的第二法律文书。
本发明实施例通过由处理器和存储器构成的硬件设备对获取到的第一法律文书的文本信息进行分词处理,得到文书分词数据,然后将得到的分词数据输入至神经网络模型进行处理,得到第一法律文书的第一表征向量,获取法律文书集合中每个第二法律文书的第二表征向量,基于第一表征向量和所述第二法律文书的第二表征向量,确定第一法律文书对应的第二法律文书。通过上述公开的法律文书确定方法。基于第一法律文书的表征向量与第二法律文书的表征向量距离关系,有效的将与第一法律文书相类似的案件在法律文书集合中寻找到,因此,通过本发明公开的由处理器和存储器构成的硬件设备能够为法务人员在法律库中寻找到与本案相似案件文书。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、客户端、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下+,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种法律文书的确定方法,其特征在于,包括:
对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据;
利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量;
获取法律文书集合中每个第二法律文书的第二表征向量;
基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书;
其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量。
2.根据权利要求1所述的方法,其特征在于,所述利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量,包括:
将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到。
3.根据权利要求2所述的方法,其特征在于,所述将所述文本分词数据输入预先训练得到的网络模型进行处理,得到所述第一法律文书的第一表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到,包括:
将所述文本分词数据映射至词向量模型中进行词向量处理,得到的词向量,所述词向量模型为所述网络模型的输入层;
将所述词向量分别输入卷积网络和胶囊网络模型进行处理,集合所述TextCNN卷积网络和胶囊网络模型的输出向量,得到所述第一法律文书的第一表征向量。
4.根据权利要求1所述的方法,其特征在于,所述获取法律文书集合中每个第二法律文书的第二表征向量,包括:
获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据;
将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书,包括:
计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值;
依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
6.一种法律文书的确定系统,其特征在于,包括:
第一处理单元,用于对获取到的第一法律文书的文本信息进行分词处理,得到文本分词数据,并利用预先训练得到的网络模型,基于所述文本分词数据得到所述第一法律文书的第一表征向量;其中,所述网络模型用于根据文本分词数据中的案件要素,得到表示相应法律文书所对应案情的表征向量;
第二处理单元,用于获取法律文书集合中每个第二法律文书的第二表征向量;
确定单元,用于基于所述第一表征向量和所述每个第二法律文书的第二表征向量,确定所述第一法律文书对应的第二法律文书。
7.根据权利要求6所述的系统,其特征在于,所述第二处理单元包括:
分词单元,用于获取法律文书集合中的所有第二法律文书的文本信息,对每一所述第二法律文书的文本信息进行分词处理,得到第二文本分词数据;
表征向量处理单元,用于将所述第二文本分词数据输入预先训练得到的网络模型进行处理,得到每个第二法律文书对应的第二表征向量,所述网络模型通过将TextCNN卷积网络和胶囊网络模型与神经网络模型融合得到。
8.根据权利要求6所述的系统,其特征在于,所述确定单元,包括:
计算单元,用于计算所述第一表征向量和所述每个第二法律文书的第二表征向量之间的距离值,得到所述第一表征向量与每一所述第二表征向量的距离值;
确定子单元,用于依据距离与相似度的对应关系,确定所述第一法律文书对应的第二法律文书,所述距离与相似度的对应关系为距离值越小相似度越高。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的法律文书的确定方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一项所述的法律文书的确定方法。
CN201811156952.7A 2018-09-30 2018-09-30 一种法律文书的确定方法和系统 Active CN110990522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811156952.7A CN110990522B (zh) 2018-09-30 2018-09-30 一种法律文书的确定方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811156952.7A CN110990522B (zh) 2018-09-30 2018-09-30 一种法律文书的确定方法和系统

Publications (2)

Publication Number Publication Date
CN110990522A true CN110990522A (zh) 2020-04-10
CN110990522B CN110990522B (zh) 2023-07-04

Family

ID=70059852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811156952.7A Active CN110990522B (zh) 2018-09-30 2018-09-30 一种法律文书的确定方法和系统

Country Status (1)

Country Link
CN (1) CN110990522B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN107807962A (zh) * 2017-10-11 2018-03-16 中国软件与技术服务股份有限公司 一种使用lda主题模型对法律判决文书进行相似度匹配的方法
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence
CN107122451A (zh) * 2017-04-26 2017-09-01 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN107818138A (zh) * 2017-09-28 2018-03-20 银江股份有限公司 一种案件法律条例推荐方法及系统
CN107807962A (zh) * 2017-10-11 2018-03-16 中国软件与技术服务股份有限公司 一种使用lda主题模型对法律判决文书进行相似度匹配的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAOMAO2017: "基于动态路由的胶囊网络在文本分类上的探索", 《HTTPS://BLOG.CSDN.NET/SUMIYOU8385/ARTICLE/DETAILS/80045058?》 *

Also Published As

Publication number Publication date
CN110990522B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN108920654B (zh) 一种问答文本语义匹配的方法和装置
CN110287477B (zh) 实体情感分析方法及相关装置
CN108829808B (zh) 一种页面个性化排序方法、装置及电子设备
CN110990523A (zh) 一种法律文书的确定方法及系统
CN110008397B (zh) 一种推荐模型训练方法及装置
CN110990560B (zh) 一种司法数据处理方法及系统
CN107590690B (zh) 数据处理方法、装置及服务器
CN109948680B (zh) 病历数据的分类方法及系统
CN111143578B (zh) 基于神经网络抽取事件关系的方法、装置和处理器
CN111383030B (zh) 一种交易风险的检测方法、装置及设备
CN113255328B (zh) 语言模型的训练方法及应用方法
CN109299276B (zh) 一种将文本转化为词嵌入、文本分类方法和装置
CN110781396A (zh) 一种信息推荐方法、装置、设备及存储介质
CN108733694B (zh) 检索推荐方法和装置
CN108932525B (zh) 一种行为预测方法及装置
CN110969549B (zh) 一种司法数据处理方法及系统
CN114490786A (zh) 数据排序方法及装置
CN113743618A (zh) 时间序列数据处理方法、装置、可读介质及电子设备
CN113469111A (zh) 图像关键点检测方法及系统、电子设备、存储介质
CN112465012A (zh) 机器学习建模方法、装置、电子设备和可读存储介质
CN115982388B (zh) 案件质控图谱建立、案件文书质检方法、设备及存储介质
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN109582834B (zh) 数据风险预测方法及装置
CN110827078A (zh) 一种信息推荐方法、装置、设备及存储介质
CN111191007A (zh) 一种基于区块链的文章关键词过滤方法及设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant