CN114996400A - 裁判文书处理方法、装置、电子设备及存储介质 - Google Patents
裁判文书处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114996400A CN114996400A CN202210589301.7A CN202210589301A CN114996400A CN 114996400 A CN114996400 A CN 114996400A CN 202210589301 A CN202210589301 A CN 202210589301A CN 114996400 A CN114996400 A CN 114996400A
- Authority
- CN
- China
- Prior art keywords
- target
- referee
- document
- documents
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种裁判文书处理方法、装置、电子设备及存储介质,基于对目标企业的裁判文书的处理指令中携带的第一裁判文书,能够精确且全面的从目标源中获取到多个第二裁判文书,提取第一裁判文书及多个第二裁判文书的案件关键信息,案件关键信息实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率,使用预设相似度计算模型基于案件关键信息计算每两个所述目标裁判文书的相似度,从而根据相似度将目标裁判文书集合进行关联分类,裁判文书自动快速的进行关联,裁判文书关联的准确度较高,获取每类目标裁判文书的审判结果并基于审判结果输出每类目标裁判文书当前所处的案件阶段,有助于梳理案件审理流程。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种裁判文书处理方法、装置、电子设备及存储介质。
背景技术
裁判文书是记载人民法院审理过程和审理结果的重要文件,是诉讼活动结果的重要载体。通常,一个诉讼案件可能会经历多次裁判,例如一审民事判决书、二审民事裁定书、决定书、调解书等。
发明人在实现本发明的过程中发现,裁判文书引用案号的情况比较多样,部分裁判文书涉及到多处引用其它裁判文书的案号,部分裁判文书涉及到引用与其案件内容相近的裁判文书案号,部分裁判文书涉及到引用关联裁定书的案号。而这些裁判文书大都通过时间顺序进行保存,且相互之间都是孤立的。目前进行历审案件关联不仅费时费力而且关联结果的准确性也难以得到保障。
发明内容
鉴于以上内容,有必要提出一种裁判文书处理方法、装置、电子设备及存储介质,能够基于人工智能将裁判文书自动快速的进行关联,裁判文书关联的准确度较高,且有助于梳理案件审理流程。
本发明的第一方面提供一种裁判文书处理方法,所述方法包括:
响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
根据本发明的一个可选的实施方式,所述根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书包括:
获取所述第一裁判文书的第一初始关键词集合,并对所述第一初始关键词集合进行词性过滤,得到第一目标关键词集合;
获取所述目标源中每个裁判文书的第二初始关键词集合,并对所述第二初始关键词集合进行词性过滤,得到第二目标关键词集合;
基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值;
根据所述分值从所述目标源中获取所述多个第二裁判文书。
根据本发明的一个可选的实施方式,所述基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值包括:
初始化关键词矩阵;
将所述第一目标关键词集合中的关键词作为所述关键词矩阵中的行;
将所述第二目标关键词集合中的关键词作为所述关键词矩阵中的列;
基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串;
基于所述最长公共关键词串确定所述目标源中每个裁判文书的分值。
根据本发明的一个可选的实施方式,所述基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串包括:
识别所述关键词矩阵中每个节点的行和列对应的关键词是否相同;
当识别所述关键词矩阵中任意一个节点的行和列对应的关键词相同,则将所述任意一个节点标记为预设值,得到标记矩阵;
提取所述标记矩阵中对角线上标记有所述预设值的目标节点;
获取所述关键词矩阵中与所述目标节点对应的关键词,得到所述最长公共关键词串。
根据本发明的一个可选的实施方式,所述提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息包括:
计算每个所述目标裁判文书中每两个语句之间的相似度;
根据所述相似度,构建节点连接图,所述节点连接图中每个节点对应一个语句;
根据所述节点连接图计算得到每个语句的权重值:
根据所述权重值确定所述目标裁判文书中的多个关键语句;
将所述多个关键语句进行拼接,得到所述案件关键信息。
根据本发明的一个可选的实施方式,所述基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度包括:
将每两个所述目标裁判文书对应的所述案件关键信息组成语句对;
获取每个所述语句对的嵌入向量;
输入所述嵌入向量至所述预设相似度计算模型中,得到相似度。
根据本发明的一个可选的实施方式,所述方法还包括:
确定每类目标裁判文书中的各判项并去掉重复的判项;
确定去掉重复的判项的判决金额;
根据所述判决金额计算每类目标裁判文书的总金额。
本发明的第二方面提供一种裁判文书处理装置,所述装置包括:
检索模块,用于响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
提取模块,用于基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
计算模块,用于基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
分类模块,用于根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
输出模块,用于获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述裁判文书处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述裁判文书处理方法。
综上所述,本发明所述的裁判文书处理方法、装置、电子设备及存储介质,基于对目标企业的裁判文书的处理指令中携带的第一裁判文书,能够精确且全面的从目标源中获取到多个第二裁判文书,将第一裁判文书及多个第二裁判文书作为目标裁判文书集合,提取目标裁判文书集合中每个目标裁判文书的案件关键信息,案件关键信息相较于整篇目标裁判文书而言,实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率,在基于案件关键信息使用预设相似度计算模型计算每两个所述目标裁判文书的相似度之后,根据相似度将目标裁判文书集合进行关联分类,实现了裁判文书自动快速的进行关联,裁判文书关联的准确度较高,最后通过获取每类目标裁判文书的审判结果并基于审判结果输出每类目标裁判文书当前所处的案件阶段,有助于梳理案件审理流程。
附图说明
图1是本发明实施例一提供的裁判文书处理方法的流程图。
图2是本发明实施例二提供的裁判文书处理装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的裁判文书处理方法由电子设备执行,相应地,裁判文书处理装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的裁判文书处理方法的流程图。所述裁判文书处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书。
目标企业是诉讼活动中的当事人,是指需要进行裁判文书关联的目标对象。目标源是指收录有裁判文书的数据源,例如,裁判文书网。
可以通过网络爬虫的方式从目标源中检索所述目标企业的裁判文书的文书文本,其中,文书文本为记载裁判文书内容的可编辑的文本信息。
在一些实施方式中,当裁判文书为图片格式时,可以通过图像处理技术,例如OCR识别技术,将图片格式转化为可编辑的字体格式,然后将转换后的字体复制在空文本中生成文书文本。
为了精确且全面的检索出目标企业的裁判文书,在触发处理指令时,在处理指令中携带第一裁判文书,从而根据第一裁判文书检索多个第二裁判文书。第一裁判文书可以是目标企业最新的裁判文书,也可以是最旧的裁判文书,本发明不做任何限制。
在一个可选的实施方式中,所述根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书包括:
获取所述第一裁判文书的第一初始关键词集合,并对所述第一初始关键词集合进行词性过滤,得到第一目标关键词集合;
获取所述目标源中每个裁判文书的第二初始关键词集合,并对所述第二初始关键词集合进行词性过滤,得到第二目标关键词集合;
基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值;
根据所述分值从所述目标源中获取所述多个第二裁判文书。
可以通过结巴分词工具对裁判文书进行分词处理,得到多个关键词,将多个关键词作为初始关键词集合。然后标记初始关键词集合中每个关键词的词性,例如,动词,助词,介词,实体词,连词,拟声词等。其中,实体词,例如,人名、机构名、地名、时间、日期、货币和百分比等,可以使用命名实体识别模型进行识别并标记。
在根据第一裁判文书的第一目标关键词集合及每个第二目标关键词集合计算得到对应的裁判文书的分值之后,将分值与预设分值阈值进行比较,将大于预设分值阈值的分值对应的裁判文书从目标源中选取出来,作为第二裁判文书。分值越大,表明对应的裁判文书与第一裁判文书在语义上越相似,该裁判文书作为第二裁判文书的可能性越大。分值越小,表明对应的裁判文书与第一裁判文书在语义上越不相似,该裁判文书作为第二裁判文书的可能性越小。
由于助词、实体词、连词、拟声词这一类词性的关键词是非核心的检索要素,为了避免非核心的检索要素干扰裁判文书的检索,提升基于语义检索裁判文书的准确率,上述可选的实施方式,通过将预设词性的关键词从初始关键词集合中过滤掉,得到目标关键词集合,由于目标关键词集合中的关键词均为核心的检索要素,因而基于目标关键词集合能够准确计算目标源中每个裁判文书的分值,从而基于分值能够准确的从目标源中检索出目标企业的多个裁判文书。
在一个可选的实施方式中,所述基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值包括:
初始化关键词矩阵;
将所述第一目标关键词集合中的关键词作为所述关键词矩阵中的行;
将所述第二目标关键词集合中的关键词作为所述关键词矩阵中的列;
基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串;
基于所述最长公共关键词串确定所述目标源中每个裁判文书的分值。
可以初始化一个维度可变的空矩阵,作为关键词矩阵。对于目标源中的每一个裁判文书,将第一目标关键词集合中的关键词按照顺序写入关键词矩阵中的行,将对应的第二目标关键词集合中的关键词按照顺序写入关键词矩阵中的列,行和列的交叉点称之为节点。
基于关键词矩阵中的行和列所形成的节点,计算第一目标关键词集合中的关键词与第二目标关键词集合中的关键词的最长公共关键词串,最长公共关键词串表示第一目标关键词集合与第二目标关键词集合中具有相同顺序且相同关键词的数量,能够用以刻画第一裁判文书与第二裁判文书之间的相似度,将最长公共关键词串确定为目标源中裁判文书的分值,能够有效的评判目标源中哪些裁判文书是与目标企业相关的,哪些裁判文书是与目标企业无关的。
在一个可选的实施方式中,所述基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串包括:
识别所述关键词矩阵中每个节点的行和列对应的关键词是否相同;
当识别所述关键词矩阵中任意一个节点的行和列对应的关键词相同,则将所述任意一个节点标记为预设值,得到标记矩阵;
提取所述标记矩阵中对角线上标记有所述预设值的目标节点;
获取所述关键词矩阵中与所述目标节点对应的关键词,得到所述最长公共关键词串。
可以根据关键词矩阵的行数和列数初始化相同行数和列数的空矩阵,然后根据关键词矩阵中任意一个节点的行和列对应的关键词是否相同,标记不同的预设值,从而得到标记矩阵。
示例性的,假设关键词矩阵中第一行的关键词与第三列的关键词相同,则将标记矩阵中第一行第三列的元素值标记为预设第一值,例如,1。假设关键词矩阵中第四行的关键词与第二列的关键词不相同,则将标记矩阵中第四行第二列的元素值标记为预设第二值,例如,0。
一般而言,若是第一裁判文书与目标源中的裁判文书很相似,那么第一目标关键词集合与所述第二目标关键词集合中相同位置处的关键词必然较大概率上相同,因而,上述可选的实施方式,通过获取标记矩阵中对角上标记有预设第一值的目标节点即可,能够提高目标节点的获取效率,从而提高最长公共关键词串的获取效率,进而提高了第二裁判文书的检索效率。
S12,基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息。
目标裁判文书集合中包括一个第一裁判文书及多个第二裁判文书,将目标裁判文书集合中的裁判文书称之为目标裁判文书。
在一个可选的实施方式中,可以先对目标裁判文书进行分段,利用关键词和正则技术筛选案件关键信息的语句或段落,然后提取出案件关键信息。其中,案件关键信息可以包括:案件标题、案号、案由、审理时间、案件类型、案件当事人名称及其案件地位段落、审判结果段落。
案件关键信息能够表征目标裁判文书的整个摘要,且案件关键信息相较于整篇目标裁判文书而言,实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率。
在一个可选的实施方式中,所述提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息包括:
计算每个所述目标裁判文书中每两个语句之间的相似度;
根据所述相似度,构建节点连接图,所述节点连接图中每个节点对应一个语句;
根据所述节点连接图计算得到每个语句的权重值:
根据所述权重值确定所述目标裁判文书中的多个关键语句;
将所述多个关键语句进行拼接,得到所述案件关键信息。
可以使用word2vec模型提取目标裁判文书中每个关键词的词向量,对于任意一个语句,将语句中的所有关键词的词向量进行拼接,得到语句的句向量。基于所述句向量计算任意两个语句的之间的余弦夹角或者欧式距离得到这任意两个语句之间的相似度。
一个目标裁判文书对应一个节点连接图,所述节点连接图包括点集和边集,所述点集包括所述目标裁判文书中每个语句对应的节点,所述边集包括每两个相似度大于第一相似度阈值的语句对应的节点之间形成的无向有权边。
可以采用如下公式计算每个语句的权重值:
其中,S(vi)表示节点vi的权重值,S(vj)表示节点vj的权重值,out(vj)表示节点连接图中点vj所指向的节点的集合,d为阻尼系数,wji表示节点vi与节点vj之间边的相似度,wjk表示节点vk与节点vj之间边的相似度。通过套用该公式,迭代传播各个节点的权值,直至收敛后得到每个节点的权重值。节点的权重值即为节点对应的语句的权重值。权重值越大,对应的语句越为目标裁判文书中的重要语句,权重值越小,对应的语句越为目标裁判文书中的不重要语句。
将每个语句按照权重值从大到小排序,得到所述目标裁判文书的关键语句排序,按照所述关键语句排序抽取前K个语句,拼接前K个语句,得到目标裁判文书的案件关键信息。
该可选的实施方式,对于每个目标裁判文书,通过计算每两个语句之间的相似度来构建节点连接图,从而根据节点连接图计算得到每个语句的权重值,进而根据权重值得到目标裁判文书中的关键语句,关键语句的确定不仅考虑了语句与语句之间的相似度,而且了考虑了语句的冗余性,表述含义重复性大的语句的权重值相对较低,其重要性也较小,表述含义重复性小的语句的权重值相对较高,其重要性也较大,因而提高了关键语句的准确性,从而基于关键语句得到的案件关键信息更佳准确,含义明确且简练。
S13,基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度。
相似度计算模型可以为预先训练好的机器学习模型,训练过程可以包括:获取同一企业的同一类裁判文书的案件关键信息组成的语句对作为正样本,获取同一企业的不同类裁判文书的案件关键信息组成的语句对作为负样本;为正样本定义第一类标签,例如,1,为负样本定义第二类标签,例如,0;分别提取正样本及负样本的嵌入向量;以嵌入向量为输入,以类标签为目标,以预训练语言模型(如ELMO、BERT、XLNET、GPT等)为模型的网络架构,进行训练,得到相似度计算模型。
在一个可选的实施方式中,所述基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度包括:
将每两个所述目标裁判文书对应的所述案件关键信息组成语句对;
获取每个所述语句对的嵌入向量;
输入所述嵌入向量至所述预设相似度计算模型中,得到相似度;
训练好相似度计算模型之后,将任意两个目标裁判文书的案件关键信息组成语句对,将语句对的嵌入向量输入相似度计算模型中,通过相似度计算模型计算语句对的相似度,从而输出目标裁判文书两两之间的相似度。
S14,根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书。
相似度高于第二相似度阈值对应的两个目标裁判文书,即为同一案件对应的裁判文书,相似度低于第二相似度阈值对应的两个目标裁判文书,即为不同案件对应的裁判文书,同一案件对应的目标裁判文书作为一类进行关联。
可以为所述具有关联关系的目标裁判文书生成唯一标识。
S15,获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
裁判文书可以包括多种信息,如:判项(即:判决金额细项)、判决金额、抗辩、诉讼请求、判决如下段落(或判决如下部分)、事实认定段落(或事实认定部分)、本院认为段落(或本院认为部分)等。
在将目标裁判文书集合中的目标裁判文书进行分类后,对每一类的目标裁判文书按照审理时间排序,从而将每一类的目标裁判文书分成两个阶段:判决阶段及执行阶段。
对于某类目标裁判文书当前所处的阶段为判决阶段时,可以对该类目标裁判文书的审判结果进行汇总,利用信息抽取技术-关系抽取模型对审判结果进行结构化处理,输出结构化信息,例如,(被告1,赔付,1000元)。
对于某类目标裁判文书当前所处的阶段为执行阶段时,可以利用规则方法,根据裁判文书的标题和审判结果对裁判文书进行再分类,类别包括:强制执行阶段类、终止本次执行类、执行完毕类。如果排序后的裁判文书最后一条文书类型为结案通知书或和解书,则输出案件阶段为“执行完毕阶段”。如果最后一条裁判文书为“终止本次执行”,则输出案件阶段为“终止本次执行阶段”。如果最后一条为“强制执行”,则输出案件阶段为“强制执行阶段”。
在一个可选的实施方式中,所述方法还包括:
确定每类目标裁判文书中的各判项并去掉重复的判项;
确定去掉重复的判项的判决金额;
根据所述判决金额计算每类目标裁判文书的总金额。
在一个可选的实施方式中,所述方法还可以包括:将每类目标裁判文书及当前所处的案件阶段作为响应结果进行显示。
该可选的实施方式,能够避免用户在检索目标企业的裁判文书时,只能看到所检索到的案件某一裁判文书的相关内容,无法得知该案件其它相关联的裁判文书的相关内容,减少了用户的操作次数。
本发明所述的裁判文书处理方法,基于对目标企业的裁判文书的处理指令中携带的第一裁判文书,能够精确且全面的从目标源中获取到多个第二裁判文书,将第一裁判文书及多个第二裁判文书作为目标裁判文书集合,提取目标裁判文书集合中每个目标裁判文书的案件关键信息,案件关键信息相较于整篇目标裁判文书而言,实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率,在基于案件关键信息使用预设相似度计算模型计算每两个所述目标裁判文书的相似度之后,根据相似度将目标裁判文书集合进行关联分类,实现了裁判文书自动快速的进行关联,裁判文书关联的准确度较高,最后通过获取每类目标裁判文书的审判结果并基于审判结果输出每类目标裁判文书当前所处的案件阶段,有助于梳理案件审理流程。
实施例二
图2是本发明实施例二提供的裁判文书处理装置的结构图。
在一些实施例中,所述裁判文书处理装置20可以包括多个由计算机程序段所组成的功能模块。所述裁判文书处理装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)裁判文书处理的功能。
本实施例中,所述裁判文书处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:检索模块201、提取模块202、计算模块203、分类模块204、输出模块205及显示模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述检索模块201,用于响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书。
目标企业是诉讼活动中的当事人,是指需要进行裁判文书关联的目标对象。目标源是指收录有裁判文书的数据源,例如,裁判文书网。
可以通过网络爬虫的方式从目标源中检索所述目标企业的裁判文书的文书文本,其中,文书文本为记载裁判文书内容的可编辑的文本信息。
在一些实施方式中,当裁判文书为图片格式时,可以通过图像处理技术,例如OCR识别技术,将图片格式转化为可编辑的字体格式,然后将转换后的字体复制在空文本中生成文书文本。
为了精确且全面的检索出目标企业的裁判文书,在触发处理指令时,在处理指令中携带第一裁判文书,从而根据第一裁判文书检索多个第二裁判文书。第一裁判文书可以是目标企业最新的裁判文书,也可以是最旧的裁判文书,本发明不做任何限制。
在一个可选的实施方式中,所述检索模块201根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书包括:
获取所述第一裁判文书的第一初始关键词集合,并对所述第一初始关键词集合进行词性过滤,得到第一目标关键词集合;
获取所述目标源中每个裁判文书的第二初始关键词集合,并对所述第二初始关键词集合进行词性过滤,得到第二目标关键词集合;
基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值;
根据所述分值从所述目标源中获取所述多个第二裁判文书。
可以通过结巴分词工具对裁判文书进行分词处理,得到多个关键词,将多个关键词作为初始关键词集合。然后标记初始关键词集合中每个关键词的词性,例如,动词,助词,介词,实体词,连词,拟声词等。其中,实体词,例如,人名、机构名、地名、时间、日期、货币和百分比等,可以使用命名实体识别模型进行识别并标记。
在根据第一裁判文书的第一目标关键词集合及每个第二目标关键词集合计算得到对应的裁判文书的分值之后,将分值与预设分值阈值进行比较,将大于预设分值阈值的分值对应的裁判文书从目标源中选取出来,作为第二裁判文书。分值越大,表明对应的裁判文书与第一裁判文书在语义上越相似,该裁判文书作为第二裁判文书的可能性越大。分值越小,表明对应的裁判文书与第一裁判文书在语义上越不相似,该裁判文书作为第二裁判文书的可能性越小。
由于助词、实体词、连词、拟声词这一类词性的关键词是非核心的检索要素,为了避免非核心的检索要素干扰裁判文书的检索,提升基于语义检索裁判文书的准确率,上述可选的实施方式,通过将预设词性的关键词从初始关键词集合中过滤掉,得到目标关键词集合,由于目标关键词集合中的关键词均为核心的检索要素,因而基于目标关键词集合能够准确计算目标源中每个裁判文书的分值,从而基于分值能够准确的从目标源中检索出目标企业的多个裁判文书。
在一个可选的实施方式中,所述基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值包括:
初始化关键词矩阵;
将所述第一目标关键词集合中的关键词作为所述关键词矩阵中的行;
将所述第二目标关键词集合中的关键词作为所述关键词矩阵中的列;
基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串;
基于所述最长公共关键词串确定所述目标源中每个裁判文书的分值。
可以初始化一个维度可变的空矩阵,作为关键词矩阵。对于目标源中的每一个裁判文书,将第一目标关键词集合中的关键词按照顺序写入关键词矩阵中的行,将对应的第二目标关键词集合中的关键词按照顺序写入关键词矩阵中的列,行和列的交叉点称之为节点。
基于关键词矩阵中的行和列所形成的节点,计算第一目标关键词集合中的关键词与第二目标关键词集合中的关键词的最长公共关键词串,最长公共关键词串表示第一目标关键词集合与第二目标关键词集合中具有相同顺序且相同关键词的数量,能够用以刻画第一裁判文书与第二裁判文书之间的相似度,将最长公共关键词串确定为目标源中裁判文书的分值,能够有效的评判目标源中哪些裁判文书是与目标企业相关的,哪些裁判文书是与目标企业无关的。
在一个可选的实施方式中,所述基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串包括:
识别所述关键词矩阵中每个节点的行和列对应的关键词是否相同;
当识别所述关键词矩阵中任意一个节点的行和列对应的关键词相同,则将所述任意一个节点标记为预设值,得到标记矩阵;
提取所述标记矩阵中对角线上标记有所述预设值的目标节点;
获取所述关键词矩阵中与所述目标节点对应的关键词,得到所述最长公共关键词串。
可以根据关键词矩阵的行数和列数初始化相同行数和列数的空矩阵,然后根据关键词矩阵中任意一个节点的行和列对应的关键词是否相同,标记不同的预设值,从而得到标记矩阵。
示例性的,假设关键词矩阵中第一行的关键词与第三列的关键词相同,则将标记矩阵中第一行第三列的元素值标记为预设第一值,例如,1。假设关键词矩阵中第四行的关键词与第二列的关键词不相同,则将标记矩阵中第四行第二列的元素值标记为预设第二值,例如,0。
一般而言,若是第一裁判文书与目标源中的裁判文书很相似,那么第一目标关键词集合与所述第二目标关键词集合中相同位置处的关键词必然较大概率上相同,因而,上述可选的实施方式,通过获取标记矩阵中对角上标记有预设第一值的目标节点即可,能够提高目标节点的获取效率,从而提高最长公共关键词串的获取效率,进而提高了第二裁判文书的检索效率。
所述提取模块202,用于基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息。
目标裁判文书集合中包括一个第一裁判文书及多个第二裁判文书,将目标裁判文书集合中的裁判文书称之为目标裁判文书。
在一个可选的实施方式中,可以先对目标裁判文书进行分段,利用关键词和正则技术筛选案件关键信息的语句或段落,然后提取出案件关键信息。其中,案件关键信息可以包括:案件标题、案号、案由、审理时间、案件类型、案件当事人名称及其案件地位段落、审判结果段落。
案件关键信息能够表征目标裁判文书的整个摘要,且案件关键信息相较于整篇目标裁判文书而言,实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率。
在一个可选的实施方式中,所述提取模块202提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息包括:
计算每个所述目标裁判文书中每两个语句之间的相似度;
根据所述相似度,构建节点连接图,所述节点连接图中每个节点对应一个语句;
根据所述节点连接图计算得到每个语句的权重值:
根据所述权重值确定所述目标裁判文书中的多个关键语句;
将所述多个关键语句进行拼接,得到所述案件关键信息。
可以使用word2vec模型提取目标裁判文书中每个关键词的词向量,对于任意一个语句,将语句中的所有关键词的词向量进行拼接,得到语句的句向量。基于所述句向量计算任意两个语句的之间的余弦夹角或者欧式距离得到这任意两个语句之间的相似度。
一个目标裁判文书对应一个节点连接图,所述节点连接图包括点集和边集,所述点集包括所述目标裁判文书中每个语句对应的节点,所述边集包括每两个相似度大于第一相似度阈值的语句对应的节点之间形成的无向有权边。
可以采用如下公式计算每个语句的权重值:
其中,S(vi)表示节点vi的权重值,S(vj)表示节点vj的权重值,out(vj)表示节点连接图中点vj所指向的节点的集合,d为阻尼系数,wji表示节点vi与节点vj之间边的相似度,wjk表示节点vk与节点vj之间边的相似度。通过套用该公式,迭代传播各个节点的权值,直至收敛后得到每个节点的权重值。节点的权重值即为节点对应的语句的权重值。权重值越大,对应的语句越为目标裁判文书中的重要语句,权重值越小,对应的语句越为目标裁判文书中的不重要语句。
将每个语句按照权重值从大到小排序,得到所述目标裁判文书的关键语句排序,按照所述关键语句排序抽取前K个语句,拼接前K个语句,得到目标裁判文书的案件关键信息。
该可选的实施方式,对于每个目标裁判文书,通过计算每两个语句之间的相似度来构建节点连接图,从而根据节点连接图计算得到每个语句的权重值,进而根据权重值得到目标裁判文书中的关键语句,关键语句的确定不仅考虑了语句与语句之间的相似度,而且了考虑了语句的冗余性,表述含义重复性大的语句的权重值相对较低,其重要性也较小,表述含义重复性小的语句的权重值相对较高,其重要性也较大,因而提高了关键语句的准确性,从而基于关键语句得到的案件关键信息更佳准确,含义明确且简练。
所述计算模块203,用于基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度。
相似度计算模型可以为预先训练好的机器学习模型,训练过程可以包括:获取同一企业的同一类裁判文书的案件关键信息组成的语句对作为正样本,获取同一企业的不同类裁判文书的案件关键信息组成的语句对作为负样本;为正样本定义第一类标签,例如,1,为负样本定义第二类标签,例如,0;分别提取正样本及负样本的嵌入向量;以嵌入向量为输入,以类标签为目标,以预训练语言模型(如ELMO、BERT、XLNET、GPT等)为模型的网络架构,进行训练,得到相似度计算模型。
在一个可选的实施方式中,所述计算模块203基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度包括:
将每两个所述目标裁判文书对应的所述案件关键信息组成语句对;
获取每个所述语句对的嵌入向量;
输入所述嵌入向量至所述预设相似度计算模型中,得到相似度;
训练好相似度计算模型之后,将任意两个目标裁判文书的案件关键信息组成语句对,将语句对的嵌入向量输入相似度计算模型中,通过相似度计算模型计算语句对的相似度,从而输出目标裁判文书两两之间的相似度。
所述分类模块204,用于根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书。
相似度高于第二相似度阈值对应的两个目标裁判文书,即为同一案件对应的裁判文书,相似度低于第二相似度阈值对应的两个目标裁判文书,即为不同案件对应的裁判文书,同一案件对应的目标裁判文书作为一类进行关联。
可以为所述具有关联关系的目标裁判文书生成唯一标识。
所述输出模块205,用于获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
裁判文书可以包括多种信息,如:判项(即:判决金额细项)、判决金额、抗辩、诉讼请求、判决如下段落(或判决如下部分)、事实认定段落(或事实认定部分)、本院认为段落(或本院认为部分)等。
在将目标裁判文书集合中的目标裁判文书进行分类后,对每一类的目标裁判文书按照审理时间排序,从而将每一类的目标裁判文书分成两个阶段:判决阶段及执行阶段。
对于某类目标裁判文书当前所处的阶段为判决阶段时,可以对该类目标裁判文书的审判结果进行汇总,利用信息抽取技术-关系抽取模型对审判结果进行结构化处理,输出结构化信息,例如,(被告1,赔付,1000元)。
对于某类目标裁判文书当前所处的阶段为执行阶段时,可以利用规则方法,根据裁判文书的标题和审判结果对裁判文书进行再分类,类别包括:强制执行阶段类、终止本次执行类、执行完毕类。如果排序后的裁判文书最后一条文书类型为结案通知书或和解书,则输出案件阶段为“执行完毕阶段”。如果最后一条裁判文书为“终止本次执行”,则输出案件阶段为“终止本次执行阶段”。如果最后一条为“强制执行”,则输出案件阶段为“强制执行阶段”。
在一个可选的实施方式中,所述计算模块203,还用于:
确定每类目标裁判文书中的各判项并去掉重复的判项;
确定去掉重复的判项的判决金额;
根据所述判决金额计算每类目标裁判文书的总金额。
在一个可选的实施方式中,所述显示模块206,用于:将每类目标裁判文书及当前所处的案件阶段作为响应结果进行显示。
该可选的实施方式,能够避免用户在检索目标企业的裁判文书时,只能看到所检索到的案件某一裁判文书的相关内容,无法得知该案件其它相关联的裁判文书的相关内容,减少了用户的操作次数。
本发明所述的裁判文书处理装置,基于对目标企业的裁判文书的处理指令中携带的第一裁判文书,能够精确且全面的从目标源中获取到多个第二裁判文书,将第一裁判文书及多个第二裁判文书作为目标裁判文书集合,提取目标裁判文书集合中每个目标裁判文书的案件关键信息,案件关键信息相较于整篇目标裁判文书而言,实现了信息的压缩,有助于提高后续对目标裁判文本进行分类的效率,在基于案件关键信息使用预设相似度计算模型计算每两个所述目标裁判文书的相似度之后,根据相似度将目标裁判文书集合进行关联分类,实现了裁判文书自动快速的进行关联,裁判文书关联的准确度较高,最后通过获取每类目标裁判文书的审判结果并基于审判结果输出每类目标裁判文书当前所处的案件阶段,有助于梳理案件审理流程。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述裁判文书处理方法实施例中的步骤,例如图1所示的S11-S15:
S11,响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
S12,基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
S13,基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
S14,根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
S15,获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-205:
所述检索模块201,用于响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
所述提取模块202,用于基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
所述计算模块203,用于基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
所述分类模块204,用于根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
所述输出模块205,用于获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
该计算机程序被处理器执行时还实现上述装置实施例中的显示模块206,具体请参见实施例二及其相关描述。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的裁判文书处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的裁判文书处理方法的全部或者部分步骤;或者实现裁判文书处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种裁判文书处理方法,其特征在于,所述方法包括:
响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
2.如权利要求1所述的裁判文书处理方法,其特征在于,所述根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书包括:
获取所述第一裁判文书的第一初始关键词集合,并对所述第一初始关键词集合进行词性过滤,得到第一目标关键词集合;
获取所述目标源中每个裁判文书的第二初始关键词集合,并对所述第二初始关键词集合进行词性过滤,得到第二目标关键词集合;
基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值;
根据所述分值从所述目标源中获取所述多个第二裁判文书。
3.如权利要求2所述的裁判文书处理方法,其特征在于,所述基于所述第一目标关键词集合及所述第二目标关键词集合计算所述目标源中每个裁判文书的分值包括:
初始化关键词矩阵;
将所述第一目标关键词集合中的关键词作为所述关键词矩阵中的行;
将所述第二目标关键词集合中的关键词作为所述关键词矩阵中的列;
基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串;
基于所述最长公共关键词串确定所述目标源中每个裁判文书的分值。
4.如权利要求3所述的裁判文书处理方法,其特征在于,所述基于所述关键词矩阵中的行和列,计算所述第一目标关键词集合中的关键词与所述第二目标关键词集合中的关键词的最长公共关键词串包括:
识别所述关键词矩阵中每个节点的行和列对应的关键词是否相同;
当识别所述关键词矩阵中任意一个节点的行和列对应的关键词相同,则将所述任意一个节点标记为预设值,得到标记矩阵;
提取所述标记矩阵中对角线上标记有所述预设值的目标节点;
获取所述关键词矩阵中与所述目标节点对应的关键词,得到所述最长公共关键词串。
5.如权利要求1所述的裁判文书处理方法,其特征在于,所述提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息包括:
计算每个所述目标裁判文书中每两个语句之间的相似度;
根据所述相似度,构建节点连接图,所述节点连接图中每个节点对应一个语句;
根据所述节点连接图计算得到每个语句的权重值:
根据所述权重值确定所述目标裁判文书中的多个关键语句;
将所述多个关键语句进行拼接,得到所述案件关键信息。
6.如权利要求1至5中任意一项所述的裁判文书处理方法,其特征在于,所述基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度包括:
将每两个所述目标裁判文书对应的所述案件关键信息组成语句对;
获取每个所述语句对的嵌入向量;
输入所述嵌入向量至所述预设相似度计算模型中,得到相似度。
7.如权利要求1至5中任意一项所述的裁判文书处理方法,其特征在于,所述方法还包括:
确定每类目标裁判文书中的各判项并去掉重复的判项;
确定去掉重复的判项的判决金额;
根据所述判决金额计算每类目标裁判文书的总金额。
8.一种裁判文书处理装置,其特征在于,所述装置包括:
检索模块,用于响应于对目标企业的裁判文书的处理指令,根据所述处理指令中携带的第一裁判文书从目标源中获取多个第二裁判文书;
提取模块,用于基于所述第一裁判文书及所述多个第二裁判文书得到目标裁判文书集合,并提取所述目标裁判文书集合中每个目标裁判文书的案件关键信息;
计算模块,用于基于所述案件关键信息使用预设相似度计算模型计算所述目标裁判文书集合中每两个所述目标裁判文书的相似度;
分类模块,用于根据所述相似度将所述目标裁判文书集合进行关联分类,得到多类目标裁判文书;
输出模块,用于获取每类目标裁判文书的审判结果,并基于所述审判结果输出每类目标裁判文书当前所处的案件阶段。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述裁判文书处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述裁判文书处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589301.7A CN114996400A (zh) | 2022-05-26 | 2022-05-26 | 裁判文书处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589301.7A CN114996400A (zh) | 2022-05-26 | 2022-05-26 | 裁判文书处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114996400A true CN114996400A (zh) | 2022-09-02 |
Family
ID=83029684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210589301.7A Pending CN114996400A (zh) | 2022-05-26 | 2022-05-26 | 裁判文书处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996400A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035406A (zh) * | 2023-07-31 | 2023-11-10 | 北京华夏电通科技股份有限公司 | 审判流程智能管控方法、装置和设备 |
-
2022
- 2022-05-26 CN CN202210589301.7A patent/CN114996400A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117035406A (zh) * | 2023-07-31 | 2023-11-10 | 北京华夏电通科技股份有限公司 | 审判流程智能管控方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6894534B2 (ja) | 情報処理方法及び端末、コンピュータ記憶媒体 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN114138784A (zh) | 基于存储库的信息溯源方法、装置、电子设备及介质 | |
Hossari et al. | TEST: A terminology extraction system for technology related terms | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN114416939A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN115525761A (zh) | 一种文章关键词筛选类别的方法、装置、设备及存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN115221323A (zh) | 基于意图识别模型的冷启动处理方法、装置、设备及介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114708073A (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
Yang et al. | Automatic metadata information extraction from scientific literature using deep neural networks | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112364068A (zh) | 课程标签生成方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |