CN113051903A - 语句、案件经过、量刑情节和司法文书一致性比对方法 - Google Patents

语句、案件经过、量刑情节和司法文书一致性比对方法 Download PDF

Info

Publication number
CN113051903A
CN113051903A CN202110427582.1A CN202110427582A CN113051903A CN 113051903 A CN113051903 A CN 113051903A CN 202110427582 A CN202110427582 A CN 202110427582A CN 113051903 A CN113051903 A CN 113051903A
Authority
CN
China
Prior art keywords
compared
consistency
sentences
judicial
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110427582.1A
Other languages
English (en)
Inventor
刘秉权
王瀚尉
孙承杰
刘远超
单丽莉
林磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN202110427582.1A priority Critical patent/CN113051903A/zh
Publication of CN113051903A publication Critical patent/CN113051903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了语句、案件经过、量刑情节和司法文书一致性比对方法,语句一致性比对方法包括:获取待比较语句,并确定所述待比较语句的句向量;根据所述句向量计算两个待比较语句的余弦相似度;根据所述余弦相似度确定对应的两个所述待比较语句的一致性。这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。

Description

语句、案件经过、量刑情节和司法文书一致性比对方法
技术领域
本发明涉及文书比对技术领域,具体而言,涉及语句、案件经过、量刑情节和司法文书一致性比对方法。
背景技术
在司法领域,同一个案件由来自公检法三方的四种法律文书记载,判断四种文书针对同一案件的嫌疑人身份信息、案件经过、量刑情节以及判决结果是否一致,是一项及其严肃的工作。在判决过程中,由于各种外界和内在因素的干扰,某一司法文书在一定程度上会出现纰漏或者疏忽,导致文书针对某一关键信息记载的不一致,这种不一致会损害审判法庭的权威和形象。现在社会中,一般都是通过司法人员的手动校对来解决司法文书不一致的问题,但是手动校对会消耗大量的人力和财力。
由于司法文书记录多为电子文书,其形式为自然语言处理文本;现在可以尝试通过计算机来进行文本的识别和比对。但是目前,针对组成司法文书的语句,如何进行语句的准确比对,尚未有具体的解决方案,也使得整个司法文书的比对研发陷入困局。
发明内容
本发明解决的问题是如何进行语句的准确比对。
为解决上述问题,本发明首先提供一种语句一致性比对方法,其包括:
获取待比较语句,并确定所述待比较语句的句向量;
根据所述句向量计算两个待比较语句的余弦相似度;
根据所述余弦相似度确定对应的两个所述待比较语句的一致性。
这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述获取待比较语句,并确定所述待比较语句的句向量,包括:
获取待比较语句;
将所述待比较语句拆分为多个词;
将所述词转换为对应的词向量;
对所述待比较语句的所有所述词向量加权后相加,得到所述待比较语句的所述句向量。
可选的,所述余弦相似度确定所述待比较语句的一致性,包括:
在所述余弦相似度大于第一预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句一致;
在所述余弦相似度小于第二预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句不一致,所述第二预设阈值小于所述第一预设阈值;
在所述余弦相似度小于第一预设阈值且大于第二预设阈值时,获取与所述余弦相似度对应的两个所述待比较语句中相同文字的个数;
在所述相同文字的个数大于两个所述待比较语句中任一的文字个数的一半时,判定两个所述待比较语句一致;否则,判定两个所述待比较语句不一致。
其次提供一种案件经过一致性比对方法,其包括:
从所述待比较司法文书中获取基准文书;
获取待比较司法文书和所述基准文书中的案件经过信息,并将所述案件经过信息拆分为多个语句;
将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
根据所述语句的比对结果,确定所述案件经过信息的一致性。
这样,在需要进行案件经过的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
若所有所述待比较司法文书中均存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在所有所述待比较司法文书保持一致;
若某个所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
可选的,还包括:
从所述待比较司法文书和所述基准文书中的案件经过信息中提取特征名称并进行比对。
再次提供一种量刑情节一致性比对方法,其包括:
从待比较司法文书中获取基准文书,所述待比较司法文书的数量为两个;
获取所述待比较司法文书和所述基准文书中的量刑情节信息,并将所述量刑情节信息拆分为多个语句;
将所述基准文书中的每个语句,分别与所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
根据所述语句的比对结果,确定所述量刑情节信息的一致性。
这样,在需要进行量刑情节的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
若所述待比较司法文书中存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句与所述待比较司法文书保持一致;
若所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
从次提供一种司法文书一致性比对方法,其包括:
获取待比较司法文书;
从所述待比较司法文书中提取嫌疑人信息、案件经过信息、量刑情节信息和判决结果信息;
对所述嫌疑人信息、所述案件经过信息、所述量刑情节信息和所述判决结果信息进行一致性比对;所述案件经过信息的一致性比对根据前述所述的案件经过比对方法进行,所述量刑情节信息的一致性比对根据前述所述的量刑情节比对方法进行;
将所述嫌疑人信息、所述案件经过、所述量刑情节和所述判决结果的一致性比对结果对外进行展示。
这样,在需要进行司法文书的一致性比对时,先获取单个语句的一致性比对,然后待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述待比较司法文书包括起诉书、起诉意见书、刑事判决书和量刑建议书中的至少两种。
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述量刑建议书、所述刑事判决书的量刑情节和判决结果进行一致性比对。
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述起诉书、所述起诉意见书和所述刑事判决书的嫌疑人信息和案件经过信息进行一致性比对。
可选的,所述嫌疑人信息包括以下具体信息中的一个或多个:姓名、性别、身份证号、家庭住址、罪名和适用法律条款。
可选的,所述判决结果信息的一致性比对过程包括:
获取所述量刑建议书和所述刑事判决书的所述判决结果信息;
根据预设的映射规则,将所述量刑建议书的所述判决结果信息转换为数字区间,将所述刑事判决书的所述判决结果信息转换为具体数字;
在所述具体数字落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息一致;
在所述具体数字未落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息不一致。
可选的,所述基准文书为起诉书。
从次提供一种语句一致性比对装置,包括:
语句获取单元,其用于获取待比较语句,并确定所述待比较语句的句向量;
相似度计算单元,其用于根据所述句向量计算两个待比较语句的余弦相似度;
语句比对单元,其用于根据所述余弦相似度确定对应的两个所述待比较语句的一致性。
这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
从次提供一种案件经过一致性比对装置,包括:
基准选取单元,其用于从所述待比较司法文书中获取基准文书;
案件拆分单元,其用于获取待比较司法文书和所述基准文书中的案件经过信息,并将所述案件经过信息拆分为多个语句;
案件比对单元,其用于将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
案件确定单元,其用于根据所述语句的比对结果,确定所述案件经过信息的一致性。
这样,在需要进行案件经过的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
从次提供一种量刑情节一致性比对装置,包括:
基准获取单元,其用于从待比较司法文书中获取基准文书,所述待比较司法文书的数量为两个;
量刑拆分单元,其用于获取所述待比较司法文书和所述基准文书中的量刑情节信息,并将所述量刑情节信息拆分为多个语句;
量刑比对单元,其用于将所述基准文书中的每个语句,分别与所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
量刑确定单元,其用于根据所述语句的比对结果,确定所述量刑情节信息的一致性。
这样,在需要进行量刑情节的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
从次提供一种司法文书一致性比对装置,包括:
文书获取单元,其用于获取待比较司法文书;
文书提取单元,其用于从所述待比较司法文书中提取嫌疑人信息、案件经过信息、量刑情节信息和判决结果信息;
文书比对单元,其用于对所述嫌疑人信息、所述案件经过信息、所述量刑情节信息和所述判决结果信息进行一致性比对;所述案件经过信息的一致性比对根据前述所述的案件经过比对方法进行,所述量刑情节信息的一致性比对根据前述所述的量刑情节比对方法进行;
结果展示单元,其用于将所述嫌疑人信息、所述案件经过、所述量刑情节和所述判决结果的一致性比对结果对外进行展示。
这样,在需要进行司法文书的一致性比对时,先获取单个语句的一致性比对,然后待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
另次提供一种电子设备,包括处理器以及存储器,所述存储器存储有控制程序,所述控制程序被处理器执行时实现如前述所述的语句一致性比对方法,或者实现如前述所述的案件经过一致性比对方法,或者实现如前述所述的量刑情节一致性比对方法,或者实现如前述所述的司法文书一致性比对方法。
这样,在需要进行司法文书的一致性比对时,先获取单个语句的一致性比对,然后待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
最后提供一种计算机可读存储介质,存储有指令,所述指令被处理器加载并执行时实现如前述所述的语句一致性比对方法,或者实现如前述所述的案件经过一致性比对方法,或者实现如前述所述的量刑情节一致性比对方法,或者实现如前述所述的司法文书一致性比对方法。
通过机器自动比对分析公检法三方的司法文书,判断不同文书针对嫌疑人身份信息,案件经过,量刑情节以及判决结果是否一致,减轻司法人员压力,并且使司法程序更加完善和安全;同时通过机器进行处理分析,可以进行大规模处理,大幅提高处理速度且更加客观理性。
附图说明
图1为根据本发明实施例的语句一致性比对方法的流程图;
图2为根据本发明实施例的语句一致性比对方法S10的流程图;
图3为根据本发明实施例的语句一致性比对方法S30的流程图;
图4为根据本发明一实施例的案件经过一致性比对方法的流程图;
图5为起诉意见书、起诉书和刑事判决书中案件经过信息的抽取规则表;
图6为根据本发明一实施例的案件经过一致性比对方法S140的流程图;
图7为根据本发明另一实施例的案件经过一致性比对方法的流程图;
图8为根据本发明实施例的量刑情节一致性比对方法的流程图;
图9为刑事判决书和量刑建议书中量刑情节信息以及量刑建议/判决结果的抽取规则表;
图10为根据本发明实施例的量刑情节一致性比对方法S240的流程图;
图11为根据本发明实施例的司法文书一致性比对方法的流程图;
图12为起诉意见书中嫌疑人基本信息的抽取规则表;
图13为起诉书中嫌疑人基本信息的抽取规则表;
图14为刑事判决书中嫌疑人基本信息的抽取规则表;
图15为根据本发明实施例的司法文书一致性比对中判决结果比对的流程图;
图16为示例中嫌疑人基本信息的比对结果展示图;
图17为示例中司法文书的比对结果展示图;
图18为示例中案件经过的比对结果展示图;
图19为示例中判决结果的比对结果展示图;
图20根据本发明实施例的语句一致性比对装置的示意图;
图21根据本发明一实施例的案件经过一致性比对装置的示意图;
图22根据本发明另一实施例的案件经过一致性比对装置的示意图;
图23根据本发明实施例的量刑情节一致性比对装置的示意图;
图24根据本发明实施例的司法文书一致性比对装置的示意图;
图25为根据本发明实施例的一种电子设备的结构框图;
图26为根据本发明实施例的另一种电子设备的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
显然,所说明的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,在本发明中,需要对其中的技术问题进行详细阐述。
在司法领域,同一个案件由来自公检法三方的四种法律文书记载,判断四种文书针对同一案件的嫌疑人身份信息、案件经过、量刑情节以及判决结果是否一致,是一项及其严肃的工作。在判决过程中,由于各种外界和内在因素的干扰,某一司法文书在一定程度上会出现纰漏或者疏忽,导致文书针对某一关键信息记载的不一致,这种不一致会损害审判法庭的权威和形象。现在社会中,一般都是通过司法人员的手动校对来解决司法文书不一致的问题,但是手动校对会消耗大量的人力和财力。另外校对人员的主观因素或情感因素的影响会导致最终结果难以趋于理想。
由于司法文书记录多为电子文书,其形式为自然语言处理文本;现在可以尝试通过计算机来进行文本的识别和比对。但是针对计算机比对的情况,由于司法文书是由语句组成的,所以司法文书的比对,事实上就是语句的比对。但是现有的情况中,并没有具体的语句比对的方法,如何进行语句的准确比对,尚未有具体的解决方案,而只有解决了语句比对的问题,才能在此基础上完成司法文书的比对工作。
因此,对于本发明而言,需要迫切解决的问题,就是如何进行语句的准确比对。
本公开实施例提供了一种语句一致性比对方法,该方法可以由语句一致性比对装置来执行,该语句一致性比对装置可以集成在手机、笔记本、服务器、摄像机、照相机、PAD等电子设备中。如图1所示,其为根据本发明实施例的语句一致性比对方法的流程图;其中,所述语句一致性比对方法,包括:
S10,获取待比较语句,并确定所述待比较语句的句向量;
其中,所述待比较语句,即为要进行一致性比对的语句。所述待比较语句的数量一般为两个。
其中,所述句向量,即使将不定长的句子用定长的向量表示。
S20,根据所述句向量计算两个待比较语句的余弦相似度;
其中,两个待比较语句的余弦相似度,即为两个待比较语句的句向量之间夹角的余弦值。
对于两个向量而言,两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。
S30,根据所述余弦相似度确定对应的两个所述待比较语句的一致性。
这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
这样,可以实现语句的准确比对,在此基础上,可以完成司法文书的比对工作。
优选的,如图2所示,所述S10,获取待比较语句,并确定所述待比较语句的句向量,包括:
S11,获取待比较语句;
其中,所述待比较语句的获取方式,可以为外部输入的方式,也可以是直接读取预存的待比较语句,也可以是根据预设程序对段落等进行处理得到所述待比较语句。
S12,将所述待比较语句拆分为多个词;
每个语句都是由多个词按照设定的顺序组成的,本步骤中,将组成语句的词拆分出来;其中,拆分过程可以按照预设的拆分规则进行。
需要说明的是,对于待比较语句的拆分,其可以直接将一个字作为一个词来进行拆分,比如“我们爱世界”直接拆分为“我”“们”“爱”“世”“界”五个词,也可以通过语义将具有特定含义的字连接成词语作为一个词进行拆分,比如“我们爱世界”按照含义拆分为“我们”“爱”“世界”三个词。
S13,将所述词转换为对应的词向量;
词是表义的基本单元,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。本步骤中,将拆分出的词转换为向量形式。
优选的,通过预设的Word2vec词向量模型将词转换为词向量。
所述Word2vec词向量模型以词为输入,向量为输出。
其中,所述Word2vec词向量模型内包含sikp-gram模型;所述sikp-gram模型的训练方法为神经网络模型训练方法,具体训练过程在此不再赘述。
其中,sikp-gram模型训练时,目标函数如下:
Figure BDA0003030128890000111
Figure BDA0003030128890000112
其中,Skip-gram模型假定围绕文本序列的单词是基于特定单词生成的。在Skip-gram模型中,每个单词都表示为两个d维向量,这些向量用于条件概率的计算中。该词在字典中的索引为i,它为中心词时向量表示为vi∈Rd,为背景词时向量表示为ui∈Rd。中心词wc在词典中索引为c,背景词wo在词典中索引为o。
其中,所述word2vec词向量模型训练过程中,可以从wiki百科中文语料库以及CAIL2018_ALL_DATA法律相关数据选择数据集。
S14,对所述待比较语句的所有所述词向量加权后相加,得到所述待比较语句的所述句向量。
对于一个待比较语句,其句向量是根据该待比较语句中的所有的词的词向量来确定的。其中,该待比较语句中的每个词向量都具有对应的权重。所有词的词向量与权重的乘积之和,即为该待比较语句的句向量。
例如,“我们爱世界”按照含义拆分为“我们”“爱”“世界”三个词,且其中“我们”“爱”“世界”三个词对应的权重分别为a、b、c;则该待比较语句的句向量,即为a“我们”、b“爱”、c“世界”的向量和。
这样,直接将待比较语句拆分为多个词,通过对待比较语句的词向量确定其句向量,将句向量的获取方式转换为词向量的获取方式,从而大大减少了待比较语句的句向量的获取难度,提高了句向量的准确度。
优选的,所述句向量中的所有所述词向量的权重相同。
待比较语句的句向量由该待比较语句中的词向量及其权重决定,每个词的词向量越准确,则待比较语句的句向量越精确。但是由于词向量的数量较多,影响其权重的因素非常多,且目前尚未发现核心因素,因此词向量的权重确定工作量很大;对于本申请而言,待比较语句的一致性,不仅与待比较语句的句向量精确度有关,也与其判断阈值关系很大,且由于司法文书本身的句式要求较为严谨,因此在具体实践中发现,一致的待比较语句的余弦相似度与不一致的待比较语句的特征有明显差别,因此就放宽了对待比较语句的句向量的精确度。
这样,在不影响待比较语句的一致性判断的情况下,直接将所有词向量的权重认定为相同,可以避免权重确定过程中的繁琐计算量和繁重工作,从而大大减少一致性判断的工作量,极大地提高一致性判断的效率,以及一致性判断对硬件的要求,降低了一致性判断的使用条件。
可选的,如图3所示,所述S30,所述余弦相似度确定所述待比较语句的一致性,包括:
S31,在所述余弦相似度大于第一预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句一致;
S32,在所述余弦相似度小于第二预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句不一致,所述第二预设阈值小于所述第一预设阈值;
S33,在所述余弦相似度小于第一预设阈值且大于第二预设阈值时,获取与所述余弦相似度对应的两个所述待比较语句中相同文字的个数;
其中,对于文字是否相同的比对,可以通过现有的比对方法进行比对;也可以直接选取第一待比较语句中的第一个文字,然后判断第二个待比较语句中是否包含该文字,若包含则确认第一个文字相同,依次遍历第一待比较语句中的所有文字,得到相同文字的个数;也可以根据实际情况选择其他比较方式,只要可以确定相同文字的个数即可。
S34,在所述相同文字的个数大于两个所述待比较语句中任一的文字个数的一半时,判定两个所述待比较语句一致;否则,判定两个所述待比较语句不一致。
其中,所述第一预设阈值的取值和所述第二预设阈值的取值可以根据实际情况确定。
根据所述余弦相似度来确定待比较语句的一致性时,对于余弦相似度特别高的待比较语句,可以确定其是一致的,对于余弦相似度特别低的待比较语句,可以确定其是不一致的,对于余弦相似度在前述两者之间的待比较语句,单独从余弦相似度并不能确定其是否一致,需要引入其他特征来确定。
这样,通过设置第一预设阈值和第二预设阈值,可以直接将可以确定的待比较语句的一致性直接进行确定,简单、快捷、方便;对于无法通过余弦相似度确定一致性的待比较语句,通过引入对待比较语句相同文字的个数这一特征来综合判定,从而获取准确的一致性判断;这样,针对不同情况采取直接判定和引入相同字数特征来综合判定的方式,一方面简单快速地进行了一致性判断,另外一方面提高了一致性判断的准确度。
本公开实施例提供了一种案件经过一致性比对方法,该方法可以由案件经过一致性比对装置来执行,该案件经过一致性比对装置可以集成在手机、笔记本、服务器、摄像机、照相机、PAD等电子设备中。如图4所示,其为根据本发明一实施例的案件经过一致性比对方法的流程图;其中,所述案件经过一致性比对方法,包括:
S110,从待比较司法文书中获取基准文书;
其中,司法文书包括起诉意见书、起诉书、刑事判决书和量刑建议书,但是只有起诉意见书、起诉书和刑事判决书中才记载了案件经过的信息。因此,本步骤中,所述待比较司法文书包括起诉意见书、起诉书和刑事判决书中的至少两种。
选取基准文书,即是将其中一个司法文书作为比对的基础,从而便于后续有序进行比对,避免比对混乱。
优选的,所述基准文书为所述起诉书。这样,由于起诉书是三种司法文书中案件经过记载篇幅最长的,因此,以其为基准,只需要将基准文书分别与其他两种司法文书进行比对,无需额外比对其他两种司法文书的不一致即可确定三种司法文书案件经过的不一致,简单方便。
S120,获取所述待比较司法文书和所述基准文书中的案件经过信息,并将所述案件经过信息拆分为多个语句;
其中,所述待比较司法文书和所述基准文书中的案件经过信息可以是从存储装置或其他部分直接读取,也可以是从所述待比较司法文书和所述基准文书中进行提取。
其中,所述提取方法为利用规则匹配的以及关键词提取的方法抽取所需信息,将非结构化数据构造成结构化数据,具体为根据所述待比较司法文书和所述基准文书的具体文书类型,根据预设的关键词来提取对应的案件经过内容。
在此,需要说明的是,对于起诉意见书、起诉书和刑事判决书均记载了案件经过信息,由于司法文书本身的严谨性,所以起诉意见书、起诉书和刑事判决书中的案件经过信息部分前序和/或后序会有较为统一的文字,可以将这些文字作为提取的关键词,从而提取案件经过信息。
如图5所示,其为起诉意见书、起诉书和刑事判决书中案件经过信息的抽取规则表,基于该规则可以从起诉意见书、起诉书和刑事判决书获取对应的案件经过信息。
其中,所述案件经过信息的拆分,可以根据标点符号,也可以根据字数等其他方式来进行。
S130,将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
其中,语句的一致性比对方法,与S10-S40中记载的方法一致,其中,S10-S40的执行过程,以及可选的更优措施,按照上述实施例的记载执行即可,在此不再赘述。
其中,将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,对其具体过程,以基准文书和一个待比较司法文书为例进行说明:
选取基准文书中案件经过的第一个语句,计算该语句与一个待比较司法文书中的案件经过的所有语句的一致性:若只与所述待比较司法文书中的案件经过的其中一个语句是一致的,则认定该第一个语句与所述待比较司法文书的该语句一致;若与所述待比较司法文书中的案件经过的所有语句均不一致,则认定该第一个语句并未记载在所述待比较司法文书中(该待比较司法文书缺少基准文书的该第一个语句);若与所述待比较司法文书中的案件经过的其中多个语句是一致的,则比较基准文书的该第一个语句与所述待比较司法文书的该多个语句的余弦相似度,保留余弦相似度最高的所述待比较司法文书的该语句,认定该第一个语句与所述待比较司法文书的该语句一致。这样,依次对基准文书中案件经过的所有语句进行一致性的比对,从而确定基准文书与该待比较司法文书的一致性(各个语句的一致性结论的汇总或者进一步的总结)。
可选的,上述以基准文书和一个待比较司法文书为例进行说明的具体过程中,在对基准文书中案件经过的第一个语句,计算该语句与一个待比较司法文书中的案件经过的所有语句的一致性时,也可以先计算基准文书的该第一个语句与待比较司法文书中的所有语句的余弦相似度,选择余弦相似度最高的一个语句,通过余弦相似度来判断其一致性,这样,可以省略掉无效(余弦相似度不是最高的语句,只需要计算余弦相似度,不需要进行一致性比对)的一致性比对的部分过程,增加比对速度。
在上述进行了基准文书与待比较司法文书中的一个的比较后,可以按照类似的过程进行基准文书与其他待比较司法文书的一致性比对。
需要说明的是,案件经过中的多个语句,可以是按照书写顺序来排序,也可以是按照拆分顺序来排序,也可以是拆分后按照字数、长短或者首字母进行排序,具体排序方式以实际需求来确定。
需要说明的是,本步骤中,所述基准文书中的每个语句,是指所述基准文书中案件经过信息拆分出的每个语句,而不是基准文书中的所有语句;同样的,所有所述待比较司法文书中的所有语句,是指所有所述待比较司法文书中案件经过信息拆分出的每个语句,而不是所述待比较司法文书中的所有语句。
需要说明的是,所述基准文书是从所述待比较司法文书中选取的,本申请中,基准文书也是待比较司法文书的一个,也即是说,本步骤中的所有所述待比较司法文书,也是包括基准文书在内的;事实上,由于待比较司法文书中的基准文书和基准文书进行比较,相同的文书比较结果是没有意义的,所以本步骤中在具体进行比较时,可以不对其进行比较,也即是,将除基准文书以外的所有所述待比较司法文书与基准文书进行比较。
S140,根据所述语句的比对结果,确定所述案件经过信息的一致性。
在根据上述步骤获取了基准文书案件经过的每个语句与待比较司法文书案件经过的每个语句的一致性比对结果后,将该结果汇总,就可以确定案件经过信息的一致性。
本步骤中,案件经过信息的一致性,可以是对语句的比对结果的罗列,也可以是在汇总语句的比对结果后,根据判断条件如语句一致性的占据比例、语句一致性的大小排序等来确定基准文书与待比较司法文书的一致性结果。具体可以根据实际需要进行适当选择。
这样,在需要进行案件经过的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,如图6所示,所述S140,根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
S141,若所有所述待比较司法文书中均存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在所有所述待比较司法文书保持一致;
本步骤中,判断某个待比较司法文书案件经过信息中存在语句与基准文书中的某个语句一致的具体方法,已在前述进行了详细描述,在此不再赘述。
S142,若某个所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
选择基准文书中案件经过中的一个语句以及一个待比较司法文书,判断该语句与该待比较司法文书中案件经过的所有语句的一致性,若与该待比较司法文书中案件经过的某个语句一致,则认定所述基准文书的该语句在该待比较司法文书中被提及/与该待比较司法文书一致(仅仅是说法的改变,所代表的含义是相同的);若该待比较司法文书中案件经过的所有语句均与所述基准文书的该语句不一致,则认定所述基准文书的该语句在该待比较司法文书中未提及/与该待比较司法文书不一致。
上述两个步骤中,对于待比较司法文书而言,若均一致,则直接判定基准文书的该语句均保持一致;若待比较司法文书并非全部一致,则直接判定基准文书的该语句在不一致的待比较司法文书中未提及。由于是司法文书的一致性比对,因此若基准文书中的该语句与所有的待比较司法文书均一致,则直接给出均一致的结论,即可清楚表述;若并非全部一致,则只需要确定基准文书的该语句在哪些待比较司法文书中未提及即可,这样司法人员即可清楚理解其具体含义,而无需再列出基准文书的该语句在哪些待比较司法文书中被提及;需要说明的是,对于全部都不一致的情况,也包含在对基准文书的该语句在哪些待比较司法文书中未提及的判定里面,在此无需单独进行列出。若实际判定过程中,需要增加均不一致的判定结果,以及基准文书的该语句在哪些待比较司法文书中被提及的结果,也可以在本申请的基础上根据实际情况进行添加,该添加并未超出该部分的保护范围。
这样,只需要给出所述基准文书的该语句的均一致结果和未提及结果,即可使得使用者或者司法人员可以清晰理解基准文书中的语句判定结果,从而进行合理的司法判断和司法解读,简单方便快捷。
可选的,如图7所示,还包括:
S150,从所述待比较司法文书和所述基准文书中的案件经过信息中提取特征名称并进行比对。
案件经过信息中的每个语句都可能包含了人物名称、地点名称、机构名称等核心内容,基准文书中的某个语句与待比较司法文书中的语句一致,并不等同于语句中的人物名称、地点名称、机构名称等核心内容也保持一致;另外,案件经过信息中的人物名称、地点名称、机构名称等核心内容,一般在多个语句中会重复提及,每个语句均单独进行判断,会增加很多重复性的判断,增加极大量的工作量。因此,直接以案件经过信息为整体进行特征名称的提取和比对,一方面可以对核心内容进行比对,增加比对的准确度;另一方面可以节约分句比对的工作量,大大增加比对速度。
需要说明的是,特征名称的具体比对方法,是本领域的常用方法,在此不再赘述。
可选的,所述特征名称包括人物名称、地点名称、和机构名称中的至少一种。
其中,所述特征名称,通过BERT-BiLSTM-CRF神经网络模型提取得到。所述BERT-BiLSTM-CRF神经网络模型模型根据输入文本输出文本中所含的人名,地名和机构名。
可选的,BERT-BiLSTM-CRF模型包括输入嵌入层、特征抽取层以及解码输出层。
可选的,BERT-BiLSTM-CRF模型使用BERT预训练模型作为输入嵌入层。它能同时利用前面的词和后面的词两部分信息。预训练方法是该模型的主要创新点所在,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。BERT产生的embedding要比其他模型产生的embedding表现更优。
可选的,BERT-BiLSTM-CRF模型使用BiLSTM网络作为特征抽取层。LSTM是RNN的一种,由于其设计特性,LSTM非常适合于对时间序列数据(例如文本数据)进行建模。BiLSTM是前LSTM和后LSTM的组合。二者通常都用于自然语言处理任务中,以对上下文进行建模信息。
可选的,BERT-BiLSTM-CRF模型使用CRF最为最后的解码输出层,可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,约束可以通过CRF层自动学习。CRF中有转移特征,即它会考虑输出标签之间的顺序性。
其中,所述BERT-BiLSTM-CRF模型的训练过程中,读取的数据为训练语料,所述训练语料可以为人民日报语料。
本公开实施例提供了一种量刑情节一致性比对方法,该方法可以由量刑情节一致性比对装置来执行,该量刑情节一致性比对装置可以集成在手机、笔记本、服务器、摄像机、照相机、PAD等电子设备中。如图8所示,其为根据本发明实施例的量刑情节一致性比对方法的流程图;其中,所述量刑情节一致性比对方法,包括:
S210,从待比较司法文书中获取基准文书,所述待比较司法文书的数量为两个;
其中,司法文书包括起诉意见书、起诉书、刑事判决书和量刑建议书,但是只有刑事判决书和量刑建议书中才记载了量刑情节的信息。因此,本步骤中,所述待比较司法文书包括刑事判决书和量刑建议书。
选取基准文书,即是将其中一个司法文书作为比对的基础,从而便于有序进行比对,避免比对混乱。
需要说明的是,本步骤中的待比较司法文书只有两种,因此选择哪一个作为基准文书,对具体比对过程并无太大区别,在此可以随机进行选择;若司法文书中存在其他限制因素,可以根据实际需求来确定基准文书。
S220,获取所述待比较司法文书和所述基准文书中的量刑情节信息,并将所述量刑情节信息拆分为多个语句;
其中,所述待比较司法文书和所述基准文书中的量刑情节信息可以是从存储装置或其他部分直接读取,也可以是从所述待比较司法文书和所述基准文书中进行提取。
其中,所述提取方法为利用规则匹配的以及关键词提取的方法抽取所需信息,将非结构化数据构造成结构化数据,具体为根据所述待比较司法文书和所述基准文书的具体文书类型,根据预设的关键词来提取对应的量刑情节内容。
在此,需要说明的是,对于刑事判决书和量刑建议书均记载了量刑情节信息,由于司法文书本身的严谨性,所以刑事判决书和量刑建议书中的量刑情节信息部分前序和/或后序会有较为统一的文字,可以将这些文字作为提取的关键词,从而提取量刑情节信息。
如图9所示,其为刑事判决书和量刑建议书中量刑情节信息(以及量刑建议/判决结果)的抽取规则表,基于该规则可以从刑事判决书和量刑建议书获取对应的量刑情节信息。
其中,所述量刑情节信息的拆分,可以根据标点符号,也可以根据字数等其他方式来进行。
S230,将所述基准文书中的每个语句,分别与所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
其中,具体比对过程,与本申请S130中的比对过程类似,其中,S130的执行过程,以及可选的更优措施,按照上述实施例的记载执行即可,在此不再进行了赘述。
需要说明的是,量刑情节中的多个语句,可以是按照书写顺序来排序,也可以是按照拆分顺序来排序,也可以是拆分后按照字数、长短或者首字母进行排序,具体排序方式以实际需求来确定。
需要说明的是,本步骤中,所述基准文书中的每个语句,是指所述基准文书中量刑情节信息拆分出的每个语句,而不是基准文书中的所有语句;同样的,所有所述待比较司法文书中的所有语句,是指所有所述待比较司法文书中量刑情节信息拆分出的每个语句,而不是所述待比较司法文书中的所有语句。
需要说明的是,所述基准文书是从所述待比较司法文书中选取的,本申请中,基准文书也是待比较司法文书的一个,也即是说,本步骤中的所有所述待比较司法文书,也是包括基准文书在内的;事实上,由于待比较司法文书中的基准文书和基准文书进行比较,相同的文书比较结果是没有意义的,所以本步骤中在具体进行比较时,可以不对其进行比较,也即是,将除基准文书以外的所有所述待比较司法文书与基准文书进行比较。
S240,根据所述语句的比对结果,确定所述量刑情节信息的一致性。
在根据上述步骤获取了基准文书量刑情节的每个语句与待比较司法文书量刑情节的每个语句的一致性比对结果后,将该结果汇总,就可以确定案件经过信息的一致性。
本步骤中,量刑情节信息的一致性,可以是对语句的比对结果的罗列,也可以是在汇总语句的比对结果后,根据判断条件如语句一致性的占据比例、语句一致性的大小排序等来确定基准文书与待比较司法文书的一致性结果。具体可以根据实际需要进行适当选择。
这样,在需要进行量刑情节的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,如图10所示,所述S240,根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
S241,若所述待比较司法文书中存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句与所述待比较司法文书保持一致;
本步骤中,判断待比较司法文书量刑情节信息中存在语句与基准文书中的某个语句一致的具体方法,已在前述进行了详细描述,在此不再赘述。
S242,若所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
选择基准文书中量刑情节中的一个语句,判断该语句与该待比较司法文书中量刑情节的所有语句的一致性,若所述待比较司法文书中存在语句与所述基准文书中的某个语句一致,则认定所述基准文书的该语句在该待比较司法文书中被提及/与该待比较司法文书一致(仅仅是说法的改变,所代表的含义是相同的);若所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则认定所述基准文书的该语句在该待比较司法文书中未提及/与该待比较司法文书不一致。
这样,直接给出所述基准文书的语句的一致结果和未提及结果,即可使得使用者或者司法人员可以清晰理解基准文书中的语句判定结果,从而进行合理的司法判断和司法解读,简单方便快捷。
本公开实施例提供了一种司法文书一致性比对方法,该方法可以由司法文书一致性比对装置来执行,该司法文书一致性比对装置可以集成在手机、笔记本、服务器、摄像机、照相机、PAD等电子设备中。如图11所示,其为根据本发明实施例的司法文书一致性比对方法的流程图;其中,所述司法文书一致性比对方法,包括:
S100,获取待比较司法文书;
其中,司法文书包括起诉意见书、起诉书、刑事判决书和量刑建议书。
可选的,所述待比较司法文书包括起诉书、起诉意见书、刑事判决书和量刑建议书中的至少两种。
S200,从所述待比较司法文书中提取嫌疑人信息、案件经过信息、量刑情节信息和判决结果信息;
其中,案件经过信息、量刑情节信息和判决结果信息的提取已在前述进行说明,在此不再赘述。
其中,所述提取方法为利用规则匹配的以及关键词提取的方法抽取所需信息,将非结构化数据构造成结构化数据,具体为根据所述待比较司法文书和所述基准文书的具体文书类型,根据预设的关键词来提取对应的案件经过内容。
在此,需要说明的是,对于起诉意见书、起诉书和刑事判决书均记载了嫌疑人信息,由于司法文书本身的严谨性,所以起诉意见书、起诉书和刑事判决书中的嫌疑人信息部分前序和/或后序会有较为统一的文字,可以将这些文字作为提取的关键词,从而提取案件经过信息。
如图12、13、14所示,其分别为起诉意见书、起诉书和刑事判决书中嫌疑人基本信息的抽取规则表,基于该规则可以从起诉意见书、起诉书和刑事判决书获取对应的嫌疑人基本信息。
S300,对所述嫌疑人信息、所述案件经过信息、所述量刑情节信息和所述判决结果信息进行一致性比对;所述案件经过信息的一致性比对根据前述所述的案件经过比对方法进行,所述量刑情节信息的一致性比对根据前述所述的量刑情节比对方法进行;
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述量刑建议书、所述刑事判决书的量刑情节和判决结果进行一致性比对。
其中,司法文书中只有刑事判决书和量刑建议书中才记载了量刑情节和判决结果的信息。因此,量刑情节和判决结果比对中,所述待比较司法文书包括刑事判决书和量刑建议书。
其中,量刑情节信息的一致性比对方法,与S110-S150中记载的方法一致,其中,S110-S150的执行过程,以及可选的更优措施,按照上述实施例的记载执行即可,在此不再赘述。
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述起诉书、所述起诉意见书和所述刑事判决书的嫌疑人信息和案件经过信息进行一致性比对。
其中,司法文书中只有起诉意见书、起诉书和刑事判决书中才记载了案件经过的信息。因此,案件经过信息比对中,所述待比较司法文书包括起诉意见书、起诉书和刑事判决书。
其中,案件经过信息的一致性比对方法,与S210-S240中记载的方法一致,其中,S210-S240的执行过程,以及可选的更优措施,按照上述实施例的记载执行即可,在此不再赘述。
S400,将所述嫌疑人信息、所述案件经过、所述量刑情节和所述判决结果的一致性比对结果对外进行展示。
这样,在需要进行司法文书的一致性比对时,先获取单个语句的一致性比对,然后待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述嫌疑人信息包括以下具体信息中的一个或多个:姓名、性别、身份证号、家庭住址、罪名和适用法律条款。
如图12、13、14所示,其分别为起诉意见书、起诉书和刑事判决书中嫌疑人基本信息的抽取规则表,基于该规则可以从起诉意见书、起诉书和刑事判决书获取对应的嫌疑人基本信息。
这样,可以对嫌疑人信息进行直接比对,从而无需通过校对人员,节约了大量的人力和财力;且比对过程简单方便,便于实现。
可选的,如图15所示,所述S300中,所述判决结果信息的一致性比对过程包括:
S311,获取所述量刑建议书和所述刑事判决书的所述判决结果信息;
其中,所述量刑建议书和所述刑事判决书的所述判决结果信息可以是从存储装置或其他部分直接读取,也可以是从所述量刑建议书和所述刑事判决书中进行提取。
其中,所述提取方法为利用规则匹配的以及关键词提取的方法抽取所需信息,将非结构化数据构造成结构化数据,具体为根据所述待比较司法文书和所述基准文书的具体文书类型,根据预设的关键词来提取对应的判决结果内容。
在此,需要说明的是,对于刑事判决书和量刑建议书均记载了判决结果信息(在量刑建议书中表现为量刑建议),由于司法文书本身的严谨性,所以刑事判决书和量刑建议书中的判决结果信息部分前序和/或后序会有较为统一的文字,可以将这些文字作为提取的关键词,从而提取判决结果信息。
如图9所示,其为刑事判决书和量刑建议书中量刑建议/判决结果的抽取规则表,基于该规则可以从刑事判决书和量刑建议书获取对应的判决结果信息。
S312,根据预设的映射规则,将所述量刑建议书的所述判决结果信息转换为数字区间,将所述刑事判决书的所述判决结果信息转换为具体数字;
其中,预设的映射规则可以根据实际情况预先设定,根据此映射规则,可以完成年月日的自动换算,以及通过以上、至、以下这些关键词形成区间表示。
其中,借助预设的映射规则将刑事判决书判处有期徒刑时间转化为计算机可以识别的具体有效形式(数字),将量刑建议转化为区间表示,如某被告人被判处“一年以上二年以下”表示为[1.0,2.0]。
S313,在所述具体数字落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息一致;
S314,在所述具体数字未落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息不一致。
这样,通过转化为计算机可以识别的有效形式,可以直接通过计算机对具体数字和数字区间的关系进行判断,从而确定判决结果信息是否一致,简单方便,且通过计算机实现无需通过校对人员,节约了大量的人力和财力。
为了便于对本申请中语句、案件经过、量刑情节、司法文书一致性比对方法进行理解,在此举例进行说明:
该举例中包括四种司法文书,四种司法文书的具体内容如下:
起诉意见书:
X公(盛)刑诉字〔2XX5〕1XX1号
犯罪嫌疑人王XX,男,汉族,1XX7年XX月01日生,小学文化,身份证号码:5XXX261XX7080XX417,户籍地:XX省XX县XX镇XX村。犯罪嫌疑人王XX因盗窃罪于2XX3年6月6日被XX省XX市人民法院判处拘役六个月,因涉嫌盗窃罪于2015年3月9日被我局取保候审,现取保候审于XX市XX区XX镇。犯罪嫌疑人王XX涉嫌盗窃一案,由黄XX报案至我局,我局经审查,于2015年2月28日立案侦查,犯罪嫌疑人王XX已于2015年3月8日被抓获归案,后被取保候审。犯罪嫌疑人王XX涉嫌盗窃一案,现已侦查终结。经依法侦查查明:2015年2月27日下午,犯罪嫌疑人王XX在XX市XX区XX镇南XX村XX号处附近,采用尾随、顺手牵羊的方式,窃得黄XX摩托车后备箱内现金人民币1100余元、购物卡等物。认定上述犯罪事实的证据如下:书证、证人证言、犯罪嫌疑人的供述和辩解、辨认笔录、搜查笔录、视听资料、户籍资料等。上述犯罪事实清楚,证据确实、充分,足以认定。综上所述,犯罪嫌疑人王XX的行为已触犯《中华人民共和国刑法》第二百六十四条之规定,涉嫌盗窃罪,根据《中华人民共和国刑事诉讼法》第一百六十条之规定,特将此案移送审查起诉。
此致
XX市XX区人民检察院
XX市XX区公安局
二XX八年六月XX日
XX省XX市XX区人民检察院
起诉书:
XX检刑二刑诉〔2XX5〕2X0号
被告人王XX(曾用名王X),男,1XX7年X月1日生,身份证号码5XXX261XX7080XX417,汉族,小学文化,无业,住XX省XX县XX镇XX村。被告人王XX曾因犯盗窃罪,于2013年6月6日被XX省XX市人民法院判处拘役六个月,2013年8月20日释放。被告人王XX因涉嫌盗窃罪,于2015年3月9日被XX市XX区公安局取保候审。
本案由XX市XX区公安局侦查终结,以被告人王XX涉嫌盗窃罪,于2015年6月28日向本院移送审查起诉。本院受理后,于2015年6月29日已告知被告人王XX有权委托辩护人,于2015年6月29日已告知被害人黄XX有权委托诉讼代理人,依法讯问了被告人王XX,听取了被害人的意见,审查了全部案件材料。
经依法审查查明:
2015年2月27日15时许,被告人王XX至XX市XX区XX村72号附近路边,趁无人之际,采用强行拉开后备箱的手段,窃得被害人黄XX放置于摩托车后备箱中的钱包1只,内有现金人民币1100余元及购物卡等物。
被告人王XX于2015年3月8日向XX市XX区公安局XX公安分局投案,并如实供述了自己的犯罪事实。
认定上述事实的证据如下:
1.书证:刑事判决书等;
2.证人李XX、黄XX的证言;
3.被害人黄XX的陈述;
4.被告人王XX的供述和辩解;
5.XX市XX区公安局制作的辨认笔录及照片;
本院认为,被告人王XX以非法占有为目的,秘密窃取他人财物,数额较大,其行为触犯了《中华人民共和国刑法》第二百六十四条的规定,犯罪事实清楚,证据确实充分,应当以盗窃罪追究其刑事责任。被告人王XX犯罪以后自动投案,如实供述自己的罪行,根据《中华人民共和国刑法》第六十七条第一款的规定,系自首,可以从轻或者减轻处罚。根据《中华人民共和国刑事诉讼法》第一百七十二条的规定,提起公诉,请依法判处。
此致
XX省XX市XX区人民法院
检察员:王XX
2XX5年X月12日
量刑建议书:
XX检刑二量建〔2XX5〕219号
被告人王XX涉嫌盗窃罪一案,经本院审查认为,被告人王XX的行为已触犯《中华人民共和国刑法》第二百六十四条之规定,犯罪事实清楚,证据确实充分,应当以盗窃罪追究其刑事责任,其法定刑为三年以下有期徒刑、拘役或者管制,并处罚金。
因其具有以下量刑情节:
1.法定从轻、减轻处罚情节:自首;
2.酌定从重处罚情节:盗窃前科
3.其他:未退赔。
故根据《中华人民共和国刑法》第二百六十四条、第六十七条第一款、第五十二条、第五十三条、第六十四条的规定,建议判处被告人王XX拘役二个月以上,三个月以下,并处罚金。
此致
XX省XX市XX区人民法院
检察员:王XX
2015年7月12日
刑事判决书:
(2XX5)X0XX9刑初1XX6号
公诉机关XX市XX区人民检察院。
被告人王XX(曾用名王X),男,1XX7年X月1日生,居民身份证号码5XXX261XX7080XX417,汉族,小学文化,无业,住XX省XX县XX镇XX村。被告人王XX曾因犯盗窃罪,于2013年6月6日被XX省XX市人民法院判处拘役六个月,并处罚金人民币一千元,2013年8月20日释放。现因涉嫌犯盗窃罪,于2XX5年3月9日被取保候审(3月8日被传唤)。
XX市XX区人民检察院以XX检刑二刑诉〔2XX5〕220号起诉书指控被告人王XX犯盗窃罪,于2015年7月13日向本院提起公诉。本院于同年7月18日立案,并依法适用简易程序,实行独任审判,公开开庭审理了本案。XX市XX区人民检察院指派检察员王XX出庭支持公诉,被告人王XX到庭参加诉讼。现已审理终结。
XX市XX区人民检察院指控:2015年2月27日15时许,被告人王XX至XX市XX区XX镇XX社区XX号附近路边,趁无人之际,采用强行拉开后备箱的手段,窃得被害人黄XX放置于摩托车后备箱中的钱包1只,内有现金人民币1100余元及购物卡等物。
被告人王XX于2015年3月8日向XX市XX区公安局XX公安分局投案,并如实供述了自己的犯罪事实。
为证实上述指控的犯罪事实,公诉机关提供了相应的证据,并据此认为:被告人王XX以非法占有为目的,秘密窃取他人财物,数额较大,应当以盗窃罪追究其刑事责任。被告人王XX系自首。请依法判处。
上述事实,被告人王XX在开庭审理过程中亦无异议,且有人口信息、发破案经过、刑事判决书、出所登记表、证人黄XX、李XX的证言、被害人黄XX的陈述、辨认笔录、搜查笔录、照片等证据证实,足以认定。
本院认为,被告人王XX以非法占有为目的,秘密窃取他人财物,数额较大,其行为已构成盗窃罪,依法应予以惩处。被告人王XX犯罪以后自动投案,如实供述自己的罪行,系自首,依法予以从轻处罚。据此,依照《中华人民共和国刑法》第二百六十四条、第六十七条第一款、第六十四条的规定,判决如下:
一、被告人王XX犯盗窃罪,判处拘役二个月十五天(刑期自判决执行之日起计算),并处罚金人民币一千元(罚金自判决生效之日起五日内缴纳)。
二、责令被告人王XX退赔被害人黄XX人民币一千一百元。
如不服本判决,可在接到本判决书的第二日起十日内,通过本院或者直接向XX省XX市中级人民法院提出上诉。书面上诉的,应提交上诉状正本一份,副本二份。
代理审判员XXX
二XX八年七月XX日
书记员XX成
XX省XX市XX区人民检察院
在上述四个司法文书的基础上,提取关键信息,包括嫌疑人基本信息,案件经过,量刑情节,量刑建议与判决结果,嫌疑人基本信息包括年龄、性别、身份证号码、住址、罪名以及适用法律,结果如图16所示。
比对起诉意见书,起诉书,刑事判决书对于嫌疑人身份信息记录是否一致,比对分析发现起诉书与刑事判决书对于嫌疑人家庭住址以及实用法律条款记录不一致。起诉书中嫌疑人家庭住址为“xx省xx县xx镇路嘴村羊叉路组”,而刑事判决书对嫌疑人家庭住址记录为“xx省xx县xx镇xx村羊叉路组”。结果如图17所示。
案件经过的比对分析中,对于“趁无人之际”和“并如实供述自己的犯罪事实”这两句话,起诉意见书缺少,而其余二书一致,结果如图17所示。同时分别将三书中三段不同的案件经过中的实体识别出来并进行横向对比,结果如图18所示。
量刑情节的比对分析中,对于量刑建议书中关于嫌疑人具有“盗窃前科”以及“为赔偿”的记录,刑事判决书中并未提及,结果如图17所示。
判决结果的比对分析中,量刑建议书建议判处嫌疑人二个月以上三个月以下,在刑事判决书中判决结果为判处嫌疑人拘役二个月十五天,符合量刑建议书中的建议,结果如图19所示。
本公开实施例提供了一种语句一致性比对装置,用于执行本发明上述内容所述的语句一致性比对方法,以下对所述语句一致性比对装置进行详细描述。
如图20所示,一种语句一致性比对装置,包括:
语句获取单元5,其用于获取待比较语句,并确定所述待比较语句的句向量;
相似度计算单元6,其用于根据所述句向量计算两个待比较语句的余弦相似度;
语句比对单元7,其用于根据所述余弦相似度确定对应的两个所述待比较语句的一致性。
这样,在需要进行待比较语句的一致性比对时,先获取待比较语句的句向量,然后获取句向量的余弦相似度,从而确定两个待比较语句的一致性。这样,可以直接对语句的一致性进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述语句获取单元5还用于:获取待比较语句;将所述待比较语句拆分为多个词;将所述词转换为对应的词向量;对所述待比较语句的所有所述词向量加权后相加,得到所述待比较语句的所述句向量。
可选的,所述语句比对单元7还用于:在所述余弦相似度大于第一预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句一致;在所述余弦相似度小于第二预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句不一致,所述第二预设阈值小于所述第一预设阈值;在所述余弦相似度小于第一预设阈值且大于第二预设阈值时,获取与所述余弦相似度对应的两个所述待比较语句中相同文字的个数;在所述相同文字的个数大于两个所述待比较语句中任一的文字个数的一半时,判定两个所述待比较语句一致;否则,判定两个所述待比较语句不一致。
本公开实施例提供了一种案件经过一致性比对装置,用于执行本发明上述内容所述的案件经过一致性比对方法,以下对所述案件经过一致性比对装置进行详细描述。
如图21所示,一种案件经过一致性比对装置,包括:
基准选取单元35,其用于从所述待比较司法文书中获取基准文书;
案件拆分单元36,其用于获取待比较司法文书和所述基准文书中的案件经过信息,并将所述案件经过信息拆分为多个语句;
案件比对单元37,其用于将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
案件确定单元38,其用于根据所述语句的比对结果,确定所述案件经过信息的一致性。
这样,在需要进行案件经过的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述案件确定单元38还用于:若所有所述待比较司法文书中均存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在所有所述待比较司法文书保持一致;若某个所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
可选的,如图22所示,所述案件经过一致性比对装置还包括:
特征比对单元39,其用于从所述待比较司法文书和所述基准文书中的案件经过信息中提取特征名称并进行比对。
因此,直接以案件经过信息为整体进行特征名称的提取和比对,一方面可以对核心内容进行比对,增加比对的准确度;另一方面可以节约分句比对的工作量,大大增加比对速度。
本公开实施例提供了一种量刑情节一致性比对装置,用于执行本发明上述内容所述的量刑情节一致性比对方法,以下对所述量刑情节一致性比对装置进行详细描述。
如图23所示,一种量刑情节一致性比对装置,包括:
基准获取单元43,其用于从待比较司法文书中获取基准文书,所述待比较司法文书的数量为两个;
量刑拆分单元44,其用于获取所述待比较司法文书和所述基准文书中的量刑情节信息,并将所述量刑情节信息拆分为多个语句;
量刑比对单元45,其用于将所述基准文书中的每个语句,分别与所述待比较司法文书中的所有语句进行比对,所述语句的比对根据前述所述语句一致性比对方法进行;
量刑确定单元46,其用于根据所述语句的比对结果,确定所述量刑情节信息的一致性。
这样,在需要进行量刑情节的一致性比对时,先获取单个语句的一致性比对,然后通过遍历的方式获取基准文书与待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述量刑确定单元46还用于:若所述待比较司法文书中存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句与所述待比较司法文书保持一致;若所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
本公开实施例提供了一种司法文书一致性比对装置,用于执行本发明上述内容所述的司法文书一致性比对方法,以下对所述司法文书一致性比对装置进行详细描述。
如图24所示,一种司法文书一致性比对装置,包括:
文书获取单元1,其用于获取待比较司法文书;
文书提取单元2,其用于从所述待比较司法文书中提取嫌疑人信息、案件经过信息、量刑情节信息和判决结果信息;
文书比对单元3,其用于对所述嫌疑人信息、所述案件经过信息、所述量刑情节信息和所述判决结果信息进行一致性比对;所述案件经过信息的一致性比对根据前述所述的案件经过比对方法进行,所述量刑情节信息的一致性比对根据前述所述的量刑情节比对方法进行;
结果展示单元4,其用于将所述嫌疑人信息、所述案件经过、所述量刑情节和所述判决结果的一致性比对结果对外进行展示。
这样,在需要进行司法文书的一致性比对时,先获取单个语句的一致性比对,然后待比较司法文书的比对结果,从而进行准确比对;且比对过程简单方便,便于计算机实现;这样无需通过校对人员,节约了大量的人力和财力。
可选的,所述待比较司法文书包括起诉书、起诉意见书、刑事判决书和量刑建议书中的至少两种。
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述量刑建议书、所述刑事判决书的量刑情节和判决结果进行一致性比对。
可选的,所述根据所述待比较信息对所述待比较司法文书中的嫌疑人信息、案件经过、量刑情节和判决结果进行一致性比对中,对所述起诉书、所述起诉意见书和所述刑事判决书的嫌疑人信息和案件经过信息进行一致性比对。
可选的,所述嫌疑人信息包括以下具体信息中的一个或多个:姓名、性别、身份证号、家庭住址、罪名和适用法律条款。
可选的,所述文书比对单元3还用于:获取所述量刑建议书和所述刑事判决书的所述判决结果信息;根据预设的映射规则,将所述量刑建议书的所述判决结果信息转换为数字区间,将所述刑事判决书的所述判决结果信息转换为具体数字;在所述具体数字落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息一致;在所述具体数字未落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息不一致。
可选的,所述基准文书为起诉书。
通过机器自动比对分析公检法三方的司法文书,判断不同文书针对嫌疑人身份信息,案件经过,量刑情节以及判决结果是否一致,减轻司法人员压力,并且使司法程序更加完善和安全;同时通过机器进行处理分析,可以进行大规模处理,大幅提高处理速度且更加客观理性。
需要说明的是,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上描述了一致性比对装置的内部功能和结构,如图25所示,实际中,该一致性比对装置可实现为电子设备,包括:处理器以及存储器,所述存储器存储有控制程序,所述控制程序被处理器执行时实现如前述所述的语句一致性比对方法,或者实现如前述所述的案件经过一致性比对方法,或者实现如前述所述的量刑情节一致性比对方法,或者实现如前述所述的司法文书一致性比对方法。
通过机器自动比对分析公检法三方的司法文书,判断不同文书针对嫌疑人身份信息,案件经过,量刑情节以及判决结果是否一致,减轻司法人员压力,并且使司法程序更加完善和安全;同时通过机器进行处理分析,可以进行大规模处理,大幅提高处理速度且更加客观理性。
图26是根据本发明实施例示出的另一种电子设备的框图。图26显示的电子设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图26所示,电子设备12可以通用电子设备的形式实现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性的计算机可读存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图中未显示,通常称为“硬盘驱动器”)。尽管图26中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它电子设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图26所示,网络适配器20通过总线18与电子设备12的其它模块通信。要说明的是,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现如前述所述的语句一致性比对方法,或者实现如前述所述的案件经过一致性比对方法,或者实现如前述所述的量刑情节一致性比对方法,或者实现如前述所述的司法文书一致性比对方法。
本发明的电子设备可以是服务器,也可以有限算力的终端设备。所述终端设备的基体实现包括但不限于:智能移动通信终端、无人机、机器人、便携式图像处理设备、安防设备等等。本公开实施例提供了一种计算机可读存储介质,存储有指令,所述指令被处理器加载并执行时实现如前述所述的语句一致性比对方法,或者实现如前述所述的案件经过一致性比对方法,或者实现如前述所述的量刑情节一致性比对方法,或者实现如前述所述的司法文书一致性比对方法。
通过机器自动比对分析公检法三方的司法文书,判断不同文书针对嫌疑人身份信息,案件经过,量刑情节以及判决结果是否一致,减轻司法人员压力,并且使司法程序更加完善和安全;同时通过机器进行处理分析,可以进行大规模处理,大幅提高处理速度且更加客观理性。
本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本发明实施例所述方法的全部或部分步骤S。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (12)

1.一种语句一致性比对方法,其特征在于,包括:
S10,获取待比较语句,并确定所述待比较语句的句向量;
S20,根据所述句向量计算两个待比较语句的余弦相似度;
S30,根据所述余弦相似度确定对应的两个所述待比较语句的一致性。
2.根据权利要求1所述的语句一致性比对方法,其特征在于,所述S10,获取待比较语句,并确定所述待比较语句的句向量,包括:
S11,获取待比较语句;
S12,将所述待比较语句拆分为多个词;
S13,将所述词转换为对应的词向量;
S14,对所述待比较语句的所有所述词向量加权后相加,得到所述待比较语句的所述句向量。
3.根据权利要求1所述的语句一致性比对方法,其特征在于,所述S30,所述余弦相似度确定所述待比较语句的一致性,包括:
S31,在所述余弦相似度大于第一预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句一致;
S32,在所述余弦相似度小于第二预设阈值时,判定与所述余弦相似度对应的两个所述待比较语句不一致,所述第二预设阈值小于所述第一预设阈值;
S33,在所述余弦相似度小于第一预设阈值且大于第二预设阈值时,获取与所述余弦相似度对应的两个所述待比较语句中相同文字的个数;
S34,在所述相同文字的个数大于两个所述待比较语句中任一的文字个数的一半时,判定两个所述待比较语句一致;否则,判定两个所述待比较语句不一致。
4.一种案件经过一致性比对方法,其特征在于,包括:
S110,从所述待比较司法文书中获取基准文书;
S120,获取待比较司法文书和所述基准文书中的案件经过信息,并将所述案件经过信息拆分为多个语句;
S130,将所述基准文书中的每个语句,分别与所有所述待比较司法文书中的所有语句进行比对,所述语句的比对根据权利要求1-3中任一项所述语句一致性比对方法进行;
S140,根据所述语句的比对结果,确定所述案件经过信息的一致性。
5.根据权利要求4所述的案件经过一致性比对方法,其特征在于,所述S40,根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
S141,若所有所述待比较司法文书中均存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在所有所述待比较司法文书保持一致;
S142,若某个所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
6.根据权利要求4所述的案件经过一致性比对方法,其特征在于,还包括:
S150,从所述待比较司法文书和所述基准文书中的案件经过信息中提取特征名称并进行比对。
7.一种量刑情节一致性比对方法,其特征在于,包括:
S210,从待比较司法文书中获取基准文书,所述待比较司法文书的数量为两个;
S220,获取所述待比较司法文书和所述基准文书中的量刑情节信息,并将所述量刑情节信息拆分为多个语句;
S230,将所述基准文书中的每个语句,分别与所述待比较司法文书中的所有语句进行比对,所述语句的比对根据权利要求1-3中任一项所述语句一致性比对方法进行;
S240,根据所述语句的比对结果,确定所述量刑情节信息的一致性。
8.根据权利要求7所述的量刑情节一致性比对方法,其特征在于,所述S40,根据所述语句的比对结果,确定所述案件经过信息的一致性,包括:
S241,若所述待比较司法文书中存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句与所述待比较司法文书保持一致;
S242,若所述待比较司法文书中不存在语句与所述基准文书中的某个语句一致,则判定所述基准文书的该语句在该待比较司法文书未提及。
9.一种司法文书一致性比对方法,其特征在于,包括:
S100,获取待比较司法文书;
S200,从所述待比较司法文书中提取嫌疑人信息、案件经过信息、量刑情节信息和判决结果信息;
S300,对所述嫌疑人信息、所述案件经过信息、所述量刑情节信息和所述判决结果信息进行一致性比对;所述案件经过信息的一致性比对根据权利要求4-6中任一所述的案件经过一致性比对方法进行,所述量刑情节信息的一致性比对根据权利要求7或8所述的量刑情节比对方法进行;
S400,将所述嫌疑人信息、所述案件经过、所述量刑情节和所述判决结果的一致性比对结果对外进行展示。
10.根据权利要求9所述的司法文书一致性比对方法,其特征在于,所述判决结果信息的一致性比对过程包括:
S311,获取量刑建议书和刑事判决书的所述判决结果信息;
S312,根据预设的映射规则,将所述量刑建议书的所述判决结果信息转换为数字区间,将所述刑事判决书的所述判决结果信息转换为具体数字;
S313,在所述具体数字落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息一致;
S314,在所述具体数字未落入所述数字区间内时,判定所述量刑建议书和所述刑事判决书的所述判决结果信息不一致。
11.一种电子设备,包括处理器以及存储器,其特征在于,所述存储器存储有控制程序,所述控制程序被处理器执行时实现如权利要求1-3中任一所述的语句一致性比对方法,或者实现如权利要求4-6中任一所述的案件经过一致性比对方法,或者实现如权利要求7或8所述的量刑情节一致性比对方法,或者实现如权利要求9或10所述的司法文书一致性比对方法。
12.一种计算机可读存储介质,存储有指令,其特征在于,所述指令被处理器加载并执行时实现如权利要求1-3中任一所述的语句一致性比对方法,或者实现如权利要求4-6中任一所述的案件经过一致性比对方法,或者实现如权利要求7或8所述的量刑情节一致性比对方法,或者实现如权利要求9或10所述的司法文书一致性比对方法。
CN202110427582.1A 2021-04-21 2021-04-21 语句、案件经过、量刑情节和司法文书一致性比对方法 Pending CN113051903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427582.1A CN113051903A (zh) 2021-04-21 2021-04-21 语句、案件经过、量刑情节和司法文书一致性比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427582.1A CN113051903A (zh) 2021-04-21 2021-04-21 语句、案件经过、量刑情节和司法文书一致性比对方法

Publications (1)

Publication Number Publication Date
CN113051903A true CN113051903A (zh) 2021-06-29

Family

ID=76519863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427582.1A Pending CN113051903A (zh) 2021-04-21 2021-04-21 语句、案件经过、量刑情节和司法文书一致性比对方法

Country Status (1)

Country Link
CN (1) CN113051903A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881043A (zh) * 2022-07-11 2022-08-09 四川大学 基于深度学习模型的法律文书语义相似度评估方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN104899201A (zh) * 2014-03-04 2015-09-09 腾讯科技(北京)有限公司 文本提取方法、敏感词判定方法、装置和服务器
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN110674633A (zh) * 2019-09-18 2020-01-10 平安科技(深圳)有限公司 文书评审的校对方法及装置、存储介质、电子设备
CN110728593A (zh) * 2019-09-04 2020-01-24 杭州安存网络科技有限公司 案件的立案方法和装置、电子设备和存储介质
CN111061842A (zh) * 2019-12-26 2020-04-24 上海众源网络有限公司 一种相似文本确定方法及装置
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN111144112A (zh) * 2019-12-30 2020-05-12 广州广电运通信息科技有限公司 文本相似度分析方法、装置和存储介质
CN112164391A (zh) * 2020-10-16 2021-01-01 腾讯科技(深圳)有限公司 语句处理方法、装置、电子设备及存储介质
CN112395851A (zh) * 2020-11-18 2021-02-23 北京北大英华科技有限公司 一种文本比对方法、装置、计算机设备及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN104899201A (zh) * 2014-03-04 2015-09-09 腾讯科技(北京)有限公司 文本提取方法、敏感词判定方法、装置和服务器
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN110728593A (zh) * 2019-09-04 2020-01-24 杭州安存网络科技有限公司 案件的立案方法和装置、电子设备和存储介质
CN110674633A (zh) * 2019-09-18 2020-01-10 平安科技(深圳)有限公司 文书评审的校对方法及装置、存储介质、电子设备
CN111061842A (zh) * 2019-12-26 2020-04-24 上海众源网络有限公司 一种相似文本确定方法及装置
CN111144112A (zh) * 2019-12-30 2020-05-12 广州广电运通信息科技有限公司 文本相似度分析方法、装置和存储介质
CN112164391A (zh) * 2020-10-16 2021-01-01 腾讯科技(深圳)有限公司 语句处理方法、装置、电子设备及存储介质
CN112395851A (zh) * 2020-11-18 2021-02-23 北京北大英华科技有限公司 一种文本比对方法、装置、计算机设备及可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MING LIU等: "Data Evolvement Analysis Based on Topology Self-Adaptive Clustering Algorithm", 《INFORMATION TECHNOLOGY AND CONTROL 》 *
冯剑: "基于相关度计算的实体关系分类研究与应用", 《硕士论文全文数据库 信息科技辑》 *
张书娟等: "基 于电子商务用 户 行为 的同义词识别", 《中文信息学报》 *
高伟等: "智慧司法的研究与实践", 《邮电设计技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881043A (zh) * 2022-07-11 2022-08-09 四川大学 基于深度学习模型的法律文书语义相似度评估方法及系统

Similar Documents

Publication Publication Date Title
CN110163478B (zh) 一种合同条款的风险审查方法及装置
Saumya et al. Detection of spam reviews: a sentiment analysis approach
Guo et al. Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling
Saferstein Criminalistics
CN114880486A (zh) 基于nlp和知识图谱的产业链识别方法及系统
CN110569350B (zh) 法条推荐方法、设备和存储介质
Li et al. Lexeval: A comprehensive chinese legal benchmark for evaluating large language models
CN110502694A (zh) 基于大数据分析的律师推荐方法及相关设备
Kim et al. COLIEE-2015: evaluation of legal question answering
Kim et al. COLIEE-2016: evaluation of the competition on legal information extraction and entailment
Perez et al. I Call BS: Fraud detection in crowdfunding campaigns
Borden et al. Finding the signal in the noise: information governance, analytics, and the future of legal practice
Dabass et al. Scope of artificial intelligence in law
McJohn et al. Fair use and machine learning
Fha et al. Development of an efficient method to detect mixed social media data with tamil-english code using machine learning techniques
Gumusel et al. An annotation schema for the detection of social bias in legal text corpora
Owda et al. Financial discussion boards irregularities detection system (fdbs-ids) using information extraction
CN113051903A (zh) 语句、案件经过、量刑情节和司法文书一致性比对方法
Tschirschwitz et al. A dataset for analysing complex document layouts in the digital humanities and its evaluation with krippendorff’s alpha
Masiero Unfair ID
Lin Key considerations to be applied while leveraging machine learning for financial statement fraud detection: A review
Leitter et al. Non-Fungible Tokens: What Makes Them Valuable?
Tiihonen et al. Distinguishing discourses: A data-driven analysis of works and publishing networks of the Scottish Enlightenment
Jiahong A case study on shortage of evidence in wrongful convictions in China
Zarifi et al. Gender identification of short text author using conceptual vectorization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629