一种裁判文书的质量评估方法、装置、设备及存储介质
技术领域
本申请涉及司法文书质量评估技术领域,尤其涉及一种裁判文书的质量 评估方法、装置、设备及存储介质。
背景技术
随着我国社会主义法治建设的不断加强和完善,裁判文书作为人民法院 文明和公正司法的载体,直接影响着国家的公正司法形象。一份格式规整、 语句严谨专业、法理性强、法律条文列举准确完整的裁判文书对解决纠纷、 提高法律权威性起着至关重要的作用。
裁判文书的质量是人民法院案件质量评估体系中公正性评估的一项重要 指标。目前,裁判文书的质量评估方式为人工评估方式,即由评估人员对裁 判文书的质量进行评估。然而,人工评估方式效率比较低,且人工评估方式 受主观因素影响较大,这导致评估结果有失公正性和权威性。
发明内容
有鉴于此,本申请提供了一种裁判文书的质量评估方法、装置、设备及 存储介质,用以解决现有技术中的人工评估方式效率较低,且人工评估方式 受主观因素影响较大,导致评估结果有失公正性和权威性的问题,其技术方 案如下:
一种裁判文书的质量评估方法,包括:
获取目标裁判文书;
从所述目标裁判文书中获取目标文本,其中,所述目标文本包括诉请文 本和说理文本,其中,所述诉请文本包括至少一条诉请;
通过预先建立的说理完备性检测模型,检测所述诉请文本中的每条诉请 是否被所述说理文本所回应,获得每条诉请对应的第一检测结果。
可选的,所述目标文本还包括判决文本;
所述裁判文书的质量评估方法还包括:
通过预先建立的判决完备性检测模型,检测所述诉请文本中的每条诉请 是否被所述判决文本所回应,获得每条诉请对应的第二检测结果。
可选的,所述裁判文书的质量评估方法还包括:
根据所述每条诉请对应的第一检测结果,以及所述每条诉请对应的第二 检测结果,从所述诉请文本中获取目标诉请,其中,所述目标诉请为被所述 说理文本所回应,且被所述判决文本所回应的诉请;
检测所述目标诉请对应的说理句子与所述目标诉请对应的判决句子是否 存在语义冲突,获得所述目标诉请对应的语义冲突检测结果。
可选的,将所述说理完备性检测模型或者所述判决完备性说理模型作为 目标模型,其中,若将所述说理完备性检测模型作为所述目标模型,则将所 述说理文本作为目标文本,若将所述判决完备性检测模型作为所述目标模型, 则将所述判决文本作为目标文本;
通过预先建立的所述目标模型,检测所述诉请文本中的每条诉请是否被 所述目标文本所回应,包括:
获取所述诉请文本中每条诉请对应的至少一个数据集合,其中,一条诉 请对应的一个数据集合包括两个文本,所述两个文本中的一个文本为该诉请, 另一个文本为所述目标文本中与该诉请相关的句子;
利用所述目标模型,检测每条诉请对应的每个数据集合中的两个文本是 否匹配,获得每条诉请对应的每个数据集合中两个文本的匹配结果;
根据所述每条诉请对应的每个数据集合中两个文本的匹配结果,确定每 条诉请是否被所述目标文本所回应。
可选的,一条诉请对应的一个数据集合中还包括:该数据集合中两个文 本分别对应的位置信息;
其中,两个文本中诉请对应的位置信息为,该诉请在所述诉请文本中的 位置信息,两个文本中与诉请相关的句子对应的位置信息为,该与诉请相关 的句子在所述目标文本中的位置信息。
可选的,所述利用所述目标模型,检测每条诉请对应的每个数据集合中 的两个文本是否匹配,获得每条诉请对应的每个数据集合中两个文本的匹配 结果,包括:
对于任一诉请对应的任一数据集合,根据该数据集合确定该数据集合中 两个文本的表征向量;
将该数据集合中两个文本的表征向量输入所述目标模型,获得该数据集 合中两个文本的匹配结果;
以得到每条诉请对应的每个数据集合中两个文本的匹配结果。
可选的,所述检测所述目标诉请对应的说理句子与所述目标诉请对应的 判决句子是否存在语义冲突,包括:
将所述目标诉请对应的说理句子与所述目标诉请对应的判决句子输入预 先建立的语义关系检测模型,获得所述目标诉请对应的说理句子与所述目标 诉请对应的判决句子的语义关系;
根据所述目标诉请对应的说理句子与所述目标诉请对应的判决句子的语 义关系,确定所述目标诉请对应的说理句子与所述目标诉请对应的判决句子 是否存在语义冲突。
可选的,所述裁判文书的质量评估方法还包括:
遍历所述诉请文本中的诉请:
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请未被所 述说理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历 到的诉请被所述判决文本所回应,则输出用于指示对当前遍历到的诉请说理 不充分的预警信息;
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请被所述 说理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历到 的诉请未被所述判决文本所回应,则输出用于指示对当前遍历到的诉请判决 不充分的预警信息;
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请未被所 述说理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历 到的诉请未被所述判决文本所回应,则输出用于指示当前遍历到的诉请被遗 漏的预警信息。
可选的,所述从所述目标裁判文书中获取目标文本,包括:
从所述目标裁判文书中抽取原告诉称部分、判决理由与依据部分以及判 决主文部分;
将所述原告诉称部分中的每条诉请抽取出来组成诉请文本;
利用指定分隔符将所述判决理由与依据部分划分为多个句子,由对所述 判决理由与依据部分划分得到的多个句子组成所述说理文本;
利用所述指定分隔符将所述判决主文部分划分为多个句子,由对所述判 决主文部分划分得到的多个句子组成所述判决文本。
可选的,所述从所述目标裁判文书中获取目标文本,还包括:
若所述诉请文本中不包含指定词,则在所述诉请文本的后面附加一条与 所述指定词相关的诉请;
从所述目标裁判文书的尾部信息中抽取出包含所述指定词的句子;
将从所述尾部信息中抽取出的句子附加在所述判决文本的后面;
若所述说理文本中包含所述指定词,则将从所述尾部信息中抽取出的句 子附加在所述说理文本的后面。
可选的,将所述说理完备性检测模型或所述判决完备性检测模型作为目 标模型;
预先建立所述目标模型的过程包括:
获取训练裁判文书;
从所述训练裁判文书中获取第一文本和第二文本,其中,所述第一文本 为包括至少一条诉请的诉请文本,若所述目标模型为所述说理完备性检测模 型,则所述第二文本为说理文本,若所述目标模型为所述判决完备性检测模 型,则所述第二文本为判决文本;
对于所述第一文本中的任一条诉请,将该条诉请与所述第二文本中正确 回应该条诉请的句子所组成的文本对确定为正样本,将该条诉请与所述第二 文本中非正确回应该诉请的句子所组成的文本对确定为负样本,以获得针对 每条诉请确定的正样本和负样本;
生成每个样本对应的数据集合,并将一个数据集合作为一个训练数据, 由所有的训练数据组成训练数据集;其中,一个样本对应的数据集合至少包 括该样本的样本标签和该样本中的两个文本;
利用所述训练数据集中的训练数据训练初始的目标模型。
可选的,一个样本对应的数据集合中还包括该样本中的两个文本分别对 应的位置信息;
其中,两个文本中诉请对应的位置信息为,该诉请在所述第一文本中的 位置信息,两个文本中正确回应该诉请的句子或者非正确回应该诉请的句子 对应的位置信息为,该句子在所述第二文本中的位置信息。
一种裁判文书的质量评估装置,包括:裁判文书获取模块、文本获取模 块和说理完备性检测模块;
所述裁判文书获取模块,用于获取目标裁判文书;
所述文本获取模块,用于从所述目标裁判文书中获取目标文本,其中, 所述目标文本包括诉请文本和说理文本,其中,所述诉请文本包括至少一条 诉请;
所述说理完备性检测模块,用于通过预先建立的说理完备性检测模型, 检测所述诉请文本中的每条诉请是否被所述说理文本所回应,获得每条诉请 对应的第一检测结果。
可选的,所述目标文本还包括判决文本;
所述裁判文书的质量评估装置还包括:判决完备性检测模块;
所述判决完备性检测模块,用于通过预先建立的判决完备性检测模型, 检测每条诉请是否被所述判决文本所回应,获得每条诉请对应的第二检测结 果。
可选的,所述裁判文书的质量评估装置还包括:诉请获取模块和语义冲 突检测模块;
所述诉请获取模块,用于根据所述每条诉请对应的第一检测结果,以及 所述每条诉请对应的第二检测结果,从所述诉请文本中获取目标诉请,其中, 所述目标诉请为被所述说理文本所回应,且被所述判决文本所回应的诉请;
所述语义冲突检测模块,用于检测所述目标诉请对应的说理文本与所述 目标诉请对应的判决文本是否存在语义冲突,获得所述目标诉请对应的语义 冲突检测结果。
一种裁判文书的质量评估设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的裁判文书的质 量评估方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器 执行时,实现上述任一项所述的裁判文书的质量评估方法的各个步骤。
经由上述方案可知,本申请提供的裁判文书的质量评估方法、装置、设 备及存储介质,首先获取待评估的裁判文书,然后从待评估的裁判文书中抽 取出诉请文本和说理文本,最后通过预先建立的说理完备性检测模型,检测 诉请文本中的每条诉请是否被说理文本所回应。由此可见,本申请提供的裁 判文书的质量评估方法能够自动对待评估的裁判文书进行质量评估,相较于 人工评估方法,由于评估过程不需要人工参与,因此,避免了主观因素对评 估结果的影响,这使得评估结果更具有公正性和权威性,同时,节省了人力, 降低了人工成本,提高了评估效率,降了时间成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的裁判文书的质量评估方法的流程示意图;
图2为本申请实施例提供的通过预先建立的说理完备性检测模型,检测每 条诉请是否被说理文本所回应的流程示意图;
图3为本申请实施例提供的预先建立说理完备性检测模型的流程示意图;
图4为本申请实施例提供的说理完备性检测模型的一示例的拓扑结构图;
图5为本申请实施例提供的通过预先建立的裁判完备性检测模型,检测每 条诉请是否被判决文本所回应的流程示意图;
图6为本申请实施例提供的检测目标诉请对应的说理句子与目标诉请对 应的判决句子是否存在语义冲突的流程示意图;
图7为本申请实施例提供的裁判文书的质量评估装置的结构示意图;
图8为本申请实施例提供的裁判文书的质量评估设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本案发明人在实现本申请的过程中发现:现有技术中对裁判文书进行质 量评估的方法多为人工评估方法,然而,人工评估方法效率较低,且裁判文 书的数量随着各类诉讼案件数量的不断增加而增加,这导致无法对所有案件 的裁判文书进行质量评估,只能进行人工抽检,并且,人工评估方法主观随 意性较大,不同评估人员评判的差异性会导致评估结果较为主观,在一定程 度上有失公正性和权威性。即,现有的人工评估方法需要耗费大量的时间和 人力,无法全面深入地检查到所有案件的裁判文书,且评估的公正性和权威性容易受到评估人员主观因素影响。
鉴于人工评估方法存在的问题,本案发明人试图提供一种能够自动对裁 判文书进行质量评估的方法,为此进行了研究,起初的思路是:
采用基于规则的评估方法,即设定一些评估规则,利用这些评估规则自 动对裁判文书进行质量评估。
然而,基于规则的评估方法只能针对裁判文书的格式、错别字、法条引 用名称等表层错误进行检测,即,基于规则的评估方法检测的只是裁判文书 的形式问题,并未对裁判文书的内容进行深入分析,而裁判文书的内容才应 是重点评估的部分。
有鉴于此,本案发明人进一步进行研究,最终提供了一种裁判文书的质 量评估方法,该评估方法不但能够自动对裁判文书的质量进行评估,而且从 裁判文书的内容出发对裁判文书的质量进行评估,该评估方法适用于对各种 案件的裁判文书进行质量评估,该评估方法可应用于具有数据处理能力的终 端,也可应用于服务器。接下来通过下述实施例对本申请提供的裁判文书的 质量评估方法进行介绍。
请参阅图1,示出了本申请实施例提供的裁判文书的质量评估方法的流程 示意图,该方法可以包括:
步骤S101:获取目标裁判文书。
其中,目标裁判文书为待评估的裁判文书,待评估的裁判文书可以为各 种案件的裁判文书,比如,可以为民事一审判决书。
步骤S102:从目标裁判文书中获取目标文本。
其中,目标文本至少包括诉请文本和说理文本,其中,诉请文本包括至 少一条诉请。需要说明的是,诉请文本由裁判文书中的各条诉请组成,说理 文本由裁判文书中的说理句子组成。
依据《人民法院民事裁判文书制作规范》中规定的涉及当事人诉讼请求 能否成立应在说理部分一并进行分析论证这一原则,本申请对裁判文书中的 诉请是否被裁判文书中的说理部分进行回应进行检查。为此,本实施例从目 标裁判文书中获取诉请文本和说理文本。
在本实施例中,从目标裁判文书中获取诉请文本和说理文本的过程可以 包括:
步骤S1021、从目标裁判文书中抽取出原告诉称部分,以及判决理由与依 据部分。
具体的,可利用信息抽取方法对目标裁判文书进行结构解析,从前到后 的进行处理,标记起始位置和终止位置,为各个段落结构添加相应的标识, 标记出诉请段落,判决理由与依据部分,判决主文部分和尾部信息,然后利 用句法、词性、位置、关键词、前一段内容、前一段标签等信息编写正则表 达式和规则,利用编写的正则表达式和规则从目标裁判文书中抽取出原告诉 称部分以及判决理由与依据部分。
步骤S1022、将原告诉称部分中的每条诉请抽取出来,按照每条诉请在原 告诉称部分中的顺序,将抽取出的所有诉请组成诉请文本。
可选的,可利用正则表达式从原告诉称部分中抽取出每条诉请。
示例性的,从裁判文书中抽取出的原告诉称部分为:“原告冯某诉称:2004 年5月,我与被告某某公司建立劳动关系,并于当年签订了《劳动合同》。2008 年1月,双方又签订了为期一年的《劳动合同》,期满后,未续签,我继续在 被告某某公司工作。在工作期间,被告某某公司为我缴纳了2008年1月至2010 年8月期间的社会保险。2013年2月8日,被告某某公司将我辞退。现起诉请 求:1、被告某某公司向原告冯某支付解除劳动合同经济补偿金25,000元;2、 被告某某公司向原告冯某补缴2004年5月至2013年2月期间的社会保险,无 法补缴的,则支付该项损失60,000元;3、赔偿失业保险损失192,000元;4、 支付2009年1月至2013年2月期间的未签订书面劳动合同双倍工资122,500 元。”,则步骤S1022的目的在于从上述的原告诉称部分中抽取出如下4条诉 请:
“1、被告某某公司向原告冯某支付解除劳动合同经济补偿金25,000元; 2、被告某某公司向原告冯某补缴2004年5月至2013年2月期间的社会保险, 无法补缴的,则支付该项损失60,000元;3、赔偿失业保险损失192,000元; 4、支付2009年1月至2013年2月期间的未签订书面劳动合同双倍工资122, 500元。”
需要说的是,若诉请文本中不包含指定词,则在诉请文本后附加一条与 指定词相关的诉请,当然,若诉请文本中包含指定词,则不需要再附加一条 与指定词相关的诉请。其中,指定词可以为“诉讼费”和“受理费”,即在 诉请文本增加一条关于“诉讼费”和“受理费”的诉请。上述示例中的四条 诉请中不包含“诉讼费”和“受理费”,则在第4条诉请后再增加一条关于 “诉讼费”和“受理费”的诉请,具体的,可增加:“5、诉讼费受理费由谁 负责”。
步骤S1023、利用指定分隔符将判决理由与依据部分划分为多个句子,由 对判决理由与依据部分划分得到的多个句子组成说理文本。
需要说明的是,将划分得到的句子按顺序(各句子在判决理由与依据部 分的顺序)组成说理文本。
在本实施例中,可用“。”、“;”作为指定分隔符将判决理由与依据 部分划分为多个句子,由划分得到的多个句子组成说理文本。
需要说明的是,若说理文本中包含指定词(“诉讼费”和“受理费”), 则从裁判文书中抽取出尾部信息,从尾部信息中抽取出包含指定词的句子, 将从尾部信息抽取出的句子附加在说理文本的后面,作为一条诉请回应。
步骤S103:通过预先建立的说理完备性检测模型,检测诉请文本中的每 条诉请是否被说理文本所回应,获得每条诉请对应的第一检测结果。
其中,任一条诉请对应的第一检测结果用于指示该条诉请是否被说理文 本所回应。
在一种可能的实现方式中,任一条诉请对应的第一检测结果可用“0”或 “1”表征,比如,若一条诉请被说理文本所回应,则该条诉请对应的第一检 测结果为“1”,若一条诉请未被说理文本所回应,则该条诉请对应的第一检 测结果为“0”。
需要说明的是,若一条诉请被说理文本所回应,说明对该条诉请说理充 分,若一条诉请未被说理文本所回应,则说明该条诉请说理不充分。
优选的,在获得每条诉请对应的第一检测结果后,可遍历诉请文本中的 诉请:若当前遍历到的诉请未被说理文本所回应,则输出用于指示对该条诉 请说理不充分的预警信息,若当前遍历到的诉请被说理文本所回应,则接着 遍历下一条诉请。
本申请实施例提供的裁判文书的质量评估方法,首先获取待评估的裁判 文书,然后从待评估的裁判文书中抽取出诉请文本和说理文本,最后通过预 先建立的说理完备性检测模型,检测诉请文本中的每条诉请是否被说理文本 所回应。由此可见,本申请实施例提供的裁判文书的质量评估方法能够自动 对待评估的裁判文书进行质量评估,相较于人工评估方法,由于评估过程不 需要人工参与,因此,避免了主观因素对评估结果的影响,这使得评估结果 更具有公正性和权威性,同时,节省了人力,降低了人工成本,提高了评估效率,降了时间成本,并且,由于本申请提供的评估方法的评估效率较高, 因此,通过该方法能够对所有裁判文书进行评估,而不需要进行抽检。另外, 本申请实施例提供的裁判文书的质量评估方法从裁判文书的内容(而非形式) 出发对裁判文书进行质量评估,这使得评估结果能够体现裁判文书的本质问 题,从而使得评估结果的价值更高。
以下对上述实施例中的“步骤S103:通过预先建立的说理完备性检测模 型,检测每条诉请是否被说理文本所回应,获得每条诉请对应的第一检测结 果”进行介绍。
请参阅图2,示出了通过预先建立的说理完备性检测模型,检测每条诉请 是否被说理文本所回应的流程示意图,可以包括:
步骤S201:获取每条诉请对应的至少一个第一数据集合。
在一种可能的实现方式中,一条诉请对应的一个第一数据集合包括两个 文本,两个文本中的一个文本为该诉请,另一个文本为说理文本中与该诉请 相关的句子。
在另一种可能的实现方式中,一条诉请对应的一个第一数据集合包括两 个文本以及两个文本分别对应的位置,两个文本中的一个文本为该诉请,其 对应的位置信息为其在诉请文本中的位置信息(比如,诉请文本中的第几条 诉请),两个文本中的另一个文本为说理文本中与该诉请相关的句子,其对 应的位置信息为其在说理文本中的位置信息(比如,说理文本中的第几句话)。
步骤S202:利用预先建立的说理完备性检测模型,检测每条诉请对应的 每个第一数据集合中的两个文本是否匹配,获得每条诉请对应的每个第一数 据集合中两个文本的匹配结果。
在一种可能的实现方式中,任一第一数据集合中两个文本的匹配结果可 用“0”或“1”表征,若第一数据集合中两个文本的匹配结果为“0”,则表 明该第一数据集合中的两个文本不匹配,若第一数据集合中两个文本的匹配 结果为“1”,则表明该第一数据集合中的两个文本匹配。
需要说明的是,本实施例将对诉请是否被说理文本所回应的检测转换为 文本匹配任务,即确定每个诉请对应的每个第一数据集合中的两个文本是否 匹配。也即,说理完备性检测模型为一个二分类模型,其用于确定两个文本 属于{0,1}两个类别的概率,通过概率阈值,确定两个文本所属的类别,两个 文本所属的类别即为两个文本的匹配结果,若两个文本所属的类别为“0”, 表明两个文本不匹配,若两个文本所属的类别为“1”,则表明两个文本匹配。
具体的,利用预先建立的说理完备性检测模型,检测每条诉请对应的每 个第一数据集合中的两个文本是否匹配的过程可以包括:对于任一诉请对应 的任一第一数据集合,根据该第一数据集合确定该第一数据集合中两个文本 的表征向量,并将该第一数据集合中两个文本的表征向量输入预先建立的说 理完备性检测模型,获得该第一数据集合中两个文本的匹配结果,以得到每 条诉请对应的每个第一数据集合中两个文本的匹配结果。
步骤S203:根据每条诉请对应的每个第一数据集合中两个文本的匹配结 果,确定每条诉请是否被说理文本所回应。
具体的,对于任一诉请,若该诉请对应的各个第一数据集合中的两个文 本均不匹配,则确定该诉请未被说理文本所回应,若该诉请对应的至少一个 第一数据集合中有至少一个第一数据集合中的两个文本匹配,则确定该条诉 请被说理文本所回应。
示例性的,一诉请a对应的第一数据集合包括{a,b1}、{a,b2}和{a,b3},其 若a与b1不匹配、a与b2不匹配、a与b3不匹配,则确定诉请a未被说理文 本所回应,若a与b1匹配、a与b2匹配、a与b3不匹配,则确定诉请a被说 理文本所回应。
由上述过程可知,诉请是否被说理文本所回应通过预先建立的说理完备 性检测模型确定,接下来对预先建立说理完备性检测模型的过程进行介绍。
请参阅图3,示出了预先建立说理完备性检测模型的流程示意图,可以包 括:
步骤S301:获取训练裁判文书。
步骤S302:从训练裁判文书中获取诉请文本和说理文本。
从训练裁判文书中获取诉请文本和说理文本的过程与上述从目标裁判文 书中获取诉请文本和说理文本的过程相同,本实施例在此不作赘述。
步骤S303:对于诉请文本中的任一条诉请,将该条诉请与说理文本中正 确回应该条诉请的句子所组成的文本对确定为正样本,将该条诉请与说理文 本中非正确回应该诉请的句子所组成的文本对确定为负样本,以针对诉请文 本中的每条诉请获得正样本和负样本。
其中,非正确回应该诉请的句子指的是说理文本中除正确回应该条诉请 的句子外的其它说理句子。
示例性,诉请文本中的一条诉请为Si,说理文本中正确回应该条诉请的 句子为Rj,则Si和Rj组成的文本对(Si,Rj)为正样本,Si与说理文本中除Rj之外的其它句子组成的文本对为负样本,比如,Si和Rj-1组成的文本对(Si, Rj-1)、Si和Rj+1组成的文本对(Si,Rj+1)为负样本。
需要说明的是,说理文本中可能存在“驳回其它诉请”这样的句子,假 设诉请文本中包括N条诉请,第M条被回应,则正确回应剩余N-M条诉请 的说理句子均为“驳回其它诉请”。
步骤S304:生成每个样本对应的数据集合,并将一个数据集合作为一个 训练数据,由所有的训练数据组成训练数据集。
需要说明的是,获得的每个样本均具有一个用于指示样本属性的标签, 具体的,若一样本为正样本,则该样本的样本标签为“1”,若一样本为负样 本,则该样本的样本标签为“0”。在一种可能的实现方式中,一个样本对应 的数据集合包括该样本的样本标签以及该样本中的两个文本,比如,{1,Si, Rj}、{0,Si,Rj-1}、{0,Si,Rj+1}。
需要说明的是,法官在撰写判决理由与依据部分回应原告诉称部分中的 各条诉请时,通常按照各条诉请的顺序逐一进行回应,因此,可将每条诉请 在诉请文本中的位置(比如,第几条诉请),以及该条诉请对应的说理句子 在说理文本中的位置(比如,说理文本中的第几句话)引入说理完备性检测 模型的训练。基于此,在另一种可能的实现方式中,一个样本对应的数据集 合除了包括该样本的样本标签、该样本中的两个文本外,还包括该样本中两 个文本分别对应的位置信息。
具体的,样本中诉请对应的位置信息为诉请在诉请文本中的位置信息(比 如,第几条诉请),样本中诉请对应的说理句子对应的位置信息为该说理句 子在说理文本中的位置信息(比如,说理文本中的第几句话)。
示例性的,正样本(Si,Rj)对应的数据集合为{1,Si,PSi,Rj,PRj}, 负样本(Si,Rj-1)对应的数据集合为{0,Si,PSi,Rj-1,PRj-1},其中,PSi为 Si在诉请文本中的位置,PRj为Rj在说理文本中的位置,PRj-1为Rj-1在说理文 本中的位置。
步骤S305:利用训练数据集中的训练数据训练初始的说理完备性检测模 型。
在一种可能的实现方式中,利用训练数据集中的训练数据训练初始的说 理完备性检测模型的过程包括:
步骤S3051、从训练数据集中获取一训练数据。
步骤S3052、确定该训练数据中两个文本的表征向量。
步骤S3053、将该训练数据中两个文本的表征向量输入说理完备性检测模 型进行文本匹配,获得该训练数据中两个文本的匹配结果。
步骤S3054、根据该训练数据中两个文本的匹配结果和该训练数据中的样 本标签,更新说理完备性检测模型的参数。
在一种可能的实现方式中,说理完备性检测模型可以为机器学习模型, 比如XGBoost(eXtreme Gradient Boosting)模型、SVM模型等,基于此,上 述确定训练数据中两个文本的表征向量的过程包括:根据两个文本确定以下 特征中的一种或多种的组合作为目标特征:两个文本的莱温斯坦距离 (Levenshtein distance)、两个文本的莱温斯坦比(Levenshtein radio)、两个文本 的TF-IDF余弦相似度、两个文本的位置特征;将目标特征进行归一化(归一 化到[0,1]),归一化后的特征作为训练数据中两个文本的表征向量。
需要说明的是,两个文本的莱温斯坦距离(也称最小编辑距离)指的是 从一个文本转换为另外一个文本所需要的最少操作(删除、插入、替换)步 骤,莱温斯坦距离为正整数;两个文本的莱温斯坦比通常用来衡量两个文本 的相似度,其为莱温斯坦距离与文本长度的比值;两个文本的TF-IDF余弦相 似度的确定过程为,首先分别将两个文本进行词频和逆文档频率计算,将两 个文本分别表示为TF-IDF向量,进而根据余弦公式计算两个TF-IDF向量间 的余弦相似度;两个文本的位置特征为两个文本中诉请在诉请文本中的位置, 以及两个文本中诉请对应的说理句子在说理文本中的位置。
将经由上述过程获得的、训练数据中两个文本的表征向量输入机器学习 模型进行文本匹配,机器学习模型输出训练数据中两个文本的匹配结果,两 个文本的匹配结果为“0”(两个文本不匹配)或“1”(两个文本匹配)。
在另一种可能的实现方式中,说理完备性检测模型可以为深度学习神经 网络模型,比如,卷积神经网络模型(Convolutionalneural network,简称CNN)、 带有注意力机制的RNN(Recurrent Neural Network,循环神经网络)模型等。 考虑到诉请与诉请对应的说理句子中相同或相似语义的关键词和短语对文本 匹配至关重要,而卷积神经网络模型在捕捉关键词和短语等结构信息时与其 它神经网络模型相比具有更好的表现,因此,深度学习神经网络模型优选卷 积神经网络模型。基于此,上述确定训练数据中两个文本的表征向量的过程 包括:分别对两个文本进行分词,确定每个词的词向量,获得两个文本分别 对应的词向量序列,将两个文本分别对应的词向量序列作为两个文本的表征 向量。两个文本的表征向量输入深度学习神经网络模型进行文本匹配。
请参阅图4,示出了深度学习神经网络模型的拓扑结构,如图4所示,深 度学习神经网络模型对其中一个文本对应的词向量序列中的每个词向量与另 一个文本对应的词向量序列中的每个词向量进行相似度计算(比如,可采用 余弦相似度),获得二维的相似度矩阵,接着,对二维的相似度矩阵进行交 替的卷积(Convolution)和动态的池化(Dynamicpooling)操作,在中间过程中 可得到多个维度的特征映射图,最终获得多个一维特征向量,将多个一维特 征向量进行拼接,拼接后输入多层感知机(MLP),多层感知机(MLP)的 输出通过softmax输出文本匹配结果。
优选的,为了提高文本匹配效果,可获取训练数据中两个文本分别对应 的位置信息,并分别对两个文本分别对应的位置信息进行编码(比如one-hot 编码),获得两个文本分别对应的位置编码信息,将两个文本分别对应的位 置编码信息加入两个文本的表征向量中。
重复执行步骤S3051~步骤S3054,直至满足结束训练条件。
在一种可能的实现方式中,可利用训练数据集中的数据训练说理完备性 检测模型,直至满足结束训练条件;在另一种可能的实现方式中,可将训练 数据集中的一部分数据(比如80%的训练数据)组成一个数据集作为训练数 据集,另一部分数据(比如20%的训练数据)组成另一个数据集作为测试数 据集,用训练数据集中的数据训练说理完备性检测模型,用测试数据集中的 数据对训练得到的说理完备性检测模型进行测试,若训练得到的说理完备性 检测模型的性能满足要求,则结束训练,否则继续进行训练,直至训练得到 的说理完备性检测模型的性能满足要求。
上述实施例对目标裁判文书的原告诉称部分中的每条诉请是否被判决理 由与依据部分所回应进行了检测,而裁判文书中的判决主文部分也是非常重 要的一部分,其是对原告诉请的判决,为了能够更加全面的对目标裁判文书 的质量进行评估,在本申请的另一实施例中,除了对原告诉称部分中的每条 诉请是否被判决理由与依据部分所回应进行检测外,还对原告诉称部分中的 每条诉请是否被判决主文部分所回应进行检测。
具体的,上述实施例中的“步骤S102:从目标裁判文书中获取目标文本” 中的目标文本除了包括诉请文本、说理文本外,还包括判决文本。
获取判决文本的过程包括:先从目标裁判文书中抽取出判决主文部分; 然后利用指定分隔符(比如“。”、“;”)将判决主文部分划分为多个句 子,由对判决主文部分划分得到的多个句子组成判决文本。其中,对判决主 文部分划分得到的多个句子按顺序(各句子在判决主文部分的顺序)组成判 决文本。
在从目标裁判文书中获得诉请文本和判决文本后,通过预先建立的判决 完备性检测模型,检测每条诉请是否被判决文本所回应,获得每条诉请对应 的第二检测结果。
请参阅图5,示出了通过预先建立的裁判完备性检测模型,检测每条诉请 是否被判决文本所回应的流程示意图,可以包括:
步骤S501:获取诉请文本中每条诉请对应的至少一个第二数据集合。
在一种可能的实现方式中,一条诉请对应的一个第二数据集合包括两个 文本,第二数据集合包含的两个文本中的一个文本为该诉请,另一个文本为 判决文本中与该诉请相关的句子。
在另一种可能的实现方式中,一条诉请对应的一个第二数据集合包括两 个文本以及两个文本分别对应的位置,第二数据集合包含的两个文本中的一 个文本为该诉请,其对应的位置信息为其在诉请文本中的位置信息(比如, 诉请文本中的第几条诉请),两个文本中的另一个文本为判决文本中与该诉 请相关的句子,其对应的位置信息为其在判决文本中的位置信息(比如,判 决文本中的第几句话)。
步骤S502:利用预先建立的判决完备性检测模型,检测每条诉请对应的 每个第二数据集合中的两个文本是否匹配,获得每条诉请对应的每个第二数 据集合中两个文本的匹配结果。
在一种可能的实现方式中,任一第二数据集合中两个文本的匹配结果可 用“0”或“1”表征,若第二数据集合中两个文本的匹配结果为“0”,则表 明该第二数据集合中的两个文本不匹配,若第二数据集合中两个文本的匹配 结果为“1”,则表明该第二数据集合中的两个文本匹配。
与前述诉请是否被说理文本所回应的检测类似,本实施例将对诉请是否 被判决文本所回应的检测同样转换为文本匹配任务,即确定每个诉请对应的 每个第二数据集合中的两个文本是否匹配。也即,判决完备性检测模型同样 为一个二分类模型,其用于确定第二数据集合中两个文本属于{0,1}两个类别 的概率,通过概率阈值,确定第二数据集合中两个文本所属的类别,两个文 本所属的类别即为两个文本的匹配结果,若两个文本所属的类别为“0”,表 明两个文本不匹配,若两个文本所属的类别为“1”,则表明两个文本匹配。
具体的,利用预先建立的判决完备性检测模型,检测每条诉请对应的每 个第二数据集合中的两个文本是否匹配的过程可以包括:对于任一诉请对应 的任一第二数据集合,根据该第二数据集合确定该第二数据集合中两个文本 的表征向量,并将该第二数据集合中两个文本的表征向量输入预先建立的判 决完备性检测模型,获得该第二数据集合中两个文本的匹配结果,以得到每 条诉请对应的每个第二数据集合中两个文本的匹配结果。
步骤S503:根据每条诉请对应的每个第二数据集合中两个文本的匹配结 果,确定每条诉请是否被判决文本所回应。
具体的,对于任一诉请,若该诉请对应的各个第二数据集合中的两个文 本均不匹配,则确定该诉请未被判决文本所回应,若该诉请对应的至少一个 数据集合中有至少一个第二数据集合中的两个文本匹配,则确定该条诉请被 判决文本所回应。
需要说明的是,预先建立判决完备性检测模型的过程与上述预先建立说 理完备性检测模型的过程基本相同,只要将预先建立说理完备性检测模型的 过程中的“说理”替换为“判决”即可,本实施例在此不作赘述。
优选的,在获得诉请文本中每条诉请对应的第一检测结果和每条诉请对 应的第二检测结果后,本实施例提供的裁判文书的质量评估方法还可以包括:
遍历诉请文本中的诉请:
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请未被说 理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历到的 诉请被判决文本所回应,则输出用于指示对当前遍历到的诉请说理不充分的 预警信息,优选的,输出的预警信息中还可包括用于指示预警级别的信息, 比如,可输出“说理不充分,预警级别低”;若当前遍历到的诉请对应的第 一检测结果指示当前遍历到的诉请被说理文本所回应,且当前遍历到的诉请 对应的第二检测结果指示当前遍历到的诉请未被判决文本所回应,则输出用 于指示对当前遍历到的诉请判决不充分的预警信息,同样的,输出的预警信 息中还可包括用于指示预警级别的信息,比如,可输出“判决不充分,预警 级别低”;若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请 未被说理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍 历到的诉请未被判决文本所回应,则输出用于指示当前遍历到的诉请被遗漏 的预警信息,同样的,输出的预警信息中还可包括用于指示预警级别的信息, 比如可输出“遗漏诉请,预警级别高”;若当前遍历到的诉请对应的第一检 测结果指示当前遍历到的诉请被说理文本所回应,且当前遍历到的诉请对应 的第二检测结果指示当前遍历到的诉请被判决文本所回应,则不输出信息, 遍历下一条诉请。
需要说明的是,若所有的诉请都被说理文本所回应,且所有的诉请都被 判决文本所回应,则可输出“无异常”。
示例性的,诉请文本中包括5条诉请,5条诉请的第一检测结果为 [1,0,1,1,0],5条诉请的第二检测结果为[1,0,1,0,1],由此可见,第1条诉请既 被说理文本所回应,又被判决文本所回应,则说明第1条诉请无异常,第2 条诉请未被说理文本所回应,也未被判决文本所回应,则说明该条诉请被遗 漏,输出“遗漏诉请,预警级别高”的预警信息,第3条诉请既被说理文本 所回应,又被判决文本所回应,则说明第3条诉请无异常,第4条诉请被说理文本所回应,但未被判决文本所回应,则说明对第4条诉请判决不充分, 输出“判决不充分,预警级别低”的预警信息,第5条诉请未被说理文本所 回应,但被判决文本所回应,则说明对第5条诉请说理不充分,输出“说理 不充分,预警级别低”的预警信息。
优选的,在确定出诉请未被说理文本和/或判决文本回应时,可对未被说 理文本和/或判决文本回应的诉请进行标记,以便用户可获知存在异常的诉请。
需要说明的是,裁判文书的判决主文部分是根据判决理由与依据部分得 出的,因此,这两部分不应存在语义冲突,基于此,为了更加全面地对目标 裁判文书的质量进行评估,本实施例提供的裁判文书的质量评估方法还可以 包括:
根据诉请文本中每条诉请对应的第一检测结果以及每条诉请对应的第二 检测结果,从诉请文本获取目标诉请;检测目标诉请对应的说理句子与目标 诉请对应的判决句子是否存在语义冲突,获得目标诉请对应的语义冲突检测 结果。其中,目标诉请为被说理文本所回应,且被判决文本所回应的诉请。
请参阅图6,示出了检测目标诉请对应的说理句子与目标诉请对应的判决 句子是否存在语义冲突的流程示意图,可以包括:
步骤S601:将目标诉请对应的说理句子与目标诉请对应的判决句子输入 预先建立的语义关系检测模型,获得目标诉请对应的说理句子与目标诉请对 应的判决句子的语义关系。
其中,目标诉请对应的说理句子与目标诉请对应的判决句子的语义关系 可以为蕴含关系、矛盾关系和中立关系的一种。
需要说明的是,若能够从一个句子推导出另一个句子,或者两个句子的 语义相同或相似,则两个句子为蕴含关系;若无法从一个句子推导出另一个 句子,且两个句子的语义不同,则两个句子为矛盾关系;若无法得出两个句 子的关系,则两个句子为中立关系。
示例性的,说理句子R为“原告要求确认2012年5月28日至7月10日双 方存在着劳动关系的诉讼请求本院予以支持”,判决句子P为“确认原告胡某 与被告某某公司2012年5月28日至2012年7月10日间存在劳动关系”,R 和P都是用来回应诉请S“依法确认2012年5月28日至2012年7月10日原告 与被告之间存在的劳动关系”的,则诉请S对应的说理句子R与诉请S对应的 判决句子P之间关系为蕴含关系;若诉请S对应的说理句子R为“原告要求确认2012年5月28日至7月10日双方存在着劳动关系的诉讼请求本院予以支持”, 诉请S对应的判决句子P为“确认原告胡某与被告某某公司2012年5月28日 至2012年7月10日间不存在劳动关系”,则诉请S对应的说理句子R与诉请 S对应的判决句子P之间关系为矛盾关系;若诉请S对应的说理句子R为“本 院认为,《中华人民共和国劳动合同法》规定,用人单位与劳动者协商一致, 可以解除劳动合同;劳动者提前三十日以书面形式通知用人单位,可以解除劳 动合同”,诉请S对应的判决句子P为“确认原告胡某与被告某某公司2012年 5月28日至2012年7月10日间存在劳动关系”,则诉请S对应的说理句子R 与诉请S对应的判决句子P之间关系为中立关系。
本实施例中的语义关系检测模型为一个三分类模型,其输入为一个句子 对,输出为该句子对的类别,该句子对的类别即为该句子对中两个句子的关 系,两个句子的关系为上述蕴含关系、矛盾关系和中立关系的一种。
步骤S602:根据目标诉请对应的说理句子与目标诉请对应的判决句子的 语义关系,确定目标诉请对应的说理句子与所述目标诉请对应的判决句子是 否存在语义冲突。
若目标诉请对应的说理句子与目标诉请对应的判决句子的语义关系为矛 盾关系,则确定目标诉请对应的说理句子与目标诉请对应的判决句子是否存 在语义冲突。
可选的,在确定出目标诉请对应的说理句子与目标诉请对应的判决句子 是否存在语义冲突时,可输出用于指示存在语义冲突的预警信息,可选的, 预警信息中还可以包括用于指示预警级别的信息,比如,可输出“判定语义 冲突,预警级别高”。
可选的,在确定出目标诉请对应的说理句子与目标诉请对应的判决句子 是否存在语义冲突时,输出存在冲突的说理句子与判决句子。
可选的,在获得诉请文本中每条诉请对应的第一检测结果、每条诉请对 应的第二检测结果、目标诉请对应的语义冲突检测结果后,可根据检测结果 对目标裁判文书进行打分,并输出目标裁判文书的得分,以使用户更直观地 获知目标裁判文书的质量。
本申请实施例提供的裁判文书的质量评估方法,既可检测每条诉请是否 被说理文本所回应,又可检测每条诉请是否为判决文本所回应,还可检测回 应诉请的说理句子与回应诉请的判决句子是否存在语义冲突,由此可见,本 申请实施例提供的质量评估方法不但能够自动对裁判文书进行质量评估,而 且能够从裁判文书的本质内容出发,全面地对裁判文书进行质量评估。
本申请实施例还提供了一种裁判文书的质量评估装置,下面对本申请实 施例提供的裁判文书的质量评估装置进行描述,下文描述的裁判文书的质量 评估装置与上文描述的裁判文书的质量评估方法可相互对应参照。
请参阅图7,示出了本申请实施例提供的裁判文书的质量评估装置的结构 示意图,如图7所示,该裁判文书的质量评估装置可以包括:裁判文书获取 模块701、文本获取模块702和说理完备性检测模块703。
裁判文书获取模块701,用于获取目标裁判文书。
文本获取模块702,用于从目标裁判文书中获取目标文本。
其中,目标文本包括诉请文本和说理文本,诉请文本包括至少一条诉请。
说理完备性检测模块703,用于通过预先建立的说理完备性检测模型,检 测所述诉请文本中的每条诉请是否被所述说理文本所回应,获得每条诉请对 应的第一检测结果。
本申请实施例提供的裁判文书的质量评估装置能够自动对待评估的裁判 文书进行质量评估,相较于人工评估方式,由于评估过程不需要人工参与, 因此,避免了主观因素对评估结果的影响,这使得评估结果更具有公正性和 权威性,同时,节省了人力,降低了人工成本,提高了评估效率,降了时间 成本,并且,由于本申请实施例提供的评估装置的评估效率较高,因此,通 过该装置能够对所有裁判文书进行评估,而不需要进行抽检。另外,本申请 实施例提供的裁判文书的质量评估装置从裁判文书的内容(而非形式)出发 对裁判文书进行质量评估,这使得评估结果能够体现裁判文书的本质问题, 从而使得评估结果的价值更高。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 中的文本获取模块702获取的目标文本还包括判决文本。
上述实施例提供的裁判文书的质量评估装置还包括:判决完备性检测模 块。
判决完备性检测模块,用于通过预先建立的判决完备性检测模型,检测 诉请文本中的每条诉请是否被判决文本所回应,获得每条诉请对应的第二检 测结果。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 还包括:诉请获取模块和语义冲突检测模块。
诉请获取模块,用于根据每条诉请对应的第一检测结果,以及每条诉请 对应的第二检测结果,从诉请文本中获取目标诉请。
其中,目标诉请为被说理文本所回应,且被判决文本所回应的诉请。
语义冲突检测模块,用于检测目标诉请对应的说理文本与目标诉请对应 的判决文本是否存在语义冲突,获得目标诉请对应的语义冲突检测结果。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 中的说理完备性检测模块703可以包括:第一数据集合获取子模块、第一文 本匹配子模块和说理完备性确定子模块。
第一数据集合获取子模块,用于获取诉请文本中每条诉请对应的至少一 个第一数据集合。
其中,一条诉请对应的一个第一数据集合包括两个文本,两个文本中的 一个文本为该诉请,另一个文本为说理文本中与该诉请相关的句子。
第一文本匹配子模块,用于利用说理完备性检测模型,检测每条诉请对 应的每个第一数据集合中的两个文本是否匹配,获得每条诉请对应的每个第 一数据集合中两个文本的匹配结果。
说理完备性确定子模块,用于根据每条诉请对应的每个第一数据集合中 两个文本的匹配结果,确定每条诉请是否被说理文本所回应。
在一种可能的实现方式中,一条诉请对应的一个第一数据集合中还包括: 该第一数据集合中两个文本分别对应的位置信息。其中,第一数据集合中两 个文本中诉请对应的位置信息为,该诉请在诉请文本中的位置信息,第一数 据集合中两个文本中与诉请相关的句子对应的位置信息为,该与诉请相关的 句子在说理文本中的位置信息。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 中的判决完备性检测模块703可以包括:第二数据集合获取子模块、第二文 本匹配子模块和判决完备性确定子模块。
第二数据集合获取子模块,用于获取诉请文本中每条诉请对应的至少一 个第二数据集合。
其中,一条诉请对应的一个第二数据集合包括两个文本,该两个文本中 的一个文本为该诉请,另一个文本为判决文本中与该诉请相关的句子。
第二文本匹配子模块,用于利用判决完备性检测模型,检测每条诉请对 应的每个第二数据集合中的两个文本是否匹配,获得每条诉请对应的每个第 二数据集合中两个文本的匹配结果。
判决完备性确定子模块,用于根据每条诉请对应的每个第二数据集合中 两个文本的匹配结果,确定每条诉请是否被判决文本所回应。
在一种可能的实现方式中,一条诉请对应的一个第二数据集合中还包括: 该第二数据集合中两个文本分别对应的位置信息;其中,第二数据集合中两 个文本中诉请对应的位置信息为,该诉请在诉请文本中的位置信息,第二数 据集合中两个文本中与诉请相关的句子对应的位置信息为,该与诉请相关的 句子在判决文本中的位置信息。
在一种可能的实现方式中,上述的第一文本匹配子模块,具体用于对于 任一诉请对应的任一第一数据集合,根据该第一数据集合确定该数据集合中 两个文本的表征向量;将该第一数据集合中两个文本的表征向量输入预先建 立的说理完备性检测模型,获得该第一数据集合中两个文本的匹配结果;以 得到诉请文本中每条诉请对应的每个第一数据集合中两个文本的匹配结果。
在一种可能的实现方式中,上述的第二文本匹配子模块,具体用于对于 任一诉请对应的任一第二数据集合,根据该第二数据集合确定该第二数据集 合中两个文本的表征向量;将该第二数据集合中两个文本的表征向量输入预 先建立的判决完备性检测模型,获得该第二数据集合中两个文本的匹配结果; 以得到每条诉请对应的每个第二数据集合中两个文本的匹配结果。
在一种可能的实现方式中,上述的语义冲突检测模块可以包括:语义关 系确定子模块和语义冲突确定子模块。
语义关系确定子模块,用于将目标诉请对应的说理句子与目标诉请对应 的判决句子输入预先建立的语义关系检测模型,获得目标诉请对应的说理句 子与目标诉请对应的判决句子的语义关系。
语义冲突确定子模块,用于根据目标诉请对应的说理句子与目标诉请对 应的判决句子的语义关系,确定目标诉请对应的说理句子与目标诉请对应的 判决句子是否存在语义冲突。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 还包括:预警信息输出模块。
预警信息输出模块,用于遍历诉请文本中的诉请:
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请未被说 理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历到的 诉请被所述判决文本所回应,则输出用于指示对当前遍历到的诉请说理不充 分的预警信息;
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请被说理 文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历到的诉 请未被判决文本所回应,则输出用于指示对当前遍历到的诉请判决不充分的 预警信息;
若当前遍历到的诉请对应的第一检测结果指示当前遍历到的诉请未被说 理文本所回应,且当前遍历到的诉请对应的第二检测结果指示当前遍历到的 诉请未被判决文本所回应,则输出用于指示当前遍历到的诉请被遗漏的预警 信息。
在一种可能的实现方式中,上述实施例提供的裁判文书的质量评估装置 中的文本获取模块702可以包括:信息抽取子模块、诉请文本获取子模块、 说理文本获取子模块和判决文本获取子模块。
信息抽取子模块,用于从目标裁判文书中抽取原告诉称部分、判决理由 与依据部分以及判决主文部分。
诉请文本获取子模块,用于将原告诉称部分中的每条诉请抽取出来组成 诉请文本。
说理文本获取子模块,用于利用指定分隔符将判决理由与依据部分划分 为多个句子,由对判决理由与依据部分划分得到的多个句子组成说理文本。
判决文本获取子模块,用于利用指定分隔符将判决主文部分划分为多个 句子,由对判决主文部分划分得到的多个句子组成判决文本。
在一种可能的实现方式中,诉请文本获取子模块,还用于若诉请文本中 不包含指定词,则在诉请文本的后面附加一条与指定词相关的诉请。
信息抽取子模块,还用于从目标裁判文书中抽取尾部信息。
文本获取模块702还可以包括:句子抽取子模块。
句子抽取子模块,用于从信息抽取子模块抽取出的尾部信息中抽取出包 含指定词的句子。
说理文本获取子模块,还用于将句子抽取子模块从尾部信息中抽取出的 句子附加在判决文本的后面。
判决文本获取子模块,还用于若说理文本中包含指定词,则将句子抽取 子模块从尾部信息中抽取出的句子附加在说理文本的后面。
上述实施例提供的裁判文书的质量评估装置还包括:第一模型构建模块。
第一模型构建模块,用于获取训练裁判文书;从所述训练裁判文书中获 取诉请文本和说理文本;对于从训练裁判文书中获取的诉请文本中的任一条 诉请,将该条诉请与说理文本中正确回应该条诉请的句子所组成的文本对确 定为正样本,将该条诉请与说理文本中非正确回应该诉请的句子所组成的文 本对确定为负样本,以获得针对每条诉请确定的正样本和负样本;生成每个 样本对应的第一数据集合,并将一个第一数据集合作为一个训练数据,由所 有的训练数据组成第一训练数据集;其中,一个样本对应的第一数据集合至 少包括该样本的样本标签和该样本中的两个文本;利用第一训练数据集中的 训练数据训练初始的说理完备性检测模型。
优选的,一个样本对应的第一数据集合中还包括该样本中的两个文本分 别对应的位置信息;其中,两个文本中诉请对应的位置信息为,该诉请在诉 请文本中的位置信息,两个文本中正确回应该诉请的句子或者非正确回应该 诉请的句子对应的位置信息为,该句子在说理文本中的位置信息。
上述实施例提供的裁判文书的质量评估装置还包括:第二模型构建模块。
第二模型构建模块,用于获取训练裁判文书;从训练裁判文书中获取诉 请文本和判决文本;对于诉请文本中的任一条诉请,将该条诉请与判决文本 中正确回应该条诉请的句子所组成的文本对确定为正样本,将该条诉请与判 决文本中非正确回应该诉请的句子所组成的文本对确定为负样本,以获得针 对每条诉请确定的正样本和负样本;生成每个样本对应的第二数据集合,并 将一个第二数据集合作为一个训练数据,由所有的训练数据组成第二训练数 据集;其中,一个样本对应的第二数据集合至少包括该样本的样本标签和该样本中的两个文本;利用第二训练数据集中的训练数据训练初始的判决完备 性检测模型。
优选的,一个样本对应的第二数据集合中还包括该样本中的两个文本分 别对应的位置信息;其中,两个文本中诉请对应的位置信息为,该诉请在诉 请文本中的位置信息,两个文本中正确回应该诉请的句子或者非正确回应该 诉请的句子对应的位置信息为,该句子在判决文本中的位置信息。
本申请实施例还提供了一种裁判文书的质量评估设备,请参阅图8,示出 了该裁判文书的质量评估设备的结构示意图,该评估设备可以包括:至少一 个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总 线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804 的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804 完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器 (non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序 用于:
获取目标裁判文书;
从目标裁判文书中获取目标文本,其中,目标文本包括诉请文本和说理 文本,诉请文本包括至少一条诉请;
通过预先建立的说理完备性检测模型,检测诉请文本中的每条诉请是否 被所述说理文本所回应,获得每条诉请对应的第一检测结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于 处理器执行的程序,所述程序用于:
获取目标裁判文书;
从目标裁判文书中获取目标文本,其中,目标文本包括诉请文本和说理 文本,诉请文本包括至少一条诉请;
通过预先建立的说理完备性检测模型,检测诉请文本中的每条诉请是否 被说理文本所回应,获得每条诉请对应的第一检测结果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包 括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括 没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。