CN116011428B - 民事案件信息抽取与判决预测的方法、装置、介质和设备 - Google Patents
民事案件信息抽取与判决预测的方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN116011428B CN116011428B CN202310282184.4A CN202310282184A CN116011428B CN 116011428 B CN116011428 B CN 116011428B CN 202310282184 A CN202310282184 A CN 202310282184A CN 116011428 B CN116011428 B CN 116011428B
- Authority
- CN
- China
- Prior art keywords
- prediction
- civil
- civil case
- case
- topological graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 120
- 238000000605 extraction Methods 0.000 claims abstract description 86
- 238000012937 correction Methods 0.000 claims description 95
- 239000000523 sample Substances 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 20
- 239000013074 reference sample Substances 0.000 claims description 14
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 239000002243 precursor Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种民事案件信息抽取与判决预测的方法、装置、介质和设备,涉及机器学习技术领域。该方法包括:获取标注的民事案件文本数据,将其输入到民事案件信息抽取模型中以获取民事案件要素原子,将其输入到民事案件判决预测模型中,以获取预测判决结果和与该预测判决结果对应的预测过程;获取修正民事案件要素原子,并对民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子,并获取新的预测判决结果和与该预测判决结果对应的预测过程;循环执行上述操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和预测过程。本发明可提升预测判决结果的准确性。
Description
技术领域
本申请涉及机器学习技术领域,尤其是一种民事案件信息抽取与判决预测的方法、装置、介质和设备。
背景技术
法律案件判决预测任务(Legal Judgement Prediction,LJP)是法律智能领域中最基础的任务。在民事案件判决预测任务中,处理过程不仅需要分析案件事实,还需关注原告诉求、案件审理、论辩等过程,影响判决结果的要素更加复杂。因此,民事案件判决预测需要具备以下要求:(a)预测判决的准确性;(b)对判决产生的过程进行解释;(c)判决产生的过程应符合相关法律规定,且能够受到领域专家的控制并及时做出调整。
现有的法律案件判决任务主要采用三类方法:(1)基于人工规则、特征工程的方法:使用人工设计的规则、文本特征等处理法律案件文本数据,获取其文本表示特征,并基于文本表示特征预测案件判决;(2)端到端深度学习方法:采用文本分类方法,基于深度学习模型直接在标注的案件判决数据上训练,获得判决预测模型,再以案件的文本数据为输入,直接预测判决结果类别;(3)基于多任务的流水线方法:将案件判决的预测分解为多个子任务,如案件情节预测、案件信息抽取、法条预测、罪名预测等,并联合多个子任务的模块预测最终的案件判决。
现有方法在民事案件判决预测任务上面临着以下问题:(1)民事案件的情节复杂程度高、原告诉求的多样性更大,并且涉及到大量的运算、推理过程。基于人工规则、特征工程的方法无法全面地处理民事案件中复杂多样的具体情节,提高了系统搭建的人工成本。基于端到端的深度学习方法,以预训练语言模型微调方法为代表,虽能够处理多样的案件情节,但不透明的学习、推理过程导致模型难以对预测结果给出解释。现有方法均难以准确处理数值运算、推理等精确度要求高的操作,使得预测的判决结果并不可靠。(2)民事案件信息的人工标注成本高、难度大。尤其当分解产生多个子任务时,难以获得充足的标注数据训练各子任务模块,限制了子任务的规模和性能,进而影响预测判决的准确性。因此,亟需一种民事案件判决预测的方法,能抽取复杂多样的案件情节要素,并给出符合领域要求的判决推理过程与依据,同时减少额外数据标注产生的开销,适用于案件信息人工标注数据稀缺、标注难度大的场景。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的民事案件信息抽取与判决预测的方法、装置和计算机设备。
根据本申请的一个方面,提供了一种民事案件信息抽取与判决预测的方法,该方法包括:
S1,获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
S2,将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
S3,将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程;
S4,将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;
S5,根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
S6,将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程;
S7,循环执行S4至S6,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
根据本申请的又一方面,提供了一种民事案件信息抽取与判决预测的装置,所述装置包括:
文本获取单元,用于获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
要素原子获取单元,用于将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
预测判决单元,用于将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程;
反绎修正单元,用于将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;
抽取模型更新单元,用于根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
预测判决更新单元,用于将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程;
预测判决输出单元,用于依次循环执行反绎修正单元、抽取模型更新单元和预测判决更新单元的操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
根据本申请的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,以实现上述的民事案件信息抽取与判决预测的方法。
根据本申请的又一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述处理器执行所述计算机程序时,以实现上述的民事案件信息抽取与判决预测的方法。
由此可见,本发明的技术方案首先获取标注的民事案件文本数据,并将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子,然后将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程,相比于现有技术中仅输出预测判决结果,本发明的技术方案同时输出预测判决结果和预测过程,使得本系统输出的预测判决结果更具科学性、权威性和指导性,同时便于用户根据预测过程评估预测判决结果的准确性,增强用户对判决预测结果的信任度;
再者,本发明的技术方案采用反绎策略对民事案件信息抽取模型进行迭代更新,具体地将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;并根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;然后将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程。最后,循环执行上述对民事案件信息抽取模型进行迭代更新的操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程,进一步提升判决预测结果的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种民事案件信息抽取与判决预测的方法的流程示意图;
图2示出了本申请实施例提供的另一种民事案件信息抽取与判决预测的方法的流程示意图;
图3示出了本申请实施例提供的一种判决预测模型初始化和反绎修正模型初始化的流程示意图;
图4示出了本申请实施例提供的一种预测拓扑图结构的流程示意图;
图5示出了本申请实施例提供的一种民事案件信息抽取模型的流程示意图;
图6示出了本申请实施例提供的一种民事案件判决预测模型的流程示意图;
图7示出了本申请实施例提供的一种反绎修正模型的流程示意图;
图8示出了本申请实施例提供的一种民事案件信息抽取与判决预测的装置示意图;
图9示出了本申请实施例提供的一种计算机可读存储介质的结构示意图;
图10示出了本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了本申请实施例提供的一种民事案件信息抽取与判决预测的方法的流程示意图,图2示出了本申请实施例提供的另一种民事案件信息抽取与判决预测的方法的流程示意图,如图1和图2所示:
S1: 获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
本步骤中,民事案件包括合同纠纷案件、劳动纠纷案件、婚姻家庭纠纷案件、财产权属纠纷案件、商业纠纷案件、知识产权纠纷案件等。标注的判决结果包括胜诉、败诉、调解和撤诉。具体地,标注的民事案件文本数据可以用符号表示为:,其中,是案件信息文本,/>是原告诉求文本,J是判决结果,Accept是胜诉,Reject是败诉,Mediation是调解,Dismiss是撤诉。
S2: 将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
本步骤中,民事案件要素原子包括情节要素原子和属性要素原子。具体地,民事案件要素原子根据取值类型的不同被分为情节要素原子和属性要素原子。情节要素原子用于描述案件中是否出现了某种情节,如“是否签订合同”、“是否存在夫妻借款情节”、“是否归还部分借款”等。情节要素原子的取值范围均为“真”或“假”。属性要素原子用于描述案件中具体的属性取值,如“借款人”、“借款日期”、“原告诉求的借款利息”等。属性要素原子涵盖为“日期”、“人名”、“金额”、“比例”等多种取值类型。同时对于每种取值类型,定义了规范的格式。例如,“日期”类型的规范格式为“Y年M月D日”。每个属性要素原子的取值为具体民事案件中出现的对应内容。
S3: 将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程;
S4: 将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;
本步骤中,修正民事案件要素原子包括修正情节要素原子和修正属性要素原子。
S5: 根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
S6: 根据新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程。
S7:循环执行S4-S6,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
由此可见,本发明的技术方案首先获取标注的民事案件文本数据,并将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子,然后将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程,相比于现有技术中仅输出预测判决结果,本发明的技术方案同时输出预测判决结果和预测过程,使得本系统输出的预测判决结果更具科学性、权威性和指导性,同时便于用户根据预测过程评估预测判决结果的准确性,增强用户对预测结果的信任度,提升用户体验;
再者,本发明的技术方案采用反绎策略对民事案件信息抽取模型进行迭代更新,具体地将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子,并根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;然后将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程。最后,循环执行上述对民事案件信息抽取模型进行迭代更新的操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程,进一步提升预测判决结果的准确性。
图3示出了本申请实施例提供的一种判决预测模型初始化和反绎修正模型初始化的流程示意图,如图3所示,在本发明的一些实施例中,在S1步骤前,所述方法还包括;
S01,构建包括案件类型标识、预测算子、输出要素原子和输入要素原子的判决预测算子序列,其中,预测算子的类型包括逻辑运算、集合运算和数值运算;
本步骤中,举例说明,判决预测算子序列是按照本申请设计的预测算子,根据法律条文、重要司法解释和专家的案件处理方法将民事案件情节分析、判决产生过程转换为易编写、可运行的判决预测流程。判决预测算子序列与需要处理的案件类型密切相关,如借贷案件、知识产权纠纷和劳动争议等,例如,借贷案件的标识为Loan,知识产权纠纷的标识为Intellectual Property,劳动争议的案件标识为Labor Contract。进一步地,将带有Loan标识的判决预测算子序列作为借贷案件的判决预测算子序列集合,同理确定知识产权纠纷的判决预测算子序列集合和劳动争议与人事争议的判决预测算子序列集合等,以便于根据不同案件类型的判决预测算子序列确定相应案件类型的预测拓扑图结构,从而使得本发明的技术方案适用于各种民事案件的判决预测,适用性强,应用范围广。在具体应用中可以根据需求调整判决预测算子序列,本身对判决预测算子序列的具体形式不作进一步限定,任何一种形式的判决预测算子序列均在本申请的保护范围内。每一个判决预测算子序列中的预测算子包括逻辑运算、集合运算和数值运算中的一种或者多种,本申请对判决预测算子序列中的预测算子的类型也不做进一步限定,任何一种形式的预算预测算子均在本申请的保护范围内。
在此,对判决推理预测算子进行举例解释说明。判决推理预测算子是本申请根据专家处理民事案件的流程和策略抽象出来的基础的运算、推理操作。根据类型的不同分为逻辑运算、集合运算、数值运算。
逻辑运算对应于最基础的逻辑推理操作。如“与”、“或”、“蕴含”等。其中,“与”预测算子判断其所有输入要素原子是否全部为“真”,符合该条件时输出要素原子取值为“真”,否则取值为“假”;“或”预测算子判断其是否存在取值为“真”的输入要素原子,符合该条件时其输出要素原子的取值为“真”否则为假。“蕴含”预测算子(imply)判断其输入要素原子是否符合蕴含式。例如:
其中,输入要素原子“couple_in_defendant”、“loan_during_marriage”、“loan_for_couple_living”的含义分别为“原告诉求的被告存在夫妻”、“借款发生在婚姻关系存续期间”、“借款用于夫妻生活”;输出要素原子“couple_joint_debt”的含义为“认定夫妻共同借贷”。需要说明的是,该判决预测算子序列还设置有案件类型标识Loan,为了方便描述将其省略。此时,若“couple_in_defendant”的取值为“假”,则输出要素原子取值为“真”;若“couple_in_defendant”的取值为“真”,并且“loan_during_marriage”、“loan_for_couple_living”的取值均为“真”,则输出要素原子的取值为“真”;其他情况,输出要素原子的取值为“假”。
集合运算对应于集合之间的运算操作,其输入要素原子的取值均为集合,如“交集”、“判断子集”等。其中,“交集”预测算子运算所有输入要素原子对应集合相互重合的部分,例如输入要素原子为“被告中出现的夫妻”和“案件描述中已离婚的夫妻”,则运算得到输出要素原子“被告中出现的已离婚的夫妻”的集合;“判断子集”预测算子的输入要素原子均为集合,如“诉求的被告”、“案件描述的被告”,通过判断“诉求的被告”是否为“案件描述的被告”的子集,获得输出要素原子“诉求被告合法”的取值为“真”或“假”。
数值运算对应于数值相关的计算操作。例如,“等于”预测算子。其功能为判断两个输入要素原子的取值是否相等,得到输出要素原子的取值为“真”或“假”。
又例如,“借款利息转换借款利率”预测算子():该预测算子的功能为将利息金额转换为利率;输入要素原子为“借款利息”(/>)、“借款金额”(/>)、“借款期限”(/>);输出要素原子为“借款利率”(/>)。该预测算子根据输入要素原子的取值,通过数值运算得到输出要素原子的取值。又例如,“日期加法”预测算子。该预测算子的功能为根据起始日期和一段时间,计算结束的日期:输入要素原子。若输入要素原子为“借款日期”和“约定的借款期限”,通过该预测算子进行日期计算的到输出要素原子“约定的还款日期”。
S02,解析所述判决预测算子序列,获取所述输入要素原子与所述输出要素原子之间的预测算子依赖关系;
S03,以所述输入要素原子为起始节点、所述输出要素原子为结束节点,所述预测算子依赖关系为边,所述起始节点与所述结束节点之间设置有中间节点,节点与节点之间通过边连接,节点到节点的边具有指向性,从而构建预测拓扑图结构;
本步骤中,推理拓扑图是一种有向无环图,其特点是每个边是有方向的,并且图中没有环路。对应于判决预测算子序列,图中的节点代表要素原子,边代表预测算子运算,即每个边会从输入要素原子指向通过该预测算子运算得到输出要素原子,也可称为预测算子依赖关系。每个节点均有取值,对应于要素原子的取值。同样以“借款利息转换借款利率”预测算子()为例。该预测算子运算转换至推理拓扑图后会产生四个节点以及三个有向边。其中,四个节点分别对应于每个要素原子,三条边由输入要素原子的节点指向输出要素原子的节点。在推理过程中,三个输入要素原子对应的节点取值会被初始化或者基于他们各自前序节点运算得到,而通过“借款利息转换借款利率”预测算子的运算,也得到了输出要素原子“借款利率”的取值。
例如,推理拓扑图的节点类型分为三类:起始节点、中间节点和结束节点。起始节点没有依赖的前序节点,对应于后续民事案件要素原子抽取流程产生的案件要素原子。比如,上述的“借款利息”、“借款金额”、“借款期限”、“诉求的被告”、“案件描述的被告”。这些属于直接从民事案件文本数据中抽取到的案件要素原子。中间节点具有依赖的前序节点以及后继节点,对应于判决推理程序运行过程中产生的中间推理结果。比如,上述的“诉求被告合法”、“借款利率”。结束节点只有依赖的前序节点,是唯一的。对应于推理最终产生的“案件判决结果“。例如,图4示出了本申请实施例提供的一种预测拓扑图结构的流程示意图,如图4所示,第一行的节点为起始节点,代表输入要素原子;第二行和第三行的节点为中间节点;最后一行为结束节点,代表输出要素原子。通过图4可以看出节点与节点之间通过带有箭头的边连接,这些边代表节点与节点之间的预测算子依赖关系。需要说明的是,图4仅是示例性说明,本申请对中间节点的数量不做进一步限定,中间节点的数量根据实际输入要素原子与输出要素原子之间的预测算子依赖关系确定。可见,本申请至此完成预测拓扑图结构的构建,即完成判决预测模型初始化。
S04,将不同的判决结果作为结束节点,基于所述预测拓扑图中的拓扑顺序逆向遍历每个前序节点,从而采样预设数量的预测拓扑图节点的取值组合,并为每种判决结果对应生成反绎修正样例集合。
本步骤中,本申请结果节点的取值包括“胜诉”、“败诉”、“调解”和“撤诉”,图3仅是以“胜诉”和“败诉”为例的示意图,本申请对结果节点的取值不作进一步限定。将不同的判决结果作为结束节点,基于步骤S03得到的预测拓扑图中的拓扑顺序逆向遍历每个前序节点,从而采样预设数量的预测拓扑图节点的取值组合,并为每种判决结果对应生成反绎修正样例集合。
需要说明的是,步骤S04是反绎预测流程,其基于给定的“输出要素原子”取值以及“输入要素原子”的候选项,采样符合条件的“输入要素原子”取值。对于采样得到的“输入要素原子”取值,可以通过该推理预测算子,运算得到给定的“输出要素原子”取值。以“或”预测算子为例。假设该预测算子有两个输入要素原子,取值范围均为“真”或“假”。当输出要素原子的取值为“真”时,该预测算子的反绎推理执行程序采样出的两个输入要素原子的取值组合为{“真”,“真”}、{“真”,“假”}、{“假”,“真”}中的随机一种。
需要进一步说明的是,每种案件类型的结果节点的取值确定后,由于其前序节点取值范围的广泛性,可以随机初始化采样到大量的与该结果节点对应的预测拓扑图结构,保证了反绎修正样例集合的多样性。
图5示出了本申请实施例提供的一种民事案件信息抽取模型的流程示意图,如图5所示,在本发明的一些实施例中,在所述将所述民事案件文本数据输入到构建的民事案件信息抽取模型中以获取民事案件要素原子之前,所述方法还包括:
对所述民事案件文本数据进行预处理,将所述民事案件文本数据转化为预设输入格式文本,其中,所述预设输入格式文本包括顺次拼接的案件要素原子提示文本、占位符、案件情节文本和原告诉求文本;例如,案件要素原子提示文本采用问答的形式,为人工设计的针对不同案件要素原子提出的问题。以案件要素原子“借款日期”为例。其提示文本为“本借贷案件的借款日期是那一天?”,则转换为任务形式的输入文本为“本借贷案件的借款日期是那一天?【占位符】案件描述文本为XXX原告诉求文本为XXX”。其中案件描述文本和原告诉求文本为不同案件数据的对应内容;通过图5可知,民事案件信息抽取模型的输入为“案件要素原子提示文本+占位符+案件情节文本+原告诉求文本”的预设输入格式文本,输出文本的格式为“占位符+模型生成文本”,在这里,输出文本中的“占位符”就是预设输入格式文本中的“占位符”。可见,“占位符”是抽取模型的一个特殊符号,起到标识的作用。
由此可见,本申请在将民事案件文本数据输入到民事案件信息抽取模型中之前,首先对其进行了统一文本格式的预处理,从而使得民事案件抽取模型能够对形式多样的案件要素原子取值进行抽取,提升了本申请所请求保护技术方案的广泛应用性。
仍如图5所示,在本发明的一些实施例中,所述S2,将所述民事案件文本数据输入到构建的民事案件信息抽取模型中以获取民事案件要素原子包括:
S21,所述民事案件信息抽取模型包括编码器和解码器;
本步骤中,本申请中的民事案件信息抽取模型采用Transformer模型的T5(Text-to-Text Transformer)结构,由于Transformer模型的T5(Text-to-Text Transformer)结构为现有技术,在此不再赘述。
S22,将所述预设输入格式文本输入所述民事案件信息抽取模型,所述编码器接收所述预设输入格式文本,所述解码器识别所述预设输入格式文本中的占位符,并根据所述占位符生成包括占位符、模型生成文本的输出格式文本,其中,所述模型生成文本包括对应民事案件要素原子的取值信息;
本步骤中,编码器接受预设输入格式文本,解码器针对预设输入格式文本的“占位符”生成包含对应案件要素原子的取值信息的文本,其格式为“【占位符】模型生成文本”。同样以抽取案件要素原子“借款日期”为例。根据上述的预设输入格式文本,抽取模型输出的文本为:“【占位符】本借贷案件的借款日期是20190815”。
S23,将所述输出格式文本转化为包括情节要素原子和属性要素原子的民事案件文本数据。
本步骤中,民事案件信息抽取模型生成的文本中包含描述性文本,如上述例子的“本借贷案件的借款金额是XXX”。通过本步骤从模型生成的文本提取出案件要素原子的取值,并转换为该原子取值类型的规范格式。同样以抽取案件要素原子“借款日期”为例。根据上述的输出文本“【占位符】本借贷案件的借款日期是20190815”,规范化后的该案件要素原子的取值为“2019年8月15日”。可见,本申请按照每个案件要素原子的类型,对模型输出文本进行规范化,便于后续根据民事案件要素原子对判决结果进行预测。
进一步地,民事案件信息抽取模型的预设输入格式文本包括:
民事案件信息抽取模型的输出格式文本包括:
是单条预设输入格式文本,/>是民事案件抽取模型,/>是民事案件抽取模型参数,/>是拼接操作,/>是民事案件抽取模型根据预设输入格式文本生成的第k个词素,/>是民事案件抽取模型基于预设输入格式文本和已生成的第1至k-1位置词素计算得到各词素的概率分布,/>是基于上述概率分布,取词表中概率最大的一个词素。
可见,虽然本申请采用的民事案件信息抽取模型为现有技术,但是为了应用Transformer模型解决民事案件信息抽取与判决预测的技术问题,本申请对该模型的输入文本进行了针对性的设计,同时将该输入文本导入该模型中,获取预期的输出文本,以保证判决预测结果的快速性和精确性。
图6示出了本申请实施例提供的一种民事案件判决预测模型的流程示意图,如图6所示,在本发明的一些实施例中,所述S3,将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程具体包括:
S31,根据输入的所述民事案件要素原子初始化所述步骤S03中构建的预测拓扑图结构中的起始节点;
S32,基于所述预测拓扑图中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值;
S33,输出与所述结束节点对应的预测判决结果和与所述预测判决结果对应的预测过程。
例如,以“借款利息转换借款利率”预测算子为例。其输入要素原子为“借款利息”、“借款金额”、“借款期限”,输出要素原子为“借款利率”。当“借款利息”取值为“24000元”,“借款金额”取值为“100000元”,“借款期限”取值为“12个月”时,经过“借款利息转换借款利率”预测算子运算得到输出要素原子“借款利率”的取值为“年利率24%”。
可见,本申请通过预测拓扑图结构进行判决预测,只要获取到输入的民事案件要素原子即可获得唯一的结束节点的取值,即唯一预测判决结果和与所述预测判决结果对应的预测过程,准确性高。
图7示出了本申请实施例提供的一种反绎修正模型的流程示意图,如图7所示,在本发明的一些实施例中,所述S4,根据所述民事案件文本数据、预测判决结果与预测判决结果对应的预测过程获取修正民事案件要素原子包括:
S41,将所述民事案件文本数据中标注的判决结果与所述预测判决结果进行比较,筛选出错误的预测判决结果对应的拓扑图结构,并将其结束节点取值修正为标注的判决结果,获得待修正预测拓扑图结构;
本步骤中,假设筛选出错误的预测判决结果对应的拓扑图结构中结束节点的取值是“胜诉”,但是所述民事案件文本数据中标注的判决结果为“败诉”,则将结束节点的取值修正为“败诉”,从而获得结束节点为“败诉”的待修正预测拓扑图结构。
S42,将所述待修正预测拓扑图结构与步骤S04中得到的反绎修正样例集合进行匹配,获取反绎修正参考样例;
本步骤中,遍历反绎修正样例集合中每一个反绎修正样例,然后通过对比待修正预测拓扑图结构与每一个反绎修正样例的结构和节点取值等特征的相似性,获取反绎修正参考样例。
推理过程的相似性是指通过定量的方式衡量两个判决推理过程对应的推理拓扑图的图结构和节点取值等特征的相似程度。
其中,为判决预测过程,/>为判决预测过程/>和/>的相似程度,/>为判决预测过程/>对应的预测拓扑图,包括代表预测算子的边集合/>和节点取值;节点取值/>中每个案件要素原子/>对应的节点取值为/>,/>为预测拓扑图/>和/>的相似度,/>为预测拓扑图/>和/>中取值相同的节点数量,/>为预测拓扑图的节点数量。
需要说明的是,本实施例仅是对相似度计算方法进行举例说明,任何一种相似度计算方法均在本申请的保护范围内。
S43,将所述待修正预测拓扑图结构与所述反绎修正参考样例进行匹配,确定所述待修正预测拓扑图结构的待修正起始节点集合;
本步骤中,将待修正预测拓扑图结构的起始节点与反绎修正参考样例的起始节点进行匹配,具体地,比较待修正预测拓扑图结构和反绎修正参考样例中取值不同的节点,并根据步骤S03步骤中的预测拓扑图结构,搜索所有取值不同的节点前序依赖的起始节点,得到待修正的起始节点集合。
S44,根据所述待修正起始点集合确定反绎起始点修正策略集合;
本步骤中,从待修正的起始节点集合中随机选取预设数量的节点,并从选取得到的节点各自的修正候选项中随机选择一种异于修正前的取值。其中,若被选取的起始节点对应的案件要素原子为情节要素原子,则其修正候选项为“真”或“假”;若被选取的起始节点对应的案件要素原子为属性要素原子,则其修正候选项为民事案件文本数据中出现的取值类型的实体。比如,被选取的起始节点对应于情节要素原子“是否归还部分借款”,修正前的取值为“真”,则修正后的取值为“假”。比如,被选取的起始节点对应于属性要素原子“借款金额”,修正前的取值为“5000元”,并且民事案件文本数据中出现的金额有“10000元”、“5000元”和“15000元”,则修正后的取值为“10000元”或“15000元”。本步骤重复预设次数,最后采样得到反绎修正策略集合。
需要说明的是,如图7所示,待修正预测拓扑图结构与反绎修正参考样例进行匹配后发现起始节点中第二个节点是一样的,都是黑色节点,则将第一个灰色节点、第三个灰色节点和第四个灰色节点作为待修正的起始节点集合。进一步地,将这三个点按照排列组合的方式,将第一个节点和第二个节点设置为黑色,第三个节点设置为灰色,从而构建第一种反绎修正策略集合;将第一个节点和第三个节点设置为黑色,第二个节点设置为灰色,从而构建第二种反绎修正策略集合;将第一个节点设置为灰色,第二个节点和第三个节点设置为黑色,从而构建第三种反绎修正策略集合。
S45,遍历所述反绎起始点修正策略集合中的每一种反绎起始点修正策略中的起始点,基于步骤S03中的预测拓扑图结构中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值,从而获取修正预测拓扑图结构集合;
S46,遍历所述修正预测拓扑图结构集合中每一个修正预测拓扑图结构与所述反绎修正样例集合进行匹配,确定最佳的反绎修正预测拓扑图结构;
本步骤中,最佳的修正策略优先选取使修正后判决推理结果符合标注判决结果的修正策略。如果存在多个,则随机选择其中一种修正策略。若不存在,则选择预测过程相似性比较的方式,得到修正后推理过程与标注判决结果对应的反绎修正样例集合中各推理过程最相似的一个作为最佳修正策略。
S47,输出与所述最佳的反绎修正预测拓扑图结构对应的修正民事案件要素原子。
由此可见,本申请针对预测判决结果与标注的真实判决结果不符的样本,通过反绎修正流程,得到这些样本的案件要素原子的修正策略。通过修正这些案件要素原子能够使模型对于这些样本的预测判决结果与标注判决结果一致,或者判决预测过程更接近于能够推理出标注判决结果的推理过程,提升预测判决结果的准确性。
进一步地,S42,将所述待修正预测拓扑图结构与步骤S04中得到的反绎修正样例集合进行匹配,获取反绎修正参考样例包括:
S421,将所述反绎修正样例集合划分为第一诉求集合、第二诉求集合、第三诉求集合和第四诉求集合;
本步骤中,例如第一诉求集合为胜诉集合,第二诉求集合为败诉集合,第三诉求集合为调解集合,第四诉求集合为撤诉集合。
S422,识别所述待修正预测拓扑图结构中的结束节点,确定所述结束节点对应的诉求集合;
S423,在所述结束节点对应的诉求集合中查询与所述待修正预测拓扑图结构相似的拓扑图结构,从而获取反绎修正参考样例。
例如,若待修正预测拓扑图结构的结束节点为“胜诉”,则会从判决结果为“胜诉”的反绎修正样例集合通过比较预测过程的相似程度,获得最相似的反绎修正样例。
由此可见,本申请通过对反绎修正样例集合进行类型划分,可以提升系统的运行效率,从而提升判决预测速度。
图8示出了本申请实施例提供的一种民事案件信息抽取与判决预测的装置示意图,该装置800包括:
文本获取单元810,用于获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
要素原子获取单元820,用于将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
预测判决单元830,用于将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程;
反绎修正单元840,用于将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;
抽取模型更新单元850,用于根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
预测判决更新单元860,用于将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程;
预测判决输出单元870,用于依次循环执行反绎修正单元、抽取模型更新单元和预测判决更新单元的操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
在本发明的一些实施例中,所述装置800还包括:
预测拓扑图结构构建单元,用于构建包括案件类型标识、预测算子、输出要素原子和输入要素原子的判决预测算子序列,其中,预测算子的类型包括逻辑运算、集合运算和数值运算;解析所述判决预测算子序列,获取所述输入要素原子与所述输出要素原子之间的预测算子依赖关系;以所述输入要素原子为起始节点、所述输出要素原子为结束节点,所述预测算子依赖关系为边,所述起始节点与所述结束节点之间设置有中间节点,节点与节点之间通过边连接,节点到节点的边具有指向性,从而构建预测拓扑图结构;
反绎修正样例集合生成单元,用于将不同的判决结果作为结束节点,基于所述预测拓扑图中的拓扑顺序逆向遍历每个前序节点,从而采样预设数量的预测拓扑图节点的取值组合,并为每种判决结果对应生成反绎修正样例集合。
在本发明的一些实施例中,所述装置800还包括:
预设输入格式文本获取单元,用于对所述民事案件文本数据进行预处理,将所述民事案件文本数据转化为预设输入格式文本,其中所述预设输入格式文本包括顺次拼接的案件要素原子提示文本、占位符、案件情节文本和原告诉求文本;
要素原子获取单元820,具体用于将所述预设输入格式文本输入所述民事案件信息抽取模型,其中,所述民事案件信息抽取模型包括编码器和解码器;所述编码器接收所述预设输入格式文本,所述解码器识别所述预设输入格式文本中的占位符,并根据所述占位符生成包括占位符、模型生成文本的输出格式文本,其中,所述模型生成文本包括对应民事案件要素原子的取值信息;将所述输出格式文本转化为包括情节要素原子和属性要素原子的民事案件文本数据。
在本发明的一些实施例中,要素原子获取单元820,具体用于构建所述预设输入格式文本,该预设输入格式文本包括:
还用于构建所述输出格式文本,该输出格式文本包括:
其中,是单条预设输入格式文本,/>是民事案件抽取模型,/>是民事案件抽取模型参数,/>是拼接操作,/>是民事案件抽取模型根据预设输入格式文本生成的第k个词素,/>是民事案件抽取模型基于预设输入格式文本和已生成的第1至k-1位置词素计算得到各词素的概率分布,是基于上述概率分布,取词表中概率最大的一个词素。
预测判决单元830,具体用于根据输入的所述民事案件要素原子初始化所述预测拓扑图结构中的起始节点;基于所述预测拓扑图中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值;输出与所述结束节点对应的预测判决结果和与所述预测判决结果对应的预测过程。
反绎修正单元840,具体用于将所述民事案件文本数据中标注的判决结果与所述预测判决结果进行比较,筛选出错误的预测判决结果对应的预测拓扑图结构,将该预测拓扑图结构中结束节点的取值修改为标注的判决结果,获得待修正预测拓扑图结构;将所述待修正预测拓扑图结构与所述反绎修正样例集合进行匹配,获取反绎修正参考样例;将所述待修正预测拓扑图结构与所述反绎修正参考样例进行匹配,确定所述待修正预测拓扑图结构的待修正起始节点集合;根据所述待修正起始点集合确定反绎起始点修正策略集合;遍历所述反绎起始点修正策略集合中的每一种反绎起始点修正策略中的起始点,基于所述预测拓扑图中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值,从而获取修正预测拓扑图结构集合;遍历所述修正预测拓扑图结构集合中每一个修正预测拓扑图结构与所述反绎修正样例集合进行匹配,确定最佳的反绎修正预测拓扑图结构;输出与所述最佳的反绎修正预测拓扑图结构对应的修正民事案件要素原子。
反绎修正单元840,还具体用于将所述反绎修正样例集合划分为第一诉求集合、第二诉求集合、第三诉求集合和第四诉求集合;识别所述待修正预测拓扑图结构中的结束节点,确定所述结束节点对应的诉求集合;在所述结束节点对应的诉求集合中查询与所述待修正预测拓扑图结构相似的拓扑图结构,从而获取反绎修正参考样例。
需要说明的是民事案件信息抽取与判决预测的装置800的工作原理、实施过程和功能实现均与上民事案件信息抽取与判决预测的方法的实施例对应相同,相同内容不再赘述。
图9示出了本申请实施例提供的一种计算机可读存储介质的结构示意图,如图9所示,一种计算机可读存储介质900,存储有计算机程序910,该计算机程序910被处理器执行时,用于实现上述的民事案件信息抽取与判决预测的方法。上述实施例已经对民事案件信息抽取与判决预测的方法进行了详细的描述,在此不再赘述。
上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质900可以包括计算机存储介质和通信介质,还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。
作为一种可能的设计,计算机可读介质900可以包括紧凑型光盘只读储存器(compact disc read-only memory,CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器;计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且,任何连接线也可以被适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、DSL或无线技术(如红外,无线电和微 波)从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或诸如红外、无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括 光盘(CD),激光盘,光盘,数字通用光盘(digital versatile disc,DVD),软盘和蓝光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光光学地再现数据。
图10为本发明实施例提供的一种计算机设备的结构示意图,如图10所示,该计算机设备1000包括存储器1020、处理器1010及存储在存储器1020上并可被处理器执行的计算机程序,其中处理器1010执行计算机程序1040时执行本发明中方法的各步骤,可以实现民事案件信息抽取与判决预测。需要说明的是,本实施例中的计算机程序1040与上述实施例中的计算机程序910相同。相同内容不再赘述。
存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有存储用于执行上述方法中的任何方法步骤的计算机程序1040的存储空间1030。计算机程序1040可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图10所述的计算机可读存储介质。计算机设备可以包括多个处理器,这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于 处理数据(例如计算机程序指令)的处理核。
综上所述,本发明的技术方案首先获取标注的民事案件文本数据,并将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子,然后将所述民事案件要素原子输入到民事案件判决预测模型中,以获取预测判决结果和与所述预测判决结果对应的预测过程,相比于现有技术中仅输出预测判决结果,本发明的技术方案同时输出预测判决结果和预测过程,使得本系统输出的预测判决结果更具科学性、权威性和指导性,同时便于用户根据预测过程评估预测判决结果的准确性,增强用户对预测结果的信任度,提升用户体验;再者,本发明的技术方案采用反绎策略对民事案件信息抽取模型进行迭代更新,具体地将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;并根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;然后将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程。最后,循环执行上述对民事案件信息抽取模型进行迭代更新的操作,直到所述民事案件预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程,进一步提升预测判决结果的准确性。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种民事案件信息抽取与判决预测的方法,其特征在于,所述方法包括:
S1,获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
S2,将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
S3,将所述民事案件要素原子输入到民事案件判决预测模型中,其中民事案件判决预测模型包括以输入要素原子为起始节点、输出要素原子为结束节点、预测算子依赖关系为边构建的预测拓扑图结构,所述预测算子依赖关系包括从所述输入要素原子指向得到所述输出要素原子的预测算子运算;基于所述预测拓扑图结构获取预测判决结果和与所述预测判决结果对应的预测过程;
S4,将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;具体地,将不同的判决结果作为结束节点,基于所述预测拓扑图结构中的拓扑顺序逆向遍历每个前序节点,从而采样预设数量的预测拓扑图节点的取值组合,并为每种判决结果对应生成反绎修正样例集合;获取待修正预测拓扑图结构,根据所述待修正预测拓扑图结构与所述反绎修正样例集合确定修正预测拓扑图结构集合,遍历所述修正预测拓扑图结构集合中每一个修正预测拓扑图结构与所述反绎修正样例集合进行匹配,确定最佳的反绎修正预测拓扑图结构;输出与所述最佳的反绎修正预测拓扑图结构对应的修正民事案件要素原子;
S5,根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
S6,将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程;
S7,循环执行S4至S6,直到所述民事案件判决预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
2.根据权利要求1所述的方法,其特征在于,所述以输入要素原子为起始节点、输出要素原子为结束节点、预测算子依赖关系为边构建的预测拓扑图结构包括;
构建包括案件类型标识、预测算子、输出要素原子和输入要素原子的判决预测算子序列,其中,预测算子的类型包括逻辑运算、集合运算和数值运算;
解析所述判决预测算子序列,获取所述输入要素原子与所述输出要素原子之间的预测算子依赖关系;
以所述输入要素原子为起始节点、所述输出要素原子为结束节点,所述预测算子依赖关系为边,所述起始节点与所述结束节点之间设置有中间节点,节点与节点之间通过边连接,节点到节点的边具有指向性,从而构建预测拓扑图结构。
3.根据权利要求1所述的方法,其特征在于,在所述将所述民事案件文本数据输入到构建的民事案件信息抽取模型中以获取民事案件要素原子之前,所述方法还包括:
对所述民事案件文本数据进行预处理,将所述民事案件文本数据转化为预设输入格式文本,其中所述预设输入格式文本包括顺次拼接的案件要素原子提示文本、占位符、案件情节文本和原告诉求文本;
所述将所述民事案件文本数据输入到构建的民事案件信息抽取模型中以获取民事案件要素原子包括:
所述民事案件信息抽取模型包括编码器和解码器;
将所述预设输入格式文本输入所述民事案件信息抽取模型,所述编码器接收所述预设输入格式文本,所述解码器识别所述预设输入格式文本中的占位符,并根据所述占位符生成包括占位符、模型生成文本的输出格式文本,其中,所述模型生成文本包括对应民事案件要素原子的取值信息;
将所述输出格式文本转化为包括情节要素原子和属性要素原子的民事案件文本数据。
4.根据权利要求3所述的方法,其特征在于,
所述预设输入格式文本包括:
所述输出格式文本包括:
其中,Sin是单条预设输入格式文本,是民事案件抽取模型,θ是民事案件抽取模型参数,Concat是拼接操作,wk(Sin)是民事案件抽取模型根据预设输入格式文本生成的第k个词素,pθ(w|w1:k-1(Sin),Sin)是民事案件抽取模型基于预设输入格式文本和已生成的第1至k-1位置词素计算得到各词素的概率分布,
5.根据权利要求2所述的方法,其特征在于,所述基于所述预测拓扑图结构获取预测判决结果和与所述预测判决结果对应的预测过程具体包括:
根据输入的所述民事案件要素原子初始化所述预测拓扑图结构中的起始节点;
基于所述预测拓扑图中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值;
输出与所述结束节点对应的预测判决结果和与所述预测判决结果对应的预测过程。
6.根据权利要求2所述的方法,其特征在于,所述获取待修正预测拓扑图结构,根据所述待修正预测拓扑图结构与所述反绎修正样例集合确定修正预测拓扑图结构集合包括:
将所述民事案件文本数据中标注的判决结果与所述预测判决结果进行比较,筛选出错误的预测判决结果对应的预测拓扑图结构,将该预测拓扑图结构中结束节点的取值修改为标注的判决结果,获得待修正预测拓扑图结构;
将所述待修正预测拓扑图结构与所述反绎修正样例集合进行匹配,获取反绎修正参考样例;
将所述待修正预测拓扑图结构与所述反绎修正参考样例进行匹配,确定所述待修正预测拓扑图结构的待修正起始节点集合;
根据所述待修正起始节点集合确定反绎起始点修正策略集合;
遍历所述反绎起始点修正策略集合中的每一种反绎起始点修正策略中的起始点,基于所述预测拓扑图中的拓扑顺序正向遍历每一个后继中间节点,获取并更新所述后继中间节点的取值,直到遍历到结束节点,获取并更新所述结束节点的取值,从而获取修正预测拓扑图结构集合。
7.根据权利要求6所述的方法,其特征在于,所述将所述待修正预测拓扑图结构与所述反绎修正样例集合进行匹配,获取反绎修正参考样例包括:
将所述反绎修正样例集合划分为第一诉求集合、第二诉求集合、第三诉求集合和第四诉求集合;
识别所述待修正预测拓扑图结构中的结束节点,确定所述结束节点对应的诉求集合;
在所述结束节点对应的诉求集合中查询与所述待修正预测拓扑图结构相似的拓扑图结构,从而获取反绎修正参考样例。
8.一种民事案件信息抽取与判决预测的装置,其特征在于,所述装置包括:
文本获取单元,用于获取标注的民事案件文本数据,所述民事案件文本数据包括标注的判决结果、案件描述和原告诉求;
要素原子获取单元,用于将所述民事案件文本数据输入到民事案件信息抽取模型中以获取民事案件要素原子;
预测判决单元,用于将所述民事案件要素原子输入到民事案件判决预测模型中,其中民事案件判决预测模型包括以输入要素原子为起始节点、输出要素原子为结束节点、预测算子依赖关系为边构建的预测拓扑图结构,所述预测算子依赖关系包括从所述输入要素原子指向得到所述输出要素原子的预测算子运算;基于所述预测拓扑图结构获取预测判决结果和与所述预测判决结果对应的预测过程;
反绎修正单元,用于将所述民事案件文本数据、预测判决结果与预测判决结果的过程输入到反绎修正模型中以获取修正民事案件要素原子;具体地,将不同的判决结果作为结束节点,基于所述预测拓扑图结构中的拓扑顺序逆向遍历每个前序节点,从而采样预设数量的预测拓扑图节点的取值组合,并为每种判决结果对应生成反绎修正样例集合;获取待修正预测拓扑图结构,根据所述待修正预测拓扑图结构与所述反绎修正样例集合确定修正预测拓扑图结构集合,遍历所述修正预测拓扑图结构集合中每一个修正预测拓扑图结构与所述反绎修正样例集合进行匹配,确定最佳的反绎修正预测拓扑图结构;输出与所述最佳的反绎修正预测拓扑图结构对应的修正民事案件要素原子;
抽取模型更新单元,用于根据所述民事案件文本数据和所述修正民事案件要素原子对所述民事案件信息抽取模型进行更新,利用更新后的民事案件信息抽取模型获取新的民事案件要素原子;
预测判决更新单元,用于将新的民事案件要素原子输入到所述民事案件判决预测模型中,以获取新的预测判决结果和与所述预测判决结果对应的预测过程;
预测判决输出单元,用于依次循环执行反绎修正单元、抽取模型更新单元和预测判决更新单元的操作,直到所述民事案件判决预测模型输出的预测判决结果与标注的判决结果一致时,输出最终的预测判决结果和与所述最终的预测判决结果对应的预测过程。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述民事案件信息抽取与判决预测的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;所述处理器执行所述计算机程序时,实现如权利要求1至7中任一项所述民事案件信息抽取与判决预测的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282184.4A CN116011428B (zh) | 2023-03-22 | 2023-03-22 | 民事案件信息抽取与判决预测的方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282184.4A CN116011428B (zh) | 2023-03-22 | 2023-03-22 | 民事案件信息抽取与判决预测的方法、装置、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116011428A CN116011428A (zh) | 2023-04-25 |
CN116011428B true CN116011428B (zh) | 2023-06-23 |
Family
ID=86025090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310282184.4A Active CN116011428B (zh) | 2023-03-22 | 2023-03-22 | 民事案件信息抽取与判决预测的方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116011428B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508269A (zh) * | 2020-12-03 | 2021-03-16 | 中国科学技术大学 | 法律判决预测方法及系统 |
CN113032528B (zh) * | 2021-04-09 | 2022-12-23 | 平安国际智慧城市科技股份有限公司 | 案件分析方法、装置、设备及存储介质 |
CN114444517B (zh) * | 2022-04-11 | 2022-07-08 | 东南大学 | 一种量刑标准知识增强的数值感知的智能法律判决方法 |
-
2023
- 2023-03-22 CN CN202310282184.4A patent/CN116011428B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116011428A (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
Egwim et al. | Applied artificial intelligence for predicting construction projects delay | |
CN112528034B (zh) | 一种基于知识蒸馏的实体关系抽取方法 | |
US8818932B2 (en) | Method and apparatus for creating a predictive model | |
US8726236B2 (en) | Determining context specific content | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
CN113343100B (zh) | 一种基于知识图谱的智慧城市资源推荐方法和系统 | |
CN110674360A (zh) | 一种用于数据关联图谱的构建和数据的溯源方法和系统 | |
Rao et al. | A novel under sampling strategy for efficient software defect analysis of skewed distributed data | |
CN118037440B (zh) | 一种综合信贷系统的授信数据处理方法及系统 | |
CN117634617B (zh) | 知识密集型推理问答方法、装置、电子设备和存储介质 | |
Wijerathna et al. | Mining and relating design contexts and design patterns from Stack Overflow | |
CN117744754A (zh) | 大语言模型任务处理方法、装置、设备及介质 | |
CN117743601A (zh) | 一种自然资源知识图谱补全方法、装置、设备及介质 | |
CN116011428B (zh) | 民事案件信息抽取与判决预测的方法、装置、介质和设备 | |
Busch et al. | Enterprise architecture modifiability analysis | |
Oldenhof et al. | Self-labeling of fully mediating representations by graph alignment | |
Vargas-Vera et al. | Establishing agent trust for contradictory evidence by means of fuzzy voting model: An ontology mapping case study | |
Nishio et al. | Extraction of Research Objectives, Machine Learning Model Names, and Dataset Names from Academic Papers and Analysis of Their Interrelationships Using LLM and Network Analysis | |
CN118551840B (zh) | 基于大语言模型算法的知识抽取系统以及知识抽取方法 | |
Ho | Big data machine learning | |
Nadim et al. | Utilizing source code syntax patterns to detect bug inducing commits using machine learning models | |
CN117217392B (zh) | 一种通用装备保障需求的确定方法及装置 | |
CN113806338B (zh) | 一种基于数据样本图像化的数据甄别的方法与系统 | |
US20240211284A1 (en) | Full life cycle data science environment graphical interfaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |