CN111783449A - 一种裁判文书中判决结果的要素提取方法及装置 - Google Patents

一种裁判文书中判决结果的要素提取方法及装置 Download PDF

Info

Publication number
CN111783449A
CN111783449A CN202010585222.XA CN202010585222A CN111783449A CN 111783449 A CN111783449 A CN 111783449A CN 202010585222 A CN202010585222 A CN 202010585222A CN 111783449 A CN111783449 A CN 111783449A
Authority
CN
China
Prior art keywords
information
party
text
type
judgment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010585222.XA
Other languages
English (en)
Other versions
CN111783449B (zh
Inventor
晋耀红
李德彦
刘大双
张志一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co Ltd
Original Assignee
Dingfu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co Ltd filed Critical Dingfu Intelligent Technology Co Ltd
Priority to CN202010585222.XA priority Critical patent/CN111783449B/zh
Publication of CN111783449A publication Critical patent/CN111783449A/zh
Application granted granted Critical
Publication of CN111783449B publication Critical patent/CN111783449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种裁判文书中判决结果的要素提取方法及装置,首先在裁判文书中确定判决结果对应的块文本,然后利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果。继续获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,并由此确定当事人的费用分担信息和所述判决结果信息的最终分类。可见,由本申请所提供的要素提取方法,可以从裁判文书的判决结果中提取与预设要素对应的关键信息,从而令阅读者可以准确而快速地了解某一份裁判文书的判决结果。

Description

一种裁判文书中判决结果的要素提取方法及装置
技术领域
本申请涉及文本处理领域,尤其涉及一种裁判文书中判决结果的要素提取方法及装置。
背景技术
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于用户来说,浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。
具体地,例如用户需要总结裁判文书的判决方式,就需要相应的浏览裁判文书的判决结果部分,通常判决结果用来概括所对应案件的总体结论,例如费用承担概况、对当事人各项诉求的判定结果等。但是,裁判文书的判决结果通常也会包含大量的文本,而且,由于判决结果会将各项结果不加以区分的杂糅在一起进行阐述,因此,阅读者不仅需要耗费大量的时间来阅读判决结果,而且很难清晰地从判决结果中得到或者分析出所需要的结果。
发明内容
本申请提供了一种裁判文书中判决结果的要素提取方法及装置,对判决结果进行结构化,以提高对判决结果的阅读速度和结果分析速度。
第一方面,本申请提供了一种裁判文书中判决结果的要素提取方法,所述方法包括:在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容;
利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容;
获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系;
根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
第二方面,本申请提供了一种裁判文书中判决结果的要素提取装置,所述装置包括:
块文本确定单元,用于在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容;
文本内容抽取单元,用于利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容;
信息及关系获取单元,用于获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系;
费用及分类判断单元,用于根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
由以上技术可知,本申请提供了一种裁判文书中判决结果的要素提取方法及装置,首先在裁判文书中确定判决结果对应的块文本,然后利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果。继续获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,并由此确定当事人的费用分担信息和所述判决结果信息的最终分类。可见,由本申请所提供的要素提取方法,可以从裁判文书的判决结果中提取与预设要素对应的关键信息,例如每一个当事人所应承担的费用,以及判决结果属于原告或是被告胜诉的判定结果,从而令阅读者可以准确而快速地了解某一份裁判文书的判决结果。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种裁判文书中判决结果的要素提取方法的流程图;
图2为本申请实施例提供的一种确定判决结果对应的块文本的方法的流程图;
图3为本申请实施例提供的一种创建要素提取模型的方法的流程图;
图4提供了一种判决结果对应的块文本的预处理方法的流程图;
图5为本申请实施例提供的一种文本结果中各项信息的获取方法的流程图;
图6为本申请实施例提供的一种确定当事人的费用分担信息的方法的流程图;
图7为本申请实施例提供的一种单一承担方承担费用信息的生成方法的流程图;
图8为本申请实施例提供的一种多承担方承担费用信息的生成方法的流程图;
图9为本申请实施例提供的一种确定判决结果信息的最终分类的方法的流程图;
图10为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例一的示意图;
图11为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例二的示意图;
图12为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例三的示意图;
图13为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例四的示意图;
图14为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例五的示意图;
图15为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例六的示意图;
图16为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例七的示意图;
图17为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例八的示意图;
图18为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例九的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通常,裁判文书等一类的法律文件的内容较为冗长,而且用词较为晦涩难懂,令人很难快速从整体裁判文书中定位需要仔细浏览的内容。而且,用户在浏览裁判文书的过程中,通常会需要浏览一些类案,即与当前裁判文书相类似的案件对应的裁判文书,以帮助理解和类比当前裁判文书。对于用户来说,浏览一篇裁判文书已经比较困难,要从海量的裁判文书中找到与当前裁判文书类似的裁判文书会更加困难,不仅会浪费大量时间,而且也未必能够准确找到相似度最高的裁判文书。
具体地,例如用户需要总结裁判文书的判决方式,就需要相应的浏览裁判文书的判决结果部分,通常判决结果用来概括所对应案件的总体结论,例如费用承担概况、对当事人各项诉求的判定结果等。但是,裁判文书的判决结果通常也会包含大量的文本,而且,由于判决结果会将各项结果不加以区分的杂糅在一起进行阐述,因此,阅读者不仅需要耗费大量的时间来阅读判决结果,而且很难清晰地从判决结果中得到或者分析出所需要的结果。
为了解决上述问题,本申请提供了一种裁判文书中判决结果的要素提取方法及装置,以准确提取判决结果中的要素,从而令阅读者可以快速了解裁判文书的判决结果。
图1为本申请实施例提供的一种裁判文书中判决结果的要素提取方法的流程图,如图1所示,所述方法包括:
S1、在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容。
将裁判文书录入裁判文书结构化装置中,其中,裁判文书结构化装置可以为服务器、PC(个人电脑)、平板电脑、手机等多种文本处理设备。其中,裁判文书可以为民事案件中的各审判决书等。裁判文书结构化装置在接收到裁判文书之后,需要对该裁判文书进行预处理,确定需要进行结构化的文本,例如,录入裁判文书结构化装置的裁判文书包括民事一审判决书,民事二审判决书和民事终审判决书,但是,目前只需要对民事一审判决书进行结构化,此时就需要通过预处理将民事一审判决书的文本提取出来,通常可以通过匹配裁判文书中的文件标题或者文档标题,确定需要结构化的部分。
裁判文书通常由多个部分的内容组成,例如裁判文书的内容包括“当事人××…,经审理查明××…,判决结果××…。”。本申请所要针对分析的裁判文书内容为判决内容部分,因此,为了节省提取要素的时间,需要首先将提取要素的文本内容定位至判决结果内容部分,即从裁判文书中获取与判决结果对应的文本内容。
具体地,图2为本申请实施例提供的一种确定判决结果对应的块文本的方法的流程图,如图2所述,所述方法包括:
S101、利用裁判文书结构化模型对所述裁判文书进行结构化,得到结构化后的裁判文书,所述裁判文书结构化模型包括目录抽取节点以及与所述目录抽取节点对应的块文本抽取方法,所述结构化后的裁判文书由多个块文本组成,其中,每一个所述块文本对应一个所述目录抽取节点;
优选地,本申请中对裁判文书进行结构化具体可以采用专利号ZL201410155830.1 中的记载的对非结构化文本进行处理的方案。
S102、从各所述块文本中确定所述目录抽取节点为判决结果对应的块文本。
通常会利用裁判文书结构化模型首先对裁判文书进行结构化,裁判文书结构化模型包括抽取节点以及与抽取节点对应的抽取方法,例如抽取规则、抽取表达式等。经过裁判文书结构化模型结构化后的裁判文书由多个块文本组成,其中,块文本为裁判文书中与结构化模板中各抽取节点相对应的文本内容。例如,裁判文书的内容包括“当事人××…,经审理查明××…,判决结果××…。”,结构化模板包括抽取节点“当事人信息、审理查明、判决结果”,则“当事人××…”为与“当事人信息”相对应的块文本;“经审理查明××…”为与“审理查明”相对应的块文本,“判决结果××…”为与“判决结果”相对应的块文本。
可见,通过本申请所提供的确定判决结果对应的块文本的方法,可以从裁判文书中准确确定与判决结果对应的块文本,这样,可以有效缩小后续提取要素的文本范围,从而提高要素提取的效率。
S2、利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容。
判决结果中通常也会包含大量文本信息,例如会详细罗列每一项费用类型对应的费用金额以及费用金额分配至当事人的具体情况,同时,还会带有对每一项费用类型的描述等;或者详细罗列原告的每一条诉讼请求对应的判决结果信息,同时,还会带有对每一条诉讼请求的判定描述等,这样,阅读者很难在大致浏览裁判文书的判决结果的基础上,很难迅速掌握判决结果中核心的要素,例如每一项费用类型对应的费用金额,每一项费用类型到底由谁来承担,该裁判文书的判决结果到底是原告胜诉还是被告胜诉。
为了能够令阅读者可以迅速掌握上述要素,需要对判决结果进行要素提取工作,本申请利用要素提取模型对判决结果中的要素进行提取,因此,在提取之前,需要首先创建相关的要素提取模型。
具体地,图3为本申请实施例提供的一种创建要素提取模型的方法的流程图,所述方法包括:
S201、获取裁判文书样本,所述裁判文书样本的所属类别相同;
S202、获取各所述裁判文书样本中判决结果对应的块文本;
S203、从所述裁判文书样本中判决结果对应的块文本确定费用判决项对应的关键词和当事人诉讼请求裁判结果的关键词;
S204、学习每一个所述裁判文书样本中判决结果对应的块文本中所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应文本的语言结构,生成所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应的抽取表达式;
S205、以每一个所述费用判决项对应的关键词和每一个当事人诉讼请求裁判结果的关键词为所述预设要素,结合每一个所述费用判决项对应的关键词和每一个所述当事人诉讼请求裁判结果的关键词对应的抽取表达式,生成要素提取模型。
裁判文书是一种内容规范化的文本,也就是说,对于同类别的裁判文书,无论格式如何变化,其所涉及到的内容类型是大致相同的,例如,裁判文书基本都会涉及当事人信息、审理经过、诉讼方请求、被诉讼方辩解、审理查明、法院观点、判决结果等内容类型,因此,可以通过学习大量裁判文书样本的方式,生成要素提取模型。
通常,不同类别的裁判文书所对应的要素提取模型也是不同的,这里的类别是指裁判文书涉及到的案件领域、判决级别等,例如刑事一审判决书、刑事二审判决书和民事一审判决书就分属三个类别。
具体地,在学习生成某一类别的裁判文书中判决结果的要素抽取模型之前,需要首先获得大量的该类别的裁判文书样本,优选地,这些裁判文书样本以经过结构化,其中,判决结果所对应的部分已经从裁判文书样本中分离,这样的裁判文书样本可以快速定位用于提取要素的文本内容(判决结果对应的文本内容),可以有效提高训练的效率。
由上文可知,判决结果对应的块文本包括费用判决项和当事人诉讼请求的裁判结果,通过语义分析、关键词匹配等方式,可以确定费用判决项和当事人诉讼请求的裁判结果所对应的关键词,例如,费用判决项对应的关键词可以包括各个需要支付费用的费用类型,如诉讼费金额、财产保全费金额等,还可以包括承担方,承担方所要承担的金额,支持原告全部诉讼请求、支持原告部分诉讼请求等。
在确定费用判决项和当事人诉讼请求裁判结果所对应的关键词之后,就可以通过学习各份裁判文书样本中判决结果所对应的关键词在块文本中对应文本的语言结构来生成提取每个关键词对应文本内容的抽取表达式。
例如,判决结果对应的块文本中存在“诉讼费金额为1000元,由原告承担全部诉讼费。”,此时,可以通过学习“诉讼费金额为1000元”的语言结构,生成与关键词“诉讼费金额”对应的抽取表达式,即@([^\n,。:;]*?费[^,。:;]*?元,);可以通过学习“由原告承担全部诉讼费”的语言结构,生成与关键词提取关键词为“承担方所要承担的金额”;进一步地,根据“由原告承担全部诉讼费”对应的抽取表达式,即@本案诉讼费[^,。:;]*?元、由[^,。:;]*?负担(原告已预交,[^,。:;]*?)。
判决结果对应的块文本中存在“支持原告要求被告支付借款利息的诉讼请求,驳回原告其他诉讼请求。”,此时,可以通过学习,得到关键词“原告诉讼请求裁判结果”对应的抽取表达式,即@驳回[^\n,,。;]*?要求被告支付。主张借款利息的(诉[讼请])?请求@;@驳回[^\n,,。;]*?(其它|其他|其余)(诉[讼请])?请求@。
需要注意的是,不同裁判文书样本的判决结果中对于费用判决项和当事人诉讼请求裁判结果存在不同的语言结构,因此,对于不同的裁判文书样本,学习获得的抽取表达式也不同,这样,通过学习大量的裁判文书样本可以有效完善每一个关键词所对应的抽取表达式,也因此,每一个关键词可以对应多个抽取表达式,以便所设计的要素提取模型可以适用于更多样的裁判文书。
这样,以每个关键词为预设要素,每个关键词所对应的抽取表达式,作为每个预设要素的抽取表达式,进而生成对应的要素提取模型,并通过不断地学习裁判文书样本,从而不断完善要素提取模型。对于不同类别的裁判文书,均可以采用如上所述的方法生成对应的抽取模板。
利用上述过程生成要素提取模型提取每个预设要素对应的文本结果之前,为了便于要素提取模型的提取过程,提高要素提取模型的提取效率和准确性,可以首先将判决结果对应的块文本进行预处理。
具体地,图4提供了一种判决结果对应的块文本的预处理方法的流程图,如图4所示,所述方法包括:
S211、确定所述裁判文书中判决结果对应的块文本中的目标当事人信息以及与所述目标当事人信息对应的目标文本,所述目标当事人信息为只包含角色类型的当事人信息,所述目标文本用于描述与所述目标当事人信息对应的判决事项的结果;
S212、确定所述裁判文书中关联文本中的关联当事人信息,所述关联文本为与所述目标文本描述相同判决事项的文本,所述关联当事人信息包括角色类型和当事人名称;
S213、利用所述关联当事人信息替换所述目标当事人信息;
S214、按照预设文本分隔符将所述裁判文书中判决结果对应的块文本划分为多个子块文本,得到预处理后的块文本,其中,所述预设文本分隔符为数字结合右侧半括号格式,在划分所述裁判文书中判决结果对应的块文本之前,将各所述预设文本分隔符中的右侧半括号统一为中文括号格式。
一些裁判文书的判决结果中仅公开如“由被告承担鉴定费,由被告承担执行费。”可见,判决结果中仅公开了原告、被告这种当事人角色类型的当事人信息,并用角色类型直接对应判决事项的结果(各项费用及费用金额)。但是,这种表述方式容易出现混淆的情况,例如,在一些情况下,原告或者被告对应的当事人并不只有一位,仍采用本段中的示例,如果被告对应的当事人有两位,分别是当事人A和当事人B。此时,真正被判定承担鉴定费的是当事人A,被判定承担执行费的是当事人B,但是,如果采用示例中的表述方式,则仅公示了一个上位概念之间的对应关系,无法令每一个判决事项与当事人之间准确的对应关系。
为了解决这个问题,首先从判决结果对应的块文本中确定目标当事人信息以及与目标当事人信息对应的目标文本,在上例中,目标当事人信息就是“被告”,目标文本就是“由被告承担鉴定费,由被告承担执行费”。其中,判决事项即为“鉴定费”和“执行费”。裁判文书中的其他文本中会存在对各个判决事项的详细说明,其中,就会存在对“鉴定费”和“执行费”的详细说明,会具体公开当事人信息中当事人名称与“鉴定费”和“执行费”的对应关系。这些文本就是与目标文本相关联的关联文本,接上例,关联文本可以包括“被告-当事人A承担鉴定费,被告-当事人B承担执行费”。可见,在关联文本中出现的关联当事人信息“被告-当事人A,被告-当事人B”不仅会包括角色类型,还会包括具体的当事人名称。此时,例如关联当事人信息来替换目标当事人信息,替换后的判决结果为“由被告-当事人A承担鉴定费,由被告-当事人B承担执行费”,这样,就可以完善判决结果中的当事人信息,令每一个判决事项准确对应至每一个当事人。
进一步地,由于判决结果对应的块文本通常会包含多项判决事项,例如多个费用类型对应的费用金额,当事人承担费用金额的信息,多个当事人的诉讼请求的判决结果,这就造成了判决结果所包含的文本信息仍然比较多,多项判决事项杂糅在一起,也会影响要素提取模型的提取效率和准确性。
但是,判决结果中对于每一项判决事项,都会有其专属的标识,这些专属的标识在相邻两项判决事项之间相当于一个分隔符,例如“1)由原告承担全部受理费2)支持原告部分诉讼请求”,其中,“1)”和“2)”相当于分隔符。通常,在分隔文本时中所能够识别的格式为中文格式,但是,对于一些裁判文书,可能存在一些格式错误,将中文格式的括号写成英文格式的括号,或者,对于一些外文翻译的裁判文书,其中的英文格式的括号并没有同时转换为中文格式的括号,此时,则无法准确识别这些采用英文格式括号的分隔符,也就无法将判决结果按照不同的判决事项进行分割,这样,容易影响后续根据分隔后文本进行要素提取的准确性。为了解决上述问题,首先将预设文本分隔符的半括号格式统一为中文括号格式,这样,就可以准确识别每一个预设文本分隔符,以将判决结果对应的块文本准确划分为多个子块文本。
需要注意的是,预设文本分隔符也可以采用其他符号,但是,同样为了可以识别每一个预设文本分隔符,就需要保证每一个预设文本分隔符都是可以被识别的格式。
划分为子块文本后,每个子块文本所对应的内容相对比较单一,而且字符数量大大减少,因此,利用要素提取模型可以快速从每个子块文本中提取相应的文本结果,由上述介绍可知,要素提取模型主要利用模型中与每个预设要素对应的抽取表达式来提取文本结果。
S3、获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系。
例如,预处理后的判决结果对应的块文本为“1)由被告-当事人A承担鉴定费2)由被告-当事人B承担执行费3)支持原告-当事人C要求被告支付借款利息的诉讼请求4)驳回原告-当事人C其他诉讼请求。”按照预设文本分隔符将判决结果对应的块文本划分为四个子块文本“由被告-当事人A承担鉴定费”、“由被告-当事人B承担执行费”、“支持原告-当事人C要求被告支付借款利息的诉讼请求”、“驳回原告-当事人C其他诉讼请求”。此时,通过预设要素对应的抽取表达式,可以从每个子块文本中抽取文本结果,例如,“被告-当事人A-鉴定费”、“由被告-当事人B-执行费”、“支持-原告-当事人C-要求被告支付借款利息”、“驳回-原告-当事人C-其他”。
通过分析利用要素提取模型提取到的文本结果,可以进一步获得判决结果中所隐含的信息,此时,需要首先获取文本结果中包含的当事人信息、费用信息、判决结果信息,以及当事人信息与费用信息的对应关系、当事人信息与判决结果信息的对应关系。
具体地,图5为本申请实施例提供的一种文本结果中各项信息的获取方法的流程图,如图5所示,所述方法包括:
S301、按照预设语句结构将每一所述文本结果划分为多个短语;
S302、根据预设当事人信息关键词、费用信息关键词和判决结果关键词,将每一所述短语匹配至对应的信息分类,所述信息分类包括当事人信息、费用信息和判决结果信息;
S303、根据所述预设语句结构所对应的关系类型,结合所述当事人信息、费用信息、判决结果信息在语句所述文本结果中的语句位置,确定所述当事人信息与所述费用信息的对应关系以及所述当事人信息与所述判决结果信息的对应关系。
每一个语句都有其对应的语句结构,例如,被动句、把字句、陈述句等,可以通过不同语句结构中的特殊字符,例如特殊的介词“被”、“把”等、特殊的符号“-”、“*”等将整个语句划分为多个部分(短语),这些短语由这些特殊字符串联为具有特殊含义的语句。因此,可以按照预设语句结构将每一文本结果划分为多个短语,例如文本结果“被告-当事人A-鉴定费”,对应的预设语句结构为“××-××-…-××”,此时,特殊字符为“-”,这样,可以将其划分为“被告”、“当事人A”、“鉴定费”;文本结果“支持-原告-当事人C-要求被告支付借款利息”,对应的预设语句结构为“××-××-…-××”,此时,特殊字符为“-”,这样,可以将其划分为“支持”、“原告”、“当事人C”、“要求被告支付借款利息”。
通常当事人信息、费用信息、判决结果都有对应的关键词,例如当事人信息的关键词“原告”、“被告”;费用信息的关键词“鉴定费”、“执行费”、“审理费”等;判决结果的关键词“支持全部”、“支持部分”、“驳回”。此时,可以通过计算短语与各类信息的关键词的匹配度,来确定短语对应的信息分类。具体地,“被告”、“当事人A”、“原告”、“当事人C”属于当事人信息;“鉴定费”属于费用信息;“支持”、“要求被告支付借款利息”属于判决结果。
进一步地,各短语在不用语句结构中的位置不同,形成了不同的句意,也就是形成了各短语之间不同的关系。例如,“审理费被原告-当事人C承担”,此时,短语为“审理费”、“原告”、“当事人C”,由于其在上述被字句中的位置,可以分析得到当事人C是原告,审理费由当事人C来承担。在上例中,预设语句结构为“××-××-…-××”,由其中的特殊字符“-”表示该特殊字符前后两个短语的唯一对应关系,因此,“被告-当事人A-鉴定费”中各短语之间的关系为当事人A为被告,且鉴定费由当事人A来承担。显然,通过上述过程,可以准确分析出当事人信息与费用信息,以及当事人信息与判决结果信息之间的对应关系,从而便于后续对各项判决事项的进一步总结。
S4、根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
在准确确定当事人信息、费用信息、判决结果信息、以及当事人信息与费用信息的对应关系、当事人信息与判决结果信息之间的对应关系之后,就可以对判决结果进行进一步地分析,这样,利用要素提取模型提取得到的要素,就不仅仅是抽取到的信息,还可以从中获得隐含的信息,从而令提炼的判决结果可以展示更全面的信息,更利于阅读者掌握准确的裁判文书的判决结果。
第一方面,确定当事人的费用分担信息,具体地,图6为本申请实施例提供的一种确定当事人的费用分担信息的方法的流程图,如图6所示,所述方法包括:
S311、根据所述当事人信息、所述费用信息、以及所述当事人信息与所述费用信息的对应关系,判断每一种费用类型的费用分担类型。
具体地,如果目标费用类型只对应所述当事人信息中的一个角色类型,则所述目标费用类型的费用分担类型为单一承担方承担类型;如果目标费用类型对应所述当事人信息中的两个角色类型,则所述目标类型的费用分担类型为多承担方承担类型,所述目标费用类型为所述费用信息中的任一费用类型。
由上文可知,费用类型是指不同的收费项目,例如“审理费”、“执行费”、“鉴定费”等,在实际情况中,每一种费用类型对应的费用金额,可以仅由一方当事人来承担,也可以由双方当事人来共同承担。此时,可以根据当事人信息与费用信息的对应关系,来判断每一种费用类型的费用分担类型。通过上述步骤,可以确定当事人所需要承担的费用类型,这也就很容易判断,如果同一个费用类型仅对应一个角色类型,例如原告或者被告,那么就说明该费用类型对应的费用金额仅需要由一方当事人来承担,即单一承担方承担类型;如果同一个费用类型同时对应两个角色类型,即同时对应原告和被告,那么就说明该费用类型对应的费用金额需要由双方当事人来共同承担,即多承担方承担类型。
例如,“鉴定费”为目标费用类型,有上文可知,“鉴定费”由被告-当事人A承担,则“鉴定费”为单一承担方承担类型;“公告费”为目标费用类型,且“公告费由原告-当事人C与被告-当事人B对半分担”,则“公告费”为多承担方承担类型。
在一种实现方式中,图7为本申请实施例提供的一种单一承担方承担费用信息的生成方法的流程图,如图7所示,所述方法包括:
S401、如果所述费用分担类型为单一承担方承担类型,则从所述费用信息中提取每一项费用类型,以及所述每一项费用类型对应的费用金额;
S402、根据所述每一项费用类型、所述每一项费用类型对应的费用金额、以及与所述每一项费用类型对应的角色类型,生成当事人的费用分担信息。
针对单一承担方承担类型,则可以直接从费用信息中提取每一项费用类型,此时,由于费用类型与角色类型之间唯一对应,相应的,费用类型对应的费用金额也就与该角色类型之间唯一对应,此时,就可以直接生成当事人的费用分担信息,例如“被告-当事人A-鉴定费-1000元”。上述过程均可以通过要素提取模型完成。
在另一种实现方式中,图8为本申请实施例提供的一种多承担方承担费用信息的生成方法的流程图,如图8所示,所述方法包括:
S411、如果所述费用分担类型为多承担方承担类型,则判断所述费用信息中是否存在与所述目标费用类型对应的合计费用;
S412、如果存在所述合计费用,则检测所述费用信息中是否存在基于所述合计费用进行计算的分配关键词,其中,如果存在所述分配关键词,则根据所述合计费用和所述分配关键词计算每一角色类型在所述目标费用类型所要承担的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;如果不存在所述分配关键词,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;
S413、如果不存在所述合计费用,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息。
由上文可知,对于多承担方承担类型,说明同一个费用类型由被告和原告同时承担,此时,该费用类型对应的费用金额就是合计费用。通常,在确定多承担方承担类型之后,会先判断费用信息中是否存在目标费用类型对应的合计费用,如果存在合计费用,此时,可以继续检测费用信息中是否存在基于合计费用进行计算的分配关键词,例如,“公告费”的合计费用为500元,检测存在分配关键词“原告与被告对半承担”、“原告承担40%,被告承担60%”等,此时,就可以基于合计费用,计算出原告与被告各自需要承担的费用金额。例如“原告与被告对半承担”,则原告承担250元,被告承担250元,依次生成当事人的费用分担信息。如果不存在分配关键词,则需要从费用信息中提取每一个角色类型在目标费用类型对应的费用金额,即费用信息中会具体公开每一个当事人需要承担的费用金额,此时,可以直接对当事人所要承担的费用金额进行赋值,从而生成当事人的费用分担信息。
如果不存在合计费用,也就是说明,费用信息中不会存在只有基于合计费用才能够进行计算的分配关键词,而是基本会在费用信息中公开每一角色类型在目标费用类型对应的具体的费用金额,例如“原告与被告对半承担公告费,其中,原告承担250元,被告承担250元。”,或者“原告承担公告费100元,被告承担公告费400元。”。此时,就可以直接对当事人所要承担的费用金额进行赋值,从而生成当事人的费用分担信息。
可见,通过本申请所提供的要素提取方法,可以有效提取出判决结果中每个当事人准确对应的费用金额,以便阅读者可以准确掌握关于每个当事人的判决结果。
第二方面,确定判决结果信息的最终分类,图9为本申请实施例提供的一种确定判决结果信息的最终分类的方法的流程图,如图9所示,所述方法包括:
S421、根据所述当事人信息、所述判决结果信息、以及所述当事人信息与所述判决结果信息的对应关系,判断所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类;
其中,如果所述当事人信息中角色类型为原告所对应的判决结果信息中至少一条诉讼请求被支持,则所述初步分类为部分支持原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被驳回,则所述初步分类为全部驳回原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被支持,则所述初步分类为全部支持原告请求;
S422、根据所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类,判断所述判决结果信息的最终分类;
其中,如果所述初步分类为部分支持原告请求或者全部支持原告请求,则所述判决结果信息的最终分类为原告胜诉;
如果所述初步分类为全部驳回原告请求,则所述判决结果信息的最终分类为被告胜诉。
根据当事人信息、所述判决结果信息、以及所述当事人信息与所述判决结果信息的对应关系,可以判断所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类。例如判决结果信息为“支持-原告-当事人C-要求被告支付借款利息,驳回-原告-当事人C-其他”,此时,可以根据每一条判决结果信息对针对于原告的判决结果信息进行初步分类,可见,仅支持原告对于要求被告支付借款利息的诉讼请求给予支持,其余诉讼请求全部驳回,也就可以将原告所对应的判决结果信息的初步分类定义为部分支持原告请求。在本实施例中,只要原告有一条诉讼请求被支持,就可以认定初步分类为部分支持原告请求。在另一种情况下,如果原告所对应的判决结果信息中全部诉讼请求被支持,则所述初步分类为全部支持原告请求。在另一种情况下,如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被驳回,则所述初步分类为全部驳回原告请求。
进一步地,可以继续对判决结果进行分类,如果初步分类为部分支持原告请求或者全部支持原告请求,则所述判决结果信息的最终分类为原告胜诉;如果初步分类为全部驳回原告请求,则所述判决结果信息的最终分类为被告胜诉。
可见,本申请所提供的要素提取方法,可以有效将判决结果进行分类,从而令阅读者可以快速掌握该裁判文书的判决结果到底属于什么分类,从而令阅读者可以快速锁定所需要分类的裁判文书。
图10为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例一的示意图,所述装置包括:
块文本确定单元1,用于在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容;
文本内容抽取单元2,用于利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容;
信息及关系获取单元3,用于获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系;
费用及分类判断单元4,用于根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
图11为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例二的示意图,所述块文本确定单元1包括:
结构化单元11,用于利用裁判文书结构化模型对所述裁判文书进行结构化,得到结构化后的裁判文书,所述裁判文书结构化模型包括目录抽取节点以及与所述目录抽取节点对应的块文本抽取方法,所述结构化后的裁判文书由多个块文本组成,其中,每一个所述块文本对应一个所述目录抽取节点;
抽取单元12,用于从各所述块文本中确定所述目录抽取节点为判决结果对应的块文本。
图12为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例三的示意图,所述装置还包括:
样本获取单元201,用于获取裁判文书样本,所述裁判文书样本的所属类别相同;
样本块文本获取单元202,用于获取各所述裁判文书样本中判决结果对应的块文本;
关键词确定单元203,用于从所述裁判文书样本中判决结果对应的块文本确定费用判决项对应的关键词和当事人诉讼请求裁判结果的关键词;
学习单元204,用于学习每一个所述裁判文书样本中判决结果对应的块文本中所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应文本的语言结构,生成所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应的抽取表达式;
模型生成单元205,用于以每一个所述费用判决项对应的关键词和每一个当事人诉讼请求裁判结果的关键词为所述预设要素,结合每一个所述费用判决项对应的关键词和每一个所述当事人诉讼请求裁判结果的关键词对应的抽取表达式,生成要素提取模型。
图13为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例四的示意图,所述装置还包括:
目标信息确定单元211,用于确定所述裁判文书中判决结果对应的块文本中的目标当事人信息以及与所述目标当事人信息对应的目标文本,所述目标当事人信息为只包含角色类型的当事人信息,所述目标文本用于描述与所述目标当事人信息对应的判决事项的结果;
关联信息确定单元212,用于确定所述裁判文书中关联文本中的关联当事人信息,所述关联文本为与所述目标文本描述相同判决事项的文本,所述关联当事人信息包括角色类型和当事人名称;
替换单元213,用于利用所述关联当事人信息替换所述目标当事人信息;
划分单元214,用于按照预设文本分隔符将所述裁判文书中判决结果对应的块文本划分为多个子块文本,得到预处理后的块文本,其中,所述预设文本分隔符为数字结合右侧半括号格式,在划分所述裁判文书中判决结果对应的块文本之前,将各所述预设文本分隔符中的右侧半括号统一为中文括号格式。
图14为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例五的示意图,所述信息及关系获取单元3包括:
语句划分单元31,用于按照预设语句结构将每一所述文本结果划分为多个短语;
匹配单元32,用于根据预设当事人信息关键词、费用信息关键词和判决结果关键词,将每一所述短语匹配至对应的信息分类,所述信息分类包括当事人信息、费用信息和判决结果信息;
对应关系确定单元33,用于根据所述预设语句结构所对应的关系类型,结合所述当事人信息、费用信息、判决结果信息在语句所述文本结果中的语句位置,确定所述当事人信息与所述费用信息的对应关系以及所述当事人信息与所述判决结果信息的对应关系。
图15为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例六的示意图,所述费用及分类判断单元4包括:
费用分担类型判断单元41,用于根据所述当事人信息、所述费用信息、以及所述当事人信息与所述费用信息的对应关系,判断每一种费用类型的费用分担类型;
其中,如果目标费用类型只对应所述当事人信息中的一个角色类型,则所述目标费用类型的费用分担类型为单一承担方承担类型;如果目标费用类型对应所述当事人信息中的两个角色类型,则所述目标类型的费用分担类型为多承担方承担类型,所述目标费用类型为所述费用信息中的任一费用类型。
图16为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例七的示意图,所述费用及分类判断单元4包括:
费用金额提取单元42,用于如果所述费用分担类型为单一承担方承担类型,则从所述费用信息中提取每一项费用类型,以及所述每一项费用类型对应的费用金额;
第一分担信息生成单元43,用于根据所述每一项费用类型、所述每一项费用类型对应的费用金额、以及与所述每一项费用类型对应的角色类型,生成当事人的费用分担信息。
图17为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例八的示意图,所述费用及分类判断单元4包括:
合计费用判断单元44,用于如果所述费用分担类型为多承担方承担类型,则判断所述费用信息中是否存在与所述目标费用类型对应的合计费用;
第一分配关系确定单元45,用于如果存在所述合计费用,则检测所述费用信息中是否存在基于所述合计费用进行计算的分配关键词,其中,如果存在所述分配关键词,则根据所述合计费用和所述分配关键词计算每一角色类型在所述目标费用类型所要承担的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;如果不存在所述分配关键词,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;
第二分配关系确定单元46,用于如果不存在所述合计费用,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息。
图18为本申请实施例提供的一种裁判文书中判决结果的要素提取装置的实施例九的示意图,所述费用及分类判断单元4包括:
判决结果信息初步分类单元47,用于根据所述当事人信息、所述判决结果信息、以及所述当事人信息与所述判决结果信息的对应关系,判断所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类;
其中,如果所述当事人信息中角色类型为原告所对应的判决结果信息中至少一条诉讼请求被支持,则所述初步分类为部分支持原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被驳回,则所述初步分类为全部驳回原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被支持,则所述初步分类为全部支持原告请求;
判决结果信息最终分类单元48,用于根据所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类,判断所述判决结果信息的最终分类;
其中,如果所述初步分类为部分支持原告请求或者全部支持原告请求,则所述判决结果信息的最终分类为原告胜诉;
如果所述初步分类为全部驳回原告请求,则所述判决结果信息的最终分类为被告胜诉。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种裁判文书中判决结果的要素提取方法,其特征在于,所述方法包括:
在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容;
利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容;
获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系;
根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
2.根据权利要求1所述的方法,其特征在于,所述在裁判文书中确定判决结果对应的块文本包括:
利用裁判文书结构化模型对所述裁判文书进行结构化,得到结构化后的裁判文书,所述裁判文书结构化模型包括目录抽取节点以及与所述目录抽取节点对应的块文本抽取方法,所述结构化后的裁判文书由多个块文本组成,其中,每一个所述块文本对应一个所述目录抽取节点;
从各所述块文本中确定所述目录抽取节点为判决结果对应的块文本。
3.根据权利要求1所述的方法,其特征在于,所述利用要素提取模型,从每一所述子块文本中提取与预设要素对应的文本结果包括:
获取裁判文书样本,所述裁判文书样本的所属类别相同;
获取各所述裁判文书样本中判决结果对应的块文本;
从所述裁判文书样本中判决结果对应的块文本确定费用判决项对应的关键词和当事人诉讼请求裁判结果的关键词;
学习每一个所述裁判文书样本中判决结果对应的块文本中所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应文本的语言结构,生成所述费用判决项对应的关键词和所述当事人诉讼请求裁判结果的关键词对应的抽取表达式;
以每一个所述费用判决项对应的关键词和每一个当事人诉讼请求裁判结果的关键词为所述预设要素,结合每一个所述费用判决项对应的关键词和每一个所述当事人诉讼请求裁判结果的关键词对应的抽取表达式,生成要素提取模型。
4.根据权利要求1所述的方法,其特征在于,所述利用要素提取模型,从每一所述子块文本中提取与预设要素对应的文本结果包括:
确定所述裁判文书中判决结果对应的块文本中的目标当事人信息以及与所述目标当事人信息对应的目标文本,所述目标当事人信息为只包含角色类型的当事人信息,所述目标文本用于描述与所述目标当事人信息对应的判决事项的结果;
确定所述裁判文书中关联文本中的关联当事人信息,所述关联文本为与所述目标文本描述相同判决事项的文本,所述关联当事人信息包括角色类型和当事人名称;
利用所述关联当事人信息替换所述目标当事人信息;
按照预设文本分隔符将所述裁判文书中判决结果对应的块文本划分为多个子块文本,得到预处理后的块文本,其中,所述预设文本分隔符为数字结合右侧半括号格式,在划分所述裁判文书中判决结果对应的块文本之前,将各所述预设文本分隔符中的右侧半括号统一为中文括号格式。
5.根据权利要求1所述的方法,其特征在于,所述获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系包括:
按照预设语句结构将每一所述文本结果划分为多个短语;
根据预设当事人信息关键词、费用信息关键词和判决结果关键词,将每一所述短语匹配至对应的信息分类,所述信息分类包括当事人信息、费用信息和判决结果信息;
根据所述预设语句结构所对应的关系类型,结合所述当事人信息、费用信息、判决结果信息在语句所述文本结果中的语句位置,确定所述当事人信息与所述费用信息的对应关系以及所述当事人信息与所述判决结果信息的对应关系。
6.根据权利要求1所述的方法,其特征在于,所述根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类包括:
根据所述当事人信息、所述费用信息、以及所述当事人信息与所述费用信息的对应关系,判断每一种费用类型的费用分担类型;
其中,如果目标费用类型只对应所述当事人信息中的一个角色类型,则所述目标费用类型的费用分担类型为单一承担方承担类型;如果目标费用类型对应所述当事人信息中的两个角色类型,则所述目标类型的费用分担类型为多承担方承担类型,所述目标费用类型为所述费用信息中的任一费用类型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类包括:
如果所述费用分担类型为单一承担方承担类型,则从所述费用信息中提取每一项费用类型,以及所述每一项费用类型对应的费用金额;
根据所述每一项费用类型、所述每一项费用类型对应的费用金额、以及与所述每一项费用类型对应的角色类型,生成当事人的费用分担信息。
8.根据权利要求6所述的方法,其特征在于,所述根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类包括:
如果所述费用分担类型为多承担方承担类型,则判断所述费用信息中是否存在与所述目标费用类型对应的合计费用;
如果存在所述合计费用,则检测所述费用信息中是否存在基于所述合计费用进行计算的分配关键词,其中,如果存在所述分配关键词,则根据所述合计费用和所述分配关键词计算每一角色类型在所述目标费用类型所要承担的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;如果不存在所述分配关键词,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息;
如果不存在所述合计费用,则从所述费用信息中提取每一角色类型在所述目标费用类型对应的费用金额,并根据所述每一角色类型在所述目标费用类型所要承担的费用金额,生成当事人的费用分担信息。
9.根据权利要求1所述的方法,其特征在于,所述根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类包括:
根据所述当事人信息、所述判决结果信息、以及所述当事人信息与所述判决结果信息的对应关系,判断所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类;
其中,如果所述当事人信息中角色类型为原告所对应的判决结果信息中至少一条诉讼请求被支持,则所述初步分类为部分支持原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被驳回,则所述初步分类为全部驳回原告请求;
如果所述当事人信息中角色类型为原告所对应的判决结果信息中全部诉讼请求被支持,则所述初步分类为全部支持原告请求;
根据所述当事人信息中角色类型为原告所对应的判决结果信息的初步分类,判断所述判决结果信息的最终分类;
其中,如果所述初步分类为部分支持原告请求或者全部支持原告请求,则所述判决结果信息的最终分类为原告胜诉;
如果所述初步分类为全部驳回原告请求,则所述判决结果信息的最终分类为被告胜诉。
10.一种裁判文书中判决结果的要素提取装置,其特征在于,所述装置包括:
块文本确定单元,用于在裁判文书中确定判决结果对应的块文本,所述判决结果对应的块文本为所述判决结果在所述裁判文书中对应的文本内容;
文本内容抽取单元,用于利用要素提取模型,从所述判决结果对应的块文本中提取与预设要素对应的文本结果,所述要素提取模型包括与每一所述预设要素对应的抽取表达式,所述抽取表达式用于提取相应的文本内容;
信息及关系获取单元,用于获取每一所述文本结果中的当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系;
费用及分类判断单元,用于根据所述当事人信息、费用信息、判决结果信息、以及所述当事人信息与所述费用信息的对应关系、所述当事人信息与所述判决结果信息的对应关系,确定当事人的费用分担信息和所述判决结果信息的最终分类。
CN202010585222.XA 2020-06-24 2020-06-24 一种裁判文书中判决结果的要素提取方法及装置 Active CN111783449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010585222.XA CN111783449B (zh) 2020-06-24 2020-06-24 一种裁判文书中判决结果的要素提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010585222.XA CN111783449B (zh) 2020-06-24 2020-06-24 一种裁判文书中判决结果的要素提取方法及装置

Publications (2)

Publication Number Publication Date
CN111783449A true CN111783449A (zh) 2020-10-16
CN111783449B CN111783449B (zh) 2023-09-22

Family

ID=72759867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010585222.XA Active CN111783449B (zh) 2020-06-24 2020-06-24 一种裁判文书中判决结果的要素提取方法及装置

Country Status (1)

Country Link
CN (1) CN111783449B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347238A (zh) * 2020-11-12 2021-02-09 北京金堤科技有限公司 法律文书的裁判结果提取方法和装置
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN114092119A (zh) * 2021-11-29 2022-02-25 北京金堤科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN114239561A (zh) * 2021-12-10 2022-03-25 北京天眼查科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN114266682A (zh) * 2022-03-01 2022-04-01 北京金堤科技有限公司 担保信息获取方法、装置、存储介质及电子设备
CN112559669B (zh) * 2020-12-09 2024-06-04 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198237A (ja) * 2008-05-26 2008-08-28 Toshiba Corp 構造化文書管理システム
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
WO2019217999A1 (en) * 2018-05-14 2019-11-21 Chen Mccaig Zack Document processing and classification systems
CN111026836A (zh) * 2018-09-21 2020-04-17 北京国双科技有限公司 一种法律法规检索方法和装置
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111259631A (zh) * 2020-01-15 2020-06-09 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198237A (ja) * 2008-05-26 2008-08-28 Toshiba Corp 構造化文書管理システム
CN105022733A (zh) * 2014-04-18 2015-11-04 中科鼎富(北京)科技发展有限公司 Dinfo-oec文本分析挖掘方法与设备
CN107632968A (zh) * 2017-05-22 2018-01-26 南京大学 一种面向裁判文书的证据链关系模型的构建方法
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
WO2019217999A1 (en) * 2018-05-14 2019-11-21 Chen Mccaig Zack Document processing and classification systems
CN111026836A (zh) * 2018-09-21 2020-04-17 北京国双科技有限公司 一种法律法规检索方法和装置
CN110175322A (zh) * 2019-05-22 2019-08-27 北京神州泰岳软件股份有限公司 一种文档的结构化方法及装置
CN111145052A (zh) * 2019-12-26 2020-05-12 北京法意科技有限公司 司法文书的结构化分析方法及系统
CN111259631A (zh) * 2020-01-15 2020-06-09 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
裴韬 等: "面向公共安全事件的网络文本大数据结构化研究", 《地球信息科学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347238A (zh) * 2020-11-12 2021-02-09 北京金堤科技有限公司 法律文书的裁判结果提取方法和装置
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN112559669B (zh) * 2020-12-09 2024-06-04 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备
CN114092119A (zh) * 2021-11-29 2022-02-25 北京金堤科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN114239561A (zh) * 2021-12-10 2022-03-25 北京天眼查科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN114239561B (zh) * 2021-12-10 2023-04-28 北京天眼查科技有限公司 供应关系获取方法、装置、存储介质及电子设备
CN114266682A (zh) * 2022-03-01 2022-04-01 北京金堤科技有限公司 担保信息获取方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111783449B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111783449A (zh) 一种裁判文书中判决结果的要素提取方法及装置
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
Spinde et al. MBIC--A Media Bias Annotation Dataset Including Annotator Characteristics
CN102054016A (zh) 用于撷取及管理社群智能信息的系统及方法
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN109637000B (zh) 发票检验方法及装置、存储介质、电子终端
CN111259631A (zh) 一种裁判文书结构化方法及装置
CN105912645A (zh) 一种智能问答方法及装置
CN110472011B (zh) 一种诉讼成本预测方法、装置及终端设备
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
Marín Evaluation of five single-word term recognition methods on a legal English corpus
CN105653547A (zh) 一种提取文本关键词的方法和装置
CN115238688B (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN114399379A (zh) 基于人工智能的催收行为识别方法、装置、设备及介质
KR101838573B1 (ko) 공간 감성어 사전을 이용한 감성분석 기반의 장소 선호도 분석방법
CN111259645A (zh) 一种裁判文书结构化方法及装置
Wang et al. Vrdu: A benchmark for visually-rich document understanding
Bergam et al. Legal and political stance detection of SCOTUS language
CN104462279B (zh) 分析对象特征信息的获取方法和装置
CN115982388B (zh) 案件质控图谱建立、案件文书质检方法、设备及存储介质
CN111898528A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113761137A (zh) 一种提取地址信息的方法及装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant