CN109446511A - 裁判文书处理方法、装置、计算机设备和存储介质 - Google Patents
裁判文书处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109446511A CN109446511A CN201811051928.7A CN201811051928A CN109446511A CN 109446511 A CN109446511 A CN 109446511A CN 201811051928 A CN201811051928 A CN 201811051928A CN 109446511 A CN109446511 A CN 109446511A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- judgement
- appeal
- money
- fee
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Abstract
本申请涉及人工智能领域,提供了一种裁判文书处理方法、装置、计算机设备和存储介质。本方法包括:获取裁判文书;通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落;通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。本方法能够提高律师专业能力的分析效率。
Description
技术领域
本申请涉及文本处理技术领域,特别是涉及一种裁判文书处理方法、装置、计算机设备和存储介质。
背景技术
裁判文书是指裁判结果的法律文书,是记载人民法院审理诉讼活动过程和结果的凭证。裁判文书中包括原被告、律师、庭审法院、原告诉讼请求、法院判决结果和案件受理费等。通过分析裁判文书可以了解案件的相关情况,比如基于裁判文书可以了解案件涉及的原被告、律师和庭审法院等信息。同时,裁判文书中的原告诉请和判决内容,以及审查过程能够反映律师的专业能力等。由于裁判文书有固定格式,可以通过指定规则自动提取原被告、律师和庭审法院等信息。然而,由于案件类型不同、庭审法院不同和书记员不同等造成裁判文书的书写风格差异较大,没有固定规律。
目前,通常是通过人工定位并分析裁判文书中的诉请、判决内容和审查过程等,根据分析结果确定律师的专业能力。然而,该种律师专业能力的分析方式需要耗费大量的人力物力,且分析过程会耗费大量的时间,存在裁判文书的处理效率低的问题,从而导致律师专业能力的分析效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高律师专业能力分析效率的裁判文书处理方法、装置、计算机设备和存储介质。
一种裁判文书处理方法,所述方法包括:
获取裁判文书;
通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
一种裁判文书处理装置,所述装置包括:
获取模块,用于获取裁判文书;
段落提取模型,用于通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
金额项提取模块,用于通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
金额值提取模块,用于当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
计算模块,用于根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取裁判文书;
通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取裁判文书;
通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
上述裁判文书处理方法、装置、计算机设备和存储介质,通过段落提取模型从所获取到的裁判文书中自动提取相应的诉请段落和判决段落,进而通过实体识别模型分别从所提取到的诉请段落中自动提取诉请金额项,并从判决段落中自动提取判决金额项,提高了裁判文书中金额项的提取效率,从而提高了裁判文书的处理效率。当提取到诉请金额项和判决金额项时,基于预设金额项表达式,以及所提取到的诉请金额项和判决金额项自动提取相应的诉请金额值和判决金额值,提高了金额值的提取效率,进一步提高了判断文书的处理效率,从而提高了律师专业能力的分析效率。
附图说明
图1为一个实施例中裁判文书处理方法的应用场景图;
图2为一个实施例中裁判文书处理方法的流程示意图;
图3为另一个实施例中裁判文书处理方法的流程示意图;
图4为一个实施例中裁判文书处理装置的结构框图;
图5为另一个实施例中裁判文书处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的裁判文书处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104通过已训练的段落提取模型从所获取到的裁判文书中提取诉请段落和判决段落,并通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项,进而基于预设金额项表达式分别提取诉请金额项对应的诉请金额值和判决金额项对应的判决金额值,以根据所提取的诉请金额值和判决金额值对应计算原告律师胜诉率和被告律师减损率,并将所计算的原告律师胜诉率和被告律师减损率发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种裁判文书处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取裁判文书。
其中,裁判文书是记录裁判过程和裁判结果的法律文书,是记载人民法院审理诉讼活动过程和结果的凭证。裁判文书包括原告、被告、原告律师、被告律师、庭审法院、原告诉讼请求、法院判决结果和案件受理费等。
具体地,服务器接收到裁判文书处理指令时,根据所接收到的裁判文书处理指令获取相应的裁判文书。服务器根据所接收到的裁判文书处理指令在本地对应查询预存储的裁判文书。服务器具体可以接收终端发送的裁判文书处理指令,根据所接收到的裁判文书指令从终端获取相应的裁判文书。
在一个实施例中,裁判文书处理指令中携带有待处理的裁判文书。服务器解析所接收到的裁判文书处理指令,获得相应的裁判文书。
S204,通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落。
其中,段落提取模型是根据预先获取的训练样本集进行模型训练获得的、用于从裁判文书中对应提取诉请段落和判决段落的模型。诉请段落是指用于描述原告诉讼请求的段落。判决段落是指用于描述法院判决结果的段落。
具体地,服务器将所获取到的裁判文书输入预先训练好的段落提取模型中,通过该段落提取模型进行预测,分别获得相应的诉请段落和判决段落,以从该裁判文书中分别提取相应的诉请段落和判决段落。
在一个实施例中,服务器通过预先训练好的第一段落提取模型和第二段落提取模型,分别从所获取到的裁判文书中提取诉请段落和判决段落。具体地,服务器将所获取到的裁判文书输入预先训练好的第一段落提取模型进行预测,获得该裁判文书中的诉请段落。类似地,服务器将所获取到的该裁判文书输入到预先训练好的第二段落提取模型进行预测,获得该裁判文书中的判决段落。其中,第一段落提取模型是根据目标裁判文书和相应的目标诉请段落进行模型训练获得的段落提取模型,第二段落提取模型是根据目标裁判文书和相应的目标判决段落进行模型训练获得的段落提取模型。
在一个实施例中,预先训练好的段落提取模型为长久记忆神经网络模型。服务器获取到裁判文书时,分别获取诉请段落提取问题和判决段落提取问题。服务器将所获取到的裁判文书和诉请段落提取问题输入到预先训练好的段落提取模型进行预测,获得该裁判文书中的诉请段落。进一步地,服务器将该裁判文书和所获取到的判决段落提取问题输入到该预先训练好的段落提取模型进行预测,获得该裁判文书中的判决段落。
在一个实施例中,服务器通过预先训练好的段落提取模型从裁判文书中提取出诉请段落和判决段落后,基于预设诉请表达式对所提取出的诉请段落进行筛选,对筛选出的诉请段落执行下述提取诉请金额项和诉请金额值的相关步骤。类似地,服务器基于预设判决表达式对所提取出的判决段落进行筛选,对筛选出的判决段落执行下述提取判决金额项和判决金额值的相关步骤。其中,预设诉请表达式是指预先设定的用于通过正则匹配方式筛选诉请段落的正则表达式。预设判决表达式是指预先设定的用于通过正则匹配方式筛选判决段落的正则表达式。预设判决表达式比如“(?:准许(?:原告|上诉人)?.*撤回.*(?:起诉|上诉)|按撤诉处理|准予撤诉)”,或者(?:发回.*重审|移送.*审理|指令.*?再审)等。值得说明的是,预设判决表达式以及相应的表达式形式不仅仅局限于示例,预设判决表达的形式可以比示例更简单或更复杂。通过预设诉请表达式对所提取出的诉请段落和判决段落进行筛选,提高了诉请段落和判决段落提取的准确性。
S206,通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项。
其中,实体识别模型是根据预先获取的训练样本集进行模型训练获得的、用于从所获取到的段落中提取金额项的模型。诉请金额项是指原告诉讼请求中指定的损害赔偿项目。诉请金额项具体可以是指原告在原告诉讼请求中所提出的要求被告赔偿的损害赔偿项目,比如精神损失费、医疗费、营养费和子女抚养费等。判决金额项是指法院判决结果中指定的由被告向原告赔偿的损害赔偿项目,比如精神损失费、医疗费和子女抚养费等。诉请金额项和判决金额项可以相同,也可以存在差异。
具体地,服务器将从裁判文书中提取的诉请段落输入预先训练好的实体识别模型中,通过该实体识别模型进行预测,获得该诉请段落中的诉请金额项。类似地,服务器将从裁判文书中提取的判决段落输入预先训练好的实体识别模型进行预测,获得该判决段落中的判决金额项。
在一个实施例中,从诉请段落中提取诉请金额项的实体识别模型,与从判决段落中提取判决段落的实体识别模型可以同一个实体识别模型,也可以是基于不同的训练样本集分别训练获得的不同的实体识别模型。
S208,当提取到诉请金额项和判决金额项时,基于预设金额项表达式,从诉请段落中提取与诉请金额项对应的诉请金额值,以及从判决段落中提取与判决金额项对应的判决金额值。
其中,预设金额项表达式是指预先设定的用于通过正则匹配方式从指定段落中提取的金额值的正则表达式。预设金额项表达式具体可以是从指定段落中提取与金额项对应的金额值的正则表达式,比如“精神损失费.*?元”。诉请金额值是指原告诉讼请求中指定的赔偿金额数值。诉请金额值具体可以是指原告在原告诉讼请求中提出的由被告赔偿的赔偿金额数值,比如2万元。诉请金额项与诉请金额值相对应。判决金额值是指法院判决结果中指定的由被告向原告赔偿的赔偿金额数值,比如1万元。
具体地,当从诉请段落中提取到诉请金额项、且从判决段落中提取到判决金额项时,服务器将诉请段落对应的预设金额项表达式与所提取到的诉请段落进行匹配,以从诉请段落中提取出与诉请金额项对应的诉请金额值。类似地,服务器将判决段落对应的预设金额项表达式与所提取的判决段落进行匹配,以从判决段落中提取出与判决金额项对应的判决金额值。其中,诉请段落对应的预设金额项表达式,与判决段落对应的预设金额项表达式可以相同也可以不同。
S210,根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
其中,原告律师胜诉率是指原告律师为原告争取利益/赔偿的量化值。被告律师减损率是指指被告律师为被告减小损失/赔偿的量化值。在本实施例中,原告律师胜诉率具体可以是法院判决结果中的判决总金额,占原告诉讼请求中的诉请总金额的比率。被告律师减损率具体可以是原告诉讼请求中的诉请总金额与法院判决结果中的判决总金额之间的差值,占原告诉讼请求中的诉请总金额的比率。可以理解的是,原告律师胜诉率越大表明原告律师的专业能力越强,同样的,被告律师减损率越大表明被告律师的专业能力越强。原告律师胜诉率与被告律师减损率的总和为1。
具体地,服务器根据从诉请段落中提取到的诉请金额项和相应的诉请金额值确定相应的诉请总金额,并根据从判决段落中提取到的判决金额项和相应的判决金额值确定相应的判决总金额。进一步地,服务器根据所确定的诉请总金额和判决总金额,按照第一预设计算方式分别计算原告律师胜诉率和被告律师减损率。其中,第一预设计算方式是预先设定的计算方式,用于指示服务器如何根据所确定的诉请总金额和判决总金额,对应计算原告律师胜诉率和被告律师减损率。第一预设计算方式具体可以是根据诉请总金额和判决总金额计算原告律师胜诉率和被告律师减损率的计算表达式,比如原告律师胜诉率=判决总金额/诉请总金额,被告律师减损率=1-判决总金额/诉请总金额。
上述裁判文书处理方法,通过段落提取模型从所获取到的裁判文书中自动提取相应的诉请段落和判决段落,进而通过实体识别模型分别从所提取到的诉请段落中自动提取诉请金额项,并从判决段落中自动提取判决金额项,提高了裁判文书中金额项的提取效率,从而提高了裁判文书的处理效率。当提取到诉请金额项和判决金额项时,基于预设金额项表达式,以及所提取到的诉请金额项和判决金额项自动提取相应的诉请金额值和判决金额值,提高了金额值的提取效率,进一步提高了判断文书的处理效率,从而提高了律师专业能力的分析效率。
在一个实施例中,上述裁判文书处理方法还包括:当没有提取到诉请金额项和判决金额项时,基于预设受理费表达式,从判决段落中提取案件受理费段落;基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据;根据受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
其中,预设受理费表达式是预先设定的用于通过正则匹配方式从判决段落中提取案件受理费段落的正则表达式。由于裁判文书中的案件受理费段落通常为判决段落中的独立段落,且通常具有指定关键词,比如案件受理费、本案受理费、诉讼费和案件上诉费等,预设受理费表达式比如可以是“.*?受理费”。案件受理费段落是指用于描述法院针对受理案件指定受理费的段落。案件受理费段落具体用于描述指定的受理费和受理费分摊情况。
预设受理费分摊表达式是预先设定的用于通过正则匹配方式从案件受理费段落中提取受理费分摊数据的正则表达式。预设受理费分摊表达式比如“.*?费.*?元.*?原告.*?负担”,或者“.*?被告.*?负担.*?元”等。受理费分摊数据是指案件受理费分摊情况的量化数据。受理费分摊数据可用于表征原告和被告各自承担的受理费。受理费分摊数据具体可以包括原告承担的受理费和被告承担的受理费。受理费分摊数据还可以包括法院判决结果中指定的案件受理费总额,和/或案件审理过程中涉及的其他费用,如保全费和公告费等。受理费分摊数据还可以包括受理费分摊对象的法律地位、名称和负担金额。可以理解的是受理费分摊对象可以是个人,也可以是公司。
具体地,当没有从诉请段落中提取到诉请金额项、且没有从判决段落中提取到判决金额项时,服务器将预设受理费表达式与所提取到的判决段落进行匹配,以从判决段落中提取出相应的案件受理费段落。进一步地,服务器将预设受理费分摊表达式与所提取到的案件受理费段落进行匹配,以从案件受理费段落中提取相应的受理费分摊数据。服务器根据所提取到的受理费分摊数据对应确定案件受理费总额、原告承担案件受理费和被告承担案件受理费。服务器根据所确定的案件受理费总额、原告承担案件受理费和被告承担案件受理费,按照第二预设计算方式分别计算相应的原告律师胜诉率和被告律师减损率。
其中,第二预设计算方式是预先设定的计算方式,用于指示服务器如何根据所提取的受理费分摊数据,对应计算原告律师胜诉率和被告律师减损率。第二预设计算方式具体可以是根据受理费分摊数据对应计算原告律师胜诉率和被告律师减损率的计算表达式,比如原告律师胜诉率=被告承担案件受理费/案件受理费总额,被告律师减损率=原告承担案件受理费/案件受理费总额。
在一个实施例中,当没有从诉请段落中提取到诉请金额,或者没有从判决段落中提取到判决段落时,服务器基于预设受理费表达式,从判决段落中提取相应的案件受理费段落。
在一个实施例中,服务器从案件受理费段落中提取到受理费分摊数据时,对所提取到的受理费分摊数据进行预处理,再根据预处理后的受理费分摊数据对应计算案件受理费总额、原告承担案件受理费和被告承担案件受理费。其中,预处理包括但不限于对受理费分摊数据中的金额值进行去重处理,或者将受理费分摊数据中不符合预设格式的金额值转换为预设标准形式的金额值。具体地,服务器在案件受理费段落中提取指定关键词,当提取到指定关键词时,服务器按照所提取到的指定关键词所对应的预设预处理方式对受理费分摊数据进行预处理。指定关键词包括但不限于变更、增加、减半收取、总计、共计、合计、万元和亿元等。指定关键词也可以是“百分”或“百分之”,或者百分符号“%”。比如当提取到变更、增加、减半收取和/或总计等关键词时,对受理费分摊数据中的金额值进行去重处理;当提取到百分、万元和/或亿元等关键词时,表明该关键词对应的金额值为不符合预设格式的金额值,服务器将该金额值转换为预设标准形式的金额值。
举例说明,假设提取到的案件受理费段落为“案件受理费2万元,减半收取1万元,保全费5000元,共计15000元,由原告A负担10%,由被告B负担90%”。服务器从该案件受理费段落中提取到的指定关键词为“万元”、“减半收取”、“共计”和“%”。服务器根据指定关键词“减半收取”去除该关键词之前的金额值“2万元”,根据指定关键词“共计”去除该关键词之前的重复金额值“1万元”和“5000元”。同时,服务器根据关键词“万元”和“%”分别将各自对应的金额值转换为预设标准形式,即将1万元转换为10000元,将10%转换为1500元,将90%转换为13500元。值得说明的是的,受理费分摊数据的预处理并不仅仅局限于上述举例说明。
上述实施例中,在没有提取到诉请金额项和判决金额项时,提供了另一种计算原告律师胜诉率和被告律师减损率的计算方式,以便于从不同维度分析律师专业能力,提高了律师专业能力的分析效率。
在一个实施例中,基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据,包括:按照语义顺序依次提取案件受理费段落中的预设关键词;根据预设关键词按照预设分类条件确定案件受理费段落对应的受理费分摊类型;根据受理费分摊类型对应的预设受理费分摊表达式,从案件受理费段落中提取受理费分摊数据。
其中,语义顺序是指语言逻辑顺序。语义顺序具体可以是指构成案件受理费段落的各个词出现的先后顺序,即词序。预设关键词是预先设定的关键词,比如“费”、“共计”和“负担”等。受理费分摊类型是指案件受理费段落中的受理费分摊数据所对应的分摊类型。案件受理费段落中的费用和分摊情况对应有至少一种的组合形式,费用和分摊情况的组成形式与受理费分摊类型相对应。费用和分摊情况的组合形式包括但不限于单一费用的分摊、多种费用的合计分摊和多种费用的分别分摊等。
具体地,服务器按照案件受理费段落的语义顺序,从前往后依次从该案件受理费段落中提取相应的预设关键词。服务器根据所提取到的预设关键词以及预设关键词的提取顺序,按照预设分类条件确定案件受理费段落对应的受理费分摊类型。服务器根据案件受理费段落所对应的受理费分摊类型,对应确定预设受理费分摊表达式,将所确定的预设受理费分摊表达式与案件受理费段落进行匹配,以从案件受理费段落中提取相应的受理费分摊数据。
在一个实施例中,服务器提取到预设关键词后,对应确定所提取到的预设关键词中所包含的第一预设关键词的数量。当所提取到的预设关键词中包含一个第一预设关键词时,服务器将相应案件受理费段落对应的受理费分摊类型确定为第一分摊类型。当所提取到的预设关键词中包含多于一个的第一预设关键词时,服务器按照预设关键词的提取顺序,依次判断所提取到的预设关键词中,是否存在第二预设关键词的下一个预设关键词为第一预设关键词。若不存在,服务器将相应的受理费分摊类型确定为第二分摊类型;若存在,服务器将相应的受理费分摊类型确定为第三分摊类型。其中,预设关键词包括第一预设关键词和第二预设关键词,第一预设关键词比如“费”、“合计”和“共计”等,第二预设关键词比如“负担”和“承担”等。
举例说明,首先,假设案件受理费段落为“案件受理费1000元,由原告A负担”,从该案件受理费段落中提取到的预设关键词为“费”和“负担”,该预设关键词中包含一个第一预设关键词,故将相应的受理费分摊类型确定为第一分摊类型。其次,假设案件受理费段落为“案件受理费1000元,保全费500元,由原告A负担”,由于该案件受理费段落中包含2个第一预设关键词、且不存在第二预设关键词的下一个预设关键词为第一预设关键词,故将受理费分摊类型确定为第二分摊类型。再次,假设案件受理费段落为“案件受理费1000元,由原告A负担,保全费500元,由被告B负担”,由于该案件受理费段落中包含2个第一预设关键词、且存在第二预设关键词的下一个关键词为第一预设关键词,故将受理费分摊类型确定为第三分摊类型。
在一个实施例中,对于每类受理费分摊类型,服务器预存储有相应的预设正则表达式。服务器将每类受理费分摊类型所对应的预设正则表达式,分别与案件受理费段落进行匹配,当匹配成功时,将匹配成功的预设正则表达式所对应的受理费分摊类型,确定为该案件受理费段落所对应的受理费分摊类型。其中,对于每类受理费分摊类型,相应的预设受理费分摊表达式和预设正则表达式可以相同也可以不同。
在一个实施例中,当案件受理费段落对应的受理费分摊类型为第一分摊类型时,服务器基于该第一分摊类型所对应的预设受理费分摊表达式,从案件受理费段落中提取相应的受理费分摊数据。类似地,当案件受理费段落对应的受理费分摊类型为第二分摊类型时,服务器基于该第二分摊类型所对应的预设受理费分摊表达式,从案件受理费段落中提取相应的受理费分摊数据。其中,受理费分摊数据具体可以包括但不限于是案件受理费总额、受理费分摊对象和每个受理费分摊对象所分摊的金额。
在一个实施例中,当案件受理费段落对应的受理费分摊类型为第三分摊类型时,服务器按照预设分割条件将该案件受理费段落划分为多于一个的单元句。其中,每个单元句所对应的受理费分摊类型为第一分摊类型或第二分摊类型。对于每个单元句,服务器基于单元句对应的受理费分摊模型所对应的预设受理费分摊表达式,从该单元句中提取该单元句所对应的受理费分摊数据。服务器根据从每个单元句中分别提取到的受理费分摊数据,对应确定相应案件受理费段落所对应的受理费分摊数据。
举例说明,假设从案件受理费段落为“案件受理费1000元、保全费500元,共计1500元,由原告A负担,公告费600元,由被告B负担”,从该案件受理费段落中依次提取到的预设关键词分别为:费、费、共计、负担、费和负担时,服务器判定该案件受理费段落对应的受理费分摊类型为第三分摊类型。由于依次提取到的预设关键词中,第二预设关键词“负担”后存在第一预设关键词“费”,即依次提取到的预设关键词存在“负担”到“费”的变化,服务器对案件受理费段落在预设关键词“负担”和“费”各自所在的句子之间进行分割,对应获得的两个单元句分别为“案件受理费1000元、保全费500元,共计1500元,由原告A负担”和“公告费600元,由被告B负担”。
在一个实施例中,对于第一分摊类型和第二分摊类型的案件受理费段落或单元句,服务器可将所提取到的受理费分摊数据抽象成相应的费用分摊模型。其中,受理费分摊模型比如“费用X元,分摊人A负担Y元,分摊人B负担Z元”,或者“费用共计X元,分摊人A负担Y元,分摊人B负担Z元”等。对于第三分摊类型的案件受理费段落,服务器将其分割为第一分摊类型和/或第二分摊类型的单元句。
上述实施例中,针对不同受理费分摊类型的案件受理费段落,通过不同的预设受理费分摊表达式从该案件受理费段落中提取相应的受理费分摊数据,提高了受理费分摊数据的提取效率,从而提高了律师专业能力的分析效率。
在一个实施例中,步骤S210之前,上述裁判文书处理方法还包括:基于预设标签表达式,从裁判文书中提取目标标签;当目标标签与预设标签集合不匹配时,执行步骤S210。
其中,预设标签表达式是预先设定的用于通过正则匹配方式从裁判文书中提取目标标签的正则表达式。预设标签表达式具体可用于通过正则匹配方式从判决段落中提取目标标签。目标标签是指预先指定的从裁判文书中提取的文书标签,比如驳回、撤回、发回重审、商标权权属纠纷、侵害商标权纠纷和二审等。预设标签集合是由多于一个的预设标签组成的标签集合。预设标签是预先设定的文书标签。预设标签包括但不限于是驳回、撤回、发回重审、商标权权属纠纷、侵害商标权纠纷和二审。
具体地,服务器将预设标签表达式与裁判文书中的各个段落分别进行匹配,以从裁判文书中提取相应的目标标签,并将所提取到的目标标签与预设标签集合进行匹配。服务器根据匹配结果对应确定原告律师胜诉率和被告律师减损率的计算方式,根据所确定的计算方式对应计算原告律师胜诉率和被告律师减损率。当匹配结果为匹配失败时,即当目标标签与预设标签集合不匹配时,服务器根据所提取到的诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,当匹配结果为匹配成功时,即当目标标签与预设标签集合相匹配时,服务器根据预设标签集合中与目标标签相匹配的预设标签,对应确定原告律师胜诉率和被告律师减损率的计算方式,并根据所确定的计算方式对应计算原告律师胜诉率和被告律师减损率。
在一个实施例中,预设标签集合中包括裁定标签、知识产权标签和二审标签。服务器对预设标签集合中不同类型的预设标签按照优先级进行排序,并按照优先级排序将目标标签依次与预设标签集合中的预设标签进行匹配。优先级排序具体可以是裁判标签的优先级优于知识产权标签,知识产权标签的优先级优于二审标签。其中,裁定标签可以包括多个标签,比如驳回、撤回和发回重审。知识产权标签可以包括多个标签,比如商标权权属纠纷、侵害商标权纠纷。
进一步地,首先,服务器将目标标签与预设标签集合中的裁定标签进行匹配,当匹配成功时,服务器根据匹配成功的裁定标签对应确定原告律师胜诉率和被告律师减损率。其次,当匹配失败时,服务器将目标标签与预设标签集合中的知识产品标签进行匹配,当预设标签集合中存在与目标标签相匹配的知识产权标签时,服务器根据匹配成功的知识产权标签对应确定原告律师胜诉率和被告律师减损率。再次,当预设标签集合中不存在与目标标签相匹配的知识产权标签时,服务器将目标标签与预设标签集合中的二审标签进行匹配,当匹配成功时,服务器从所提取到的案件受理费段落中提取受理费分摊数据,并根据所提取到的受理费分摊数据对应计算原告律师胜诉率和被告律师减损率。
举例说明,当目标标签为驳回时,服务器则判定原告律师胜诉率为0、被告律师减损率100%。当目标标签为撤回时,服务器则判定原告律师胜诉率为50%、被告律师减损率50%。
在一个实施例中,服务器通过关键词匹配的方式从裁判文书或判决段落中提取相应的目标标签。在一个实施例中,服务器从裁判文书中提取与知识产权标签相匹配的目标标签,当没有提取到目标标签时,服务器进一步提取与裁定标签相匹配的目标标签。
上述实施例中,提供了多种计算原告律师胜诉率和被告律师减损率的计算方式,并根据所提取的目标标签所对应的计算方式,对应计算原告律师胜诉率和被告律师减损率,提高了计算效率,从而提高了律师专业能力的分析效率。
在一个实施例中,预设标签集合中包括知识产权标签;从裁判文书中提取目标标签之后,上述裁判文书处理方法还包括:当目标标签与知识产权标签相匹配时,将判决段落与知识产权标签所对应的预设知识产权表达式进行匹配;当判决段落与预设知识产权表达式匹配成功时,根据预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率;当判决段落与预设知识产权表达式匹配失败时,执行步骤S210。
其中,知识产权标签是用于表征相应案件为知识产权案件的标签。知识产权标签包括但不限于商标权权属纠纷和侵害商标权纠纷。预设知识产权表达式是预先设定的用于通过正则匹配方式从判决段落中提取与知识产权判决结果相对应的目标表达式。预设知识产权表达式比如“驳回.*?的诉讼请求”、“诉讼请求不予支持”、“驳回.*?的其他诉讼请求”和“停止”等。
具体地,当目标标签与预设标签集合中的知识产权标签相匹配时,服务器对应确定匹配成功的知识产权标签所对应的预设知识产权表达式,将所确定的预设知识产权表达式与判决段落进行匹配。当判决段落与预设知识产权表达式匹配成功时,服务器根据该预设知识产权表达式所对应的预设确定方式,对应确定原告律师胜诉率和被告律师减损率。当判决段落与预设知识产权表达式匹配失败时,服务器根据所提取到的诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,知识产权标签有多个,每个知识产权标签对应有至少一个预设知识产权表达式。当与目标标签匹配成功的知识产权标签对应有多个预设知识产权表达式时,服务器将该多个预设知识产权表达式分别与判决段落进行匹配,并根据匹配成功的预设知识产权表达式所对应的预设确定方式,对应确定原告律师胜诉率和被告律师减损率。
举例说明,假设目标标签为商标权权属纠纷,商标权权属纠纷对应的预设知识产权表达式有“驳回.*?的诉讼请求”、“诉讼请求不予支持”和“驳回.*?的其他诉讼请求”。当与判决段落匹配成功的预设知识产权表达式为“驳回.*?的诉讼请求”或“诉讼请求不予支持”时,服务器则确定原告律师胜诉率为0、被告律师减损率为100%。当与判决段落匹配成功的预设知识产权表达式为“驳回.*?的其他诉讼请求”时,则确定原告律师胜诉率和被告律师减损率均为50%。
假设目标标签为侵害商标权纠纷,侵害商标权纠纷对应的预设知识产权表达式有“.*?停止.*?”。当判决段落与该预设知识产权表达式匹配成功时,即判决段落中包含有关键词“停止”时,服务器则确定原告律师胜诉率为100%、被告律师减损率为0。
上述实施例中,对于涉及到知识产权的案件,根据判决段落所对应的知识产权标签对应确定计算原告律师胜诉率和被告律师减损率的计算方式,提高了计算效率,从而提高了律师专业能力的分析效率。
在一个实施例中,段落提取模型的训练步骤包括:获取多个目标裁判文书;分别标注出每个目标裁判文书中的目标诉请段落和目标判决段落;获取目标诉请段落对应的诉请段落提取问题,以及目标判决段落对应的判决段落提取问题;将目标裁判文书、诉请段落提取问题和判决段落提取问题作为输入特征,将相应的目标诉请段落和目标判决段落作为期望的输出特征,对长久记忆神经网络进行训练获得已训练的段落提取模型。
其中,诉请段落提取问题是用于从目标裁判文书中提取诉请段落的提问数据,比如“原告诉讼请求对应于哪些段落?”。判决段落提取问题是用于从目标裁判文书中提取判决段落的提问数据,比如“法院判决结果对应于哪些段落?”。长久记忆神经网络具体可以是End-To-End Memory Networks,具体可以是单层记忆网络,也可以是多层记忆网络。
具体地,服务器获取多个目标裁判文书,并分别标注出每个目标裁判文书中的目标诉请段落和目标判决段落。服务器分别获取目标诉请段落对应的诉请段落提取问题,以及目标判决段落对应的判决段落提取问题。服务器将目标裁判文书和相应的诉请段落提取问题作为输入特征,将相应的目标诉请段落作为期望的输出特征,获得第一训练样本集。类似地,服务器将目标裁判文书和相应的判决段落提取问题作为输入特征,将相应的目标判决段落作为期望的输出特征,获得第二训练样本集。进一步地,服务器基于所获取到的第一训练样本集和第二训练样本集,对长久记忆神经网络进行交替训练获得已训练的段落提取模型。其中,交替训练是指分别利用第一训练样本集中的第一训练样本和第二训练样本集中的第二训练样本,交替对长久记忆神经网络进行训练。
在一个实施例中,服务器根据第一训练样本集进行训练,获得用于从裁判文书中提取诉请段落的段落提取模型。类似地,服务器根据第二训练样本集进行训练,获得用于从裁判文书中提取判决段落的段落提取模型。在一个实施例中,第一训练样本集和第二训练样本集中的输入特征均为目标裁判文书。
在一个实施例中,服务器在进行模型训练时,将交叉熵损失函数作为目标函数对长久记忆神经网络进行训练。
上述实施例中,基于训练样本集进行模型训练,以通过训练获得的段落提取模型从裁判文书中分别提取诉请段落和判决段落,提高了提取效率。
在一个实施例中,实体识别模型的训练步骤包括:获取多个目标裁判文书;通过已训练的段落提取模型分别从每个目标裁判文书中提取目标诉请段落和目标判决段落;分别标注出目标诉请段落和目标判决段落中的目标金额项;将目标诉请段落和目标判决段落作为输入特征,将相应的目标金额项作为期望的输出特征,对初始化的实体识别模型进行训练获得已训练的实体识别模型。
具体地,服务器获取多个目标裁判文书,并通过预先训练好的的段落提取模型分别提取相应的目标诉请段落和目标判决段落。对于所提取到的目标诉请段落和目标判决段落,服务器分别标注出相应的目标金额项,即标注出目标诉请段落中的目标诉请金额项和目标判决段落中的目标判决金额项。服务器将目标诉请段落作为输入特征,相应的目标诉请金额项作为期望的输出特征,获得相应的诉请训练样本集。类似地,服务器将目标判决段落作为输入特征,相应的目标判决金额项作为期望的输出特征,获得相应的判决训练样本集。进一步地,服务器根据诉请训练样本集和判决训练样本集对初始化的实体识别模型进行交替训练获得已训练的实体识别模型。
在一个实施例中,服务器根据诉请训练样本集进行训练,获得用于从诉请段落中提取诉请金额项的实体识别模型。类似地,服务器根据判决训练样本集进行训练,获得用于从判决段落中提取判决金额项的实体识别模型。
在一个实施例中,实体识别模型具体可以是bilstm-crf模型。
上述实施例中,基于训练样本集进行训练,以通过训练获得的实体识别模型从诉请段落提取诉请金额项和判决段落提取判决金额项,提高了提取效率。
指的说明的是,上述各个实施例中的“.*?”代表相应位置处存在一个或多个字符。字符具体可以是汉字、数字、字母和符号等。
如图3所示,在一个实施例中,提供了一种裁判文书处理方法,该方法具体包括以下步骤:
S302,获取裁判文书。
S304,通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落。
S306,通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项。
S308,当提取到诉请金额项和判决金额项时,基于预设金额项表达式,从诉请段落中提取与诉请金额项对应的诉请金额值,以及从判决段落中提取与判决金额项对应的判决金额值。
S310,基于预设标签表达式,从裁判文书中提取目标标签。
S312,当目标标签与预设标签集合不匹配时,根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
S314,当目标标签与知识产权标签相匹配时,将判决段落与知识产权标签所对应的预设知识产权表达式进行匹配。
S316,当判决段落与预设知识产权表达式匹配成功时,根据预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率。
S318,当判决段落与预设知识产权表达式匹配失败时,根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
S320,当没有提取到诉请金额项和判决金额项时,基于预设受理费表达式,从判决段落中提取案件受理费段落。
S322,按照语义顺序依次提取案件受理费段落中的预设关键词。
S324,根据预设关键词按照预设分类条件确定案件受理费段落对应的受理费分摊类型。
S326,根据受理费分摊类型对应的预设受理费分摊表达式,从案件受理费段落中提取受理费分摊数据。
S328,根据受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
上述实施例中,提供了多种计算原告律师胜诉率和被告律师减损率的计算方式,以便于根据所获取到的裁判文书选择相适应的计算方式,提高了计算效率,从而提高了律师专业能力的分析效率。
应该理解的是,虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种裁判文书处理装置400,包括:获取模块401、段落提取模型402、金额项提取模块403、金额值提取模块404和计算模块405,其中:
获取模块401,用于获取裁判文书。
段落提取模型402,用于通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落。
金额项提取模块403,用于通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项。
金额值提取模块404,用于当提取到诉请金额项和判决金额项时,基于预设金额项表达式,从诉请段落中提取与诉请金额项对应的诉请金额值,以及从判决段落中提取与判决金额项对应的判决金额值。
计算模块405,用于根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
如图5所示,在一个实施例中,裁判文书处理装置400还包括:分摊数据提取模块406;
段落提取模型402,还用于当没有提取到诉请金额项和判决金额项时,基于预设受理费表达式,从判决段落中提取案件受理费段落;分摊数据提取模块406,用于基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据;计算模块405,还用于根据受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,分摊数据提取模块406,还用于按照语义顺序依次提取案件受理费段落中的预设关键词;根据预设关键词按照预设分类条件确定案件受理费段落对应的受理费分摊类型;根据受理费分摊类型对应的预设受理费分摊表达式,从案件受理费段落中提取受理费分摊数据。
在一个实施例中,裁判文书处理装置400还包括:标签提取模块407;标签提取模块407,用于基于预设标签表达式,从裁判文书中提取目标标签;当目标标签与预设标签集合不匹配时,使得计算模块405执行根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,预设标签集合中包括知识产权标签;标签提取模块407,还用于当目标标签与知识产权标签相匹配时,将判决段落与知识产权标签所对应的预设知识产权表达式进行匹配;当判决段落与预设知识产权表达式匹配成功时,使得计算模块405还用于根据预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率;当判决段落与预设知识产权表达式匹配失败时,计算模块405执行根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,裁判文书处理装置400还包括:模型训练模块408;
模型训练模块408,用于获取多个目标裁判文书;分别标注出每个目标裁判文书中的目标诉请段落和目标判决段落;获取目标诉请段落对应的诉请段落提取问题,以及目标判决段落对应的判决段落提取问题;将目标裁判文书、诉请段落提取问题和判决段落提取问题作为输入特征,将相应的目标诉请段落和目标判决段落作为期望的输出特征,对长久记忆神经网络进行训练获得已训练的段落提取模型。
在一个实施例中,模型训练模块408,还用于获取多个目标裁判文书;通过已训练的段落提取模型分别从每个目标裁判文书中提取目标诉请段落和目标判决段落;分别标注出目标诉请段落和目标判决段落中的目标金额项;将目标诉请段落和目标判决段落作为输入特征,将相应的目标金额项作为期望的输出特征,对初始化的实体识别模型进行训练获得已训练的实体识别模型。
关于裁判文书处理装置的具体限定可以参见上文中对于裁判文书处理方法的限定,在此不再赘述。上述裁判文书处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储裁判文书和预设金额项表达式。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种裁判文书处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取裁判文书;通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落;通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项;当提取到诉请金额项和判决金额项时,基于预设金额项表达式,从诉请段落中提取与诉请金额项对应的诉请金额值,以及从判决段落中提取与判决金额项对应的判决金额值;根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当没有提取到诉请金额项和判决金额项时,基于预设受理费表达式,从判决段落中提取案件受理费段落;基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据;根据受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据,包括:按照语义顺序依次提取案件受理费段落中的预设关键词;根据预设关键词按照预设分类条件确定案件受理费段落对应的受理费分摊类型;根据受理费分摊类型对应的预设受理费分摊表达式,从案件受理费段落中提取受理费分摊数据。
在一个实施例中,处理器执行计算机程序时实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤之前,还实现以下步骤:基于预设标签表达式,从裁判文书中提取目标标签;当目标标签与预设标签集合不匹配时,实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,预设标签集合中包括知识产权标签;处理器执行计算机程序时实现从裁判文书中提取目标标签的步骤之后,还实现以下步骤:当目标标签与知识产权标签相匹配时,将判决段落与知识产权标签所对应的预设知识产权表达式进行匹配;当判决段落与预设知识产权表达式匹配成功时,根据预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率;当判决段落与预设知识产权表达式匹配失败时,实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,处理器执行计算机程序时还实现段落提取模型的训练步骤包括:获取多个目标裁判文书;分别标注出每个目标裁判文书中的目标诉请段落和目标判决段落;获取目标诉请段落对应的诉请段落提取问题,以及目标判决段落对应的判决段落提取问题;将目标裁判文书、诉请段落提取问题和判决段落提取问题作为输入特征,将相应的目标诉请段落和目标判决段落作为期望的输出特征,对长久记忆神经网络进行训练获得已训练的段落提取模型。
在一个实施例中,处理器执行计算机程序时还实现实体识别模型的训练步骤包括:获取多个目标裁判文书;通过已训练的段落提取模型分别从每个目标裁判文书中提取目标诉请段落和目标判决段落;分别标注出目标诉请段落和目标判决段落中的目标金额项;将目标诉请段落和目标判决段落作为输入特征,将相应的目标金额项作为期望的输出特征,对初始化的实体识别模型进行训练获得已训练的实体识别模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取裁判文书;通过已训练的段落提取模型从裁判文书中提取诉请段落和判决段落;通过已训练的实体识别模型从诉请段落中提取诉请金额项,以及从判决段落中提取判决金额项;当提取到诉请金额项和判决金额项时,基于预设金额项表达式,从诉请段落中提取与诉请金额项对应的诉请金额值,以及从判决段落中提取与判决金额项对应的判决金额值;根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当没有提取到诉请金额项和判决金额项时,基于预设受理费表达式,从判决段落中提取案件受理费段落;基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据;根据受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
在一个实施例中,基于预设受理费分摊表达式,从案件受理费段落提取受理费分摊数据,包括:按照语义顺序依次提取案件受理费段落中的预设关键词;根据预设关键词按照预设分类条件确定案件受理费段落对应的受理费分摊类型;根据受理费分摊类型对应的预设受理费分摊表达式,从案件受理费段落中提取受理费分摊数据。
在一个实施例中,计算机程序被处理器执行时实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤之前,还实现以下步骤:基于预设标签表达式,从裁判文书中提取目标标签;当目标标签与预设标签集合不匹配时,实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,预设标签集合中包括知识产权标签;计算机程序被处理器执行时实现从裁判文书中提取目标标签的步骤之后,还实现以下步骤:当目标标签与知识产权标签相匹配时,将判决段落与知识产权标签所对应的预设知识产权表达式进行匹配;当判决段落与预设知识产权表达式匹配成功时,根据预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率;当判决段落与预设知识产权表达式匹配失败时,实现根据诉请金额项和相应的诉请金额值,以及判决金额项和相应的判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
在一个实施例中,计算机程序被处理器执行时还实现段落提取模型的训练步骤包括:获取多个目标裁判文书;分别标注出每个目标裁判文书中的目标诉请段落和目标判决段落;获取目标诉请段落对应的诉请段落提取问题,以及目标判决段落对应的判决段落提取问题;将目标裁判文书、诉请段落提取问题和判决段落提取问题作为输入特征,将相应的目标诉请段落和目标判决段落作为期望的输出特征,对长久记忆神经网络进行训练获得已训练的段落提取模型。
在一个实施例中,计算机程序被处理器执行时还实现实体识别模型的训练步骤包括:获取多个目标裁判文书;通过已训练的段落提取模型分别从每个目标裁判文书中提取目标诉请段落和目标判决段落;分别标注出目标诉请段落和目标判决段落中的目标金额项;将目标诉请段落和目标判决段落作为输入特征,将相应的目标金额项作为期望的输出特征,对初始化的实体识别模型进行训练获得已训练的实体识别模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种裁判文书处理方法,所述方法包括:
获取裁判文书;
通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当没有提取到所述诉请金额项和所述判决金额项时,基于预设受理费表达式,从所述判决段落中提取案件受理费段落;
基于预设受理费分摊表达式,从所述案件受理费段落提取受理费分摊数据;
根据所述受理费分摊数据分别计算原告律师胜诉率和被告律师减损率。
3.根据权利要求2所述的方法,其特征在于,所述基于预设受理费分摊表达式,从所述案件受理费段落提取受理费分摊数据,包括:
按照语义顺序依次提取所述案件受理费段落中的预设关键词;
根据所述预设关键词按照预设分类条件确定所述案件受理费段落对应的受理费分摊类型;
根据所述受理费分摊类型对应的预设受理费分摊表达式,从所述案件受理费段落中提取受理费分摊数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率之前,所述方法还包括:
基于预设标签表达式,从所述裁判文书中提取目标标签;
当所述目标标签与预设标签集合不匹配时,执行所述根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
5.根据权利要求4所述的方法,其特征在于,所述预设标签集合中包括知识产权标签;所述从所述裁判文书中提取目标标签之后,所述方法还包括:
当所述目标标签与所述知识产权标签相匹配时,将所述判决段落与所述知识产权标签所对应的预设知识产权表达式进行匹配;
当所述判决段落与所述预设知识产权表达式匹配成功时,根据所述预设知识产权表达式对应的预设确定方式确定原告律师胜诉率和被告律师减损率;
当所述判决段落与所述预设知识产权表达式匹配失败时,执行所述根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率的步骤。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述段落提取模型的训练步骤包括:
获取多个目标裁判文书;
分别标注出每个所述目标裁判文书中的目标诉请段落和目标判决段落;
获取所述目标诉请段落对应的诉请段落提取问题,以及所述目标判决段落对应的判决段落提取问题;
将所述目标裁判文书、所述诉请段落提取问题和所述判决段落提取问题作为输入特征,将相应的所述目标诉请段落和所述目标判决段落作为期望的输出特征,对长久记忆神经网络进行训练获得已训练的段落提取模型。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述实体识别模型的训练步骤包括:
获取多个目标裁判文书;
通过已训练的段落提取模型分别从每个所述目标裁判文书中提取目标诉请段落和目标判决段落;
分别标注出所述目标诉请段落和所述目标判决段落中的目标金额项;
将所述目标诉请段落和所述目标判决段落作为输入特征,将相应的所述目标金额项作为期望的输出特征,对初始化的实体识别模型进行训练获得已训练的实体识别模型。
8.一种裁判文书处理装置,其特征在于,所述装置包括:
获取模块,用于获取裁判文书;
段落提取模型,用于通过已训练的段落提取模型从所述裁判文书中提取诉请段落和判决段落;
金额项提取模块,用于通过已训练的实体识别模型从所述诉请段落中提取诉请金额项,以及从所述判决段落中提取判决金额项;
金额值提取模块,用于当提取到所述诉请金额项和所述判决金额项时,基于预设金额项表达式,从所述诉请段落中提取与所述诉请金额项对应的诉请金额值,以及从所述判决段落中提取与所述判决金额项对应的判决金额值;
计算模块,用于根据所述诉请金额项和相应的所述诉请金额值,以及所述判决金额项和相应的所述判决金额值,分别计算原告律师胜诉率和被告律师减损率。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811051928.7A CN109446511B (zh) | 2018-09-10 | 2018-09-10 | 裁判文书处理方法、装置、计算机设备和存储介质 |
PCT/CN2019/071516 WO2020052184A1 (zh) | 2018-09-10 | 2019-01-14 | 裁判文书处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811051928.7A CN109446511B (zh) | 2018-09-10 | 2018-09-10 | 裁判文书处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109446511A true CN109446511A (zh) | 2019-03-08 |
CN109446511B CN109446511B (zh) | 2022-07-08 |
Family
ID=65530979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811051928.7A Active CN109446511B (zh) | 2018-09-10 | 2018-09-10 | 裁判文书处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109446511B (zh) |
WO (1) | WO2020052184A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN110825872A (zh) * | 2019-09-11 | 2020-02-21 | 成都数之联科技有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN111126064A (zh) * | 2019-11-14 | 2020-05-08 | 四川隧唐科技股份有限公司 | 金额识别方法、装置、计算机设备和可读存储介质 |
CN111177332A (zh) * | 2019-11-27 | 2020-05-19 | 中证信用增进股份有限公司 | 自动提取裁判文书涉案标的和裁判结果的方法及装置 |
US11461558B2 (en) | 2019-12-20 | 2022-10-04 | National Tsing Hua University | Method for training a decision-making model with natural language corpus |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569538A (zh) * | 2020-04-29 | 2021-10-29 | 北京国双科技有限公司 | 文书的生成方法、装置、存储介质及电子设备 |
CN111598742A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种从判决书获取当事人量刑要素的方法及装置 |
CN111753537A (zh) * | 2020-06-12 | 2020-10-09 | 鼎富智能科技有限公司 | 离婚纠纷裁判文书标签提取方法及装置 |
CN111784505A (zh) * | 2020-06-30 | 2020-10-16 | 鼎富智能科技有限公司 | 一种借贷纠纷判决书提取方法及装置 |
CN112989830B (zh) * | 2021-03-08 | 2023-08-18 | 武汉大学 | 一种基于多元特征和机器学习的命名实体识别方法 |
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
CN106815201A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种自动判定裁判文书判决结果的方法及装置 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN106815266A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
KR20170123453A (ko) * | 2016-04-29 | 2017-11-08 | 주식회사 헬프미 | 법률문서 자동 작성 방법 및 장치 |
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN108287818A (zh) * | 2018-01-03 | 2018-07-17 | 小草数语(北京)科技有限公司 | 裁判文书中金额的提取方法、装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197163B (zh) * | 2017-12-14 | 2021-08-10 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN108334500B (zh) * | 2018-03-05 | 2022-02-22 | 上海思贤信息技术股份有限公司 | 一种基于机器学习算法的裁判文书标注方法及装置 |
-
2018
- 2018-09-10 CN CN201811051928.7A patent/CN109446511B/zh active Active
-
2019
- 2019-01-14 WO PCT/CN2019/071516 patent/WO2020052184A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447750A (zh) * | 2015-11-17 | 2016-03-30 | 小米科技有限责任公司 | 信息识别方法、装置、终端及服务器 |
CN106815201A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种自动判定裁判文书判决结果的方法及装置 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN106815266A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 裁判文书检索方法和装置 |
KR20170123453A (ko) * | 2016-04-29 | 2017-11-08 | 주식회사 헬프미 | 법률문서 자동 작성 방법 및 장치 |
CN107632968A (zh) * | 2017-05-22 | 2018-01-26 | 南京大学 | 一种面向裁判文书的证据链关系模型的构建方法 |
CN108197099A (zh) * | 2017-12-01 | 2018-06-22 | 厦门快商通信息技术有限公司 | 一种文本信息提取方法及计算机可读存储介质 |
CN108287818A (zh) * | 2018-01-03 | 2018-07-17 | 小草数语(北京)科技有限公司 | 裁判文书中金额的提取方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
孙忠喜等: "规范涉汇案件的行政法律文书", 《中国外汇》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825872A (zh) * | 2019-09-11 | 2020-02-21 | 成都数之联科技有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN110825872B (zh) * | 2019-09-11 | 2023-05-23 | 成都数之联科技股份有限公司 | 一种提取和分类诉讼请求信息的方法及系统 |
CN110781299A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN110781299B (zh) * | 2019-09-18 | 2024-03-19 | 平安科技(深圳)有限公司 | 资产信息识别方法、装置、计算机设备及存储介质 |
CN110765889A (zh) * | 2019-09-29 | 2020-02-07 | 平安直通咨询有限公司上海分公司 | 法律文书的特征提取方法、相关装置及存储介质 |
CN111126064A (zh) * | 2019-11-14 | 2020-05-08 | 四川隧唐科技股份有限公司 | 金额识别方法、装置、计算机设备和可读存储介质 |
CN111177332A (zh) * | 2019-11-27 | 2020-05-19 | 中证信用增进股份有限公司 | 自动提取裁判文书涉案标的和裁判结果的方法及装置 |
CN111177332B (zh) * | 2019-11-27 | 2023-11-24 | 中证信用增进股份有限公司 | 自动提取裁判文书涉案标的和裁判结果的方法及装置 |
US11461558B2 (en) | 2019-12-20 | 2022-10-04 | National Tsing Hua University | Method for training a decision-making model with natural language corpus |
Also Published As
Publication number | Publication date |
---|---|
CN109446511B (zh) | 2022-07-08 |
WO2020052184A1 (zh) | 2020-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446511A (zh) | 裁判文书处理方法、装置、计算机设备和存储介质 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110377632B (zh) | 诉讼结果预测方法、装置、计算机设备和存储介质 | |
CN109684543A (zh) | 用户行为预测和信息投放方法、装置、服务器和存储介质 | |
Li et al. | Entity-oriented multi-modal alignment and fusion network for fake news detection | |
CN110163478A (zh) | 一种合同条款的风险审查方法及装置 | |
CN108509482A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
CN109359175A (zh) | 电子装置、诉讼数据处理的方法及存储介质 | |
CN113901320A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
CN109992664A (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN108491406B (zh) | 信息分类方法、装置、计算机设备和存储介质 | |
CN110472011B (zh) | 一种诉讼成本预测方法、装置及终端设备 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN111767714B (zh) | 一种文本通顺度确定方法、装置、设备及介质 | |
Bai et al. | Segatron: Segment-aware transformer for language modeling and understanding | |
CN114240672A (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN109377203A (zh) | 医疗结算数据处理方法、装置、计算机设备和存储介质 | |
EP4167122A1 (en) | Extracting key value pairs using positional coordinates | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
CN112800771A (zh) | 文章识别方法、装置、计算机可读存储介质和计算机设备 | |
CN111428005A (zh) | 标准问答对确定方法、装置及电子设备 | |
Dong et al. | Argumentprompt: activating multi-category of information for event argument extraction with automatically generated prompts | |
CN110705439A (zh) | 一种信息的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |