CN106815203B - 一种裁判文书中的金额解析方法及装置 - Google Patents

一种裁判文书中的金额解析方法及装置 Download PDF

Info

Publication number
CN106815203B
CN106815203B CN201510867476.XA CN201510867476A CN106815203B CN 106815203 B CN106815203 B CN 106815203B CN 201510867476 A CN201510867476 A CN 201510867476A CN 106815203 B CN106815203 B CN 106815203B
Authority
CN
China
Prior art keywords
money
amount
paragraph
judgment
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510867476.XA
Other languages
English (en)
Other versions
CN106815203A (zh
Inventor
胡斌
崔维福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510867476.XA priority Critical patent/CN106815203B/zh
Priority to PCT/CN2016/105272 priority patent/WO2017092555A1/zh
Publication of CN106815203A publication Critical patent/CN106815203A/zh
Application granted granted Critical
Publication of CN106815203B publication Critical patent/CN106815203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种裁判文书中的金额解析方法及装置,涉及金额解析领域,主要目的是节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。所述方法包括:首先对裁判文书进行分段获取原告的诉请段落和法院的判决段落,然后对所述诉请段落和判决段落进行分句,按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取,分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到该所述裁判文书中原告的诉请金额和法院的支持金额。本发明主要用于裁判文书中金额的提取。

Description

一种裁判文书中的金额解析方法及装置
技术领域
本发明涉及金额解析领域,尤其是一种裁判文书中的金额解析方法及装置。
背景技术
裁判文书是人民法院行使国家审判权,在案件审理终结后,依据对当事人讼争事实的认定和法律、法规及有关司法解释的规定,对案件的诉讼程序问题和当事人的实体权利义务问题作出的具有法律约束力的司法文件。
由于裁判文书中涉及金额的表述方法有多种多样,例如不同的字符形式包括中文大写、中文数据、阿拉伯数据,又如涉及到的语法结构包括:“对所造成的损害3000元,A应当承担70%“,即A应当承担2100元,因此,上述多种形式的数据表示形式会导致裁判文书中涉及金额的提取难度较大。
目前通常使用人工提取的方式进行裁判文书中涉及金额的提取。然而,由于裁判文书中数据量庞大,若全部采用人工提取的方式,工作量太大,耗费时间长,而且容易出现错误提取。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种裁判文书中的金额解析方法及装置,能够节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。
一方面,本发明提供了一种裁判文书中的金额解析方法,包括:
对裁判文书进行分段获取原告的诉请段落和法院的判决段落;
对所述诉请段落和判决段落进行分句;
按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;
分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到所述裁判文书中原告的诉请金额和法院的支持金额。
另一方面,本发明提供一种裁判文书中的金额解析装置,包括:
获取单元,用于对裁判文书进行分段获取原告的诉请段落和法院的判决段落;
分句单元,用于对所述诉请段落和判决段落进行分句;
提取单元,用于按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;
第一加总单元,用于分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到所述裁判文书中原告的诉请金额和法院的支持金额。
借由上述技术方案,本发明提供的一种裁判文书中的金额解析方法及装置,首先对裁判文书进行分段获取原告的诉请段落和法院的判决段落,然后对所述诉请段落和判决段落进行分句,通过对裁判文书中各分句内出现的金额形式进行统一,方便后续进行金额计算,按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取,进一步在金额提取的过程中通过多层次逐次加剔除重复的金额,进一步验证金额提取的正确性,最后分别将所述诉请段落和判决段落中各分句解析出的金额进行加总,能够准确解析出裁判文书中的金额。与现有技术的裁判文书中金额解析方法相比,本发明通过对裁判文书中多种不同表述形式的金额先统一后再进行提取,能够节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种裁判文书中的金额解析方法流程示意图;
图2示出了本发明实施例提供的另一种裁判文书中的金额解析方法流程示意图;
图3示出了本发明实施例提供的一种裁判文书中的金额解析装置结构示意图;
图4示出了本发明实施例提供的另一种裁判文书中的金额解析装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种裁判文书中的金额解析方法流程示意图,如图1所示,所述方法包括:
101、对裁判文书进行分段获取原告的诉请段落和法院的判决段落。
其中,裁判文书是记载人民法院审理过程和结果,它是诉讼结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。
本步骤中对裁判文书进行分段处理,本实施例中选取以标识一为首、标识二为尾截取原告的诉请段落,所述标识一为原告诉请或者原告诉请的变体,所述标识二为换行符号;选取以标识三为首、标识四为尾截取法院的判决段落,所述标识三为判决如下或者判决如下的变体,所述标识四为本案或者本案的变体。其中,所述原告的诉请段落中记录有关于原告的诉请金额,所述法院支持段落中记录有关于法院支持的金额。
通过上述的分段过程能够得到裁判文书中的内容分为原告方和法院端的两部分内容,进一步对这两部分内容进行金额提取,获取这两部分中的相关金额。
102、对所述诉请段落和判决段落进行分句。
本步骤可以依次以换行符、句号或分号对所述诉请段落和判决段落进行分句。
具体地,首先根据换行符对所述诉请段落和判决段落进行分句,若根据换行符分隔得到的段落中存在句号,则进一步根据句号对所述段落内的文字进行分句,若根据句号分隔得到的段落中存在分号,则根据分号继续对所述句号内的文字进行分句,直至将所述诉请段落和判决段落分为多个分句为止。
103、按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取。
本步骤具体为:首先按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额,其中,本实施例对预设标准形式的金额不做限制,具体可根据需求自行设定,例如可将阿拉伯数字作为预设标准形式的金额,则最终得到的金额形式即为阿拉伯数字形式的金额,然后将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额。
其中,所述将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额,具体为:对各个分句中整理出的金额中重复的金额进行剔除,例如对于分句中“应赔偿受害人张三医药费1000元,护工费2000元,总计赔偿3000元”,此时由于前两个金额1000元和2000元的加和为3000元,此时前两个金额为第三个金额的重复金额,需要将前两个金额剔除。
104、分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到该所述裁判文书中原告的诉请金额和法院的支持金额。
其中,分别将步骤103中提取出的诉请段落中的金额和判决段落中的金额进行加和,得到所述裁判文书中原告的诉请金额和法院的支持金额,并且做相应的金额记录。
本发明实施例提供的一种裁判文书中的金额解析方法,首先对裁判文书进行分段获取原告的诉请段落和法院的判决段落,然后对所述诉请段落和判决段落进行分句,按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取,能够准确解析出裁判文书中的金额。与现有技术的裁判文书中金额解析方法相比,本发明通过对裁判文书中多种不同表述形式的金额先统一后再进行提取,能够节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。
本发明实施例提供了另一种裁判文书中的金额解析方法,如图2所示,所述方法包括:
201、以标识一为首、标识二为尾截取原告的诉请段落,所述标识一为原告诉请或者原告诉请的变体,所述标识二为换行符号。
需要说明的是,这里的标识一与标识二为能够识别出该段落为原告方的诉讼请求段落的关键字,本发明实施例对上述关键字不做限定,具体可根据实际情况中裁判文书能够表现出原告诉讼请求的关键字作为标识。
202、以标识三为首、标识四为尾截取法院的判决段落,所述标识三为判决如下或者判决如下的变体,所述标识四为本案或者本案的变体。
同理,这里的标识三与标识四为能够识别出该段落为法院方的法院判决段落的关键字,本发明实施例对上述关键字不做限定,具体可根据实际情况中裁判文书能够表现出法院判决情况的关键字作为标识。
203、依次以换行符、句号或分号对所述诉请段落和判决段落进行分句。
204、按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额。
本步骤中,具体包括:
1)将所述各个分句中涉及中文大小写的金额整理为预设标准形式的金额。优选地,该步骤可以包括:
利用分词技术对各个分句进行分词处理,得到多个词语,例如,将分句“被告赔偿原告一千零伍拾元整”进行分词处理,得到如下多个词语:被告、赔偿、原告、一千零伍拾、元、整;
将所述多个词语中涉及中文大小写金额的词语组合为金额字符串,如在上面的例子中,“一千零伍拾”为表示一个数值的词,“元”表示一个量词,则将“一千零伍拾元”作为组合后的金额字符串;
按照金额单位词将所述金额字符串切分为多个金额切分词,如在上面的例子中,“千”和“拾”为金额单位词,则可以将金额字符串“一千零伍拾元”切分为“一千”、“零伍拾”两个金额切分词;
根据每一个金额切分词的金额数值和金额单位计算出每一个金额切分词对应的阿拉伯数值,如在上面的例子中,金额切分词“一千”对应的阿拉伯数值为1*1000=1000,金额切分词“零伍拾”对应的阿拉伯数值为5*10=50;
对所述每一个金额切分词对应的阿拉伯数值求和,得到所述各个分句中涉及的金额,如在上面的例子中,最终得到的金额为1000+50=1050元。
在本实施例中,分句中还可以包括亿、万、百、角和分等金额单位词,则可以按照上面描述的过程进行处理,本申请不做限定。
此外,还需要说明的是,在金额字符串中,还可能会出现“万亿”、“亿亿”“千万”等这种包含连续两个金额单位词的金额切分词,因此,基于上面描述的过程,所述按照金额单位词将所述金额字符串切分为多个金额切分词进一步为:查询金额字符串中是否包含连续多个金额单位词,当否时,则按照如上的步骤处理;当是时,则按照连续多个金额单位词中的最后一个单位词将所述金额字符串切分为多个金额切分词。此时,对于包含多个连续金额单位词的金额切分词,根据其金额数值和金额单位计算其阿拉伯数值进一步为:按照所述连续金额单位词从左到右的顺序,递归使用如上描述的方法依次计算每一个金额单位词对应的阿拉伯数值,直到计算出最后一个金额单位词所对应的阿拉伯数值,并将该值作为该金额切分词最终的阿拉伯数值。
通过如上步骤可知,对于各种不同的金额表述形式,在本实施例中,都可以准确地将涉及中文大小写的金额整理为标准的阿拉伯数字表示的金额,满足了对金额提取多样性和准确性的要求。
2)对所述各个分句中涉及的比例关系的金额整理为按比例分配后预设标准形式的金额。
例如,对于分句中的“所造成的损害3000元,A应承担70%”,即整理为2100元,优选地,可以通过关键词识别的方式来识别涉及比例关系金额的分句,如对于分句“所造成的损害3000元,A应承担70%”,当识别出关键词“承担”时,则认为该分句中涉及比例关系的金额,继而根据3000和70%两个数据整理为2100。
3)对所述各个分句中涉及抵扣关系中扣除的金额整理为设为预设标准形式的金额的负值。
例如,对于分句中的“扣除先前垫付的1000元”,即整理为-1000元,优选地,可以通过关键词识别的方式来识别涉及抵扣关系金额的分句,如对于分句“扣除先前垫付的1000元”,当识别出关键词“扣除”时,则认为该分句中涉及抵扣关系金额,继而将数据1000整理为负值,即-1000。
需要说明的是,由于裁判文书中全角括号内的内容为对前述内容的进一步补充和说明,在进行金额提取之前需将各个分句中全角括号及其内容进行剔除,以免对金额重复计算,影响结果的准确性。
205、将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额。
通过步骤204对金额整理后,对于各个分句中整理出的多个金额自第一个金额起始,依次进行加和比较,若前两个金额的加和等于第三个金额,则将前两个金额的数值清零,保留第三个金额,同理从第二个金额起始,将第二个金额和第三个金额加和比较,依次列类推,直至将各个分句中的金额提取出来,保留提取后的金额。
本实施例通过上述将各分句中整理出的金额保留加总值的结果,同时将加总之前的单个金额清零,使得解析得到每个分句中保留一个总的金额,这样能够避免金额的重复计算,同时也保证了提取金额的准确性。
206、分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到该所述裁判文书中原告的诉请金额和法院的支持金额。
207、遍历一组文书中的每个裁判文书,分别将每个裁判文书中原告的诉请金额和法院的支持金额加总,得到总原告诉请金额和总法院支持金额。
需要说明的是,本步骤中的一组文书指的是相同类型的一组裁判文书,将该组中每个裁判文书通过上述步骤能够求出每个裁判文书中原告的诉请金额和法院的支持金额,分别加总得到总原告诉请金额和总法院支持金额。
208、将所述总法院支持金额除以所述总原告诉请金额,得到法院支持比例。
其中,所述法院支持比例等于法院支持金额除以原告诉请金额,本实施例中通过步骤207中得到总法院支持金额和总原告诉请金额,并将总法院支持金额除以总原告诉请金额得到该组裁判文书的法院支持比,
另外,需要说明的是,本实施例也可通过计算出每个裁判文书的法院支持比例,并将该组所有裁判文书求出的法院支持比例加总求平均,得到该组裁判文书的平均法院支持比例,得到另外一个汇总指标。
本实施例通过对裁判文书中各分句内出现的金额形式进行统一,方便后续进行金额计算,进一步在金额提取的过程中通过多层次逐次加剔除重复的金额,进一步验证金额提取的正确性,并且准确解析了判决文书中原告的诉请金额和法院的支持金额。
进一步地,作为图1所示方法的具体实现,本发明实施例提供一种裁判文书中的金额解析装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置不在对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容,如图3所示,所述装置包括:获取单元31、分句单元32、提取单元33、第一加总单元34。
所述获取单元31,用于对裁判文书进行分段获取原告的诉请段落和法院的判决段落;
所述分句单元32,用于对所述诉请段落和判决段落进行分句;
所述提取单元33,用于按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;
所述第一加总单元34,用于分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到该所述裁判文书中原告的诉请金额和法院的支持金额。
本发明实施例提供的一种裁判文书中的金额解析装置,首先对裁判文书进行分段获取原告的诉请段落和法院的判决段落,然后对所述诉请段落和判决段落进行分句,按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取,能够准确解析出裁判文书中的金额。与现有技术的裁判文书中金额解析方法相比,本发明通过对裁判文书中多种不同表述形式的金额先统一后再进行提取,能够节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。
进一步地,作为图2所示方法的具体实现,本发明实施例提供另一种裁判文书中的金额解析装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置不在对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容,如图4所示,所述装置还包括:第二加总单元35和比例计算单元36。
所述第二加总单元35,用于遍历一组文书中的每个裁判文书,分别将每个裁判文书中原告的诉请金额和法院的支持金额加总,得到总原告诉请金额和总法院支持金额;
所述比例计算单元36,用于将所述总法院支持金额除以所述总原告诉请金额,得到法院支持比例。
进一步地,所述获取单元31,包括:
第一截取模块,用于以标识一为首、标识二为尾截取原告的诉请段落,所述标识一为原告诉请或者原告诉请的变体,所述标识二为换行符号;
第二截取模块,用于以标识三为首、标识四为尾截取法院的判决段落,所述标识三为判决如下或者判决如下的变体,所述标识四为本案。
进一步地,所述分句单元32,包括:
分句模块,用于依次以换行符、句号或分号对所述诉请段落和判决段落进行分句。
进一步地,所述提取单元33,包括:
整理模块,用于按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额;
提取模块,用于将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额。
进一步地,所述整理模块,具体用于:
将所述各个分句中涉及中文大小写的金额整理为预设标准形式的金额;
优选地,利用分词技术对各个分句进行分词处理,得到多个词语,例如,将分句“被告赔偿原告一千零伍拾元整”进行分词处理,得到如下多个词语:被告、赔偿、原告、一千零伍拾、元、整;
将所述多个词语中涉及中文大小写金额的词语组合为金额字符串,如在上面的例子中,“一千零伍拾”为表示一个数值的词,“元”表示一个量词,则将“一千零伍拾元”作为组合后的金额字符串;
按照金额单位词将所述金额字符串切分为多个金额切分词,如在上面的例子中,“千”和“拾”为金额单位词,则可以将金额字符串“一千零伍拾元”切分为“一千”、“零伍拾”两个金额切分词;
根据每一个金额切分词的金额数值和金额单位计算出每一个金额切分词对应的阿拉伯数值,如在上面的例子中,金额切分词“一千”对应的阿拉伯数值为1*1000=1000,金额切分词“零伍拾”对应的阿拉伯数值为5*10=50;
对所述每一个金额切分词对应的阿拉伯数值求和,得到所述各个分句中涉及的金额,如在上面的例子中,最终得到的金额为1000+50=1050元。
在本实施例中,分句中还可以包括亿、万、百、角和分等金额单位词,则可以按照上面描述的过程进行处理,本申请不做限定。
此外,还需要说明的是,在金额字符串中,还可能会出现“万亿”、“亿亿”“千万”等这种包含连续两个金额单位词的金额切分词,因此,基于上面描述的过程,所述按照金额单位词将所述金额字符串切分为多个金额切分词进一步为:查询金额字符串中是否包含连续多个金额单位词,当否时,则按照如上的步骤处理;当是时,则按照连续多个金额单位词中的最后一个单位词将所述金额字符串切分为多个金额切分词。此时,对于包含多个连续金额单位词的金额切分词,根据其金额数值和金额单位计算其阿拉伯数值,进一步为:按照所述连续金额单位词从左到右的顺序,递归使用如上描述的方法依次计算每一个金额单位词对应的阿拉伯数值,直到计算出最后一个金额单位词所对应的阿拉伯数值,并将该值作为该金额切分词最终的阿拉伯数值。
通过如上步骤可知,对于各种不同的金额表述形式,在本实施例中,都可以准确地将涉及中文大小写的金额整理为标准的阿拉伯数字表示的金额,满足了对金额提取多样性和准确性的要求。
对所述各个分句中涉及的比例关系的金额整理为按比例分配后预设标准形式的金额;
例如,对于分句中的“所造成的损害3000元,A应承担70%”,即整理为2100元,优选地,可以通过关键词识别的方式来识别涉及比例关系金额的分句,如对于分句“所造成的损害3000元,A应承担70%”,当识别出关键词“承担”时,则认为该分句中涉及比例关系的金额,继而根据3000和70%两个数据整理为2100。
对所述各个分句中涉及抵扣关系中扣除的金额整理为设为预设标准形式的金额的负值;
例如,对于分句中的“扣除先前垫付的1000元”,即整理为-1000元,优选地,可以通过关键词识别的方式来识别涉及抵扣关系金额的分句,如对于分句“扣除先前垫付的1000元”,当识别出关键词“扣除”时,则认为该分句中涉及抵扣关系金额,继而将数据1000整理为负值,即-1000。
另外,需要说明的是,由于裁判文书中全角括号内的内容为对前述内容的进一步补充和说明,在进行金额提取之前需将各个分句中全角括号及其内容进行剔除,以免对金额重复计算,影响结果的准确性。
本实施例通过对裁判文书中各分句内出现的金额形式进行统一,方便后续进行金额计算,进一步在金额提取的过程中通过多层次逐次加剔除重复的金额,进一步验证金额提取的正确性,并且准确解析了判决文书中原告的诉请金额和法院的支持金额。
所述裁判文书中的金额解析装置包括处理器和存储器,上述获取单元31、分句单元32、提取单元33和第一加总单元34等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来节省人力,实现自动化裁判文书中的金额提取,并且提高了提取金额的正确度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:对裁判文书进行分段获取原告的诉请段落和法院的判决段落;对所述诉请段落和判决段落进行分句;按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;分别将所述诉请段落和判决段落中各分句解析出的金额进行加总,得到该所述裁判文书中原告的诉请金额和法院的支持金额。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种裁判文书中的金额解析方法,其特征在于,包括:
对裁判文书进行分段获取原告的诉请段落和法院的判决段落;
对所述诉请段落和判决段落进行分句;
按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到所述裁判文书中原告的诉请金额和法院的支持金额;
所述按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取,包括:
按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额;
将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额;其中,所述去重处理是将各分句中整理得到的金额保留加总值的结果,并将加总之前的单个金额清零;
所述按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额,包括:
对所述各个分句中涉及的比例关系的金额整理为按比例分配后预设标准形式的金额;对所述各个分句中涉及抵扣关系中扣除的金额整理为预设标准形式的金额的负值;将所述各个分句中涉及中文大小写的金额整理为预设标准形式的金额;
所述将所述各个分句中涉及中文大小写的金额整理为预设标准形式的金额,包括:
对各个分句进行分词处理,得到多个词语;
将所述多个词语中涉及中文大小写金额的词语组合为金额字符串;
查询金额字符串中是否包含连续多个金额单位词,若是,则按照连续多个金额单位词中的最后一个单位词将所述金额字符串切分为多个金额切分词;
按照所述连续金额单位词从左到右的顺序,依次计算每一个金额单位词对应的阿拉伯数值,直到计算出最后一个金额单位词所对应的阿拉伯数值,并将每一个金额单位词对应的阿拉伯数值作为每个金额切分词对应的阿拉伯数值。
2.根据权利要求1所述的方法,其特征在于,所述对裁判文书进行分段获取原告的诉请段落和法院的判决段落,包括:
以标识一为首、标识二为尾截取原告的诉请段落,所述标识一为原告诉请或者原告诉请的变体,所述标识二为换行符号;
以标识三为首、标识四为尾截取法院的判决段落,所述标识三为判决如下或者判决如下的变体,所述标识四为本案或者本案的变体。
3.根据权利要求1所述的方法,其特征在于,所述对所述诉请段落和判决段落进行分句,包括:
依次以换行符、句号或分号对所述诉请段落和判决段落进行分句。
4.根据权利要求1所述的方法,其特征在于,所述将所述多个词语中涉及中文大小写金额的词语组合为金额字符串之后,所述方法还包括:
查询金额字符串中是否包含连续多个金额单位词,若否,则按照金额单位词将所述金额字符串切分为多个金额切分词;
根据每一个金额切分词的金额数值和金额单位计算出每一个金额切分词对应的阿拉伯数值;
对所述每一个金额切分词对应的阿拉伯数值求和,得到所述各个分句中涉及的金额。
5.根据权利要求1至4中任一项所述的方法,其特征在于,还包括:
遍历一组文书中的每个裁判文书,分别将每个裁判文书中原告的诉请金额和法院的支持金额加总,得到总原告诉请金额和总法院支持金额;
将所述总法院支持金额除以所述总原告诉请金额,得到法院支持比例。
6.一种裁判文书中的金额解析装置,其特征在于,包括:
获取单元,用于对裁判文书进行分段获取原告的诉请段落和法院的判决段落;
分句单元,用于对所述诉请段落和判决段落进行分句;
提取单元,用于按照预定规则对所述诉请段落和判决段落的各个分句中的金额进行提取;第一加总单元,用于分别将所述诉请段落和判决段落中各分句提取出的金额进行加总,得到所述裁判文书中原告的诉请金额和法院的支持金额;
所述提取单元,包括:
整理模块,用于按照预定规则对各个分句中的金额进行整理得到预设标准形式的金额:
提取模块,用于将各个分句中整理得到的预设标准形式的金额进行去重处理,提取去重后的金额;其中,所述去重处理是将各分句中整理得到的金额保留加总值的结果,并将加总之前的单个金额清零;
所述整理模块具体用于:对所述各个分句中涉及的比例关系的金额整理为按比例分配后预设标准形式的金额;对所述各个分句中涉及抵扣关系中扣除的金额整理为预设标准形式的金额的负值;将所述各个分句中涉及中文大小写的金额整理为预设标准形式的金额;
所述整理模块,具体用于对各个分句进行分词处理,得到多个词语;
将所述多个词语中涉及中文大小写金额的词语组合为金额字符串;
查询金额字符串中是否包含连续多个金额单位词,若是,则按照连续多个金额单位词中的最后一个单位词将所述金额字符串切分为多个金额切分词;
按照所述连续金额单位词从左到右的顺序,依次计算每一个金额单位词对应的阿拉伯数值,直到计算出最后一个金额单位词所对应的阿拉伯数值,并将每一个金额单位词对应的阿拉伯数值作为每个金额切分词对应的阿拉伯数值。
7.根据权利要求6所述的装置,其特征在于,所述获取单元,包括:
第一截取模块,用于以标识一为首、标识二为尾截取原告的诉请段落,所述标识一为原告诉请或者原告诉请的变体,所述标识二为换行符号;
第二截取模块,用于以标识三为首、标识四为尾截取法院的判决段落,所述标识三为判决如下或者判决如下的变体,所述标识四为本案。
8.根据权利要求6至7中任一项所述的装置,其特征在于,还包括:
第二加总单元,用于遍历一组文书中的每个裁判文书,分别将每个裁判文书中原告的诉请金额和法院的支持金额加总,得到总原告诉请金额和总法院支持金额;
比例计算单元,用于将所述总法院支持金额除以所述总原告诉请金额,得到法院支持比例。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的裁判文书中的金额解析方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任一项所述的裁判文书中的金额解析方法。
CN201510867476.XA 2015-12-01 2015-12-01 一种裁判文书中的金额解析方法及装置 Active CN106815203B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510867476.XA CN106815203B (zh) 2015-12-01 2015-12-01 一种裁判文书中的金额解析方法及装置
PCT/CN2016/105272 WO2017092555A1 (zh) 2015-12-01 2016-11-10 一种裁判文书中的金额解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510867476.XA CN106815203B (zh) 2015-12-01 2015-12-01 一种裁判文书中的金额解析方法及装置

Publications (2)

Publication Number Publication Date
CN106815203A CN106815203A (zh) 2017-06-09
CN106815203B true CN106815203B (zh) 2021-03-30

Family

ID=58796238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510867476.XA Active CN106815203B (zh) 2015-12-01 2015-12-01 一种裁判文书中的金额解析方法及装置

Country Status (2)

Country Link
CN (1) CN106815203B (zh)
WO (1) WO2017092555A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197099A (zh) * 2017-12-01 2018-06-22 厦门快商通信息技术有限公司 一种文本信息提取方法及计算机可读存储介质
CN108287818A (zh) * 2018-01-03 2018-07-17 小草数语(北京)科技有限公司 裁判文书中金额的提取方法、装置和电子设备
CN108984500B (zh) * 2018-06-19 2022-04-29 平安科技(深圳)有限公司 金额信息的提取方法、终端设备及介质
CN110633458A (zh) * 2018-06-25 2019-12-31 阿里巴巴集团控股有限公司 裁判文书的生成方法和生成装置
CN109446511B (zh) * 2018-09-10 2022-07-08 平安科技(深圳)有限公司 裁判文书处理方法、装置、计算机设备和存储介质
CN111507095B (zh) * 2019-01-29 2023-05-02 阿里云计算有限公司 裁判文书的生成方法、装置、存储介质和处理器
CN110046345A (zh) * 2019-03-12 2019-07-23 同盾控股有限公司 一种数据提取方法和装置
CN110378784A (zh) * 2019-07-24 2019-10-25 中国工商银行股份有限公司 金额输入方法及装置
CN110851591A (zh) * 2019-09-17 2020-02-28 河北省讯飞人工智能研究院 一种裁判文书的质量评估方法、装置、设备及存储介质
CN112632941A (zh) * 2019-09-23 2021-04-09 北京国双科技有限公司 生成pdf格式公安文书的方法、装置、设备及存储介质
CN112541344B (zh) * 2019-09-23 2024-07-26 北京国双科技有限公司 目标段落的确定方法、装置、存储介质及设备
CN110765889B (zh) * 2019-09-29 2024-06-25 平安直通咨询有限公司上海分公司 法律文书的特征提取方法、相关装置及存储介质
CN111008523A (zh) * 2019-11-21 2020-04-14 中科鼎富(北京)科技发展有限公司 一种信息提取方法、装置及服务器
CN111144095B (zh) * 2019-11-26 2024-04-05 方正璞华软件(武汉)股份有限公司 一种工伤案件裁决书的生成方法及装置
CN111177332B (zh) * 2019-11-27 2023-11-24 中证信用增进股份有限公司 自动提取裁判文书涉案标的和裁判结果的方法及装置
CN111798344B (zh) * 2020-07-01 2023-09-22 北京金堤科技有限公司 主体名称确定方法和装置、电子设备和存储介质
CN112307726B (zh) * 2020-11-09 2023-08-04 浙江大学 因果去偏差模型指导的法院观点自动生成方法
CN112651853A (zh) * 2020-11-17 2021-04-13 四川大学 一种基于裁判文书的论辩观点挖掘方法及系统
CN113010684B (zh) * 2020-12-31 2024-02-09 北京法意科技有限公司 民事诉判图谱的构建方法及系统
CN113343661A (zh) * 2021-06-28 2021-09-03 福建师范大学 一种减刑假释文书自动生成方法及装置
CN113901125B (zh) * 2021-09-17 2024-07-16 盐城天眼察微科技有限公司 数据展示方法和装置、及存储介质和电子设备
CN114239561B (zh) * 2021-12-10 2023-04-28 北京天眼查科技有限公司 供应关系获取方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312559A (zh) * 2007-05-23 2008-11-26 乐金电子(中国)研究开发中心有限公司 基于移动通信终端的消费短信息管理方法及移动通信终端
CN102682109A (zh) * 2012-05-09 2012-09-19 北京彼速信息技术有限公司 一种专利信息解析方法和装置
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7593876B2 (en) * 2003-10-15 2009-09-22 Jp Morgan Chase Bank System and method for processing partially unstructured data
CN103077164B (zh) * 2012-12-27 2016-05-11 新浪网技术(中国)有限公司 文本分析方法及文本分析器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312559A (zh) * 2007-05-23 2008-11-26 乐金电子(中国)研究开发中心有限公司 基于移动通信终端的消费短信息管理方法及移动通信终端
CN102682109A (zh) * 2012-05-09 2012-09-19 北京彼速信息技术有限公司 一种专利信息解析方法和装置
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统

Also Published As

Publication number Publication date
CN106815203A (zh) 2017-06-09
WO2017092555A1 (zh) 2017-06-08

Similar Documents

Publication Publication Date Title
CN106815203B (zh) 一种裁判文书中的金额解析方法及装置
CN106156239B (zh) 一种表格抽取方法和装置
CN106815201B (zh) 一种自动判定裁判文书判决结果的方法及装置
CN110929580A (zh) 一种基于ocr的财务报表信息快速提取方法及系统
CN106528532A (zh) 文本纠错方法、装置及终端
CN110321466B (zh) 一种基于语义分析的证券资讯查重方法及系统
CN111831629B (zh) 一种数据处理方法及装置
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN112948429B (zh) 一种数据报送方法、装置和设备
CN104750852B (zh) 中文地址数据的发现与分类方法
CN111177332B (zh) 自动提取裁判文书涉案标的和裁判结果的方法及装置
Braz et al. Document classification using a Bi-LSTM to unclog Brazil's supreme court
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
CN104572720A (zh) 一种网页信息排重的方法、装置及计算机可读存储介质
CN107977504B (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN110866407B (zh) 确定互译文本及文本间相似度分析方法、装置及设备
CN108427667A (zh) 一种法律文书的分段方法及装置
CN110019659B (zh) 裁判文书的检索方法及装置
Hegde et al. Analyzing the Efficacy of an LLM-Only Approach for Image-Based Document Question Answering
CN105786929B (zh) 一种信息监测方法及装置
CN114490929A (zh) 一种招投标信息采集方法、装置、存储介质及终端设备
CN113971403A (zh) 一种考虑文本语义信息的实体识别方法及系统
CN113779200A (zh) 目标行业词库的生成方法、处理器及装置
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant