CN108984500B - 金额信息的提取方法、终端设备及介质 - Google Patents
金额信息的提取方法、终端设备及介质 Download PDFInfo
- Publication number
- CN108984500B CN108984500B CN201810630791.4A CN201810630791A CN108984500B CN 108984500 B CN108984500 B CN 108984500B CN 201810630791 A CN201810630791 A CN 201810630791A CN 108984500 B CN108984500 B CN 108984500B
- Authority
- CN
- China
- Prior art keywords
- expense
- item
- expense item
- money
- legal document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明适用于信息处理技术领域,提供了一种金额信息的提取方法、终端设备及介质,该方法包括:根据法律文书的案由类别以及发行区域,获取法律文书的文本类型;在预设的多个识别算法中,确定出与文本类型匹配的识别算法,并基于确定出的识别算法,提取法律文书中的各个费用项以及与每一个费用项相对应的金额值;加载报告模板,并根据报告模板中预先设置好的表头,将费用项及金额值导入对应的表体中;根据报告模板的导入结果计算表尾,输出关于法律文书的金额信息提取报表。本发明能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,用户无需再对法律文书进行人工识别,故提高了金额信息的提取准确率以及提取效率。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种金额信息的提取方法、终端设备及计算机可读存储介质。
背景技术
司法行政机关及当事人、律师等在解决诉讼和非讼案件时所使用的文书为法律文书。法律文书往往记载有不同费用项的原告诉请金额、判决金额等金额数据信息。这些金额数据信息在自动断案、案件预判、律师画像、律师胜诉率分析以及判决合理性分析等方面均起着极为重要的参考作用。
然而,基于法律文书的描述多样性,不同机关所对应发布的法律文书的样式差异较大,因此,若要提取法律文书中的金额数据信息,则目前用户也只能通过人工读取的方式来实现。然而,当法律文书所记载的费用项较多时,用户依次遍历法律文书中的各个字符需要耗费较多的时间,由此使得金额信息的提取效率较为低下。并且,在法律文书的读取过程中,或多或少地会出现人工识读出错的情况,因而也降低了金额信息的识别准确率。
发明内容
有鉴于此,本发明实施例提供了一种金额信息的提取方法、终端设备及计算机可读存储介质,以解决现有技术中金额信息的识别准确率以及提取效率均较为低下的问题。
本发明实施例的第一方面提供了一种金额信息的提取方法,包括:
根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;
在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;
加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;
根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
本发明实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;
在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;
加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;
根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型;
在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;
加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;
根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
本发明实施例中,由于不同案由类别以及不同地区所发行的法律文书的样式差异较大,故根据法律文书的案由类别以及发行区域,确定出法律文书的文本类型后,再从预设的多种识别算法中获取与该文本类型匹配的识别算法,保证了能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,提高了金额信息的提取准确率,同时也为案件预判、律师画像、律师胜诉率分析、判决合理性分析等应用提供了更具参考价值的基础数据;另外,由于本发明实施例能够通过预设的识别算法以及报告模板来自动导出法律文书中各费用项以及金额值的对应关系,因而对于用户而言,其能够直观地查看到自己所需的金额信息,无需再对法律文书进行人工识别,因此,提高了金额信息的提取效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的金额信息的提取方法的实现流程图;
图2是本发明实施例提供的金额信息的提取方法S102的具体实现流程图;
图3是本发明实施例提供的金额信息的提取方法S102的另一具体实现流程图;
图4是本发明另一实施例提供的金额信息的提取方法S102的具体实现流程图;
图5是本发明又一实施例提供的金额信息的提取方法的实现流程图;
图6是本发明实施例提供的金额信息的提取装置的结构框图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的金额信息的提取方法的实现流程,该方法流程包括步骤S101至S104。各步骤的具体实现原理如下:
S101:根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型。
本发明实施例中,司法行政机关及当事人、律师等在解决诉讼和非讼案件时所使用的文书为法律文书,法律文书包括包括司法机关的规范性文件以及非规范性文件。根据预设的网站信息,定期从对应的公开网站中下载上述法律文书。
案由表示人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。案由类别包括但不限于人格权纠纷、婚姻家庭继承纠纷、物权纠纷、债权纠纷、劳动争议与人事争议纠纷以及知识产权纠纷等。发行区域表示发行法律文书的司法行政机关所属的行政区域。通过预设的识别算法来对法律文书进行检测处理,可识别出该法律文书中所记载的案由类别以及发行区域。
本发明实施例中,在预设的信息表中,记录有案由类别、发行区域以及文本类型的映射关系。因此,根据当前法律文书的案由类别以及发行区域,读取对应该法律文书的文本类型。
S102:在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值。
由于不同文本类型的法律文书具有不同的文本样式风格,而每一种文本样式风格具有相对规律的文本特点,例如,第一文本类型的法律文书中,各个费用项的金额值通常展示于费用项的具体名称之后;第二文本类型的法律文书中,各个费用项的金额值通常展示于费用项的具体名称之前等。因此,针对每一类文本类型,获取开发人员所针对性设置的识别算法,并将各类识别算法与文本类型的匹配关系进行关联存储。
本发明实施例中,根据上述S101中所获取得到的法律文书的文本类型,查找与该文本类型匹配的识别算法,以基于查找出的识别算法,提取法律文书中的各个费用项以及与每一个费用项对应的金额值信息。
作为本发明的一个实施例,当查找出的识别算法为第一算法时,图2示出了本发明实施例提供的金额信息的提取方法S102的具体实现流程,详述如下:
S1021:获取与费用项描述信息相关联的第一正则表达式。
本发明实施例中,费用项描述信息包括各个费用项的名称或者与费用项名称相关的描述性信息。通过提取各费用项描述信息的模式规则,创建与费用项描述信息相关联的第一正则表达式。其中,费用项例为法律文书中原告诉请的各个赔偿项以及实际判决的各个赔偿项,例如可以是医药费、精神损失费以及衣物损失费等。每一个费用项所对应的金额值即各个赔偿项的具体金额。
S1022:在所述法律文书中,定位与所述第一正则表达式匹配的各个所述费用项。
本发明实施例中,基于上述第一正则表达式,对法律文书所包含的各个字符进行依次检测处理。若法律文书中存在与第一正则表达式匹配的字符串,则将该字符串所处的文本位置确定为一个费用项所属的定位。
S1023:对定位出的每一个所述费用项,查找所述法律文书中出现在该费用项之后的首个金额值,并将该费用项以及该金额值的对应关系进行提取。
以确定出的每一费用项所属的文本位置为起点,通过预设的第二正则表达式,检测出出现在该文本位置之后的金额值。其中,第二正则表达式用于描述与金额值关联的规则模式。例如,预设的第二正则表达式为(?:[0-9]*[,,]*[0-9])+\.?[0-9]*(?:元|万元|百万元|千万元),则基于该第二正则表达式,可识别出法律文书中包含任意数字以及价格单位的字符串,将该字符串确定出当前所需提取的一个金额值。
本发明实施例中,在每一个费用项所属的文本位置之后,若检测到匹配第二正则表达式的字符串,则将该字符串识别为与该费用项对应的金额值,并将二者的对应关系进行记录。此后,读取上述定位出的下一个费用项,并返回执行上述步骤S1023。
作为本发明的一个实施示例,上述步骤S1021至S1023例如可以是:
加载预先建立的一个正则文件,其中,该正则文件包括以下多个第一正则表达式,每一个第一正则表达式与一个费用项对应:
费用项第一正则表达式
残疾赔偿金 (?:伤残|残疾).{0,5}?(?:赔偿|补偿)
残疾器具费 (?:伤残|残疾).{0,5}?(?:器具|用具)
死亡赔偿金 (?:死亡|亡故).{0,5}?(?:赔偿|补偿)
医疗费 (?:医疗|医药).{0,5}?(?:赔偿|补偿|费)
本实施示例中,依次利用上述各个第一正则表达式对法律文书进行检测,在检测出与“(?:伤残|残疾).{0,5}?(?:赔偿|补偿)”匹配的字符串时,将该字符串所属文本位置确定为“残疾赔偿金”这一费用项所属的定位。以该定位为分割点,将法律文书分成前后两个文本区域。在其中的后一文本区域中,查找出最先检测得到的阿拉伯数字。例如,若最先检测到的阿拉伯数字为“200”,则当前得到的提取结果为“交通费--200”。
优选地,在提取得到的费用项以及金额值的对应关系中,在上述阿拉伯数字之后加上金额值的默认位置“元”。
作为本发明的一个实施例,图3示出了本发明实施例提供的金额信息的提取方法S102的另一具体实现流程,详述如下:
S1024:获取包含依序排列的多个费用项的信息列表以及与各类金额值关联的第二正则表达式。
本发明实施例中,若与文本类型匹配的识别算法为第二算法,则根据用户的金额值信息获取需求,获取用户输入的多个费用项的名称,并将其中每一个费用项的名称录入预先创建的信息列表中。
不同的费用项具有不同的优先级。在信息列表中,根据用户对各个费用项所设置的优先级,将优先级较高的费用项排于优先级较低的费用项之前。若未检测到用户所输入的优先级设置指令,则读取各个费用项名称的输入时间,并将输入时间较早的费用项确定为优先级较高的费用项。
本发明实施例中,加载预先建立的第二正则文件,第二正则文件包括与各类金额值关联的第二正则表达式:例如,该第二正则表达式为'(?:[0-9]*[,,]*[0-9])+\.?[0-9]*(?:元|万元|百万元|千万元)?'。
S1025:在所述法律文书中,定位与所述第二正则表达式匹配的各个所述金额值。
S1026:对于每相邻的两个所述金额值之间所存在的文本区域,依序读取所述信息列表中的所述费用项,并判断所述文本区域中是否存在该费用项。
在法律文书中,利用上述第二正则表达式进行匹配查找,以检测出法律文本中各个金额值所属的文本位置。例如,检测的各个金额值依次为“4437元400元200元”。此后,以这些金额值为分割点,把法律文书分割成若干个文本区域。
本发明实施例中,对于每两个金额值之间所存在的文本区域,依序读取信息列表中的一个费用项,并检测该费用项是否出现于该文本区域中。
例如,上述示例中,由于“400元”和“200元”为依次检测得到的两个金额值,因此,在法律文书中,读取存在于“400元”与“200元”之间的各个字符。根据信息列表中的各个费用项的优先级高低次序,依次读取其中每一费用项所对应的第二正则表达式。若当前时刻所读取的一个费用项为“医疗费”,则利用“医疗费”所对应的第二正则表达式(?:医疗|医药).{0,5}?(?:赔偿|补偿|费),检测上述“400元”与“200元”之间的文本区域中,是否存在与该第二正则表达式匹配的的字符串。若判断结果为否,则读取信息列表中排在“医疗费”之后的下一费用项所对应的第二正则表达式,并返回执行检测上述“400元”与“200元”之间的文本区域中,是否存在与该第二正则表达式匹配的的字符串。
S1027:若所述文本区域中存在该费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并在将该费用项以及该金额值的对应关系进行提取后,停止读取所述信息列表中的所述费用项。
对于当前时刻在信息列表中所读取的一个费用项,若检测到文本区域中存在该费用项,则停止检测操作,并确定该费用项所对应的金额值为该文本区域后所出现的首个金额值。
例如,上述“400元”与“200元”之间的文本区域中,若存在“,赔偿交通费以及医疗费共”这一字符串,则根据上述步骤S1021至S1023来进行检测时,将输出“交通费-200”以及“医疗费-200”这两项金额数据信息。然而,本发明实施例中,根据上述步骤S1024至S1027来进行检测时,由于“200”为费用项“医疗费”之后所首个出现的金额值,故输出的金额数据信息为“医疗费-200”,而不再会输出“交通费-200”,由此保证最终在计算费用项总额时,得到的总额结果依然是正确的,从而降低了金额数据信息对后续应用分析过程所产生的影响,因而在一定程度上也提高了金额信息的提取准确率。
S103:加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中。
本发明实施例中,加载预先生成的报告模板,所述报告模板包含各项表头,每一表头与一表体对应,且每一表头用于描述金额信息中的一基础信息字段。上述基础信息字段包括费用项以及金额值。每一表体用于记录一项与基础信息字段对应的匹配参数。对于报告模板中预先设置好的每一表头,根据S102所获得的各个费用项以及金额值的对应关系中,筛选出与基础信息字段对应的匹配参数,并将该匹配参数导入报告模板的表体中。
S104:根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
根据报告模板所导入的每一费用项所对应的金额值,计算各个金额值的总和,以将得到的结果输出为诉请项参考总数后,导入至报告模板的表尾,从而输出关于上述法律文书的金额信息提取报表,并对该金额信息提取报表进行展示。
本发明实施例中,由于不同案由类别以及不同地区所发行的法律文书的样式差异较大,故根据法律文书的案由类别以及发行区域,确定出法律文书的文本类型后,再从预设的多种识别算法中获取与该文本类型匹配的识别算法,保证了能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,提高了金额信息的提取准确率,同时也为案件预判、律师画像、律师胜诉率分析、判决合理性分析等应用提供了更具参考价值的基础数据;另外,由于本发明实施例能够通过预设的识别算法以及报告模板来自动导出法律文书中各费用项以及金额值的对应关系,因而对于用户而言,其能够直观地查看到自己所需的金额信息,无需再对法律文书进行人工识别,因此,提高了金额信息的提取效率。
作为本发明的另一实施例,图4示出了本发明另一实施例提供的金额信息的提取方法S102的具体实现流程。如图4所示,在上述S1026之后,还包括:
S1028:若所述文本区域中不存在所述信息列表中的任一所述费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并读取位于该金额值之前的N个字符;其中,所述N为大于零的整数,且所述N为预设值。
S1029:通过预设的自然语言处理算法,分别对各个所述字符进行实体标注处理。
S1030:获取用户分别对各个所述字符设置的费用项名称。
S1031:基于各个所述字符所分别对应的所述实体标注以及所述费用项名称,构建并训练神经网络模型。
S1032:在每相邻的两个所述金额值之间的文本区域中,若再次检测到所述文本区域中未存在所述信息列表中的任一所述费用项,则通过所述神经网络模型,输出与排序在后的所述金额值相对应的所述费用项。
由于信息列表中所存储的各个费用项基于用户的输入指令的预先获取。因此,若用户所输入的费用项并未涵盖法律文书中所可能出现的各类费用项,则基于该信息列表来对上述文本区域进行检测时,会得出信息列表中的每一费用项均不存在于该文本区域的情况。例如,法律文书中可能出现“衣服损失费200元”,但信息列表中并未预设有“衣物损失费”这一费用项。因此,本发明实施例中,为了自动识别出“200元”所对应的费用项名称。通过标注在该金额值“200元”之前所出现的多个字符的实体类型,并请求用户手工输入这些字符实际所对应的费用项,保证了在基于这些字符及其实体类型来作为训练样本来训练神经网络模型后,能够得到用于自动化识别费用项名称的神经网络模型。
当在下次再次遇到文本区域中仅存在金额值而却未检测到信息列表中所存在的费用项的情况下,通过读取该金额值之前的N个字符,并识别字符所对应的实体类型,将该实体类型以及字符作为当前时刻神经网络模型的输入参数,可在神经网络模型运行处理后,自动识别该金额值所对应的费用项,因此,本发明实施例提高了对金额信息的识别准确度,也提高了整个金额信息提取系统的智能化程度,避免了每次在费用项匹配失败时,只能由用户执行人工识读。
作为本发明的又一实施例,图5示出了本发明又一实施例提供的金额信息的提取方法的实现流程。如图5所示,在上述S104之后,还包括:
S105:获取与信息变更事件关联的关键词。
实际场景中,法律文书可能包含多个名称相同的费用项,但这些费用项所分布的文本位置不同。例如,法律文书在第一段文本区域中,先记载原告在6月1日所诉请的各个费用项金额,而在第二段文本区域中,再记载原告在6月10日所重新诉请的费用项金额。因此,在通过上述S101至S104来对该法律文书进行检测处理后,在输出得到的关于该法律文书的金额信息提取报表中,可能会存在同一费用项对应不同金额值的情况出现。
本发明实施例中,获取预设的与信息变更事件关联的关键词。上述关键词包括但不限于“变更为”、“修改为”以及“更改为”等。用户对预先收集得到的各类法律文书进行人工识别后,可确定出费用项变更时存在于法律文书中的常见词组,故通过人工归纳总结后,可得到上述各个关键词。因此,基于用户输入的关键词设置指令,可获取与信息变更事件关联的关键词。
S106:对所述法律文书进行检测处理,判断所述法律文书中是否存在所述关键词。
S107:若所述法律文书中存在所述关键词,则提取出与所述关键词邻近的所述费用项以及所述金额值,并在所述金额信息提取报表中,将该费用项所对应的金额值变更为当前时刻提取得到的所述金额值。
本发明实施例中,判断法律文书中是否包含上述任一关键词。若检测到任一关键词存在于该法律文书,则基于上述第一正则表达式以及第二正则表达式,分别识别出与该关键词所属文本位置最接近的费用项名称以及金额值。在上述S104所输出的金额信息提取报表中,检测出与该费用项名称匹配的表体数据,将该表体数据中所存在的金额值更新为当前时刻所识别得到的金额值。
示例性地,若预设的关键词包括“变更为”,且在法律文书中存在“原告将交通费诉请变更为300元”这一字符串,则可确定出该法律文书中存在关键词。通过与费用项描述信息相关联的第一正则表达式,在“变更为”这一关键词所属的文本位置之前以及在“变更为”这一关键词所属的文本位置之后,检测出首个出现的费用项名称为“交通费”;通过与各类金额值关联的第二正则表达式,检测出首个出现的金额值为“300”。因此,在金额信息提取报表中,将所存在的表体数据“交通费-200”更新为“交通费-300”。
本发明实施例中,在法律文书中存在与信息变更事件关联的关键词时,通过提取出与该关键词邻近的费用项以及所述金额值,并在金额信息提取报表中,将该费用项所对应的金额值变更为当前时刻提取得到的金额值,保证了最终用户所查看得到的金额信息为实际生效的金额信息,故提高了金额信息的参考价值,提高了金额信息的获取准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于本发明实施例所提供的金额信息的提取方法,图6示出了本发明实施例提供的金额信息的提取装置的结构框图。为了便于说明,仅示出了与本实施例相关的部分。
参照图6,该装置包括:
第一获取单元61,用于根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型。
确定单元62,用于在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值。
加载单元63,用于加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中。
第一输出单元64,用于根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
可选地,若确定出的所述识别算法为第一算法,则所述确定单元62包括:
第一获取子单元,用于获取与费用项描述信息相关联的第一正则表达式。
第一定位子单元,用于在所述法律文书中,定位与所述第一正则表达式匹配的各个所述费用项。
查找子单元,用于对定位出的每一个所述费用项,查找所述法律文书中出现在该费用项之后的首个金额值,并将该费用项以及该金额值的对应关系进行提取。
可选地,若确定出的所述识别算法为第二算法,则所述确定单元62包括:
第二获取子单元,用于获取包含依序排列的多个费用项的信息列表以及与各类金额值关联的第二正则表达式。
第二定位子单元,用于在所述法律文书中,定位与所述第二正则表达式匹配的各个所述金额值。
判断子单元,用于对于每相邻的两个所述金额值之间所存在的文本区域,依序读取所述信息列表中的所述费用项,并判断所述文本区域中是否存在该费用项。
选取子单元,用于若所述文本区域中存在该费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并在将该费用项以及该金额值的对应关系进行提取后,停止读取所述信息列表中的所述费用项。
可选地,所述金额信息的提取装置还包括:
选取单元,用于若所述文本区域中不存在所述信息列表中的任一所述费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并读取位于该金额值之前的N个字符;其中,所述N为大于零的整数,且所述N为预设值。
标注单元,用于通过预设的自然语言处理算法,分别对各个所述字符进行实体标注处理。
第二获取单元,用于获取用户分别对各个所述字符设置的费用项名称。
构建单元,用于基于各个所述字符所分别对应的所述实体标注以及所述费用项名称,构建并训练神经网络模型。
第二输出单元,用于在每相邻的两个所述金额值之间的文本区域中,若再次检测到所述文本区域中未存在所述信息列表中的任一所述费用项,则通过所述神经网络模型,输出与排序在后的所述金额值相对应的所述费用项。
可选地,所述金额信息的提取装置还包括:
第三获取单元,用于获取与信息变更事件关联的关键词。
判断单元,用于对所述法律文书进行检测处理,判断所述法律文书中是否存在所述关键词。
变更单元,用于若所述法律文书中存在所述关键词,则提取出与所述关键词邻近的所述费用项以及所述金额值,并在所述金额信息提取报表中,将该费用项所对应的金额值变更为当前时刻提取得到的所述金额值。
本发明实施例中,由于不同案由类别以及不同地区所发行的法律文书的样式差异较大,故根据法律文书的案由类别以及发行区域,确定出法律文书的文本类型后,再从预设的多种识别算法中获取与该文本类型匹配的识别算法,保证了能够利用最佳且最具有针对性的一种识别算法来准确地提取法律文本中的金额数据信息,提高了金额信息的提取准确率,同时也为案件预判、律师画像、律师胜诉率分析、判决合理性分析等应用提供了更具参考价值的基础数据;另外,由于本发明实施例能够通过预设的识别算法以及报告模板来自动导出法律文书中各费用项以及金额值的对应关系,因而对于用户而言,其能够直观地查看到自己所需的金额信息,无需再对法律文书进行人工识别,因此,提高了金额信息的提取效率。
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备7包括:处理器70以及存储器71,所述存储器71中存储有可在所述处理器70上运行的计算机程序72,例如金额信息的提取程序。所述处理器70执行所述计算机程序72时实现上述各个金额信息的提取方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能,例如图6所示单元61至64的功能。
示例性的,所述计算机程序72可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序72在所述终端设备7中的执行过程。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.一种金额信息的提取方法,其特征在于,包括:
根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型,包括:根据当前法律文书的案由类别以及发行区域,读取预设的信息表中对应该法律文书的文本类型,其中,在预设的信息表中,记录有案由类别、发行区域以及文本类型的映射关系,法律文书包括司法机关的规范性文件以及非规范性文件;
在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;若确定出的所述识别算法为第二算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值,包括:获取包含依序排列的多个费用项的信息列表以及与各类金额值关联的第二正则表达式;在所述法律文书中,定位与所述第二正则表达式匹配的各个所述金额值;对于每相邻的两个所述金额值之间所存在的文本区域,依序读取所述信息列表中的所述费用项,并判断所述文本区域中是否存在该费用项;若所述文本区域中存在该费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并在将该费用项以及该金额值的对应关系进行提取后,停止读取所述信息列表中的所述费用项;若所述文本区域中不存在所述信息列表中的任一所述费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并读取位于该金额值之前的N个字符;其中,所述N为大于零的整数,且所述N为预设值;通过预设的自然语言处理算法,分别对各个所述字符进行实体标注处理;获取用户分别对各个所述字符设置的费用项名称;基于各个所述字符所分别对应的所述实体标注以及所述费用项名称,构建并训练神经网络模型;在每相邻的两个所述金额值之间的文本区域中,若再次检测到所述文本区域中未存在所述信息列表中的任一所述费用项,则通过所述神经网络模型,输出与排序在后的所述金额值相对应的所述费用项;其中,费用项为法律文书中原告诉请的各个赔偿项以及实际判决的各个赔偿项;
加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;
根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
2.如权利要求1所述的金额信息的提取方法,其特征在于,若确定出的所述识别算法为第一算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值,包括:
获取与费用项描述信息相关联的第一正则表达式;
在所述法律文书中,定位与所述第一正则表达式匹配的各个所述费用项;
对定位出的每一个所述费用项,查找所述法律文书中出现在该费用项之后的首个金额值,并将该费用项以及该金额值的对应关系进行提取。
3.如权利要求1所述的金额信息的提取方法,其特征在于,还包括:
获取与信息变更事件关联的关键词;
对所述法律文书进行检测处理,判断所述法律文书中是否存在所述关键词;
若所述法律文书中存在所述关键词,则提取出与所述关键词邻近的所述费用项以及所述金额值,并在所述金额信息提取报表中,将该费用项所对应的金额值变更为当前时刻提取得到的所述金额值。
4.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如下步骤:
根据法律文书的案由类别以及发行区域,获取所述法律文书的文本类型,包括:根据当前法律文书的案由类别以及发行区域,读取预设的信息表中对应该法律文书的文本类型,其中,在预设的信息表中,记录有案由类别、发行区域以及文本类型的映射关系,法律文书包括司法机关的规范性文件以及非规范性文件;
在预设的多个识别算法中,确定出与所述文本类型匹配的所述识别算法,并基于确定出的所述识别算法,提取所述法律文书中的各个费用项以及与每一个所述费用项相对应的金额值;若确定出的所述识别算法为第二算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值,包括:获取包含依序排列的多个费用项的信息列表以及与各类金额值关联的第二正则表达式;在所述法律文书中,定位与所述第二正则表达式匹配的各个所述金额值;对于每相邻的两个所述金额值之间所存在的文本区域,依序读取所述信息列表中的所述费用项,并判断所述文本区域中是否存在该费用项;若所述文本区域中存在该费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并在将该费用项以及该金额值的对应关系进行提取后,停止读取所述信息列表中的所述费用项;若所述文本区域中不存在所述信息列表中的任一所述费用项,则在所述相邻的两个所述金额值中,选取排序在后的金额值,并读取位于该金额值之前的N个字符;其中,所述N为大于零的整数,且所述N为预设值;通过预设的自然语言处理算法,分别对各个所述字符进行实体标注处理;获取用户分别对各个所述字符设置的费用项名称;基于各个所述字符所分别对应的所述实体标注以及所述费用项名称,构建并训练神经网络模型;在每相邻的两个所述金额值之间的文本区域中,若再次检测到所述文本区域中未存在所述信息列表中的任一所述费用项,则通过所述神经网络模型,输出与排序在后的所述金额值相对应的所述费用项;其中,费用项为法律文书中原告诉请的各个赔偿项以及实际判决的各个赔偿项;
加载报告模板,并根据所述报告模板中预先设置好的表头,将所述费用项及所述金额值导入对应的表体中;
根据所述报告模板的导入结果计算表尾,输出关于所述法律文书的金额信息提取报表。
5.如权利要求4所述的终端设备,其特征在于,若确定出的所述识别算法为第一算法,则所述提取所述法律文书中的各个费用项以及与每一个所述费用项对应的金额值的步骤,具体包括:
获取与费用项描述信息相关联的第一正则表达式;
在所述法律文书中,定位与所述第一正则表达式匹配的各个所述费用项;
对定位出的每一个所述费用项,查找所述法律文书中出现在该费用项之后的首个金额值,并将该费用项以及该金额值的对应关系进行提取。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810630791.4A CN108984500B (zh) | 2018-06-19 | 2018-06-19 | 金额信息的提取方法、终端设备及介质 |
PCT/CN2018/105533 WO2019242124A1 (zh) | 2018-06-19 | 2018-09-13 | 金额信息的提取方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810630791.4A CN108984500B (zh) | 2018-06-19 | 2018-06-19 | 金额信息的提取方法、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108984500A CN108984500A (zh) | 2018-12-11 |
CN108984500B true CN108984500B (zh) | 2022-04-29 |
Family
ID=64540650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810630791.4A Active CN108984500B (zh) | 2018-06-19 | 2018-06-19 | 金额信息的提取方法、终端设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108984500B (zh) |
WO (1) | WO2019242124A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984500B (zh) * | 2018-06-19 | 2022-04-29 | 平安科技(深圳)有限公司 | 金额信息的提取方法、终端设备及介质 |
CN109670267B (zh) * | 2018-12-29 | 2023-06-13 | 北京航天数据股份有限公司 | 一种数据处理方法和装置 |
CN110909123B (zh) * | 2019-10-23 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 一种数据提取方法、装置、终端设备及存储介质 |
CN111241274B (zh) * | 2019-12-31 | 2023-11-28 | 航天信息股份有限公司 | 刑事法律文书处理方法和装置、存储介质和电子设备 |
CN111310423B (zh) * | 2020-02-28 | 2023-11-03 | 鼎富智能科技有限公司 | 一种文本信息生成方法及装置 |
CN111292068B (zh) * | 2020-02-28 | 2024-02-09 | 鼎富智能科技有限公司 | 一种合同信息审核方法、装置、电子设备及存储介质 |
CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
CN111985201B (zh) * | 2020-08-19 | 2023-12-29 | 支付宝(杭州)信息技术有限公司 | 一种数据处理规则生成方法、装置及电子设备 |
CN112464781B (zh) * | 2020-11-24 | 2023-06-02 | 厦门理工学院 | 基于图神经网络的文档图像关键信息提取及匹配方法 |
CN112612937A (zh) * | 2020-12-07 | 2021-04-06 | 深圳价值在线信息科技股份有限公司 | 一种关联信息获取方法及设备 |
CN113127603B (zh) * | 2021-04-30 | 2023-04-18 | 平安国际智慧城市科技股份有限公司 | 知识产权的案源识别方法、装置、设备及存储介质 |
CN113160002A (zh) * | 2021-05-11 | 2021-07-23 | 湖南知名未来科技有限公司 | 对官文压缩包进行数据识别的专利官费监控方法及系统 |
CN113779935A (zh) * | 2021-09-10 | 2021-12-10 | 北京金堤科技有限公司 | 文本信息的获取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807273A (zh) * | 2010-03-25 | 2010-08-18 | 上海合合信息科技发展有限公司 | 提取信用卡短信中的消费信息进行财务管理的方法及系统 |
CN105956103A (zh) * | 2016-05-04 | 2016-09-21 | 北京思特奇信息技术股份有限公司 | 一种自动化计算金额的方法和系统 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN106886484A (zh) * | 2017-02-22 | 2017-06-23 | 郑州云海信息技术有限公司 | 基于云海系统的报表生成方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784027A (zh) * | 2016-08-31 | 2018-03-09 | 北京国双科技有限公司 | 一种裁判文书检索关键词的提示方法及装置 |
CN106502969A (zh) * | 2016-10-21 | 2017-03-15 | 天津海量信息技术股份有限公司 | 司法案件涉案金额的归一化方法 |
CN108132925A (zh) * | 2017-12-15 | 2018-06-08 | 中盈优创资讯科技有限公司 | 一种报表文件生成方法及装置 |
CN108984500B (zh) * | 2018-06-19 | 2022-04-29 | 平安科技(深圳)有限公司 | 金额信息的提取方法、终端设备及介质 |
-
2018
- 2018-06-19 CN CN201810630791.4A patent/CN108984500B/zh active Active
- 2018-09-13 WO PCT/CN2018/105533 patent/WO2019242124A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807273A (zh) * | 2010-03-25 | 2010-08-18 | 上海合合信息科技发展有限公司 | 提取信用卡短信中的消费信息进行财务管理的方法及系统 |
CN106815203A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 一种裁判文书中的金额解析方法及装置 |
CN105956103A (zh) * | 2016-05-04 | 2016-09-21 | 北京思特奇信息技术股份有限公司 | 一种自动化计算金额的方法和系统 |
CN106886484A (zh) * | 2017-02-22 | 2017-06-23 | 郑州云海信息技术有限公司 | 基于云海系统的报表生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019242124A1 (zh) | 2019-12-26 |
CN108984500A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984500B (zh) | 金额信息的提取方法、终端设备及介质 | |
CN109062874B (zh) | 财政数据的获取方法、终端设备及介质 | |
CN110874530B (zh) | 关键词提取方法、装置、终端设备及存储介质 | |
CN108664574B (zh) | 信息的输入方法、终端设备及介质 | |
CN110765770A (zh) | 一种合同自动生成方法及装置 | |
US8577155B2 (en) | System and method for duplicate text recognition | |
CN108509482A (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
US9483740B1 (en) | Automated data classification | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
CN111104798A (zh) | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 | |
CN106815265B (zh) | 裁判文书的搜索方法及装置 | |
CN110765760B (zh) | 一种法律案件分配方法、装置、存储介质和服务器 | |
CN107679208A (zh) | 一种图片的搜索方法、终端设备及存储介质 | |
CN108804472A (zh) | 一种网页内容抽取方法、装置及服务器 | |
US9516089B1 (en) | Identifying and processing a number of features identified in a document to determine a type of the document | |
CN110032721A (zh) | 一种裁判文书推送方法及装置 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
CN109214640A (zh) | 指标结果的确定方法、设备及计算机可读存储介质 | |
WO2022257455A1 (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
EP4167122A1 (en) | Extracting key value pairs using positional coordinates | |
CN110110329A (zh) | 一种实体行为抽取方法、装置、计算机装置及计算机可读存储介质 | |
CN109284384A (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN109324963A (zh) | 自动测试收益结果的方法及终端设备 | |
CN115294586A (zh) | 一种识别发票的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |