CN110599289A

CN110599289A - 一种裁判文书格式化处理方法

Info

Publication number: CN110599289A
Application number: CN201910698875.6A
Authority: CN
Inventors: 杨玉东; 贺爱英; 李英韬; 李洪生; 张明良; 范路佳
Original assignee: CHANGCHUN WHY-E SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: CHANGCHUN WHY-E SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-12-20

Abstract

一种裁判文书格式化处理方法，涉及计算机中人工智能领域，解决了文本化裁判文书自动变成格式化数据这一技术问题。本发明包括：裁判文书类别识别；标题识别；文号识别；时间检索；案件摘要；被告检索；原告检索；数据存储；信息查重；信息核实；企业数据关联。本发明的特点在于将常规格式化公文与自然语言处理技术结合于一体，应用在裁判文书领域中。通过对裁判文书的格式化处理，分出裁判文书的类别、原告、被告、发生时间等信息，自动形成计算机可识读的格式化数据，并自动添加到企业关系表中，形成了企业信用的重要数据，解决了人工格式化处理的工作量问题。

Description

一种裁判文书格式化处理方法

技术领域

本发明涉及计算机中人工智能技术领域，具体涉及一种裁判文书格式化处理方法。

背景技术

信用是在人们经济交往过程中产生的，因此，一个国家经济交往状况对该国家的信用体系建设有决定性的影响。近几年随着中国的经济的快速发展，国家也意识到信用的重要作用，也努力建设信用体系，力争加快进入信用社会的步伐，但国内的信用体系很难做到像欧美那样，尤其是在信用体系的基础环节- 征信体系方面，更是举步维艰。

为了建立起我国信用体系的基本框架，国家将培育信用市场主体，大力发展信用服务业作为七大重要对策措施之一。信用服务企业通过生产信用报告、开展信用评级、信用担保、商账追收和信用管理咨询等信用业务，为授信单位提供信用风险管理服务，在信用体系中发挥着市场主体作用。

裁判文书作为判定一个企业或个人信用的重要组成部分，是对其风险判定的重要参考依据，而裁判文书每天的发布量大约为几万条，这些如果单靠人工进行分类整理，不仅需要大量的人力和财力支持，且长时间重复工作，造成准确率急剧下降。

人工智能技术的发展，尤其是中文的命名实体识别技术的发展，给通过计算机自动识别裁判文书、并对裁判文书进行格式化处理提供了技术可能。

由于裁判文书往往是非结构化信息，不能依靠简单的结构解析就提取出想要的信息，而是需要自然语言处理技术来提取出裁判文书中的关键信息。如何采用计算机自动将文本化裁判文书变成格式化数据是目前亟待解决的重要问题。

发明内容

为了解决文本化裁判文书自动变成格式化数据这一技术问题，本发明提供一种裁判文书格式化处理方法，属于一种针对专用公文的自然语言处理方法。

本发明为解决技术问题所采用的技术方案如下：

本发明的一种裁判文书格式化处理方法，包括以下步骤：

步骤一、裁判文书类别识别；

对裁判文书的类别进行维护：刑事案件、民事案件、行政案件、赔偿案件、执行案件；在采集裁判文书数据的过程中，根据不同的栏目进行分类标识，刑事案件：CR；民事案件：CI；行政案件：AD；赔偿案件：CO；执行案件：EX；

步骤二、标题识别；

默认为单独一行“最高人民法院”为标题行，其下面一整行内容为该裁判文书的类别标识；

步骤三、文号识别；

步骤四、时间检索；

完成发文日期、案件发生日期范围、审理日期范围的格式化；

步骤五、案件摘要；

步骤六、被告检索；

步骤七、原告检索；

步骤八、数据存储；

将步骤一至步骤七所产生的裁判文书分解的数据保存到数据库中，并标识数据来源、采集日期，同时存储整个裁判文书文件及可疑性判断；

步骤九、信息查重；

步骤十、信息核实；

对存储后的裁判文书数据进行确认，对可疑性文件进行人工调整；

步骤十一、企业数据关联。

进一步的，步骤二包括以下步骤：

S201：设置字符型变量：Cate；

S202：行检索“最高人民法院”，若检查存在，即为标题行，提取其下一行文字，提出空格后，记载到变量Cate中；若不存在，则该文本标识为TitleFirstNull；

S203：类别管理

应用类别识别管理功能，将已归类的类别和新增的列表分类展现出来，人工确认后标记在原始类别和确认类别2个字段中。

进一步的，步骤三包括以下步骤：

S301：变量设置

设置三个整形变量：Pos、Zipos、Findpos；

六个文本类型变量：Symbol、RelatedSymbol[]、RelatedSymbolDate[]、RelatedSymboCourtl[]、MM，ErrorText；

S302：末尾检索

采用计算机检索中，从前到全文后查找“被告人”，查出来后记载其位置Pos，如果查不到记载，ErrorText错误标识记载ZiFirstNull，认为该文本没有有效文号，在判断结束后步骤；

S303：关键词检索

然后从前至后，针对刑事案件，查找第一个文号关键词字库中维护的“字第”、“字”、“号”等关键字，并根据步骤S311中维护的文号识别规则引擎算法判断是否符合规则，如果符合，则记载位置Zipos，如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；关键词检索错误”；

S304：比较Zipos与Pos大小，若Zipos<Pos，则认为该文本有有效文号，否则认为该文本没有独立有效文号；

S305：字符串截取

在具有有效文号的前提下，提取其后连接的数字为文本文号，“号”为结束标志，其前括号中的数字为年份，年份连同关键字共同组成文号标识MM，赋予文本型变量Symbol中；

S306：相关文号查找

继续向下文查找，查找出以下“字第”出现的位置，向前查找“(”，向后查找“号”中间部分文字记载为相关判决裁判文书文号，赋予变量 RelatedSymbol[1]中，Symbol赋值“”；

S307：相关审判日期查找

采用全文检索，在Zipos位置向前检索至“法院”位置Findpos，提取“法院”与“(”中间字符，判断日期的有效性，如果有效，记载为RelatedSymbolDate[1]，如果无效，记载RelatedSymbolDate[1]＝“”；

S308：相关审判机构查找

采用全文检索，在Zipos位置向前检索至“省”，除去前几个字符与省名称字符库对比，找到相同的省份，提取从**省到“人民法院”中间的字符，赋予字符串RelatedSymboCourtl[1]；

S309：重复步骤S306至步骤S308继续向下文查找，查找出以下“字第”出现的位置，赋予数组RelatedSymbol[n]、RelatedSymbolDate[n]、 RelatedSymboCourtl[n]，n为正文中找到的次数，直至查找到文件结束；

S310：重复文号剔除

判断数组RelatedSymbol[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组删除，同时按此n值更新RelatedSymbolDate[n]、RelatedSymboCourtl[n]数值；

S311：文号规则引擎管理

应用文号识别规则引擎管理功能，由两部分组成，关键字和关键字之间关联规则组成；

关键字由“字第”、“字”、“号”组成；

关键字之间的关联规则由两个关键字之间最大字符数，必须包含字符表、不能包含的字符表等规则组成；

文号识别规则引擎算法为实现上述规则设定的正则运算方法，由关键字查找，关键之间的字符数计算，中间字符串是否包含必须包含字符，是否不包含必须包含字符四部分组成；

如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；文号识别规则计算错误：”+字符串位置+传过来关键字符串+“；”。

进一步的，步骤四包括以下步骤：

S401：变量设置

设定字符型变量PDate，整数型变量LineSite；

S402：发文日期提取

行检索由后向前检索“附录”，如果全文没有查到直至查找最后一个“附录”起头的数据行，然后向上进行行检索“年”“月”“日”在一行，检索范围从最后一行到最后第十行，取第一个检出的有效日期作为PDate字符值；

将PDate字符值转换成阿拉伯数字日期格式；

S403；案件发生、审理日期范围提取

全文检索日期规则引擎中的关键字，截取裁判文书中同一句话含有关键字的语句，采用日期识别规则引擎算法进行识别；

针对类别为“案件发生日期”的最小日期定为该案件的发生日期，“案件发生日期”的最大的日期为该案件的发生截止日期；

针对类别为“审理日期”的最小日期定为该案件的审理开始日期，“审理日期”的最大的日期为该案件的审理截止日期；

针对类别为“其他日期”的最小日期定为该案件的其他日期，“其他日期”的最大的日期为该案件的其他截止日期；

日期记录记载每个日期的语句；

S405：日期规则引擎算法维护

日期规则由关键字、关键字之间规则、规则引擎算法三部分组成；

日期关键字由“年”“月”“日”“根据”“法院”组成；

类别由“案件发生日期”、“审理日期”、“其他日期”组成；

关键字之间的联系规则由两个关键字之间最大字符数、必须包含字符表、不能包含的字符表组成；

日期识别规则引擎算法为实现上述规则设定的正则运算方法，由关键字查找，关键之间的字符数计算，中间字符串是否包含必须包含字符，是否不包含必须包含字符、根据关键字判定属于哪个类别五部分组成；

如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；日期规则引擎识别错误：”+字符串位置+传过来关键字符串+“；”。

进一步的，步骤五包括以下步骤：案件摘要由案件标题、单位、日期、文号、裁判理由组成；获取来源为裁判文书网的列表页；提取后赋予字符变量 CaseName、HearingOrgan、CaseDate、CaseID、ReasonsJjudgement中。

进一步的，步骤七包括以下步骤：

S601：设定字符型变量DefendantText[]、DefendantName[]、DefendantType[]、DefendantFeat[]；

S602：从行头字符检索至步骤S607原告关键词维护所列的关键词，提取后面文本至行位或标点符号前文本，赋予变量DefendantText[1]；

S603：判断被告的主体是人还是单位

在DefendantText[1]字符串中检索单位关键词。如果查到，即标识该被告为单位属性，DefendantType[1]赋值“单位”，查不到DefendantType[1]赋值“个人”；

如果被告主体是单位，调用步骤S608中单位识别引擎算法，提供 DefendantText[1]字符串，接受“单位名字”返回值，赋值至DefendantName[1] 字符串；

如果被告主体是个人，则将DefendantText[1]加载到调用步骤S609中个人姓名识别引擎算法中，提取个人姓名，并赋予到DefendantName[1]中；

S604：其他角色赋值

提取在DefendantText[1]被告关键词与单位或个人中间的字符，赋予字符串DefendantFeat[1]中，作为被告的其他角色；

S605：继续在裁判文书向下行检索，重复步骤S602至步骤S604，并将相应的值赋予DefendantText[n]、DefendantName[n]、DefendantType[n]、 DefendantFeat[n]中，其中n为第几次查到，直至查到正文为止；

S606：重复被告剔除

从前到后判断数组DefendantName[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组DefendantText[n]、 DefendantName[n]、DefendantType[n]、DefendantFeat[n]删除，直至查找到整理后的最后一个数组；

S607：原告关键词维护

被告关键词维护：系统默认“被申请人”、“被告”、“被申诉人”为被告关键词；

S608：单位识别引擎算法

单位关键词维护：系统默认“公司”“学校”“所”“院”为单位关键词；

单位前置结束符：维护单位前置结束符；

单位名称核实：在企业信用数据库中核实该单位名称信息，若有该单位名称，认为该单位存在，否则把该单位列入可疑名单，及单位名称后加“(可疑)”字样，留置后续人工处理；

单位识别引擎算法包括识别单位关键词、单位前置结束符、单位名称核实三个过程，并把中间的字符串返回给调用者；

如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；企业名称识别错误：”+字符串位置+传过来关键字符串+“；”；

S609：个人姓名识别引擎算法

对于姓名的维护，由两部分组成，姓氏和名字，姓氏由一个姓氏一览表中维护；

对于名字，一般单字、2字、3字和多字四种类型，采用自然语言识别中分词技术，将姓名后面的汉字进行分词处理，首先判断符合姓名概率；如果概率大于50％，则默认为该字符串可能为姓名，该函数返回该姓名及判断概率；

如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；个人姓名识别：”+字符串位置+传过来关键字符串+“；”。

进一步的，步骤七包括以下步骤：

S701：设定字符型变量PlaintiffText[]、PlaintiffName[]、PlaintiffType[]、PlaintiffFeat[]。

S702：从行头字符检索至步骤S707：关键引擎维护的原告关键词，提取后面文本至行位或标点符号前文本，赋予变量PlaintiffText[1]；

S703：判断原告的主体是人还是单位

在PlaintiffText[1]字符串中检索单位关键词；如果查到，即标识该原告为单位属性，PlaintiffType[1]赋值“单位”，查不到PlaintiffType[1]赋值“个人”；

如果原告主体是单位，则调用步骤S608中单位识别引擎算法，提供PlaintiffText[1]字符串，接受“单位名字”返回值，赋值至PlaintiffName[1]字符串；

如果原告主体是个人，则将PlaintiffText[1]加载到步骤S609个人姓名识别引擎算法中，提取个人姓名，并赋予到PlaintiffName[1]中；

S704：其他角色赋值

提取在PlaintiffText[1]被告关键词与单位或个人中间的字符，赋予字符串PlaintiffFeat[1]中，作为被告的其他角色；

S705继续在裁判文书向下行检索，重复步骤S702至步骤S704，并将相应的值赋予PlaintiffText[n]、PlaintiffName[n]、PlaintiffType[n]、PlaintiffFeat[n]中。其中n为第几次查到，直至查到正文为止；

S706：重复原告剔除

从前到后判断数组PlaintiffName[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组PlaintiffText[n]、PlaintiffName[n]、PlaintiffType[n]、PlaintiffFeat[n]删除，直至查找到整理后的最后一个数组；

S707：关键引擎维护

原告关键词维护：系统默认“申请人”、“原告”、“申诉人”为原告关键词。

进一步的，步骤九包括以下步骤：在新存入的案件中，用案件摘要信息、案件标题、单位、日期、文号、裁判理由与原存储数据进行对比，如果完全相同即认为重复记录，删除新存储记录。

进一步的，步骤十包括以下步骤：

SA01：错误处理

检查ErrorText字符串长度，如果大于0说明在自动格式化中存在错误，需要在此进行处理；

在正文中根据ErrorText中位置和字符串用黄色背景标识出来，并在可疑栏标识出错误类型；

人工处理，给相关变量重新赋值，直至所有错误处理完成；

SA02：参数调整

如果错误几率大于10％，则调整判断引擎参数，并对裁判文书重新判断，直至错误率小于10％为止。

进一步的，步骤十一包括以下步骤：在企业案件中，根据企业名称增加企业相关案件关联记录，将案件摘要信息添加到企业案件中，并记载自动采集、数据来源、记载标识。

本发明的有益效果是：

本发明的特点在于将常规格式化公文与自然语言处理技术结合于一体，应用在裁判文书领域中。通过对裁判文书的格式化处理，分出裁判文书的类别、原告、被告、发生时间等信息，自动形成计算机可识读的格式化数据，并自动添加到企业关系表中，形成了企业信用的重要数据，解决了人工格式化处理的工作量问题。

附图说明

图1为本发明的一种裁判文书格式化处理方法的流程图。

图2为文号识别流程图。

图3为日期检索流程图。

图4为被告检索流程图。

图5为原告检索流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

如图1所示，本发明的一种裁判文书格式化处理方法，主要包括以下步骤：

步骤一、裁判文书类别识别

首先维护裁判文书的类别：刑事案件、民事案件、行政案件、赔偿案件、执行案件。在裁判文书网数据采集的过程中，根据不同的栏目进行分类标识，刑事案件：CR；民事案件：CI；行政案件：AD；赔偿案件：CO；执行案件： EX。若栏目删改，则相应调整上述分类。

步骤二、标题识别

默认为单独一行“最高人民法院”为标题行，其下面一整行内容为该裁判文书的类别标识。

具体操作步骤如下：

S201：设置字符型变量：Cate。

S202：行检索“最高人民法院”，若检查存在，即为标题行，提取其下一行文字，提出空格后，记载到变量Cate中；若不存在，则该文本标识为TitleFirstNull。

一般该类别分为：刑事裁定书、指令再审决定书、再审决定书、指定管辖决定书。

S203：类别管理

管理功能中有一个类别识别管理功能，将已归类的类别和新增的列表分类展现出来，采用人工确认，确认后标记在原始类别和确认类别2个字段中。

步骤三、文号识别

由于格式化文本的文号是其唯一标识，因此，查找该文本对应的文号是确定关联和重复的关键。本步骤主要针对该文本的文号及相关裁判文书的文号进行查找，如图2所示，具体操作步骤如下：

S301：变量设置

设置三个整形变量：Pos、Zipos、Findpos；

六个文本类型变量：Symbol、RelatedSymbol[]、RelatedSymbolDate[]、RelatedSymboCourtl[]、MM，ErrorText。

S302：末尾检索

采用计算机检索中，从前到全文后查找“被告人”，查出来后记载其位置Pos，如果查不到记载，ErrorText错误标识记载ZiFirstNull，认为该文本没有有效文号，在判断结束后步骤。

S303：关键词检索

ErrorText＝ErrorText+“；关键词检索错误”。

S304：比较Zipos与Pos大小，若Zipos<Pos，则认为该文本有有效文号，否则认为该文本没有独立有效文号。

S305：字符串截取

在具有有效文号的前提下，提取其后连接的数字为文本文号，“号”为结束标志，其前括号中的数字为年份，年份连同关键字共同组成文号标识MM，赋予文本型变量Symbol中。

S306：相关文号查找

继续向下文查找，查找出以下“字第”出现的位置，向前查找“(”，向后查找“号”中间部分文字记载为相关判决裁判文书文号，赋予变量 RelatedSymbol[1]中，Symbol赋值“”。

S307：相关审判日期查找

采用全文检索，在Zipos位置向前检索至“法院”位置Findpos，提取“法院”与“(”中间字符，判断日期的有效性，如果有效，记载为RelatedSymbolDate[1]，如果无效，记载RelatedSymbolDate[1]＝“”。

S308：相关审判机构查找

采用全文检索，在Zipos位置向前检索至“省”，除去前几个字符与省名称字符库对比，找到相同的省份，提取从**省到“人民法院”中间的字符，赋予字符串RelatedSymboCourtl[1]。

S309：重复步骤S306至步骤S308继续向下文查找，查找出以下“字第”出现的位置，赋予数组RelatedSymbol[n]、RelatedSymbolDate[n]、 RelatedSymboCourtl[n]，n为正文中找到的次数，直至查找到文件结束。

S310：重复文号剔除

判断数组RelatedSymbol[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组删除，同时按此n值更新RelatedSymbolDate[n]、RelatedSymboCourtl[n]数值。

S311：文号规则引擎管理

管理功能中有一个文号识别规则引擎管理功能，由两部分组成，关键字和关键字之间关联规则组成。

关键字由“字第”、“字”、“号”等组成。

关键字之间的关联规则由两个关键字之间最大字符数，必须包含字符(汉字)表、不能包含的字符(汉字)表等规则组成。上述规则可维护，放入文号规则表中。

文号识别规则引擎算法为实现上述规则设定的正则运算方法，由关键字查找，关键之间的字符数计算，中间字符串是否包含必须包含字符(汉字)，是否不包含必须包含字符(汉字)四部分组成。

如果出现错误，则执行以下公式：

步骤四、时间检索

主要完成发文日期、案件发生日期范围、审理日期范围等格式化。如图3 所示，其具体步骤如下：

S401：变量设置

设定字符型变量PDate，整数型变量LineSite。

S402：发文日期提取

行检索由后向前检索“附录”，如果全文没有查到直至查找最后一个“附录”起头的数据行，然后向上进行行检索“年”“月”“日”在一行，检索范围从最后一行到最后第十行，取第一个检出的有效日期作为PDate字符值。

将PDate字符值转换成阿拉伯数字日期格式。

S403；案件发生、审理日期范围提取

全文检索日期规则引擎中的关键字，截取裁判文书中同一句话含有关键字的语句，采用日期识别规则引擎算法进行识别。

针对类别为“案件发生日期”的最小日期定为该案件的发生日期，“案件发生日期”的最大的日期为该案件的发生截止日期。

针对类别为“审理日期”的最小日期定为该案件的审理开始日期，“审理日期”的最大的日期为该案件的审理截止日期。

针对类别为“其他日期”的最小日期定为该案件的其他日期，“其他日期”的最大的日期为该案件的其他截止日期。

日期记录记载每个日期的语句。

S405：日期规则引擎算法维护

日期规则由关键字、关键字之间规则、规则引擎算法三部分组成。

日期关键字由“年”“月”“日”“根据”“法院”组成，可维护。

类别由“案件发生日期”、“审理日期”、“其他日期”组成。

关键字之间的联系规则由两个关键字之间最大字符数、必须包含字符(汉字)表、不能包含的字符(汉字)表等规则组成。上述规则可维护，放入日期规则表中。

日期识别规则引擎算法为实现上述规则设定的正则运算方法，由关键字查找，关键之间的字符数计算，中间字符串是否包含必须包含字符(汉字)，是否不包含必须包含字符(汉字)、根据关键字判定属于哪个类别五部分组成。

如果出现错误，则执行以下公式：

步骤五、案件摘要

案件摘要由案件标题、单位、日期、文号、裁判理由组成。获取来源为裁判文书网的列表页。提取后赋予字符变量CaseName、HearingOrgan、CaseDate、 CaseID、ReasonsJjudgement中。

步骤六、被告检索

如图4所示，具体操作步骤如下：

S601：设定字符型变量DefendantText[]、DefendantName[]、DefendantType[]、DefendantFeat[]。

S602：从行头字符检索至步骤S607原告关键词维护所列的关键词，提取后面文本至行位或标点符号(不包含顿号、中间格点、括号、冒号)前文本，赋予变量DefendantText[1]。

S603：判断被告的主体是人还是单位

在DefendantText[1]字符串中检索单位关键词。如果查到，即标识该被告为单位属性，DefendantType[1]赋值“单位”，查不到DefendantType[1]赋值“个人”。

如果被告主体是单位，调用步骤S608中单位识别引擎算法，提供 DefendantText[1]字符串，接受“单位名字”返回值，赋值至DefendantName[1] 字符串。

如果被告主体是个人，则将DefendantText[1]加载到调用步骤S609中个人姓名识别引擎算法中，提取个人姓名，并赋予到DefendantName[1]中。

S604：其他角色赋值

提取在DefendantText[1]被告关键词与单位或个人中间的字符，赋予字符串DefendantFeat[1]中，作为被告的其他角色。

S605：继续在裁判文书向下行检索，重复步骤S602至步骤S604，并将相应的值赋予DefendantText[n]、DefendantName[n]、DefendantType[n]、 DefendantFeat[n]中。其中n为第几次查到，直至查到正文为止。

S606：重复被告剔除

从前到后判断数组DefendantName[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组DefendantText[n]、 DefendantName[n]、DefendantType[n]、DefendantFeat[n]删除。直至查找到整理后的最后一个数组。

S607：原告关键词维护

被告关键词维护：系统默认“被申请人”、“被告”、“被申诉人”为被告关键词，可以在本模块中维护其他关键词。

S608：单位识别引擎算法

单位关键词维护：系统默认“公司”“学校”“所”“院”为单位关键词，可维护。

单位前置结束符：维护单位前置结束符，如“：”等。

单位名称核实：在企业信用数据库中核实该单位名称信息，若有该单位名称，认为该单位存在，否则把该单位列入可疑名单，及单位名称后加“(可疑)”字样，留置后续人工处理。

单位识别引擎算法包括识别单位关键词、单位前置结束符、单位名称核实三个过程，并把中间的字符串返回给调用者。

如果出现错误，则执行以下公式：

ErrorText＝ErrorText+“；企业名称识别错误：”+字符串位置+传过来关键字符串+“；”。

S609：个人姓名识别引擎算法

对于姓名的维护，这里由两部分组成，姓氏和名字。姓氏由一个姓氏一览表中维护，如张、王、李、赵、陈、刘、诸葛、夏侯等。

对于名字，一般单字、2字、3字和多字四种类型。这里采用自然语言识别中分词技术，将姓名后面的汉字进行分词处理，首先判断符合姓名概率。如果概率大于50％，则默认为该字符串可能为姓名，该函数返回该姓名及判断概率。

如果出现错误，则执行以下公式：

步骤七、原告检索

如图5所示，具体操作步骤如下：

S702：从行头字符检索至步骤S707：关键引擎维护的原告关键词，提取后面文本至行位或标点符号(不包含顿号、中间格点、括号、冒号)前文本，赋予变量PlaintiffText[1]。

S703：判断原告的主体是人还是单位

在PlaintiffText[1]字符串中检索单位关键词。如果查到，即标识该原告为单位属性，PlaintiffType[1]赋值“单位”，查不到PlaintiffType[1]赋值“个人”。

如果原告主体是单位，则调用步骤S608中单位识别引擎算法，提供PlaintiffText[1]字符串，接受“单位名字”返回值，赋值至PlaintiffName[1]字符串。

如果原告主体是个人，则将PlaintiffText[1]加载到步骤S609个人姓名识别引擎算法中，提取个人姓名，并赋予到PlaintiffName[1]中。

S704：其他角色赋值

提取在PlaintiffText[1]被告关键词与单位或个人中间的字符，赋予字符串PlaintiffFeat[1]中，作为被告的其他角色。

S705继续在裁判文书向下行检索，重复步骤S702至步骤S704，并将相应的值赋予PlaintiffText[n]、PlaintiffName[n]、PlaintiffType[n]、PlaintiffFeat[n]中。其中n为第几次查到，直至查到正文为止。

S706：重复原告剔除

从前到后判断数组PlaintiffName[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组PlaintiffText[n]、PlaintiffName[n]、PlaintiffType[n]、PlaintiffFeat[n]删除，直至查找到整理后的最后一个数组。

S707：关键引擎维护

原告关键词维护：系统默认“申请人”、“原告”、“申诉人”为原告关键词，可以在本模块中维护其他关键词。

步骤八、数据存储

将步骤一至步骤七所产生的裁判文书分解的数据保存到数据库中，并标识数据来源、采集日期，同时存储整个裁判文书文件及可疑性判断。

步骤九、信息查重

在新存入的案件中，用案件摘要信息、案件标题、单位、日期、文号、裁判理由与原存储数据进行对比，如果完全相同即认为重复记录，删除新存储记录。

步骤十、信息核实

工作人员对存储后的裁判文书数据进行确认，尤其对可疑性文件进行人工调整，其具体操作步骤如下：

SA01：错误处理

检查ErrorText字符串长度，如果大于0说明在自动格式化中存在错误，需要在此进行处理。

在正文中根据ErrorText中位置和字符串用黄色背景标识出来，并在可疑栏标识出错误类型。

人工处理，给相关变量重新赋值，直至所有错误处理完成。

SA02：参数调整

步骤十一、企业数据关联

在企业案件中，根据企业名称增加企业相关案件关联记录，将案件摘要信息添加到企业案件中，并记载自动采集、数据来源、记载标识。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种裁判文书格式化处理方法，其特征在于，包括以下步骤：

步骤一、裁判文书类别识别；

步骤二、标题识别；

步骤三、文号识别；

步骤四、时间检索；

步骤五、案件摘要；

步骤六、被告检索；

步骤七、原告检索；

步骤八、数据存储；

步骤九、信息查重；

步骤十、信息核实；

步骤十一、企业数据关联。

2.根据权利要求1所述的一种裁判文书格式化处理方法，其特征在于，步骤二包括以下步骤：

S201：设置字符型变量：Cate；

S203：类别管理

3.根据权利要求2所述的一种裁判文书格式化处理方法，其特征在于，步骤三包括以下步骤：

S301：变量设置

设置三个整形变量：Pos、Zipos、Findpos；

S302：末尾检索

S303：关键词检索

ErrorText＝ErrorText+“；关键词检索错误”；

S305：字符串截取

S306：相关文号查找

继续向下文查找，查找出以下“字第”出现的位置，向前查找“(”，向后查找“号”中间部分文字记载为相关判决裁判文书文号，赋予变量RelatedSymbol[1]中，Symbol赋值“”；

S307：相关审判日期查找

S308：相关审判机构查找

S309：重复步骤S306至步骤S308继续向下文查找，查找出以下“字第”出现的位置，赋予数组RelatedSymbol[n]、RelatedSymbolDate[n]、RelatedSymboCourtl[n]，n为正文中找到的次数，直至查找到文件结束；

S310：重复文号剔除

S311：文号规则引擎管理

关键字由“字第”、“字”、“号”组成；

如果出现错误，则执行以下公式：

4.根据权利要求3所述的一种裁判文书格式化处理方法，其特征在于，步骤四包括以下步骤：

S401：变量设置

设定字符型变量PDate，整数型变量LineSite；

S402：发文日期提取

将PDate字符值转换成阿拉伯数字日期格式；

S403；案件发生、审理日期范围提取

日期记录记载每个日期的语句；

S405：日期规则引擎算法维护

日期关键字由“年”“月”“日”“根据”“法院”组成；

如果出现错误，则执行以下公式：

5.根据权利要求4所述的一种裁判文书格式化处理方法，其特征在于，步骤五包括以下步骤：案件摘要由案件标题、单位、日期、文号、裁判理由组成；获取来源为裁判文书网的列表页；提取后赋予字符变量CaseName、HearingOrgan、CaseDate、CaseID、ReasonsJjudgement中。

6.根据权利要求5所述的一种裁判文书格式化处理方法，其特征在于，步骤七包括以下步骤：

S603：判断被告的主体是人还是单位

如果被告主体是单位，调用步骤S608中单位识别引擎算法，提供DefendantText[1]字符串，接受“单位名字”返回值，赋值至DefendantName[1]字符串；

S604：其他角色赋值

S605：继续在裁判文书向下行检索，重复步骤S602至步骤S604，并将相应的值赋予DefendantText[n]、DefendantName[n]、DefendantType[n]、DefendantFeat[n]中，其中n为第几次查到，直至查到正文为止；

S606：重复被告剔除

从前到后判断数组DefendantName[n]，找出重复的项，将本数组最后的项值赋予到第一个重复数值上，最后一个数组DefendantText[n]、DefendantName[n]、DefendantType[n]、DefendantFeat[n]删除，直至查找到整理后的最后一个数组；

S607：原告关键词维护

S608：单位识别引擎算法

单位前置结束符：维护单位前置结束符；

如果出现错误，则执行以下公式：

S609：个人姓名识别引擎算法

如果出现错误，则执行以下公式：

7.根据权利要求6所述的一种裁判文书格式化处理方法，其特征在于，步骤七包括以下步骤：

S703：判断原告的主体是人还是单位

S704：其他角色赋值

S706：重复原告剔除

S707：关键引擎维护

8.根据权利要求7所述的一种裁判文书格式化处理方法，其特征在于，步骤九包括以下步骤：在新存入的案件中，用案件摘要信息、案件标题、单位、日期、文号、裁判理由与原存储数据进行对比，如果完全相同即认为重复记录，删除新存储记录。

9.根据权利要求8所述的一种裁判文书格式化处理方法，其特征在于，步骤十包括以下步骤：

SA01：错误处理

人工处理，给相关变量重新赋值，直至所有错误处理完成；

SA02：参数调整

10.根据权利要求9所述的一种裁判文书格式化处理方法，其特征在于，步骤十一包括以下步骤：在企业案件中，根据企业名称增加企业相关案件关联记录，将案件摘要信息添加到企业案件中，并记载自动采集、数据来源、记载标识。