CN110390000A

CN110390000A - 一种法律文书自动识别、生成系统及其方法

Info

Publication number: CN110390000A
Application number: CN201910696842.8A
Authority: CN
Inventors: 许敏; 朱雅都; 徐春林; 黄尚强; 陈泉吉; 黄俊凯; 李娟�
Original assignee: Same Side Seville Information Technology Co Ltd
Current assignee: Same Side Seville Information Technology Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-10-29

Abstract

本发明公开了一种法律文书自动识别、生成系统，包括识别模块、处理模块和生成模块，其中：识别模块，用于将法律文书转化电子源文件并导入处理模块；处理模块，进行预处理，定位关键词并提取文本信息；生成模块，抽取与关键词分别一一对应的数据源，生成预填录界面，校验后，自动填录入业务系统。还公开了一种方法，将法律文书转换成电子源文件；对电子源文件进行预处理，定位关键词并提取文本信息；将文本信息与数据源建立映射关系，生成预填录界面辅助人工校对，校验通过后，填录入与系统对接的业务系统。本发明自动识别、提取案件关键信息，并模拟人的方式将数据自动填录到对接的业务系统中，极大地提高了案件受理的工作效率降低出错概率。

Description

一种法律文书自动识别、生成系统及其方法

技术领域

本发明涉及数据处理技术领域，具体的说，是一种法律文书自动识别、生成系统及其方法。

背景技术

法律文书一般是司法行政机关等在解决诉讼、非诉案件时使用的文书。现有技术中，一般采用的纸质的法律文书，递交到司法行政机关后，受理案件人员需要对案件进行受理登记，即人工对法律文书进行阅读分析，提取关键信息录入其业务系统。例如，检察院受理一个单人的审查逮捕案件，需要填录的案卡项大约90项；受理多人的审查逮捕案件，每增加一个犯罪嫌疑人，需要填录的案卡项会增加50项。并且由于当前司法行政机关案多人少的现象突出，人工受理案件势必会耗费大量的人力、时间，不仅工作繁琐，而且容易出错。

发明内容

本发明的目的在于提供一种法律文书自动识别、生成系统及其方法，用于解决现有技术中人工受理案件耗费大量的人力、时间，不仅工作繁琐，而且容易出错的问题。

本发明通过下述技术方案解决上述问题：

一种法律文书自动识别、生成系统，包括识别模块、处理模块和生成模块，其中：

识别模块，用于将纸质法律文书转化电子源文件，并将电子源文件导入处理模块；或者直接将电子版本的法律文书导入处理模块；

处理模块，对导入的电子源文件进行预处理，定位关键词并提取文本信息；

生成模块，从对接的业务系统中抽取数据源，所述数据源与所述关键词分别一一对应，并建立所述文本信息与数据源的映射关系，生成预填录界面，通过人工校验和确认后，自动填录入业务系统。

进一步地，所述处理模块包括：

预处理单元，其配置成用于进行文本清洗以及文本格式化；

提取关键词单元，根据对接的业务系统中的提取项模板配置提取关键词，定位关键词的位置，并根据设定的匹配规则提取文本信息。

一种法律文书自动识别、生成方法，包括：

步骤S100：将法律文书转换成能够被选择、复制和检索文字的电子源文件；

步骤S200：对电子源文件进行预处理，定位关键词并提取文本信息；

步骤S300：将所述文本信息与对接的业务系统中的数据源建立映射关系，生成预填录界面辅助人工校验，校验通过后，填录入与系统对接的业务系统。

进一步地，所述步骤S100包括将纸质法律文书经过高拍仪扫描、识别并转换成双层PDF文件，另外Word/WPS/双层PDF文书等电子版法律文书可直接导入处理模块。所述双层PDF文件可选择文字、复制文字以及检索文字。

进一步地，所述预处理包括文本清洗和文本格式化，其中：

文本清洗包括编码转换、去空格、去非法字符、缺失关键词补充修正；

文本格式化包括分块、分段和分句，其中分块是根据文本分块标志进行分块，所述分段是按照段落符号进行划分，所述分句以标点符号作为分隔符号，将句子分成一个个的短句。

进一步地，所述定位关键词并提取文本信息具体包括：

根据对接的业务系统中数据源的需求，建立关键词词典，定位关键词所在的分块、段落和短句；

从所述短句中确定句子主语，根据预设的抽取项模板，进行关键词抽取；

将抽取的文本信息进行数据转换后输出文本信息，建立文本信息与数据源的对应关系。数据转换包括数据格式转换、文本标准格式转换等等。如对户籍的信息提取，截取至省份和市级。

进一步地，所述步骤S300具体包括：

步骤S310：从对接的业务系统中抽取数据源，生成预填录界面，所述预填录界面展示数据源及数据源对应的文本信息，预填录界面还加载展示文书原始信息；

步骤S320：对预填录界面进行校验，包括：

自动校正：根据对接的业务系统的填录标准进行校验，将文本信息进行自动校正，并进行已校正提示；

设置默认值：提供默认值选项，用于在对应的文本信息未提取到时，将默认值填入；

手动填录：提示用户填录该项，用户手动填录或者将预填录界面的文书原始信息直接拖拽到该选项；

自动复制：提示可复制项，用于将用户填入的内容自动复制到其他名称相同的选项中；

步骤S330：将经过人工校验后文本信息自动填录入对接的业务系统。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明自动识别、智能解析文书内容，精确提取案件关键信息，按照其对接的业务系统的案卡填录的标准，对数据规范化处理，并模拟人的方式将数据自动填录到对接的业务系统中，受理案件人员只需要对填录信息进行校对即可，极大地提高了案件受理的工作效率。

(2)本发明中的分句采用标点符号为分隔符号，而不是以句号为分句依据，因此将句子分成一个个短句，分别提取短句中涉及的关键词，避免了提取文本信息的遗漏和不准确。

附图说明

图1为本发明的系统原理框图；

图2为本发明中提取关键词的流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种法律文书自动识别、生成系统，包括识别模块、处理模块和生成模块，其中：

识别模块，用于将纸质法律文书经过高拍仪扫描、识别并转换成双层PDF文件，并自动导入处理模块；如果法律文书为Word/WPS/双层PDF等格式的电子版文书，可直接导入处理模块；双层PDF文件可选择文字、复制文字以及检索文字；

进一步地，所述处理模块包括：

预处理单元，其配置成用于进行文本清洗以及文本格式化，其中：

文本清洗是指编码转换、去空格、去非法字符、缺失关键字补充修正等处理，例如：罪名表述(表述不完整的补充)、特殊日期表述(如同年、同日、翌日、年底、年初、月底、月初等修正)、人物特性词标注(没有写明的默认按嫌疑人标注)、中文数字转换、半角全角符号处理等。

文本格式化包含分块、分段、分句，其中分块是根据文本行文格式和内容框架进行分块，通过文本分块标志模板配置，每个文本分块的配置规则包含的元素有：<起始标签>、<起始标签类型>、<是否包含起始位置内容>、<结束标签类型>、<是否包含结束位置内容>等。

例如《起诉意见书》，内容框架可分为【文书类别】、【移送单位】、【文书文号】、【犯罪嫌疑人基本信息】、【侦查机关认定犯罪事实】、【综合陈述罪名信息】、【附加信息】等几大块。

以【犯罪嫌疑人基本信息】的分块配置为例说明如下：

<犯罪嫌疑人基本信息>

<起始标签>起诉意见书#起诉意见书#意见书#意见书#起诉书#起诉书#起诉#起诉#意见#意见</起始标签>

<起始标签类型>wz</起始标签类型>

<是否包含起始位置内容>false</是否包含起始位置内容>

<结束标签>yfcmkey#cq</结束标签>

<结束标签类型>bqm</结束标签类型>

<是否包含结束位置内容>false</是否包含结束位置内容>

</犯罪嫌疑人基本信息>这段配置规定了“犯罪嫌疑人基本信息”从文书中哪部分内容提取：

1.<起始标签>规定了该分块的开始标志，用“#”分隔；

2.<起始标签类型>规定了起始标签的类型，“wz”代表“文字”，即“犯罪嫌疑人基本信息”这一块的内容是从文书中出现“起诉意见书”或者“逮捕书”或者“意见书”等位置开始，为了不破坏文书原始数据，在该阶段空格不会被去除；

3.<是否包含起始位置内容>规定了该分块的内容是否要把<起始标签>所匹配的内容加上，“false”代表不加,“true”代表加；

4.<结束标签>规定了该分块的内容到文书的哪个位置结束，即遇见词性为“yfcmkey”或者“cq”的词为止，词性的配置可以在自定义词典中查看；

5.<结束标签类型>规定了结束标签的类型，“bqm”代表“标签名”，即遇到词性为“yfcmkey”或者“cq”的词即为结束。也可以配置为“wz”，其含义和<起始标签类型>一致；

6.<是否包含结束位置内容>规定了该分块的内容是否要把<结束标签>所匹配的内容加上，“false”代表不加,“true”代表加；

上述配置中各项的值，需要与专业词库和自定义词典配合使用。

分段、分句是按照段落符号和句子标点符号进行切分。例如按照分段标识符来划分段落，按照句号/问号/叹号/逗号/分号等标点符号来划分句子。

提取关键词单元，根据对接的业务系统中的提取项模板配置提取关键词，定位出关键词所在的分块、段落和句子。分析关键词所在语句的表达形式，基于词性标注或正则表达式等提取信息，提取数据项是通过提取项模板来配置实现的。

下面以提取案卡项移送单位为例来说明：

<提取项名称>:提取的案卡项名称，如移送单位。

<抽取方法>:segment-基于词性标注的方法，regex—基于正则表达式的方法，sentenceall-抽取整句，抽取方法与抽取代码对应。

<句子长度阈值>:待抽取句子的分词长度限制阀值，若该句子分词长度小于等于csize则抽取，大于csize则不抽取。

<正则表达式>:

<词性标注抽取模式>:包括A-H共8种抽取模式(A-仅取关键词；B-取关键词到句子结尾；C-取关键词到句子结尾，不包含关键词；D-取关键词之前的；E-取关键词之前的，不包含关键词；F-取整个句子；G-含截断词，取截断词之间的数据,包含标签；H-包含截断词，取截断词之间的数据,不包含标签；)，模式与代码对应，后续完善可相应增加。

<是否包含提取项标注>:yes表示包含，no表示不包含。

<包含的汉字>:

<提取项关键词标注>:

<是否有截断词>:是否有截断词，yes表示有，no表示没有。

<截断词标注>:

<去除词>：需要去除的词组，多个词语用“|”隔开。

<过滤词标注或汉字>:类别标识，相当于分类标签，可对应或不对应。

<句子截断词标注>:若为空则不用标注。

<适用案由>:如为空，则适用所有案由。

<空时连接前一个分句查询>:如果对小分句取不到值，则连接前一个分句一起查询。例如对于拘留时间：(1)2017年9月11日因涉嫌故意伤害罪被我局刑事拘留。这个能正常提取到时间；(2)2017年9月11日，因涉嫌故意伤害罪被我局刑事拘留。这样就不能提取到，因为时间和刑事拘留关键字在两个不同的分句。将该配置设置为yes后，则会在正常功能提取方法提取不到的情况下，将关键字所在的分句和它的前一个分句连接到一起再次尝试提取。

<空时连接前一分句查询截断词>:

实施例2：

一种法律文书自动识别、生成方法，包括：

步骤S300：将所述文本信息与对接的业务系统中的数据源建立映射关系，生成预填录界面辅助人工校验，校验通过后，自动填录入与系统对接的业务系统。

进一步地，结合附图2所示，所述预处理包括文本清洗和文本格式化，其中：

文本格式化包括分块、分段和分句，其中分块是根据文本分块标志进行分块，所述分段是按照段落符号进行划分，所述分句以标点符号作为分隔符号，将句子分成一个个的短句，收集组合包含待抽取项即关键词的语句。

所述定位关键词并提取文本信息具体包括：

根据预设的转换为标准输出的模板，将抽取的关键词进行数据转换，并输出文本信息，建立文本信息与数据源的对应关系。

进一步地，所述步骤S300具体包括：

步骤S310：从对接的业务系统中抽取数据源，生成预填录界面，即数据校对界面，界面左侧加载展示文书原始信息，右侧展示各个与对接的业务系统中的数据源对应的关键词以及与关键词对应的提取的文本信息；针对不同的案件类别，展示不同的关键词组合界面，可通过案件的受理案卡模板来配置；

例如：

<Key>：关键词名称

<AkItemDescription>：关键词名称描述

<AKItemMetaDataName>：对应统一业务应用系统中的数据源名称

<AKSLZDMC>：预填录模块中对应的关键词名称

<ISSLXDZD>：是否为受理想到的字段

<SJYID>：对应业务系统中数据源的ID

<IsPinyinSeach>：是否支持拼音搜索

<Required>：是否为必填项

<ZDProcesser>：该字段的特殊处理方法

<DataType>：数据类型

<IsCannotEditDefault>：是否不可编辑

<DefaultText>：默认值

<Readonly>：是否只读

<Order>：显示顺序号

步骤S320：对预填录界面进行校验，包括：

根据对接业务系统的填录标准，将提取的文本信息自动校正，并以【！】标识，例如：户籍所在地，提取结果：“xx市xx镇xx路xx小区”，校正后：“xx省xx市”，并提示用户此项为校正过。

设置默认值：提供默认值选项，用于在对应的文本信息未提取到时，将默认值填入；例如民族，默认值设为“汉族”，并以【默】提示用户此项为默认值填入。

手动填录：提示用户填录该项，用户手动填录或者将预填录界面的文书原始信息直接选中、拖拽到该选项，并以【填】提示用户此项为手动填入。

自动复制：用【复】提示可复制项，用于将用户填入的内容自动复制到其他名称相同的选项中；例如：主要作案地，只用设置其中一人的主要作案地的值，右键点“数据拷贝”，则该值自动复制到其他人的主要作案地中。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种法律文书自动识别、生成系统，其特征在于，包括识别模块、处理模块和生成模块，其中：

识别模块，用于将法律文书转化电子源文件，并将电子源文件导入处理模块；

2.根据权利要求1所述的一种法律文书自动识别、生成系统，其特征在于，所述处理模块包括：

预处理单元，其配置成用于进行文本清洗以及文本格式化；

3.一种法律文书自动识别、生成方法，其特征在于，包括：

4.根据权利要求3所述的一种法律文书自动识别、生成方法，其特征在于，所述步骤S100包括：

如果法律文书为纸质法律文书，需要对纸质法律文书采用高拍仪扫描、识别并转换为双层PDF文档后，进入下一步；

如果法律文书是电子版法律文书，所述电子版法律文书为Word文档、Wps文档或双层PDF文档，直接进入下一步。

5.根据权利要求3所述的一种法律文书自动识别、生成方法，其特征在于，所述预处理包括文本清洗和文本格式化，其中：

6.根据权利要求5所述的一种法律文书自动识别、生成方法，其特征在于，所述定位关键词并提取文本信息具体包括：

从所述短句中确定句子主语，根据预设的抽取项模板，进行文本信息抽取；

将抽取的文本信息进行数据转换后输出文本信息，建立文本信息与数据源的对应关系。

7.根据权利要求5所述的一种法律文书自动识别、生成方法，其特征在于，所述步骤S300具体包括：

步骤S320：对预填录界面进行校验，包括：