CN110728240A

CN110728240A - 一种对电子卷宗的标题自动识别的方法及装置

Info

Publication number: CN110728240A
Application number: CN201910972986.1A
Authority: CN
Inventors: 赵岳; 张学来; 贺敏; 刘佳宁; 付阳; 张创伟
Original assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-01-24

Abstract

本发明提供了一种对电子卷宗的标题自动识别的方法及装置，对所述电子卷宗分类，分为文本格式卷宗和表格格式卷宗；分别对文本格式卷宗和表格格式卷宗进行标题识别，输出标题识别结果。对于表格类卷宗，通过表格区域识别，可以识别表头文本区域，并提取表头文本，按行做标题判断，提升表格格式卷宗的标题识别准确性。本发明的标题判断模型采用深度神经网络的方式进行训练，分别对标题和非标题的文本进行标注训练，使得此模型的适用性更强，匹配的结果更为精确。

Description

一种对电子卷宗的标题自动识别的方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种对电子卷宗的标题自动识别的方法及装置。

背景技术

目前，提高信息化办公水平，提高协同办公的效率，同时无纸化办公更加绿色环保，无纸化逐渐在各个行业推行。绝大多数的行业都用电子文档来代替纸质文档。对电子文档也大都采用文档标题的形式命名，方便文档的保存和查找，这就需要识别电子文档的标题。现有环境下，绝大多数的电子文档都是图像格式，识别图像中的标题就变成重中之重，因此图像的识别应用也越来越广泛。

近年来法院也推动使用电子卷宗进行办案，电子卷宗通常采用集中扫描的方式入卷，而卷宗的命名通常以扫描仪规则进行命名，如0001.jpg、0002.jpg等，如果不进行人工重命名，使用起来非常困难，查找和保存都十分不便。因此法院需要一种针对电子卷宗重命名的系统解决这个问题，而重命名的标准就是电子卷宗的标题，因此需要提取电子卷宗的标题用于文件的重命名。

目前业界做标题识别的方式是对电子卷宗的标题进行OCR文本识别，然后根据文字块大小、位置信息判断是否为标题待选区域，因为通常标题的文本字号比正文大，位置居中。然后对待选区域的文字进行规则匹配，可以成功匹配到规则的即为文档的标题。

现有的标题识别方法存在以下缺点：对待选区域的文本进行规则匹配时，通常是使用正则表达式进行匹配，而正则表达式通常是根据人工总结的，如果这个电子卷宗的标题规则未覆盖，或者规则与配置稍有出入，就会导致标题无法识别。另外表格类电子卷宗的待选区域和文本类卷宗有巨大的差别，现有技术也未对表格类的电子卷宗的识别有明确的方案，因此降低了标题识别的整体识别率。

发明内容

有鉴于此，为了解决上述技术问题，本发明提供了一种对电子卷宗的标题自动识别的方法及装置，通过标题识别模型，使得机器可以自行判断标题文本。对表格类的电子卷宗提出了一种专门的识别方法，提升表格格式卷宗的标题识别的准确性。

本发明是通过以下技术方案实现的：

第一方面，本发明提供一种对电子卷宗的标题自动识别的方法，对所述电子卷宗分类，分为文本格式卷宗和表格格式卷宗；分别对文本格式卷宗和表格格式卷宗进行标题识别，输出标题识别结果。

优选的，还包括采用深度神经网络的分类模型进行训练的步骤，所述采用深度神经网络的分类模型进行训练的步骤是在对电子卷宗分类之前进行的，具体包括：

步骤a、收集大量的标题文本和非标题文本形成标题训练集，标题文本作为标题训练集的正样本，非标题文本作为标题训练集的负样本；

步骤b、对自动识别装置基于标题训练集进行标题类训练和非标题类训练；

步骤c、将词性的向量随机加入训练。

优选的，所述的标题训练集根据需要进行补充，用户自行收集标题文本和非标题文本，人工筛选后加入标题训练集重新训练。

一种对电子卷宗的标题自动识别的方法的具体步骤为：

步骤1、输入电子卷宗，获取待识别的图像；

步骤2、对电子卷宗进行文字识别和表格区域识别；

步骤3、判断该电子卷宗是否为表格格式卷宗，如判断是表格格式卷宗，则到步骤4；如判断不是表格格式卷宗，则到步骤5；

步骤4、将表格上方的文本作为标题识别待选区域，提取该标题识别待选区域中的文本，到步骤6；

步骤5、选择文首、位置居中或文字相对大的区域作为标题识别待选区域，提取该标题识别待选区域中的文本，到步骤6；

步骤6、对提取的文本进行匹配，输出匹配结果；

步骤7、根据匹配结果判断是否为电子卷宗的标题；

步骤8、输出标题识别结果。

优选的，所述的步骤3中判断电子卷宗是否为表格格式卷宗的标准是：所述电子卷宗的组成方式为文本+1个表格，并且表格的部分占电子卷宗的60％以上，则判断该电子卷宗为表格格式卷宗；否则判断为文本格式卷宗。

优选的，所述步骤6中的匹配是通过正则表达式匹配或通过基于深度神经网络的分类模型进行判断匹配。

优选的，所述的基于深度神经网络的分类模型，是指分别对标题和非标题的文本进行分类标注形成标题训练集，并基于标题训练集进行训练，使得分类模型有自动判断一段文本是标题类或非标题类的能力，根据分类模型的判断，可以将正确的标题文本判断并提取出来。

优选的，所述的步骤7中判断是否为电子卷宗的标题的标准为：匹配结果大于等于80％则判断是电子卷宗的标题，小于80％则判断不是电子卷宗的标题。

优选的，所述的步骤8中标题的识别结果有两种：即输出标题或输出空；步骤7中判断是电子卷宗的标题时，输出标题；步骤7中判断不是电子卷宗的标题时，输出空。

第二方面，本发明提供一种对电子卷宗的标题自动识别的装置，包括：

存储模块：用于存储输入的电子卷宗；

分类模块：识别电子卷宗的全文，并将电子卷宗分为文本格式卷宗或表格格式卷宗；

提取模块：选择文本格式卷宗和表格格式卷宗的标题识别待选区域，提取该标题识别待选区域的文本；

匹配模块：对提取模块提取的文本进行匹配，输出匹配结果；

输出模块：根据匹配结果，输出标题或输出空。

优选的，所述的分类模块的分类标准是：所述电子卷宗的组成方式为文本+1个表格，并且表格的部分占电子卷宗的60％以上，则判断该电子卷宗为表格格式卷宗；否则判断为文本格式卷宗。

优选的，所述的提取模块对标题识别待选区域的选择，对于文件卷宗，是选择文首、位置居中、或文字字体较大的区域；对于表格格式卷宗，是选择表格上方的文本区域。

优选的，所述的匹配模块是正则表达式匹配或通过基于深度神经网络的分类模型进行判断匹配。

优选的，所述的通过基于深度神经网络的分类模型，是指分别对标题和非标题的文本进行标注形成标题训练集，并基于标题训练集进行训练，使得分类模型有自动判断一段文本是标题类或非标题类的能力，根据分类模型的判断，可以将正确的标题文本判断并提取出来。

本发明的有益效果在于：

1、通过标题数据的标注训练模型，使得机器可以自行判断标题文本。

2、通过表格区域识别，可以识别表头文本，并将表头文本用于做标题识别，提升表格格式卷宗的标题识别准确性。

3、通过用户行为自行收集标题文本，人工筛选后重新训练，可以不断提升模型的准确性。

附图说明

图1为现有技术中对电子卷宗的标题识别流程图；

图2为本发明的对电子卷宗的标题自动识别的方法的流程图；

图3为本发明适用的表格格式卷宗示意图；

图4为本发明的对电子卷宗的标题自动识别的装置结构图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例一

本发明的识别方法及装置适用的电子卷宗包括文本格式卷宗和表格格式卷宗，文件卷宗的标题行，有很明显的空间特征，比如位置居中、字号偏大外等。表格格式卷宗也有很明显的特征，比如表格占整个电子卷宗的很大一部分。比如起诉状、报销单、立案信息表，可能存在个性化的一些变化，再如民事一审起诉状、行程报销单、餐费报销单、民事二审立案信息表等，都属于表格格式卷宗，对于表格格式卷宗的识别，也可以使用文本分类的方式来解决。

表格格式卷宗的标题通常在表格外，通过识别表格线，可以识别表头文本区域，并提取表头文本，按行做标题判断，提升表格格式卷宗的标题识别准确性。

图2是本发明的对电子卷宗的标题识别流程图，具体的识别步骤如下：

步骤1、输入电子卷宗材料，获取待识别的图像；

步骤2、对电子卷宗材料进行文字识别和表格区域识别；该识别是针对电子卷宗全文进行识别的。

步骤3、通过检测电子卷宗全文，判断该电子卷宗是否为表格格式卷宗；如判断为表格格式卷宗，则到步骤4；如判断不是表格格式卷宗，则到步骤5；

在本发明中，判断表格格式卷宗的标准是：电子卷宗的组成方式为文本+表格，并且表格的部分占全文60％以上，则判断该电子卷宗为表格格式卷宗。如果是一段文本、至少一个表格、一段文本、至少一个表格这种交错组成的卷宗，即使表格的部分占全文60％以上，也不能判断为表格格式卷宗，这种情况按文本格式卷宗处理。本发明的方法适用的表格格式卷宗举例如图3所示，图3只是适用本发明方法的表格格式卷宗的一个例子，并不表示本发明的方法及装置只适用于图3的表格格式卷宗，对于结构符合上文描述的表格，都可用本发明的方法来识别。

步骤4、将表格上方的文本作为标题识别待选区域，提取该待选区域中的文本，到步骤6；

步骤5、根据文本格式卷宗的特征，找到标题识别待选区域，提取该待选区域中的文本，到步骤6；

文本格式卷宗的标题识别待选区域是根据文本的空间特征，比如在文本的文首、位置居中、文字的大小等不同特征来进行确定的。

步骤6、对待选区域中的提取的文本进行匹配，输出匹配结果；

本实施例中对文本的识别使用正则表达式进行匹配，正则表达式是对字符串操作的一种逻辑公式，在本实施例中，就是用事先定义好符合标题的文本的组合，组成一个标题文本，这个标题文本用来对提取的文本进行比对，比对的结果即为匹配结果。匹配结果为一个百分比数值，比如80％，表示提取的文本有80％的内容是符合电子卷宗的标题的。

步骤7、根据匹配结果及概率判断是否为所述电子卷宗标题；

本实施例中匹配结果的概率大于等于80％则判断是标题，小于80％则判断不是标题。

步骤8、输出标题识别结果。

该步骤输出的是标题或输出空。步骤7中判断是标题时，输出识别的标题，步骤7中判断不是标题时，输出空。

实施例二

本发明的实施例一使用的正则表达式对待选区域中的文本进行识别的，如果单纯使用正则表达式进行识别的话，那各种情况都需要适配，并且难免有遗漏。本实施例提出了另外一种识别方式，而随着深度学习技术的发展，为了提升电子卷宗标题识别的准确性，本方案提出：

在识别前先进行基于深度神经网络的方式进行训练。首先，我们收集大量的标题文本和非标题文本，非标题文本作为标题训练集的负样本。负样本是标题文本的反面例子的汇总，比如说某些词不是标题文本，明确的排除在标题文本外，在识别的时候自动排除掉。同时对标题的文本进行增强处理，如随机增加案件类型、人名、单位名称作为标题的前缀文本，如增加刑事起诉书、民事起诉状、张三的身份证件信息，然后对文本进行分词、词向量训练，使用文本分类模型进行分类训练，即分成标题类训练和非标题类训练。为了提升准确性，我们在训练的过程中，将词性的向量随机的加入进行训练，使得分类的模型能有效的识别词性信息进行判断。标题训练集可以不断的扩充和完善，用户自行收集标题文本和非标题文本，人工筛选后加入标题训练集重新训练。

随着深度神经网络的训练模型进行训练后，实施例一的步骤6的对待识别区域的匹配是基于深度神经网络的分类模型进行判断匹配的，并根据识别结果的概率判断是否为所述电子卷宗标题。所谓深度神经网络的分类模型，是指分别对标题和非标题的文本进行分类标注，并使用深度学习的模型进行训练，使得分类模型有自动判断一段文本是哪种分类的能力，根据分类模型的判断，可以将正确的标题文本判断并提取出来。

本实施例的其他步骤与实施例一相同，在此不再赘述。

本实施例基于深度神经网络的分类模型进行的识别结果更为准确。

实施例三

本发明实施例三提供了一种对电子卷宗的标题自动识别的装置，如图4所示，包括：

存储模块：用于存储输入的电子卷宗；

分类模块：识别电子卷宗的全文，并对电子卷宗进行分类；

分类是指将电子卷宗分为文本格式卷宗和表格格式卷宗；是根据表格内容占电子卷宗全部内容的百分比来确定的，如果电子卷宗的组成方式为文本+表格，并且表格的部分占全文60％以上，则判断该电子卷宗为表格格式卷宗，否则判断为文本格式卷宗；

提取模块：选择文本格式卷宗或表格格式卷宗的标题识别待选区域，提取该标题识别待选区域的文本；

文本格式卷宗的标题识别待选区域的选择是根据文本格式卷宗的空间特征，比如在文本的文首、位置居中、文字的大小等不同特征来进行确定的；表格格式卷宗是将表格上方的文本作为标题识别待选区域。

匹配模块：对标题识别待选区域提取的文本进行匹配，输出匹配结果；

本发明中匹配的通过正则表达式匹配或通过基于深度神经网络的分类模型进行判断匹配；正规则表达式和基于深度神经网络的分类模型进上文中都已经描述过了，在此不再赘述。

输出模块：根据匹配结果，输出标题识别结果。

匹配结果大于等于80％则判断是标题，小于80％则判断不是标题；判断是标题时，输出识别的标题；判断不是标题时，输出空。

以上仅为说明本发明的实施方式，并不用于限制本发明，对于本领域的技术人员来说，凡在本发明的精神和原则之内，不经过创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对电子卷宗的标题自动识别的方法，其特征在于：对所述电子卷宗分类，分为文本格式卷宗和表格格式卷宗；分别对文本格式卷宗和表格格式卷宗进行标题识别，输出标题识别结果。

2.根据权利要求1所述的一种对电子卷宗的标题自动识别的方法，其特征在于：还包括采用深度神经网络的分类模型进行训练的步骤，所述采用深度神经网络的分类模型进行训练的步骤是在对电子卷宗分类之前进行的，具体包括：

步骤c、将词性的向量随机加入训练。

3.根据权利要求2所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的标题训练集根据需要进行补充，用户自行收集标题文本和非标题文本，人工筛选后加入标题训练集重新训练。

4.根据权利要求1所述的一种对电子卷宗的标题自动识别的方法，其特征在于：包括以下步骤：

步骤1、输入电子卷宗，获取待识别的图像；

步骤2、对电子卷宗进行文字识别和表格区域识别；

步骤6、对提取的文本进行匹配，输出匹配结果；

步骤7、根据匹配结果判断是否为电子卷宗的标题；

步骤8、输出标题识别结果。

5.根据权利要求4所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的步骤3中判断电子卷宗是否为表格格式卷宗的标准是：所述电子卷宗的组成方式为文本+1个表格，并且表格的部分占电子卷宗的60％以上，则判断该电子卷宗为表格格式卷宗；否则判断为文本格式卷宗。

6.根据权利要求4所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的匹配是通过正则表达式匹配或通过基于深度神经网络的分类模型进行判断匹配。

7.根据权利要求6所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的基于深度神经网络的分类模型，是指分别对标题和非标题的文本进行分类标注形成标题训练集，并基于标题训练集进行训练，使得分类模型有自动判断一段文本是标题类或非标题类的能力，根据分类模型的判断，可以将正确的标题文本判断并提取出来。

8.根据权利要求4所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的步骤7中判断是否为电子卷宗的标题的标准为：匹配结果的概率大于等于80％则判断是电子卷宗的标题，小于80％则判断不是电子卷宗的标题。

9.根据权利要求4所述的一种对电子卷宗的标题自动识别的方法，其特征在于：所述的步骤8中标题的识别结果有两种：即输出标题或输出空；步骤7中判断是电子卷宗的标题时，输出标题；步骤7中判断不是电子卷宗的标题时，输出空。

10.一种对电子卷宗的标题自动识别的装置，其特征在于：包括：

存储模块：用于存储输入的电子卷宗；

输出模块：根据匹配结果，输出标题或输出空。

11.根据权利要求10所述的一种对电子卷宗的标题自动识别的装置，其特征在于：所述的分类模块的分类标准是：所述电子卷宗的组成方式为文本+1个表格，并且表格的部分占电子卷宗的60％以上，则判断该电子卷宗为表格格式卷宗；否则判断为文本格式卷宗。

12.根据权利要求10所述的一种对电子卷宗的标题自动识别的装置，其特征在于：所述的提取模块对标题识别待选区域的选择，对于文件卷宗，是选择文首、位置居中、或文字字体较大的区域；对于表格格式卷宗，是选择表格上方的文本区域。

13.根据权利要求10所述的一种对电子卷宗的标题自动识别的装置，其特征在于：所述的匹配模块是通过正则表达式匹配或通过基于深度神经网络的分类模型进行判断匹配。

14.根据权利要求13所述的一种对电子卷宗的标题自动识别的装置，其特征在于：所述的通过基于深度神经网络的分类模型，是指分别对标题和非标题的文本进行标注形成标题训练集，并基于标题训练集进行训练，使得分类模型有自动判断一段文本是标题类或非标题类的能力，根据分类模型的判断，可以将正确的标题文本判断并提取出来。