CN114241501A

CN114241501A - 影像文档处理方法、装置及电子设备

Info

Publication number: CN114241501A
Application number: CN202111561613.9A
Authority: CN
Inventors: 王旭; 魏彬; 李艳东
Original assignee: Beijing Zhongke Ruijian Technology Co ltd
Current assignee: Beijing Zhongke Ruijian Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25
Anticipated expiration: 2041-12-20
Also published as: CN114241501B

Abstract

本申请适用于数据处理技术领域，提供了影像文档处理方法、装置及电子设备。上述影像文档处理方法包括：采用深度学习算法对影像文档进行文档识别得到文档信息，将影像文档按照文档版面布局分割为多个版面区域；基于上述文档信息和上述多个版面区域确定影像文档的类型；基于影像文档的类型从文档信息中确定影像文档的关键信息；基于上述文档信息、关键信息和影像文档的类型建立影像文档信息数据库。由于本申请中并不涉及人工对文本进行标注，因此通过上述影像文档信息数据库为用户提供影像文档的搜索服务，能够提高搜索的准确性，而且适合大规模应用。

Description

影像文档处理方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及一种影像文档处理方法、装置及电子设备。

背景技术

随着信息化社会的高速建设，互联网的迅速普及，大容量存储设备和数字化设备的发展和广泛使用，越来越多的多媒体数据库尤其是图像数据库被建立。在图像、音频、视频等信息正飞速膨胀的今天，数据管理开始由最早的GB 容量级别转向TB、PB 容量级别的管理。数据增长的同时，图像信息自身的无序化问题也越来越突出。将纸质文档通过扫描或者拍照的形式生成影像文档在图像数据库中的占比重相当大，如何有效地管理、搜索大规模的影像文档成为亟待解决的问题。

传统的影像文档搜索引擎大都是基于文本的影像检索方法，利用文本标注的方式对图像中的内容进行描述，从而为每张影像文档形成描述这张影像文档内容的关键词。在进行搜索时，用户可以根据自己的需求提供查询关键字，检索系统根据用户提供的查询关键字找出标注中含有该查询关键字对应的影像，最后将查询的结果返回给用户。

然而，上述影像文档搜索引擎在文本标注过程时有人工介入，不可避免的会受到标注者的认知水平和主观影响，因此会造成文字描述影像的差异，导致搜索结果不够准确，而且当影像数据量达到千万级别时，人工标注是无法完成的，导致无法大规模应用。

发明内容

有鉴于此，本申请提出了一种影像文档处理方法、装置及电子设备，能够提高对影像文档搜索的精准度且能够大规模应用。

第一方面，本申请实施例提供了一种影像文档处理方法，包括：

采用深度学习算法对影像文档进行文档识别，得到文档信息；

将所述影像文档按照文档版面布局分割为多个版面区域；

基于所述文档信息和所述多个版面区域，确定所述影像文档的类型；

基于所述影像文档的类型，从所述文档信息中确定所述影像文档的关键信息；

基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库。

上述影像文档处理方法，采用深度学习算法对影像文档进行文档识别得到文档信息，将影像文档按照文档版面布局分割为多个版面区域；之后，基于上述文档信息和上述多个版面区域确定影像文档的类型。接着，基于影像文档的类型从文档信息中确定影像文档的关键信息。之后，基于上述文档信息、关键信息和影像文档的类型建立影像文档信息数据库。由于本申请中并不涉及人工对文本进行标注，因此通过上述影像文档信息数据库为用户提供影像文档的搜索服务，能够提高搜索的准确性，而且适合大规模应用。

结合第一方面，在一些可能的实现方式中，所述影像文档中包括文本信息，所述采用深度学习算法对影像文档进行文档识别，包括：

采用图像实例分割方法定位所述影像文档中的文本区域，并将所述文本区域中的文本添加边界框；

对所述边界框中的文本进行识别，得到文本信息。

结合第一方面，在一些可能的实现方式中，所述影像文档中包括印章信息，所述采用深度学习算法对影像文档进行文档识别，包括：

采用图像实例分割算法分割出所述印章信息中的环形文字区域，并定位出所述环形文字区域中每个文字的位置；

根据文字和所述环形文字区域的位置关系，将在所述印章上分布的每个文字旋转至水平状态，得到矩形文本切片；

对所述矩形文本切片中的文字进行识别，得到印章信息。

结合第一方面，在一些可能的实现方式中，所述影像文档中包括表格信息，所述采用深度学习算法对影像文档进行文档识别，包括：

通过图像实例分割方法对所述表格信息进行结构化处理，得到表格的表头、表尾及每个单元格的文字内容。

结合第一方面，在一些可能的实现方式中，所述将所述影像文档按照文档版面布局分割为多个版面区域，包括：

采用目标检测算法对所述影像文档进行版面布局结构分析，确定所述影像文档的文档版面布局；

根据所述文档版面布局将所述影像文档分割为多个版面区域。

结合第一方面，在一些可能的实现方式中，所述基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库，包括：

对所述文档信息进行分词处理，得到多个词条；

对每个词条建立一个文档列表，得到倒排索引；其中，所述倒排索引中包含以下信息中的多种：文档列表，文档数量，词条在每个文档中出现的次数和位置，每个文档的长度、所有文档的平均长度；

根据所述关键信息、所述影像文档的类型和所述倒排索引，建立所述影像文档信息数据库。

一些实施例中，在所述采用深度学习算法对影像文档进行文档识别之前，所述方法还包括：

对所述影像文档的图像进行矫正处理。

第二方面，本申请实施例提供了一种影像文档处理装置，包括：

文档识别模块，用于采用深度学习算法对影像文档进行文档识别，得到文档信息；

版面分割模块，用于将所述影像文档按照文档版面布局分割为多个版面区域；

类型确定模块，用于基于所述文档信息和所述多个版面区域，确定所述影像文档的类型；

关键信息确定模块，用于基于所述影像文档的类型，从所述文档信息中确定所述影像文档的关键信息；

数据库建立模块，用于基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库。

第三方面，本申请实施例提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，上述处理器被配置为执行上述可执行指令时实现如第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，上述计算机程序指令被处理器执行时实现如第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令；当计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面中任一项所述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1为相关技术中影像文档处理方法的应用场景示意图；

图2为本申请实施例提供的影像文档处理方法的应用场景示意图；

图3为本申请实施例提供的影像文档处理方法的流程示意图；

图4为本申请实施例提供的影像文档处理装置的流程示意图；

图5为本申请实施例提供的电子设备的结构示意图；

图6为本申请实施例提供的影像文档处理方法所适用于的服务器的结构示意图。

具体实施方式

图1示出了相关技术中影像文档搜索方法的应用场景示意图。参见图1，该应用场景中，将历史影像数据通过人工标注或者图像识别技术进行半自动标注，将影像数据和标注结果经过数据预处理，存放在数据库中。当用户在一个搜索框中输入要搜索的内容时，搜索引擎就会根据用户输入的内容在数据库中进行搜索。

首先，将用户输入的内容与各个影像中标注的关键字进行匹配，若用户输入的内容中包含某个影像中标注的关键词，则确定该影像与用户输入的内容匹配；若用户输入的内容不包含任何影像中标注的关键词，则确定数据库中不存再与用户输入的内容对应的影像。

基于上述内容可知，上述影像文档搜索方法基于人工标注的文本描述方式，虽然查准率较高，但所带来的缺陷也是非常明显的，大致可以包括以下几种问题：

1、在大规模影像数据上要完成这一标注过程需要耗费大量的人力、财力以及时间；尤其当影像数据量达到千万级别时，人工是无法完成的，因此无法大规模应用。

2、人工标注过程会在一定程度上受到标注者的认知水平和主观影响，因此会造成文字描述影像的差异。

3、每一次对影像的搜索，搜索范围都为数据库中的所有影像，效率较低。尤其当影像数据量达到千万级别时，搜索速度很慢，无法满足客户实时搜索的需求。

4、搜索结果中无法展示影像文档中关键信息，并进行关键信息结构化。

基于以上问题，本申请实施例中提供了一种影像文档处理方法，首先采用深度学习算法对影像文档进行文档识别得到文档信息，将影像文档按照文档版面布局分割为多个版面区域。之后，基于上述文档信息和上述多个版面区域确定影像文档的类型。接着，基于影像文档的类型从文档信息中确定影像文档的关键信息。之后，基于上述文档信息、关键信息和影像文档的类型建立影像文档信息数据库。由于本申请中并不涉及人工对文本进行标注，因此通过上述影像文档信息数据库为用户提供影像文档的搜索服务，能够提高搜索的准确性，而且适合大规模应用。而且本申请对每个影像文档进行了分类，在搜索影像文档时能够限定影像类别，减小搜索范围提高搜索效率。

图2示出了本申请实施例提供的影像文档处理方法的应用场景示意图。参见图2，在该应用场景中，主要利用深度学习算法对影像文档进行图像矫正、文本检测识别、印章检测识别、表格检测识别、版面分析、图像分类、关键信息结构化等处理，将提取出来的影像文档的信息进行中文分词、建立倒排索引链表，存入数据库中。用户在搜索目标影像文档时，服务器可根据用户输入的查询词进行匹配，并将匹配结果进行排序，最后生成结果返回给用户。

参见图2，本申请实施例中的搜索引擎系统主要包括图像信息抽取模块、数据库模块和查询模块。其中，图像信息抽取模块包括图像矫正、文本检测识别、印章检测识别、表格检测识别、版面分析、图像分类和关键信息结构化。数据库模块包括分词处理、倒排索引和结构化数据存储。查询模块的功能包括高亮显示搜索关键字、显示搜索耗时、高级搜索设置、显示搜索条件和显示结构化数据等。

一、图像信息抽取模块

影像文档的图像矫正是对影像文档的预处理操作，是影像信息抽取的基础，图像矫正的效果直接影响各个深度学习模型的准确率。图像矫正包括以下几种情况：将方向不正确的影像调整正确；将有倾斜角度的影像旋转正确；将模糊的图片进行超分辨率处理，从低分辨率的图像中恢复出高分辨率图像中的信息。

需要说明的是，本申请实施例中影像文档的图像矫正方法可以根据影像质量进行调整，可以采用传统图像技术，也可以采用深度学习的方案，对此不予限定。

文本检测识别包括文本检测和文本识别，用于提取影像文档中的文本信息。文本检测的过程为：定位图像中的文字区域，然后以边界框的形式将文本进行标记。其中，文本检测可以采用图像实例分割方法实现。文本识别的过程为：对边界框中的文本进行识别得到文本信息。其中，文本识别可以采用卷积递归神经网络（CRNN）实现。本申请实施例中，文本检测识别是信息抽取的关键步骤，文本检测和文本识别的准确率直接影响信息抽取的效果。

印章检测识别用于提取影像文档中的印章信息，能够快速检测影像文档中有无印章，以及定位印章位置和识别印章内容。印章检测识别的过程可以为：采用图像实例分割算法从影像文档中分割出印章信息中的环形文字区域，并定位出环形文字区域中每个文字的位置；根据文字和环形文字区域的位置关系，进行逻辑关系处理，将在印章上分布的每个文字旋转至水平状态，得到矩形文本切片；对所述矩形文本切片中的文字进行识别，得到印章信息。

表格检测识别用于提取影像文档中的表格信息，能够快速检测影像文档中有无表格。表格检测识别的过程可以为：通过图像实例分割方法对影像文档中的表格信息进行结构化处理，得到表格的表头、表尾及每个单元格的文字内容，从而实现对于完整框线的常规简单表格，结构化输出表头、表尾及每个单元格的文字内容。

版面分析用于将整张影像文档按照文档版面布局分割为不同的版面区域。其中，本实施例中可以采用目标检测算法，进行版面布局结构分析，实现对版面区域的分割。示例性的，影像文档的版面区域可以包括：票据名、基本信息、一级标题、二级标题、段落、有线表格、无线表格、心电图、印章、二维码和条形码等多种区域。将版面区域和前面的文本检测结果进行融合，能够更好地得到影像文档的版面区域和文档信息（包括文本信息、印章信息和表格信息等）之间的逻辑关系，从而有效提升影像文档内容的结构化提取效率和准确率。

图像分类用于根据预先定义的影像文档类型，确定影像文档的类型，实现对影像文档的分类。图像分类是在聚合了文本检测识别、印章检测识别、表格检测识别、版面分析的结果之后，对影像文档进行分类。其中，可以采用传统规则与深度学习模型相结合的方法，对影像文档进行分类。而深度学习模型可以采用将文本和视觉信息深层融合的神经网络。

关键信息结构化用于根据预先定义的影像文档类型提取影像文档的关键信息，其中每一类影像文档对应一类关键信息。例如，对于医疗票据的影像文档，其关键信息可以为金额合计、票据号和就诊日期等字段。本实施例中可以采用规则引擎与深度学习模型相结合的方法提取影像文档的关键信息，其中规则引擎是汇总文本检测识别、印章检测识别、表格检测识别、版面分析之后的结果，通过预先制定相应类别影像文档的关键信息提取逻辑规则，实现关键信息抽取。而针对规则无法处理的字段，可以采用深度学习中命名实体识别的方式抽取关键信息。

二、数据库模块

随着影像数据量飞速增长，传统的查询方法已无法提供有效的搜索服务。如果影像数据量很少，并且搜索的字段都是一些内容很简短的字段，例如姓名，编号之类的，则可以采用关系型数据库中的like语句进行搜索。但是，数据库like查询性能非常低，如果搜索的请求过多，或者需要对大文本类型的内容进行全文搜索，那么这种搜索的方案是不可取的。

例如，可以采用Elasticsearch进行搜索，Elasticsearch是一个基于 ApacheLicense的搜索服务器，能够提供一个分布式多用户能力的全文搜索引擎。Elasticsearch采用Java平台开发，作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

需要说明的是，本申请实施例中采用的搜索服务器可以根据影像文档数据量和影像文档类型进行选择，可以采用Elasticsearch、Lucene、Solr等任何搜索引擎，本申请对此不做限定。

分词处理功能用于把全文本转换成一系列单词。在Elasticsearch中，分词处理通过分词器来实现的，分词器是专门处理分词的组件，分词器完成以下三个功能：针对原始文本预处理，例如去除html标签；按照规则切分为单词，例如按照空格切分；将切分的单词进行加工，例如大写转小写，删除常用词，增加同义语等。本申请实施例中可以使用Elasticsearch内置的分词器或者自定义分词器（例如可以根据影像内容自定义中文分词器），对此不予限定。

倒排索引为一种数据库的索引形式，存储了“内容→文档”的映射关系，目的是快速的进行全文搜索。一个倒排索引由影像文档中所有不重复词的列表构成，对于其中每个词，对应一个包含该词的文档列表。具体的，倒排索引可以包含：文档的列表、文档的数量、词条在每个文档中出现的次数、出现的位置、每个文档的长度、所有文档的平均长度等一种或多种信息。

三、查询模块

为了方便用户搜索，查询模块设置有高亮显示搜索关键字、显示搜索耗时、高级搜索设置、显示搜索条件、显示结构化数据等功能。其中，高级搜索设置中可以设置影像类别、影像时间等信息。显示结构化数据功能能够将从影像文档中抽取的结构化数据（关键信息）展示给用户，方便用户更直接地获取到结构化数据。

以下结合图2对本申请实施例中的影像文档处理方法进行说明。

图3示出了本申请实施例提供的影像文档处理方法。参见图3，对上述影像文档处理方法进行如下详述说明。

步骤301，采用深度学习算法对影像文档进行文档识别，得到文档信息。

其中，影像文档中的文档信息可以包括文本信息、印章信息和表格信息等，本步骤中采用深度学习算法将上述文档信息从影像文档中识别出来。

一些实施例中，上述影像文档中可以包括文本信息，步骤301具体可以包括：采用图像实例分割方法定位所述影像文档中的文本区域，并将所述文本区域中的文本添加边界框；对所述边界框中的文本进行识别，得到文本信息。

例如，采用图像实例分割方法定位出影像文档中的文字区域，然后以边界框的形式将文字区域中的文本进行标记。之后，采用卷积递归神经网络对边界框中的文本进行识别，得到文本信息。

一些实施例中，上述影像文档中可以包括印章信息，步骤301具体可以包括：采用图像实例分割算法分割出所述印章信息中的环形文字区域，并定位出所述环形文字区域中每个文字的位置；根据文字和所述环形文字区域的位置关系，将在所述印章上分布的每个文字旋转至水平状态，得到矩形文本切片；对所述矩形文本切片中的文字进行识别，得到印章信息。

一些实施例中，上述影像文档中可以包括表格信息，步骤301具体可以包括：通过图像实例分割方法对所述表格信息进行结构化处理，得到表格的表头、表尾及每个单元格的文字内容。

例如，通过图像实例分割方法对影像文档中的表格信息进行结构化处理，可以得到表格的表头、表尾及表格中每个单元格的文字内容，从而对于完整框线的常规简单表格，能够结构化输出表头、表尾及每个单元格的文字内容。

其中，上述图像实例分割方法可以根据影像文档的样式和服务器的配置进行调整，本申请实施例不限定图像实例分割方法的具体形式。

作为一种可实现方式，在步骤301之前，上述影像文档处理方法还可以包括：对所述影像文档的图像进行矫正处理。

其中，对影像文档的图像进行矫正处理，是对影像文档中的文档信息进行抽取的基础，图像矫正的效果直接影响上述各个深度学习模型的准确率。图像矫正包括以下几种情况：将方向不正确的影像调整正确；将有倾斜角度的影像旋转正确；将模糊的图片进行超分辨率处理，从低分辨率的图像中恢复出高分辨率图像中的信息。

需要说明的是，本申请实施例中影像文档的图像矫正方法可以根据影像质量进行调整。例如，可以采用传统图像技术，也可以采用深度学习的方案，对此不予限定。

步骤302，将所述影像文档按照文档版面布局分割为多个版面区域。

本步骤中，可以采用目标检测算法，进行版面布局结构分析，实现对版面区域的分割。

示例性的，步骤302的实现过程可以包括：采用目标检测算法对所述影像文档进行版面布局结构分析，确定所述影像文档的文档版面布局；根据所述文档版面布局将所述影像文档分割为多个版面区域。

作为举例，影像文档的版面区域可以包括：票据名、基本信息、一级标题、二级标题、段落、有线表格、无线表格、心电图、印章、二维码和条形码等多种区域。将版面区域和前面的文本检测结果进行融合，能够更好地得到影像文档的版面区域和文档信息（包括文本信息、印章信息和表格信息等）之间的逻辑关系，从而有效提升影像文档内容的结构化提取效率和准确率。

步骤303，基于所述文档信息和所述多个版面区域，确定所述影像文档的类型。

例如，可以根据预先定义的影像文档类型，确定影像文档的类型，实现对影像文档的分类。预先定义的影像文档类型中可以包括多组一一对应的文档信息和版面区域。可以将步骤301得到的文档信息和步骤302得到的版面区域，与预先定义的影像文档类型中的文档信息和版面区域进行逐一匹配，确定影像文档的类型。

其中，可以采用传统规则与深度学习模型相结合的方法，对影像文档进行分类，而深度学习模型可以采用将文本和视觉信息深层融合的神经网络。

步骤304，基于所述影像文档的类型，从所述文档信息中确定所述影像文档的关键信息。

其中，可以根据预先定义的影像文档类型提取影像文档的关键信息，其中每一类影像文档对应一类关键信息。例如，对于医疗票据的影像文档，其关键信息可以为金额合计、票据号和就诊日期等字段。即，若确定当前影像文档为医疗票据的影像文档，则从当前影像文档的文档信息中提取出金额合计、票据号和就诊日期等字段，作为当前影像文档的关键信息。

本实施例中可以采用规则引擎与深度学习模型相结合的方法提取影像文档的关键信息，规则引擎可以通过预先制定相应类别影像文档的关键信息确定。。而针对规则引擎无法处理的字段，可以采用深度学习中命名实体识别的方式抽取关键信息。

步骤305，基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库。

一些实施例中，步骤305的实现过程可以包括：对所述文档信息进行分词处理，得到多个词条；对每个词条建立一个文档列表，得到倒排索引；其中，所述倒排索引中包含以下信息中的多种：文档列表，文档数量，词条在每个文档中出现的次数和位置，每个文档的长度、所有文档的平均长度；根据所述关键信息、所述影像文档的类型和所述倒排索引，建立所述影像文档信息数据库。

例如，本申请实施例中可以采用Elasticsearch进行搜索，Elasticsearch是一个基于 Apache License的搜索服务器，能够提供一个分布式多用户能力的全文搜索引擎。Elasticsearch采用Java平台开发，作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

在Elasticsearch中，分词处理通过分词器来实现的，分词器是专门处理分词的组件，分词器完成以下三个功能：针对原始文本预处理，例如去除html标签；按照规则将文档信息切分为单词，例如按照空格切分将文档信息；将切分的单词进行加工，例如大写转小写，删除常用词，增加同义语等。

本申请实施例中可以使用Elasticsearch内置的分词器或者自定义分词器（例如可以根据影像内容自定义中文分词器），对此不予限定。

本实施例中，通过设置中文分词器和倒排索引，能够加快全文搜索的速度，当影像文档数据量达到千万级别时，搜索速度不会有明显下降，即能够在影像文档数据量巨大时依旧具有较快的搜索速度。

在建立上述影像文档信息数据库之后，可以基于该影像文档信息数据库进行影像文档的搜索。例如，若服务器接收到用户输入的搜索请求，则服务器根据该搜索请求从影像文档信息数据库中搜索对应的影像文档以展示给用户。

例如，该搜索请求中包含相关搜索信息（关键词、影像文档的类型、一段文本内容等），则可以根据影像文档的类型从影像文档信息数据库中确定目标类型的影像文档，缩小搜索范围。之后，根据关键词、文本内容等从目标类型的影像文档中确定相关的影像文档，并展示给用户。

其中，为了方便用户搜索，可以在搜索结果中对关键字进行高亮显示，以及显示搜索耗时、高级搜索设置、搜索条件和结构化数据等。其中，高级搜索设置中可以设置影像类别、影像时间等信息，以供用户在初步搜索的结果中进行进一步搜索。显示结构化数据能够将从影像文档中抽取的结构化数据（关键信息）展示给用户，方便用户更直接地获取到想要的影像文档。

上述影像文档处理方法，采用深度学习算法对影像文档进行文档识别得到文档信息，将影像文档按照文档版面布局分割为多个版面区域；之后，基于上述文档信息和上述多个版面区域确定影像文档的类型。接着，基于影像文档的类型从文档信息中确定影像文档的关键信息。之后，基于上述文档信息、关键信息和影像文档的类型建立影像文档信息数据库。由于本申请中并不涉及人工对文本进行标注，因此通过上述影像文档信息数据库为用户提供影像文档的搜索服务，能够提高搜索的准确性和效率，而且适合大规模应用。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的影像文档处理方法，图4示出了本申请实施例提供的影像文档处理装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参见图4，本申请实施例中的影像文档处理装置可以包括文档识别模块401、版面分割模块402、类型确定模块403、关键信息确定模块404和数据库建立模块405。

其中，文档识别模块401用于采用深度学习算法对影像文档进行文档识别，得到文档信息。版面分割模块402用于将所述影像文档按照文档版面布局分割为多个版面区域。类型确定模块403用于基于所述文档信息和所述多个版面区域，确定所述影像文档的类型。关键信息确定模块404用于基于所述影像文档的类型，从所述文档信息中确定所述影像文档的关键信息。数据库建立模块405用于基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库。

上述影像文档处理装置，采用深度学习算法对影像文档进行文档识别得到文档信息，将影像文档按照文档版面布局分割为多个版面区域；之后，基于上述文档信息和上述多个版面区域确定影像文档的类型。接着，基于影像文档的类型从文档信息中确定影像文档的关键信息。之后，基于上述文档信息、关键信息和影像文档的类型建立影像文档信息数据库。由于本申请中并不涉及人工对文本进行标注，因此通过上述影像文档信息数据库为用户提供影像文档的搜索服务，能够提高搜索的准确性和效率，而且适合大规模应用。

可选的，所述影像文档中包括文本信息，文档识别模块401具体可以用于：采用图像实例分割方法定位所述影像文档中的文本区域，并将所述文本区域中的文本添加边界框；对所述边界框中的文本进行识别，得到文本信息。

可选的，所述影像文档中包括印章信息，文档识别模块401具体可以用于：采用图像实例分割算法分割出所述印章信息中的环形文字区域，并定位出所述环形文字区域中每个文字的位置；根据文字和所述环形文字区域的位置关系，将在所述印章上分布的每个文字旋转至水平状态，得到矩形文本切片；对所述矩形文本切片中的文字进行识别，得到印章信息。

可选的，所述影像文档中包括表格信息，文档识别模块401具体可以用于：通过图像实例分割方法对所述表格信息进行结构化处理，得到表格的表头、表尾及每个单元格的文字内容。

可选的，版面分割模块402具体可以用于：采用目标检测算法对所述影像文档进行版面布局结构分析，确定所述影像文档的文档版面布局；根据所述文档版面布局将所述影像文档分割为多个版面区域。

可选的，数据库建立模块405具体可以用于：对所述文档信息进行分词处理，得到多个词条；对每个词条建立一个文档列表，得到倒排索引；其中，所述倒排索引中包含以下信息中的多种：文档列表，文档数量，词条在每个文档中出现的次数和位置，每个文档的长度、所有文档的平均长度；根据所述关键信息、所述影像文档的类型和所述倒排索引，建立所述影像文档信息数据库。

可选的，上述影像文档处理装置还可以包括：矫正处理模块，用于对所述影像文档的图像进行矫正处理。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5为本申请实施例提供的电子设备500的结构示意图。该电子设备500可以包括：至少一个处理器510、存储器520以及存储在所述存储器520中并可在所述至少一个处理器510上运行的计算机程序521，所述处理器510执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图3所示实施例中的步骤301至步骤305。或者，处理器510执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至405的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器520中，并由处理器510执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在电子设备500中的执行过程。

本领域技术人员可以理解，图5仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器510可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器520可以是电子设备500的内部存储单元，也可以是电子设备500的外部存储设备，例如插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）等。所述存储器520用于存储所述计算机程序以及电子设备所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（Peripheral Component，PCI）总线或扩展工业标准体系结构（ExtendedIndustry Standard Architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

图6示了本申请实施例提供的影像文档处理方法所适用于的服务器的结构示意图。参考图6，服务器可以包括：通信电路610、存储器620、输入单元630、显示单元640、音频电路650、无线保真（wireless fidelity，WiFi）模块660、处理器670以及电源680等部件。本领域技术人员可以理解，图6中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

通信电路610可用于收发信息过程中，信号的接收和发送，特别地，将域控设备发送的信息接收后，给处理器670处理。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low Noise Amplifier，LNA）、双工器等。此外，通信电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，GSM）、通用分组无线服务（General Packet Radio Service，GPRS）、码分多址（Code DivisionMultiple Access，CDMA）、宽带码分多址（Wideband Code Division Multiple Access,WCDMA）、长期演进（Long Term Evolution,LTE）)、电子邮件、短消息服务（Short MessagingService，SMS）等。

存储器620可用于存储软件程序以及模块，处理器670通过运行存储在存储器620的软件程序以及模块，从而执行影像文档处理程序的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据用户的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作（例如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器670，并能接收处理器670发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息，以及投射其他电子设备发送来的信息。显示单元640可包括显示面板641和投射装置，可选的，显示面板641可以采用液晶显示器（Liquid Crystal Display，LCD）、有机发光二极管（OrganicLight-Emitting Diode, OLED）等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器670以确定触摸事件的类型，随后处理器670根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现服务器的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现服务器的输入和输出功能。

音频电路650可提供用户与服务器之间的音频接口。音频电路650可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路650接收后转换为音频数据，再将音频数据输出处理器670处理后，经通信电路610以发送给例如另一电子设备，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，通过WiFi模块660可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块660，但是可以理解的是，其并不属于服务器的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器670是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器670可包括一个或多个处理单元，例如：处理器670可以包括应用处理器（applicationprocessor，AP），调制解调处理器，图形处理器（graphics processing unit，GPU），图像信号处理器（image signal processor，ISP），控制器，存储器，视频编解码器，数字信号处理器（digital signal processor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。。

服务器还包括给各个部件供电的电源680（例如电池），其中，电源680可以通过电源管理系统与处理器670逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器，上述计算机程序指令可由电子设备的处理器执行以完成上述方法。

本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种影像文档处理方法，其特征在于，包括：

将所述影像文档按照文档版面布局分割为多个版面区域；

2.根据权利要求1所述的影像文档处理方法，其特征在于，所述影像文档中包括文本信息，所述采用深度学习算法对影像文档进行文档识别，包括：

对所述边界框中的文本进行识别，得到文本信息。

3.根据权利要求1所述的影像文档处理方法，其特征在于，所述影像文档中包括印章信息，所述采用深度学习算法对影像文档进行文档识别，包括：

对所述矩形文本切片中的文字进行识别，得到印章信息。

4.根据权利要求1所述的影像文档处理方法，其特征在于，所述影像文档中包括表格信息，所述采用深度学习算法对影像文档进行文档识别，包括：

5.根据权利要求1所述的影像文档处理方法，其特征在于，所述将所述影像文档按照文档版面布局分割为多个版面区域，包括：

6.根据权利要求1所述的影像文档处理方法，其特征在于，所述基于所述文档信息、所述关键信息和所述影像文档的类型，建立影像文档信息数据库，包括：

对所述文档信息进行分词处理，得到多个词条；

7.根据权利要求1至6任一项所述的影像文档处理方法，其特征在于，在所述采用深度学习算法对影像文档进行文档识别之前，所述方法还包括：

对所述影像文档的图像进行矫正处理。

8.一种影像文档处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1至7中任意一项所述的方法。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。