CN113326785B

CN113326785B - 文件识别方法、装置

Info

Publication number: CN113326785B
Application number: CN202110608537.6A
Authority: CN
Inventors: 支晓繁; 薛利; 赵博; 王砚溱; 申震
Original assignee: Shanghai Futures Information Technology Co ltd
Current assignee: Shanghai Futures Information Technology Co ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2023-08-04
Anticipated expiration: 2041-06-01
Also published as: CN113326785A

Abstract

本发明提供一种文件识别方法和装置，包括：获取待识别文件、获取待识别文件第一预设位置的第一图文信息，根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，获取待识别文件在第二预设位置的第二图文信息，识别第二图文信息并与对应的预设属性以预设规则输出。本申请技术方案能够在识别待识别文件时充分利用模板的已知有效信息，提高识别效率和准确度。

Description

文件识别方法、装置

技术领域

本发明涉及图像识别领域，特别涉及一种文件识别方法、装置、芯片和计算机可读存储介质。

背景技术

日常工作中存在大量文件，各个行业都需要对这些文件进行不定期、不定量的核查检验工作，例如银行需要对身份证、存款单进行核对以完成借贷、放款等业务；公司内部对纸质文件的检查和修订工作；政府机构则需要长期保存官方出具的证明文件以便日后审查等。

传统的文件核验方法通常是检查人员手动对比被校验文件，逐行逐字进行核对并寻找修正错误。该方法依赖于人工经验，不仅耗费人力成本，增加工作时间，极端情况下还可能导致较高的错误率。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种文件识别方法、装置、芯片和计算机可读存储介质，能够克服现有技术存在的缺陷，提高识别效率。

第一方面，本发明实施例提出一种文件识别方法，包括：

获取待识别文件；获取待识别文件第一预设位置的第一图文信息，第一预设位置为第一模板的锚点位置；根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，第一模板的锚点信息为第一模板在锚点位置的图文信息；获取第一模板对应的第二预设位置的第二图文信息，第二预设位置为与第一模板对应的待识别位置，且所述待识别位置与预设属性对应；识别第二预设位置的第二图文信息，并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。

在一些实施例中，根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，包括：比对第一图文信息与第一模板的锚点信息；根据比对结果确定待识别文件对应第一模板。

在一些实施例中，第一模板的锚点信息为第一模板锚点图文的特征值，比对第一图文信息与第一模板的锚点信息，包括：获取第一图文信息的特征值；比对第一图文信息的特征值和第一模板锚点图文的特征值，确定两者特征值相似度；根据比对结果确定待识别文件对应第一模板，包括：根据特征值相似度确定待识别文件对应第一模板。

在一些实施例中，该文件识别方法，还包括：获取所述第一模板的文字特征，所述文字特征包括至少以下之一或组合：文字类型、字体等；识别所述第二预设位置的第二图文信息，具体包括：采用与所述文字特征对应的模型识别所述第二图文信息。

在一些实施例中，该文件识别方法，还包括：根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板，第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。

在一些实施例中，该文件识别方法，还包括：获取所述待识别文件的第三位置区域，所述第三位置区域为所述第一模板的印章位置区域；获取所述第三位置区域各像素点的RGB值；根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、各像素点R、G、B颜色通道的平均值，以及，确定所述像素点的R、G、B颜色通道数值分别与所述平均值的偏离值；当所述像素点的所述平均值大于第一预设数值，或像素点R、G、B各颜色通道数值大于第三预设值，且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时，以白色像素点替换所述像素点。

第二方面，本发明实施例还提供一种文件识别装置，包括：第一获取模块，用于获取待识别文件；第二获取模块，用于获取待识别文件第一预设位置的第一图文信息，第一预设位置为第一模板的锚点位置；第一确定模块，用于根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，第一模板的锚点信息为第一模板在锚点位置的图文信息；第三获取模块，用于获取第一模板对应的第二预设位置的第二图文信息，第二预设位置为与第一模板对应的待识别位置，且所述待识别位置与预设属性对应；识别模块，用于识别第二预设位置的第二图文信息，并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。

在一些实施例中，该文件识别装置的第一确定模块，包括比对单元和确定单元，其中，比对单元，用于比对第一图文信息与第一模板的锚点信息；确定单元，用于根据比对结果确定待识别文件对应第一模板。

在一些实施例中，该文件识别装置比对单元包括获取子单元、比对子单元，其中，获取子单元，用于获取第一图文信息的特征值；比对子单元，用于比对第一图文信息的特征值和第一模板锚点图文的特征值，确定两者特征值相似度；确定单元，具体用于根据特征值相似度确定待识别文件对应第一模板。

在一些实施例中，该文件识别装置的第一确定模块，还用于根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板，第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。

在一些实施例中，该文件识别装置还包括第四获取模块，用于获取待识别文件的第三位置区域的第三图文信息，第三位置区域为第一模板的印章位置区域；第五获取模块，用于获取所述第三位置区域各像素点的RGB值；第二确定模块，用于根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、确定所述像素点的R、G、B颜色通道的平均值、以及，确定所述像素点的R、G、B颜色通道分别与所述平均值的偏离值；处理模块，用于当所述像素点的所述平均值大于第一预设数值，或像素点R、G、B各颜色通道数值至少一个大于第三预设值，且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时，以白色像素点替换所述像素点。

在一些实施例中，该文件识别装置还包括：

第六获取模块，用于获取所述第一模板的文字特征，所述文字特征包括至少以下之一或组合：文字类型、字体等；

所述识别模块，具体用于采用与所述文字特征对应的模型识别所述第二图文信息。

第三方面，本发明实施例还提供一种文件识别装置，包括：至少一个处理器；与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令，其中，所述可执行指令在被所述至少一个处理器执行时使得实现如上第一方面的任一项所述的方法。

第四方面，本发明实施例还提供一种芯片，用于执行上述第一方面中的方法。具体地，该芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有该芯片的设备用于执行上述第一方面中的方法。

第五方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面的任一项所述的方法。

第六方面，本发明实施例还提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行上述第一方面中的方法。

本发明实施例的文件识别方法和装置，通过获取待识别文件在模板锚点位置的图文信息确认待识别文件对应的某一特定模板，利用该模板对应的已知信息，直接获取该模板预设位置的图文信息，通过识别该预设位置的图文信息，并结合该预设位置对应的属性来输出识别结果。

本申请技术方案首先利用特定模板在锚点位置有特定的信息，快速确定待识别文件是否对应该特定模板，在确定待识别文件对应该特定模板之后利用该特定模板对应的已知信息，如对应的待识别位置对该待识别文件需要识别的位置进行快速识别，最后再次利用该模板对应的已知信息，如该模板对应的待识别位置对应的属性等对识别出的内容进行属性定义，最终在输出时将识别出的内容和对应的属性作为有效信息以预设规则输出，从而在识别过程中充分利用模板的已知信息，提高识别的效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明文件识别方法一实施例的流程示意图；

图2为本发明文件识别方法一实施例模板及模板锚点示意图；

图3为本发明文件识别方法一实施例待识别文件一及待识别文件一第一预设位置示意图；

图4为本发明文件识别方法一实施例待识别文件二及待识别文件二第一预设位置示意图；

图5为本发明文件识别方法一实施例中待识别文件一和待识别文件二在第一预设位置的图文信息示意图；

图6为本发明文件识别方法一实施例对待识别文件一和待识别文件二的第一图文信息识别结果示意图；

图7为本发明文件识别方法一实施例预设待识别区域示意图；

图8为本发明文件识别方法一实施例待识别文件识别结果示意图；

图9为本发明文件识别装置一实施例具体结构示意图；

图10为本发明文件识别方法一实施例中印章去除效果示意图。

具体实施方案

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

本方案发明人发现，在现有技术中，由于待识别文件多种多样，现有采用人工识别人力成本较大，且错误率较高。现有的文件识别不考虑某些具有固定格式或模板的文件中的字符，而且通常采用单字识别功能，识别出的字符之间都是独立的，现有识别方法不考虑模板的有效信息，不仅识别的效率较低，而且可能导致关键信息的遗漏。

发明人在研究过程中，进一步发现，在实际场景中部分文件是按照特定模板进行设置的，其具有固定的结构和排版，即针对具体某个文件，其有效信息的位置相对固定，在特定的位置是什么内容也相对固定。对采用同一个模板的不同文件(如文件A、文件B)而言，文件A和文件B其在一些位置的内容是完全一样的(这部分位置可以设置为模板的锚点位置，也可以设置为模板的待识别位置，可以根据内容加以区分)，文件A和文件B的区别主要在于某些位置填写的内容不同。

例如，在某几个特定位置具体是什么字段(KEY)，其后应该填写什么内容(与此KEY相对的VALUE)，填写的具体内容是数字还是文字，如果是文字，是中文还是英文等，对特定的文件而言，不仅内容相对固定(例如，某个位置用来填写委托机构，另一个位置用来填写委托日期等)，内容相对的位置固定，甚至印章的位置也相对确定。

但现有技术是全文识别，未充分利用待识别文件对应模板的已知的有效信息进行识别，现有的方法对此类文件的识别采用全区域文件位置检测和识别的方法，降低了识别速度。

需要说明的是，由于本申请涉及文件的识别，因此为举例说明所采用的附图带有文字信息，申请人为去除敏感信息，已对文字信息做去敏处理，如图2、3、4、5、6、7、8均进行过去敏处理。图10提供的发票所涉及部门也不涉及敏感信息。

图1为本发明文件识别方法一实施例的流程示意图，如图1所示，第一方面，本发明实施例提供如下方案：

步骤110，获取待识别文件；

具体而言，可以通过图像采集设备获取待识别文件，所述文件可以是图片、PDF或视频中截取的图片或者其他形式的文件。具体的获取方式可以是多种，例如，通过扫描仪、摄像头或者相机等获取待识别文件。可以理解的是该图像采集设备可以是单独的，通过有线或无线将获取的待识别文件进行传输，也可以是集成在例如移动终端或平板电脑或其他设备上的。

或者，在本步骤中，也可以是通过接受第三方系统发送的文件获得待识别文件，或者到预设地点或预设链接或预设系统下载获取待识别文件等，或者预设地点下载的视频，从视频中截取的图片等。

步骤120，获取待识别文件第一预设位置的第一图文信息，第一预设位置为第一模板的锚点位置；

在本步骤中，获取该带识别文件特定的预设位置的图文信息，该特定位置可以是第一模板的锚点位置。可以理解的是，此处的第一图文信息，可以是文字信息，或图的信息，或图和文字的组合。

此处第一模板可以是任一已有的模板，该模板可以是保存在模板库中的多个模板中的一个。

设置模板，建立模板库是本申请技术方案的前提，本申请对此不作限制，为更清晰的说明本申请技术方案，对设置模板的过程进行简要的说明。

可以理解的是，通常采用具有特定固定格式的文件来形式模板，在模板设置完成之后，在模板和该模板的以下几个要素之间形成一一对应的关系：特定的模板其锚点位置是固定的，即当模板确定时，该模板的锚点位置即同时确定；该锚点位置的内容是固定的，即当模板确定时，该模板的锚点位置是什么内容也是确定的；特定的模板其待识别的位置是确定的，即一个待识别文件确定和该特定模板对应时，需要在该待识别文件的什么位置获取和识别信息就确定了；特定的模板待识别位置对应的属性是确定的，当模板确定时，该待识别文件在某个位置的内容其对应的属性就是确定的。可以理解的是，从技术的角度，可以把该属性称为KEY，待识别位置对应的内容称为VALUE。即，模板确定时，待识别的VALUE的位置是确定的，该位置对应的KEY也是确定的。多个设置好的模板，形成模板库。

因此，在设置模板时，需要对具有固定结构和格式的文件进行锚点预标注，即框选出每一种模板文件中部分固定字段作为锚点，锚点可以包括多个位置处的字段，除了记录这种模板锚点处对应的图文信息，还要框选对应模板下需要被提取文件的位置，记录该位置对应的属性。

设置模板时，锚点标注用于区分待检测文件所属格式或特性，不同模板下锚点标注字段不同，能够增大各模板之间的差异性，从而提升模板辨识度。自动模板匹配的锚点预标注环节保证了在先验知识加入的情况下，对于有固定排版格式的文件，能使待识别文件匹配至事先标注好的模板上。

在本步骤110中，根据该第一模板锚点位置，在该待识别文件相应的位置获取其第一图文信息，即，获取待识别文件在该第一模板的锚点位置对应位置的第一图文信息。在具体实施时可以有多种方式，例如，对待识别文件进行定位，根据预先获取到的第一模板的锚点的位置信息，在待识别文件中确定出第一预设位置，可以理解的是，当第一模板的锚点包含多个时，该第一预设位置也相应包含多处具体的位置，在第一预设位置处获取第一图文信息。

可以理解的是，锚点并非一个点，而是具体的区域，锚点位置是该一个或多个区域的位置，该区域可以是预设任何形状的区域。以通常的文件为例，可以是矩形区域。锚点位置可以通过锚点区域形状特点确定，例如，矩形的位置可以矩形的四个点进行确定，圆形的位置可以圆心位置和半径确定等。

图2为本发明文件识别方法一实施例模板锚点示意图，如图2所示，图2A为一模板示意图，图2B在图2A的基础上设有七处矩形框，该七处矩形框即为该模板的锚点。该七处矩形框在该特定模板中，其位置是固定的，每个矩形框可以由四个顶点的在模板中的位置确定，或者通过其他已知或未来的确定位置的方法确定。

在本步骤中，在获取待识别文件之后，在该待识别文件中确定与该模板锚点相应的位置，以模板即模板锚点为图2所示为例，即确定七处矩形框的位置，并在待识别文件中获取这七处矩形框位置的第一图文信息。

以下以具体的待识别文件为例进行说明，图3为本发明文件识别方法一实施例待识别文件一及待识别文件一第一预设位置示意图，如图3所示，图3A为待识别文件一示意图，该待识别文件是通过前述步骤获得的，图3B为待识别文件一第一预设位置示意图，在图3B中有七处矩形框，为待识别文件一第一预设位置。在本步骤中，获取该待识别文件一第一预设位置的七个矩形框处的第一图文信息。

图4为本发明文件识别方法一实施例待识别文件二及待识别文件二第一预设位置示意图，如图4所示，图4A为待识别文件二示意图，该待识别文件是通过前述步骤获得的，图4B为待识别文件二第一预设位置示意图，在图4B中有七处矩形框，为待识别文件二第一预设位置。在本步骤中，获取该待识别文件二第一预设位置的七个矩形框处的第一图文信息。

图5为本发明文件识别方法一实施例中待识别文件一和待识别文件二在第一预设位置的图文信息示意图，图5A为待识别文件一在第一预设位置的图文信息示意图，图5B为待识别文件二在第一预设位置的图文信息示意图。

在前两个步骤中，基于预标注的锚点，提取待识别原始文件锚点区域内的图文特征。以便在后续步骤中，计算各个模板与待检测文件锚点区域内图文特征的相似度，根据相似度评估待检测文件是否在模板库中存在待识别文件对应的模板。

步骤130，根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，第一模板的锚点信息为第一模板在锚点位置的锚点图文信息；

可选的，根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，包括：比对第一图文信息与第一模板的锚点信息；根据比对结果确定待识别文件对应第一模板。

可选的，当第一模板的锚点信息为第一模板锚点图文的特征值时，比对第一图文信息与第一模板的锚点信息，具体包括：获取第一图文信息的特征值；比对第一图文信息的特征值和第一模板锚点图文的特征值，确定两者特征值相似度。根据比对结果确定待识别文件对应第一模板，具体包括：根据特征值相似度确定待识别文件对应第一模板。

继续以步骤120中所举例的模板和待识别文件一以及待识别文件二为例进行说明。

第一模板锚点信息对应图2B中七个矩形框中的图文信息，可以采用现有的或未来的文件或图像识别方式对其图文信息进行识别，例如，可以是提取第一图文特征值。

以待识别文件一为例，在获取第一图文信息之后，可以基于CTPN网络得到有效文件框，进而得到标准化文件行区域。考虑到获得的标准化文件行区域大小不一，在文件识别阶段，可以利用CRNN网络中的CTC loss机制，以实现对不同长度文件的识别。首先将标准化文件行进行灰度转化提取图像特征，得到特征向量序列，进而得到后验概率矩阵，最后将序列合并进行预测获取最终的文件识别结果。或者，也可以采用其他现有或未来技术对获取的图文信息进行识别。

图6为本发明文件识别方法一实施例对待识别文件一和待识别文件二的第一图文信息识别结果示意图，图6A为待识别文件一的第一图文信息识别结果示意图，图6B为待识别文件二的第一图文信息识别结果示意图。

以采用CTPN网络和CRNN网络为例，对待识别文件一的对应于第一模板的锚点位置的第一文图信息进行识别，获取的识别结果为七个矩形框中分别依次为文字：中华人民、技术中心、交割仓库、交割罐号、试验方法、结论、备注。

对待识别文件二的对应于第一模板的锚点位置的第一图文信息进行识别，获取的识别结果分别依次为文字：A SHANGHAI N、聿造八、告的羞报。

第一模板的锚点信息，即第一模板在锚点位置的锚点图文信息，可以是预先已预设的形式存储的，在需要确定待识别文件是否对应第一模板时，将经过上述步骤获取的待识别文件的第一图文信息与预先存储的第一模板在锚点位置的锚点图文信息进行比对。

可以理解的是，在本申请技术方案中预先存储的第一模板锚点信息可以是通过其他方式获取的，例如，也可以是通过CTPN网络结合CRNN网络识别的方式，或者其他方式。

在预先获取第一模板锚点信息所采用的方法，可以和本申请中获取待识别文件第一预设位置第一图文信息采用相同的方法，也可以是不同的方法，或者是多种识别方式的结合。本申请对此不作限定。采用相同的方式可以提高识别的一致性。

在进行比对时，可以是采用各自的特征值的比对，也可以是在识别出文件之后，采用文本和文本比对。本申请对此也不做限定。

对图2B以文件识别为例，可以看出第一模板的锚点包含七个矩形框，其分别依次识别出的文字为：中华人民、技术中心、交割仓库、交割罐号、试验方法、结论、备注。

以识别出文件，采用文件比对为例，可以看出，待识别文件一的第一预设位置的第一图文信息与第一模板锚点信息一致，因此根据第一图文信息与第一模板的锚点信息一致，确定待识别文件一对应第一模板。可以理解的是，采用特征值比对，也可以实现本申请。此处为说明方便直接，以文件为例进行说明。

由于举例所示的文件一和文件二锚点位置都是文字信息，举例也是以文字识别为例。当锚点位置包括图像信息，例如单位的LOGO等图形时，可以采用任一现有或未来技术进行图形比对，在本申请文件中不做赘述。

同样，可以看出待识别文件二的第一预设位置的图文信息与第一模板锚点信息不一致，可以确定待识别文件二不对应第一模板。

可以理解的是，当需要识别待识别文件时，如果预先存储的模板只有一个，可以在比较该待识别文件和该唯一的模板时可以得出该待识别模板是否对应与该模板的结论。

在预先存储的模板有多个时，需要将该待识别文件分别与多个模板进行匹配，以确定该待识别文件与哪个模板对应。该分别匹配的过程可以是依次进行的，也可以并行的。本申请不进行限定。

从匹配的结论上，可能是待识别文件与其中一个模板对应，为说明方便，在本申请中将该对应的模板描述为第一模板，该第一并不代表任何顺序。

额外的，可以将与该待识别文件不匹配的模板描述为第二模板。即，根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板，第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。

具体的，若待识别文件对应的模板未知，或者经确定其与模板库中任一模板都不对应，考虑其背景复杂，文件重要信息位置多变的因素，为避免文件信息遗漏，可以基于CTPN对整张图片进行检测。首先获取待检测的图片，并对其进行文件朝向检测及倾斜角度矫正，以便实现多角度、多方向文件检测。在得到的文件检测区域中过滤掉边缘Box，并剔除冗余Box，再将有效区域进行拼接，经过裁剪、旋转等操作得到标准化文本行区域。

在文件识别阶段，利用CTPN深度学习网络对无模板文件类文件进行全文文字检测，可以采用多种复杂场景下的文件区域检测，包括场景识别、印刷体文字识别等，有效地保留所有文件信息，避免遗漏重要信息，为后续文件电子化归档检索提供的保障。

可以理解的是，当待识别文件和多个模板匹配过程是并行的，可以是分别计算待识别文件与多个模板的匹配程度。提取待识别原始文件锚点区域内的图文特征，计算所有模板与待检测文件锚点区域内文本特征的相似度，根据相似度评估待检测文件是否在模板库中存在对应的模板。

例如以特征值相似度为评价标准，对其排序，特征值相似度大于预设数值的为对应，或者当不存在特征值大于预设数值的模板时，可以尝试将特征值相似度最大的模板作为与待识别文件对应的模板。或者尝试将该待识别文件作为新的模板，进行处理。

当待识别文件和多个模板匹配过程是依次进行时，可以是当在多个模板中找到与该待识别文件对应的模板时则停止与其他模板是否对应的步骤。

步骤140，获取待识别文件在第二预设位置的第二图文信息，第二预设位置为根据所述第一模板确定的待识别位置，且所述待识别位置与预设属性对应；

第二预设位置是根据该第一模板的内容预先设置的针对该类文件的待识别的区域，通常可以是该类文件中的重要信息或者需要登记或保存的信息，或是其他认为需要识别的区域。

可以理解的是，通过前面的步骤已经确定待识别文件与第一模板是对应的，则在本步骤中，基于第一模板的已知位置信息，利用有效特征匹配，快速获取待识别文件的需要识别的具体的区域。

可以看出，本申请技术方案中，在进行模板匹配时利用特定的模板预先标注的锚点确定待识别文件中目标文字区域，基于CTPN网络得到有效文件框，进而得到标准化文本行区域，该方法能够有效应用先验信息，对文字区域进行快速定位，加快整体识别速度；

针对有对应模板匹配的文件，由于文件格式相对固定，且在自动模板匹配环节已经被匹配至定义好的模板上，因此针对该类文件的具体需要识别的区域也固定，对应识别区域内的文字能够快速被定位，在确定了待识别文件对应的模板之后，进一步利用模板预先确定的待识别的位置对具体待识别内容进行快速定位，进一步提高了识别效率。

图7为第一模板待识别区域示意图，其中图7A为第一模板预设待识别区域示意图，其中矩形框为该第一模板对应的待识别区域，本申请可以采用任何现有或未来的识别方式，本申请对此不进行限定。图7B示意了图7A的矩形框内容及各矩形框前对应的字段的图文信息具体内容，第一模板预设的待识别区域都是较重要的区域。

根据图7示例的第一模板，其对应的有效信息(KEY)包括：委托人、入库申报单号、申报品名、交割仓库、申报重量、交割罐号、检毕日期、货位号1、货位号2、检测结论。

在实际实施时可以根据具体的模板相应设置其待识别区域，例如，当取样时间为重要信息时，则将图7A中显示为2006年10月11日的文字对应的矩形框设置为该模板对应的待识别区域。

在本步骤中,获取待识别文件在第二预设位置的第二图文信息，第二预设位置为根据所述第一模板确定的待识别位置，可以理解，当确定该待识别文件对应该第一模板时，由于该第一模板的待识别区域如图7A的矩形框所示，因此图7A的矩形框即为根据第一模板确定的第二预设位置，在本步骤中继续以待识别文件一(图3所示)为例，获取待识别文件一在该第二预设位置的第二图文信息。

步骤150，识别第二预设位置的第二图文信息，并根据预设规则将识别出的第二图文信息和与其对应的预设属性输出所述文件的识别结果。

在本步骤中，识别第二预设位置的第二图文信息，并根据识别结果识别待识别文件。图8为待识别文件识别结果示意图，例如，从图8可以看出，第二预设位置的第二图文信息的识别结果为：上海##燃料油有限责任公司、6375049847、沧澜65B,97K沥青、浙江##仓库、4000，000吨、60#、2006年3月28日、65号B级、97号K级、上述检测结果符合##石油沥青合约品种规定。

由于该第二预设位置为根据第一模板确定的，而且第二预设位置中各个矩形框对应的预设属性(预设字段属性，或KEY键值)也是预先知悉和确定的，因此，根据第一模板的已有信息可以快速得出待识别文件的重要信息。在图8中，也可以完整的得到该待识别文件中具体的需要识别出的第二图文信息(VALUE)和与其对应的预设属性

(KEY)的具体信息：

委托人：上海##燃料油有限责任公司、入库申报单号：6375049847、申报品名：沧澜65B,97K沥青、交割仓库：浙江##仓库、申报重量：4000，000吨、交割罐号：60#、检毕日期：2006年3月28日、货位号1：65号B级、货位号2：97号K级、检测结论：上述检测结果符合##石油沥青合约品种规定。

从图7和图8的比较，可以看出，在图7A中识别结果(VALUE)最后一行是“上述检测结果符合##石油沥青合约品种规定”，其在待识别文件中，KEY的文字为“结论：”，而在图8中，输出的识别结果为“检测结论：上述检测结果符合##石油沥青合约品种规定”。对于KEY值，存在“结论”和“检测结论”的区别。

此处仅为申请人在具体技术方案中的示例，为了说明输出的KEY值可以和文件中的文字完全相同，也可以是根据属性给出其他能表达该KEY的属性的名称。本申请对此并不进行限定。

在上述识别结果中，预设的识别结果输出规则是，一个KEY和与其对应的VALUE值内容相邻，且KEY值在前VALUE值在后。具体而言，根据所述识别出的第二图文信息以及与其对应的键值作为识别出的有效信息进行输出，还可以进一步的将该输出形成文本并录入数据库，在需要的时候可以从数据库检索或调用。得到格式化的输出结果。本发明有效地提高各类型文件的文件检测效率和识别精度，方便后续文件电子化归档和检索。可以理解的是，只要输出内容包括以上有效信息，具体的排序方法可以根据需要进行设定，形成预设的规则。

可以看出，本申请实施例在识别待识别文件时首先根据该文件预设位置的信息确定该文件对应的模板，再根据该对应的模板预设的位置识别该文件，最后再次利用该模板对应的已知信息，如该模板对应的待识别位置对应的属性等对识别出的内容进行属性定义，最终在输出时将识别出的内容和对应的属性作为有效信息以预设规则输出或保存。

进一步的，本申请实施例还可以包括：获取第一模板的文字特征，该文字特征包括至少以下之一或组合：文字类型、字体等；识别该第二预设位置的第二图文信息，具体包括：采用与所述文字特征对应的模型识别第二图文信息。

可以理解的是，确定待识别文件对应的模板之后，可以获知与该模板相对应的所以已知信息，例如，能够知道该模板对应的文件中的文字是用什么字体的，甚至可以获知该模板中，在某个位置的文字是数字还是中文或者英文。

在确认待识别文件对应第一模板之后，可以获取第一模板的信息，根据该信息，例如，第一模板的文字类型、字体等，确定在识别文字时采用何种识别模型。例如，该第一模板整体使用中文，且字体为宋体，则可以采用于此相对应的CRNN模型进行识别。

进一步的，可以区分待识别位置的具体文字特征分别采用不同的识别模型，例如，对应KEY为入库单号相应的待识别位置，其文字是纯数字，则此处可以用识别纯数字准确率更高的CRNN模型，对应KEY为委托人的相应的待识别位置，其文字是中文，则此处可以用识别中文字准确率更高的CRNN模型，更进一步的，还可以具体到中文的何种字体，例如手写体、幼圆体等，在此不做赘述。

进一步的，在本申请实施例中，还可以进一步的包括印章去除处理过程。可以理解的是，当确定了待识别文件所对应的模板时，通常该印章所在的位置也相对确定。尤其是在格式文件中，印章位置在特定格式文件中只出现在某一或某几个特定区域。本申请实施例还可以包括：

获取待识别文件的第三位置区域，第三位置区域为第一模板的印章位置区域；获取第三位置区域各像素点的R、G、B各颜色通道数值、各像素点R、G、B颜色通道的平均值，以及，确定像素点的R、G、B颜色通道数值分别与平均值的偏离值；当像素点的平均值大于第一预设数值，或像素点R、G、B各颜色通道数值至少一个大于第三预设值，且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时，以白色像素点替换所述像素点。

可以理解的是，此处的第三位置区域即为第一模板盖设印章的位置区域，在本步骤中，获取该第三位置区域则可以无需在整个待识别文件中寻找印章区域，而是直接利用第一模板的已知信息，获取待识别文件在该印章位置区域。

研究人员将第三位置区域分为四种情形：空白处、只有文字处、只有印章处，印章覆盖在文字的位置，可以理解的是，考虑到通常背景色为白色，其R、G、B的值趋近于255，文字信息为黑色或深灰色，R、G、B的值趋近于0。且通过对图像的RGB进行分析，发现白色、黑色、深灰色的图像，其R、G、B三个值较为接近。而印章多为红色、绿色、紫色、蓝色，其R、G、B三个值差异较大。

此外，基于本申请考虑找到待识别文件的印章区域的目的是对印章进行去除，并且在印章去除的同时保留文字。

具体而言，去除印章的具体步骤即：

当像素点的RBG平均值大于第一预设数值，该第一预设数值可以是在100-140之间的任意值，或像素点的R、G、B颜色通道中的一个或至少一个的绝对值大于第三预设值，第三预设值可以是在160-200之间的任意值时，确定上述两种情况的像素点的R、G、B颜色通道数值分别与所述平均值的偏离值，当满足所述像素点的所述平均值大于第一预设数值，或像素点R、G、B各颜色通道数值至少一个大于第三预设值，且R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时，第二预设值可以在8-12之间的任意值，以白色像素点替换所述像素点。

对文字部分不做处理，即，当像素点RBG平均值小于第一预设数值时保留该像素点不做处理，或者，当像素点RBG平均值大于第一预设数值，但是其R、G、B颜色通道中的没有一个颜色通道的偏离值大于第二预设数值时，也保留该像素点不做处理或者，当像素点R、G、B各颜色通道数值至少有一个大于第三预设值，但是其R、G、B颜色通道中的没有一个颜色通道的偏离值大于第二预设数值时，也保留该像素点不做处理。

在具体实施例中，本申请技术方案可以在获取第三位置区域后做如下处理：

第一步：计算某个像素点RGB平均值：Index1＝mean(R、G、B)；

第二步：判断，若Index1>Th₁，其中，Index1为RGB平均值，Th₁为第一预设数值，即当RGB平均值大于第一预设值时,需要进行颜色通道差异分析，根据分析的结果确定是否要对该像素点进行处理；

以及，判断像素点R、G、B各颜色通道数值是否大于第三预设值，若当像素点R、G、B各颜色通道数值中有至少一个值大于第三预设值时，需要进行颜色通道差异分析，根据分析的结果确定是否要对该像素点进行处理；

对不满足上述条件的像素点不做处理，保留原有像素点。图10为本发明文件识别方法一实施例中印章去除效果示意图，图10A为印章去除前示意图，图10B为印章去除后示意图。图10以印章为红色示意，对于红色印章的文件，其R的颜色通道偏离值大于第二预设值，当印章为蓝色、绿色或者有红蓝组合的紫色时，其对应的颜色通道偏离值会大于第二预设值，也可以同样通过本申请技术方案去除。

本申请技术方案进一步利用第一模板已知信息确定其印章所在区域，在利用盖印章区域部分的各像素点RGB的特征对符合特定像素点进行处理达到印章去除的效果。

进一步的，基于第一模板能够获知该模板采用的字体，根据该模板采用的字体，用与其对应的识别模型进行识别。

本申请第二方面包含一种文件识别装置，图9为本申请文件识别装置一实施例具体结构示意图，如图9所示，本申请一种文件识别装置，包括：第一获取模块910，第二获取模块920，第一确定模块930，第三获取模块940和识别模块950。其中对应的模块执行第一方面实施例图1所对应的步骤。其中，第一获取模块910，用于获取待识别文件；第二获取模块920，用于获取待识别文件第一预设位置的第一图文信息，第一预设位置为第一模板的锚点的位置；第一确定模块930，用于根据第一图文信息与第一模板的锚点信息确定待识别文件对应第一模板，第一模板的锚点信息为第一模板在锚点位置的锚点图文信息；第三获取模块940，用于获取第一模板对应的第二预设位置的第二图文信息，第二预设位置为与第一模板对应的待识别位置，且所述待识别位置与预设属性对应；识别模块950，用于识别第二预设位置的第二图文信息，并将识别出的第二图文信息和所述与其对应的预设属性以预设规则输出。

进一步的，第一确定模块930，包括比对单元和确定单元，其中，比对单元，用于比对第一图文信息与第一模板的锚点信息；确定单元，用于根据比对结果确定待识别文件对应第一模板。

进一步的，比对单元包括获取子单元、比对子单元，其中，获取子单元，用于获取第一图文信息的特征值；比对子单元用于，比对第一图文信息的特征值和第一模板锚点图文的特征值，确定两者特征值相似度；确定单元，具体用于根据特征值相似度确定待识别文件对应第一模板。

在一些实施例中，第一确定模块930，还用于根据第一图文信息与第二模板的锚点信息确定待识别文件不对应第二模板，第二模板的锚点信息为第二模板在其锚点位置的锚点图文信息。

本申请实施例在识别待识别文件时首先根据该文件预设位置的信息确定该文件对于的模板，再根据该对应的模板预设的位置识别该文件，通过模板已知信息快速有效的形成识别结果。

进一步的，该文件识别装置，还包括：第四获取模块，用于获取待识别文件的第三位置区域的第三图文信息，第三位置区域为第一模板的印章位置区域；第五获取模块，用于获取所述第三位置区域各像素点的RGB值；第二确定模块，用于根据所述各像素点的RGB值确定所述像素点R、G、B各颜色通道数值、确定所述像素点的R、G、B颜色通道的平均值、以及，确定所述像素点的R、G、B颜色通道分别与所述平均值的偏离值；处理模块，用于当所述像素点的所述平均值大于第一预设数值，或像素点R、G、B各颜色通道数值至少一个大于第三预设值，且，R、G、B颜色通道中的至少一个的偏离值大于第二预设数值时，以白色像素点替换所述像素点。。

本申请技术方案进一步利用第一模板已知信息确定其印章所在区域，在利用盖有印章的部分的文字的特点识别出印章，并通过对RGB的处理达到印章去除的效果。

进一步的，本申请一种文件识别装置，还包括：第六获取模块，用于获取所述第一模板的文字特征，所述文字特征包括至少以下之一或组合：文字类型、字体等；识别模块，具体用于采用与所述文字特征对应的模型识别所述第二图文信息。

在第三方面，本发明还提供一种文件识别装置，包括：

至少一个处理器；与至少一个处理器耦合的存储器，存储器存储有可执行指令，其中，可执行指令在被至少一个处理器执行时使得实现本发明第一方面的方法。

本实施例提供一种文件识别装置，包括：至少一个处理器；与至少一个处理器耦合的存储器。处理器和存储器可以单独设置，也可以集成在一起。

例如，存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等。处理器可以是中央处理器(Central Processing Unit，CPU)等。或者是图像处理器(Graphic Processing Unit，GPU)存储器可以存储可执行指令。处理器可以执行在存储器中存储的可执行指令，从而实现本文描述的各个过程。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是ROM(Read-OnlyMemory，只读存储器)、PROM(ProgrammableROM，可编程只读存储器)、EPROM(ErasablePROM，可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM，电可擦除可编程只读存储器)或闪存。易失性存储器可以是RAM(RandomAccessMemory，随机存取存储器)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如SRAM(StaticRAM，静态随机存取存储器)、DRAM(DynamicRAM，动态随机存取存储器)、SDRAM(SynchronousDRAM，同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM，双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM，增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM，同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM，直接内存总线随机存取存储器)。本文描述的存储器42旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，升级包、可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

在本发明实施例中，处理器通过调用存储器存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器用于执行第二方面所提供的方法步骤。

此外，在第五方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本发明第二方面的方法的步骤。

例如，机器可读存储介质可以包括但不限于各种已知和未知类型的非易失性存储器。

本领域技术人员可以明白的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现。这些功能是以硬件还是软件方式来实现，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以针对每个特定的应用，使用不同的方式来实现所描述的功能，但是这种实现并不应认为超出本申请的范围。

在本申请实施例中，所公开的系统、装置和方法可以通过其它方式来实现。例如，单元的划分仅仅为一种逻辑功能划分，在实际实现时还可以有另外的划分方式。例如，多个单元或组件可以进行组合或者可以集成到另一个系统中。另外，各个单元之间的耦合可以是直接耦合或间接耦合。另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是单独的物理存在等等。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在机器可读存储介质中。因此，本申请的技术方案可以以软件产品的形式来体现，该软件产品可以存储在机器可读存储介质中，其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程。上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

以上内容仅为本申请的具体实施方式，本申请的保护范围并不局限于此。本领域技术人员在本申请所公开的技术范围内可以进行变化或替换，这些变化或替换都应当在本申请的保护范围之内。

Claims

1.一种文件识别方法，其特征在于，包括：

获取待识别文件；

获取所述待识别文件第一预设位置的第一图文信息，所述第一预设位置为第一模板的锚点位置；

根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板，所述第一模板的锚点信息为所述第一模板在所述锚点位置的图文信息；

获取所述待识别文件在第二预设位置的第二图文信息，所述第二预设位置为根据所述第一模板确定的待识别位置，且所述待识别位置与预设属性对应；

识别所述第二预设位置的第二图文信息，并将识别出的第二图文信息和与其对应的预设属性以预设规则输出；

获取所述待识别文件的第三位置区域，所述第三位置区域为所述第一模板的印章位置区域；

获取所述第三位置区域各像素点的RGB值；

第一步，计算文字过滤指标：Index1 = mean（R、G、B）；

第二步，判断，若Index1>Th₁（100-140），或单一颜色通道大于TH₃（160-200），则需要进行颜色通道差异分析；

2.根据权利要求1所述的方法，其特征在于，根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板，包括：

比对所述第一图文信息与所述第一模板的锚点信息；

根据所述比对结果确定所述待识别文件对应所述第一模板。

3.根据权利要求2所述的方法，其特征在于，所述第一模板的锚点信息为所述第一模板锚点图文的特征值，所述比对第一图文信息与所述第一模板的锚点信息，包括：

获取所述第一图文信息的特征值；

比对所述第一图文信息的特征值和所述第一模板锚点图文的特征值，确定两者特征值相似度；

所述根据所述比对结果确定所述待识别文件对应所述第一模板，包括：

根据所述特征值相似度确定所述待识别文件对应所述第一模板。

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

获取所述第一模板的文字特征，所述文字特征包括至少以下之一或组合：文字类型、字体；

识别所述第二预设位置的第二图文信息，具体包括：

采用与所述文字特征对应的模型识别所述第二图文信息。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据所述第一图文信息与第二模板的锚点信息确定所述待识别文件不对应所述第二模板，所述第二模板的锚点信息为所述第二模板在其锚点位置的锚点图文信息。

6.一种文件识别装置，其特征在于，包括：

第一获取模块，用于获取待识别文件；

第二获取模块，用于获取所述待识别文件第一预设位置的第一图文信息，所述第一预设位置为第一模板的锚点位置；

第一确定模块，用于根据所述第一图文信息与所述第一模板的锚点信息确定所述待识别文件对应所述第一模板，所述第一模板的锚点信息为所述第一模板在所述锚点位置的图文信息；

第三获取模块，用于获取所述待识别文件在第二预设位置的第二图文信息，所述第二预设位置为根据所述第一模板确定的待识别位置，且所述待识别位置与预设属性对应；

识别模块，用于识别所述第二预设位置的第二图文信息，并将识别出的第二图文信息和与其对应的预设属性以预设规则输出；

第四获取模块，用于获取所述待识别文件的第三位置区域息，所述第三位置区域为所述第一模板的印章位置区域；

第五获取模块，用于获取所述第三位置区域各像素点的RGB值；

处理模块，用于处理：

第一步，计算文字过滤指标：Index1 = mean（R、G、B）；

7.根据权利要求6所述的装置，其特征在于，所述第一确定模块，包括比对单元和确定单元，其中，

所述比对单元，用于比对所述第一图文信息与所述第一模板的锚点信息；

所述确定单元，用于根据所述比对结果确定所述待识别文件对应所述第一模板。

8.根据权利要求6所述的装置，其特征在于，还包括：

第六获取模块，用于获取所述第一模板的文字特征，所述文字特征包括至少以下之一或组合：文字类型、字体；

9.一种文本识别装置，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令，其中，所述可执行指令在被所述至少一个处理器执行时使得实现根据权利要求1至5中任一项所述的方法。

10.一种芯片，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行：如权利要求1至5中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法的步骤。