CN110909733A

CN110909733A - 基于ocr图片识别的模版定位方法、装置和计算机设备

Info

Publication number: CN110909733A
Application number: CN201911031358.XA
Authority: CN
Inventors: 田立文
Original assignee: Century Baozhong Beijing Network Technology Co Ltd
Current assignee: Century Baozhong Beijing Network Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-03-24

Abstract

本申请涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。所述方法包括：获取待训练的图片数据；识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；按照所述图片特性对所述图片数据进行分类；针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；根据所述图片特性对所述数据集进行训练，获得模版定位模型。采用本方法能够有效解决因保单图片数据量少而无法进行模型训练的问题，提高保单分类的精确性，并提高运行效率。

Description

基于OCR图片识别的模版定位方法、装置和计算机设备

技术领域

本申请涉及软件开发技术领域，特别是涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。

背景技术

在传统的保单识别领域，通常是根据用户手动输入纸质保单中的数据来进行数据填写，而随着科技的进步，智能保单识别技术应运而生，比如目前迅速发展的OCR图像识别技术，已经广泛应用于身份证、银行卡以及各种保单的识别中，对于身份证和银行卡的OCR识别，其文本位置固定比较方便处理，而保单OCR由于险种种类繁多，样式、条款和排版均不相同，需要针对每一类相同的保单都制作模板来进行分类。

目前对保单模版的建立是通过机器学习对每一图片进行特征提取后，对特征数值进行向量机分类，但这种方法需要对大量保单数据进行训练并且运算过程慢，而且经常出现数据集不足的问题，使得保单OCR的模板定位很复杂。

发明内容

基于此，有必要针对上述技术问题，提供一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质,有效解决因保单图片数据量少而无法进行模型训练的问题，提高保单分类的精确性，并提高运行效率。

一种基于OCR图片识别的模版定位方法，所述方法包括：

获取待训练的图片数据；

识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；

按照所述图片特性对所述图片数据进行分类；

针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；

根据所述图片特性对所述数据集进行训练，获得模版定位模型。

在其中一个实施例中，在获取待训练的图片数据之后，还包括：

通过机器学习对所述图片数据进行粗分类处理。

在其中一个实施例中，识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息包括：

对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取，获得该区域的坐标信息；

根据预设算法对所述坐标信息进行距离转换，并通过大数据分析获得相应的图片特性。

在其中一个实施例中，预处理包括：

将每一分类下的全部图片数据按照预设截取规则进行截取；

将截取后的图片按照不同角度进行旋转，生成多张图片数据，并进行数据编码标注。

在其中一个实施例中，所述图片特性包括板式统一的特性。

在其中一个实施例中，还包括：

根据板式统一的特性，通过卷积神经网络对所述数据集进行训练。

在其中一个实施例中，在训练数据集之前还包括：

将所述数据集缩小至设定大小，并进行零均值化处理，将特定文本区域数据转换填入图像数据。

一种基于OCR图片识别的模版定位装置，所述装置包括：

获取模块，适于获取待训练的图片数据；

分析模块，适于识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；

分类模块，适于按照所述图片特性对所述图片数据进行分类；

预处理模块，适于针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；

训练模块，适于根据所述图片特性对所述数据集进行训练，获得模版定位模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

上述基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质，通过获取待训练的图片数据，识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性，然后按照所述图片特性对所述图片数据进行分类，并针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集，再根据所述图片特性对所述数据集进行训练，获得模版定位模型，从而有效解决数据集不足的问题，提高保单分类的精确性，并提高运行效率。

附图说明

图1为一个实施例中基于OCR图片识别的模版定位方法的流程示意图；

图2为一个实施例中确定图片特定文本区域的示意图；

图3为一个实施例中步骤S102的流程示意图；

图4为一个实施例中预处理的流程示意图；

图5为一个实施例中对保单进行编码标注的示意图；

图6为一个实施例中基于OCR图片识别的模版定位装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

附图中的流程图和框图，图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现预定的逻辑功能的可执行指令。也应当注意，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本文中，诸如左和右，上和下，前和后，第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作，而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

在本发明中，图片可以是任意领域和任意类型的图片，为便于表述，本发明中仅以保单(即保险单)为一种图片示例进行说明，但可以理解，其他类型的图片同样涵盖在本发明的范围内。

在一个实施例中，如图1所示，提供了一种基于OCR图片识别的模版定位方法，该方法可运行于智能终端中，智能终端可以是个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，也可以是独立的服务器或者是多个服务器组成的服务器集群，具体来说，该方法包括：

S101、获取待训练的图片数据；

具体来说，可通过扫描工具对一份或若干份纸质保单进行扫描，获得待训练的图片数据。

在某一实施例中，在获取待训练的图片数据之后，还可以通过机器学习对获得的图片数据先进行粗分类处理，具体来说，可采用无监督学习对图片数据进行粗分类处理。其中，无监督学习是指输入数据没有被标记，也没有确定的结果，由模型自动对数据的结构和数值进行归纳。

S102、识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；

其中，特定文本区域可以是该保单页面中除录入数据外的固有文本，举例来说，如图2所示，特定文本可以是该保单中的固定文本，比如“投保单位”、“联系人姓名”、“被保人姓名”、“联系电话”或者“组织机构代码等”，这些固定文本对应的区域即特定文本区域，在图2中以矩形框示出。

进一步，如图3所示，S102具体包括：

S301、对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取，获得该区域的坐标信息；

其中，可通截取坐标位置工具对这些固定文本所在的区域进行坐标截取。

S302、根据预设算法对所述坐标信息进行距离转换，并通过大数据分析获得相应的图片特性。

其中，预设算法可以是欧式距离算法，欧式距离算法是一种距离度量算法，衡量的是多维空间中两个点之间的绝对距离，也可以理解为m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)，在二维和三维空间中的欧氏距离就是两点之间的实际距离，具体可通过公式

进行距离转换。在进行距离转换后，再通过大数据分析进而获得相应的图片特性，获得该图片的字段样式，进而确定该保单图片的板式。

S103、按照所述图片特性对所述图片数据进行分类；

其中，图片特性可以是板式特性，将同一图片特性的图片归为一类，使得不同险种的保单可共用一个欧氏距离的模板。可以看出，通过对保单特定文本区域的坐标进行距离转换，获得图片版式，并根据板式统一的特性对保单进行分类，从而在后续数据训练时，无需关注图片中的文本内容，仅关注图片样式即可实现保单的分类。

S104、针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；

进一步，如图4所示，预处理可以具体包括：

S401、将每一分类下的全部图片数据按照预设截取规则进行截取；

具体来说，可先将同一分类中的一张保单按照设定宽度和高度进行重置，比如，将A分类中的一张保单a、B分类中的一张保单b以及C分类中的一张保单c统一配置为900*1200(宽*高)像素。

然后，按照第一设定像素在上述重置后的图片中进行随机截取，再随机裁剪成第二设定像素的图片。举例来说，对保单a按照N*N像素进行随机截取获得图片a1，N取650-800之间任意数值，再对a1按照n*n像素进行随机截取获得图片a2,n取600，按照同样的方法对保单b和c进行处理。

S402、将截取后的图片按照不同角度进行旋转，生成多张图片数据，并进行数据编码标注。

举例来说，可将上述图片a2按照不同角度进行旋转，生成多张图片数据，以扩充训练数据，并对截取后的图片中含有固定文本区域的位置进行转化记录，按照同样的方法对保单b和c进行类似处理。

进一步来说，还可人工进行进一步细化分类，将相同公司图片版式一样的定义为一个模板，否则为不同模板，定义标注以及每个标注对应的解析码，比如，将截取后的图片编码标注为如图5所示。

S105、根据所述图片特性对所述数据集进行训练，获得模版定位模型。

其中，可根据板式统一的特性，以16层卷积神经网络为基础(比如‘残差’网络)进行训练，在调整特征提取时，将参数设置为输出重点侧重图片样式特征，在第2,3层特征提取时的卷积层添加‘相似度转换’层算法，结合固定区域数据将每行固定区域特征数值提升，使得训练时无需关注保单图片中文本内容，只需要关注保单图片样式即可，解决了训练数据不足及预测能力单一的问题，同时保证保单OCR的模板精准定位。

在其他实施例中，在训练数据集之前还包括：将所述数据集缩小至设定大小，比如缩小至224*224，并进行零均值化处理，将特定文本区域数据转换填入图像数据，训练模型后，获得保单OCR的模板定位模型。

在一个实施例中，如图6所示，提供了一种基于OCR图片识别的模版定位装置，该装置可以是具备一定计算能力的智能终端设备，例如移动手机、智能手机、PDA或平板电脑，也可以是其他可与互联网进行交互的电子设备，例如相机、穿戴电子设备、车载导航设备、设置在车站或学校等公共场所的电子交互终端，还可以是具有独立计算能力的服务器或者服务器集群，该装置适于执行上述任一基于OCR图片识别的模版定位方法，并且可以通过宽带，例如ADSL、VDSL、光纤、无线、有线电视、卫星等方式接入网络，也可通过窄带，例如电话拨号接入、GPRS、2G、3G等方式接入互联网，或者也可通过CDMA、2G、3G、4G等技术接入电信网络。具体来说，该装置包括：

获取模块601，适于获取待训练的图片数据；

分析模块602，适于识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；

分类模块603，适于按照所述图片特性对所述图片数据进行分类；

预处理模块604，适于针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；

训练模块605，适于根据所述图片特性对所述数据集进行训练，获得模版定位模型。

上述各个模块可以集成于处理器中运行，处理器可以是中央处理单元(“CPU”)或图形处理单元(“GPU”)，具体来说处理器可以包括一个或者多个印刷电路板或微处理模块芯片，执行计算机程序指令序列以执行上述提及的基于OCR图片识别的模版定位方法。

在某一实施例中，还包括粗分类模块，适于在获取待训练的图片数据之后，通过机器学习对所述图片数据进行粗分类处理。

在某一实施例中，分析模块602进一步包括：

第一截取单元，适于对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取，获得该区域的坐标信息；

距离转换单元，适于根据预设算法对所述坐标信息进行距离转换，并通过大数据分析获得相应的图片特性。

在某一实施例中，预处理模块604进一步包括：

第二截取单元，适于将每一分类下的全部图片数据按照预设截取规则进行截取；

旋转单元，适于将截取后的图片按照不同角度进行旋转，生成多张图片数据，并进行数据编码标注。

在某一实施例中，图片特性包括板式统一的特性。

在某一实施例中，训练模块605还包括：根据板式统一的特性，通过卷积神经网络对所述数据集进行训练。

在某一实施例中，还包括：

数据集处理模块，适于在训练数据集之前，将所述数据集缩小至设定大小，并进行零均值化处理，将特定文本区域数据转换填入图像数据。

关基于OCR图片识别的模版定位装置的具体限定可以参见上文中对于基于OCR图片识别的模版定位方法的限定，在此不再赘述。上述基于OCR图片识别的模版定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

S101、获取待训练的图片数据；

S103、按照所述图片特性对所述图片数据进行分类；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

S101、获取待训练的图片数据；

S103、按照所述图片特性对所述图片数据进行分类；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于OCR图片识别的模版定位方法，其特征在于，所述方法包括：

获取待训练的图片数据；

按照所述图片特性对所述图片数据进行分类；

2.根据权利要求1所述的方法，其特征在于，在获取待训练的图片数据之后，还包括：

通过机器学习对所述图片数据进行粗分类处理。

3.根据权利要求2所述的方法，其特征在于，识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息包括：

4.根据权利要求1所述的方法，其特征在于，所述预处理包括：

将每一分类下的全部图片数据按照预设截取规则进行截取；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述图片特性包括板式统一的特性。

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1所述的方法，其特征在于，在训练数据集之前还包括：

8.一种基于OCR图片识别的模版定位装置，其特征在于，所述装置包括：

获取模块，适于获取待训练的图片数据；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。