CN110458162B

CN110458162B - 一种智能提取图像文字信息的方法

Info

Publication number: CN110458162B
Application number: CN201910677628.8A
Authority: CN
Inventors: 周钊; 郑莹斌; 叶浩
Original assignee: Shanghai Duiguan Information Technology Co ltd
Current assignee: Shanghai Duiguan Information Technology Co ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-06-23
Anticipated expiration: 2039-07-25
Also published as: CN110458162A

Abstract

本发明提供一种智能提取图像文字信息的方法，包括以下步骤：步骤S1、调用图像文字检测识别模型，提取图像文字检测识别模型输出结果中的关键字段；步骤S2、为图像文字检测识别结果标注一定量的标签，作为图像文字信息智能提取模型的训练集，设置待提取关键字段类别数等参数，送入图像文字信息智能提取模型进行训练，得到模型参数；步骤S3、获取步骤S2中训练得到的模型参数，作为图像文字信息智能提取系统推理时的参数，将待处理的图像数据输入图像文字信息智能提取模型。本发明利用深度学习的方法设计了卷积神经网络，自动提取图像文字内容中的关键信息，在操作简便的前提下能获得更准确的图像文字信息智能提取效果。

Description

一种智能提取图像文字信息的方法

技术领域

本发明涉及人工智能领域中的图像文字信息提取技术领域，具体地讲，本发明涉及一种智能提取图像文字信息的方法。

背景技术

图像文字信息智能提取是指利用人工智能方法与模型，对图像进行处理和分析，判断图像内的文字的具体所在位置和内容，之后对图像文字内容中的关键信息进行判断和提取。图像文字信息智能提取有助于提高文字智能理解的自动化，快速定位关键信息，并且能够帮助解决实际问题；例如帮助实现自动化关键字段提取、敏感文字信息鉴别等。

图像文字信息提取一般需要确定在图像文字检测与图像文字识别的基础上确定关键信息的位置，从而进行关键字段提取。待提取的关键字段内容是未知的，但是其位置一般在某些标志性字段附近，目前，现有技术是根据识别结果定位标志性字段位置，再根据关键字段与标志性字段的相对位置设计某些规则来提取关键字段，例如，对身份证、增值税发票等固定样式定义标志性字段位置并进行识别的过程。

然而，通过定位标志性字段再根据相对位置确定待提取的关键字段缺点之一是这种方法非常依赖识别结果，要求识别模型输出的标志性字段结果与定义的标志性字段完全一致才能定位到标志性字段的位置，当识别模型输出结果不太精确时可能使这种方法完全失效；另一个缺点是这种方法只适合版面固定的某类图像，因为这种方法中标志性字段和待提取的关键字段相对位置是固定的，一旦两者位置有偏移或者图像版面有微小变化也会导致这种方法失效；另外，这种方法开发成本高，对于每一类版面不同的图像都需要重新开发一套适用该类图像的规则。

因此，本领域技术人员亟需提供一种智能提取图像文字信息的方法，解决当前图像文字信息提取系统中过度依赖识别模型输出的图像文字识别结果、应用的图像标志性字段和关键字段位置不能有变化的问题。

发明内容

本发明要解决的技术问题是：提供一种智能提取图像文字信息的方法，解决当前图像文字信息提取系统中过度依赖识别模型输出的图像文字识别结果、应用的图像标志性字段和关键字段位置不能有变化的问题。

本发明解决其技术问题所采用的技术方案是：提供一种智能提取图像文字信息的方法，包括以下步骤：

步骤S1、调用图像文字检测识别模型，提取图像文字检测识别模型输出结果中的关键字段，根据图像文字检测识别结果的复杂程度判断是否将其作为训练数据；

步骤S2、为图像文字检测识别结果标注一定量的标签，作为图像文字信息智能提取模型的训练集，设置待提取关键字段类别数等参数，送入图像文字信息智能提取模型进行训练，得到模型参数；

步骤S3、获取步骤S2中训练得到的模型参数，作为图像文字信息智能提取系统推理时的参数，将待处理的图像数据输入图像文字信息智能提取模型，图像文字信息智能提取系统输出即为图像文字信息提取的结果。

优选的，还包括以下步骤：

步骤S4、图像文字检测：调用图像文字检测模型，检测图像中的文字内容所在的区域；

步骤S5、图像文字识别：调用图像文字识别模型，识别输入的图像局部区域或整张图像，并提取其中的文字内容；

步骤S6、提取关键信息：将图像送入文字信息智能提取系统，确定步骤S5中的图像文字内容哪些是关键信息，以{关键字：内容}的形式，输出关键信息提取结果。

优选的，所述步骤S2中，将图像文字检测识别结果标注一定量的标签，作为图像文字信息智能提取模型的训练集，具体包括：

将每个检测框内的识别结果用语言模型转换为N维词向量，假设图像宽、高分别为W、H，将数据整理成H×W×N的格式，检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量，检测框外的像素点对应的向量为N维0向量，将该数据与图像拼接输入图像文字信息智能提取模型进行训练。

优选的，所述步骤S2中，所述图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络，所述卷积神经网络包括四个第一网络单元和四个第二网络单元，所述第一网络单元包括每个池化层后接一个卷积层，所述第二网络单元包括高层特征上采样与相应的低层特征拼接后送入卷积层。

优选的，所述步骤S2中，所述图像文字信息智能提取模型的数据输入和输出过程包括：数据输入第一个卷积层后送入四第一网络单元，之后高层特征上采样与相应的低层特征拼接后送入卷积层，经过第二网络单元，最后经过一个卷积层后将最终数据输出。

本发明提供了一种智能提取图像文字信息的方法，利用深度学习的方法设计了卷积神经网络，自动提取图像文字内容中的关键信息，图像文字信息智能提取模型利用深度学习来设计，训练模型的数据主要为图像，不依赖或轻度依赖图像文字识别结果，可以应用在图像版面不固定的情形。本方法只需要标注少量图片作为训练数据，在操作简便的前提下能获得更准确的图像文字信息智能提取效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的图像文字信息智能提取模型的结构图；

图2是实施例一图像文字信息智能提取系统中训练部分的流程图；

图3是实施例一图像文字信息智能提取系统中推理部分的流程图；

图4是实施例二图像文字信息智能提取系统中训练部分的流程图；

图5是实施例二图像文字信息智能提取系统中推理部分的流程图。

具体实施方式

为使本发明的内容更加清楚易懂，以下结合说明书附图，对本发明的内容作进一步说明。当然本发明并不局限于该具体实施例，本领域内的技术人员所熟知的一般替换也涵盖在本发明的保护范围内。其次，本发明利用示意图进行了详细的表述，在详述本发明实例时，为了便于说明，示意图不依照一般比例局部放大，不应以此作为对本发明的限定。

上述及其它技术特征和有益效果，将结合实施例及附图1-5对本发明的智能提取图像文字信息的方法进行详细说明。

本发明一种智能提取图像文字信息的方法，包括训练部分以及推理部分，训练部分作用是获得应用于某类图像的文字信息智能提取系统的网络模型参数，训练部分包括以下步骤：

推理部分即为实际应用部分，推理部分包括以下步骤：

其中，步骤S2中，将图像文字检测识别结果标注一定量的标签，作为图像文字信息智能提取模型的训练集，具体包括：将每个检测框内的识别结果用语言模型转换为N维词向量，假设图像宽、高分别为W、H，将数据整理成H×W×N的格式，检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量，检测框外的像素点对应的向量为N维0向量，将该数据与图像拼接输入图像文字信息智能提取模型进行训练。

如图1所示，步骤S2中，图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络，所述卷积神经网络包括四个第一网络单元100和四个第二网络单元200，第一网络单元100包括每个池化层后接一个卷积层，第二网络单元200包括高层特征上采样与相应的低层特征拼接后送入卷积层；图像文字信息智能提取模型的数据输入和输出过程包括：数据输入第一个卷积层后送入四个第一网络单元100，之后高层特征上采样与相应的低层特征拼接后送入卷积层，经过第二网络单元200，最后经过一个卷积层后将最终数据输出。

实施例一

如图2所示，图像文字信息智能提取系统分为训练部分和推理部分，训练部分作用是获得应用于某类图像的文字信息智能提取系统的网络模型参数，步骤如下：

步骤S11、调用文字检测模型，获得文字位置；

步骤S12、为图像标注标签，作为图像文字信息智能提取模型的训练数据。该步骤会用到步骤S11中的文字位置；

步骤S13、设置训练参数，将步骤S12中标注的数据送入网络训练，得到当前模型参数；

步骤S14、测试当前模型参数效果，依据当前效果调整步骤S13中的训练参数，重复步骤S13，直到获得满足需求的效果。

步骤S15、保存模型参数，作为文字信息智能提取系统用于推理时的模型参数。

如图3所示，推理部分即为实际应用部分，包括以下步骤：

步骤S16、调用文字检测模型，获得文字位置。

步骤S17、调用文字识别模型，获得文字内容；该步骤需要用到步骤1)中的文字位置。

步骤S18、将图像送入文字信息智能提取系统，确定步骤S17中的文字内容哪些是关键信息，以{关键字：内容}的形式，输出关键信息提取结果。

实施例二

如图4所示，本实例相对于实例一不同点主要在于当图像排版结构复杂时，可以利用文字识别模型输出的文字内容提高关键信息提取效果，步骤如下：

步骤S21、调用文字检测模型，获得文字位置；

步骤S22、调用文字识别模型，获得文字内容；该步骤需要用到步骤S21中的文字位置；

步骤S23、为图像标注标签，作为图像文字信息智能提取模型的训练数据。该步骤会用到步骤S21中的文字位置和步骤S22中的文字内容；

步骤S24、设置训练参数，将步骤S23中标注的数据送入网络训练，得到当前模型参数；

步骤S25、测试当前模型参数效果，依据当前效果调整步骤S23中的训练参数，重复步骤S24，直到获得满足需求的效果。

步骤S26、保存模型参数，作为文字信息智能提取系统用于推理时的模型参数。

如图5所示，推理部分流程图包括以下步骤：

步骤S27、调用文字检测模型，获得文字位置；

步骤S28、调用文字识别模型，获得文字内容。该步骤需要用到步骤S27中的文字位置；

步骤S29、将图像和文字内容送入文字信息智能提取系统，确定步骤S28中的文字内容哪些是关键信息，以{关键字：内容}的形式，输出关键信息提取结果。

虽然本发明主要描述了以上实施例，但是只是作为实例来加以描述，而本发明并不限于此。本领域普通技术人员能做出多种变型和应用而不脱离实施例的实质特性。例如，对实施例详示的每个部件都可以修改和运行，与所述变型和应用相关的差异可认为包括在所附权利要求所限定的本发明的保护范围内。

本说明书中所涉及的实施例，其含义是结合该实施例描述的特地特征、结构或特性包括在本发明的至少一个实施例中。说明书中出现于各处的这些术语不一定都涉及同一实施例。此外，当结合任一实施例描述特定特征、结构或特性时，都认为其落入本领域普通技术人员结合其他实施例就可以实现的这些特定特征、结构或特性的范围内。

Claims

1.一种智能提取图像文字信息的方法，其特征在于, 包括以下步骤：

步骤S21、调用文字检测模型，获得文字位置；

步骤S22、调用文字识别模型，获得文字内容；所述步骤S22需要用到所述步骤S21中的文字位置；

步骤S23、为图像标注标签，作为图像文字信息智能提取模型的训练数据，所述步骤S23用到步骤S21中的文字位置和步骤S22中的文字内容；

步骤S25、测试当前模型参数效果，依据当前效果调整步骤S23中的训练参数，重复步骤S24，直到获得满足需求的效果；

步骤S26、保存模型参数，作为文字信息智能提取系统用于推理时的模型参数；

所述推理包括以下步骤：

步骤S27、调用文字检测模型，获得文字位置；

步骤S28、调用文字识别模型，获得文字内容，所述步骤S28用到步骤S27中的文字位置；

步骤S29、将图像和文字内容送入文字信息智能提取系统，确定步骤S28中的文字内容哪些是关键信息，以{关键字：内容}的形式，输出关键信息提取结果；

所述步骤S23中，为图像标注标签，作为图像文字信息智能提取模型的训练数据，具体包括：

将每个检测框内的图像文字检测识别结果用语言模型转换为N维词向量，假设图像宽、高分别为W、H，将数据整理成H×W×N的格式，检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量，检测框外的像素点对应的向量为N维0向量，将该数据与图像拼接输入图像文字信息智能提取模型进行训练；

所述图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络，所述卷积神经网络包括四个第一网络单元和四个第二网络单元，所述第一网络单元包括每个池化层后接一个卷积层，所述第二网络单元包括高层特征上采样与相应的低层特征拼接后送入卷积层；

所述图像文字信息智能提取模型的数据输入和输出过程包括：数据输入第一个卷积层后送入四个第一网络单元，之后高层特征上采样与相应的低层特征拼接后送入卷积层，经过第二网络单元，最后经过一个卷积层后将最终数据输出。