CN109034159B

CN109034159B - 图像信息提取方法和装置

Info

Publication number: CN109034159B
Application number: CN201810523909.3A
Authority: CN
Inventors: 伍更新; 高大帅; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2021-05-28
Anticipated expiration: 2038-05-28
Also published as: CN109034159A

Abstract

本发明提供了一种图像信息提取方法和装置，该方法包括：离线训练基于深度学习算法的预设模型，其中，预设模型包括文本行检测模型、文本行识别模型、证件分类模型；采集证件文本的电子图像；将预设模型加载至AI芯片上；将电子图像输入至预设模型中的每个模型；控制AI芯片运行证件分类模型以对电子图像进行证件分类，确定电子图像的证件类型；控制AI芯片依次运行文本行检测模型和文本行识别模型以对电子图像进行文本识别，确定电子图像的不同位置的文本行的内容信息；按照预设算法对不同位置的文本行的内容信息进行识别处理，确定电子图像的结构化信息；输出电子图像的证件类型及结构化信息。本发明提升图像信息的提取实时性、准确率、鲁棒性。

Description

图像信息提取方法和装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像信息提取方法和装置。

背景技术

目前，在各种场景下普遍需要将证件、票据等信息录入到计算机中；其中，信息的人工录入步骤繁杂，成本较高且错误率较高。目前主要的录入方式是基于OCR(光学字符识别技术)的信息提取和录入。

OCR信息提取流程具体包括：

步骤一，文本图像采集：采用图像采集设备获取待录入的文本图像(例如身份证的电子图像)；

步骤二，文本行定位：使用传统图像处理算法(例如图像滤波、图像二值化等)对采集到的文本图像进行倾斜校正、文字聚类生成文本行；

步骤三，文本识别：使用传统gabor或hog特征进行文字识别；

步骤四，后处理：根据识别结果进行图像的证件分类和信息提取。

其中，步骤二中的子步骤繁多，且每个子步骤中涉及的参数较多，各个子步骤需要认真调节参数才能得到较好的定位结果，因此，鲁棒性较差。而步骤三中的基于gabor和hog特征的识别算法对文字的识别准确率较低。

由此可见，现有技术中的图像信息提取方案普遍存在着信息提取准确率低以及鲁棒性差的问题。

发明内容

本发明提供了一种图像信息提取方法和装置，以解决现有技术中的图像信息提取方案所存在的信息提取准确率低以及鲁棒性差的问题。

为了解决上述问题，第一方面，本发明实施例提供了一种图像信息提取方法，所述方法包括：

根据训练样本离线训练基于深度学习算法的预设模型，其中，所述预设模型包括文本行检测模型、文本行识别模型、证件分类模型；

采集证件文本的电子图像；

将预先经过训练的所述预设模型加载至AI芯片上；

将所述电子图像输入至所述预设模型中的每个模型；

控制所述AI芯片运行所述证件分类模型以对所述电子图像进行证件分类，确定所述电子图像的证件类型；

控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；

按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息；

输出所述电子图像的证件类型及所述结构化信息。

第二方面，本发明实施例还提供了一种图像信息提取装置，所述图像信息提取装置包括AI芯片和预先经过训练的预设模型，所述图像信息提取装置还包括：

训练模块，用于根据训练样本离线训练基于深度学习算法的预设模型，其中，所述预设模型包括文本行检测模型、文本行识别模型、证件分类模型；

图像采集模块，用于采集证件文本的电子图像；

加载模块，用于将预先经过训练的所述预设模型加载至AI芯片上；

输入模块，用于将所述电子图像输入至所述预设模型中的每个模型；

第一控制模块，用于控制所述AI芯片运行所述证件分类模型以对所述电子图像进行证件分类，确定所述电子图像的证件类型；

第二控制模块，用于控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；

识别处理模块，用于按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息；

输出模块，用于输出所述电子图像的证件类型及所述结构化信息。

第三方面，本发明实施例还提供了一种移动终端，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现所述的图像信息提取方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的图像信息提取方法的步骤。

与现有技术相比，本发明包括以下优点：

这样，本发明通过使用AI芯片来运行证件分类模型、文本行检测模型和文本行识别模型，从而对采集的证件文本的电子图像自动识别出证件类型以及所需的结构化信息，便于对证件文本的信息自动化录入，在这个过程中，由于证件分类模型、文本行检测模型和文本行识别模型中的浮点计算较多，而使用AI芯片运行上述三个模型，从而使得浮点计算得到优化，既提升了系统性能又降低了功耗，使得图像信息的提取的实时性、准确率和鲁棒性都得到提高。

附图说明

图1是本发明的一种图像信息提取方法实施例的步骤流程图；

图2是本发明的一种图像信息提取装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

随着深度学习在自然场景下文字检测和文字识别的快速发展，基于深度学习的方法无论是在检测还是识别方面都有出色表现。发明人在实现本发明的过程中发现，深度学习算法需要大量的浮点计算(例如乘法、除法等)，而CPU在做这些浮点计算时，会比较繁琐，耗时长，性能低，而AI芯片(人工智能专用芯片，AI-specific chip)采用FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者ASIC(Application SpecificIntegrated Circuit)方案，可以直接将常用的计算函数实现硬件化，做成一坨门电路或者查询表，从而可以对浮点计算进行优化，使得浮点计算的速度得到优化，所以，AI芯片对浮点计算的运算速度可以快很多，功耗却很低。AI芯片是一种能够加速深度学习算法的芯片，也称为人工智能专用芯片，如谷歌的TPU(Tensor Processing Unit)，英伟达的GPU(GraphProcessing Unit)，华为的麒麟970NPU(neural-network process units)等。

因此，本发明实施例提供了一种图像信息提取装置(也即，经过本发明实施例处理后得到的图像采集设备)，本发明实施例可以将深度学习算法集成在含有AI芯片的图像采集设备上，使得经过这种处理后的图像采集设备在采集文本图像的同时，能够完成对文本图像的自动分类及结构化信息提取，能够满足OCR市场上的大多数场景需求。

这里介绍一下本发明实施例的图像信息提取装置的制作流程，也可以理解为对原始的图像采集设备的处理流程，使得处理后的图像采集设备能够作为本发明实施例的图像信息提取装置。

首先，根据图像信息提取的应用场景，选择一款适用于该应用场景的图像采集设备，如扫描仪、高拍仪、手机摄像头、摄像机等。

举例来说，如果需要进行图像信息提取的证件文本为名片，则可以选用手机摄像头、扫描仪作为图像采集设备；如果需要进行图像信息提取的证件文本为护照，则可以选用高拍仪、扫描仪作为图像采集设备；如果需要进行图像信息提取的证件文本为文档类文本(例如各种票据)，则可以选用扫描仪作为图像采集设备。

然后，根据选定的图像采集设备确定合适的AI芯片，其中，根据图像采集设备的不同，可以选择硬件上与图像采集设备相匹配的AI芯片。将AI芯片集成在图像采集设备上；

最后，选择基于深度学习的图像分类算法，文本行检测算法和文本行识别算法，将这些算法移植到图像采集设备上，使得处理后的图像采集设备能够在采集图像的同时完成图像的自动分类和信息提取功能。

那么经过将AI芯片和深度学习的三种算法向图像采集设备的移植处理，使得处理后的图像采集设备能够在采集图像的同时完成图像的自动分类和信息提取功能，并且，处理后的图像采集设备是通过深度学习的算法来实现图像分类和结构化信息提取的，所以，图像信息提取准确率较高；且AI芯片能够对深度学习算法的运行进行优化加速，从而使得处理后的图像采集设备的鲁棒性较好。

对于移植到图像采集设备上的深度学习的图像分类算法、文本行检测算法和文本行识别算法来说，它们也是针对一种或多种证件类型而训练得到的算法。

例如，在本实施例中，图像信息提取设备的制作需求是实现对身份证正反两面、营业执照以及房产证这三类证件的证件自动分类和结构化信息提取。那么就需要对上述三种算法进行上述三类证件的训练，从而得到能够对上述三类证件进行信息准确提取的图像信息提取装置。

本实例中的图像信息提取装置的制作流程如下：

首先，图像信息提取的应用场景为身份证正反两面、营业执照以及房产证，因此，选择与该应用场景匹配的图像采集设备为扫描仪。

然后，选择硬件上与扫描仪相匹配的AI芯片，这里为英伟达GPU。

接着，选择样本来对深度学习的图像分类算法、文本行检测算法和文本行识别算法进行训练使得训练后的上述三种算法能够支持身份证正反两面、营业执照以及房产证这几类证件文本的图像信息提取。

对于训练样本可以包括两类样本；类型一：合成文本图像10万张(所谓合成文本图像，即在背景图放上文本行)，用于训练基于深度学习算法的文本行检测算法和文本行识别算法。其中，由于如果使全部训练样本都为人工标注样本，则人工标注成本太大，所以，增加合成文本图像样本。类型二：人工标注样本，每类证件(证件类型包括上述身份证正反两面、营业执照以及房产证)的扫描图像各1000张，用于文本行检测算法、文本行识别算法的精细化调优，以及用于训练图像分类算法。

对上述三种算法的具体训练流程如下：

1、获取样本：可以将以网上爬虫的方式获得的图片作为背景图，并将该背景图与文本行合成，得到合成文本图像10万张，其中，可以记录文本行在背景图中的位置、文本行的内容；每类证件(这里的证件为真实的证件，真实的身份证证件、营业执照证件、房产证证件)的扫描图像各1000张，对每类证件的1000张图像进行人工标注，例如以矩形框来标注该图像中的文本行所在位置(即，将文本行框起来)，并记录下文本行在图像中的位置、文本行的文本内容，以及标注证件类型。

2、文本行检测模型训练：可以设计全卷积神经网络模型，例如SSD(Single ShotMultiBox Detector，是一种广义目标检测模型)、YOLO(You Only Look Once，是一种广义目标检测框架)等来用于文本行检测。然后，使用上述两类样本对该全卷积神经网络模型进行文本行检测的训练。具体而言，首先使用合成文本图像来训练该全卷积神经网络模型，使得训练后的该全卷积神经网络模型收敛；然后，使用人工标注的图像对收敛后的该全卷积神经网络模型继续进行精细化调优训练，使得训练后的该全卷积神经网络模型收敛。

最终训练后的文本行检测模型能够实现对上述三类证件的图像进行文本行位置检测。其中，在本例中，该全卷积神经网络模型的深度学习框架可以选用TensorFlow(是谷歌基于DistBelief进行研发的第二代人工智能学习系统)。其中，最终训练后的文本行检测模型即为经过训练后的文本行检测算法。

3、文本行识别模型训练：可以采用CRNN(卷积循环神经网络)+attention(注意力)机制的网络模型来进行文本行端到端的识别。所谓端到端识别，即整行文本的识别。首先使用合成文本图像来训练该网络模型，使得训练后的该网络模型收敛；然后，使用人工标注的图像对收敛后的该网络模型继续进行精细化调优训练，使得训练后的该网络模型收敛。

最终训练后的文本行识别模型能够实现对上述三类证件的图像进行文本行内容识别。其中，在本例中，该网络模型的深度学习框架可以选用tensorflow。其中，最终训练后的文本行识别模型即为经过训练后的文本行识别算法。

4、证件分类模型训练：可以设计带有残差结构(一种网络结构)的CNN(卷积神经网络)。然后使用人工标注的上述证件图像来训练CNN的分类器，使得训练后的分类器能够实现对上述三类证件的图像的分类。

最终训练后的证件分类模型能够实现对上述三类证件的图像进行证件分类。其中，最终训练后的证件分类模型即为经过训练后的图像分类算法。

模型移植：将训练好的文本行检测模型、文本行识别模型以及证件分类模型移植到配置有GPU的扫描仪上，实现上述三种类型的证件(身份证正面，身份证反面，营业执照，房产证)的实时自动分类及信息提取。

本发明实施例的图像信息提取设备，其核心是将基于深度学习的文本图像文本行检测算法、文本行识别算法、文本图像分类算法移植到集成有AI芯片的图像采集设备上。此设备能够在采集文本图像的同时完成自动分类及信息提取，是一种新型集成有深度学习OCR的智能化设备。

下面参照图1来对上述实施例的图像信息提取装置的工作流程进行详细阐述。图1示出了本发明的一种图像信息提取方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，根据训练样本离线训练基于深度学习算法的预设模型，其中，所述预设模型包括文本行检测模型、文本行识别模型、证件分类模型；

该步骤的具体实现可以详见上述实施例中对深度学习的图像分类算法、文本行检测算法和文本行识别算法进行训练的四个步骤(1，获取样本；2，文本行检测模型训练；3，文本行识别模型训练；4，证件分类模型训练)的详细阐述，这里不再赘述。

步骤102，采集证件文本的电子图像；

其中，证件文本可以包括证件类文本(例如身份证、护照、行驶证、营业执照、名片等)、票据类文本(例如医疗发票、保险单据等)。其中，证件类文本和票据类文本的载体可以是纸、塑料等等。

其中，在对证件文本进行电子图像的采集时，可以使用摄像头、扫描仪等等图像采集设备。

其中，这里所采集的证件文本的证件类型需是该图像信息提取装置支持的证件类型。例如上述实施例中制作的图像信息提取装置支持的证件类型包括身份证正面，身份证反面，营业执照，房产证。

那么本例中，例如采集的是一个用户A的身份证正面的电子图像。

步骤103，将预先经过训练的所述预设模型加载至AI芯片上；

其中，这里预先经过训练的模型即为上述图像信息提取装置的制作流程中经过训练后的三个模型。以图像采集设备为手机摄像头，图像信息提取装置为手机为例进行说明，本发明实施例可以开发一种专门用于图像信息提取的应用程序(APP，Application)，上述三个经过训练后的模型可以存储在该APP中，手机上安装有该APP，且配置有AI芯片。在未使用该APP进行图像信息提取时，该三个模型不会加载到AI芯片上。而当需要对采集的电子图像进行图像信息提取时，则本发明实施例的APP可以将包括三个经过训练的模型的文件加载到AI芯片上。

步骤104，将所述电子图像输入至所述预设模型中的每个模型；

其中，APP可以将摄像头采集的电子图像输入到已经加载至AI芯片的预设模型中的每个模型，即将该电子图像分别输入至文本行检测模型、文本行识别模型、证件分类模型中。

步骤105，控制所述AI芯片运行所述证件分类模型以对所述电子图像进行证件分类，确定所述电子图像的证件类型；

其中，对于输入至证件分类模型的电子图像，本发明实施例的方法可以控制AI芯片来运行该证件分类模型，从而使该证件分类模型来对该电子图像进行证件分类，最终确定该电子图像的证件类型。

其中，通过本步骤可以对电子图像进行证件类型分类，使得每种候选证件类型(即，该证件分类模型支持分类的证件类型，例如包括身份证正面，身份证反面，营业执照，房产证)都有一个得分。将得分最高的候选证件类型确定为该电子图像的证件类型。

步骤106，控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；

其中，在一个实施例中，在执行步骤106时，可以通过以下方式来实现：

控制所述AI芯片运行所述文本行检测模型以对输入至所述文本行检测模型的所述电子图像进行文本行检测，确定所述电子图像中的每个文本行的位置信息；

其中，经过训练后的文本行检测模型能够用于对输入的电子图像进行文本行位置的检测，因此，通过本步骤可以通过控制AI芯片来运行该文本行检测模型，使得该文本行检测模型能够对输入的电子图像进行文本行位置的检测，确定该电子图像中哪些位置具有文本行。这里，确定的位置信息，即为电子图像中各个文本行所在位置的位置参数。

控制所述AI芯片将所述电子图像中的所述每个文本行的位置信息输入至所述文本行识别模型；

本步骤中，为了使得文本行识别模型有针对性地、快速地对电子图像中有文本的部分区域进行内容识别，这里可以将文本行检测模型确定的每个文本行的位置信息输入至文本行识别模型。

控制所述AI芯片运行所述文本行识别模型以根据所述每个文本行的位置信息，对输入至所述文本行识别模型的所述电子图像进行内容识别，确定所述电子图像中不同位置的文本行的内容信息。

其中，经过训练后的文本行识别模型能够用于对输入的电子图像进行文本行内容的识别，那么通过控制AI芯片来运行该文本行识别模型，使得该文本行识别模型能够根据来自文本行检测模型的所述每个文本行的位置信息，来对输入该文本行识别模型的电子图像进行对应每个位置信息的文本行内容识别，确定该电子图像中由文本行检测模型所确定的各个位置处的文本行内容分别是什么。

这样，本发明实施例通过控制AI芯片对文本行检测模型进行运行，从而使得文本行检测模型对输入的电子图像进行准确的文本行位置检测，并将检测结果输入至文本行识别模型，同样控制AI芯片来对文本行识别模型进行运行，从而使得文本行识别模型能够对输入的电子图像进行各个位置的文本行内容的识别，提升了文本内容识别的准确性，而在文本行检测和识别过程中，两个模型均运行在AI芯片上，使得两个模型在运行过程中所使用的浮点计算被AI芯片优化，既提升了系统性能又降低了功耗，使得图像中文本的位置信息和各位置处的文本内容信息的提取的实时性、准确率和鲁棒性都得到提高。

步骤107，按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息；

其中，所谓结构化信息，即在该证件类型的电子图像中，用户感兴趣的条目信息。如身份证的条目信息可以包括姓名是什么，性别是什么，出生年月日是什么等等。

在一个实施例中，在执行步骤107时，可以通过基于关键词的匹配方式来实现，具体包括：

获取所述证件类型的预设条目类型；

例如经过上述流程的信息提取，可以确定采集到的证件文本的证件类型为身份证正面，那么本步骤中可以获取预设设置的属于身份证正面的用户关心的条目类型，例如该预设条目类型可以包括姓名、性别、住址。其中，该预设条目类型并不必须是属于该证件类型的所有条目类型，可以是用户关心的部分条目类型。

将所述预设条目类型与所述不同位置的文本行的内容信息进行匹配，确定所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容；

其中，由于经过文本行检测模型和文本行识别模型的识别处理已经确定出该电子图像中各个位置的文本内容是什么。例如位置1的文本内容为“姓名：张三”，位置2的文本内容为“性别：女”，例如位置3的文本内容为“住址：北京市朝阳区石佛营路XX小区1单元903”，例如位置4的文本内容为“出生1990年1月1日”。

那么将预设条目类型：姓名、性别、住址，分别与上述各个位置的文本内容进行匹配，就可以确定该身份证中包括的多个目标条目类型分别为姓名、性别和住址，以及每个目标条目类型对应的文本内容，即姓名的文本内容为“张三”，性别的文本内容为“女”，住址的文本内容为“北京市朝阳区石佛营路XX小区1单元903”。

其中，由于身份证中各种条目类型以及其文本内容在身份证证件上的布局是固定的，那么可以利用这种身份证信息的先验信息，来将身份证的预设条目类型与文本行识别模型所识别到的不同位置的文本行的内容信息进行匹配，从而确定识别到的各个位置的文本行的内容信息分别属于哪些条目类型，以及匹配到的每个条目类型所对应的文本内容。

其中，利用先验信息来确定与每个目标条目类型关联的文本内容属于已知技术，这里不再详述细节。

将所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容，确定为所述电子图像的结构化信息；

继续以上述举例来说，则这里的结构化信息包括：“姓名：张三”，“性别：女”，“住址：北京市朝阳区石佛营路XX小区1单元903”。

其中，这里的结构化信息中携带了条目类型，这个属于用户的个性化需求，是否携带条目类型均可。

或，

将所述电子图像所包含的每个目标条目类型对应的文本内容，确定为所述电子图像的结构化信息。

继续以上述举例来说，则这里的结构化信息包括：“张三”，“女”，“北京市朝阳区石佛营路XX小区1单元903”。

其中，这里的结构化信息中没有携带条目类型，这个属于用户的个性化需求，是否携带条目类型均可。

这样，本发明实施例通过将识别到的证件类型的预设条目类型与该被识别的证件文本的电子图像中不同位置的文本行的内容信息进行匹配，从而确定该证件文本在预设条目类型范围内所包含的目标条目类型，以及该目标条目类型对应的文本内容，最终以确定的这两种信息来确定该证件文本的结构化信息，使得对证件文本的结构化信息确定更加准确，且灵活性较高(因为预设条目类型是可以根据用户需求随时调整的)。

在另一个实施例中，在执行步骤107时，还可以通过基于深度学习的文本分类方法对电子图像中不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息。

具体而言，本发明实施例可以预先使用带有结构化信息标注的训练样本，来对基于深度学习的文本分类方法的模型进行训练，使得训练后的文本分类方法的模型能够对输入的文本内容识别出其包含哪些结构化信息。那么在执行步骤107时，就可以将文本识别模型识别到的不同位置的文本内容依次输入到该经过训练后的文本分类方法的模型中，使用该模型对每条文本内容进行结构化信息识别分类，最终确定该电子图像中所包括的结构化信息。

其中，在进行模型训练时，训练样本上所标注的结构化信息的条目类型可以预先设置。例如只使用“姓名”、“性别”和“住址”这三个条目类型来对该模型进行结构化信息的分类训练，使得训练后的模型只支持这三个条目类型的结构化信息的分类。那么用户可以根据自己的需要对模型训练用户所需的条目类型的结构化信息分类。

步骤108，输出所述电子图像的证件类型及所述结构化信息。

在本示例中，例如输出的结果可以包括：“身份证正面”(属于证件类型)；“张三”，“女”，“北京市朝阳区石佛营路XX小区1单元903”(属于结构化信息)。

或者，输出的结果可以包括：“身份证正面”(属于证件类型)；“姓名：张三”，“性别：女”，“住址：北京市朝阳区石佛营路XX小区1单元903”(属于结构化信息)。

这样，本发明实施例通过使用AI芯片来运行证件分类模型、文本行检测模型和文本行识别模型，从而对采集的证件文本的电子图像自动识别出证件类型以及所需的结构化信息，便于对证件文本的信息自动化录入，在这个过程中，由于证件分类模型、文本行检测模型和文本行识别模型中的浮点计算较多，而使用AI芯片运行上述三个模型，从而使得浮点计算得到优化，既提升了系统性能又降低了功耗，使得图像信息的提取的实时性、准确率和鲁棒性都得到提高。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图2，示出了本发明一种图像信息提取装置实施例的结构框图，所述图像信息提取装置包括AI芯片21和预先经过训练的预设模型22，所述图像信息提取装置还包括：

训练模块23，用于根据训练样本离线训练基于深度学习算法的预设模型22，其中，所述预设模型22包括文本行检测模型221、文本行识别模型222、证件分类模型223；

图像采集模块24，用于采集证件文本的电子图像；

加载模块25，用于将预先经过训练的所述预设模型22加载至AI芯片21上；

输入模块26，用于将所述电子图像输入至所述预设模型22中的每个模型；

第一控制模块27，用于控制所述AI芯片21运行所述证件分类模型223以对所述电子图像进行证件分类，确定所述电子图像的证件类型；

第二控制模块28，用于控制所述AI芯片21依次运行所述文本行检测模型221和所述文本行识别模型222以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；

识别处理模块29，用于按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息；

输出模块30，用于输出所述电子图像的证件类型及所述结构化信息。

可选地，所述第二控制模块28包括：

第一控制子模块，用于控制所述AI芯片21运行所述文本行检测模型221以对输入至所述文本行检测模型221的所述电子图像进行文本行检测，确定所述电子图像中的每个文本行的位置信息；

第二控制子模块，用于控制所述AI芯片21将所述电子图像中的所述每个文本行的位置信息输入至所述文本行识别模型222；

第三控制子模块，用于控制所述AI芯片21运行所述文本行识别模型222以根据所述每个文本行的位置信息，对输入至所述文本行识别模型222的所述电子图像进行内容识别，确定所述电子图像中不同位置的文本行的内容信息。

可选地，所述识别处理模块29包括：

获取子模块，用于获取所述证件类型的预设条目类型；

匹配子模块，用于将所述预设条目类型与所述不同位置的文本行的内容信息进行匹配，确定所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容；

第一确定子模块，用于将所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容，确定为所述电子图像的结构化信息；或，

第二确定子模块，用于将所述电子图像所包含的每个目标条目类型对应的文本内容，确定为所述电子图像的结构化信息。

本发明实施例的图像信息提取装置集成了AI芯片，可以将基于深度学习算法的文本行检测和文本行识别算法、图像分类算法移植其上面，使得上述三种深度学习算法的速度加快，并能够在采集图像的同时完成证件的自动分类和所需的结构化信息提取的功能，在实时性，正确率，鲁棒性上都远远超过传统OCR方法。

此外，本发明实施例的图像信息提取装置可用于大多数场景下的实时结构化信息自动录入，如身份证等证件的信息录入，医疗门诊等票据的纸质文档电子化。此设备能够完成文本图像自动分类和信息提取的功能，能够满足OCR商业市场上的大多数结构化信息自动提取的需求。

本发明实施例还提供一种移动终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述图像信息提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述图像信息提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种图像信息提取方法和一种图像信息提取装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像信息提取方法，其特征在于，应用于具有AI芯片的图像采集设备，包括：

根据训练样本离线训练基于深度学习算法的预设模型，其中，所述预设模型包括文本行检测模型、文本行识别模型、证件分类模型；所述训练样本包括多张合成文本图像，所述合成文本图像由预先获得的背景图与文本行合成而来；所述训练样本包括有对所述合成文本图像中的文本行在图像中的位置的记录；

采集证件文本的电子图像；所述证件文本包括身份证；

将预先经过训练的所述预设模型加载至所述AI芯片上；

将所述电子图像输入至所述预设模型中的每个模型；

控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；其中，包括：控制所述AI芯片运行所述文本行检测模型以对输入至所述文本行检测模型的所述电子图像进行文本行检测，确定所述电子图像中的每个文本行的位置信息

输出所述电子图像的证件类型及所述结构化信息；

其中，所述按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息，包括：

获取所述证件类型的预设条目类型；所述证件文本的各种条目类型以及其文本内容在所述证件文本上的布局是固定的；

将所述预设条目类型与所述不同位置的文本行的内容信息进行匹配，确定所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容，包括：

根据所述布局，将所述多个预设条目类型与所述不同位置的文本行的内容信息进行匹配，以确定所述不同位置的文本行的内容信息分别属于的目标条目类型，进而确定所述电子图像的结构化信息，所述结构化信息包括所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容。

2.根据权利要求1所述的方法，其特征在于，所述控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息，包括：

将所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容，确定为所述电子图像的结构化信息；或，

4.一种图像信息提取装置，其特征在于，所述图像信息提取装置包括AI芯片和预先经过训练的预设模型，所述图像信息提取装置还包括：所述图像信息提取装置是具有AI芯片的图像采集设备；

训练模块，用于根据训练样本离线训练基于深度学习算法的预设模型，其中，所述预设模型包括文本行检测模型、文本行识别模型、证件分类模型；所述训练样本包括多张合成文本图像，所述合成文本图像由预先获得的背景图与文本行合成而来；所述训练样本包括有对所述合成文本图像中的文本行在图像中的位置的记录；

图像采集模块，用于采集证件文本的电子图像；所述证件文本为身份证；

加载模块，用于将预先经过训练的所述预设模型加载至所述AI芯片上；

第二控制模块，用于控制所述AI芯片依次运行所述文本行检测模型和所述文本行识别模型以对所述电子图像进行文本识别，确定所述电子图像的不同位置的文本行的内容信息；其中，所述第二控制模块包括：第一控制子模块，用于控制所述AI芯片运行所述文本行检测模型以对输入至所述文本行检测模型的所述电子图像进行文本行检测，确定所述电子图像中的每个文本行的位置信息；

识别处理模块，用于按照预设算法对所述不同位置的文本行的内容信息进行识别处理，确定所述电子图像的结构化信息；输出模块，用于输出所述电子图像的证件类型及所述结构化信息；

其中所述识别处理模块包括：获取子模块，用于获取所述证件类型的预设条目类型；所述证件文本的各种条目类型以及其文本内容在所述证件文本上的布局是固定的；

其中所述匹配子模块具体用于根据所述布局，将所述多个预设条目类型与所述不同位置的文本行的内容信息进行匹配，以确定所述不同位置的文本行的内容信息分别属于的目标条目类型，进而确定所述电子图像的结构化信息，所述结构化信息包括所述电子图像所包含的多个目标条目类型，以及每个目标条目类型对应的文本内容。

5.根据权利要求4所述的装置，其特征在于，所述第二控制模块包括：

第二控制子模块，用于控制所述AI芯片将所述电子图像中的所述每个文本行的位置信息输入至所述文本行识别模型；

第三控制子模块，用于控制所述AI芯片运行所述文本行识别模型以根据所述每个文本行的位置信息，对输入至所述文本行识别模型的所述电子图像进行内容识别，确定所述电子图像中不同位置的文本行的内容信息。

6.根据权利要求4所述的装置，其特征在于，所述识别处理模块包括：

7.一种移动终端，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的图像信息提取方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的图像信息提取方法中的步骤。