CN111814576A

CN111814576A - 一种基于深度学习的购物小票图片识别方法

Info

Publication number: CN111814576A
Application number: CN202010536734.7A
Authority: CN
Inventors: 谷维鑫
Original assignee: Shanghai Pinlan Data Technology Co ltd
Current assignee: Shanghai Pinlan Data Technology Co ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-23

Abstract

本发明公开了一种基于深度学习的购物小票图片识别方法，涉及人工智能识别技术领域。本发明方法步骤包括：S1、获取购物小票的图像；S2、采用目标检测模型检测购物小票图像，判断购物小票区域是否存在；S3、判断文本实例区域是否存在；S4、识别一个或多个文本实例区域图像，获取文本识别结果；S5、对一个或多个文本实例区域按行、列等信息进行排序划分；S6、对关键信息进行后续的规则审判；S7、对整个过程的动作结果进行统计分析。本发明主要应用于购物小票图片的识别审核，有利于简化处理过程，方便使用，且满足复杂场景下的购物小票等的图片文字识别的需求。

Description

一种基于深度学习的购物小票图片识别方法

技术领域

本发明属于人工智能识别技术领域，特别是涉及一种基于深度学习的购物小票图片识别方法。

背景技术

现有的应用于购物小票识别方法主要是通过传统OCR技术来实现的，具体包括下列步骤：(1)对图片进行二值化,统计色值数量,将色值数量最多的颜色做为背景色；(2)对图片按行切分；(3)对切分后的每一行沿空白像素纵向切分,得到一个或多个字符区域；(4)将每个字符区域生成一张字符图片,将每个字符图片缩放为一个特定尺寸的图片；(5)提取每个字符图片的字符图片特征；(6)依据字符图片特征进行字符查询,获得相应的字符,字符查询以特征数据库为数据基础,所述特征数据库为体现字符图片特征与相应字符映射关系的数据库；(7)将查询获得的字符顺序排列,形成初步的文字识别结果。

由于现有技术的实现主要是通过传统OCR技术，这种基于数字图像处理和传统机器学习等方法，需要对图像进行去噪，二值化等处理和特征提取。处理过程复杂繁琐，其中一些处理过程还需要对不同场景调整阈值。对图片要求较高。常用的二值化处理有利于增强简单场景的文本信息，但对于复杂背景二值化的收效甚微。传统OCR方法上采用HoG对图像进行特征提取，然而HoG对于图像模糊、扭曲等问题鲁棒性很差，对于复杂场景泛化能力不佳。因此对于上述问题，提供一种基于深度学习的购物小票图片识别方法具有重要意义。

发明内容

本发明目的是提出一种基于深度学习的购物小票识别方法，有利于简化处理过程，方便使用，且满足复杂场景下的购物小票等的图片文字识别的需求。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的一种基于深度学习的购物小票图片识别方法，包括如下步骤：

S1、获取待检测的购物小票的图像；

S2、采用基于深度学习的目标检测模型检测购物小票图像，判断购物小票区域是否存在，若存在则记录此条标志为1，提取购物小票区域并进入下一步骤；若不存在则记录此条标志为0，并保存相关图片，进入统计分析流程S7；

S3、获取购物小票区域图像，采用基于深度学习的文本检测模型检测购物小票区域图像，判断文本实例区域是否存在，若存在则记录此条标志为1，提取一个或多个文本实例区域，以及文本实例的目标检测框的信息并进入下一步骤；若不存在则记录此条标志为0，并保存相关图片，进入统计分析流程S7；

S4、采用基于深度学习的文本识别模型依次识别一个或多个文本实例区域图像，获取文本识别结果；具体为：获取文本实例区域图像，然后识别文本实例区域图像，根据识别文本实例区域图像处理文本识别结果，判断文本识别结果是否符合审核规则，若符合则记录此条标志为1并进入下一步骤；若不符合，则记录该条标志为0，并保存相关图片，进入统计分析流程S7；

S5、根据文本实例区域目标检测框的的中心点坐标，对一个或多个文本实例区域按行、列等信息进行排序划分；

S6、遍历按行、列划分后的文本识别结果，根据关键字进行文本匹配，提取所需的关键信息，并对关键信息进行后续的规则审判，若满足相关规则，则记录此条标志为1；若不满足则记录此条标志为0，进入统计分析流程S7；

S7、对整个过程的动作结果进行统计分析，记录标志位全部为1，则购物小票审核通过，若存在标志0，则购物小票审核不通过；同时，根据标志0出现的位置获取校验不通过的原因及问题图片。

进一步地，所述步骤S2中目标检测模型通过如下步骤获得：

S21、获取不同角度、光照和图像质量的购物小票图像；

S22、采用带有旋转角度的矩形框标记购物小票区域所在位置；

S23、使用所述目标区域图像训练目标检测深度神经网络模型，获得目标检测模型。

进一步地，所述步骤S3中文本检测模型通过如下步骤获得：

S31、获取不同角度、光照和图像质量的购物小票区域图像；

S32、采用四边形标记文本实例区域所在位置；

S33、使用所述目标区域图像训练文本检测深度神经网络模型，获得文本检测模型。

进一步地，所述步骤S4中文本识别模型通过如下步骤获得：

S41、获取不同角度、光照和图像质量的文本实例区域图像；

S42、文本实例区域内的文本信息进行标注；

S43、使用所述标注的文本实例区域图像训练文本识别深度神经网络模型，获得文本识别模型。

本发明相对于现有技术包括有以下有益效果：

本发明主要应用于购物小票图片的识别审核，有利于简化处理过程，方便使用，且满足复杂场景下的购物小票等的图片文字识别的需求。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于深度学习的购物小票图片识别方法整体流程图；

图2为图1中目标检测模型获取的步骤图；

图3为图1中文本检测模型获取的步骤图；

图4为图1中文本识别模型获取的步骤图；

图5为基于深度学习的购物小票图片识别方法的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明主要基于检测模块、识别模块、审核模块。结构示意图如图5所示。

检测模块有目标检测单元、文本检测单元构成。其中，目标检测单元的具体检测方法包括：检测模块首先将购物小票图像输入到目标检测模型，得到N个一维数组[class，score，x，y，width，height]，数组第一个元素代表对象类别，是购物小票区域则为1，不是则为0，数组第二个元素代表分数，数组后四个元素表征目标对象所在矩形区域，x,y代表矩形左上角点坐标，width代表矩形宽度，height代表矩形高度。每个数组均对应一个购物小票目标，以分数最大的数组作为目标检测单元的输出，然后通过矩形框位置信息从购物小票图像中提取购物小票区域图像，通过这样的处理有效避免了多余背景信息的干扰，提升文本实例检测和文本识别的准确率。

如图2所示，目标检测模型获取方法如下：

S21、训练数据准备：获取不同自然光照、不同角度拍摄的购物小票图像。

S22、数据标注：采用矩形框将购物小票区域在购物小票图像中标出；

S23、模型训练：采用标注好的训练数据，训练基于深度学习网络的目标检测模型(公知常识,兹不赘述)；

文本检测单元的具体检测方法包括：将购物小票区域图像输入到文本检测模型，得到N个一维数组，每个数组均对应一个文本实例目标，然后通过目标位置信息从购物小票区域图像中提取文本实例区域图像。

如图3所示，文本检测模型获取方法如下：

S31、训练数据准备：获取不同角度、光照和图像质量的购物小票区域图像；

S32、数据标注：采用四边形标记文本实例区域所在位置出；

S32、模型训练：采用标注好的训练数据，训练基于深度学习网络的文本检测模型；模型使用PSENet网络结构，以resnet作为基网络，初始参数设定如下：学习率为0.001，使用Adam优化策略。

识别模块有文本识别单元构成，其中文本识别单元的具体识别方法包括：将文本实例区域图像输入到文本识别模型得到。

如图4所示，文本识别模型获取方法如下：

S41、训练数据准备：获取不同角度、光照和图像质量的文本实例区域图像；

S42、数据标注：文本实例区域内的文本信息进行标注；

S43、模型训练：采用标注好的训练数据，训练基于深度学习网络的文本识别模型(公知常识,兹不赘述)；

本发明购物小票识别方法的实施具体流程如图1所示，一种基于深度学习的购物小票识别方法，包括如下步骤：

S1、获取待检测的购物小票的图像；

本发明相对于现有技术具有有益效果包括：

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于深度学习的购物小票图片识别方法，其特征在于，包括如下步骤：

S1、获取待检测的购物小票的图像；

2.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法，其特征在于，所述步骤S2中目标检测模型通过如下步骤获得：

S21、获取不同角度、光照和图像质量的购物小票图像；

3.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法，其特征在于，所述步骤S3中文本检测模型通过如下步骤获得：

S31、获取不同角度、光照和图像质量的购物小票区域图像；

S32、采用四边形标记文本实例区域所在位置；

4.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法，其特征在于，所述步骤S4中文本识别模型通过如下步骤获得：

S41、获取不同角度、光照和图像质量的文本实例区域图像；

S42、文本实例区域内的文本信息进行标注；