CN111814576A - 一种基于深度学习的购物小票图片识别方法 - Google Patents
一种基于深度学习的购物小票图片识别方法 Download PDFInfo
- Publication number
- CN111814576A CN111814576A CN202010536734.7A CN202010536734A CN111814576A CN 111814576 A CN111814576 A CN 111814576A CN 202010536734 A CN202010536734 A CN 202010536734A CN 111814576 A CN111814576 A CN 111814576A
- Authority
- CN
- China
- Prior art keywords
- text
- shopping receipt
- area
- image
- shopping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Abstract
本发明公开了一种基于深度学习的购物小票图片识别方法,涉及人工智能识别技术领域。本发明方法步骤包括:S1、获取购物小票的图像;S2、采用目标检测模型检测购物小票图像,判断购物小票区域是否存在;S3、判断文本实例区域是否存在;S4、识别一个或多个文本实例区域图像,获取文本识别结果;S5、对一个或多个文本实例区域按行、列等信息进行排序划分;S6、对关键信息进行后续的规则审判;S7、对整个过程的动作结果进行统计分析。本发明主要应用于购物小票图片的识别审核,有利于简化处理过程,方便使用,且满足复杂场景下的购物小票等的图片文字识别的需求。
Description
技术领域
本发明属于人工智能识别技术领域,特别是涉及一种基于深度学习的购物小票图片识别方法。
背景技术
现有的应用于购物小票识别方法主要是通过传统OCR技术来实现的,具体包括下列步骤:(1)对图片进行二值化,统计色值数量,将色值数量最多的颜色做为背景色;(2)对图片按行切分;(3)对切分后的每一行沿空白像素纵向切分,得到一个或多个字符区域;(4)将每个字符区域生成一张字符图片,将每个字符图片缩放为一个特定尺寸的图片;(5)提取每个字符图片的字符图片特征;(6)依据字符图片特征进行字符查询,获得相应的字符,字符查询以特征数据库为数据基础,所述特征数据库为体现字符图片特征与相应字符映射关系的数据库;(7)将查询获得的字符顺序排列,形成初步的文字识别结果。
由于现有技术的实现主要是通过传统OCR技术,这种基于数字图像处理和传统机器学习等方法,需要对图像进行去噪,二值化等处理和特征提取。处理过程复杂繁琐,其中一些处理过程还需要对不同场景调整阈值。对图片要求较高。常用的二值化处理有利于增强简单场景的文本信息,但对于复杂背景二值化的收效甚微。传统OCR方法上采用HoG对图像进行特征提取,然而HoG对于图像模糊、扭曲等问题鲁棒性很差,对于复杂场景泛化能力不佳。因此对于上述问题,提供一种基于深度学习的购物小票图片识别方法具有重要意义。
发明内容
本发明目的是提出一种基于深度学习的购物小票识别方法,有利于简化处理过程,方便使用,且满足复杂场景下的购物小票等的图片文字识别的需求。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明的一种基于深度学习的购物小票图片识别方法,包括如下步骤:
S1、获取待检测的购物小票的图像;
S2、采用基于深度学习的目标检测模型检测购物小票图像,判断购物小票区域是否存在,若存在则记录此条标志为1,提取购物小票区域并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S3、获取购物小票区域图像,采用基于深度学习的文本检测模型检测购物小票区域图像,判断文本实例区域是否存在,若存在则记录此条标志为1,提取一个或多个文本实例区域,以及文本实例的目标检测框的信息并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S4、采用基于深度学习的文本识别模型依次识别一个或多个文本实例区域图像,获取文本识别结果;具体为:获取文本实例区域图像,然后识别文本实例区域图像,根据识别文本实例区域图像处理文本识别结果,判断文本识别结果是否符合审核规则,若符合则记录此条标志为1并进入下一步骤;若不符合,则记录该条标志为0,并保存相关图片,进入统计分析流程S7;
S5、根据文本实例区域目标检测框的的中心点坐标,对一个或多个文本实例区域按行、列等信息进行排序划分;
S6、遍历按行、列划分后的文本识别结果,根据关键字进行文本匹配,提取所需的关键信息,并对关键信息进行后续的规则审判,若满足相关规则,则记录此条标志为1;若不满足则记录此条标志为0,进入统计分析流程S7;
S7、对整个过程的动作结果进行统计分析,记录标志位全部为1,则购物小票审核通过,若存在标志0,则购物小票审核不通过;同时,根据标志0出现的位置获取校验不通过的原因及问题图片。
进一步地,所述步骤S2中目标检测模型通过如下步骤获得:
S21、获取不同角度、光照和图像质量的购物小票图像;
S22、采用带有旋转角度的矩形框标记购物小票区域所在位置;
S23、使用所述目标区域图像训练目标检测深度神经网络模型,获得目标检测模型。
进一步地,所述步骤S3中文本检测模型通过如下步骤获得:
S31、获取不同角度、光照和图像质量的购物小票区域图像;
S32、采用四边形标记文本实例区域所在位置;
S33、使用所述目标区域图像训练文本检测深度神经网络模型,获得文本检测模型。
进一步地,所述步骤S4中文本识别模型通过如下步骤获得:
S41、获取不同角度、光照和图像质量的文本实例区域图像;
S42、文本实例区域内的文本信息进行标注;
S43、使用所述标注的文本实例区域图像训练文本识别深度神经网络模型,获得文本识别模型。
本发明相对于现有技术包括有以下有益效果:
本发明主要应用于购物小票图片的识别审核,有利于简化处理过程,方便使用,且满足复杂场景下的购物小票等的图片文字识别的需求。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于深度学习的购物小票图片识别方法整体流程图;
图2为图1中目标检测模型获取的步骤图;
图3为图1中文本检测模型获取的步骤图;
图4为图1中文本识别模型获取的步骤图;
图5为基于深度学习的购物小票图片识别方法的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明主要基于检测模块、识别模块、审核模块。结构示意图如图5所示。
检测模块有目标检测单元、文本检测单元构成。其中,目标检测单元的具体检测方法包括:检测模块首先将购物小票图像输入到目标检测模型,得到N个一维数组[class,score,x,y,width,height],数组第一个元素代表对象类别,是购物小票区域则为1,不是则为0,数组第二个元素代表分数,数组后四个元素表征目标对象所在矩形区域,x,y代表矩形左上角点坐标,width代表矩形宽度,height代表矩形高度。每个数组均对应一个购物小票目标,以分数最大的数组作为目标检测单元的输出,然后通过矩形框位置信息从购物小票图像中提取购物小票区域图像,通过这样的处理有效避免了多余背景信息的干扰,提升文本实例检测和文本识别的准确率。
如图2所示,目标检测模型获取方法如下:
S21、训练数据准备:获取不同自然光照、不同角度拍摄的购物小票图像。
S22、数据标注:采用矩形框将购物小票区域在购物小票图像中标出;
S23、模型训练:采用标注好的训练数据,训练基于深度学习网络的目标检测模型(公知常识,兹不赘述);
文本检测单元的具体检测方法包括:将购物小票区域图像输入到文本检测模型,得到N个一维数组,每个数组均对应一个文本实例目标,然后通过目标位置信息从购物小票区域图像中提取文本实例区域图像。
如图3所示,文本检测模型获取方法如下:
S31、训练数据准备:获取不同角度、光照和图像质量的购物小票区域图像;
S32、数据标注:采用四边形标记文本实例区域所在位置出;
S32、模型训练:采用标注好的训练数据,训练基于深度学习网络的文本检测模型;模型使用PSENet网络结构,以resnet作为基网络,初始参数设定如下:学习率为0.001,使用Adam优化策略。
识别模块有文本识别单元构成,其中文本识别单元的具体识别方法包括:将文本实例区域图像输入到文本识别模型得到。
如图4所示,文本识别模型获取方法如下:
S41、训练数据准备:获取不同角度、光照和图像质量的文本实例区域图像;
S42、数据标注:文本实例区域内的文本信息进行标注;
S43、模型训练:采用标注好的训练数据,训练基于深度学习网络的文本识别模型(公知常识,兹不赘述);
本发明购物小票识别方法的实施具体流程如图1所示,一种基于深度学习的购物小票识别方法,包括如下步骤:
S1、获取待检测的购物小票的图像;
S2、采用基于深度学习的目标检测模型检测购物小票图像,判断购物小票区域是否存在,若存在则记录此条标志为1,提取购物小票区域并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S3、获取购物小票区域图像,采用基于深度学习的文本检测模型检测购物小票区域图像,判断文本实例区域是否存在,若存在则记录此条标志为1,提取一个或多个文本实例区域,以及文本实例的目标检测框的信息并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S4、采用基于深度学习的文本识别模型依次识别一个或多个文本实例区域图像,获取文本识别结果;具体为:获取文本实例区域图像,然后识别文本实例区域图像,根据识别文本实例区域图像处理文本识别结果,判断文本识别结果是否符合审核规则,若符合则记录此条标志为1并进入下一步骤;若不符合,则记录该条标志为0,并保存相关图片,进入统计分析流程S7;
S5、根据文本实例区域目标检测框的的中心点坐标,对一个或多个文本实例区域按行、列等信息进行排序划分;
S6、遍历按行、列划分后的文本识别结果,根据关键字进行文本匹配,提取所需的关键信息,并对关键信息进行后续的规则审判,若满足相关规则,则记录此条标志为1;若不满足则记录此条标志为0,进入统计分析流程S7;
S7、对整个过程的动作结果进行统计分析,记录标志位全部为1,则购物小票审核通过,若存在标志0,则购物小票审核不通过;同时,根据标志0出现的位置获取校验不通过的原因及问题图片。
本发明相对于现有技术具有有益效果包括:
本发明主要应用于购物小票图片的识别审核,有利于简化处理过程,方便使用,且满足复杂场景下的购物小票等的图片文字识别的需求。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种基于深度学习的购物小票图片识别方法,其特征在于,包括如下步骤:
S1、获取待检测的购物小票的图像;
S2、采用基于深度学习的目标检测模型检测购物小票图像,判断购物小票区域是否存在,若存在则记录此条标志为1,提取购物小票区域并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S3、获取购物小票区域图像,采用基于深度学习的文本检测模型检测购物小票区域图像,判断文本实例区域是否存在,若存在则记录此条标志为1,提取一个或多个文本实例区域,以及文本实例的目标检测框的信息并进入下一步骤;若不存在则记录此条标志为0,并保存相关图片,进入统计分析流程S7;
S4、采用基于深度学习的文本识别模型依次识别一个或多个文本实例区域图像,获取文本识别结果;具体为:获取文本实例区域图像,然后识别文本实例区域图像,根据识别文本实例区域图像处理文本识别结果,判断文本识别结果是否符合审核规则,若符合则记录此条标志为1并进入下一步骤;若不符合,则记录该条标志为0,并保存相关图片,进入统计分析流程S7;
S5、根据文本实例区域目标检测框的的中心点坐标,对一个或多个文本实例区域按行、列等信息进行排序划分;
S6、遍历按行、列划分后的文本识别结果,根据关键字进行文本匹配,提取所需的关键信息,并对关键信息进行后续的规则审判,若满足相关规则,则记录此条标志为1;若不满足则记录此条标志为0,进入统计分析流程S7;
S7、对整个过程的动作结果进行统计分析,记录标志位全部为1,则购物小票审核通过,若存在标志0,则购物小票审核不通过;同时,根据标志0出现的位置获取校验不通过的原因及问题图片。
2.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法,其特征在于,所述步骤S2中目标检测模型通过如下步骤获得:
S21、获取不同角度、光照和图像质量的购物小票图像;
S22、采用带有旋转角度的矩形框标记购物小票区域所在位置;
S23、使用所述目标区域图像训练目标检测深度神经网络模型,获得目标检测模型。
3.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法,其特征在于,所述步骤S3中文本检测模型通过如下步骤获得:
S31、获取不同角度、光照和图像质量的购物小票区域图像;
S32、采用四边形标记文本实例区域所在位置;
S33、使用所述目标区域图像训练文本检测深度神经网络模型,获得文本检测模型。
4.根据权利要求1所述的一种基于深度学习的购物小票图片识别方法,其特征在于,所述步骤S4中文本识别模型通过如下步骤获得:
S41、获取不同角度、光照和图像质量的文本实例区域图像;
S42、文本实例区域内的文本信息进行标注;
S43、使用所述标注的文本实例区域图像训练文本识别深度神经网络模型,获得文本识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536734.7A CN111814576A (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度学习的购物小票图片识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536734.7A CN111814576A (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度学习的购物小票图片识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814576A true CN111814576A (zh) | 2020-10-23 |
Family
ID=72845053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536734.7A Pending CN111814576A (zh) | 2020-06-12 | 2020-06-12 | 一种基于深度学习的购物小票图片识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814576A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112541504A (zh) * | 2020-12-11 | 2021-03-23 | 上海品览数据科技有限公司 | 一种针对文本中单个字符目标的检测方法 |
CN113743393A (zh) * | 2020-11-17 | 2021-12-03 | 广州市科传计算机科技股份有限公司 | 一种基于人工智能的销售小票校验方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447076A (zh) * | 2018-09-20 | 2019-03-08 | 上海眼控科技股份有限公司 | 一种用于车辆年检的车辆vin码识别检测方法 |
CN109460725A (zh) * | 2018-10-29 | 2019-03-12 | 苏州派维斯信息科技有限公司 | 小票消费明细内容融合及提取方法 |
CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
CN109784326A (zh) * | 2018-11-27 | 2019-05-21 | 上海眼控科技股份有限公司 | 一种基于深度学习的车辆底盘检测方法 |
-
2020
- 2020-06-12 CN CN202010536734.7A patent/CN111814576A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447076A (zh) * | 2018-09-20 | 2019-03-08 | 上海眼控科技股份有限公司 | 一种用于车辆年检的车辆vin码识别检测方法 |
CN109460725A (zh) * | 2018-10-29 | 2019-03-12 | 苏州派维斯信息科技有限公司 | 小票消费明细内容融合及提取方法 |
CN109784326A (zh) * | 2018-11-27 | 2019-05-21 | 上海眼控科技股份有限公司 | 一种基于深度学习的车辆底盘检测方法 |
CN109766893A (zh) * | 2019-01-09 | 2019-05-17 | 北京数衍科技有限公司 | 适于购物小票的图片文字识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743393A (zh) * | 2020-11-17 | 2021-12-03 | 广州市科传计算机科技股份有限公司 | 一种基于人工智能的销售小票校验方法 |
CN112396459A (zh) * | 2020-11-19 | 2021-02-23 | 上海源慧信息科技股份有限公司 | 一种用于购物凭证核销的云审核方法 |
CN112541504A (zh) * | 2020-12-11 | 2021-03-23 | 上海品览数据科技有限公司 | 一种针对文本中单个字符目标的检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuliang et al. | Detecting curve text in the wild: New dataset and new solution | |
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
Odone et al. | Building kernels from binary strings for image matching | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN111325203A (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN111814576A (zh) | 一种基于深度学习的购物小票图片识别方法 | |
Krishnan et al. | Textstylebrush: transfer of text aesthetics from a single example | |
CN109740572A (zh) | 一种基于局部彩色纹理特征的人脸活体检测方法 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN106570510A (zh) | 一种超市商品识别方法 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
Ahmed et al. | A novel dataset for English-Arabic scene text recognition (EASTR)-42K and its evaluation using invariant feature extraction on detected extremal regions | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112446262A (zh) | 文本分析方法、装置、终端和计算机可读存储介质 | |
CN112686258A (zh) | 体检报告信息结构化方法、装置、可读存储介质和终端 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN109147002B (zh) | 一种图像处理方法和装置 | |
CN112541504A (zh) | 一种针对文本中单个字符目标的检测方法 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
CN112784932A (zh) | 一种字体识别方法、装置和存储介质 | |
CN110222660B (zh) | 一种基于动态与静态特征融合的签名鉴伪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |