CN116740733A - 基于压痕检测的已标记菜单识别方法及装置 - Google Patents
基于压痕检测的已标记菜单识别方法及装置 Download PDFInfo
- Publication number
- CN116740733A CN116740733A CN202310580717.7A CN202310580717A CN116740733A CN 116740733 A CN116740733 A CN 116740733A CN 202310580717 A CN202310580717 A CN 202310580717A CN 116740733 A CN116740733 A CN 116740733A
- Authority
- CN
- China
- Prior art keywords
- indentation
- image
- menu
- text
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007373 indentation Methods 0.000 title claims abstract description 206
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 235000013311 vegetables Nutrition 0.000 claims abstract description 18
- 238000003709 image segmentation Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 10
- 239000003086 colorant Substances 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007639 printing Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 241001125929 Trisopterus luscus Species 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于压痕检测的已标记菜单识别方法及装置。基于压痕检测的已标记菜单识别方法包括:获取已标记菜单图像;基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;框选出压痕图像中的各个压痕区域;基于文本检测识别模型对压痕区域和菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及菜单背景图像中的各个菜名,其中,压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名;输出各个压痕区域对应的菜名及菜品数量。本发明的方法提高了菜单标记内容识别的准确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于压痕检测的已标记菜单识别方法及装置。
背景技术
随着我国经济快速发展,人们的生活水平也不断得到了提高,但一些比较繁琐的工作还是由人工完成。在餐饮服务行业中,客户可以使用手机进行扫码点餐,但餐饮行业面对的客户是多种多样的,在众多人群中不乏有不会使用手机进行扫码点餐的客户,所以餐厅均保留有传统的菜单点餐方式。在一些单品较多的餐饮店,例如火锅店,每次员工将客人点的菜品录入系统需要花费很长时间,工作效率较低。
现有技术中的通过文字识别录入菜单的餐厅机器人,解决了人工录入菜单工作效率较低的问题,但是由于菜单的款式是多种多样的,客户做的标记也是多种多样或存在标记不清晰的问题,在使用机器识别过程中容易出现识别错误的情况。
因此,菜单标记内容识别的准确率较低。
发明内容
有鉴于此,本发明提供一种基于压痕检测的已标记菜单识别方法及装置,以解决上述问题。
根据本发明的第一方面,提供一种基于压痕检测的已标记菜单识别方法,其特征在于,包括:获取已标记菜单图像;基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;框选出压痕图像中的各个压痕区域;基于文本检测识别模型对压痕区域和菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及菜单背景图像中的各个菜名,其中,压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名;输出各个压痕区域对应的菜名及菜品数量。
在本发明的另一实现方式中,基于压痕检测的已标记菜单识别方法还包括:通过传感器监测摄像设备下方是否放置有菜单;若监测到摄像设备下方放置有菜单,则摄像设备和补光设备自动开始工作;获取已标记菜单图像,包括:基于摄像设备和补光设备,采集已标记菜单图像。
在本发明的另一实现方式中,基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像,包括:基于三维扫描的的压痕识别技术对已标记菜单图像进行识别处理,得到压痕识别结果;根据压痕识别结果进行图像分割处理,得到压痕图像和菜单背景图像。
在本发明的另一实现方式中,基于压痕检测的已标记菜单识别方法还包括:对压痕图像进行字符识别处理,得到字符识别结果,其中,字符识别结果包括文本、数字及特殊符号中的至少一项。
在本发明的另一实现方式中,框选出压痕图像中的各个压痕区域,包括:使用不同颜色,分别框选出压痕图像中的各个文本、数字及特殊符号对应的压痕区域。
在本发明的另一实现方式中,通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名,包括:通过交并比算法计算各个压痕区域和菜单背景图像中文本的位置信息,交并比算法公式如下:
其中,IOU为交并比,B1、B2分别为压痕区域和菜单背景图像中文本对应的区域;基于位置信息,确定各个压痕区域对应的菜名。
在本发明的另一实现方式中,输出各个压痕区域对应的菜名及菜品数量,包括:基于压痕图像中的数字识别结果,确定菜品数量;将菜名及菜品数量传输至厨房后台;厨房后台打印菜名及菜品数量。
根据本发明的第二方面,提供一种基于压痕检测的已标记菜单识别装置,其特征在于,包括:图像获取模块:用于获取已标记菜单图像;图像处理模块:基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;框选出压痕图像中的各个压痕区域;基于文本检测识别模型对压痕区域和菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及菜单背景图像中的各个菜名,其中,压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名;结果输出模块:用于输出各个压痕区域对应的菜名及菜品数量。
根据本发明的第三方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项基于压痕检测的已标记菜单识别方法的步骤。
根据本发明的第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项基于压痕检测的已标记菜单识别方法中的步骤。
在本发明的基于压痕检测的已标记菜单识别方法中,将已标记菜单图像中的压痕区域的图像及菜单背景图像单独提取出来,对压痕图像进行字符含义分析,使得到的字符含义更准确,由于菜单背景图像是从已标记菜单图像中提取得到的,对提取菜单背景图像进行文本识别,得到各个菜名,方便后续压痕区域与菜名可以很好的对应,通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,使得到的压痕区域对应的菜名更准确,在保证工作效率的同时,提高了菜单标记内容识别的准确率。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,通过阅读下文实施方式的详细描述,方案中的优点和益处对于本领域的技术人员变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1为本发明的一个实施例的基于压痕检测的已标记菜单识别方法的步骤流程图。
图2为本发明的另一实施例的采用的文字识别技术PP-OCRv3(文本识别技术)的流程示意图。
图3为本发明的另一实施例的基于压痕检测的已标记菜单识别装置的结构框图。
图4为本发明的另一实施例的电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
图1为本发明实施例提供的一种基于压痕检测的已标记菜单识别方法的步骤流程图,如图1所示,本实施例主要包括以下步骤:
S101、获取已标记菜单图像。
示例性地,用户根据需求对纸质菜单进行标记,标记好后可以通过餐厅的送餐机器人获取已标记菜单图像。
S102、基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像。
示例性地,利用压痕识别技术确定已标记菜单图像中的压痕区域,通过图像分割技术,对压痕区域和背景区域进行图像分割处理,分别得到压痕图像和菜单背景图像。
S103、框选出压痕图像中的各个压痕区域。
示例性地,根据不同用户需求,可以设置使用不同颜色及形状的框在压痕图像中框选出各个压痕区域。
S104、基于文本检测识别模型对压痕区域和菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及菜单背景图像中的各个菜名,其中,压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种。
示例性地,对压痕区域的字符和菜单背景图像中的文本进行检测识别时,可以采用PP-OCRv3(文本识别)技术,如图2所示,PP-OCRv3(文本识别)技术主要包括文本输入、文本检测、文本框矫正、文本识别和文本输出。
应理解的是,文本检测过程包括:将菜单背景图像输入到处理器中,处理器对菜单背景图像进行文本检测,框选出菜单背景图像中的文本区域。文本框矫正过程包括:由于检测出的菜单背景图像中的文本框位置可能发生倾斜,需要通过训练文本方向分类器来进行文本框的水平矫正,方便后面的文本识别。文本识别:将纠正好的菜单背景图像中的文本框进行文本识别。
压痕图像中的文本识别过程与菜单背景图像的文本识别过程相同,可以利用PP-OCRv3(文本识别)技术,识别出压痕图像中包含的文本含义、数字含义及特殊符号含义等。
对菜单图像进行文本识别时,采用PP-OCRv3技术框架。该技术在复杂环境下可以准确识别文本内容,识别效果较好。可以将此项技术结合菜单的数据进行训练,结合项目要求,部署到送餐机器人上,可以有效识别菜单文本,提高识别精度。
S105、通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名。
示例性地,通过交并比算法计算各个压痕区域和菜单背景图像中文本的位置信息,交并比算法公式如下:
其中,IOU为交并比,B1、B2分别为压痕区域和菜单背景图像中文本对应的区域。根据计算结果确定各个压痕区域对应的菜名。
S106、输出各个压痕区域对应的菜名及菜品数量。
示例性地,可以通过送菜机器人将各个压痕区域对应的菜名及菜品数量按固定格式输出到终端,再传输至厨房后台设备进行打印。
在本发明的基于压痕检测的已标记菜单识别方法中,将已标记菜单图像中的压痕区域的图像及菜单背景图像单独提取出来,对压痕图像进行字符含义分析,使得到的字符含义更准确,由于菜单背景图像是从已标记菜单图像中提取得到的,对提取菜单背景图像进行文本识别,得到各个菜名,方便后续压痕区域与菜名可以很好的对应,通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,使得到的压痕区域对应的菜名更准确,在保证工作效率的同时,提高了菜单标记内容识别的准确率。
在本发明的另一实现方式中,基于压痕检测的已标记菜单识别方法还包括:通过传感器监测摄像设备下方是否放置有菜单;若监测到摄像设备下方放置有菜单,则摄像设备和补光设备自动开始工作;获取已标记菜单图像,包括:基于摄像设备和补光设备,采集已标记菜单图像。
示例性地,送菜机器人上可以安装红外感应设备,用于感知摄像设备下方是否有物体存在,若有物体存在,自动打开补光灯和摄像设备,对已标记菜单数据进行收集。用红外感应技术可以达到节能环保的效果,摄像设备在提取图片时,采用补光的手段减少环境对图片特征的影响,用摄像设备拍下已标记菜单,并导入处理器。其中,红外感应设备、摄像设备及处理器均可以部署在送菜机器人上。
在本发明的另一实现方式中,基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像,包括:基于三维扫描的的压痕识别技术对已标记菜单图像进行识别处理,得到压痕识别结果;根据压痕识别结果进行图像分割处理,得到压痕图像和菜单背景图像。
示例性地,在处理器中通过三维扫描的笔迹压痕识别技术对已标记菜单进行处理,将压痕区域和原菜单背景区域进行分离,形成单独的压痕图像。使用三维扫描笔迹压痕,可以使压痕显现,进而得到笔迹压痕图像。利用此技术提取笔迹压痕信息,可以避免对客人做的符号标记进行分离时,受到菜单背景的干扰。
应理解的是,可以采用结构光法对菜单进行三维扫描,将光栅投向已标记菜单,其表面因受到笔迹压力影响而有凸凹不平现象,此现象使光栅产生畸变,会形成带有菜单表面轮廓信息的光栅图,由摄像设备摄取并保存为数字图像,经过图像处理,可以得到只有笔迹压痕的图片。使用了三维扫描笔迹压痕的技术,可以有效识别客户在菜单上做的笔迹,去除菜单背景所带来的干扰。
可选的,对已标记菜单进行压痕特征识别,判断是否存在数字以及√、×、O等特征符号,若存在数字以及√、×、O等特征符号,则继续执行S102步骤,若不存在数字以及√、×、O等特征符号,则执行S101步骤重新获取已标记菜单图像。
在本发明的另一实现方式中,基于压痕检测的已标记菜单识别方法还包括:对压痕图像进行字符识别处理,得到字符识别结果,其中,字符识别结果包括文本、数字及特殊符号中的至少一项。
示例性地,使用目标检测对压痕图片进行字符识别处理,识别出文本、数字以及√、×、O等特殊符号。
在本发明的另一实现方式中,框选出压痕图像中的各个压痕区域,包括:使用不同颜色,分别框选出压痕图像中的各个文本、数字及特殊符号对应的压痕区域。
示例性地,使用不同颜色,分别框选出压痕图像中的各个文本、数字及特殊符号对应的压痕区域。例如,可以使用红色框框选出√和O等特殊符号,使用绿色框框选数字,使用黄色框框选出文本内容等。
在本发明的另一实现方式中,通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名,包括:通过交并比算法计算各个压痕区域和菜单背景图像中文本的位置信息,交并比算法公式如下:
其中,IOU为交并比,B1、B2分别为压痕区域和菜单背景图像中文本对应的区域;基于位置信息,确定各个压痕区域对应的菜名。
示例性地,计算压痕图像中框选的压痕区域和菜单背景图像中的文字框在一起的比例,识别出正确的菜品,并输出菜名位置信息。
在本发明的另一实现方式中,输出各个压痕区域对应的菜名及菜品数量,包括:基于压痕图像中的数字识别结果,确定菜品数量;将菜名及菜品数量传输至厨房后台;厨房后台打印菜名及菜品数量。
示例性地,处理器基于压痕图像中的数字识别结果,确定菜品数量,将菜名及菜品数量传输至厨房后台,厨房后台打印菜名及菜品数量。
在本发明的另一种实现方式中,文本检测过程中框选出菜单背景图像中的文本区域,可以通过一个具有大感受野的PAN模块LK-PAN(Large Kernel PAN)、一个具有残差注意力机制的FPN结构RSE-FPN(Residual Squeeze-and-Excitation FPN),以及DML(DeepMutual Learning)蒸馏策略,对输入的菜单背景图像中文本区域进行框选。
其中,LK-PAN是一种具有较大感受野的轻量级PAN(Path Aggregation Network)模块。主要想法是将PAN结构的路径增强中的卷积核大小从3×3更改为9×9,这样可以提高特征图每个像素的接受域,使其更容易检测大字体和极端宽高比的文本。RSE-FPN通过将FPN中的卷积层替换为RSEConv来引入残差注意力机制,以提高特征图的表示能力。RSEConv由残差结构和Squeeze-and-Excitation(SE)块两部分组成,引入后可以有效的提高文本检测性能。DML可以通过两个结构相同的模型相互学习来有效提高文本检测模型的准确率。
文本框矫正过程中采用了四种策略:轻主干、数据增强、输入分辨率和PACT(Parameterized Clipping Activation)量化。
对于文本识别,该技术用轻量级文本识别网络SVTR当做骨架。通过SVTR-LCNet轻量级文本网络、GTC、挖掘文字上下文信息的数据增广策略TextConAug、自监督的预训练模型TextRotNet、UDML(Unified-Deep Mutual Learning)和UIM的方法去更好地预训练模型,以加速模型并提高有效性。
其中,SVTR-LCNet是轻量级文本识别网络,融合了基于transformer的网络SVTR和基于CNN的轻量级网络PP-LCNet,达到轻量化的效果。GTC是通过注意力指导CTC(Connectionist Temporal Classification)训练的策略。CTC解码器可以实现更快的预测速度,但精度较低。通过引入注意力机制对CTC训练进行,可以有效提高准确率。Text ConAug是一种挖掘文字上下文信息的数据增广策略。通过对batch中n张不同图片进行连接,提升数据的多样性。TextRotNet是用大量未标记的文本行数据,通过旋转不同角度以自监督方式进行训练得到的预训练模型,我们使用这个预训练模型对SVTR-LCNet的权值进行初始化,帮助文本识别模型更好地收敛。
应理解的是,UDML是一种联合互学习策略,在DML的基础上增加了Feature loss。由于采用的学生网络和教师网络是结构一致的,只有权重初始值不同,在对相同图片进行处理时,应得到相同的结果和特征映射,特征损失可以用来约束两种网络的中间特征映射距离,保持特征图对齐。通过对PP-LCNet的特征图输出、SVTR模块输出和Attention模块输出分别计算loss,可以再度提高菜单文本识别的精度。使用了UDML策略,其训练过程的总损失函数包括CTC loss、DML loss和Feature loss,公式如下所示:
losstotal=lossctc+lossdml+lossfeat
由于UDML采用的学生网络和教师网络都是从零开始训练的,CTC loss可以用于网络的收敛,公式如下:
lossctc=CTC(Shout,gt)+CTC(Thout,gt)
其中,Shout表示学生网络的头部输出,Thout表示教师网络的头部输出。gt给出输入图像的groundtruth标签。
由于希望两个网络的最终输出分布相同,因此需要DML loss来保证两个网络之间分布的一致性,使用KL散度计算两组概率之间的差距作为loss,公式如下:
其中,KL(p||q)表示p和q的KL散度。Spout和Tpout如下所示:
Spout=Softmax(Shout)
Tpout=Softmax(Thout)
在Feature loss中,由于两种网络的结构相同,所以它们的特征映射应该是相同的,特征损失可以用来约束两种网络的中间特征映射距离,公式如下所示:
lossfeat=L2(Sbout,Tbout)
其中,Sbout表示学生网络的骨干输出,Tbout表示教师网络的骨干输出。这里使用均方误差损失。
UIM是一种简单的未标记数据挖掘策略。其主要思想是利用高精度的文本识别模型对未标记的图像进行预测,获得伪标签,并选择预测置信度高的样本作为训练数据,训练轻量级模型。
采用超轻量级OCR系统PP-OCRv3技术,相较于传统OCR技术,该技术的有效性大大提高,能够更精准的识别字体特征。
根据本发明的第二方面,提供一种基于压痕检测的已标记菜单识别装置300,其特征在于,包括:
图像获取模块301:用于获取已标记菜单图像。
图像处理模块302:基于已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;框选出压痕图像中的各个压痕区域;基于文本检测识别模型对压痕区域和菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及菜单背景图像中的各个菜名,其中,压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;通过交并比算法对各个压痕区域和菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名。
结果输出模块303:用于输出各个压痕区域对应的菜名及菜品数量。
在本发明的基于压痕检测的已标记菜单识别装置300中,将已标记菜单图像中的压痕区域的图像及菜单背景图像单独提取出来,对压痕图像进行字符含义分析,使得到的字符含义更准确,由于菜单背景图像是从已标记菜单图像中提取得到的,对提取菜单背景图像进行文本识别,得到各个菜名,方便后续压痕区域与菜名可以很好的对应,通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,使得到的压痕区域对应的菜名更准确,在保证工作效率的同时,提高了菜单标记内容识别的准确率。
在本发明的另一实现方式中,图像获取模块301还用于通过传感器监测摄像设备下方是否放置有菜单;若监测到摄像设备下方放置有菜单,则摄像设备和补光设备自动开始工作;基于摄像设备和补光设备,采集已标记菜单图像。
在本发明的另一实现方式中,图像处理模块302还用于基于三维扫描的的压痕识别技术对已标记菜单图像进行识别处理,得到压痕识别结果;根据压痕识别结果进行图像分割处理,得到压痕图像和菜单背景图像。
在本发明的另一实现方式中,图像处理模块302还用于对压痕图像进行字符识别处理,得到字符识别结果,其中,字符识别结果包括文本、数字及特殊符号中的至少一项。
在本发明的另一实现方式中,图像处理模块302还用于使用不同颜色,分别框选出压痕图像中的各个文本、数字及特殊符号对应的压痕区域。
在本发明的另一实现方式中,图像处理模块302还用于通过交并比算法计算各个压痕区域和菜单背景图像中文本的位置信息,交并比算法公式如下:
其中,IOU为交并比,B1、B2分别为压痕区域和菜单背景图像中文本对应的区域;基于位置信息,确定各个压痕区域对应的菜名。
在本发明的另一实现方式中,结果输出模块303还用于基于压痕图像中的数字识别结果,确定菜品数量;将菜名及菜品数量传输至厨房后台;厨房后台打印菜名及菜品数量。
如图4所示,该电子设备400可以包括:处理器(processor)401、存储器(memory)403、以及通信总线404、通信接口(Communications Interface)405。
其中:
处理器401、存储器403以及通信接口405、通过通信总线404完成相互间的通信。
通信接口405,用于与其它电子设备或服务器进行通信。
处理器401,用于执行程序402,具体可以执行上述实施例中任一项基于压痕检测的已标记菜单识别方法的步骤。
具体地,程序402可以包括程序代码,该程序代码包括计算机操作指令。
处理器401可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器403,用于存放程序402。存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序402具体可以用于使得处理器401执行以实现实施例中所描述任一项基于压痕检测的已标记菜单识别方法的步骤。程序402中各步骤的具体实现可以参见上述步骤中任一项基于压痕检测的已标记菜单识别方法所执行的步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述。
本申请示例性实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请各实施例的方法。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
至此,已经对本发明的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
需要说明的是,本发明实施例中所有方向性指示(诸如上、下、左、右、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
在本发明的描述中,术语“第一”、“第二”仅用于方便描述不同的部件或名称,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
需要说明的是,虽然结合附图对本发明的具体实施例进行了详细地描述,但不应理解为对本发明的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属于本发明的保护范围。
本发明实施例的示例旨在简明地说明本发明实施例的技术特点,使得本领域技术人员能够直观了解本发明实施例的技术特点,并不作为本发明实施例的不当限定。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于压痕检测的已标记菜单识别方法,其特征在于,包括:
获取已标记菜单图像;
基于所述已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;
框选出所述压痕图像中的各个压痕区域;
基于文本检测识别模型对所述压痕区域和所述菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及所述菜单背景图像中的各个菜名,其中,所述压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;
通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名;
输出各个压痕区域对应的菜名及菜品数量。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过传感器监测摄像设备下方是否放置有菜单;
若监测到所述摄像设备下方放置有菜单,则所述摄像设备和补光设备自动开始工作;
所述获取已标记菜单图像,包括:
基于所述摄像设备和所述补光设备,采集已标记菜单图像。
3.根据权利要求1所述的方法,其特征在于,所述基于所述已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像,包括:
基于三维扫描的的压痕识别技术对所述已标记菜单图像进行识别处理,得到压痕识别结果;
根据所述压痕识别结果进行图像分割处理,得到压痕图像和菜单背景图像。
4.根据权利要求1所述的方法,其特征在于,还包括:
对所述压痕图像进行字符识别处理,得到字符识别结果,其中,所述字符识别结果包括文本、数字及特殊符号中的至少一项。
5.根据权利要求4所述的方法,其特征在于,所述框选出所述压痕图像中的各个压痕区域,包括:
使用不同颜色,分别框选出所述压痕图像中的各个文本、数字及特殊符号对应的压痕区域。
6.根据权利要求5所述的方法,其特征在于,所述通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名,包括:
通过交并比算法计算各个压痕区域和所述菜单背景图像中文本的位置信息,交并比算法公式如下:
其中,IOU为交并比,B1、B2分别为压痕区域和菜单背景图像中文本对应的区域;
基于所述位置信息,确定各个压痕区域对应的菜名。
7.根据权利要求4所述的方法,其特征在于,所述输出各个压痕区域对应的菜名及菜品数量,包括:
基于所述压痕图像中的数字识别结果,确定所述菜品数量;
将所述菜名及菜品数量传输至厨房后台;
所述厨房后台打印所述菜名及菜品数量。
8.一种基于压痕检测的已标记菜单识别装置,其特征在于,包括:
图像获取模块:用于获取已标记菜单图像;
图像处理模块:基于所述已标记菜单图像中的压痕进行图像分割处理,得到压痕图像和菜单背景图像;框选出所述压痕图像中的各个压痕区域;基于文本检测识别模型对所述压痕区域和所述菜单背景图像中的文本进行检测识别,得到各个压痕对应的含义及所述菜单背景图像中的各个菜名,其中,所述压痕对应的含义包括文本含义、数字含义及特殊符号含义中的至少一种;通过交并比算法对各个压痕区域和所述菜单背景图像中文本的位置信息进行计算,得到各个压痕区域对应的菜名;
结果输出模块:用于输出各个压痕区域对应的菜名及菜品数量。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于压痕检测的已标记菜单识别方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于压痕检测的已标记菜单识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580717.7A CN116740733A (zh) | 2023-05-22 | 2023-05-22 | 基于压痕检测的已标记菜单识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580717.7A CN116740733A (zh) | 2023-05-22 | 2023-05-22 | 基于压痕检测的已标记菜单识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116740733A true CN116740733A (zh) | 2023-09-12 |
Family
ID=87912425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310580717.7A Pending CN116740733A (zh) | 2023-05-22 | 2023-05-22 | 基于压痕检测的已标记菜单识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740733A (zh) |
-
2023
- 2023-05-22 CN CN202310580717.7A patent/CN116740733A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI631514B (zh) | Method and system for marking recognition based on mobile terminal | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN107657639A (zh) | 一种快速定位目标的方法和装置 | |
CN105678322A (zh) | 样本标注方法和装置 | |
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN102360419A (zh) | 计算机扫描阅读管理方法及系统 | |
CN107220664B (zh) | 一种基于结构化随机森林的油瓶装箱清点方法 | |
CN111461133B (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
CN106033544A (zh) | 基于模板匹配的试卷内容区域提取方法 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
CN106056028A (zh) | 一种快速扫描录单的方法及其装置 | |
CN103607524A (zh) | 一种条烟32位码图像采集处理装置及条烟32位码识别方法 | |
TW202009681A (zh) | 樣本標註方法及裝置、損傷類別的識別方法及裝置 | |
CN111127417A (zh) | 一种基于sift特征匹配和改进的ssd算法的软包装卷料印刷缺陷检测方法 | |
Hartl | Computer-vision based pharmaceutical pill recognition on mobile phones | |
CN115082776A (zh) | 一种基于图像识别的电能表自动检测系统及方法 | |
CN109784375A (zh) | 基于Faster RCNN的自适应变压器部件检测识别方法 | |
KR101842535B1 (ko) | 부호의 광학적 검출 방법 | |
CN115810197A (zh) | 一种多模态电力表单识别方法及装置 | |
WO2022127384A1 (zh) | 文字识别方法、电子设备和计算机可读存储介质 | |
CN114445843A (zh) | 固定版式的卡证图像文字识别方法和装置 | |
CN112101060B (zh) | 基于平移不变性和小区域模板匹配的二维码定位方法 | |
CN110443306B (zh) | 葡萄酒木塞的鉴伪方法 | |
CN116740733A (zh) | 基于压痕检测的已标记菜单识别方法及装置 | |
CN106648171B (zh) | 一种基于书写笔的交互系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |