CN112232340A - 一种物体表面印制信息的识别方法及装置 - Google Patents
一种物体表面印制信息的识别方法及装置 Download PDFInfo
- Publication number
- CN112232340A CN112232340A CN202011102251.2A CN202011102251A CN112232340A CN 112232340 A CN112232340 A CN 112232340A CN 202011102251 A CN202011102251 A CN 202011102251A CN 112232340 A CN112232340 A CN 112232340A
- Authority
- CN
- China
- Prior art keywords
- light source
- detection model
- printing information
- text detection
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000001514 detection method Methods 0.000 claims abstract description 72
- 238000003854 Surface Print Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000000265 homogenisation Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 208000003580 polydactyly Diseases 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 15
- 238000013528 artificial neural network Methods 0.000 abstract description 12
- 238000010606 normalization Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000002184 metal Substances 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000007943 implant Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000001678 irradiating effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000399 orthopedic effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007600 charging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F21—LIGHTING
- F21S—NON-PORTABLE LIGHTING DEVICES; SYSTEMS THEREOF; VEHICLE LIGHTING DEVICES SPECIALLY ADAPTED FOR VEHICLE EXTERIORS
- F21S4/00—Lighting devices or systems using a string or strip of light sources
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F21—LIGHTING
- F21V—FUNCTIONAL FEATURES OR DETAILS OF LIGHTING DEVICES OR SYSTEMS THEREOF; STRUCTURAL COMBINATIONS OF LIGHTING DEVICES WITH OTHER ARTICLES, NOT OTHERWISE PROVIDED FOR
- F21V1/00—Shades for light sources, i.e. lampshades for table, floor, wall or ceiling lamps
- F21V1/26—Manufacturing shades
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F21—LIGHTING
- F21V—FUNCTIONAL FEATURES OR DETAILS OF LIGHTING DEVICES OR SYSTEMS THEREOF; STRUCTURAL COMBINATIONS OF LIGHTING DEVICES WITH OTHER ARTICLES, NOT OTHERWISE PROVIDED FOR
- F21V19/00—Fastening of light sources or lamp holders
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F21—LIGHTING
- F21V—FUNCTIONAL FEATURES OR DETAILS OF LIGHTING DEVICES OR SYSTEMS THEREOF; STRUCTURAL COMBINATIONS OF LIGHTING DEVICES WITH OTHER ARTICLES, NOT OTHERWISE PROVIDED FOR
- F21V3/00—Globes; Bowls; Cover glasses
- F21V3/02—Globes; Bowls; Cover glasses characterised by the shape
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F21—LIGHTING
- F21V—FUNCTIONAL FEATURES OR DETAILS OF LIGHTING DEVICES OR SYSTEMS THEREOF; STRUCTURAL COMBINATIONS OF LIGHTING DEVICES WITH OTHER ARTICLES, NOT OTHERWISE PROVIDED FOR
- F21V33/00—Structural combinations of lighting devices with other articles, not otherwise provided for
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Manufacturing & Machinery (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供的物体表面印制信息的识别方法及装置,通过获取在无影光源下拍摄得到的物体的表面图像,然后将所述表面图像输入至基于神经网络的文本检测模型,最后识别模型输出的定位区块中的表面印制信息,大大提高了识别速度和识别准确度,在识别过程中可以排除物体反光等因素的影响。
Description
技术领域
本发明涉及物体文本识别领域,具体涉及一种物体表面印制信息的识别方法及装置。
背景技术
根据国家有关部门规定,对所有的高值植入型耗材,医院使用时必须记录和追踪到每一个。骨科医疗耗材中有一种特殊的高值金属植入物骨钉及相关配件。该类型耗材追踪的方式是读取和记录表面的ID。
该类金属植入物因为体积极小,金属高反光材质,环形表面,打在表面的ID深浅不一等特点,无法用目前市场上现有的机器视觉或计算机视觉产品读取。目前市场上各大医院,全部靠人工读取和输入医院的各类信息系统。有些医院会分配放大镜给管理该类耗材的医护人员。但是实际上全部依赖人工的方式,费时而且极容易出错。又因为每次手术涉及的骨钉数量很大,手术的时间争分夺秒,留给操作和读取耗材时间极其有限,因此人工误读的概率很高。为医院和供应商管理该类型耗材提出了挑战。
发明内容
针对现有技术中的问题,本发明实施例提供一种物体表面印制信息的识别方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提供一种物体表面印制信息的识别方法,包括:
获取物体的表面图像;所述表面图像在无影光源下拍摄得到;
将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;
识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
在优选的实施例中,还包括:
建立文本检测模型。
在优选的实施例中,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
在优选的实施例中,所述识别所述定位图块中的表面印制信息,包括:
通过至少一种文字识别方法对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
在优选的实施例中,所述通过至少一种文字识别方法对所述定位图块进行解析处理,包括:使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。
在优选的实施例中,还包括:
对所述定位区块进行倾斜矫正。
在优选的实施例中,还包括:
根据所述识别出的所述表面印制信息的语义;
根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
在优选的实施例中,还包括:
对所述表面图像进行预处理。
在优选的实施例中,所述预处理包括:噪声处理和颜色均一化处理。
本发明另一方面还提供一种物体表面印制信息的识别装置,包括:
图像获取模块,表面获取物体的表面图像;所述表面图像在无影光源下拍摄得到;
文本检测模块,将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;
识别模块,识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
在优选的实施例中,还包括:
文本检测模型建立模块,建立文本检测模型。
在优选的实施例中,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型的步骤具体包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
在优选的实施例中,所述识别模块包括:
解析处理单元,通过至少一种文字识别装置对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合单元,拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
在优选的实施例中,所述解析处理模块具体用于使用LSTM算法、MULTI-DIGITNUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。
在优选的实施例中,还包括:
矫正模块,对所述定位区块进行倾斜矫正。
在优选的实施例中,还包括:
语义识别模块,根据所述识别出的所述表面印制信息的语义;
筛选模块,根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
在优选的实施例中,还包括:
预处理模块,对所述表面图像进行预处理。
在优选的实施例中,所述预处理包括:噪声处理和颜色均一化处理。
又一方面,本发明提供一种无影光源装置,包括:
光源罩;
底座,可放置被照射物体,包括环形带状光源,所述环形带状光源可朝向所述光源罩的内侧壁发射光线,以形成漫反射光;以及
摄像头,可采集所述漫反射光照射下的物体图像;其中,所述环形带状光源与一恒压电源耦接。
在优选的实施例中,所述底座还包括:
第一载板,其上侧承载被照射物体;
第二载板,位于所述第一载板的下侧,并且所述环形带状光源固定在所述第一载板和第二载板之间。
在优选的实施例中,还包括:
遮光带,固定在所述第二载板的周向,并具有与所述光源罩的边沿相配合的形状。
在优选的实施例中,所述光源罩为半球型。
又一方面,本发明提供一种无影光源系统,包括上位机,以及如上所述的无影光源装置,所述上位机与所述无影光源装置信号连接。
又一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述物体表面印制信息的识别方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述物体表面印制信息的识别方法的步骤。
本发明实施例提供的物体表面印制信息的识别方法及装置,通过获取在无影光源下拍摄得到的物体的表面图像,然后将所述表面图像输入至基于神经网络的文本检测模型,最后识别模型输出的定位区块中的表面印制信息,大大提高了识别速度和识别准确度,在识别过程中可以排除物体反光等因素的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一个实施例提供的物体表面印制信息的识别方法的流程示意图。
图2是本发明另一个实施例提供的文本检测模型网络架构示意图。
图3是本发明又一个实施例提供的物体表面印制信息的识别的装置的结构示意图之。
图4是本发明又一实施例中一种无影光源装置的结构示意图。
图5是本发明又一个实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一个实施例提供的物体表面印制信息的识别方法的流程示意图,如图1所示,本发明实施例提供的物体表面印制信息的识别方法,包括:
S101、获取物体的表面图像;
具体地,本发明中的物体的表面图像是在无影光源下拍摄得到,可以理解,本发明中的“无影光源”的概念是公知的,即采用独特的照射结构,从LED(或者其他光源)发出的光均匀地扩散照射,柔性线路板以90度照身角度固定,经漫反射板折射后低角度照射在被测物体上,对目标区域进行高效的低角度照明,以强化表面特征的一种光源。
在本实施例中,无影光源可以采用多点光源,例如医用无影灯。
具体来说,通过无影光源照射物体,然后通过摄像头拍摄即可得到所述表面图像。
进一步的,可以理解,本发明中的所述物体,不限定于医疗耗材,具体而言,本发明的发明构思始于医疗耗材,但本领域技术人员明了,本发明的发明构思与物体本身的用途或者材质无关。换而言之,本发明的物体可以是日常生活中的微小物体,例如电路板上微小元器件等。
举例而言,在医用无影灯的照射下,通过一扫描仪或相机扫描一个骨科医疗耗材,该类金属植入物因为体积极小,金属高反光材质,环形表面,打在表面的ID深浅不一等特点,无法用目前市场上现有的机器视觉或计算机视觉产品读取。
此外,本实施例中的获取,可以是直接拍摄得到,也可以是从已拍摄完成的表面图像中获取,进一步的,本发明中的相机可以集成高速摄像头,降低干扰。
S102、将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块。其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
具体地,文本检测模型可以采用目前已有的模型进行构建,然后利用无影光源下拍摄得到的表面图像进行训练。
例如,文本检测模型可以是CTPN(“Detecting Text in Natural Image withConnectionist Text Proposal Network”,基于连接预选框网络的文本检测)。该模型主要是对图片中的文本行进行准确定位,其基本做法是直接在卷积获得的feature map(特征图)上生成的一系列适当尺寸的文本proposals(预选框)进行文本行的检测。
该实施例中,CTPN模型利用了RNN和CNN的无缝结合来提高检测精度。其中,CNN用来提取深度特征,RNN用于序列的特征识别,二者无缝结合,在检测上性能更好。
CTPN模型通过利用VGG16卷积输出的feature map(特征图)生成一系列proposals(预选框)进行检测。由于文字信息是由“字符、字符的一部分、多字符”组成的一个序列,所以文字这个检测目标并不是独立、封闭的,而是有前后关联的,因此在CTPN中采用了RNN(Recurrent Neural Networks,循环神经网络)来利用前后文的信息进行文本位置的预测。
举例而言,首先提供一个医用耗材的所述表面图像,然后利用上述模型进行检测,具体步骤如下:
第一步:输入3×600(h)×900(w)的图像(卷积维度可以根据实际需要设置),使用VGG16进行特征的提取,得到conv5_3(VGG第5个block的第三个卷积层)的特征作为featuremap,大小为512×38×57;
第二步:在这个feature map上做滑窗,窗口大小是3×3,即512×38×57变为4608×38×57(512按3×3卷积展开);
第三步:将每一行的所有窗口对应的特征输入到RNN(BLSTM,双向LSTM)中,每个LSTM层是128个隐层,即57×38×4608变为57×38×128,Reverse-LSTM同样得到的是57×38×128,合并后最终得到结果为256×38×57;
第四步:将RNN的结果输入到FC层(全连接层),FC层是一个256×512的矩阵参数,得到512×38×57的结果;
第五步:FC层特征输入到三个分类或者回归层中。第一个2k verticalcoordinate和第三个k side-refinement是用来回归k个anchor的位置信息(可以简单理解为是要确定字符位置的小的矩形框,上面示意图中的红色小长框,宽度固定,默认为16),第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符);
第六步:使用文本构造的算法,将得到的细长的矩形框,将其合并成文本的序列框。其中文本构造算法的主要的思路为:每两个相近的候选区组成一个pair,合并不同的pair直到无法再合并为止。
S103、识别所述定位图块中的表面印制信息。
具体地,可以通过文字识别技术识别定位图块中的表面印制信息,本发明对文字识别的方法不作限定,可以理解,常规的文字识别常用的方法有模板匹配法和几何特征抽取法。模板匹配法将输入的文字与给定的各类别标准文字(模板)进行相关匹配,计算输入文字与各模板之间的相似性程度,取相似度最大的类别作为识别结果,这种方法的缺点是当被识别类别数增加时,标准文字模板的数量也随之增加。这一方面会增加机器的存储容量,另一方面也会降低识别的正确率,所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算,所以对文字的缺损、边缘噪声等具有较强的适应能力。对于几何特征抽取法抽取文字的一些几何特征,如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等,根据这些特征的位置和相互关系进行逻辑组合判断,获得识别结果。这种识别方式由于利用结构信息,也适用于手写体文字那样变型较大的文字。
本发明实施例提供的物体表面印制信息的识别方法,通过获取在无影光源下拍摄得到的物体的表面图像,然后将所述表面图像输入至基于神经网络的文本检测模型,最后识别模型输出的定位区块中的表面印制信息,大大提高了识别速度和识别准确度,在识别过程中可以排除物体反光等因素的影响。
在上述各实施例的基础上,进一步地,还包括:建立文本检测模型。
具体地,可以利用matlab或者其他开源软件设置对应的神经网络层结构,例如其中的神经元、权重矩阵等,本发明不做过多说明。
进一步的,本发明中,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
举例而言,可以针对不同物体拍摄不同表面图像,然后对该表面图像进行字符定位,将定位后的表面图像组成训练集训练文本检测模型。
图2是本发明另一个实施例提供的文本检测模型的结构示意图,如图2所示,与上一实施例相区别的,本实施例采用的文本检测模型基于EAST算法,EAST的网络结构总共包含三个部分:feature extractor stem(特征提取分支),feature-merging branch(特征合并分支)以及output layer(输出层)。
在特征提取分支部分,主要由四层卷积层组成,可以是一些预训练好的卷积层,作者采用的是VGG16中pooling-2到pooling-5每一层得到的featuremap。记每一层卷积层卷积后得到featuremap为fi。
在特征合并分支部分,对于一个fi,首先经过一层反池化操作,得到与上一层卷积featuremap同样大小的特征,然后将其与fi+1进行拼接,拼接后再依次进入一层1\times1和3\times3的卷积层,以减少拼接后通道数的增加,得到对应的hi+1,在特征合并分支的最后一层,是一层3\times3的卷积层,卷积后得到的featuremap最终直接进入输出层。本实施例中,由于在场景文字识别中,文字的大小非常极端,较大的文字需要神经网络高层的特征信息,而比较小的文字则需要神经网络浅层的特征信息,因此,只有将网络不同层次的特征进行融合才能满足要求。
在输出层部分,主要有两部分,一部分是用单个通道的1\times1卷积得到scoremap(分数图),另一部分是多个通道的1\times1卷积得到geometrymap(几何形状图),在这一部分,几何形状可以是RBOX(旋转盒子)或者QUAD(四边形)。对于RBOX,主要有5个通道,其中四个通道表示每一个像素点与文本线上、右、下、左边界距离(axis-alignedboundingbox,AABB),另一个通道表示该四边形的旋转角度\theta。对于QUAD,则采用四边形四个顶点的坐标表示,因此,总共有8个通道。对于scoremap,EAST对真实标签的四边形区域会进行放缩,放缩的方式如下:
首先,记四边形Q={Pi/i∈{1,2,3,4}},其中,Pi={xi,yi}表示四边形顺时针方向的四个顶点,然后计算每个顶点pi的参考长度ri,其中,D(pi,pj)表示pi和pj的欧式距离。
对于四边形每一对对边,将两条边的长度与他们的均值进行对比,以确定出哪对对边是长边,然后对两条长边优先进行放缩,放缩的方式是对每个顶点沿着边向内部分别移动0.3ri。
对于geometrymap的两种类型,分别是QUAD和RBOX,对于scoremap为正例的像素点,其QUAD对应的标签直接是他们与四个顶点的偏移坐标,即顶点的差值,而对于RBOX,则首先会选择一个最小的矩形框住真实的四边形,然后计算每个正例像素点与该矩形四条边界的距离。
本实施例中,对应着两个损失函数,可以表达如下:
L=Ls+λgLg
其中,Ls和Lg分别表示scoremap和geometrymap的损失函数,λg表示权重。
图2中的其余过程本发明不作进一步说明,可以理解,经过图2所示的文本检测即可获得每个定位图块。
上述各实施例的基础上,进一步地,所述识别所述定位图块中的表面印制信息,包括:
通过至少一种文字识别方法对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
具体的,可以通过例如LSTM、multi-digit number classification以及GRU共同对表面印制信息进行OCR识别。
举例而言,以一印刷体文字识别为例进行说明,其大致包括:图像预处理;图像切分;特征提取、匹配及模型训练、匹配;识别后处理等步骤。
对于本发明中的图像预处理步骤,输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。
对于本发明中的灰度化步骤,通过外设采集的图像通常为彩色图像,彩色图像会夹杂一些干扰信息,灰度化处理的主要目的就是滤除这些信息,灰度化的实质其实就是将原本由三维描述的像素点,映射为一维描述的像素点。转换的方式和规则有很多,在这里不详细介绍。
对于本发明中的二值化步骤,经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开,所谓二值化,就是将灰度值(或者彩色值)图像信号转化成只有黑(l)和白(0)的二值图像信号。二值化效果的好坏,会直接影响灰度文本图像的识别率。二值化方法大致可以分为局部阈值二值化和整体阈值二值化。
对于本发明中的倾斜校正步骤,一般而言,医药耗材的表面印刷信息是由平行于页面边缘的水平(或者垂直)的文本行(或者列)组成的,即倾斜角度为零度。然而在文本页面扫描过程中,不论是手工扫描还是机器扫描,都不可避免地会出现图像倾斜现象。而倾斜的文档图像对后期的字符分割、识别和图像压缩等工作将产生很大影响。为了保证后续处理的正确性,对文本图像进行倾斜检测和校正是十分必要的。
文本图像的倾斜校正分为手动校正和自动校正两种。手动校正,是指识别装置提供某种人机交互手段,实现文本图像的倾斜校正。自动校正,是指由计算机自动分析文本图像的版面特征,估计图像的倾斜角度,并根据倾斜角度对文本图像进行校正。
本发明中,文本图像的倾斜检测方法可以是如下至少一种:基于投影图的方法,基于Houhg变换的方法,基于交叉相关性的方法,基于Fourier变换的方法和基于最近邻聚类方法。
本发明实施例中,最简单的基于投影图的方法是将文本图像沿不同方向进行投影。当投影方向和文字行方向一致时,文字行在投影图上的峰值最大,并且投影图存在明显的峰谷,此时的投影方向就是倾斜角度。
本发明实施例中,Huogh变换是一种最常用的倾斜检测方法,它是利用Hough变换的特性,将图像中的前景像素映射到极坐标空间,通过统计极坐标空间各点的累加值得到文档图像的倾斜角度。
本发明实施例中,Fourier变换的方法是利用页面倾角对应于使Fourier空间密度最大的方向角的特性,将文档图像的所有像素点进行Fourier变换。
本发明实施例中,基于最近邻聚类方法,取文本图像的某个子区域中字符连通域的中心点作为特征点,利用基线上的点的连续性,计算出对应的文本行的方向角,从而得到整个页面的倾斜角。
对于本发明实施例中的规范化步骤,规范化操作就是将输入的任意尺寸的文字都处理成统一尺寸的标准文字,以便与己经预先存储在字典中的参考模板相匹配。规范化操作包括:位置规范化、大小规范化以及笔划粗细规范化。在本节只讨论位置规范化和大小规范化。
为了消除文字点阵位置上的偏差,需要把整个文字点阵图移动到规定的位置上,这个过程被称为位置规范化。常用的位置规范化操作有两种,一种是基于质心的位置规范化,另一种是基于文字外边框的位置规范化。基于文字外边框的位置规范化需要首先计算文字的外边框,并找出中心,然后把文字中心移动到指定的位置上来。基于质心的位置规范化方法抗干扰能力比基于文字外边框的位置规范化方法要强。
对不同大小的文字做变换,使之成为同一尺寸大小,这个过程被称为大小规范化。很多已有的多字号印刷体识别装置都是通过大小规范化来识别不同字号的文字。常用的大小规范化操作也有两种,一种是将文字的外边框按比例线性放大或缩小成规定尺寸的文字,另一种是根据水平和垂直两个方向上文字黑像素的分布情况进行大小规范化。
对于本发明实施例中的图像平滑步骤,文本图像经过平滑处理之后,能够去掉笔划上的孤立白点和笔划外部的孤立黑点,以及笔划边缘的凹凸点,使得笔划边缘变得平滑。一种简单的平滑处理方法如下。采用NxN窗口(N一般为3,例如3X3窗口),依次在二值文字点阵中进行扫描,根据窗口中黑白像素的分布情况,使处于窗口中心的被平滑像素X。,从“0”变成“1”或者从“l”变成“0”。
对于本发明实施例中的图像切分步骤,图像切分大致可以分为两个个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。对于本发明实施例中的行列切分步骤,由于印刷体文字图像行列间距.、字间距大致相等,且几乎不存在粘连现象,所以可以采用投影法对图像进行切分,得到每列(行)在坐标轴的像素值投影曲线是一个不平滑的曲线,通过高斯平滑后的曲线在每个波谷位置间的区域即为要的一行(列)。
对于本发明实施例中的字切分步骤,字切分对于不同的文种存在着比较明显的差异,通常意义下,字切分是指将整行或整列文字切分成独立的一个个文字,而实际上根据文种差异,可能还需需要将单个文字进行进一步切分。而因为文种不同,构词法或钩字法也有所不同,所以切分方法的难度差别也是天壤之别。
特征提取是从单个字符图像上提取统计特征或结构特征的过程。所提取的特征的稳定性及有效性,决定了识别的性能。对于统计特征的提取,可利用统计模式识别中的特征提取方法,而对结构特征的提取,应根据具体文字所确定的识别基元确定相应的特征提取方法。在相当长的文字识别的研究过程中,是利用人们的经验知识,指导文字特征的提取。例如边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。
特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。当待识别文字提取完特征之后,不管使用的是统计特征,还是结构特征,都需要有一个特征库来进行比对,特征库中应包含欲识别字符集中所有文字的特征。特征匹配的方法有很多,比较常用的有:欧式空间的比对法、松弛比对法、动态程序比对法以及HMM(HiddneMarkovModel)法等等。在神经网络出现之前以及之后很长一段时间,在汉字OCR领域,一直采用的就是这种模板匹配的方法。
本发明的OCR识别可以基于神经网络实现,通过建立神经网络模型和对模型进行训练,得到可自我更新优化的识别模型,例如网络的输入为文字特征向量,输出是类编码,在识别类型较少且结构区分较为明显的文字识别中,特征向量通常为字符图像像素点的矩阵。
从上述实施例中,本领域技术人员明了,可以明确本发明一些实施例中进一步包括:对所述定位区块进行倾斜矫正。
从上述实施例中,本领域技术人员明了,可以明确本发明一些实施例中进一步包括:对所述表面图像进行预处理。
从上述实施例中,本领域技术人员明了,可以明确本发明中的所述预处理包括:噪声处理和颜色均一化处理。
此外,进一步的,在优选的实施例中,可以基于语义删除不符合场景的表面印制信息,该实施例中,本发明的方法还包括:
根据所述识别出的所述表面印制信息的语义;
根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
举例而言,对于医用耗材来说,其可能出现的语义仅仅限于医学场景,其他非医学场景应当被删除。
综上所述,本发明实施例提供的物体表面印制信息的识别方法,通过获取在无影光源下拍摄得到的物体的表面图像,然后将所述表面图像输入至基于神经网络的文本检测模型,最后识别模型输出的定位区块中的表面印制信息,大大提高了识别速度和识别准确度,在识别过程中可以排除物体反光等因素的影响。
图3是本发明又一个实施例提供的物体表面印制信息的识别的装置的结构示意图,如图3所示,本发明实施例提供的物体表面印制信息的识别的装置包括:
图像获取模块1,表面获取物体的表面图像;所述表面图像在无影光源下拍摄得到;
文本检测模块2,将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;
识别模块3,识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
本发明实施例提供的物体表面印制信息的识别装置,通过获取在无影光源下拍摄得到的物体的表面图像,然后将所述表面图像输入至基于神经网络的文本检测模型,最后识别模型输出的定位区块中的表面印制信息,大大提高了识别速度和识别准确度,在识别过程中可以排除物体反光等因素的影响。
在优选的实施例中,还包括:
文本检测模型建立模块,建立文本检测模型。
在优选的实施例中,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型的步骤具体包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
在优选的实施例中,所述识别模块包括:
解析处理单元,通过至少一种文字识别装置对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合单元,拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
在优选的实施例中,使用LSTM(长短期记忆)模型。LSTM是一种RNN(时间循环神经网络),广泛的使用在文字识别和语音识别领域。(http://colah.github.io/posts/2015-08-Understanding-LSTMs/LSTM论文)
在优选的实施例中,还包括:
矫正模块,对所述定位区块进行倾斜矫正。
在优选的实施例中,还包括:
语义识别模块,根据所述识别出的所述表面印制信息的语义;
筛选模块,根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
在优选的实施例中,还包括:
预处理模块,对所述表面图像进行预处理。
在优选的实施例中,所述预处理包括:噪声处理和颜色均一化处理。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
进一步的,在本发明的又一方面实施例中,提供一种如图4所示的无影光源装置,具体而言,包括:光源罩1;底座2,可放置被照射物体5,包括环形带状光源3,所述环形带状光源3可朝向所述光源罩1的内侧壁发射光线,以形成漫反射光;以及摄像头4,可采集所述漫反射光照射下的物体图像;其中,所述环形带状光源3与一恒压电源耦接。
本发明提供的无影光源装置,其通过环形带状光源将光在光源罩的侧壁上反射形成漫反射光,即可形成无影光源,结构简单并且制作工艺简单。
在一些实施例中,所述摄像头位于所述光源罩的顶部中央位置。
该实施例中,摄像头位于光源罩的顶部中央位置,进而可以使得拍摄视角最大。
在一些实施例中,所述底座还包括:第一载板,其上侧承载被照射物体;第二载板,位于所述第一载板的下侧,并且所述环形带状光源固定在所述第一载板和第二载板之间。可以看出,环状光源设置在第一载板和第二载板之间,进而形成了固定结构。
进一步的,该无影光源装置还包括:遮光带,固定在所述第二载板的周向,并具有与所述光源罩的边沿相配合的形状。遮光带可以避免环状光源发出的光直接照射到物体表面,避免直射光的影响。
此外,所述光源罩为半球型。半球型光源罩产生漫反射光较为均匀,进而使得被照射物体的表面光照程度一致,提高物体表面印刷信息的识别度。
在优选的实施例中,所述第一载板的中央处形成有凹陷,被照射物体可被容置于所述凹陷内。当物体被放置在凹陷中时,由于凹陷的侧壁不会使得光反射到正上方的摄像头上,因此可以形成清晰的对比度,提高物体表面印刷信息的识别精度。
进一步的,本无影光源装置还包括:通讯模块,与所述摄像头耦接和外部的上位机耦接。通讯模块可以是蓝牙、无线收发器等无线通讯器,也可以是数据线以及视频信号解码器的集成,本发明对此不作限制。
可以理解,正是通过本发明的无影光源装置,形成了无影光源,进而可以方便后续的表面印刷信息的识别。
进一步的,本发明又一方面实施例提供一种无影光源系统,包括:上位机,以及如上所述的无影光源装置,所述上位机与所述无影光源装置信号连接。
可以理解,本发明的上位机可以是计算机设备或者其他具有处理能力的设备,本发明不做限制,正是通过本发明的无影光源系统,通过无影光源装置形成了无影光源,然后通过上位机进行识别处理,进而可以方便后续的表面印刷信息的识别。
综上所述,本发明具有如下优点:
提高识别速度:经过调研,人工识别的速度不计入出错纠错等动作,约为6.2秒每次。本发明的识别速度,大约是0.5秒/次。速度提高了10倍有余。同时随着产品升级换代和算法的改进,读取时间有进一步大幅度缩短到0.2秒/次以下的可能。
降低管理时间:本发明读取到被识别物的ID以后,可提供自动送至信息系统中的功能。通讯和传输时间单次不到2秒,且都是后台执行不需要管理人员等候。相比管理人员转录和确认要花每个超过15秒的实际情况,有大幅度提高。
提高管理效率:使用前完全依赖人工转录和纠错,但因为手术现场时间极其有限,无论是发生错误后事后纠错或者现场依照制度找另一人来稽核,均对本已相当紧张医疗人力形成浪费。据统计大约每笔在7到10秒,本发明可以节省这一部分的时间。
提高识别准确率:经过实验室测试,如果读取时间控制在6秒以内,则大约人为失误率在5%上下。对人的操作来说,错误率和读取的时间成反比,但是现实中不可能允许医务人员有大量的时间慢慢读取。以脊椎骨钉为例,一台手术大约需要12根钉子甚至更多,手术时间争分夺秒每多一秒钟都对患者形成风险。经过测试,目前本发明可以将错误率稳定控制在0.7%以下。
降低单次成本的目的:如果将医护人员管理(转录,检查,计费,纠错等)时间和识别时间合并计算,本发明单次读取的成本约为纯人工成本的三分之一。
图5是本发明又一个实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)1201、通信接口(Communications Interface)1202、存储器(memory)1203和通信总线1204,其中,处理器1201,通信接口1202,存储器1203通过通信总线1204完成相互间的通信。处理器1201可以调用存储器1203中的逻辑指令,以执行如下方法:获取物体的表面图像;所述表面图像在无影光源下拍摄得到;将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
此外,上述的存储器1203中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取物体的表面图像;所述表面图像在无影光源下拍摄得到;将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取物体的表面图像;所述表面图像在无影光源下拍摄得到;将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (25)
1.一种物体表面印制信息的识别方法,其特征在于,包括:
获取物体的表面图像;所述表面图像在无影光源下拍摄得到;
将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;
识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
2.根据权利要求1所述的识别方法,其特征在于,还包括:
建立文本检测模型。
3.根据权利要求2所述的识别方法,其特征在于,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
4.根据权利要求1所述的识别方法,其特征在于,所述识别所述定位图块中的表面印制信息,包括:
通过至少一种文字识别方法对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
5.根据权利要求4所述的识别方法,其特征在于,所述通过至少一种文字识别方法对所述定位图块进行解析处理,包括:使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。
6.根据权利要求2所述的识别方法,其特征在于,还包括:
对所述定位区块进行倾斜矫正。
7.根据权利要求6所述的识别方法,其特征在于,还包括:
根据所述识别出的所述表面印制信息的语义;
根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
8.根据权利要求1所述的识别方法,其特征在于,还包括:
对所述表面图像进行预处理。
9.根据权利要求8所述的识别方法,其特征在于,所述预处理包括:噪声处理和颜色均一化处理。
10.一种物体表面印制信息的识别装置,其特征在于,包括:
图像获取模块,表面获取物体的表面图像;所述表面图像在无影光源下拍摄得到;
文本检测模块,将所述表面图像输入至预设的文本检测模型,所述文本检测模型的输出为所述表面图像的定位图块;
识别模块,识别所述定位图块中的表面印制信息;其中,所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。
11.根据权利要求10所述的识别装置,其特征在于,还包括:
文本检测模型建立模块,建立文本检测模型。
12.根据权利要求11所述的识别装置,其特征在于,利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型的步骤具体包括:
在无影光源下拍摄多个不同物体的表面图像;
标注每个表面图像中包括表面印制信息的定位区块,并将已标注的表面图像组成训练集,输入至建立的所述文本检测模型。
13.根据权利要求10所述的识别装置,其特征在于,所述识别模块包括:
解析处理单元,通过至少一种文字识别装置对所述定位图块进行解析处理,得到对应每个定位区块的多个表面印制信息;
拟合单元,拟合所述多个表面印制信息,生成拟合后的所述表面印制信息。
14.根据权利要求13所述的识别装置,其特征在于,所述解析处理单元具体用于使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。
15.根据权利要求11所述的识别装置,其特征在于,还包括:
矫正模块,对所述定位区块进行倾斜矫正。
16.根据权利要求10所述的识别装置,其特征在于,还包括:
语义识别模块,根据所述识别出的所述表面印制信息的语义;
筛选模块,根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。
17.根据权利要求10所述的识别装置,其特征在于,还包括:
预处理模块,对所述表面图像进行预处理。
18.根据权利要求17所述的识别装置,其特征在于,所述预处理包括:噪声处理和颜色均一化处理。
19.一种无影光源装置,其特征在于,包括:
光源罩;
底座,可放置被照射物体,包括环形带状光源,所述环形带状光源可朝向所述光源罩的内侧壁发射光线,以形成漫反射光;
摄像头,可采集所述漫反射光照射下的物体图像;其中,所述环形带状光源与一恒压电源耦接。
20.根据权利要求19所述的无影光源装置,其特征在于,所述底座还包括:
第一载板,其上侧承载被照射物体;
第二载板,位于所述第一载板的下侧,并且所述环形带状光源固定在所述第一载板和第二载板之间。
21.根据权利要求20所述的无影光源装置,其特征在于,还包括:
遮光带,固定在所述第二载板的周向,并具有与所述光源罩的边沿相配合的形状。
22.根据权利要求19所述的无影光源装置,其特征在于,所述光源罩为半球型。
23.一种无影光源系统,其特征在于,包括上位机,以及如权利要求19-22任一项所述的无影光源装置,所述上位机与所述无影光源装置信号连接。
24.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102251.2A CN112232340A (zh) | 2020-10-15 | 2020-10-15 | 一种物体表面印制信息的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011102251.2A CN112232340A (zh) | 2020-10-15 | 2020-10-15 | 一种物体表面印制信息的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232340A true CN112232340A (zh) | 2021-01-15 |
Family
ID=74111815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011102251.2A Pending CN112232340A (zh) | 2020-10-15 | 2020-10-15 | 一种物体表面印制信息的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232340A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5777244A (en) * | 1995-08-29 | 1998-07-07 | Bridgestone Sports Co., Ltd. | Method for inspecting the outer appearance of a golf ball and illuminating means used therefor |
CN204629260U (zh) * | 2015-05-29 | 2015-09-09 | 杭州利珀科技有限公司 | 一种用于金属盖缺陷智能检测设备的光源 |
JP2016004335A (ja) * | 2014-06-14 | 2016-01-12 | 国立大学法人北陸先端科学技術大学院大学 | 文字認識処理方法 |
CN205226918U (zh) * | 2015-12-08 | 2016-05-11 | 深圳市华周测控技术有限公司 | 复合无影圆顶光源结构 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN111291629A (zh) * | 2020-01-17 | 2020-06-16 | 平安医疗健康管理股份有限公司 | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 |
CN111582021A (zh) * | 2020-03-26 | 2020-08-25 | 平安科技(深圳)有限公司 | 场景图像中的文本检测方法、装置及计算机设备 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
-
2020
- 2020-10-15 CN CN202011102251.2A patent/CN112232340A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5777244A (en) * | 1995-08-29 | 1998-07-07 | Bridgestone Sports Co., Ltd. | Method for inspecting the outer appearance of a golf ball and illuminating means used therefor |
JP2016004335A (ja) * | 2014-06-14 | 2016-01-12 | 国立大学法人北陸先端科学技術大学院大学 | 文字認識処理方法 |
CN204629260U (zh) * | 2015-05-29 | 2015-09-09 | 杭州利珀科技有限公司 | 一种用于金属盖缺陷智能检测设备的光源 |
CN205226918U (zh) * | 2015-12-08 | 2016-05-11 | 深圳市华周测控技术有限公司 | 复合无影圆顶光源结构 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN111291629A (zh) * | 2020-01-17 | 2020-06-16 | 平安医疗健康管理股份有限公司 | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 |
CN111582021A (zh) * | 2020-03-26 | 2020-08-25 | 平安科技(深圳)有限公司 | 场景图像中的文本检测方法、装置及计算机设备 |
CN111582085A (zh) * | 2020-04-26 | 2020-08-25 | 中国工商银行股份有限公司 | 单据拍摄图像识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Text detection and recognition in imagery: A survey | |
US20140313216A1 (en) | Recognition and Representation of Image Sketches | |
CN104573688A (zh) | 基于深度学习的移动平台烟草激光码智能识别方法及装置 | |
US8571264B2 (en) | Method of using structural models for optical recognition | |
Skoryukina et al. | Document localization algorithms based on feature points and straight lines | |
CN110767292A (zh) | 病理编号识别方法、信息识别方法、装置及信息识别系统 | |
Jiao et al. | A survey of road feature extraction methods from raster maps | |
Liu et al. | Region segmentation via deformable model-guided split and merge | |
CN114549557A (zh) | 一种人像分割网络训练方法、装置、设备及介质 | |
Rehman et al. | Cursive multilingual characters recognition based on hard geometric features | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
Zhang et al. | Small object detection using deep convolutional networks: applied to garbage detection system | |
WO2022121021A1 (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 | |
Angeline et al. | Multiple vehicles license plate tracking and recognition via isotropic dilation | |
CN117076455A (zh) | 一种基于智能识别的保单结构化存储方法、介质及系统 | |
Ovodov | Optical Braille recognition using object detection CNN | |
CN112232340A (zh) | 一种物体表面印制信息的识别方法及装置 | |
Thilagavathy et al. | Fuzzy based edge enhanced text detection algorithm using MSER | |
Valiente et al. | A process for text recognition of generic identification documents over cloud computing | |
Stötzner et al. | CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation | |
Shi et al. | Research on strabismus iris segmentation model based on deep snake multitask learning | |
US12033376B2 (en) | Method and system for training neural network for entity detection | |
Bhuvaneswari et al. | An Extensive Review on Recognition of Antique Tamil characters for Information Repossession from Epigraphic Inscriptions | |
US20230196748A1 (en) | Method and system for training neural network for entity detection | |
Ahmed | Signage recognition based wayfinding system for the visually impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |