CN112232340A

CN112232340A - 一种物体表面印制信息的识别方法及装置

Info

Publication number: CN112232340A
Application number: CN202011102251.2A
Authority: CN
Inventors: 马婧
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15

Abstract

本发明实施例提供的物体表面印制信息的识别方法及装置，通过获取在无影光源下拍摄得到的物体的表面图像，然后将所述表面图像输入至基于神经网络的文本检测模型，最后识别模型输出的定位区块中的表面印制信息，大大提高了识别速度和识别准确度，在识别过程中可以排除物体反光等因素的影响。

Description

一种物体表面印制信息的识别方法及装置

技术领域

本发明涉及物体文本识别领域，具体涉及一种物体表面印制信息的识别方法及装置。

背景技术

根据国家有关部门规定，对所有的高值植入型耗材，医院使用时必须记录和追踪到每一个。骨科医疗耗材中有一种特殊的高值金属植入物骨钉及相关配件。该类型耗材追踪的方式是读取和记录表面的ID。

该类金属植入物因为体积极小，金属高反光材质，环形表面，打在表面的ID深浅不一等特点，无法用目前市场上现有的机器视觉或计算机视觉产品读取。目前市场上各大医院，全部靠人工读取和输入医院的各类信息系统。有些医院会分配放大镜给管理该类耗材的医护人员。但是实际上全部依赖人工的方式，费时而且极容易出错。又因为每次手术涉及的骨钉数量很大，手术的时间争分夺秒，留给操作和读取耗材时间极其有限，因此人工误读的概率很高。为医院和供应商管理该类型耗材提出了挑战。

发明内容

针对现有技术中的问题，本发明实施例提供一种物体表面印制信息的识别方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提供一种物体表面印制信息的识别方法，包括：

获取物体的表面图像；所述表面图像在无影光源下拍摄得到；

将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；

识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

在优选的实施例中，还包括：

建立文本检测模型。

在优选的实施例中，利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括：

在无影光源下拍摄多个不同物体的表面图像；

标注每个表面图像中包括表面印制信息的定位区块，并将已标注的表面图像组成训练集，输入至建立的所述文本检测模型。

在优选的实施例中，所述识别所述定位图块中的表面印制信息，包括：

通过至少一种文字识别方法对所述定位图块进行解析处理，得到对应每个定位区块的多个表面印制信息；

拟合所述多个表面印制信息，生成拟合后的所述表面印制信息。

在优选的实施例中，所述通过至少一种文字识别方法对所述定位图块进行解析处理，包括：使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。

在优选的实施例中，还包括：

对所述定位区块进行倾斜矫正。

在优选的实施例中，还包括：

根据所述识别出的所述表面印制信息的语义；

根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。

在优选的实施例中，还包括：

对所述表面图像进行预处理。

在优选的实施例中，所述预处理包括：噪声处理和颜色均一化处理。

本发明另一方面还提供一种物体表面印制信息的识别装置，包括：

图像获取模块，表面获取物体的表面图像；所述表面图像在无影光源下拍摄得到；

文本检测模块，将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；

识别模块，识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

在优选的实施例中，还包括：

文本检测模型建立模块，建立文本检测模型。

在优选的实施例中，利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型的步骤具体包括：

在无影光源下拍摄多个不同物体的表面图像；

在优选的实施例中，所述识别模块包括：

解析处理单元，通过至少一种文字识别装置对所述定位图块进行解析处理，得到对应每个定位区块的多个表面印制信息；

拟合单元，拟合所述多个表面印制信息，生成拟合后的所述表面印制信息。

在优选的实施例中，所述解析处理模块具体用于使用LSTM算法、MULTI-DIGITNUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。

在优选的实施例中，还包括：

矫正模块，对所述定位区块进行倾斜矫正。

在优选的实施例中，还包括：

语义识别模块，根据所述识别出的所述表面印制信息的语义；

筛选模块，根据所述语义从所述表面印制信息中筛选出所述表面印制信息中不符合所述语义对应场景的表面印制信息。

在优选的实施例中，还包括：

预处理模块，对所述表面图像进行预处理。

又一方面，本发明提供一种无影光源装置，包括：

光源罩；

底座，可放置被照射物体，包括环形带状光源，所述环形带状光源可朝向所述光源罩的内侧壁发射光线，以形成漫反射光；以及

摄像头，可采集所述漫反射光照射下的物体图像；其中，所述环形带状光源与一恒压电源耦接。

在优选的实施例中，所述底座还包括：

第一载板，其上侧承载被照射物体；

第二载板，位于所述第一载板的下侧，并且所述环形带状光源固定在所述第一载板和第二载板之间。

在优选的实施例中，还包括：

遮光带，固定在所述第二载板的周向，并具有与所述光源罩的边沿相配合的形状。

在优选的实施例中，所述光源罩为半球型。

又一方面，本发明提供一种无影光源系统，包括上位机，以及如上所述的无影光源装置，所述上位机与所述无影光源装置信号连接。

又一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述物体表面印制信息的识别方法的步骤。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述物体表面印制信息的识别方法的步骤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明一个实施例提供的物体表面印制信息的识别方法的流程示意图。

图2是本发明另一个实施例提供的文本检测模型网络架构示意图。

图3是本发明又一个实施例提供的物体表面印制信息的识别的装置的结构示意图之。

图4是本发明又一实施例中一种无影光源装置的结构示意图。

图5是本发明又一个实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是本发明一个实施例提供的物体表面印制信息的识别方法的流程示意图，如图1所示，本发明实施例提供的物体表面印制信息的识别方法，包括：

S101、获取物体的表面图像；

具体地，本发明中的物体的表面图像是在无影光源下拍摄得到，可以理解，本发明中的“无影光源”的概念是公知的，即采用独特的照射结构，从LED(或者其他光源)发出的光均匀地扩散照射，柔性线路板以90度照身角度固定，经漫反射板折射后低角度照射在被测物体上，对目标区域进行高效的低角度照明，以强化表面特征的一种光源。

在本实施例中，无影光源可以采用多点光源，例如医用无影灯。

具体来说，通过无影光源照射物体，然后通过摄像头拍摄即可得到所述表面图像。

进一步的，可以理解，本发明中的所述物体，不限定于医疗耗材，具体而言，本发明的发明构思始于医疗耗材，但本领域技术人员明了，本发明的发明构思与物体本身的用途或者材质无关。换而言之，本发明的物体可以是日常生活中的微小物体，例如电路板上微小元器件等。

举例而言，在医用无影灯的照射下，通过一扫描仪或相机扫描一个骨科医疗耗材，该类金属植入物因为体积极小，金属高反光材质，环形表面，打在表面的ID深浅不一等特点，无法用目前市场上现有的机器视觉或计算机视觉产品读取。

此外，本实施例中的获取，可以是直接拍摄得到，也可以是从已拍摄完成的表面图像中获取，进一步的，本发明中的相机可以集成高速摄像头，降低干扰。

S102、将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块。其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

具体地，文本检测模型可以采用目前已有的模型进行构建，然后利用无影光源下拍摄得到的表面图像进行训练。

例如，文本检测模型可以是CTPN(“Detecting Text in Natural Image withConnectionist Text Proposal Network”，基于连接预选框网络的文本检测)。该模型主要是对图片中的文本行进行准确定位，其基本做法是直接在卷积获得的feature map(特征图)上生成的一系列适当尺寸的文本proposals(预选框)进行文本行的检测。

该实施例中，CTPN模型利用了RNN和CNN的无缝结合来提高检测精度。其中，CNN用来提取深度特征，RNN用于序列的特征识别，二者无缝结合，在检测上性能更好。

CTPN模型通过利用VGG16卷积输出的feature map(特征图)生成一系列proposals(预选框)进行检测。由于文字信息是由“字符、字符的一部分、多字符”组成的一个序列，所以文字这个检测目标并不是独立、封闭的，而是有前后关联的，因此在CTPN中采用了RNN(Recurrent Neural Networks，循环神经网络)来利用前后文的信息进行文本位置的预测。

举例而言，首先提供一个医用耗材的所述表面图像，然后利用上述模型进行检测，具体步骤如下：

第一步：输入3×600(h)×900(w)的图像(卷积维度可以根据实际需要设置)，使用VGG16进行特征的提取，得到conv5_3(VGG第5个block的第三个卷积层)的特征作为featuremap，大小为512×38×57；

第二步：在这个feature map上做滑窗，窗口大小是3×3，即512×38×57变为4608×38×57(512按3×3卷积展开)；

第三步：将每一行的所有窗口对应的特征输入到RNN(BLSTM，双向LSTM)中，每个LSTM层是128个隐层，即57×38×4608变为57×38×128，Reverse-LSTM同样得到的是57×38×128，合并后最终得到结果为256×38×57；

第四步：将RNN的结果输入到FC层(全连接层)，FC层是一个256×512的矩阵参数，得到512×38×57的结果；

第五步：FC层特征输入到三个分类或者回归层中。第一个2k verticalcoordinate和第三个k side-refinement是用来回归k个anchor的位置信息(可以简单理解为是要确定字符位置的小的矩形框，上面示意图中的红色小长框，宽度固定，默认为16)，第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)；

第六步：使用文本构造的算法，将得到的细长的矩形框，将其合并成文本的序列框。其中文本构造算法的主要的思路为：每两个相近的候选区组成一个pair，合并不同的pair直到无法再合并为止。

S103、识别所述定位图块中的表面印制信息。

具体地，可以通过文字识别技术识别定位图块中的表面印制信息，本发明对文字识别的方法不作限定，可以理解，常规的文字识别常用的方法有模板匹配法和几何特征抽取法。模板匹配法将输入的文字与给定的各类别标准文字(模板)进行相关匹配，计算输入文字与各模板之间的相似性程度，取相似度最大的类别作为识别结果，这种方法的缺点是当被识别类别数增加时，标准文字模板的数量也随之增加。这一方面会增加机器的存储容量，另一方面也会降低识别的正确率，所以这种方式适用于识别固定字型的印刷体文字。这种方法的优点是用整个文字进行相似度计算，所以对文字的缺损、边缘噪声等具有较强的适应能力。对于几何特征抽取法抽取文字的一些几何特征，如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等，根据这些特征的位置和相互关系进行逻辑组合判断，获得识别结果。这种识别方式由于利用结构信息，也适用于手写体文字那样变型较大的文字。

本发明实施例提供的物体表面印制信息的识别方法，通过获取在无影光源下拍摄得到的物体的表面图像，然后将所述表面图像输入至基于神经网络的文本检测模型，最后识别模型输出的定位区块中的表面印制信息，大大提高了识别速度和识别准确度，在识别过程中可以排除物体反光等因素的影响。

在上述各实施例的基础上，进一步地，还包括：建立文本检测模型。

具体地，可以利用matlab或者其他开源软件设置对应的神经网络层结构，例如其中的神经元、权重矩阵等，本发明不做过多说明。

进一步的，本发明中，利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括：

在无影光源下拍摄多个不同物体的表面图像；

举例而言，可以针对不同物体拍摄不同表面图像，然后对该表面图像进行字符定位，将定位后的表面图像组成训练集训练文本检测模型。

图2是本发明另一个实施例提供的文本检测模型的结构示意图，如图2所示，与上一实施例相区别的，本实施例采用的文本检测模型基于EAST算法，EAST的网络结构总共包含三个部分：feature extractor stem(特征提取分支)，feature-merging branch(特征合并分支)以及output layer(输出层)。

在特征提取分支部分，主要由四层卷积层组成，可以是一些预训练好的卷积层，作者采用的是VGG16中pooling-2到pooling-5每一层得到的featuremap。记每一层卷积层卷积后得到featuremap为fi。

在特征合并分支部分，对于一个fi，首先经过一层反池化操作，得到与上一层卷积featuremap同样大小的特征，然后将其与fi+1进行拼接，拼接后再依次进入一层1\times1和3\times3的卷积层，以减少拼接后通道数的增加，得到对应的hi+1，在特征合并分支的最后一层，是一层3\times3的卷积层，卷积后得到的featuremap最终直接进入输出层。本实施例中，由于在场景文字识别中，文字的大小非常极端，较大的文字需要神经网络高层的特征信息，而比较小的文字则需要神经网络浅层的特征信息，因此，只有将网络不同层次的特征进行融合才能满足要求。

在输出层部分，主要有两部分，一部分是用单个通道的1\times1卷积得到scoremap(分数图)，另一部分是多个通道的1\times1卷积得到geometrymap(几何形状图)，在这一部分，几何形状可以是RBOX(旋转盒子)或者QUAD(四边形)。对于RBOX，主要有5个通道，其中四个通道表示每一个像素点与文本线上、右、下、左边界距离(axis-alignedboundingbox，AABB)，另一个通道表示该四边形的旋转角度\theta。对于QUAD，则采用四边形四个顶点的坐标表示，因此，总共有8个通道。对于scoremap，EAST对真实标签的四边形区域会进行放缩，放缩的方式如下：

首先，记四边形Q＝{Pi/i∈{1,2,3,4}}，其中，Pi＝{xi，yi}表示四边形顺时针方向的四个顶点，然后计算每个顶点pi的参考长度ri，其中，D(pi，pj)表示pi和pj的欧式距离。

对于四边形每一对对边，将两条边的长度与他们的均值进行对比，以确定出哪对对边是长边，然后对两条长边优先进行放缩，放缩的方式是对每个顶点沿着边向内部分别移动0.3ri。

对于geometrymap的两种类型，分别是QUAD和RBOX，对于scoremap为正例的像素点，其QUAD对应的标签直接是他们与四个顶点的偏移坐标，即顶点的差值，而对于RBOX，则首先会选择一个最小的矩形框住真实的四边形，然后计算每个正例像素点与该矩形四条边界的距离。

本实施例中，对应着两个损失函数，可以表达如下：

L＝Ls+λgLg

其中，Ls和Lg分别表示scoremap和geometrymap的损失函数，λg表示权重。

图2中的其余过程本发明不作进一步说明，可以理解，经过图2所示的文本检测即可获得每个定位图块。

上述各实施例的基础上，进一步地，所述识别所述定位图块中的表面印制信息，包括：

具体的，可以通过例如LSTM、multi-digit number classification以及GRU共同对表面印制信息进行OCR识别。

举例而言，以一印刷体文字识别为例进行说明，其大致包括：图像预处理；图像切分；特征提取、匹配及模型训练、匹配；识别后处理等步骤。

对于本发明中的图像预处理步骤，输入文本经过扫描仪进入计算机后，由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变，产生断笔、粘连和污点等干扰，所以在进行文字识别之前，要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前，所以被称为预处理。预处理一般包括灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等。

对于本发明中的灰度化步骤，通过外设采集的图像通常为彩色图像，彩色图像会夹杂一些干扰信息，灰度化处理的主要目的就是滤除这些信息，灰度化的实质其实就是将原本由三维描述的像素点，映射为一维描述的像素点。转换的方式和规则有很多，在这里不详细介绍。

对于本发明中的二值化步骤，经过灰度处理的彩色图像还需经过二值化处理将文字与背景进一步分离开，所谓二值化，就是将灰度值(或者彩色值)图像信号转化成只有黑(l)和白(0)的二值图像信号。二值化效果的好坏，会直接影响灰度文本图像的识别率。二值化方法大致可以分为局部阈值二值化和整体阈值二值化。

对于本发明中的倾斜校正步骤，一般而言，医药耗材的表面印刷信息是由平行于页面边缘的水平(或者垂直)的文本行(或者列)组成的，即倾斜角度为零度。然而在文本页面扫描过程中，不论是手工扫描还是机器扫描，都不可避免地会出现图像倾斜现象。而倾斜的文档图像对后期的字符分割、识别和图像压缩等工作将产生很大影响。为了保证后续处理的正确性，对文本图像进行倾斜检测和校正是十分必要的。

文本图像的倾斜校正分为手动校正和自动校正两种。手动校正，是指识别装置提供某种人机交互手段，实现文本图像的倾斜校正。自动校正，是指由计算机自动分析文本图像的版面特征，估计图像的倾斜角度，并根据倾斜角度对文本图像进行校正。

本发明中，文本图像的倾斜检测方法可以是如下至少一种：基于投影图的方法，基于Houhg变换的方法，基于交叉相关性的方法，基于Fourier变换的方法和基于最近邻聚类方法。

本发明实施例中，最简单的基于投影图的方法是将文本图像沿不同方向进行投影。当投影方向和文字行方向一致时，文字行在投影图上的峰值最大，并且投影图存在明显的峰谷，此时的投影方向就是倾斜角度。

本发明实施例中，Huogh变换是一种最常用的倾斜检测方法，它是利用Hough变换的特性，将图像中的前景像素映射到极坐标空间，通过统计极坐标空间各点的累加值得到文档图像的倾斜角度。

本发明实施例中，Fourier变换的方法是利用页面倾角对应于使Fourier空间密度最大的方向角的特性，将文档图像的所有像素点进行Fourier变换。

本发明实施例中，基于最近邻聚类方法，取文本图像的某个子区域中字符连通域的中心点作为特征点，利用基线上的点的连续性，计算出对应的文本行的方向角，从而得到整个页面的倾斜角。

对于本发明实施例中的规范化步骤，规范化操作就是将输入的任意尺寸的文字都处理成统一尺寸的标准文字，以便与己经预先存储在字典中的参考模板相匹配。规范化操作包括:位置规范化、大小规范化以及笔划粗细规范化。在本节只讨论位置规范化和大小规范化。

为了消除文字点阵位置上的偏差，需要把整个文字点阵图移动到规定的位置上，这个过程被称为位置规范化。常用的位置规范化操作有两种，一种是基于质心的位置规范化，另一种是基于文字外边框的位置规范化。基于文字外边框的位置规范化需要首先计算文字的外边框，并找出中心，然后把文字中心移动到指定的位置上来。基于质心的位置规范化方法抗干扰能力比基于文字外边框的位置规范化方法要强。

对不同大小的文字做变换，使之成为同一尺寸大小，这个过程被称为大小规范化。很多已有的多字号印刷体识别装置都是通过大小规范化来识别不同字号的文字。常用的大小规范化操作也有两种，一种是将文字的外边框按比例线性放大或缩小成规定尺寸的文字，另一种是根据水平和垂直两个方向上文字黑像素的分布情况进行大小规范化。

对于本发明实施例中的图像平滑步骤，文本图像经过平滑处理之后，能够去掉笔划上的孤立白点和笔划外部的孤立黑点，以及笔划边缘的凹凸点，使得笔划边缘变得平滑。一种简单的平滑处理方法如下。采用NxN窗口(N一般为3，例如3X3窗口)，依次在二值文字点阵中进行扫描，根据窗口中黑白像素的分布情况，使处于窗口中心的被平滑像素X。，从“0”变成“1”或者从“l”变成“0”。

对于本发明实施例中的图像切分步骤，图像切分大致可以分为两个个主要类别，行(列)切分和字切分。经过切分处理后，才能方便对单个文字进行识别处理。对于本发明实施例中的行列切分步骤，由于印刷体文字图像行列间距.、字间距大致相等，且几乎不存在粘连现象，所以可以采用投影法对图像进行切分，得到每列(行)在坐标轴的像素值投影曲线是一个不平滑的曲线，通过高斯平滑后的曲线在每个波谷位置间的区域即为要的一行(列)。

对于本发明实施例中的字切分步骤，字切分对于不同的文种存在着比较明显的差异，通常意义下，字切分是指将整行或整列文字切分成独立的一个个文字，而实际上根据文种差异，可能还需需要将单个文字进行进一步切分。而因为文种不同，构词法或钩字法也有所不同，所以切分方法的难度差别也是天壤之别。

特征提取是从单个字符图像上提取统计特征或结构特征的过程。所提取的特征的稳定性及有效性，决定了识别的性能。对于统计特征的提取，可利用统计模式识别中的特征提取方法，而对结构特征的提取，应根据具体文字所确定的识别基元确定相应的特征提取方法。在相当长的文字识别的研究过程中，是利用人们的经验知识，指导文字特征的提取。例如边缘特征、变换特征、穿透特征、网格特征、特征点特征、方向线素特征等等。

特征匹配是从已有的特征库中找到与待识别文字相似度最高的文字的过程。当待识别文字提取完特征之后，不管使用的是统计特征，还是结构特征，都需要有一个特征库来进行比对，特征库中应包含欲识别字符集中所有文字的特征。特征匹配的方法有很多，比较常用的有:欧式空间的比对法、松弛比对法、动态程序比对法以及HMM(HiddneMarkovModel)法等等。在神经网络出现之前以及之后很长一段时间，在汉字OCR领域，一直采用的就是这种模板匹配的方法。

本发明的OCR识别可以基于神经网络实现，通过建立神经网络模型和对模型进行训练，得到可自我更新优化的识别模型，例如网络的输入为文字特征向量，输出是类编码，在识别类型较少且结构区分较为明显的文字识别中，特征向量通常为字符图像像素点的矩阵。

从上述实施例中，本领域技术人员明了，可以明确本发明一些实施例中进一步包括：对所述定位区块进行倾斜矫正。

从上述实施例中，本领域技术人员明了，可以明确本发明一些实施例中进一步包括：对所述表面图像进行预处理。

从上述实施例中，本领域技术人员明了，可以明确本发明中的所述预处理包括：噪声处理和颜色均一化处理。

此外，进一步的，在优选的实施例中，可以基于语义删除不符合场景的表面印制信息，该实施例中，本发明的方法还包括：

根据所述识别出的所述表面印制信息的语义；

举例而言，对于医用耗材来说，其可能出现的语义仅仅限于医学场景，其他非医学场景应当被删除。

综上所述，本发明实施例提供的物体表面印制信息的识别方法，通过获取在无影光源下拍摄得到的物体的表面图像，然后将所述表面图像输入至基于神经网络的文本检测模型，最后识别模型输出的定位区块中的表面印制信息，大大提高了识别速度和识别准确度，在识别过程中可以排除物体反光等因素的影响。

图3是本发明又一个实施例提供的物体表面印制信息的识别的装置的结构示意图，如图3所示，本发明实施例提供的物体表面印制信息的识别的装置包括：

图像获取模块1，表面获取物体的表面图像；所述表面图像在无影光源下拍摄得到；

文本检测模块2，将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；

识别模块3，识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

本发明实施例提供的物体表面印制信息的识别装置，通过获取在无影光源下拍摄得到的物体的表面图像，然后将所述表面图像输入至基于神经网络的文本检测模型，最后识别模型输出的定位区块中的表面印制信息，大大提高了识别速度和识别准确度，在识别过程中可以排除物体反光等因素的影响。

在优选的实施例中，还包括：

文本检测模型建立模块，建立文本检测模型。

在无影光源下拍摄多个不同物体的表面图像；

在优选的实施例中，所述识别模块包括：

在优选的实施例中，使用LSTM(长短期记忆)模型。LSTM是一种RNN(时间循环神经网络)，广泛的使用在文字识别和语音识别领域。(http://colah.github.io/posts/2015-08-Understanding-LSTMs/LSTM论文)

在优选的实施例中，还包括：

矫正模块，对所述定位区块进行倾斜矫正。

在优选的实施例中，还包括：

预处理模块，对所述表面图像进行预处理。

本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

进一步的，在本发明的又一方面实施例中，提供一种如图4所示的无影光源装置，具体而言，包括：光源罩1；底座2，可放置被照射物体5，包括环形带状光源3，所述环形带状光源3可朝向所述光源罩1的内侧壁发射光线，以形成漫反射光；以及摄像头4，可采集所述漫反射光照射下的物体图像；其中，所述环形带状光源3与一恒压电源耦接。

本发明提供的无影光源装置，其通过环形带状光源将光在光源罩的侧壁上反射形成漫反射光，即可形成无影光源，结构简单并且制作工艺简单。

在一些实施例中，所述摄像头位于所述光源罩的顶部中央位置。

该实施例中，摄像头位于光源罩的顶部中央位置，进而可以使得拍摄视角最大。

在一些实施例中，所述底座还包括：第一载板，其上侧承载被照射物体；第二载板，位于所述第一载板的下侧，并且所述环形带状光源固定在所述第一载板和第二载板之间。可以看出，环状光源设置在第一载板和第二载板之间，进而形成了固定结构。

进一步的，该无影光源装置还包括：遮光带，固定在所述第二载板的周向，并具有与所述光源罩的边沿相配合的形状。遮光带可以避免环状光源发出的光直接照射到物体表面，避免直射光的影响。

此外，所述光源罩为半球型。半球型光源罩产生漫反射光较为均匀，进而使得被照射物体的表面光照程度一致，提高物体表面印刷信息的识别度。

在优选的实施例中，所述第一载板的中央处形成有凹陷，被照射物体可被容置于所述凹陷内。当物体被放置在凹陷中时，由于凹陷的侧壁不会使得光反射到正上方的摄像头上，因此可以形成清晰的对比度，提高物体表面印刷信息的识别精度。

进一步的，本无影光源装置还包括：通讯模块，与所述摄像头耦接和外部的上位机耦接。通讯模块可以是蓝牙、无线收发器等无线通讯器，也可以是数据线以及视频信号解码器的集成，本发明对此不作限制。

可以理解，正是通过本发明的无影光源装置，形成了无影光源，进而可以方便后续的表面印刷信息的识别。

进一步的，本发明又一方面实施例提供一种无影光源系统，包括：上位机，以及如上所述的无影光源装置，所述上位机与所述无影光源装置信号连接。

可以理解，本发明的上位机可以是计算机设备或者其他具有处理能力的设备，本发明不做限制，正是通过本发明的无影光源系统，通过无影光源装置形成了无影光源，然后通过上位机进行识别处理，进而可以方便后续的表面印刷信息的识别。

综上所述，本发明具有如下优点：

提高识别速度：经过调研，人工识别的速度不计入出错纠错等动作，约为6.2秒每次。本发明的识别速度，大约是0.5秒/次。速度提高了10倍有余。同时随着产品升级换代和算法的改进，读取时间有进一步大幅度缩短到0.2秒/次以下的可能。

降低管理时间：本发明读取到被识别物的ID以后，可提供自动送至信息系统中的功能。通讯和传输时间单次不到2秒，且都是后台执行不需要管理人员等候。相比管理人员转录和确认要花每个超过15秒的实际情况，有大幅度提高。

提高管理效率：使用前完全依赖人工转录和纠错，但因为手术现场时间极其有限，无论是发生错误后事后纠错或者现场依照制度找另一人来稽核，均对本已相当紧张医疗人力形成浪费。据统计大约每笔在7到10秒，本发明可以节省这一部分的时间。

提高识别准确率：经过实验室测试，如果读取时间控制在6秒以内，则大约人为失误率在5％上下。对人的操作来说，错误率和读取的时间成反比，但是现实中不可能允许医务人员有大量的时间慢慢读取。以脊椎骨钉为例，一台手术大约需要12根钉子甚至更多，手术时间争分夺秒每多一秒钟都对患者形成风险。经过测试，目前本发明可以将错误率稳定控制在0.7％以下。

降低单次成本的目的：如果将医护人员管理(转录，检查，计费，纠错等)时间和识别时间合并计算，本发明单次读取的成本约为纯人工成本的三分之一。

图5是本发明又一个实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)1201、通信接口(Communications Interface)1202、存储器(memory)1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信。处理器1201可以调用存储器1203中的逻辑指令，以执行如下方法：获取物体的表面图像；所述表面图像在无影光源下拍摄得到；将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

此外，上述的存储器1203中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取物体的表面图像；所述表面图像在无影光源下拍摄得到；将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取物体的表面图像；所述表面图像在无影光源下拍摄得到；将所述表面图像输入至预设的文本检测模型，所述文本检测模型的输出为所述表面图像的定位图块；识别所述定位图块中的表面印制信息；其中，所述文本检测模型是利用无影光源下拍摄得到的表面图像训练形成。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物体表面印制信息的识别方法，其特征在于，包括：

2.根据权利要求1所述的识别方法，其特征在于，还包括：

建立文本检测模型。

3.根据权利要求2所述的识别方法，其特征在于，利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型包括：

在无影光源下拍摄多个不同物体的表面图像；

4.根据权利要求1所述的识别方法，其特征在于，所述识别所述定位图块中的表面印制信息，包括：

5.根据权利要求4所述的识别方法，其特征在于，所述通过至少一种文字识别方法对所述定位图块进行解析处理，包括：使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。

6.根据权利要求2所述的识别方法，其特征在于，还包括：

对所述定位区块进行倾斜矫正。

7.根据权利要求6所述的识别方法，其特征在于，还包括：

根据所述识别出的所述表面印制信息的语义；

8.根据权利要求1所述的识别方法，其特征在于，还包括：

对所述表面图像进行预处理。

9.根据权利要求8所述的识别方法，其特征在于，所述预处理包括：噪声处理和颜色均一化处理。

10.一种物体表面印制信息的识别装置，其特征在于，包括：

11.根据权利要求10所述的识别装置，其特征在于，还包括：

文本检测模型建立模块，建立文本检测模型。

12.根据权利要求11所述的识别装置，其特征在于，利用无影光源下拍摄得到的表面图像训练形成所述文本检测模型的步骤具体包括：

在无影光源下拍摄多个不同物体的表面图像；

13.根据权利要求10所述的识别装置，其特征在于，所述识别模块包括：

14.根据权利要求13所述的识别装置，其特征在于，所述解析处理单元具体用于使用LSTM算法、MULTI-DIGIT NUMBER CLASSIFICATION算法以及GRU算法对所述定位图块进行解析处理。

15.根据权利要求11所述的识别装置，其特征在于，还包括：

矫正模块，对所述定位区块进行倾斜矫正。

16.根据权利要求10所述的识别装置，其特征在于，还包括：

17.根据权利要求10所述的识别装置，其特征在于，还包括：

预处理模块，对所述表面图像进行预处理。

18.根据权利要求17所述的识别装置，其特征在于，所述预处理包括：噪声处理和颜色均一化处理。

19.一种无影光源装置，其特征在于，包括：

光源罩；

底座，可放置被照射物体，包括环形带状光源，所述环形带状光源可朝向所述光源罩的内侧壁发射光线，以形成漫反射光；

20.根据权利要求19所述的无影光源装置，其特征在于，所述底座还包括：

第一载板，其上侧承载被照射物体；

21.根据权利要求20所述的无影光源装置，其特征在于，还包括：

22.根据权利要求19所述的无影光源装置，其特征在于，所述光源罩为半球型。

23.一种无影光源系统，其特征在于，包括上位机，以及如权利要求19-22任一项所述的无影光源装置，所述上位机与所述无影光源装置信号连接。

24.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。