CN109598312A

CN109598312A - 一种透明体或半透明体覆盖的文本识别方法及系统

Info

Publication number: CN109598312A
Application number: CN201811452160.4A
Authority: CN
Inventors: 金志虎; 汪澜; 龚谱升; 赵兴旺; 张传玺; 占正春
Original assignee: Shenzhen Gongjin Electronics Co Ltd
Current assignee: Shenzhen Gongjin Electronics Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-09
Anticipated expiration: 2038-11-30
Also published as: CN109598312B

Abstract

本发明提供一种透明体或半透明体覆盖的文本识别方法及系统，所述方法包括输入无覆盖文本的图像中预设字符对卷积神经网络进行训练；对无覆盖文本的图像中预设字符进行特征测量和计算，得到预设字符的特征数据，特征数据包括多个特征点；通过多个预设视角获取同一覆盖文本的多个图像；对同一覆盖文本的多个图像中待测字符进行特征测量，得到多个待测字符的特征数据；将多个待测字符的特征数据进行平均得到待测字符的特征数据平均值；将待测字符的特征数据平均值和预设字符的特征数据比较，识别同一覆盖文本中待测字符；输入被识别出的待测字符对卷积神经网络进行训练。本发明通过机器学习，解决了现有技术对覆盖文本中字符不能识别问题。

Description

一种透明体或半透明体覆盖的文本识别方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种透明体或半透明体覆盖的文本识别方法及系统。

背景技术

为了满足大众审美的要求，很多产品的LOGO和铭牌等文本信息外表会覆盖一层非镜面的、不平整的透明体，用于营造水波纹、扭曲、云雾等视觉小效果；有些则用半透明材质营造朦胧的视觉效果。由于这种非镜面透明体或者半透明体覆盖在文本表面，造成机器对于文本识别困难。

发明内容

为解决上述技术问题，本发明提供一种透明体或半透明体覆盖的文本识别方法及系统。

本发明提供的一种透明体或半透明体覆盖的文本识别方法，所述方法包括：

获取无覆盖文本的图像，所述无覆盖文本包括至少一个预设字符；

输入所述无覆盖文本的图像中每一预设字符对卷积神经网络进行训练；

对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点；

通过多个预设视角获取同一覆盖文本的多个图像，所述同一覆盖文本的每一图像对应一个预设视角；

对所述同一覆盖文本的多个图像中每一待测字符进行特征测量，得到多个每一待测字符的特征数据；

将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值；

将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符；

输入被识别出的每一待测字符对卷积神经网络进行训练。

进一步地，对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点具体包括：

测量每一预设字符的字体像素、框选所述预设字符的最小长方形的底色像素，使用所述字体像素除以所述底色像素，得到面积占比；

将框选每一预设字符的最小长方形划分成四个相等的象限，测量每一象限均化对比度；

将每一像素当作一个质量单位，测量每一预设字符的重心坐标；

测量每一预设字符的高度像素和宽度像素，以所述高度像素除以所述宽度像素得到每一字符的二维度比值；

按照预设规则测量每一预设字符的夹角；

测量和计算得到每一预设字符的特征数据，所述特征数据包括五个特征点，所述五个特征点分别是面积占比、每一象限均化对比度、重心坐标、二维度比值和夹角。

进一步地，将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值具体包括：

从多个每一待测字符的特征数据中提取多个面积占比数据，加和平均得到面积占比平均值；

从多个每一待测字符的特征数据中提取多个每一象限均化对比度数据，加和平均得到每一象限均化对比度平均值；

从多个每一待测字符的特征数据中提取多个重心坐标数据，加和平均得到重心坐标平均值；

从多个每一待测字符的特征数据中提取多个二维度比值，加和平均得到二维度比值平均值；

从多个每一待测字符的特征数据中提取多个夹角数据，加和平均得到夹角数据平均值；

所述每一待测字符的特征数据平均值包括所述面积占比平均值、每一象限均化对比度平均值、重心坐标平均值、二维度比值平均值和夹角平均值。

进一步地，将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符具体包括：

将每一待测字符的面积占比平均值、每一象限均化对比度平均值、重心平均值、二维度比值平均值、夹角平均值分别与每一预设字符的面积占比、每一象限均化对比度、重心坐标、二维度比值、夹角对比；

当任意两组对比的特征点相等，另三组对比的特征点之间差值绝对值均小于预设差值，则识别所述待测字符为所述预设字符。

进一步地，所述方法还包括：

当小于两组对比的特征点相等，或者当任意两组对比的特征点相等，另三组对比的特征点中有至少一组对比特征点之间差值大于等于预设差值，则识别所述待测字符不为所述预设字符。

本发明提供的一种透明体或半透明体覆盖的文本识别系统，所述系统包括：

第一获取单元，用于获取无覆盖文本的图像，所述无覆盖文本包括至少一个预设字符；

第一训练单元，用于输入所述无覆盖文本的图像中每一预设字符对卷积神经网络进行训练；

第一测量计算单元，用于对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点；

第二获取单元，用于通过多个预设视角获取同一覆盖文本的多个图像，所述同一覆盖文本的每一图像对应一个预设视角；

第二测量计算单元，用于对所述同一覆盖文本的多个图像中每一待测字符进行字符特征测量，得到多个每一待测字符的特征数据；

计算单元，用于将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值；

识别单元，用于将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符；

第二训练单元，用于输入被识别出的每一待测字符对卷积神经网络进行训练。

进一步地，所述第一测量计算单元具体用于：

按照预设规则测量每一预设字符的夹角；

测量和计算得到每一预设字符的特征数据，所述特征数据包括五个特征点，所述五个特征点分别是面积占比、每一象限的均化对比度、重心坐标、二维度比值和夹角。

进一步地，所述计算单元具体用于：

进一步地，所述识别单元具体用于：

当任意两组对比的特征点相等，另三组对比的特征点之间差值小于预设差值，则识别所述待测字符为所述预设字符。

进一步地，所述识别单元还用于：

实施本发明，具有如下有益效果：

本发明通过识别出无覆盖文本中字符，根据相同字符在无覆盖和透明体或半透体覆盖下至少具有部分相同特征，识别出透明体或半透明体覆盖的文本中字符，将无覆盖文本和透明体或半透明体覆盖文本中的字符对机器进行多次反复训练，使得机器通过智能学习达到快速识别无覆盖文本中的字符以及透明体或者半透体覆盖文本中的字符，解决了现有技术下由于非镜面透明体或者半透明体覆盖在文本表面，造成机器对于文本识别困难的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的透明体或半透明体覆盖的文本识别方法的流程图。

图2是本发明实施例提供的无覆盖文本的示意图。

图3是本发明实施例提供的测量和计算面积占比的场景示意图。

图4是本发明实施例提供的测量每一象限的均化对比度场景示意图。

图5是本发明实施例提供的测量每一预设字符的重心坐标场景示意图。

图6是本发明实施例提供的测量每一预设字符的二维度比值场景示意图。

图7是本发明实施例提供的按照预设规则测量每一预设字符的夹角场景示意图。

图8是本发明实施例提供的透明体或半透明体覆盖的文本识别系统结构图。

具体实施方式

本专利核心内容为通过训练，使得机器可以识别在透明体或半透明体覆盖的文本中字符，以下结合附图和实施例对该透明体或半透明体覆盖的文本识别方法及系统具体实施方式做进一步说明。

下面将详细描述本发明提供的透明体或半透明体覆盖的文本识别方法及系统的实施例。

如图1所示，本发明实施例提供一种透明体或半透明体覆盖的文本识别方法，所述方法包括：

步骤S11、获取无覆盖文本的图像，所述无覆盖文本包括至少一个预设字符。

需要说明的是，这里获取可以是通过拍摄的方式获取图像，也可以是接收到已经拍摄的图像；无覆盖文本是指文本被拍摄或者拍照时，文本表面没有任何覆盖物，这里任何覆盖物包括透明覆盖物或者半透明非镜面覆盖物，目的是为了防止覆盖物对图像造成失真、变形的效果。

还需要说明的是，这里预设字符包括英文字母、阿拉伯数字、加减乘除符号、逗号、句号和冒号；当然也可以用在一些特殊字体或者符号的领域。

具体的无覆盖文本可以参见图2对应实施例。

步骤S12、输入所述无覆盖文本的图像中每一预设字符对卷积神经网络进行训练。

需要说明的是，卷积神经网络即人工智能网络，具备有学习的功能；用无覆盖文本的图像中每一预设字符对卷积神经网络进行训练，训练后的卷积神经网络对没有覆盖文本的图像中的每一预设字符达到一定的识别率；但是对于覆盖文本上的字符确很难识别，或者识别出来的错误率比较高，原因在于透明或者半透明覆盖物对光线会产生折射，导致字符的某些特征发生变化，最终使得卷积神经网络无法识别。

步骤S13、对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点。

在本实施例中，特征数据包括五个特征点，步骤S13具体包括：

将框选每一预设字符的最小长方形划分成四个相等的象限，测量每一象限的均化对比度；

按照预设规则测量每一预设字符的夹角；

对每一预设字符进行特征测量的方法在图3至图7对应的实施例中进行说明。

步骤S14、通过多个预设视角获取同一覆盖文本的多个图像。

在本实施例中，通过九个不同的预设视角来拍摄同一覆盖文本的九个图像，同一覆盖文本的每一图像对应一个预设视角，图像数量越多，后续步骤准确度越高；本文中覆盖文本是指文本上覆盖有半透明体或者非镜面透明体，同一覆盖文本是指采用不同预设视角拍摄时，覆盖文本不变。

步骤S15、对同一覆盖文本的多个图像中每一待测字符进行特征测量，得到多个每一待测字符的特征数据。

需要说明的是，步骤S15中特征测量和步骤S13中特征测量的方法是一样的，步骤S15涉及有多个图像，因此针对每一图像中同一待测字符重复一遍特征测量。

步骤S16、将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值。

需要说明的是，每一图像可以得到每一待测字符的特征数据，多个图像就可以得到多个每一待测字符的特征数据，将特征数据进行加和平均得到每一待测字符的特征数据平均值。

步骤S17、将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符。

需要说明的是，特征数据的比较实际上是特征数据所包括的每一特征点的比较，当待测字符的特征点与预设字符特征点达到一定相似程度时，则可以认为待测字符就是上述预设字符，就识别出该待测字符；具体的识别方法在图3对应的实施例中进行说明。

步骤S18、输入被识别出的每一待测字符对卷积神经网络进行训练。

在本实施例中，步骤S12和步骤18的训练都是反复多次的，步骤S12的目的是为了使得卷积神经网络能够识别无覆盖文本中每一字符，步骤S18的目的是为了使得卷积神经网络能够识别覆盖文本中的每一字符；经过步骤S12和步骤S18大量训练，使得卷积神经网络对于字符能够广泛识别，尤其是字符被为实现各种美术效果的透明或者半透明覆盖物下，依然能够快速进行识别，提高该人工智能网络应用范围和对环境的适应能力。

如图2所示，本发明实施例提供了无覆盖文本，无覆盖文本包括英文字母、数字、加减乘除符号、冒号、逗号和句号，图2所示的无覆盖文本仅仅是一个示例，当然可以是一个无覆盖文本上包括所有26字母大写、26个字母小写、0至9共10个数字、加减乘除四个运算符号、冒号、逗号和句号；也可以是多个无覆盖文本上共有上述字母、数字、运算符号和标点符号；无覆盖文本提供预设字符以供机器进行识别、学习以及特征测量和计算，特征测量和计算的目的是为了得到每一预设字符的特征数据。

如图3所示，本发明实施例提供了测量和计算面积占比的场景，测量和计算面积占比方法具体包括：测量每一预设字符的字体像素、框选所述预设字符的最小长方形的底色像素，使用所述字体像素除以所述底色像素，得到面积占比；

在本实施例中，测量预设字符A的字体像素31，用能够框选预设字符A的最小长方形33对字符A进行框选，测量框选预设字符A的最小正方形33的底色像素32，使用字体像素31除以底色像素32，得到面积占比；例如字体像素31的测量结果为1140个，底色像素3410个，比值为0.33431。

如图4所示，本发明实施例提供了测量每一象限均化对比度的场景，测量每一象限均化对比度方法具体包括：将框选每一预设字符的最小长方形划分成四个相等的象限，测量每一象限的均化对比度；

在本实施例中，框选预设字符A的最小长方形被划分成四个相等的象限，划分的方法是沿长度和宽度的中心线划分，测量每一象限的均化对比度；例如框选预设字符A的最小长方形被划分成了1、2、3、4象限，测量的每一象限均化对比度分别为170度、170度、120度和120度，可以把测量每一象限均化对比度看作一个值。

如图5所示，本发明实施例提供了测量每一预设字符的重心坐标的场景，测量每一预设字符的重心坐标方法具体包括：将每一像素当作一个质量单位，测量每一预设字符的重心坐标；

在本实施例中，测量得到预设字符O的重心为51，预设字符Q的重心为52，测量的前提是每个像素等质量等尺寸，根据重心51、52的位置即可分别测量得到O字符和Q字符的重心坐标，从本实施可以看出即使两字符外观很近似，但是实际上其重心及中心坐标并不相同。

如图6所示，本发明实施例提供了测量每一预设字符的二维度比值的场景，测量每一预设字符的二维度比值方法具体包括：测量每一预设字符的高度像素和宽度像素，以所述高度像素除以所述宽度像素得到每一字符的二维度比值；

本实施例中，测量预设字符I和预设字符G的二维度比值，测量得到预设字符I的高度像素61的值为70以及宽度像素62的值为10，以高度像素61除以宽度像素62得到字符I的二维度比值为7；测量得到预设字符G的的高度像素63的值为70以及宽度像素64的值为65，以高度像素63除以宽度像素64得到字符G的二维度比值为1.760923。

如图7所示，本发明实施例提供了按照预设规则测量每一预设字符的夹角的场景，预设的规则包括：预设字符的夹角为两侧切线的夹角，两侧切线相交于字体上方定义为正夹角，两侧切线相交于字体下方定义为负夹角，平行就认定夹角为零，因而同一个字符的不同字体，其两侧切线的夹角都不一样，有一个例外是乘号；

在本实施例中，预设字符F的两侧切线71和72在所述预设字符F相交，测量夹角的度数并且标注为负数；预设字符L的两侧切线73和74在所述预设字符L相交，测量夹角的度数并且标注为正数；预设字符乘号属于例外情况，有两个夹角，一个是两侧切线75和76形成的负夹角，一个是两侧切线77和78形成的正夹角。

另外没有在图中展示的数字0，两侧切线平行，因此测量得到夹角为零，其他字符就不一一举例，都可以按照上述预设规则进行测量。

本发明实施例还提供了将多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值方法，所述方法包括：

需要说明的是，假定一覆盖文本中有待测字符A，对该覆盖文本的三个角度图像中待测字符A进行特征测试，得到三个待测字符A的特征数据；假定三个待测字符A的特征数据里面的面积占比分别是0.32、0.33、0.34，面积占比平均值为0.33，每一象限均化对比度平均值、重心坐标平均值、二维度比值平均值和夹角平均值求取的方法相同，对于每一象限均化对比度平均值平均值分别按照第一象限、第二象限、第三象限和第四象限进行加和平均，每一象限均化对比度平均值包括第一象限均化对比度平均值、第二象限均化对比度平均值、第三象限均化对比度平均值和第四象限均化对比度平均值。

本发明实施例提供了将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符方法，所述方法包括将每一待测字符的面积占比平均值、每一象限均化对比度平均值、重心平均值、二维度比值平均值、夹角平均值分别与每一预设字符的面积占比、每一象限的均化对比度、重心坐标、二维度比值、夹角对比；当任意两个对比的特征点一致，另三个对比的特征点之间差值小于预设差值，则识别所述待测字符为所述预设字符。

将每一待测字符的面积占比平均值、每一象限均化对比度平均值、重心平均值、二维度比值平均值、夹角平均值分别与每一预设字符的面积占比、每一象限的均化对比度、重心坐标、二维度比值、夹角对比，具体包括：将面积占比平均值与面积占比一组特征点对比，将每一象限均化对比度平均值与每一象限均化对比度一组特征点对比，将重心坐标平均值与重心坐标一组特征点对比，将二维度比值平均值与二维度比值一组特征点对比，将夹角平均值与夹角一组特征点对比；

当任意两组对比的特征点相等，另三组对比的特征点之间差值绝对值均小于预设差值，则识别所述待测字符为所述预设字符；从表述上也可以得到多于两组对比的特征点相等也是可以的，因为特征点相等表明特征点之间差值绝对值为零；

预设差值一般设置为0.7，对于预设差值为0.4时几乎能够100％准确识别；例如预设差值为0.7，重心坐标均值和重心坐标相等，每一象限均化对比度平均值与每一象限均化对比度相等，面积占比平均值与面积占比差值绝对值为0.1，二维度比值平均值与二维度比值差值绝对值为0.3，夹角平均值与夹角差值绝对值为0.2，因此任意两组对比的特征点相等，另三组对比的特征点之间差值绝对值均小于预设差值，则识别所述待测字符为所述预设字符。

当小于两组对比的特征点相等，包括没有任何一组对比的特征点相等以及仅有一组对比的特征点相等，则识别待测字符不为预设字符；

或者当任意两组对比的特征点相等，另三组对比的特征点中至少有一组对比特征点之间差值大于等于预设差值，则识别待测字符不为预设字符。

如图8所示，本发明实施例提供了一种透明体或半透明体覆盖的文本识别系统，所述系统包括：

第一获取单元81，用于获取无覆盖文本的图像，所述无覆盖文本包括至少一个预设字符；

第一训练单元82，用于输入所述无覆盖文本的图像中每一预设字符对卷积神经网络进行训练；

第一测量计算单元83，用于对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点；

第二获取单元84，用于通过多个预设视角获取同一覆盖文本的多个图像，所述同一覆盖文本的每一图像对应一个预设视角；

第二测量计算单元85，用于对所述同一覆盖文本的多个图像中每一待测字符进行字符特征测量，得到多个每一待测字符的特征数据；

计算单元86，用于将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值；

识别单元87，用于将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符；

第二训练单元88，用于输入被识别出的每一待测字符对卷积神经网络进行训练。

进一步地，所述第一测量计算单元83具体用于：

按照预设规则测量每一预设字符的夹角；

进一步地，所述计算单元86具体用于：

进一步地，所述识别单元87具体用于：

进一步地，所述识别单元87还用于：

实施本发明，具有如下有益效果：

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种透明体或半透明体覆盖的文本识别方法，其特征在于，所述方法包括：

步骤S11、获取无覆盖文本的图像，所述无覆盖文本包括至少一个预设字符；

步骤S12、输入所述无覆盖文本的图像中每一预设字符对卷积神经网络进行训练；

步骤S13、对所述无覆盖文本的图像中每一预设字符进行特征测量和计算，得到每一预设字符的特征数据，所述特征数据包括多个特征点；

步骤S14、通过多个预设视角获取同一覆盖文本的多个图像，所述同一覆盖文本的每一图像对应一个预设视角；

步骤S15、对所述同一覆盖文本的多个图像中每一待测字符进行特征测量，得到多个每一待测字符的特征数据；

步骤S16、将所述多个每一待测字符的特征数据进行平均得到每一待测字符的特征数据平均值；

步骤S17、将每一待测字符的特征数据平均值和每一预设字符的特征数据比较，识别同一覆盖文本中每一待测字符；

2.如权利要求1所述的方法，其特征在于，步骤S13具体包括：

按照预设规则测量每一预设字符的夹角；

3.如权利要求2所述的方法，其特征在于，步骤S16具体包括：

4.如权利要求3所述的方法，其特征在于，步骤S17具体包括：

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

6.一种透明体或半透明体覆盖的文本识别系统，其特征在于，所述系统包括：

7.如权利要求6所述的系统，其特征在于，所述第一测量计算单元具体用于：

按照预设规则测量每一预设字符的夹角；

8.如权利要求7所述的系统，其特征在于，所述计算单元具体用于：

9.如权利要求8所述的系统，其特征在于，所述识别单元具体用于：

10.如权利要求9所述的系统，其特征在于，所述识别单元还用于：