CN106650719B

CN106650719B - 识别图片文字的方法及装置

Info

Publication number: CN106650719B
Application number: CN201611204715.4A
Authority: CN
Inventors: 周迪; 张恒
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2020-04-10
Anticipated expiration: 2036-12-21
Also published as: CN106650719A

Abstract

本申请提供一种识别图片文字的方法及装置，所述方法包括：对所述图片中的文字载体进行识别，获得所述载体的轮廓；将所述载体的轮廓与标准轮廓进行比对，若相似度超过预设阈值，则判断所述载体为预设规则载体；当判断出所述载体为预设规则载体时，将所述载体分割成若干区域，计算各区域的边缘所对应的弧度；根据最小的弧度以及当前区域的弧度，确定出当前区域对应的拉伸值，并将当前区域按照对应的拉伸值进行拉伸处理；对拉伸后的图片进行文字识别。在识别图片上的文字之前，对图片上的文字载体进行矫正，以恢复载体的原始形状，从而提高图片文字识别的正确率。

Description

识别图片文字的方法及装置

技术领域

本申请涉及文字识别领域，尤其涉及一种识别图片文字的方法及装置。

背景技术

利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。在生产和生活中，要处理大量的文字、报表和文本。为了减少劳动量，提高处理效率，出现了文字识别的研究，但纸张在被拍成图片后，图片中的纸张会存在一定的弧度(纸张弯折等导致)，而在对有弧度的纸张进行文字识别时，错误率往往比较高。

发明内容

有鉴于此，本申请提供一种识别图片文字的方法及装置，以解决现有技术中存在的图片中的纸张由于存在弧度，而导致纸张上的文字识别错误率较高的问题。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种识别图片文字的方法，所述方法包括：

对所述图片中的文字载体进行识别，获得所述载体的轮廓；

将所述载体的轮廓与标准轮廓进行比对，若相似度超过预设阈值，则判断所述载体为预设规则载体；

当判断出所述载体为预设规则载体时，将所述载体分割成若干区域，计算各区域的边缘所对应的弧度；

根据最小的弧度以及当前区域的弧度，确定出当前区域对应的拉伸值，并将当前区域按照对应的拉伸值进行拉伸处理；

对拉伸后的图片进行文字识别。

可选地，所述方法还包括：

在对所述区域进行拉伸处理之前，保存所述区域中各像素点的像素值；

在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所述区域中各像素点的像素值按照所述比例值进行恢复。

可选地，所述方法还包括：

在对所述区域进行拉伸处理之前，保存所述区域的所有灰度值；

在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所区域的所有灰度值均按照所述比例值进行恢复。

可选地，所述拉伸值的确定过程如下：

计算各区域的边缘所对应的弧长；

当所述弧长超过划分阈值，则认为该区域为弧度区域；否则，认为该区域为非弧度区域；

当所述载体存在非弧度区域时，则按照所述非弧度区域的弧长以及当前区域的弧长，来确定所述当前区域的拉伸值；

当所述载体不存在非弧度区域时，则按照所有弧度区域中最小弧长以及当前区域的弧长，来确定所述当前区域的拉伸值。

可选地，对所述图片中的文字载体进行识别，获得所述载体的轮廓，具体包括：

设定所述图片上的某一点为起始搜索点；

根据所述起始搜索点和预设搜索规则，确定出起始搜索边，所述起始搜索点为所述起始搜索边的一端点；

将所述起始搜索边的另一端点作为下一搜索点，根据当前搜索点和预设搜索规则，确定出所述当前搜索点对应的搜索边，其中，当前搜索点为所述对应的搜索边的端点；

确定出与当前搜索点相连的其它非搜索边的候选边；

当所述下一搜索点重新回到初始搜索点，则结束搜索，所有候选边和搜索边形成所述载体的轮廓。

根据本申请的第二方面，提供一种识别图片文字的装置，所述装置包括：

轮廓获取模块，对所述图片中的文字载体进行识别，获得所述载体的轮廓；

比对模块，将所述载体的轮廓与标准轮廓进行比对，若相似度超过预设阈值，则判断所述载体为预设规则载体；

计算模块，当判断出所述载体为预设规则载体时，将所述载体分割成若干区域，计算各区域的边缘所对应的弧度；

拉伸模块，根据最小的弧度以及当前区域的弧度，确定出当前区域对应的拉伸值，并将当前区域按照对应的拉伸值进行拉伸处理；

识别模块，对拉伸后的图片进行文字识别。

可选地，所述装置还包括：

保存模块，在对所述区域进行拉伸处理之前，保存所述区域中各像素点的像素值；

恢复模块，在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所述区域中各像素点的像素值按照所述比例值进行恢复。

可选地，所述保存模块还用于在对所述区域进行拉伸处理之前，保存所述区域的所有灰度值；

所述恢复模块还用于在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所区域的所有灰度值均按照所述区域对应的比例值进行恢复。

可选地，所述拉伸模块包括：

计算子模块，计算各区域的边缘所对应的弧长；

判断子模块，当所述弧长超过划分阈值，则认为该区域为弧度区域；否则，认为该区域为非弧度区域；

第一确定子模块，当所述载体存在非弧度区域时，则按照所述非弧度区域的弧长以及当前区域的弧长，来确定所述当前区域的拉伸值；

第二确定子模块，当所述载体不存在非弧度区域时，则按照所有弧度区域中最小弧长以及当前区域的弧长，来确定所述当前区域的拉伸值。

可选地，所述轮廓获取模块包括：

设定所述图片上的某一点为起始搜索点；

根据所述起始搜索点和预设搜索规则，确定出起始搜索边，所述起始搜索点为所述起始搜索边的端点；

将所述起始搜索边的另一端点作为下一搜索点，根据当前搜索点和预设搜索规则，确定出所述当前搜索点对应的搜索边，其中，当前搜索点为所述对应的搜索边的一端点；

确定出与当前搜索点相连的其它非搜索边的候选边；

本申请的有益效果：先有目的的识别出图片文字的载体是预设规则载体(例如书、纸张等规则形状的载体)，然后根据弧度来计算载体的拉伸值，以尽量使得变形的载体恢复至该载体的原有形状，再对拉伸后的图片来识别文字，从而提高文字的识别率，降低文字识别错误率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请实施例提出的一种识别图片文字的方法流程图；

图2是本申请实施例提出的一种载体轮廓识别示意图；

图3是本申请实施例提出的又一种载体轮廓识别示意图；

图4是本申请实施例提出的一种计算曲线弧长的示意图；

图5是本申请实施例提出的一种识别图片文字的装置结构框图；

图6是本申请实施例提出的又一种识别图片文字的装置结构框图；

图7是本申请实施例提出的一种拉伸模块的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。另外，在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

参见图1，本实施例提供的一种识别图片文字的方法，所述方法可以包括：

需要说明书的是，本实施例的图片是指摄像机拍摄所获得的图片，在拍摄前，所述文字位于一载体(例如书籍、纸张等)上。

S101：对所述图片中的文字载体进行识别，获得所述载体的轮廓。

其中，轮廓是图片最基本的特征，轮廓是指周围灰度强度有反差变化的那些像素的集合，是图片分割所依赖的重要基础，也是纹理分析和图片识别的重要基础。

在一实施例中，步骤S101可以包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

本实施例中，首先需要对图片进行预处理，找出轮廓识别的起始搜索点和起始搜索边，然后根据起始搜索点和起始搜索边为条件来搜索其他的轮廓线。而这个过程主要是针对轮廓线进行识别并进行处理。

具体地，对于图片中的物体而言，外轮廓是唯一的。

参见图2，首先，找出图片中文字载体的起始搜索点和起始搜索边，起始搜索点是随机的一个A点，一般是从图片的左下角区域开始进行搜索，能够容易地确定出载体轮廓的起始搜索点和起始搜索边。

接着，找出与左下点相连的所有线段，把这些线段均视为有向线段。

最后，将有向线段两两作叉积，则必存在一条有向线段与其它有向线段的叉积均为负，那么将该线段设定为起始搜索边，左下点为起始搜索点。

又参见图2，A点为起始搜索点，起始搜索边为有向线段1，则按照搜索规则搜索，发现有向线段2，并通过叉积求得有向线段1和有向线段2中有一条是负值，为有向线段1。故本实施例中，设定A为起点搜索点，向线段1为起始搜索边。

本实施例中，轮廓的搜索过程是根据已有搜索点、搜索边以及搜索规则，找出下一搜索点和搜索边的循环过程，参见图3，该循环过程可以包括：

I：根据图片建立一个直角坐标系，以图片的左下角顶点为原点，图片的左边为Y轴，下边为X轴，建立坐标系。

II：确定新的搜索点。

从当前搜索点A出发沿当前搜索边方向(有向线段1)找到位于搜索边上的第一个点，也可能是一个新点如上面的有向线段4和线段有向1的交点，将该第一个点或者交点设定为新的搜索点。

需要说明的是，若该搜索点不是搜索边的端点，则把原搜索边分成两段，也就是说当前搜索点与上一搜索点的连线为当前搜索边，此搜索点为新的搜索点。

如果沿着当前搜索点出发沿当前搜索方向上是弧线，则按照弧线的切线来处理，并记录下弧线、切线和坐标系的关系。

III：确定候选边。

找出与当前搜索点相连的所有其它线段(不包括当前搜索边)，这些线段统称为候选边。

需要说明的是，如新的搜索点不是候选边的端点，则把候选边分成两段，这两段都为候选边。

IV：求出所有候选点在直角坐标系中的坐标位置。

根据坐标位置和线段位置坐标，当发现存在至少两个候选点时，则选择候选点的坐标最小的作为为下一候选点，即将至少两个候选点中的坐标最小的作为优选点，从而识别出文字载体的最大轮廓，防止因为载体折痕等因素的影响而导致载体外轮廓识别不准确。

当载体为书籍时，计算出每个相邻的线段的夹角，因为书籍的边框夹角近似为90度，故根据每个相邻线段的夹角是否接近90读，可以判定出该载体是否为书籍。

S102：将所述载体的轮廓与标准轮廓进行比对，若相似度超过预设阈值，则判断所述载体为预设规则载体。

可选地，所述预设规则载体为书籍，由于书籍具有一定的结构分布特征，提取这些结构分布特征生成相应的判断规则来测试采集到的载体是否为书籍，从而提高书籍的识别度。

例如，设计一个书籍模板作为标准轮廓，然后计算采集到的载体样本与该书籍模板之间的匹配程度，当所述匹配程度超过预设阈值时，则认为所述载体为书籍。

可选地，由于书籍的边框夹角近似90°，可根据载体轮廓的边缘之间的夹角是否接近90°，来判断该载体是否为书籍，若轮廓的边缘之间的夹角接近90°，则认为该载体为书籍，可通过对图片中书籍的轮廓弧度进行处理，来提高载体上的文字识别正确率。

S103：当判断出所述载体为预设规则载体时，将所述载体分割成若干区域，计算各区域的边缘所对应的弧度。

在一实施例中，根据载体的轮廓和书籍模板的比对，确定出文字的载体是书籍，然后根据该载体的轮廓能判定出该载体的边缘弧度大小。

从而根据同一个边缘的轮廓数据(弧度、弧长等)，来判断该载体是否存在弧度，如果存在弧度，则对图片中该载体的轮廓弧度进行相应调整；否则，则不需要调整图片中该载体的轮廓弧度。

S104：根据最小的弧度以及当前区域的弧度，确定出当前区域对应的拉伸值，并将当前区域按照对应的拉伸值进行拉伸处理。

在一实施例中，图片中的文字载体的边缘存在弧度，则根据载体边缘的弧度的大小来确定需要拉伸值。

因为图片当中存在未畸变的区域(或者畸变形状很小，即弧度很小)和畸变区域，为了缩短处理时间，提高识别效率，本实施例对整张图片进行分割，从而将图片划分成弧度区域(即畸变区域)和非弧度区域(即非畸变区域)，然后根据弧度区域和非弧度区域的边缘数据(即弧度大小)，来计算需要各弧度区域对应的拉伸值。

所述拉伸值的确定过程如下：

计算各区域的边缘所对应的弧长；

在一实施例中，各区域对应的拉伸值的计算公式如下：

公式(1)中，a为经验系数，可选地，a＝1；

S₁为当前区域的弧长；

当所述载体存在非弧度区域时，S₂为非弧度区域的弧长；当所述载体不存在非弧度区域时，S₂为所有弧度区域中最小弧长。

本实施例中，参见图4，将需要调整的弧度区域的边缘曲线等分成n段弧，然后计算该弧度区域的边缘曲线的弧长。

连接每段弧的两端点形成该段弧的内接折线，当所有内接折线的最大边长λ→0时，内接折线的长度趋向于一个确定的极限，则称此极限为该段曲线弧AB的弧长S，S的计算公式如下：

公式(2)中，n为一段边缘曲线等分成弧的数量；

λ为一段边缘曲线上所有弧的内接线的最大边长；

M为第i段弧的两端点。

本实施例可以以弧长为单划分非弧度区域和弧度区域，然后以非弧度区域的弧长大小来拉伸弧度区域的边缘。

需要说明的是，若图片上的载体边缘均为弧度区域，则将边缘划分后，计算划分后的各段边缘的弧长，按照最小的弧长来拉伸其它弧度区域(即非最小弧长对应的区域)的边缘，从而减少图片的畸变。

S105：对拉伸后的图片进行文字识别。

其中，文字识别采用现有的文字识别算法即可。

本实施例通过在识别图片上的文字之前，对图片上的文字载体的变形部分进行矫正，以恢复使得载体的变形部分能够尽量恢复至原始形状，从而提高图片文字识别的正确率。

为进一步减少图片的畸变，以恢复文字的形状，提高文字识别的正确率，所述识别图片文字的方法还可以包括：

而为更进一步减少图片的畸变，以恢复文字的形状，提高文字识别的正确率，所述识别图片文字的方法还可以包括：

在一实施例中，所述区域的比例值的计算公式如下：

公式(3)中，b为经验系数；

S_前为所述区域在拉伸前的弧长；

S_后为所述区域在拉伸后的弧长。

如图5所示，为本申请提供的识别图片文字的装置的结构框图，与上述识别图片文字的方法相对应，可参照上述识别图片文字的方法的实施例来理解或解释该识别图片文字的装置的内容。

参见图5，本实施例提供的一种识别图片文字的装置，所述装置可包括轮廓获取模块100、比对模块200、计算模块300、拉伸模块400和识别模块500。

其中，轮廓获取模块100，用于对所述图片中的文字载体进行识别，获得所述载体的轮廓；

比对模块200，用于将所述载体的轮廓与标准轮廓进行比对，若相似度超过预设阈值，则判断所述载体为预设规则载体；

计算模块300，当判断出所述载体为预设规则载体时，将所述载体分割成若干区域，计算各区域的边缘所对应的弧度；

拉伸模块400，用于根据最小的弧度以及当前区域的弧度，确定出当前区域对应的拉伸值，并将当前区域按照对应的拉伸值进行拉伸处理；

识别模块500，用于对拉伸后的图片进行文字识别。

参见图6，在一实施例中，所述识别图片文字的装置还可包括保存模块600和恢复模块700。

其中，保存模块600，在对所述区域进行拉伸处理之前，保存所述区域中各像素点的像素值；

恢复模块700，在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所述区域中各像素点的像素值按照所述比例值进行恢复。

进一步地，所述保存模块600还用于在对所述区域进行拉伸处理之前，保存所述区域的所有灰度值；

所述恢复模块700还用于在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所区域的所有灰度值均按照所述比例值进行恢复。

进一步地，参见图7，所述拉伸400块可包括计算子模块401、判断子模块402、第一确定子模块403和第二确定子模块404。

其中，计算子模块401，用于计算各区域的边缘所对应的弧长；

判断子模块402，当所述弧长超过划分阈值，则认为该区域为弧度区域；否则，认为该区域为非弧度区域；

第一确定子模块403，当所述载体存在非弧度区域时，则按照所述非弧度区域的弧长以及当前区域的弧长，来确定所述当前区域的拉伸值；

第二确定子模块404，当所述载体不存在非弧度区域时，则按照所有弧度区域中最小弧长以及当前区域的弧长，来确定所述当前区域的拉伸值；

进一步地，所述轮廓获取模块100包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

综上所述，本申请提供的识别图片文字的方法及装置，先有目的的识别出图片文字的载体是预设规则载体(例如书、纸张等规则形状的载体)，然后根据弧度来计算载体的拉伸值，以使得图片上的文字载体尽量恢复至该载体的原有形状，再对拉伸后的图片来识别文字，从而提高文字的识别率，降低文字识别错误率。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种识别图片文字的方法，其特征在于，所述方法包括：

对所述图片中的文字载体进行识别，获得所述载体的轮廓；

对拉伸后的图片进行文字识别；

所述拉伸值的确定过程如下：

计算各区域的边缘所对应的弧长；

2.如权利要求1所述的识别图片文字的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的识别图片文字的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的识别图片文字的方法，其特征在于，对所述图片中的文字载体进行识别，获得所述载体的轮廓，具体包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

5.一种识别图片文字的装置，其特征在于，所述装置包括：

识别模块，对拉伸后的图片进行文字识别；

所述拉伸模块包括：

计算子模块，计算各区域的边缘所对应的弧长；

6.如权利要求5所述的识别图片文字的装置，其特征在于，所述装置还包括：

7.如权利要求6所述的识别图片文字的装置，其特征在于，所述保存模块还用于在对所述区域进行拉伸处理之前，保存所述区域的所有灰度值；

所述恢复模块还用于在对所述区域进行拉伸处理之后，根据拉伸前、后的所述区域的弧度，计算比例值，并将所区域的所有灰度值均按照所述比例值进行恢复。

8.如权利要求5所述的识别图片文字的装置，其特征在于，所述轮廓获取模块包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

9.一种识别图片文字的方法，其特征在于，所述方法包括：

对所述图片中的文字载体进行识别，获得所述载体的轮廓；

对拉伸后的图片进行文字识别；

对所述图片中的文字载体进行识别，获得所述载体的轮廓，具体包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

10.如权利要求9所述的识别图片文字的方法，其特征在于，所述方法还包括：

11.如权利要求10所述的识别图片文字的方法，其特征在于，所述方法还包括：

12.如权利要求9所述的识别图片文字的方法，其特征在于，所述拉伸值的确定过程如下：

计算各区域的边缘所对应的弧长；

13.一种识别图片文字的装置，其特征在于，所述装置包括：

识别模块，对拉伸后的图片进行文字识别；

所述轮廓获取模块包括：

设定所述图片上的某一点为起始搜索点；

确定出与当前搜索点相连的其它非搜索边的候选边；

14.如权利要求13所述的识别图片文字的装置，其特征在于，所述装置还包括：

15.如权利要求14所述的识别图片文字的装置，其特征在于，所述保存模块还用于在对所述区域进行拉伸处理之前，保存所述区域的所有灰度值；

16.如权利要求13所述的识别图片文字的装置，其特征在于，所述拉伸模块包括：

计算子模块，计算各区域的边缘所对应的弧长；