CN103500332B

CN103500332B - 图片内文字显示方法及装置

Info

Publication number: CN103500332B
Application number: CN201310403351.2A
Authority: CN
Inventors: 梁捷; 俞永福; 谭柱成; 李会民
Original assignee: Ucweb Inc
Current assignee: Alibaba China Co Ltd
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2017-03-15
Anticipated expiration: 2033-09-06
Also published as: CN103500332A

Abstract

本申请实施例公开了的一种图片内文字显示方法及装置，所述方法包括：获取待识别图片；根据待识别图片上的连通体判断所述待识别图片内是否存在至少一行汉字；当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；显示所有目标汉字。与现有技术相比，当遇到图片内包含有成行的文字时，该图片内文字显示方法及装置，可以对准确识别图片内文字以及将识别的内容显示，方便用户对图片内的文字进行阅读。

Description

图片内文字显示方法及装置

技术领域

本发明涉及识别技术领域，特别是涉及一种图片内文字显示方法及装置。

背景技术

用户在浏览网络时，常常会遇到一些以图片形式展示的文字文章，文字文章包含有一行或多行汉字，例如：目前各类微博网站都对发表文章的字数进行了限制，当用户需要发表文字较多的长微博时，常常把文字转换成图片形式后才能发出，阅读长微博时，就只能浏览图片内文字。

由于图片的尺寸大小不一致，当图片尺寸较小时，会出现无法清晰辨识图片内的文字的问题，影响用户阅读，虽然有些终端或网页上设置有图片放大选项，但对于显示界面较小的终端而言，在显示界面内只能显示图片的局部内容，需要用户多次点击、移动、重复等待加载等，操作不方便。当图片尺寸较大时，即使设置有放大显示选项，显示效果也往往不清晰，仍存在无法对图片内的文字进行清晰辨识的问题。

发明内容

本申请实施例中提供了一种图片内文字显示方法及装置，以解决现有技术无法方便阅读对图片内文字的问题。

为了解决上述技术问题，第一方面，本申请实施例公开了一种图片内文字显示方法，包括：获取待识别图片；根据待识别图片上的连通体判断所述待识别图片内是否存在至少一行汉字；当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；显示所有目标汉字。

在第一方面的第一种可能的实现方式中，判断所述待识别图片内是否存在至少一行汉字，包括：对待识别图片进行图像处理；对图像处理后的待识别图片进行连通性分析，得到多个组成汉字的连通体；判断在待识别图片内连通体所在位置是否存在至少一组字符基线；当存在至少一组字符基线时，确定所述待识别图片内存在至少一行汉字；当不存在字符基线时，确定所述待识别图片内不存在至少一行汉字。

结合第一方面或第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述对待识别图片内一行汉字中的连通体依次进行横向区域分割，包括：在一行汉字中依次选取一个连通体加入到待识别连通体组内；计算所述待识别连通体组的外围矩形的宽高比例；判断所述连通体组的外围距离的宽高比例是否小于预先设置的比例阈值；当所述连通体组的外围距离的宽高比例小于比例阈值时，依次选取一个相邻连通体增加到所述待识别连通体组，计算并判断增加连通体后待识别连通体组的外围矩形的宽高比例是否小于预先设置的比例阈值；当增加连通体后待识别连通体组的外围矩形的宽高比例大于等于预先设置的比例阈值时，将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述对待识别图片内一行汉字中的连通体依次进行横向区域分割，还包括：计算待识别汉字的宽高比例与预先设置的比例阈值的均值；判断所述均值是否在预先设置的数值区间内；当所述均值位于预先设置的数值区间内，将所述均值替换预先设置的比例阈值；当所述均值位于预先设置的数值区间外，继续使用预先设置的比例阈值。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述方法还包括：判断所选取一行汉字中是否存在新的连通体，当不存在新的连通体时，结束。

在第一方面的第五种可能的实现方式中，所述在预先建立的样本字库内查找满足匹配度要求的汉字，包括：在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相同的汉字，作为待选汉字；计算所述待识别汉字与待选汉字的匹配度；判断所述待识别汉字与待选汉字的匹配度是否大于等于预先设置的匹配度阈值；当所述待识别汉字与待选汉字的匹配度大于等于匹配度阈值时，将匹配度最大的待选汉字确定为目标汉字。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，当查找到的所有待选汉字的匹配度都小于匹配度阈值时，所述在预先建立的样本字库内查找满足匹配度要求的汉字，还包括：在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字，n的初始值为0；计算所述待识别汉字与备选汉字的匹配度；判断所述待识别汉字与待选汉字的匹配度是否大于等于预先设置的匹配度阈值；当所述待识别汉字与备选汉字的匹配度大于等于匹配度阈值时，将匹配度最大的备选汉字确定为目标汉字；当所述待识别汉字与备选汉字的匹配度小于匹配度阈值时，将n的值增加1后，继续查找备选汉字，直至n等于预先设置的循环次数。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，每个待选汉字都按照预先设置的规则划分有多个特征边，并且每个特征边的特征信息已知，所述特征信息包括：特征边的坐标值以及角度值；所述计算所述待识别汉字与待选汉字的匹配度，包括：按照预先设置的规则获取待识别汉字中多个特征边的参数信息；计算所述识别汉字中特征边参数信息与待选汉字中特征边的参数信息的相匹配的特征边个数；将相匹配的特征边的个数与待选汉字的总特征边个数的比值确定为匹配度。

在第一方面的第八种可能的实现方式中，所述显示所有目标汉字，包括：按照对待识别图片进行横向区域分割时连通体所在位置将所有目标汉字进行排列；生成与排列后所有目标汉字相对应的标签；获取待识别图片的统一资源定位符；将所述同一资源定位符中的图片标签更换为所有目标汉字的标签；接收浏览器对所述待识别图片的统一资源定位符的解析指令，根据所述解析指令将所述排列后所有目标汉字进行显示。

第二方面，本申请实施例公开了一种字符识别装置，包括：图片获取单元，用于获取待识别图片；图片判断单元，用于根据所述待识别图片上的连通体判断所述待识别图片内是否存在至少一行汉字；横向区域分割单元，用于当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；匹配单元，用于根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；显示单元，用于显示所有目标汉字。

在第二方面第一个可能的实现方式中，所述图片判断单元包括：图像处理单元，用于对待识别图片进行图像处理；连通性分析单元，用于对图像处理后的待识别图片进行连通性分析，去除非汉字笔画的连通体，得到多个组成汉字的连通体；字符基线判断单元，用于判断待识别图片内连通体所在位置是否存在至少一组字符基线；图片确定单元，用于当所述字符基线判断单元的判断结果为是时，确定所述待识别图片内存在至少一行汉字；并且当所述字符基线判断单元的判断结果为否时，确定所述待识别图片内不存在至少一行汉字。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述横向区域分割单元包括：连通体组确定单元，用于在一行汉字中依次选取一个连通体加入到待识别连通体组内；比例计算单元，用于计算所述待识别连通体组的外围矩形的宽高比例；比例判断单元，用于判断所述待识别连通体组外围矩形的宽高比例是否小于预先设置的比例阈值；当所述比例判断单元的判断结果为是时，所述连通体组确定单元还用于依次选取一个相邻连通体并增加到所述待识别连通体组，所述比例计算单元还用于计算增加连通体后待识别连通体组的外围矩形的宽高比例，所述比例判断单元还用于判断增加连通体后待识别连通体组的外围矩形的宽高比例是否小于预先设置的比例阈值；待识别汉字确定单元，用于当增加连通体后待识别连通体组的外围矩形的宽高比例大于等于预先设置的比例阈值时，将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述横向区域分割单元还包括：均值计算单元，用于计算待识别汉字的宽高比例与预先设置的比例阈值的均值；均值判断单元，用于判断所述均值是否在预先设置的数值区间内，比例阈值更新单元，用于当所述均值位于预先设置的数值区间内，将所述均值作为下一个待识别连通体的比例阈值。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述匹配单元还包括：待选汉字查找单元，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相同的汉字，作为待选汉字；第一匹配度计算单元，用于计算所述待识别汉字与待选汉字的匹配度；第一匹配度判断单元，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；目标汉字确定单元，用于当第一匹配度判断单元的判断结果为是时，将匹配度最大的待选汉字确定为目标汉字。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，当所述第一匹配度单元的判断结果为否时，所述匹配单元还包括：备选汉字查找单元，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字，n的初始值为0；第二匹配度计算单元，用于计算所述待识别汉字与备选汉字的匹配度；第二匹配度判断单元，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；所述目标汉字确定单元还用于当所述第二匹配度判断单元的判断结果为是时，将满足匹配度阈值的备选汉字确定为目标汉字，所述备选汉字查找单元还用于当所述第二匹配度判断单元的判断结果为否时，将n的值增加1后，继续查找备选汉字，直至n等于预先设置的循环次数。

在第二方面的第六种可能的实现方式中，所述显示单元还包括：排列单元，用于将所有目标汉字按照对待识别图片进行横向区域分割时所在位置进行排列；标签生成单元，用于生成与排列后所有目标汉字相对应的标签；统一资源定位符获取单元，用于获取待识别图片的统一资源定位符；标签更换单元，用于将所述同一资源定位符内的图片标签更换为所有目标汉字的标签；显示子单元，用于接收浏览器对所述待识别图片的统一资源定位符的解析指令，根据所述解析指令将所述排列后所有目标汉字进行显示。

由以上技术方案可见，本申请实施例提供的图片内文字显示方法及装置，首先获取待识别图片，并且对图片内是否有成行的汉字进行判断，当待识别图片内有至少一行汉字时，对待识别图片内的一行汉字中的连通体依次进行横向区域分割，将该行汉字首先按照区域分隔成多个单独的待识别汉字，然后根据待识别汉字内包含的连通体个数，从预先建立的样本字库内查找满足匹配度要求的目标汉字，进而可以实现对待识别图片内的包含的汉字进行识别，最后将识别得到的目标汉字进行显示。

与现有技术相比，当遇到图片内包含有成行的文字时，例如：以图片形式展示的文章等，本申请实施例提供的该图片内文字显示方法及装置，可以对准确识别图片内文字以及将识别的内容显示，方便用户对图片内的文字进行阅读。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请第一实施例提供的一种图片内文字显示方法的流程图；

图2为本申请第二实施例提供的一种图片内文字显示方法的流程图；

图3为本申请第二实施例提供的连通体示意图；

图4为本申请第三实施例提供的一种图片内文字显示方法的流程图；

图5为本申请第三实施例提供的另一种图片内文字显示方法的流程图；

图6为本申请第三实施例提供的又一种图片内文字显示方法的流程图；

图7为本申请第四实施例提供的一种图片内文字显示方法的流程图；

图8为本申请实施例提供的计算待识别汉字与待选汉字的匹配度的流程图；

图9为本申请第四实施例提供的另一种图片内文字显示方法的流程图；

图10为本申请第五实施例提供的一种图片内文字显示方法的流程图；

图11为本申请第五实施例提供的一种图片内文字显示装置的结构示意图；

图12为本申请第五实施例提供的图片判断单元的结构示意图；

图13为本申请第五实施例提供的横向区域分割单元的一种结构示意图；

图14为本申请第五实施例提供的横向区域分割单元的另一种结构示意图；

图15为本申请第五实施例提供的匹配单元的一种结构示意图；

图16为本申请第五实施例提供的匹配单元的另一种结构示意图；

图17为本申请第五实施例提供的显示单元的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

参见图1，为本申请第一实施例提供的一种图片内文字显示方法的流程图，该图片内文字显示方法包括：

S101：获取待识别图片。

待识别图片包括：网页上的图片、本地存储的图片或其它软件显示的图片。在获取待识别图片时，一种方式可以为：将网页上的全部图片作为待识别图片，这种通常是针对网页上的图片，而且网页上的图片不多的情况，例如：用户微博页面连续发布的多篇文字微博；另一种方式可以为，接收用户选择指令，根据用户选择指令选定某一图片作为待识别图片，即可以将用户所点击的图片作为带识别图片，也可以根据用户输入的图片编号获取待识别图片。

S102：判断待识别图片内是否存在至少一行汉字。

获取得到的待识别图片内，可能仅包含有文字，也可能仅包含有图案或图表，还有可能既包含文字，也包含图案或图表。尤其是对于获取网页上的全部图片作为待识别图片的情况，除非对于一些文学类网站，并且其图片主要内容是关于小说，否则，获取得到的待识别图片内的内容无法确定。

在本申请实施例中，根据待识别图片上连通体的判断待识别图片内是否存在至少一行汉字，具体方式可以为：判断是否能连通体所在位置绘出连通体的一组字符基线，如果连通体所在位置存在至少一组字符基线，就可以判断出待识别图片内包含有至少一行汉字，然后执行S103，否则，结束流程。

为了避免对图片内文字识别消耗的系统资源过多而导致系统无法正常工作，在本申请其它实施例中，在对图片内是否存在至少一行汉字进行判断之前，可以对系统设备性能先进行判断，而且只有在设备性能允许的情况下才进行步骤S102。另外，在步骤S102之前，可以对待识别图片的来源或格式进行判断，并且只针对特定来源或格式的图片进行识别，例如：只对长微博图片内的文字进行识别，同样可以节省系统资源，并且可以加快对图片内汉字识别的速度。

S103：对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字。

连通体是指组成汉字的一个连续的笔画，由于每个汉字都包含至少一个连通体，那么一行汉字，就可以看成一行排列有序的连通体。为了方便对汉字进行识别，首先需要将每个汉字包含的连通体分隔开，使得每个汉字之间相互分离。

对于印刷体汉字，其字形特点是方块性良好，即每一个汉字占用的空间可用一个宽高比近似相等的矩形包围。在本申请实施例中，横向区域分割的具体方式为：按照汉字书写方向，选择至少一连通体，然后判断选中的连通体的外围矩形的宽高比是否在预先设置的范围内，如果不是，增加一个相邻连通体，并重新判断这两个连通体的外围矩形的宽高比是否在预先设置的范围内，当两个连通体的外围矩形的宽高比超过预先设置的范围时，说明增加的这一个连通体与前一个连通体不属于同一汉字，进而将增加连通体之前的一个或多个连通体的集合作为一个待识别汉字。

S104:在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字。

预先建立的样本字库内，根据每个汉字的连通体个数，将连通体个数相同的汉字进行分类，以便在查找目标汉字时，可以首先在预先建立的样本字库内查找连通体个数相同的汉字，作为待选汉字，达到缩小查找的范围、缩短查找时间和节省系统资源的目的。查找到待选汉字后，分别对待识别汉字的连通体与待选汉字的连通体的形状进行匹配，判断匹配度是否满足预先设置的匹配度要求，由于可能会存在满足匹配度要求的待选汉字有多个，所以选取匹配度最大的汉字作为目标汉字。

S105：显示所有目标汉字。

当待识别图片内一行汉字都查找到目标汉字后，可以将所有目标汉字进行显示。也可以等待识别图片内所有行汉字都查找到目标汉字后，在同时进行显示。

在显示所有目标汉字时，可以在新设定的窗口内直接显示所有目标汉字，还可以在待识别图片所在位置显示所有目标汉字，即利用目标汉字替换待识别图片。

参见图2，为本申请第二实施例提供的一种图片内文字显示方法的流程图，包括：

S201：获取待识别图片。

S202：对待识别图片进行图像处理。

在本申请实施例中，图像处理主要包括：图像二值化和图像去噪，其中：图像二值化处理处理主要是为了使得图片内的汉字的边界更加清晰，以便图片内的汉字与背景之间的区分更加清晰，便于对组成汉字的连通体，即组成汉字的笔画或笔画的一部分进行识别。

S203：对待识别图片进行连通性分析，得到多个组成汉字的连通体。

连通性分析是指对图片内黑色像素的连通特性进行分析，确定独立的黑色素区域。连通性分析后，可以将得到的较大连通体视为非文字，例如：文字中会出现的下划线、分隔线或夹杂在文字内的图案等，并且较大的连通体去除，避免对文字识别带来干扰。通常对于无分栏排版的页面，凡宽度大于等于页面宽度2/3的连通体都可以视为较大的连通体；而对于有分栏排版的页面，凡宽度大于等于连通体所在栏宽度2/3的连通体都可以视为较大的连通体。

通过连通性分析，可以将一行汉字所包含的多个连通体，所谓连通体是指在所有八临域内相邻像素的集合，如图3所示，图中汉字“儿”包含有两个连通体。

S204：判断待识别图片内连通体所在位置是否存在至少一组字符基线。

字符基线指字符连通体的包络线，包络线的具体查找方式为：以一条具有少量弯曲度的线段挤压指定行文字，若在弯曲度容许范围内贴合若干字符边缘，则认为该线段为这些字符的一条包络线。虽然包络线弯曲度较小，但允许倾斜。字符基线包含有多条包络线，每条包络线的取值范围为2至N/3（N为连通体个数），平行性良好的一组（指包络线总数的4/5）字符基线可以确定一行文字（通常文字的包络线几乎全部平等）。普通图像一般无法拟合出一组平行度良好的基线，或，存在较多不平行的线段，但文字类图片的字符基线则十分明显。

S205：确定待识别图片内存在至少一行汉字。

当待识别图片内连通体所在位置存在至少一组字符基线，那么就可以确定待识别图片内存在至少一行汉字。

S206：确定待识别图片内不存在至少一行汉字。

当待识别图片内不存在至少一组字符基线，就可以确定待识别图片内不存在至少一行汉字。

S207：对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字。

S208:在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字。

S209：显示所有目标汉字。

参见图4，为本申请第三实施例提供的一种图片内文字显示方法的流程图，包括：

S301：获取待识别图片。

S302：判断待识别图片内是否存在至少一行汉字。

S303：在一行汉字中依次选取一个连通体加入到待识别连通体组内。

待识别连通体组是指包含有至少一个连通体的集合，组成待识别连通体组的所有连通体可以是一个汉字的，也可以是两个汉字。采用待识别连通体组的目的是，将一行汉字中所有的连通体进行划分，将属于某一个汉字的连通体找出来。

S304：计算待识别连通体组的外围矩形的宽高比例。

在待识别连通体组内包含的所有连通体的外围画矩形，矩形的长边通常与连通体的包络线相平行，即与汉字所在行相平行，所画的矩形需要尽量贴近连通体，最好与连通体的最外边相接触，这样，所确定的外围矩形是指连通体组外围面积最小的矩形。当确定待识别连通体组的外围矩形后，假设将待识别连通体内作为一个汉字，计算外围矩形的宽高比，判断该假设汉字的字形宽高比是否符合正常汉字的要求。

S305：判断外围矩形的宽高比例是否小于预先设置的比例阈值。

设置比例阈值的目的，是为了避免连通体组的长度过长，而将相邻的两个汉字的连通体都加入到待识别连通体组内，这样就会就将相邻的两个汉字合并，导致识别错误。

在本申请实施例中，预先设置的比例阈值可以为1.2。根据汉字的字体不同，预先设置的比例阈值还可以变更，例如：可以在1.0～1.5之间变化。

当待识别连通体组的外围矩形小于预先设置的比例阈值时，意味着还没有出现两个汉字合并的情况，可以执行步骤S306。在步骤S306后，当待识别连通体组的外围矩形大于等于预先设置的比例阈值时，则表明连通体组内已经包含有两个汉字的连通体，执行步骤S307。

S306：依次选取一个相邻连通体并增加到待识别连通体组。

增加一个相邻连通体到待识别连通体组后，返回步骤S304重新计算增加连通体后的待识别连通体组的外围矩形的高宽比例是否满足比例阈值要求。

S307：将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

通常第一次选取的一个连通体不会属于两个汉字，但在步骤S306中增加一个相邻的连通体后返回步骤S304，就会出现待识别连通体组的外围矩形的高宽比例超过预设阈值。

S308：在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字。

S309：显示所有目标汉字。

另外，上述步骤S305对外围矩形的宽高比进行判断时，还可以根据实际情况对预先设置的比例阈值进行微调，以使得更加符合当前识别的文字的字形，如图5所示，该方法还可以包括：

S401：计算待识别汉字的宽高比例与预先设置的比例阈值的均值。

S402:判断均值是否在预先设置的数值区间内。

为了避免由于宽高比差别较大的字符，例如：“一”、“|”，对比例阈值调节带来的误差，对计算得到的均值的范围必须进行限定。

当判断结果为均值位于预先设置的数值区间内，执行S403，否则，执行S404。

S403:将计算得到的均值替换预先设置的比例阈值。

S404：继续使用预先设置的比例阈值。

通过对将合并成功的汉字的宽高比与预先设置的阈值进行取均值，可以根据实际情况，对比例阈值进行微调，以使得更加适应实际图片中文字的情况。

此外，在本申请实施例中，如图6所示，在步骤S309之前，该方法还可以包括：

S310：判断所选取一行汉字中是否存在新的连通体。

当存在新的连通体时，继续执行步骤S303，否则，执行步骤S309。

当一行汉字中不存在新的连通体，即意味着该行汉字已经被识别完成。

参见图7，为本申请第四实施例提供的一种图片内文字显示方法的流程图，包括：

S501：获取待识别图片。

S502：判断待识别图片内是否存在至少一行汉字。

当判断结果为是时，执行S503，否则结束。

S503:对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字。

S504：在预先建立的样本字库内查找连通体个数与待识别汉字内包含连通体的个数相同的汉字，作为待选汉字。

S505：计算待识别汉字与待选汉字的匹配度。

如图8所示，该步骤包括：

S5051：计算多个特征边的参数信息与待选汉字多个特征边的参数信息的相匹配的特征边个数；

S5052:将相匹配的特征边的个数与待选汉字的总特征边的个数的比值确定为匹配度。

S506:判断计算得到的匹配度是否大于等于预先设置的匹配度阈值。

当判断结果为匹配度大于等于预先设置的匹配度阈值时，执行S507。

S507:将匹配度最大的待选汉字确定为目标汉字。

由于匹配度大于等于预先设置的匹配度阈值的待选汉字会有很多，所以需要选择匹配度最大的待选汉字作为目标汉字。

S508：显示所有目标汉字。

当确定一个目标汉字后，还需要重复对待识别图片内所有行的汉字都进行查找，当待识别图片内所有行的汉字查找到目标汉字后，可以显示所有目标汉字。

此外，在本申请其它实施例中，当在待选汉字中没有查找到目标汉字时，还可以在样本字库内查找与待识别汉字连通体个数不同的汉字进行比较，如图9所示，该方法还可以包括：

S601:在预先建立的样本字库内查找连通体个数与待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字。

S602：计算待识别汉字与备选汉字的匹配度。

S603：判断计算得到的匹配度是否大于等于预先设置的匹配度阈值。

当判断结果为待识别汉字与备选汉字的匹配度小于预先设置的匹配度阈值，执行S604，否则，结束查找。

S604：将n的值增加1后，继续查找备选汉字。

虽然可以通过增加n的值来增加查找目标汉字的概率，但如果n的值与待识别汉字的连通体个数相差较大的时候，通常查找已经没有意义，所以可以对n的值进行限定，例如：n与待识别汉字的最大差值为2，即超过预先设置的循环次数2时将结束查找过程。

通过以上的方法实施例的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：只读存储器（ROM）、随机存取存储器（RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

参见图10，为本申请第五实施例提供的一种图片内文字显示方法的流程图，包括：

S701：获取待识别图片。

S702：判断待识别图片内是否存在至少一行汉字。

S703：对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字。

S704：在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字。

S705：将所有目标汉字按照对待识别图片进行横向区域分割时所在位置进行排列。

S706：生成与排列后所有目标汉字相对应的标签。

S707:获取待识别图片的统一资源定位符。

S708:将同一资源定位符中的图片标签更换为所有目标汉字的标签。

S709:接收浏览器对待识别图片的统一资源定位符的解析指令，根据解析指令将排列后所有目标汉字进行显示。

相对于上面的方法实施例，参见图11所示，本申请第六实施例提供的一种图片内文字显示装置的结构示意图，该装置包括：

图片获取单元10，用于获取待识别图片；

图片判断单元11，用于判断所述待识别图片内是否存在至少一行汉字；

横向区域分割单元12，用于当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；

匹配单元13，用于根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；

显示单元14，用于当将所述待识别图片内所有行的汉字都查找到目标汉字时，将所有目标汉字替换所述待识别图片显示。

如图12所示，在本申请实施例中，图片判断单元11可以包括：

图像处理单元111，用于对待识别图片进行图像处理；

连通性分析单元112，用于对图像处理后的待识别图片进行连通性分析，去除非汉字笔画的连通体，得到多个组成汉字的连通体；

字符基线判断单元113，用于判断待识别图片内连通体所在位置是否存在至少一组字符基线；

图片确定单元114，用于当所述字符基线判断单元的判断结果为是时，确定待识别图片内存在至少一行汉字；并且当所述字符基线的判断结果为否时，确定所述待识别图片内不存在至少一行汉字。

如图13所示，在本申请实施例中，横向区域分割单元12可以包括：

连通体组确定单元121，用于在一行汉字中依次选取一个连通体加入到待识别连通体组内；

比例计算单元122，用于计算所述待识别连通体组的外围矩形的宽高比例；

比例判断单元123，用于判断所述待识别连通体组外围矩形的宽高比例是否小于预先设置的比例阈值；

当所述比例判断单元123的判断结果为是时，所述连通体组确定单元121还用于依次选取一个相邻连通体并增加到所述待识别连通体组，所述比例计算单元122还用于计算增加连通体后待识别连通体组的外围矩形的宽高比例，所述比例判断单元123还用于判断增加连通体后待识别连通体组的外围矩形的宽高比例是否小于预先设置的比例阈值；

待识别汉字确定单元124，用于当增加连通体后待识别连通体组的外围矩形的宽高比例大于等于预先设置的比例阈值时，将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

如图14所示，在本申请实施例中，横向区域分割单元12还可以包括：

均值计算单元125，用于计算待识别汉字的宽高比例与预先设置的比例阈值的均值；

均值判断单元126，用于判断所述均值是否在预先设置的数值区间内，

比例阈值更新单元127，用于当所述均值位于预先设置的数值区间内，将计算得到的均值作为下一个待识别连通体的比例阈值；

如图15所示，在本申请实施例中，匹配单元13可以包括：

待选汉字查找单元131，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相同的汉字，作为待选汉字；

第一匹配度计算单元132，用于计算所述待识别汉字与待选汉字的匹配度；

第一匹配度判断单元133，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；

目标汉字确定单元134，用于当第一匹配度判断单元133的判断结果为是时，将满足匹配度阈值的待选汉字确定为目标汉字。

如图16所示，在本申请实施例中，当第一匹配度单元132的判断结果为否时，所述匹配单元还包括：

备选汉字查找单元135，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字，n的初始值为0；

第二匹配度计算单元136，用于计算所述待识别汉字与备选汉字的匹配度；

第二匹配度判断单元137，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；

所述目标汉字确定单元134还用于当所述第二匹配度判断单元的判断结果为是时，将满足匹配度阈值的备选汉字确定为目标汉字，

所述备选汉字查找单元135还用于当所述第二匹配度判断单元的判断结果为否时，将n的值增加1后，继续查找备选汉字，直至n等于预先设置的循环次数。

如图17所示，在本申请实施例中，显示单元14可以包括：

排列单元141，用于将所有目标汉字按照对待识别图片进行横向区域分割时所在位置进行排列；

标签生成单元142，用于生成与排列后所有目标汉字相对应的标签；

统一资源定位符获取单元143，用于获取待识别图片的统一资源定位符；

标签更换单元144，用于将所述同一资源定位符内的图片标签更换为所有目标汉字的标签；

显示子单元145，用于接收浏览器对所述待识别图片的统一资源定位符的解析指令，根据所述解析指令将所述排列后所有目标汉字进行显示。

本申请实施例提供的图片内文字显示装置，首先获取待识别图片，并且对图片内是否有汉字进行判别，当待识别图片内有汉字时，根据汉字通常为矩形的特性，对待识别图片内的一行汉字中的连通体进行横向区域分割，将该行汉字首先按照区域分开成多个待识别汉字，然后根据待识别汉字内包含的连通体个数，也就根据待识别汉字内的笔画的多少，从预先建立的样本字库内查找满足匹配度要求的目标汉字，以实现对待识别图片内的包含的汉字进行识别，最后将识别得到的目标汉字进行显示。

与现有技术相比，当遇到图片内包含有文字时，例如：以图片形式展示的文章，本申请实施例提供的该图片内文字显示装置，可以对图片内文字进行准确识别并显示，方便用户对图片内文字进行阅读。

可以理解的是，本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图片内文字显示方法，其特征在于，所述方法包括：

获取待识别图片；

根据待识别图片上的连通体判断所述待识别图片内是否存在至少一行汉字；

当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；

根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；

显示所有目标汉字；

其中，所述在预先建立的样本字库内查找满足匹配度要求的汉字，包括：

在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相同的汉字，作为待选汉字；

计算所述待识别汉字与待选汉字的匹配度；

判断所述待识别汉字与待选汉字的匹配度是否大于等于预先设置的匹配度阈值；

当所述待识别汉字与待选汉字的匹配度大于等于匹配度阈值时，将匹配度最大的待选汉字确定为目标汉字。

2.根据权利要求1所述的方法，其特征在于，判断所述待识别图片内是否存在至少一行汉字，包括：

对待识别图片进行图像处理；

对图像处理后的待识别图片进行连通性分析，得到多个组成汉字的连通体；

判断在待识别图片内连通体所在位置是否存在至少一组字符基线；

当存在至少一组字符基线时，确定所述待识别图片内存在至少一行汉字；

当不存在字符基线时，确定所述待识别图片内不存在至少一行汉字。

3.根据权利要求1或2所述的方法，其特征在于，所述对待识别图片内一行汉字中的连通体依次进行横向区域分割，包括：

在一行汉字中依次选取一个连通体加入到待识别连通体组内；

计算所述待识别连通体组的外围矩形的宽高比例；

判断所述连通体组的外围距离的宽高比例是否小于预先设置的比例阈值；

当所述连通体组的外围距离的宽高比例小于比例阈值时，依次选取一个相邻连通体增加到所述待识别连通体组，计算并判断增加连通体后待识别连通体组的外围矩形的宽高比例是否小于预先设置的比例阈值；

当增加连通体后待识别连通体组的外围矩形的宽高比例大于等于预先设置的比例阈值时，将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

4.根据权利要求3所述的方法，其特征在于，所述对待识别图片内一行汉字中的连通体依次进行横向区域分割，还包括：

计算待识别汉字的宽高比例与预先设置的比例阈值的均值；

判断所述均值是否在预先设置的数值区间内；

当所述均值位于预先设置的数值区间内，将所述均值替换预先设置的比例阈值；

当所述均值位于预先设置的数值区间外，继续使用预先设置的比例阈值。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

判断所选取一行汉字中是否存在新的连通体，当不存在新的连通体时，结束。

6.根据权利要求1所述的方法，其特征在于，当查找到的所有待选汉字的匹配度都小于匹配度阈值时，所述在预先建立的样本字库内查找满足匹配度要求的汉字，还包括：

在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字，n的初始值为0；

计算所述待识别汉字与备选汉字的匹配度；

判断所述待识别汉字与备选汉字的匹配度是否大于等于预先设置的匹配度阈值；

当所述待识别汉字与备选汉字的匹配度大于等于匹配度阈值时，将匹配度最大的备选汉字确定为目标汉字；

当所述待识别汉字与备选汉字的匹配度小于匹配度阈值时，将n的值增加1后，继续查找备选汉字，直至n等于预先设置的循环次数。

7.根据权利要求6所述的方法，其特征在于，每个待选汉字都按照预先设置的规则划分有多个特征边，并且每个特征边的特征信息已知，所述特征信息包括：特征边的坐标值以及角度值；

所述计算所述待识别汉字与待选汉字的匹配度，包括：

按照预先设置的规则获取待识别汉字中多个特征边的参数信息；

计算所述待识别汉字中特征边参数信息与待选汉字中特征边的参数信息的相匹配的特征边个数；

将相匹配的特征边的个数与待选汉字的总特征边个数的比值确定为匹配度。

8.根据权利要求1所述的方法，其特征在于，所述显示所有目标汉字，包括：

按照对待识别图片进行横向区域分割时连通体所在位置将所有目标汉字进行排列；

生成与排列后所有目标汉字相对应的标签；

获取待识别图片的统一资源定位符；

将所述统一资源定位符中的图片标签更换为所有目标汉字的标签；

接收浏览器对所述待识别图片的统一资源定位符的解析指令，根据所述解析指令将所述排列后所有目标汉字进行显示。

9.一种图片内文字显示装置，其特征在于，包括：

图片获取单元，用于获取待识别图片；

图片判断单元，用于根据所述待识别图片上的连通体判断所述待识别图片内是否存在至少一行汉字；

横向区域分割单元，用于当所述待识别图片内存在至少一行汉字时，对待识别图片内一行汉字中的连通体依次进行横向区域分割，得到待识别汉字，所述待识别汉字内包含有一个或多个连通体；

匹配单元，用于根据所述待识别汉字内包含连通体的个数，在预先建立的样本字库内查找满足匹配度要求的汉字，将查找到汉字作为目标汉字；

显示单元，用于显示所有目标汉字；

其中，所述匹配单元还包括：

待选汉字查找单元，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相同的汉字，作为待选汉字；

第一匹配度计算单元，用于计算所述待识别汉字与待选汉字的匹配度；

第一匹配度判断单元，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；

目标汉字确定单元，用于当第一匹配度判断单元的判断结果为是时，将匹配度最大的待选汉字确定为目标汉字。

10.根据权利要求9所述的装置，其特征在于，所述图片判断单元包括：

图像处理单元，用于对待识别图片进行图像处理；

连通性分析单元，用于对图像处理后的待识别图片进行连通性分析，去除非汉字笔画的连通体，得到多个组成汉字的连通体；

字符基线判断单元，用于判断待识别图片内连通体所在位置是否存在至少一组字符基线；

图片确定单元，用于当所述字符基线判断单元的判断结果为是时，确定所述待识别图片内存在至少一行汉字；并且当所述字符基线判断单元的判断结果为否时，确定所述待识别图片内不存在至少一行汉字。

11.根据权利要求9或10所述的装置，其特征在于，所述横向区域分割单元包括：

连通体组确定单元，用于在一行汉字中依次选取一个连通体加入到待识别连通体组内；

比例计算单元，用于计算所述待识别连通体组的外围矩形的宽高比例；

比例判断单元，用于判断所述待识别连通体组外围矩形的宽高比例是否小于预先设置的比例阈值；

当所述比例判断单元的判断结果为是时，所述连通体组确定单元还用于依次选取一个相邻连通体并增加到所述待识别连通体组，所述比例计算单元还用于计算增加连通体后待识别连通体组的外围矩形的宽高比例，所述比例判断单元还用于判断增加连通体后待识别连通体组的外围矩形的宽高比例是否小于预先设置的比例阈值；

待识别汉字确定单元，用于当增加连通体后待识别连通体组的外围矩形的宽高比例大于等于预先设置的比例阈值时，将增加连通体前的待识别连通体内所有连通体作为一个待识别汉字。

12.根据权利要求11所述的装置，其特征在于，所述横向区域分割单元还包括：

均值计算单元，用于计算待识别汉字的宽高比例与预先设置的比例阈值的均值；

均值判断单元，用于判断所述均值是否在预先设置的数值区间内，

比例阈值更新单元，用于当所述均值位于预先设置的数值区间内，将所述均值作为下一个待识别连通体的比例阈值。

13.根据权利要求9所述的装置，其特征在于，当所述第一匹配度判断单元的判断结果为否时，所述匹配单元还包括：

备选汉字查找单元，用于在预先建立的样本字库内查找连通体个数与所述待识别汉字内包含连通体的个数相差n的汉字，作为备选汉字，n的初始值为0；

第二匹配度计算单元，用于计算所述待识别汉字与备选汉字的匹配度；

第二匹配度判断单元，用于判断计算得到的匹配度是否大于等于预先设置的匹配度阈值；

所述目标汉字确定单元还用于当所述第二匹配度判断单元的判断结果为是时，将满足匹配度阈值的备选汉字确定为目标汉字，

所述备选汉字查找单元还用于当所述第二匹配度判断单元的判断结果为否时，将n的值增加1后，继续查找备选汉字，直至n等于预先设置的循环次数。

14.根据权利要求9所述的装置，其特征在于，所述显示单元还包括：

排列单元，用于将所有目标汉字按照对待识别图片进行横向区域分割时所在位置进行排列；

标签生成单元，用于生成与排列后所有目标汉字相对应的标签；

统一资源定位符获取单元，用于获取待识别图片的统一资源定位符；

标签更换单元，用于将所述统一资源定位符内的图片标签更换为所有目标汉字的标签；

显示子单元，用于接收浏览器对所述待识别图片的统一资源定位符的解析指令，根据所述解析指令将所述排列后所有目标汉字进行显示。