CN109508712A

CN109508712A - 一种基于图像的汉语文字识别方法

Info

Publication number: CN109508712A
Application number: CN201811354843.6A
Authority: CN
Inventors: 唐芳贵
Original assignee: Hengyang Normal University
Current assignee: Hengyang Normal University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-03-22

Abstract

本发明涉及计算机应用技术领域，具体涉及一种基于图像的汉语文字识别方法。所述方法包括：步骤一、获取待识别的图像；步骤二、对已获取的图像预处理；步骤三、对图像中的文字载体进行逐行识别，扫描完该行字符后再依次扫描下一行字符，获取所述文字载体的轮廓；步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配，将匹配后的字符信息转换为该字符信息对应的文字；步骤五、记录所述文字位置信息；步骤六、根据各文字位置进行板面分析得到语句结构分布；步骤七、对所述语句结构分布进行校正，得到校正后的识别结果，以确定图像的语义；步骤八、导出校正后的识别结果。提高了图像文字识别的精度。

Description

一种基于图像的汉语文字识别方法

技术领域

本发明涉及计算机应用技术领域，具体涉及一种基于图像的汉语文字识别方法。

背景技术

随着移动互联网的迅速发展，基于移动终端摄像头采集到的图像的应用越来越广泛，其中图像识别技术将图像中的文字进行识别，转换为文本文字，从而减轻了用户输入对应文字信息的负担，方便用户存储、编辑对应的文字信息，但是图像文字识别技术是一个十分复杂的技术问题，特别是在图像内容复杂的情况下，文字识别精度往往无法满足用户的需求。

发明内容

为了解决上述问题，本发明提供了一种基于图像的汉语文字识别方法。

具体技术方案为：一种基于图像的汉语文字识别方法，所述方法包括：

步骤一、获取待识别的图像；

步骤二、对已获取的图像预处理：对倾斜图像进行校正，阀值化处理获得前景信息以及背景信息单一的图像；

步骤三、对图像中的文字载体进行逐行识别，扫描完该行字符后再依次扫描下一行字符，获取所述文字载体的轮廓；

步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配，将匹配后的字符信息转换为该字符信息对应的文字；

步骤五、记录所述文字位置信息；

步骤六、根据各文字位置进行板面分析得到语句结构分布；

步骤七、对所述语句结构分布进行校正，得到校正后的识别结果，以确定图像的语义；

步骤八、导出校正后的识别结果。

优选的，所述步骤二中对倾斜图像进行校正的步骤包括：先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度，得到直线角度并旋转图像角度。

优选的，所述步骤三中对图像中的文字载体进行逐行识别，扫描完该行字符后再依次扫描下一行字符，获取所述文字载体的轮廓具体包括：按照图像中的文字载体进行逐行识别，若首行像素的扫描结果为空，则继续扫下一行像素，直至扫描到该行像素中有待识别的内容，然后扫描完该行字符后再逐行扫描下行字符像素，直至获取所有的字符。

优选的，所述步骤四数据库为常规字体，包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。

优选的，步骤四所述将载体的轮廓与数据库中标准轮廓进行匹配，将匹配后的字符信息转换为该字符信息对应的文字，具体包括：将扫描后的字符信息与数据库中标准轮廓进行匹配，若匹配后的字符信息与多种文字相对应，则将匹配后的字符信息转换为字符长度最长的文字。

优选的，步骤五所述记录文字位置信息具体包括：采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字位置信息。

优选的，所述步骤六具体包括：将文字行中各字块的识别结果与词语进行匹配，得到结构成语的识别结果；然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。

优选的，所述步骤七具体包括：对所述语句结构分布进行校正，得到校正后的识别结果，以确定图像的语义具体为：将语句与数据库进行匹配，依据匹配情况确定各语句的匹配置信度，将匹配置信度高的语句作为校正后的识别结果。

本发明的有益效果为：有目的的识别出突显文字的载体是预设规则载体(例如书、纸张等规则的载体)，然后将载体的轮廓与数据库中标准轮廓进行匹配，将匹配后的字符信息转换为该字符信息对应的文字，提高了文字的识别率，降低了文字识别错误率；再通过版面分析得到语句结构分布，基于语句结构分布对各字块的识别结果进行语义分析的校正，从而有效地利用了文字之间的语义信息对各字块的识别结果进行修正，提高了图像文字识别的精度，更好地满足了用户的识别需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的实现步骤流程示意图；

图2是本发明的文字模板示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当的情况下，所述技术、方法和设备应当视为说明书的一部分。

实施例一

一种基于图像的汉语文字识别方法，所述方法包括：

步骤一、获取待识别的图像；

步骤五、记录所述文字位置信息；

步骤六、根据各文字位置进行板面分析得到语句结构分布；

步骤八、导出校正后的识别结果。

进一步的，所述步骤四数据库为常规字体，包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。

本实施例中所指的图像包括票据、表格、文档等多种纸质文件形成的图像，不局限于某一种特定的纸质文件形成的图像。下面以文档为例，进一步详细阐述本发明所提供的一种基于图像汉语文字识别方法。

实施例二

步骤一、获取待识别的图像；

待识别的图像可以是任何需要进行文字识别的照片或者扫描件，待识别的图像可以是JPG、BMP、PNG、JPEG、TIFF、RAW等格式。

所述的对倾斜图像进行校正包括：先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度，得到直线角度并旋转图像角度。

本实施例中所述的阀值化处理：所述阀值化处理包括固定阀值化方法、自适阀值化方法、大法律或迭代法，图像的阀值化有利于图像的进一步处理，获得单前景信息以及背景信息单一的图像，使图像变得简单，且数据处理量减小，能明确显现出目标的轮廓。

在本实施例中，用显示文字的电子设备，对图像中的文字载体进行逐行扫描，按照图像中的文字载体进行逐行识别，若首行像素的扫描结果为空，则继续扫下一行像素，直至扫描到该行像素中有待识别的内容，然后扫描完该行字符后再逐行扫描下行字符像素，直至获取所有的字符。

在本实施例中，将扫描后的字符信息与数据库中标准轮廓进行匹配，若匹配后的字符信息与多种文字相对应，则将匹配后的字符信息转换为字符长度最长的文字。例如扫描后的字符信息可以识别为两个又字，也可以识别为一个双，则被识别为一个双字；

步骤五、记录所述文字位置信息；

采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字位置信息。

步骤六、根据各文字位置进行板面分析得到语句结构分布；

将文字行中各字块的识别结果与词语进行匹配，将文字行中非首位的字块的识别结果中无法与紧邻的字块的识别结果组成词语的识别结果删除，但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外，最终得到结构成语的识别结果；

然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。在本步骤中就是确定出文字行所有可能识别出的语句，按照各字块的顺序将构成词语的识别结果以及未构成词语的识别结果进行组合，得到所述可能的语句。

将语句与数据库进行匹配，依据匹配情况确定各语句的匹配置信度，将匹配置信度高的语句作为校正后的识别结果。

步骤八、导出校正后的识别结果。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于图像的汉语文字识别方法，其特征在于，所述方法包括：

步骤一、获取待识别的图像；

步骤五、记录所述文字位置信息；

步骤六、根据各文字位置进行板面分析得到语句结构分布；

步骤八、导出校正后的识别结果。

2.根据权利要求1所述的一种基于图像的汉语文字识别方法，其特征在于，所述步骤二中对倾斜图像进行校正的步骤包括：先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度，得到直线角度并旋转图像角度。

3.根据权利要求1所述的一种基于图像的汉语文字识别方法，其特征在于，所述步骤三中对图像中的文字载体进行逐行识别，扫描完该行字符后再依次扫描下一行字符，获取所述文字载体的轮廓具体包括：按照图像中的文字载体进行逐行识别，若首行像素的扫描结果为空，则继续扫下一行像素，直至扫描到该行像素中有待识别的内容，然后扫描完该行字符后再逐行扫描下行字符像素，直至获取所有的字符。

4.根据权利要求1所述的一种基于图像的汉语文字识别方法，其特征在于，所述步骤四数据库为常规字体，包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。

5.根据权利要求4所述的一种基于图像的汉语文字识别方法，其特征在于，步骤四所述将载体的轮廓与数据库中标准轮廓进行匹配，将匹配后的字符信息转换为该字符信息对应的文字，具体包括：将扫描后的字符信息与数据库中标准轮廓进行匹配，若匹配后的字符信息与多种文字相对应，则将匹配后的字符信息转换为字符长度最长的文字。

6.根据权利要求1所述的一种基于图像的汉语文字识别方法，其特征在于，步骤五所述记录文字位置信息具体包括：采用Faster-RCNN对所述多个区域中的文字区域进行检测，以获取所述文字位置信息。

7.根据权利要求1所述的一种基于图像的汉语文字识别方法，其特征在于，所述步骤六具体包括：将文字行中各字块的识别结果与词语进行匹配，得到结构成语的识别结果；然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。

8.据权利要求7的一种基于图像的汉语文字识别方法，其特征在于，所述步骤七具体包括：对所述语句结构分布进行校正，得到校正后的识别结果，以确定图像的语义具体为：将语句与数据库进行匹配，依据匹配情况确定各语句的匹配置信度，将匹配置信度高的语句作为校正后的识别结果。