CN109508712A - 一种基于图像的汉语文字识别方法 - Google Patents

一种基于图像的汉语文字识别方法 Download PDF

Info

Publication number
CN109508712A
CN109508712A CN201811354843.6A CN201811354843A CN109508712A CN 109508712 A CN109508712 A CN 109508712A CN 201811354843 A CN201811354843 A CN 201811354843A CN 109508712 A CN109508712 A CN 109508712A
Authority
CN
China
Prior art keywords
image
chinese
line
character
carrier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811354843.6A
Other languages
English (en)
Inventor
唐芳贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengyang Normal University
Original Assignee
Hengyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengyang Normal University filed Critical Hengyang Normal University
Priority to CN201811354843.6A priority Critical patent/CN109508712A/zh
Publication of CN109508712A publication Critical patent/CN109508712A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1985Syntactic analysis, e.g. using a grammatical approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明涉及计算机应用技术领域,具体涉及一种基于图像的汉语文字识别方法。所述方法包括:步骤一、获取待识别的图像;步骤二、对已获取的图像预处理;步骤三、对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓;步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字;步骤五、记录所述文字位置信息;步骤六、根据各文字位置进行板面分析得到语句结构分布;步骤七、对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义;步骤八、导出校正后的识别结果。提高了图像文字识别的精度。

Description

一种基于图像的汉语文字识别方法
技术领域
本发明涉及计算机应用技术领域,具体涉及一种基于图像的汉语文字识别方法。
背景技术
随着移动互联网的迅速发展,基于移动终端摄像头采集到的图像的应用越来越广泛,其中图像识别技术将图像中的文字进行识别,转换为文本文字,从而减轻了用户输入对应文字信息的负担,方便用户存储、编辑对应的文字信息,但是图像文字识别技术是一个十分复杂的技术问题,特别是在图像内容复杂的情况下,文字识别精度往往无法满足用户的需求。
发明内容
为了解决上述问题,本发明提供了一种基于图像的汉语文字识别方法。
具体技术方案为:一种基于图像的汉语文字识别方法,所述方法包括:
步骤一、获取待识别的图像;
步骤二、对已获取的图像预处理:对倾斜图像进行校正,阀值化处理获得前景信息以及背景信息单一的图像;
步骤三、对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓;
步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字;
步骤五、记录所述文字位置信息;
步骤六、根据各文字位置进行板面分析得到语句结构分布;
步骤七、对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义;
步骤八、导出校正后的识别结果。
优选的,所述步骤二中对倾斜图像进行校正的步骤包括:先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度,得到直线角度并旋转图像角度。
优选的,所述步骤三中对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓具体包括:按照图像中的文字载体进行逐行识别,若首行像素的扫描结果为空,则继续扫下一行像素,直至扫描到该行像素中有待识别的内容,然后扫描完该行字符后再逐行扫描下行字符像素,直至获取所有的字符。
优选的,所述步骤四数据库为常规字体,包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。
优选的,步骤四所述将载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字,具体包括:将扫描后的字符信息与数据库中标准轮廓进行匹配,若匹配后的字符信息与多种文字相对应,则将匹配后的字符信息转换为字符长度最长的文字。
优选的,步骤五所述记录文字位置信息具体包括:采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字位置信息。
优选的,所述步骤六具体包括:将文字行中各字块的识别结果与词语进行匹配,得到结构成语的识别结果;然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。
优选的,所述步骤七具体包括:对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义具体为:将语句与数据库进行匹配,依据匹配情况确定各语句的匹配置信度,将匹配置信度高的语句作为校正后的识别结果。
本发明的有益效果为:有目的的识别出突显文字的载体是预设规则载体(例如书、纸张等规则的载体),然后将载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字,提高了文字的识别率,降低了文字识别错误率;再通过版面分析得到语句结构分布,基于语句结构分布对各字块的识别结果进行语义分析的校正,从而有效地利用了文字之间的语义信息对各字块的识别结果进行修正,提高了图像文字识别的精度,更好地满足了用户的识别需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的实现步骤流程示意图;
图2是本发明的文字模板示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当的情况下,所述技术、方法和设备应当视为说明书的一部分。
实施例一
一种基于图像的汉语文字识别方法,所述方法包括:
步骤一、获取待识别的图像;
步骤二、对已获取的图像预处理:对倾斜图像进行校正,阀值化处理获得前景信息以及背景信息单一的图像;
步骤三、对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓;
步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字;
步骤五、记录所述文字位置信息;
步骤六、根据各文字位置进行板面分析得到语句结构分布;
步骤七、对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义;
步骤八、导出校正后的识别结果。
进一步的,所述步骤四数据库为常规字体,包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。
本实施例中所指的图像包括票据、表格、文档等多种纸质文件形成的图像,不局限于某一种特定的纸质文件形成的图像。下面以文档为例,进一步详细阐述本发明所提供的一种基于图像汉语文字识别方法。
实施例二
步骤一、获取待识别的图像;
待识别的图像可以是任何需要进行文字识别的照片或者扫描件,待识别的图像可以是JPG、BMP、PNG、JPEG、TIFF、RAW等格式。
步骤二、对已获取的图像预处理:对倾斜图像进行校正,阀值化处理获得前景信息以及背景信息单一的图像;
所述的对倾斜图像进行校正包括:先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度,得到直线角度并旋转图像角度。
本实施例中所述的阀值化处理:所述阀值化处理包括固定阀值化方法、自适阀值化方法、大法律或迭代法,图像的阀值化有利于图像的进一步处理,获得单前景信息以及背景信息单一的图像,使图像变得简单,且数据处理量减小,能明确显现出目标的轮廓。
步骤三、对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓;
在本实施例中,用显示文字的电子设备,对图像中的文字载体进行逐行扫描,按照图像中的文字载体进行逐行识别,若首行像素的扫描结果为空,则继续扫下一行像素,直至扫描到该行像素中有待识别的内容,然后扫描完该行字符后再逐行扫描下行字符像素,直至获取所有的字符。
步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字;
在本实施例中,将扫描后的字符信息与数据库中标准轮廓进行匹配,若匹配后的字符信息与多种文字相对应,则将匹配后的字符信息转换为字符长度最长的文字。例如扫描后的字符信息可以识别为两个又字,也可以识别为一个双,则被识别为一个双字;
步骤五、记录所述文字位置信息;
采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字位置信息。
步骤六、根据各文字位置进行板面分析得到语句结构分布;
将文字行中各字块的识别结果与词语进行匹配,将文字行中非首位的字块的识别结果中无法与紧邻的字块的识别结果组成词语的识别结果删除,但对于可独立成语义的或者紧邻字块的识别结果缺失的识别结果除外,最终得到结构成语的识别结果;
然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。在本步骤中就是确定出文字行所有可能识别出的语句,按照各字块的顺序将构成词语的识别结果以及未构成词语的识别结果进行组合,得到所述可能的语句。
步骤七、对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义;
将语句与数据库进行匹配,依据匹配情况确定各语句的匹配置信度,将匹配置信度高的语句作为校正后的识别结果。
步骤八、导出校正后的识别结果。
进一步的,所述步骤四数据库为常规字体,包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于图像的汉语文字识别方法,其特征在于,所述方法包括:
步骤一、获取待识别的图像;
步骤二、对已获取的图像预处理:对倾斜图像进行校正,阀值化处理获得前景信息以及背景信息单一的图像;
步骤三、对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓;
步骤四、将所述载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字;
步骤五、记录所述文字位置信息;
步骤六、根据各文字位置进行板面分析得到语句结构分布;
步骤七、对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义;
步骤八、导出校正后的识别结果。
2.根据权利要求1所述的一种基于图像的汉语文字识别方法,其特征在于,所述步骤二中对倾斜图像进行校正的步骤包括:先对图像进行膨化处理、检测膨化后图像的边缘、对边缘点进行hough变换找到最长线段的角度,得到直线角度并旋转图像角度。
3.根据权利要求1所述的一种基于图像的汉语文字识别方法,其特征在于,所述步骤三中对图像中的文字载体进行逐行识别,扫描完该行字符后再依次扫描下一行字符,获取所述文字载体的轮廓具体包括:按照图像中的文字载体进行逐行识别,若首行像素的扫描结果为空,则继续扫下一行像素,直至扫描到该行像素中有待识别的内容,然后扫描完该行字符后再逐行扫描下行字符像素,直至获取所有的字符。
4.根据权利要求1所述的一种基于图像的汉语文字识别方法,其特征在于,所述步骤四数据库为常规字体,包括宋体、仿宋、华文楷体、华文仿宋、微软雅黑、楷体、新宋体、方正舒体、方正姚体、黑体、华文彩云、华文行楷、华文隶书、华文宋体、幼圆。
5.根据权利要求4所述的一种基于图像的汉语文字识别方法,其特征在于,步骤四所述将载体的轮廓与数据库中标准轮廓进行匹配,将匹配后的字符信息转换为该字符信息对应的文字,具体包括:将扫描后的字符信息与数据库中标准轮廓进行匹配,若匹配后的字符信息与多种文字相对应,则将匹配后的字符信息转换为字符长度最长的文字。
6.根据权利要求1所述的一种基于图像的汉语文字识别方法,其特征在于,步骤五所述记录文字位置信息具体包括:采用Faster-RCNN对所述多个区域中的文字区域进行检测,以获取所述文字位置信息。
7.根据权利要求1所述的一种基于图像的汉语文字识别方法,其特征在于,所述步骤六具体包括:将文字行中各字块的识别结果与词语进行匹配,得到结构成语的识别结果;然后利用构成成语的识别结果以及未构成词语的识别结果按照字块顺序进行组合得到语句。
8.据权利要求7的一种基于图像的汉语文字识别方法,其特征在于,所述步骤七具体包括:对所述语句结构分布进行校正,得到校正后的识别结果,以确定图像的语义具体为:将语句与数据库进行匹配,依据匹配情况确定各语句的匹配置信度,将匹配置信度高的语句作为校正后的识别结果。
CN201811354843.6A 2018-11-14 2018-11-14 一种基于图像的汉语文字识别方法 Withdrawn CN109508712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354843.6A CN109508712A (zh) 2018-11-14 2018-11-14 一种基于图像的汉语文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354843.6A CN109508712A (zh) 2018-11-14 2018-11-14 一种基于图像的汉语文字识别方法

Publications (1)

Publication Number Publication Date
CN109508712A true CN109508712A (zh) 2019-03-22

Family

ID=65748525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354843.6A Withdrawn CN109508712A (zh) 2018-11-14 2018-11-14 一种基于图像的汉语文字识别方法

Country Status (1)

Country Link
CN (1) CN109508712A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222503A (zh) * 2020-04-16 2020-06-02 湖南师范大学 一种古琴减字谱指法的手写谱字识别方法
CN113221886A (zh) * 2021-05-17 2021-08-06 广西安怡臣信息技术有限公司 一种基于图文识别后的文字学习校对系统
CN114580429A (zh) * 2022-01-26 2022-06-03 云捷计算机软件(江苏)有限责任公司 一种基于人工智能的语言和图像理解集成服务系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222503A (zh) * 2020-04-16 2020-06-02 湖南师范大学 一种古琴减字谱指法的手写谱字识别方法
CN113221886A (zh) * 2021-05-17 2021-08-06 广西安怡臣信息技术有限公司 一种基于图文识别后的文字学习校对系统
CN114580429A (zh) * 2022-01-26 2022-06-03 云捷计算机软件(江苏)有限责任公司 一种基于人工智能的语言和图像理解集成服务系统

Similar Documents

Publication Publication Date Title
Hochberg et al. Automatic script identification from document images using cluster-based templates
Mithe et al. Optical character recognition
KR101376863B1 (ko) 문서 시각 구조의 문법 분석
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
AU2010311067B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
US20240037969A1 (en) Recognition of handwritten text via neural networks
CN103488711A (zh) 一种快速制作矢量字库的方法及系统
CN107451582A (zh) 一种图文识别系统及其识别方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN112052852A (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
Isheawy et al. Optical character recognition (ocr) system
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Ceniza et al. Mobile application for recognizing text in degraded document images using optical character recognition with adaptive document image binarization
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
CN111881880A (zh) 一种基于新型网络的票据文本识别方法
Nederhof et al. OCR of handwritten transcriptions of Ancient Egyptian hieroglyphic text
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Suchenwirth et al. Optical recognition of Chinese characters
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
TWM618756U (zh) 影像識別系統
Mariner Optical Character Recognition (OCR)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190322

WW01 Invention patent application withdrawn after publication