CN110969163A - 一种检测图像中文本信息的方法 - Google Patents
一种检测图像中文本信息的方法 Download PDFInfo
- Publication number
- CN110969163A CN110969163A CN201911327211.5A CN201911327211A CN110969163A CN 110969163 A CN110969163 A CN 110969163A CN 201911327211 A CN201911327211 A CN 201911327211A CN 110969163 A CN110969163 A CN 110969163A
- Authority
- CN
- China
- Prior art keywords
- image
- font
- character
- characters
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种检测图像中文本信息的方法,通过对自然文本图像数据库中下载的多张带有文本信息的自然街景图像进行一系列的处理,从而构建出字体语素数据库,使字体语素数据库中包含有通用的汉文字符;然后通过字体语素数据库直接对待检测的自然街景图像进行文本字符识别并输出,同时又增加人工检视的方式识别生僻字符,进而完善字体语素数据库;具有操作简单、识别精度高、人工干预少,特别解决了自然场景下的弯曲变形字难以检测的问题。
Description
技术领域
本发明属于图像处理技术领域,更为具体地讲,涉及一种检测图像中文本信息的方法。
背景技术
OCR(Optical Character Recognition)是光学字符识别,表示通过光学数字化设备(比如扫描仪、数码相机等)拍摄的图像,对图像中的文字进行识别。在文档图像处理领域还有一个更大的概念:DAR(Document Analysis&Recognition)即文档图像分析和识别,这是一个更广泛的概念。另外一个比较细的领域就是场景文字识别STR(Scene TextRecognition),主要是针对自然场景当中以手机为主的拍摄图片从中检测和识别文字。综上所述,OCR、DAR及STR有着不同的概念,OCR是最为人熟知的一种概念,场景文字识别实际上是OCR的一种典型分支。
近几年DAR技术的发展已经非常好,对于文档图像的分析与识别,国内外的众多大公司推出了很多相关技术产品,很多产品也已经融入到我们的日常生活中。此类产品针对的是文档文本,即相对比较工整正规的、没有形变扭曲字的文本检测及识别。
已有的技术大多是针对于文档图像分析和识别,而对于场景文字识别的研究大多还在文本检测及文本识别的算法改进阶段,运用的设备也相对比较笨重,存在着不方便进行实时拍摄进行文本检测及识别工作的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种检测图像中文本信息的方法,为解决自然场景下的弯曲变形字难以检测的问题。
为实现上述发明目的,本发明一种检测图像中文本信息的方法,其特征在于,包括以下步骤:
(1)、构建训练数据库
(1.1)、从自然文本图像数据库中下载多张带有文本信息的自然街景图像;
(1.2)、通过手动标记的方式标记出自然街景图像中的文本信息区域,标记为感兴趣区域,并标记上标签,最后将标记好标签的图像存储在训练数据库;
(2)、图像预处理
(2.1)、从训练数据库中随机选取一张图像,再转换为灰度图,然后将带有标签出的感兴趣区域的像素值保持不变,其余位置的像素值置为0;
(2.2)、对步骤(2.1)处理后的图像进行分块处理,等分为N×N大小的矩形块,在等分过程中,对于图像中多出的行或列,则在其后补充相应的行或列,从而补充出一行或一列N×N大小的矩形块,其中补充的像素点的像素值取0;
(3)、矩形块的DCT处理
利用离散余弦变换DCT算法对图像中的每个矩形块进行处理,具体处理方法为如下公式:
其中,f(μ,υ)表示坐标为(μ,υ)的矩形块经过DCT处理后的值,P(m,n)表示图像中坐标为(m,n)的像素点的像素值,m,n∈[0,N-1]
(4)、在图像中标记字符出现区域
(4.1)、每个矩形块进行DCT处理完成后,将每个值f(μ,υ)按照矩形框在图像中的位置组成矩阵F;
(4.2)、设置阈值P;
(4.3)、在矩阵F中,提取元素值f(μ,υ)≥P的元素,然后在图像中将这些元素值对应的像素点标记为字符出现区域;
(5)、Bagging及自适应增强算法对标记有字符出现区域的图像进行增强处理,得到加强后的字符区域;
(6)、利用卷积神经网络CNN对步骤(5)处理后的图像进行特征提取,提取出图像中字符区域的字符向量,再利用卷积神经网络RNN从字符向量中提取出文字序列,最后利用CTC矫正文字序列,使文字序列中的字符对齐,从而得到原始识别字符;
(7)、利用统计语言模型对原始识别字符进行字符矫正,得到多种字体形式的文本字符;
(8)、将相同文字字符的不同字体形式标记成同一语素,并保存在字体语素数据库;
(9)、重复步骤(2)-(8),从而完善字体语素数据库,使字体语素数据库中包含有通用的汉文字符;
(10)、将待检测的自然街景图像按照上述方法进行处理,得到待检测的自然街景图像中的多种字体形式的文本字符;然后利用字体语素数据库对文本字符进行检测识别,如果字体语素数据库不能对文本字符进行识别,则通过人工检视的方式识别该文本字符,并补充到字体语素数据库;如果如果字体语素数据库能够对文本字符进行识别,则直接输出识别结果。
本发明的发明目的是这样实现的:
本发明一种检测图像中文本信息的方法,通过对自然文本图像数据库中下载的多张带有文本信息的自然街景图像进行一系列的处理,从而构建出字体语素数据库,使字体语素数据库中包含有通用的汉文字符;然后通过字体语素数据库直接对待检测的自然街景图像进行文本字符识别并输出,同时又增加人工检视的方式识别生僻字符,进而完善字体语素数据库;具有操作简单、识别精度高、人工干预少,特别解决了自然场景下的弯曲变形字难以检测的问题。
附图说明
图1是本发明一种检测图像中文本信息的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种检测图像中文本信息的方法流程图。
在本实施例中,如图1所示,本发明一种检测图像中文本信息的方法,包括以下步骤:
S1、构建训练数据库
S1.1、从自然文本图像数据库中下载多张带有文本信息的自然街景图像;
S1.2、通过手动标记的方式标记出自然街景图像中的文本信息区域,标记为感兴趣区域,并标记上标签,最后将标记好标签的图像存储在训练数据库;
S2、图像预处理
S2.1、从训练数据库中随机选取一张图像,再转换为灰度图,然后将带有标签出的感兴趣区域的像素值保持不变,其余位置的像素值置为0;
S2.2、对步骤S2.1处理后的图像进行分块处理,等分为N×N大小的矩形块,在本实施例中设置矩形块大小为8*8,即每个矩形小块有8*8个像素,在等分过程中,对于图像中不能整除8像素的行或列,则在其行或列中补充相应缺失的空白像素点,使补充后的行、列像素个数恰好能被8整除,将图像分块恰好得到整数个64像素矩形块;
S3、矩形块的DCT处理
利用离散余弦变换DCT算法对图像中的每个矩形块进行处理,具体处理方法为如下公式:
其中,f(μ,υ)表示坐标为(μ,υ)的矩形块经过DCT处理后的值,P(m,n)表示图像中坐标为(m,n)的像素点的像素值,m,n∈[0,N-1];
S4、在图像中标记字符出现区域
S4.1、每个矩形块进行DCT处理完成后,将每个值f(μ,υ)按照矩形框在图像中的位置组成矩阵F;
S4.2、设置阈值P;
S4.3、在矩阵F中,提取元素值f(μ,υ)≥P的元素,然后在图像中将这些元素值对应的像素点标记为字符出现区域;
S5、图像增强处理
Bagging及自适应增强算法对标记有字符出现区域的图像进行增强处理,得到加强后的字符区域;
S6、获取原始识别字符
利用卷积神经网络CNN对步骤S5处理后的图像进行特征提取,提取出图像中字符区域的字符向量,本实施例中将大小为(32,100,3)的图像转换为(1,25,512)大小的卷积特征矩阵,形成字符向量,再利用卷积神经网络RNN从字符向量中提取出文字序列,本实施例中用一个深层双向RNN网络,根据(1,25,512)可知对于RNN最大时间长度为25,即有25个时间输入,每次输入的列向量有512个最后利用CTC矫正文字序列,使文字序列中的字符对齐,从而得到原始识别字符;
S7、字符矫正
利用统计语言模型对原始识别字符进行字符矫正,得到多种字体形式的文本字符;
S8、构建字体语素数据库
将相同文字字符的不同字体形式标记成同一语素,并保存在字体语素数据库;
S9、完善字体语素数据库
重复步骤S2-S8,从而完善字体语素数据库,使字体语素数据库中包含有通用的汉文字符;
S10、实时检测
将待检测的自然街景图像按照上述方法进行处理,得到待检测的自然街景图像中的多种字体形式的文本字符;然后利用字体语素数据库对文本字符进行检测识别,如果字体语素数据库不能对文本字符进行识别,则通过人工检视的方式识别该文本字符,并补充到字体语素数据库;如果字体语素数据库能够对文本字符进行识别,则直接输出识别结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种检测图像中文本信息的方法,其特征在于,包括以下步骤:
(1)、构建训练数据库
(1.1)、从自然文本图像数据库中下载多张带有文本信息的自然街景图像;
(1.2)、通过手动标记的方式标记出自然街景图像中的文本信息区域,标记为感兴趣区域,并标记上标签,最后将标记好标签的图像存储在训练数据库;
(2)、图像预处理
(2.1)、从训练数据库中随机选取一张图像,再转换为灰度图,然后将带有标签出的感兴趣区域的像素值保持不变,其余位置的像素值置为0;
(2.2)、对步骤(2.1)处理后的图像进行分块处理,等分为N×N大小的矩形块,在等分过程中,对于图像中多出的行或列,则在其后补充相应的行或列,从而补充出一行或一列N×N大小的矩形块;
(3)、矩形块的DCT处理
利用离散余弦变换DCT算法对图像中的每个矩形块进行处理理,具体处理方法为如下公式:
其中,f(μ,υ)表示坐标为(μ,υ)的矩形块经过DCT处理后的值,P(m,n)表示图像中坐标为(m,n)的像素点的像素值,m,n∈[0,N-1]
(4)、在图像中标记字符出现区域
(4.1)、每个矩形块进行DCT处理完成后,将每个值f(μ,υ)按照矩形框在图像中的位置组成矩阵F;
(4.2)、设置阈值P;
(4.3)、在矩阵F中,提取元素值f(μ,υ)≥P的元素,然后在图像中将这些元素值对应的像素点标记为字符出现区域;
(5)、Bagging及自适应增强算法对标记有字符出现区域的图像进行增强处理,得到加强后的字符区域;
(6)、利用卷积神经网络CNN对步骤(5)处理后的图像进行特征提取,提取出图像中字符区域的字符向量,再利用卷积神经网络RNN从字符向量中提取出文字序列,最后利用CTC矫正文字序列,使文字序列中的字符对齐,从而得到原始识别字符;
(7)、利用统计语言模型对原始识别字符进行字符矫正矫正,得到多种字体形式的文本字符;
(8)、将相同文字字符的不同字体形式标记成同一语素,并保存在字体语素数据库;
(9)、重复步骤(2)-(8),从而完善字体语素数据库,使字体语素数据库中包含有通用的汉文字符;
(10)、将待检测的自然街景图像按照上述方法进行处理,得到待检测的自然街景图像中的多种字体形式的文本字符;然后利用字体语素数据库对文本字符进行检测识别,如果字体语素数据库不能对文本字符进行识别,则通过人工检视的方式识别该文本字符,并补充到字体语素数据库;如果如果字体语素数据库能够对文本字符进行识别,则直接输出识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327211.5A CN110969163A (zh) | 2019-12-20 | 2019-12-20 | 一种检测图像中文本信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911327211.5A CN110969163A (zh) | 2019-12-20 | 2019-12-20 | 一种检测图像中文本信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110969163A true CN110969163A (zh) | 2020-04-07 |
Family
ID=70035680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911327211.5A Pending CN110969163A (zh) | 2019-12-20 | 2019-12-20 | 一种检测图像中文本信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969163A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783645A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 文字识别的方法、装置、电子设备及计算机可读存储介质 |
CN112836510A (zh) * | 2021-03-26 | 2021-05-25 | 中国美术学院 | 一种产品图片文字识别方法和系统 |
-
2019
- 2019-12-20 CN CN201911327211.5A patent/CN110969163A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783645A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 文字识别的方法、装置、电子设备及计算机可读存储介质 |
CN112836510A (zh) * | 2021-03-26 | 2021-05-25 | 中国美术学院 | 一种产品图片文字识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN112149619B (zh) | 一种基于Transformer模型自然场景文字识别方法 | |
JP5972468B2 (ja) | 画像からのラベルの検出 | |
CN106599028B (zh) | 一种基于视频图像处理的书本内容搜索匹配方法 | |
CN110647795B (zh) | 一种表格识别方法 | |
CN109933975A (zh) | 一种基于深度学习的验证码识别方法及系统 | |
KR101907414B1 (ko) | 촬영 이미지 기반의 문자 인식 장치 및 방법 | |
CN109344820B (zh) | 基于计算机视觉和深度学习的数字式电表读数识别方法 | |
TWI765469B (zh) | 車牌辨識系統與方法及提取車牌中複數個字元段的方法 | |
CN108133216A (zh) | 基于机器视觉的可实现小数点读取的数码管读数识别方法 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN110969163A (zh) | 一种检测图像中文本信息的方法 | |
CN113221869B (zh) | 医疗发票结构化信息提取方法、装置设备及存储介质 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN111931769A (zh) | 结合rpa及ai的发票处理、装置、计算设备及存储介质 | |
CN114187247A (zh) | 一种基于图像配准的安瓿瓶印刷字缺陷检测方法 | |
CN107292255B (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
CN104346596A (zh) | 一种qr码的识别方法及识别装置 | |
CN111079749B (zh) | 一种带姿态校正的端到端商品价签文字识别方法和系统 | |
KR100569194B1 (ko) | 카메라 문서영상의 기하학적 왜곡 보정방법 | |
CN114648771A (zh) | 文字识别方法、电子设备和计算机可读存储介质 | |
CN112149644A (zh) | 基于全局特征指导的二维注意力机制文本识别方法 | |
CN114758139B (zh) | 基坑积水检测方法 | |
CN108734158B (zh) | 一种实时列车车号识别方法及装置 | |
KR101766787B1 (ko) | Gpu장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |