CN105975955B - 一种图像中文本区域的检测方法 - Google Patents

一种图像中文本区域的检测方法 Download PDF

Info

Publication number
CN105975955B
CN105975955B CN201610366284.5A CN201610366284A CN105975955B CN 105975955 B CN105975955 B CN 105975955B CN 201610366284 A CN201610366284 A CN 201610366284A CN 105975955 B CN105975955 B CN 105975955B
Authority
CN
China
Prior art keywords
subgraph
text
image
confidence level
connected domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610366284.5A
Other languages
English (en)
Other versions
CN105975955A (zh
Inventor
刘立
刘艳洋
吴诗展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhuojian Information Technology Co.,Ltd.
Original Assignee
Beijing Medical Pat Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Medical Pat Intelligent Technology Co Ltd filed Critical Beijing Medical Pat Intelligent Technology Co Ltd
Priority to CN201610366284.5A priority Critical patent/CN105975955B/zh
Publication of CN105975955A publication Critical patent/CN105975955A/zh
Application granted granted Critical
Publication of CN105975955B publication Critical patent/CN105975955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种图像中文本区域的检测方法,包括:将图像划分为多个子图像,所述多个子图像之间无重叠区域且所述多个子图像构成所述图像;基于预设的字符识别规则,确定各子图像的文本置信度;基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,所述目标连通域用于确定所述图像中包含的各文本区域;基于预设的连通域确定规则,确定所述图像包含的各连通域;基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域。相比现有技术,本发明提出的图像中文本区域的检测方法,通过划分图像为多个子图像,并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域,适用于具有复杂背景的图像。

Description

一种图像中文本区域的检测方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像中文本区域的检测方法。
背景技术
目前常用的图像中文本区域的检测方法有基于连通域的方法、基于边缘特征的方法和基于纹理特征的方法。各方法的具体说明如下:
基于连通域的方法,假设同一区域的字符具有相似的颜色和亮度,并且与背景区域的颜色存在较大差异的基础上,采用自底向上的方法从图像中提取连通区域,然后利用几何约束构造启发式规则进行连通域分析,将子区域合并得到最终的文本区域。
基于边缘特征的方法,是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测,首先采用某种边缘检测算子从原图像中检测出边缘,然后通过形态学方法将边缘连接成本块,过滤不符合规则的非文本区域,得到最终的文本区域。
基于纹理的方法,把文本区域看作是一种可与背景区分开的特殊的纹理,通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征,并利用SVM从候选的文本区域中验证真实的文本区域,对于背景复杂的图像取得了较好的效果。
但是,对于具有复杂背景的图像,因为复杂背景对图像中文本区域产生的干扰大,上述现有的图像中文本区域的检测方法均不适用。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的一种图像中文本区域的检测方法。
为此目的,本发明提出一种图像中文本区域的检测方法,包括:
将图像划分为多个子图像,所述多个子图像之间无重叠区域且所述多个子图像构成所述图像;
基于预设的字符识别规则,确定各子图像的文本置信度;
基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,所述目标连通域用于确定所述图像中包含的各文本区域;
基于预设的连通域确定规则,确定所述图像包含的各连通域;
基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域。
可选的,所述将图像划分为多个子图像,包括:
将图像划分为尺寸一致的多个子图像。
可选的,所述基于预设的字符识别规则,确定各子图像的文本置信度,包括:
基于预设的字符识别规则,识别各子图像中的字符,并确定各子图像中各字符的置信度;
基于所述各子图像中各字符的置信度,确定各子图像的文本置信度。
可选的,所述基于所述各子图像中各字符的置信度,确定各子图像的文本置信度,包括:
基于所述各子图像中各字符的置信度,通过文本置信度计算式,确定各子图像的文本置信度;所述文本置信度计算式为:
其中,C为文本置信度,n为字符个数,ci为第i个字符的置信度。
可选的,所述基于预设的字符识别规则,识别各子图像中的字符,并确定各子图像中各字符的置信度,包括:
基于光学字符识别OCR,识别各子图像中的字符,并确定各子图像中各字符的置信度。
可选的,所述基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,包括:
基于预设的连通域提取规则,提取各目标子图像的连通域;所述目标子图像为文本置信度大于预设的文本置信度门限的子图像;
将所述各目标子图像的连通域进行连通域合并,得到目标连通域。
可选的,基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域,包括:
将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。
相比于现有技术,本发明提出的图像中文本区域的检测方法,通过划分图像为多个子图像,并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域,从而得到图像中相对重要的信息,便于后续的处理和应用,适用于具有复杂背景的图像。
附图说明
图1为本发明实施例提供的一种图像中文本区域的检测方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例公开一种图像中文本区域的检测方法,可包括以下步骤101~105:
101、将图像划分为多个子图像,所述多个子图像之间无重叠区域且所述多个子图像构成所述图像。
本实施例中,步骤101中,可将图像划分为尺寸一致的多个子图像。例如每个子图像均为9×9。
102、基于预设的字符识别规则,确定各子图像的文本置信度。
本实施例中,可基于应用场景来选择字符识别规则所使用的字符识别集,有利于提高识别效率。例如,对于金融领域的收费单图像,可选择字符识别规则所使用的字符识别集为数字集合;对于医学领域的化验单图像,可选择字符识别规则所使用的字符识别集为包含“血”、“胞”、“医”等化验常用字符所组成的集合。
由于字符识别规则所使用的字符识别集基于应用场景来选择,因此,可以针对图像所含不同的字符而对图像进行分类。
本实施例中,步骤102具体包括图1中未示出的步骤1021和1022。
1021、基于预设的字符识别规则,识别各子图像中的字符,并确定各子图像中各字符的置信度。
1022、基于所述各子图像中各字符的置信度,确定各子图像的文本置信度。
本实施例中,步骤1021中预设的字符识别规则为光学字符识别(OpticalCharacter Recognition,OCR)。
本实施例中,步骤1021中可通过文本置信度计算式,确定各子图像的文本置信度;所述文本置信度计算式为:
其中,C为文本置信度,n为字符个数,ci为第i个字符的置信度。
本实施例中,步骤1021中,当基于OCR识别各子图像中的字符后,OCR会提供各子图像中各字符的置信度。
103、基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,所述目标连通域用于确定所述图像中包含的各文本区域。
本实施例中,步骤103具体包括图1中未示出的步骤1031和1032。
1031、基于预设的连通域提取规则,提取各目标子图像的连通域;所述目标子图像为文本置信度大于预设的文本置信度门限的子图像。
1032、将所述各目标子图像的连通域进行连通域合并,得到目标连通域。
104、基于预设的连通域确定规则,确定所述图像包含的各连通域。
105、基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域。
本实施例中,步骤105具体为:将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。
可见,本实施例公开的图像中文本区域的检测方法,通过划分图像为多个子图像,并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域,从而得到图像中相对重要的信息,便于后续的处理和应用,适用于具有复杂背景的图像。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (5)

1.一种图像中文本区域的检测方法,其特征在于,包括:
将图像划分为多个子图像,所述多个子图像之间无重叠区域且所述多个子图像构成所述图像;
基于预设的字符识别规则,确定各子图像的文本置信度;
基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,所述目标连通域用于确定所述图像中包含的各文本区域;
基于预设的连通域确定规则,确定所述图像包含的各连通域;
基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域;
其中,所述基于各子图像的文本置信度及预设的文本置信度门限,确定目标连通域,具体为:基于预设的连通域提取规则,提取各目标子图像的连通域;所述目标子图像为文本置信度大于预设的文本置信度门限的子图像;将所述各目标子图像的连通域进行连通域合并,得到目标连通域;
所述基于所述图像包含的各连通域以及所述目标连通域,确定所述图像中包含的各文本区域,包括:将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。
2.根据权利要求1所述的方法,其特征在于,所述将图像划分为多个子图像,包括:
将图像划分为尺寸一致的多个子图像。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的字符识别规则,确定各子图像的文本置信度,包括:
基于预设的字符识别规则,识别各子图像中的字符,并确定各子图像中各字符的置信度;
基于所述各子图像中各字符的置信度,确定各子图像的文本置信度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述各子图像中各字符的置信度,确定各子图像的文本置信度,包括:
基于所述各子图像中各字符的置信度,通过文本置信度计算式,确定各子图像的文本置信度;所述文本置信度计算式为:
其中,C为文本置信度,n为字符个数,ci为第i个字符的置信度。
5.根据权利要求3所述的方法,其特征在于,所述基于预设的字符识别规则,识别各子图像中的字符,并确定各子图像中各字符的置信度,包括:基于光学字符识别OCR,识别各子图像中的字符,并确定各子图像中各字符的置信度。
CN201610366284.5A 2016-05-27 2016-05-27 一种图像中文本区域的检测方法 Active CN105975955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610366284.5A CN105975955B (zh) 2016-05-27 2016-05-27 一种图像中文本区域的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610366284.5A CN105975955B (zh) 2016-05-27 2016-05-27 一种图像中文本区域的检测方法

Publications (2)

Publication Number Publication Date
CN105975955A CN105975955A (zh) 2016-09-28
CN105975955B true CN105975955B (zh) 2019-07-02

Family

ID=56956830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610366284.5A Active CN105975955B (zh) 2016-05-27 2016-05-27 一种图像中文本区域的检测方法

Country Status (1)

Country Link
CN (1) CN105975955B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679074B (zh) 2017-08-25 2021-05-04 百度在线网络技术(北京)有限公司 一种图片生成方法与设备
CN109919146A (zh) * 2019-02-02 2019-06-21 上海兑观信息科技技术有限公司 图片文字识别方法、装置及平台
CN110263301B (zh) * 2019-06-27 2023-12-05 北京百度网讯科技有限公司 用于确定文字的颜色的方法和装置
CN111967460B (zh) * 2020-10-23 2021-02-23 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542268A (zh) * 2011-12-29 2012-07-04 中国科学院自动化研究所 用于视频中文本区域检测与定位的方法
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN104871180A (zh) * 2012-12-13 2015-08-26 高通股份有限公司 用于ocr的基于文本图像质量的反馈
CN104978578A (zh) * 2015-04-21 2015-10-14 深圳市前海点通数据有限公司 手机拍照文本图像质量评估方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542268A (zh) * 2011-12-29 2012-07-04 中国科学院自动化研究所 用于视频中文本区域检测与定位的方法
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN104871180A (zh) * 2012-12-13 2015-08-26 高通股份有限公司 用于ocr的基于文本图像质量的反馈
CN104978578A (zh) * 2015-04-21 2015-10-14 深圳市前海点通数据有限公司 手机拍照文本图像质量评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于连通分量的文本区域定位方法;姚金良等;《模式识别与人工智能》;20120430;第25卷(第2期);全文
复杂图像中文本定位的研究现状;嵇新浩等;《微计算机信息》;20071231;第23卷(第11-3期);全文

Also Published As

Publication number Publication date
CN105975955A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
EP3455782B1 (en) System and method for detecting plant diseases
Wang et al. Hard exudate detection based on deep model learned information and multi-feature joint representation for diabetic retinopathy screening
Pan et al. A robust system to detect and localize texts in natural scene images
CN109635846B (zh) 一种多类医学图像判断方法和系统
US8798362B2 (en) Clothing search in images
Zamberletti et al. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions
CN105975955B (zh) 一种图像中文本区域的检测方法
CN111126240B (zh) 一种三通道特征融合人脸识别方法
US20150125052A1 (en) Drusen lesion image detection system
CN102722735A (zh) 一种融合全局和局部特征的内镜图像病变检测方法
WO2020001236A1 (zh) 提取医学图像标注的方法及装置
CN106228118A (zh) 一种特征点和二值图像结合的手指静脉识别方法
CN104484652A (zh) 一种指纹识别方法
CN105809089A (zh) 复杂背景下的多人脸检测方法及装置
CN104598881B (zh) 基于特征压缩与特征选择的歪斜场景文字识别方法
CN104715157A (zh) 一种基于画钟实验的认知功能障碍评估系统和方法
CN101866420B (zh) 一种用于光学体全息虹膜识别的图像前处理方法
CN106960199A (zh) 一种真彩色眼象图白睛区域的完整提取方法
Joan et al. An enhanced text detection technique for the visually impaired to read text
CN111144413A (zh) 虹膜定位方法及计算机可读存储介质
Yasmeen et al. Text detection and classification from low quality natural images
CN104463182A (zh) 基于关键点检测的nbi胃镜图像处理方法
CN103390150B (zh) 人体部件检测方法和装置
Annunziata et al. Boosting hand-crafted features for curvilinear structure segmentation by learning context filters
Abhvankar et al. Detection of Melanoma and Non-Melanoma type of Skin Cancer using CNN and RESNET

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 Beijing Haidian District Gaolizhang Road 18 Building 103-86

Applicant after: Beijing medical pat Intelligent Technology Co., Ltd.

Address before: 100085 room 3, building 8, Chuang Chuang Road, Haidian District, Beijing (five story), room 3-7, -839.

Applicant before: BEIJING HAOYUNDAO INFORMATION TECHNOLOGY CO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210721

Address after: 310018 22nd floor, building 1, 199 Yuancheng Road, Xiasha street, Hangzhou Economic and Technological Development Zone, Zhejiang Province

Patentee after: Hangzhou Zhuojian Information Technology Co.,Ltd.

Address before: 100080 Beijing Haidian District Gaolizhang Road 18 Building 103-86

Patentee before: BEIJING MEDP.AI INTELLIGENT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right