CN105095899A - 一种图片中相关文本的自动框选方法 - Google Patents

一种图片中相关文本的自动框选方法 Download PDF

Info

Publication number
CN105095899A
CN105095899A CN201510517947.4A CN201510517947A CN105095899A CN 105095899 A CN105095899 A CN 105095899A CN 201510517947 A CN201510517947 A CN 201510517947A CN 105095899 A CN105095899 A CN 105095899A
Authority
CN
China
Prior art keywords
frame
text
candidate
automatic
marginal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510517947.4A
Other languages
English (en)
Other versions
CN105095899B (zh
Inventor
徐向民
罗雅愉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510517947.4A priority Critical patent/CN105095899B/zh
Publication of CN105095899A publication Critical patent/CN105095899A/zh
Application granted granted Critical
Publication of CN105095899B publication Critical patent/CN105095899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

本发明公开一种图片中相关文本的自动框选方法。该方法包括步骤:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本的自动框选,简化使用者的操作,提高相关教育产品的智能化。

Description

一种图片中相关文本的自动框选方法
技术领域
本发明涉及智能教育移动终端和在线教育软件的图像处理领域,涉及基于图像文本处理对图像中相关文本的自动框选方法。
背景技术
随着以教育学生学习为主的学习机或者学习类软件的普及,学生通过学习机或者学习类软件获取学习资源越来越方便,所得到的学习资源范围也更加广。目前市面上一些学习类软件通过学习使用手机拍摄对题目拍摄照片,由于课本上的内容分布较为密集,无法单独将要上传内容拍摄下来。其它无关内容的上传会影响最终的反馈结果,因此,需要将照片中所要上传内容进行手动框选,手动选择框选的位置和大小,该过程相对而言较为烦琐,影响学生的学习效率。
发明内容
鉴于现有技术的不足,本发明的目的在于提供一种图片中相关文本的自动框选方法,将拍摄的照片进行自动框选,简化使用者的操作,提高相关教育产品的智能化。
本发明的具体技术方案如下。
一种图片中相关文本的自动框选方法,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
进一步地,所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
进一步地,所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
进一步地,所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
进一步地,对候选框初取状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
进一步地,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
与现有技术相比,本发明具有如下优点和技术效果:本发明能用于在相关教育类产品或者学习类软件中,在拍摄照片到上传图像文本过程中实现图片中相关文本的自动框选。对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本自动框选,,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选,简化使用者的操作,提高相关教育产品的智能化。
附图说明
图1为实例中框内外区域示意图。
具体实施方式
以下结合附图对本发明的具体实施方法作进一步详细说明,但本发明的实施和保护不限于此。
一种图片中相关文本的自动框选方法,具体步骤包括:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,框内及框外区域如图1所示。分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
首先根据文字的颜色特点,对文本进行二值化处理,将文字与背景区分开,可采用目前经典的算法全局化的动态二值化方法(OTSU)进行处理,提取二值化文本。
利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、先通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽m;
B、先通过文本的横向切割得到文本的字长n,将文本的字长n作为候选框的扩张滑动步长step=n,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
对候选框初取状态及其后面变化的选取方法,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
本实例中,文本的纵向切割和横向切割采用已有的字符分割方法——投影法,具体过程包括:
A、利用文字行与行间隙的特点,对二值化的图像文本进行横向投影;
B、由横向投影中行间隙导致的投影峰谷变化,确定文本字长,以及文本的上下沿,即候选框的边界;
C、利用中文文字与字间空隙的特点,对二值化的图像文本进行纵向投影;
D、由纵向投影首先确定候选框的固定宽度;
E、考虑到文本中英文字符及数学字符的影响,对纵向投影中若峰谷变化不规律的情况,将文本字长的值代替文本字宽。
所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、采用Canny或Sobel等边缘片子提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的滑动重叠区域;
C、对块内像素值进行统计,将块内的非零像素个数除以块的面积,得到每个块的边缘概率密度;
D、对每个像素点,以像素点对应的位置上所有重叠区域对应块的边缘概率密度的平均值作为该像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
所述根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
本发明将拍摄的图片进行相关文本处理,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选。
以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属于本发明的保护范围。

Claims (6)

1.一种图片中相关文本的自动框选方法,其特征在于,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
2.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
3.根据权利要求2所述的一种图片中相关文本的自动框选方法,其特征在于,所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
4.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
5.根据权利要求2所述的一种图片中相关文本的自动框选方法,其特征在于,对候选框初取状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
6.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
CN201510517947.4A 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法 Active CN105095899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510517947.4A CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510517947.4A CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Publications (2)

Publication Number Publication Date
CN105095899A true CN105095899A (zh) 2015-11-25
CN105095899B CN105095899B (zh) 2018-10-09

Family

ID=54576286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510517947.4A Active CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Country Status (1)

Country Link
CN (1) CN105095899B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409265A (zh) * 2018-10-15 2019-03-01 中国科学院地理科学与资源研究所 一种基于陆地资源卫星影像的浮筏养殖区域提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991865A (zh) * 2005-12-29 2007-07-04 佳能株式会社 从复杂背景文档图像提取文本的装置、方法、程序及介质
CN102144236A (zh) * 2008-09-03 2011-08-03 索尼公司 用于图像和视频ocr的文本定位
US20130236111A1 (en) * 2012-03-09 2013-09-12 Ancora Software, Inc. Method and System for Commercial Document Image Classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991865A (zh) * 2005-12-29 2007-07-04 佳能株式会社 从复杂背景文档图像提取文本的装置、方法、程序及介质
CN102144236A (zh) * 2008-09-03 2011-08-03 索尼公司 用于图像和视频ocr的文本定位
US20130236111A1 (en) * 2012-03-09 2013-09-12 Ancora Software, Inc. Method and System for Commercial Document Image Classification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马海清: "基于边缘和纹理的文本定位算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409265A (zh) * 2018-10-15 2019-03-01 中国科学院地理科学与资源研究所 一种基于陆地资源卫星影像的浮筏养殖区域提取方法

Also Published As

Publication number Publication date
CN105095899B (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN106254933B (zh) 字幕提取方法及装置
CN107093172B (zh) 文字检测方法及系统
US10242265B2 (en) Actor/person centric auto thumbnail
CN108875744B (zh) 基于矩形框坐标变换的多方向文本行检测方法
CN105701488A (zh) 一种身份证识别方法
CN103945129A (zh) 基于移动终端的拍照预览构图指导方法及系统
CN102955943A (zh) 图像处理装置和图像处理方法
Arai et al. Method for automatic e-comic scene frame extraction for reading comic on mobile devices
CN105069412A (zh) 一种数字化阅卷方法
CN104899821B (zh) 一种用于文档类图像可视水印的擦除方法
CN103854019A (zh) 图像中的字段提取方法及装置
CN102332097A (zh) 一种基于图割的复杂背景文本图像分割方法
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN105678301B (zh) 一种自动识别并分割文本图像的方法、系统及装置
CN104462044A (zh) 表格图像识别编辑方法及装置
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN111145305A (zh) 一种文档图像处理方法
CN106446889B (zh) 一种台标的本地识别方法和装置
KR20210007276A (ko) 영상 생성 장치 및 방법
CN112218005B (zh) 一种基于人工智能的视频剪辑方法
CN105095899A (zh) 一种图片中相关文本的自动框选方法
CN105373790A (zh) 版面分析方法和装置
US9886650B2 (en) Method and device for determining similarity between sequences
KR101651842B1 (ko) 전자문서 레이아웃 생성 방법 및 장치
CN103971365A (zh) 一种图像显著图提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant