CN105095899B - 一种图片中相关文本的自动框选方法 - Google Patents

一种图片中相关文本的自动框选方法 Download PDF

Info

Publication number
CN105095899B
CN105095899B CN201510517947.4A CN201510517947A CN105095899B CN 105095899 B CN105095899 B CN 105095899B CN 201510517947 A CN201510517947 A CN 201510517947A CN 105095899 B CN105095899 B CN 105095899B
Authority
CN
China
Prior art keywords
text
frame
candidate
candidate frame
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510517947.4A
Other languages
English (en)
Other versions
CN105095899A (zh
Inventor
徐向民
罗雅愉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510517947.4A priority Critical patent/CN105095899B/zh
Publication of CN105095899A publication Critical patent/CN105095899A/zh
Application granted granted Critical
Publication of CN105095899B publication Critical patent/CN105095899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

本发明公开一种图片中相关文本的自动框选方法。该方法包括步骤:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本的自动框选,简化使用者的操作,提高相关教育产品的智能化。

Description

一种图片中相关文本的自动框选方法
技术领域
本发明涉及智能教育移动终端和在线教育软件的图像处理领域,涉及基于图像文本处理对图像中相关文本的自动框选方法。
背景技术
随着以教育学生学习为主的学习机或者学习类软件的普及,学生通过学习机或者学习类软件获取学习资源越来越方便,所得到的学习资源范围也更加广。目前市面上一些学习类软件通过学习使用手机拍摄对题目拍摄照片,由于课本上的内容分布较为密集,无法单独将要上传内容拍摄下来。其它无关内容的上传会影响最终的反馈结果,因此,需要将照片中所要上传内容进行手动框选,手动选择框选的位置和大小,该过程相对而言较为烦琐,影响学生的学习效率。
发明内容
鉴于现有技术的不足,本发明的目的在于提供一种图片中相关文本的自动框选方法,将拍摄的照片进行自动框选,简化使用者的操作,提高相关教育产品的智能化。
本发明的具体技术方案如下。
一种图片中相关文本的自动框选方法,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
进一步地,所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
进一步地,所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
进一步地,所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
进一步地,对候选框初取状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
进一步地,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
与现有技术相比,本发明具有如下优点和技术效果:本发明能用于在相关教育类产品或者学习类软件中,在拍摄照片到上传图像文本过程中实现图片中相关文本的自动框选。对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本自动框选,,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选,简化使用者的操作,提高相关教育产品的智能化。
附图说明
图1为实例中框内外区域示意图。
具体实施方式
以下结合附图对本发明的具体实施方法作进一步详细说明,但本发明的实施和保护不限于此。
一种图片中相关文本的自动框选方法,具体步骤包括:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,框内及框外区域如图1所示。分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
首先根据文字的颜色特点,对文本进行二值化处理,将文字与背景区分开,可采用目前经典的算法全局化的动态二值化方法(OTSU)进行处理,提取二值化文本。
利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、先通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽m;
B、先通过文本的横向切割得到文本的字长n,将文本的字长n作为候选框的扩张滑动步长step=n,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
对候选框初取状态及其后面变化的选取方法,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
本实例中,文本的纵向切割和横向切割采用已有的字符分割方法——投影法,具体过程包括:
A、利用文字行与行间隙的特点,对二值化的图像文本进行横向投影;
B、由横向投影中行间隙导致的投影峰谷变化,确定文本字长,以及文本的上下沿,即候选框的边界;
C、利用中文文字与字间空隙的特点,对二值化的图像文本进行纵向投影;
D、由纵向投影首先确定候选框的固定宽度;
E、考虑到文本中英文字符及数学字符的影响,对纵向投影中若峰谷变化不规律的情况,将文本字长的值代替文本字宽。
所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、采用Canny或Sobel等边缘片子提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的滑动重叠区域;
C、对块内像素值进行统计,将块内的非零像素个数除以块的面积,得到每个块的边缘概率密度;
D、对每个像素点,以像素点对应的位置上所有重叠区域对应块的边缘概率密度的平均值作为该像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
所述根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
本发明将拍摄的图片进行相关文本处理,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选。
以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属于本发明的保护范围。

Claims (3)

1.一种图片中相关文本的自动框选方法,其特征在于,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选;
所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小;
所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域;
所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
2.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,对候选框初始状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
3.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
CN201510517947.4A 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法 Active CN105095899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510517947.4A CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510517947.4A CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Publications (2)

Publication Number Publication Date
CN105095899A CN105095899A (zh) 2015-11-25
CN105095899B true CN105095899B (zh) 2018-10-09

Family

ID=54576286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510517947.4A Active CN105095899B (zh) 2015-08-23 2015-08-23 一种图片中相关文本的自动框选方法

Country Status (1)

Country Link
CN (1) CN105095899B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109409265B (zh) * 2018-10-15 2021-05-18 中国科学院地理科学与资源研究所 一种基于陆地资源卫星影像的浮筏养殖区域提取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991865A (zh) * 2005-12-29 2007-07-04 佳能株式会社 从复杂背景文档图像提取文本的装置、方法、程序及介质
CN102144236A (zh) * 2008-09-03 2011-08-03 索尼公司 用于图像和视频ocr的文本定位

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831361B2 (en) * 2012-03-09 2014-09-09 Ancora Software Inc. Method and system for commercial document image classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991865A (zh) * 2005-12-29 2007-07-04 佳能株式会社 从复杂背景文档图像提取文本的装置、方法、程序及介质
CN102144236A (zh) * 2008-09-03 2011-08-03 索尼公司 用于图像和视频ocr的文本定位

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于边缘和纹理的文本定位算法的研究;马海清;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090315(第03期);I138-765 *

Also Published As

Publication number Publication date
CN105095899A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
EP3979198A4 (en) IMAGE SEGMENTATION MODEL TRAINING METHOD AND INSTALLATION, COMPUTER DEVICE AND STORAGE MEDIA
WO2019222467A8 (en) Self-supervised training of a depth estimation system
CN107105310B (zh) 一种视频直播中人物形象替换方法、装置和一种录播系统
WO2007120558A3 (en) Image classification based on a mixture of elliptical color models
EP3951654A4 (en) METHOD FOR TRAINING AN IMAGE CLASSIFICATION MODEL AND METHOD AND APPARATUS FOR IMAGE PROCESSING
EP3989111A4 (en) VIDEO CLASSIFICATION METHOD AND DEVICE, MODEL TRAINING METHOD AND DEVICE, DEVICE AND STORAGE MEDIA
CN108509136A (zh) 一种基于人工智能的儿童绘本辅助阅读方法
EP3761187A1 (en) Method and apparatus for matching multimedia resource, and storage medium and electronic device
MX2017000535A (es) Clasificadores de baja y de alta fidelidad aplicados a imagenes de escenas de una carretera.
EP3144859A3 (en) Model training method and apparatus, and data recognizing method
EP3951702A4 (en) IMAGE PROCESSING MODEL LEARNING METHOD, IMAGE PROCESSING METHOD, NETWORK DEVICE AND STORAGE MEDIA
EP3236418A3 (en) Image processing apparatus, image processing method, and storage medium
JP2015128299A5 (zh)
CN107240084A (zh) 一种单幅图像去雨方法及装置
CN105047032B (zh) 一种课堂现场数据采集分享系统及方法
EP3779954A4 (en) METHOD, DEVICE AND APPARATUS FOR IMAGE QUALITY OPTIMIZATION BASED ON LOCAL DARKENING, AND STORAGE MEDIA
WO2021029423A3 (en) Image processing method and apparatus and non-transitory computer-readable medium
CN105592322A (zh) 一种媒体数据的优化方法及装置
CN107172482A (zh) 图像互换格式图片的生成方法及装置
CN109064389A (zh) 一种手绘线条画生成现实感图像的深度学习方法
CN104599274A (zh) 图像质量的评价方法与装置
CN105376315A (zh) 基于二维码与图像识别技术的健身系统及其使用方法
AU2018327270A1 (en) Froth segmentation in flotation cells
EP3998536A4 (en) IMAGE DATABASE ESTABLISHMENT METHOD, SEARCH METHOD, ELECTRONIC DEVICE AND STORAGE MEDIA
CN105095899B (zh) 一种图片中相关文本的自动框选方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant