CN105095899B - 一种图片中相关文本的自动框选方法 - Google Patents
一种图片中相关文本的自动框选方法 Download PDFInfo
- Publication number
- CN105095899B CN105095899B CN201510517947.4A CN201510517947A CN105095899B CN 105095899 B CN105095899 B CN 105095899B CN 201510517947 A CN201510517947 A CN 201510517947A CN 105095899 B CN105095899 B CN 105095899B
- Authority
- CN
- China
- Prior art keywords
- text
- frame
- candidate
- candidate frame
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Abstract
本发明公开一种图片中相关文本的自动框选方法。该方法包括步骤:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本的自动框选,简化使用者的操作,提高相关教育产品的智能化。
Description
技术领域
本发明涉及智能教育移动终端和在线教育软件的图像处理领域,涉及基于图像文本处理对图像中相关文本的自动框选方法。
背景技术
随着以教育学生学习为主的学习机或者学习类软件的普及,学生通过学习机或者学习类软件获取学习资源越来越方便,所得到的学习资源范围也更加广。目前市面上一些学习类软件通过学习使用手机拍摄对题目拍摄照片,由于课本上的内容分布较为密集,无法单独将要上传内容拍摄下来。其它无关内容的上传会影响最终的反馈结果,因此,需要将照片中所要上传内容进行手动框选,手动选择框选的位置和大小,该过程相对而言较为烦琐,影响学生的学习效率。
发明内容
鉴于现有技术的不足,本发明的目的在于提供一种图片中相关文本的自动框选方法,将拍摄的照片进行自动框选,简化使用者的操作,提高相关教育产品的智能化。
本发明的具体技术方案如下。
一种图片中相关文本的自动框选方法,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
进一步地,所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
进一步地,所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
进一步地,所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
进一步地,对候选框初取状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
进一步地,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
与现有技术相比,本发明具有如下优点和技术效果:本发明能用于在相关教育类产品或者学习类软件中,在拍摄照片到上传图像文本过程中实现图片中相关文本的自动框选。对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本自动框选,,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选,简化使用者的操作,提高相关教育产品的智能化。
附图说明
图1为实例中框内外区域示意图。
具体实施方式
以下结合附图对本发明的具体实施方法作进一步详细说明,但本发明的实施和保护不限于此。
一种图片中相关文本的自动框选方法,具体步骤包括:对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,作为滑动候选框的选取依据,并且得到框外对比区域的宽度,框内及框外区域如图1所示。分别计算每个候选框内外的边缘分布密度,根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选。
首先根据文字的颜色特点,对文本进行二值化处理,将文字与背景区分开,可采用目前经典的算法全局化的动态二值化方法(OTSU)进行处理,提取二值化文本。
利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、先通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽m;
B、先通过文本的横向切割得到文本的字长n,将文本的字长n作为候选框的扩张滑动步长step=n,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。
对候选框初取状态及其后面变化的选取方法,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
本实例中,文本的纵向切割和横向切割采用已有的字符分割方法——投影法,具体过程包括:
A、利用文字行与行间隙的特点,对二值化的图像文本进行横向投影;
B、由横向投影中行间隙导致的投影峰谷变化,确定文本字长,以及文本的上下沿,即候选框的边界;
C、利用中文文字与字间空隙的特点,对二值化的图像文本进行纵向投影;
D、由纵向投影首先确定候选框的固定宽度;
E、考虑到文本中英文字符及数学字符的影响,对纵向投影中若峰谷变化不规律的情况,将文本字长的值代替文本字宽。
所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、采用Canny或Sobel等边缘片子提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的滑动重叠区域;
C、对块内像素值进行统计,将块内的非零像素个数除以块的面积,得到每个块的边缘概率密度;
D、对每个像素点,以像素点对应的位置上所有重叠区域对应块的边缘概率密度的平均值作为该像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域。
所述根据两者的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
本发明将拍摄的图片进行相关文本处理,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中,使用者拍摄完照片后无需手动调整待上传框,该方法智能完成未知文本的框选。
以上仅为本发明的具体实施例,并不以此限定本发明的保护范围;在不违反本发明构思的基础上所作的任何替换与改进,均属于本发明的保护范围。
Claims (3)
1.一种图片中相关文本的自动框选方法,其特征在于,包括如下步骤:
对拍摄的图片进行文本预处理,将文本与背景分离,对提取的文本分别进行横向切割和纵向切割,利用横向切割和纵向切割结果作为滑动候选框的选取依据,并且得到框外对比区域的宽度,分别计算每个候选框内外的边缘分布密度,根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选;
所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据,具体包括:
A、通过文本的纵向切割得到所有候选框的横向边界,以及文本的字宽;
B、通过文本的横向切割得到文本的字长,将文本的字长作为候选框的扩张滑动步长,滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域;
C、根据文本的字长得到候选框框外宽度,框外宽度等于文本的字长;
D、根据文本的字宽和字长得到统计边缘密度的单位区域大小;
所述分别计算每个候选框内外的边缘分布密度,具体包括:
A、提取候选框内外的边缘特征,得到二值化的边缘图像;
B、以统计边缘密度的单位区域为块,分别以半个字宽和字长作为块的重叠区域;
C、对块内像素值进行统计,得到每个块边缘概率密度;
D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度;
E、将边缘概率密度图分割成候选框内及候选框外区域;
所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值,实现对未知文本的自动相关内容框选,具体包括:
A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度;
B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值,并记录下来;
C、轮询完所有候选框后,选出所有置信值中的最大值,所对应的候选框作为未知文本的相关内容框选区域。
2.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,对候选框初始状态及后面变化步长的选取,具体包括:
A、由文本的纵向切割得到所有候选框的固定横向边界;
B、以图像中心作为候选框中心,以单字长为框长,作为候选框的初始状态;
C、以单字长作为候选框长的变化步长。
3.根据权利要求1所述的一种图片中相关文本的自动框选方法,其特征在于,将拍摄的图片进行相关文本的自动框选,用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510517947.4A CN105095899B (zh) | 2015-08-23 | 2015-08-23 | 一种图片中相关文本的自动框选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510517947.4A CN105095899B (zh) | 2015-08-23 | 2015-08-23 | 一种图片中相关文本的自动框选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095899A CN105095899A (zh) | 2015-11-25 |
CN105095899B true CN105095899B (zh) | 2018-10-09 |
Family
ID=54576286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510517947.4A Active CN105095899B (zh) | 2015-08-23 | 2015-08-23 | 一种图片中相关文本的自动框选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095899B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409265B (zh) * | 2018-10-15 | 2021-05-18 | 中国科学院地理科学与资源研究所 | 一种基于陆地资源卫星影像的浮筏养殖区域提取方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991865A (zh) * | 2005-12-29 | 2007-07-04 | 佳能株式会社 | 从复杂背景文档图像提取文本的装置、方法、程序及介质 |
CN102144236A (zh) * | 2008-09-03 | 2011-08-03 | 索尼公司 | 用于图像和视频ocr的文本定位 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8831361B2 (en) * | 2012-03-09 | 2014-09-09 | Ancora Software Inc. | Method and system for commercial document image classification |
-
2015
- 2015-08-23 CN CN201510517947.4A patent/CN105095899B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1991865A (zh) * | 2005-12-29 | 2007-07-04 | 佳能株式会社 | 从复杂背景文档图像提取文本的装置、方法、程序及介质 |
CN102144236A (zh) * | 2008-09-03 | 2011-08-03 | 索尼公司 | 用于图像和视频ocr的文本定位 |
Non-Patent Citations (1)
Title |
---|
基于边缘和纹理的文本定位算法的研究;马海清;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090315(第03期);I138-765 * |
Also Published As
Publication number | Publication date |
---|---|
CN105095899A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3979198A4 (en) | IMAGE SEGMENTATION MODEL TRAINING METHOD AND INSTALLATION, COMPUTER DEVICE AND STORAGE MEDIA | |
WO2019222467A8 (en) | Self-supervised training of a depth estimation system | |
CN107105310B (zh) | 一种视频直播中人物形象替换方法、装置和一种录播系统 | |
WO2007120558A3 (en) | Image classification based on a mixture of elliptical color models | |
EP3951654A4 (en) | METHOD FOR TRAINING AN IMAGE CLASSIFICATION MODEL AND METHOD AND APPARATUS FOR IMAGE PROCESSING | |
EP3989111A4 (en) | VIDEO CLASSIFICATION METHOD AND DEVICE, MODEL TRAINING METHOD AND DEVICE, DEVICE AND STORAGE MEDIA | |
CN108509136A (zh) | 一种基于人工智能的儿童绘本辅助阅读方法 | |
EP3761187A1 (en) | Method and apparatus for matching multimedia resource, and storage medium and electronic device | |
MX2017000535A (es) | Clasificadores de baja y de alta fidelidad aplicados a imagenes de escenas de una carretera. | |
EP3144859A3 (en) | Model training method and apparatus, and data recognizing method | |
EP3951702A4 (en) | IMAGE PROCESSING MODEL LEARNING METHOD, IMAGE PROCESSING METHOD, NETWORK DEVICE AND STORAGE MEDIA | |
EP3236418A3 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2015128299A5 (zh) | ||
CN107240084A (zh) | 一种单幅图像去雨方法及装置 | |
CN105047032B (zh) | 一种课堂现场数据采集分享系统及方法 | |
EP3779954A4 (en) | METHOD, DEVICE AND APPARATUS FOR IMAGE QUALITY OPTIMIZATION BASED ON LOCAL DARKENING, AND STORAGE MEDIA | |
WO2021029423A3 (en) | Image processing method and apparatus and non-transitory computer-readable medium | |
CN105592322A (zh) | 一种媒体数据的优化方法及装置 | |
CN107172482A (zh) | 图像互换格式图片的生成方法及装置 | |
CN109064389A (zh) | 一种手绘线条画生成现实感图像的深度学习方法 | |
CN104599274A (zh) | 图像质量的评价方法与装置 | |
CN105376315A (zh) | 基于二维码与图像识别技术的健身系统及其使用方法 | |
AU2018327270A1 (en) | Froth segmentation in flotation cells | |
EP3998536A4 (en) | IMAGE DATABASE ESTABLISHMENT METHOD, SEARCH METHOD, ELECTRONIC DEVICE AND STORAGE MEDIA | |
CN105095899B (zh) | 一种图片中相关文本的自动框选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |