CN105095899B

CN105095899B - 一种图片中相关文本的自动框选方法

Info

Publication number: CN105095899B
Application number: CN201510517947.4A
Authority: CN
Inventors: 徐向民; 罗雅愉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2015-08-23
Filing date: 2015-08-23
Publication date: 2018-10-09
Anticipated expiration: 2035-08-23
Also published as: CN105095899A

Abstract

本发明公开一种图片中相关文本的自动框选方法。该方法包括步骤：对拍摄的图片进行文本预处理，将文本与背景分离，对提取的文本分别进行横向切割和纵向切割，作为滑动候选框的选取依据，并且得到框外对比区域的宽度，分别计算每个候选框内外的边缘分布密度，根据两者的边缘分布密度得到每个候选区域的置信值，实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本的自动框选，简化使用者的操作，提高相关教育产品的智能化。

Description

一种图片中相关文本的自动框选方法

技术领域

本发明涉及智能教育移动终端和在线教育软件的图像处理领域，涉及基于图像文本处理对图像中相关文本的自动框选方法。

背景技术

随着以教育学生学习为主的学习机或者学习类软件的普及，学生通过学习机或者学习类软件获取学习资源越来越方便，所得到的学习资源范围也更加广。目前市面上一些学习类软件通过学习使用手机拍摄对题目拍摄照片，由于课本上的内容分布较为密集，无法单独将要上传内容拍摄下来。其它无关内容的上传会影响最终的反馈结果，因此，需要将照片中所要上传内容进行手动框选，手动选择框选的位置和大小，该过程相对而言较为烦琐，影响学生的学习效率。

发明内容

鉴于现有技术的不足，本发明的目的在于提供一种图片中相关文本的自动框选方法，将拍摄的照片进行自动框选，简化使用者的操作，提高相关教育产品的智能化。

本发明的具体技术方案如下。

一种图片中相关文本的自动框选方法，包括如下步骤：

对拍摄的图片进行文本预处理，将文本与背景分离，对提取的文本分别进行横向切割和纵向切割，利用横向切割和纵向切割结果作为滑动候选框的选取依据，并且得到框外对比区域的宽度，分别计算每个候选框内外的边缘分布密度，根据候选框内外的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选。

进一步地，所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据，具体包括：

A、通过文本的纵向切割得到所有候选框的横向边界，以及文本的字宽；

B、通过文本的横向切割得到文本的字长，将文本的字长作为候选框的扩张滑动步长，滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域；

C、根据文本的字长得到候选框框外宽度，框外宽度等于文本的字长；

D、根据文本的字宽和字长得到统计边缘密度的单位区域大小。

进一步地，所述分别计算每个候选框内外的边缘分布密度，具体包括：

A、提取候选框内外的边缘特征，得到二值化的边缘图像；

B、以统计边缘密度的单位区域为块，分别以半个字宽和字长作为块的重叠区域；

C、对块内像素值进行统计，得到每个块边缘概率密度；

D、以所有重叠区域对应块的边缘概率密度的平均值作为像素点的边缘概率密度；

E、将边缘概率密度图分割成候选框内及候选框外区域。

进一步地，所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选，具体包括：

A、分别统计滑动候选框框内及对应框外像素的平均边缘概率密度；

B、将框内平均边缘概率密度比框外平均边缘概率密度的值作为该候选框的置信值，并记录下来；

C、轮询完所有候选框后，选出所有置信值中的最大值，所对应的候选框作为未知文本的相关内容框选区域。

进一步地，对候选框初取状态及后面变化步长的选取，具体包括：

A、由文本的纵向切割得到所有候选框的固定横向边界；

B、以图像中心作为候选框中心，以单字长为框长，作为候选框的初始状态；

C、以单字长作为候选框长的变化步长。

进一步地，将拍摄的图片进行相关文本的自动框选，用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。

与现有技术相比，本发明具有如下优点和技术效果：本发明能用于在相关教育类产品或者学习类软件中，在拍摄照片到上传图像文本过程中实现图片中相关文本的自动框选。对拍摄的图片进行文本预处理，将文本与背景分离，对提取的文本分别进行横向切割和纵向切割，作为滑动候选框的选取依据，并且得到框外对比区域的宽度，分别计算每个候选框内外的边缘分布密度，根据两者的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选。本发明能将拍摄的照片进行相关文本自动框选，，使用者拍摄完照片后无需手动调整待上传框，该方法智能完成未知文本的框选，简化使用者的操作，提高相关教育产品的智能化。

附图说明

图1为实例中框内外区域示意图。

具体实施方式

以下结合附图对本发明的具体实施方法作进一步详细说明，但本发明的实施和保护不限于此。

一种图片中相关文本的自动框选方法，具体步骤包括：对拍摄的图片进行文本预处理，将文本与背景分离，对提取的文本分别进行横向切割和纵向切割，作为滑动候选框的选取依据，并且得到框外对比区域的宽度，框内及框外区域如图1所示。分别计算每个候选框内外的边缘分布密度，根据两者的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选。

首先根据文字的颜色特点，对文本进行二值化处理，将文字与背景区分开，可采用目前经典的算法全局化的动态二值化方法（OTSU）进行处理，提取二值化文本。

利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据，具体包括：

A、先通过文本的纵向切割得到所有候选框的横向边界，以及文本的字宽m；

B、先通过文本的横向切割得到文本的字长n，将文本的字长n作为候选框的扩张滑动步长step=n，滑动候选框将图像自中心向外扩张式分割成所有可能的候选区域；

对候选框初取状态及其后面变化的选取方法，具体包括：

A、由文本的纵向切割得到所有候选框的固定横向边界；

C、以单字长作为候选框长的变化步长。

本实例中，文本的纵向切割和横向切割采用已有的字符分割方法——投影法，具体过程包括：

A、利用文字行与行间隙的特点，对二值化的图像文本进行横向投影；

B、由横向投影中行间隙导致的投影峰谷变化，确定文本字长，以及文本的上下沿，即候选框的边界；

C、利用中文文字与字间空隙的特点，对二值化的图像文本进行纵向投影；

D、由纵向投影首先确定候选框的固定宽度；

E、考虑到文本中英文字符及数学字符的影响，对纵向投影中若峰谷变化不规律的情况，将文本字长的值代替文本字宽。

所述分别计算每个候选框内外的边缘分布密度，具体包括：

A、采用Canny或Sobel等边缘片子提取候选框内外的边缘特征，得到二值化的边缘图像；

B、以统计边缘密度的单位区域为块，分别以半个字宽和字长作为块的滑动重叠区域；

C、对块内像素值进行统计，将块内的非零像素个数除以块的面积，得到每个块的边缘概率密度；

D、对每个像素点，以像素点对应的位置上所有重叠区域对应块的边缘概率密度的平均值作为该像素点的边缘概率密度；

E、将边缘概率密度图分割成候选框内及候选框外区域。

所述根据两者的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选，具体包括：

本发明将拍摄的图片进行相关文本处理，用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中，使用者拍摄完照片后无需手动调整待上传框，该方法智能完成未知文本的框选。

以上仅为本发明的具体实施例，并不以此限定本发明的保护范围；在不违反本发明构思的基础上所作的任何替换与改进，均属于本发明的保护范围。

Claims

1.一种图片中相关文本的自动框选方法，其特征在于，包括如下步骤：

对拍摄的图片进行文本预处理，将文本与背景分离，对提取的文本分别进行横向切割和纵向切割，利用横向切割和纵向切割结果作为滑动候选框的选取依据，并且得到框外对比区域的宽度，分别计算每个候选框内外的边缘分布密度，根据候选框内外的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选；

所述利用提取的文本的横向切割和纵向切割结果作为滑动候选框的选取依据，具体包括：

D、根据文本的字宽和字长得到统计边缘密度的单位区域大小；

所述分别计算每个候选框内外的边缘分布密度，具体包括：

A、提取候选框内外的边缘特征，得到二值化的边缘图像；

C、对块内像素值进行统计，得到每个块边缘概率密度；

E、将边缘概率密度图分割成候选框内及候选框外区域；

所述根据候选框内外的边缘分布密度特点得到每个候选区域的置信值，实现对未知文本的自动相关内容框选，具体包括：

2.根据权利要求1所述的一种图片中相关文本的自动框选方法，其特征在于，对候选框初始状态及后面变化步长的选取，具体包括：

A、由文本的纵向切割得到所有候选框的固定横向边界；

C、以单字长作为候选框长的变化步长。

3.根据权利要求1所述的一种图片中相关文本的自动框选方法，其特征在于，将拍摄的图片进行相关文本的自动框选，用于教育移动终端或者教学类软件中的拍照上传课本内容或者拍照搜索答案的功能当中。