CN112101323A - 标题列表的识别方法、系统、电子设备及存储介质 - Google Patents
标题列表的识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112101323A CN112101323A CN202011291077.0A CN202011291077A CN112101323A CN 112101323 A CN112101323 A CN 112101323A CN 202011291077 A CN202011291077 A CN 202011291077A CN 112101323 A CN112101323 A CN 112101323A
- Authority
- CN
- China
- Prior art keywords
- image
- outer contour
- preset
- processing
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 124
- 238000012216 screening Methods 0.000 claims abstract description 40
- 230000000877 morphologic effect Effects 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000005260 corrosion Methods 0.000 claims description 10
- 230000007797 corrosion Effects 0.000 claims description 10
- 238000003706 image smoothing Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000003628 erosive effect Effects 0.000 description 4
- 235000002566 Capsicum Nutrition 0.000 description 3
- 239000006002 Pepper Substances 0.000 description 3
- 241000722363 Piper Species 0.000 description 3
- 235000016761 Piper aduncum Nutrition 0.000 description 3
- 235000017804 Piper guineense Nutrition 0.000 description 3
- 235000008184 Piper nigrum Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 150000003839 salts Chemical class 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005530 etching Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种标题列表的识别方法、系统、电子设备及存储介质,该方法包括:获取应用程序中的待识别图像的二值化图像,待识别图像包含至少一个标题列表;根据汉字的方形形状特征对二值化图像进行形态处理,得到所有物体的外轮廓;根据预设段落筛选信息对外轮廓进行筛选去除处理,得到筛选后的外轮廓;根据筛选后的外轮廓得到每一个外轮廓的垂直中心;根据垂直中心计算相邻外轮廓垂直中心之间的距离;将距离小于预设间距的外轮廓进行递归合并,得到待识别图像中标题列表的所在区域。该方法基于汉字自身形状连接而成的标题段落视觉特点,采用图像识别技术的组合,实现了标题位置的识别和精确定位,无需较高配置的软硬件,降低了对软硬件的要求。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及到一种标题列表的识别方法、系统、电子设备及存储介质。
背景技术
一般的新闻或者阅读类App的测试,要模拟人的行为操作App,测试软件的性能响应时间等。
基于安卓模拟器的测试,使用adb命令,需要精确的坐标定位,才能操作完成对安卓手机的编程控制。对于新闻或者阅读类应用程序(App),需要点击标题列表页面的标题才能进入详情信息页面,完成后续对文章的各种操作。
而在这类App中标题列表页一般都带有大量的图文混排,或者视频背景,使得识别并精确定位标题位置成为模拟测试的核心技术问题。
然而,基于机器学习的图像识别(SSD、YoloV3等算法)需要提供大量的数据集,对识别对象进行预训练;还需要图形处理器(Graphic Processing Unit,GPU)等硬件资源,以一般的硬件水平预测时间基本在几十毫秒左右。
发明内容
有鉴于此,本发明实施例提供了一种标题列表的识别方法、系统、电子设备及存储介质,以解决现有技术中定位标题对软硬件要求较高的问题。
为此,本发明实施例提供了如下技术方案:
根据第一方面,本发明实施例提供了一种标题列表的识别方法,包括:获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;根据所述筛选后的外轮廓得到每一个所述外轮廓的垂直中心;根据所述垂直中心计算相邻外轮廓垂直中心之间的距离;将所述距离小于预设间距的所述外轮廓进行递归合并,得到合并后的外轮廓,所述合并后的外轮廓所在区域则为所述待识别图像中标题列表的所在区域。
可选地,根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓,包括:采用预设形状的扁平核函数对所述二值化图像进行膨胀处理和腐蚀处理,所述预设形状是根据汉字的方形形状特征确定的;对膨胀处理和腐蚀处理后的所述二值化图像进行椭圆形开运算处理,得到所述二值化图像中所有物体的外轮廓。
可选地,根据预设段落筛选信息对所述外轮廓进行筛选去除处理的步骤之前,还包括:对所有物体的外轮廓分别进行轮廓提取,得到每一个外轮廓所对应的最小包裹矩形;根据所述最小包裹矩形确定所述最小包裹矩形所对应的宽度、长度和XY坐标。
可选地,所述预设段落筛选信息包括:预设垂直坐标范围、预设字体宽度、预设字体长度,预设长宽比。
可选地,根据预设段落筛选信息对所述外轮廓进行筛选去除处理的步骤中,包括:将外轮廓的Y坐标与预设垂直坐标范围进行比较,若Y坐标不在所述预设垂直坐标范围内,则去除所对应的外轮廓;将宽度与预设字体宽度进行比较,若宽度小于预设字体宽度,则去除所对应的外轮廓;将长度与预设字体长度进行比较,若长度小于预设字体长度,则去除所对应的外轮廓;将长度和宽度的比值与预设长宽比进行比较,若长度和宽度的比值小于预设长宽比,则去除所对应的外轮廓。
可选地,获取应用程序中的待识别图像的二值化图像,包括:获取应用程序中的待识别图像;对所述待识别图像进行噪声过滤处理,得到二值化图像;其中,所述噪声过滤处理包括对所述待识别图像进行灰度二值化处理和对二值化处理后的所述待识别图像进行图像平滑处理。
根据第二方面,本发明实施例提供了一种标题列表的识别系统,包括:获取模块,用于获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;第一处理模块,用于根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;第二处理模块,用于根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;第三处理模块,用于根据所述筛选后的外轮廓得到每一个所述外轮廓的垂直中心;第四处理模块,用于根据所述垂直中心计算相邻外轮廓垂直中心之间的距离;第五处理模块,用于将所述距离小于预设间距的所述外轮廓进行递归合并,得到合并后的外轮廓,所述合并后的外轮廓所在区域则为所述待识别图像中标题列表的所在区域。
可选地,所述第一处理模块包括:第一处理单元,用于采用预设形状的扁平核函数对所述二值化图像进行膨胀处理和腐蚀处理,所述预设形状是根据汉字的方形形状特征确定的;第二处理单元,用于对膨胀处理和腐蚀处理后的所述二值化图像进行椭圆形开运算处理,得到所述二值化图像中所有物体的外轮廓。
可选地,还包括:第六处理模块,用于对所有物体的外轮廓分别进行轮廓提取,得到每一个外轮廓所对应的最小包裹矩形;第七处理模块,用于根据所述最小包裹矩形确定所述最小包裹矩形所对应的宽度、长度和XY坐标。
可选地,所述预设段落筛选信息包括:预设垂直坐标范围、预设字体宽度、预设字体长度,预设长宽比。
可选地,所述第二处理模块包括:第三处理单元,用于将外轮廓的Y坐标与预设垂直坐标范围进行比较,若Y坐标不在所述预设垂直坐标范围内,则去除所对应的外轮廓;第四处理单元,用于将宽度与预设字体宽度进行比较,若宽度小于预设字体宽度,则去除所对应的外轮廓;第五处理单元,用于将长度与预设字体长度进行比较,若长度小于预设字体长度,则去除所对应的外轮廓;第六处理单元,用于将长度和宽度的比值与预设长宽比进行比较,若长度和宽度的比值小于预设长宽比,则去除所对应的外轮廓。
可选地,所述获取模块包括:获取单元,用于获取应用程序中的待识别图像;第十处理单元,用于对所述待识别图像进行噪声过滤处理,得到二值化图像;其中,所述噪声过滤处理包括对所述待识别图像进行灰度二值化处理和对二值化处理后的所述待识别图像进行图像平滑处理。
根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的标题列表的识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的标题列表的识别方法。
本发明实施例技术方案,具有如下优点:
本发明实施例提供了一种标题列表的识别方法、系统、电子设备及存储介质,其中,该方法包括:获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;对所述筛选后的外轮廓进行递归合并,得到所述待识别图像中标题列表的所在区域。该方法基于汉字自身形状连接而成的标题段落视觉特点,采用图像识别技术的组合,实现了标题位置的识别和精确定位,无需较高配置的软硬件,从而降低了对软硬件的要求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的标题列表的识别方法的一个具体示例的流程图;
图2为本发明实施例的标题列表的识别方法的另一个具体示例的流程图;
图3为本发明实施例的标题列表的识别方法的另一个具体示例的流程图;
图4为本发明实施例的标题列表的识别方法的另一个具体示例的流程图;
图5为本发明实施例的标题列表的识别方法的另一个具体示例的流程图;
图6为本发明实施例的标题列表的识别方法的另一个具体示例的流程图;
图7为本发明实施例的标题列表的识别系统的一个具体示例的框图;
图8为本发明实施例的电子设备的示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中,把识别处理中不少于4-5个汉字组成的视觉上扁长形状封闭区间称为“段落”;标题行是由同一水平位置的多个“段落”组成的;一个标题也可能有多行。基于此,本实施例中采用基于汉字“方框字”的连接而成的标题段落视觉特点,以及基于传统的图像识别技术的组合及优化计算标题区域的中心,采用通用中央处理器(CentralProcessing Unit,CPU)便可识别并精确定位标题位置,无需较高配置的软硬件,从而降低了对软硬件的要求。本申请技术方案尤其适用于新闻或者阅读类应用程序,在这类App中标题列表页一般都带有大量的图文混排,或者视频背景,通过本申请中的技术方案能够在几十毫秒时间内识别并精确定位标题位置,可以有效地进行自动化测试,达到了app应用要求的效果,且无需较高配置的软硬件,降低了成本。
基于此,本发明实施例提供了一种标题列表的识别方法,如图1所示,该方法可以包括步骤S1-S6。
步骤S1:获取应用程序中的待识别图像的二值化图像,待识别图像包含至少一个标题列表。
作为示例性的实施例,先获取应用程序app中的待识别图像,该待识别图像中包括至少一个标题列表,也就是说该待识别图像中包含标题。在一具体的实施例中,可采用现有技术中的灰度图像二值化方法对待识别图像进行二值化处理,得到待识别图像的二值化图像;具体的,图像二值化方法可以是阈值二值化方法,如双峰法、大津法(OTSU)、p参数法、最大熵阈值法、迭代法等;本实施例对此仅作示意性说明,不以此为限。
步骤S2:根据汉字的方形形状特征对二值化图像进行形态处理,得到二值化图像中所有物体的外轮廓。
作为示例性的实施例,基于汉字的方形形状特征对二值化图像进行形态处理,将二值化图像分离成独立的元素,得到二值化图像中每一个独立元素的外轮廓,这些外轮廓即为二值化图像中所有物体的外轮廓。通常汉字为方框字,其形状是方形,具体地,可以是正方形或者长方形;本实施例中仅作示意性说明,不以此为限,在实际应用中可根据需要合理设置。
步骤S3:根据预设段落筛选信息对外轮廓进行筛选去除处理,得到筛选后的外轮廓。
作为示例性的实施例,二值化图像提取出来的是所有物体的外轮廓,这些外轮廓中不可避免地包含非文字所对应的外轮廓,如背景图片中物体所对应的轮廓等,故需要对外轮廓进行筛选,去除不合理的外轮廓。根据预设段落筛选信息对外轮廓进行筛选去除处理,具体地可以依据外轮廓的长宽、比例等进行筛选,去除掉不是段落的部分,得到筛选后的外轮廓,经过筛选后得到的这些外轮廓呈现段落的形态。
步骤S4:根据筛选后的外轮廓得到每一个外轮廓的垂直中心。
作为示例性的实施例,采用基于轮廓的特征提取方法对筛选后的外轮廓进行特征提取得到每一个外轮廓的垂直中心。
步骤S5:根据垂直中心计算相邻外轮廓垂直中心之间的距离。
作为示例性的实施例,根据上述步骤中得到的每一个外轮廓的垂直中心便可计算得到相邻两个外轮廓垂直中心之间的距离。
步骤S6:将距离小于预设间距的外轮廓进行递归合并,得到合并后的外轮廓,合并后的外轮廓所在区域则为待识别图像中标题列表的所在区域。
作为示例性的实施例,预设间距可以是0.5倍的行间距,当然,在其它实施例中,也可根据需要设置为其它数值,如1倍的行间距;本实施例对此仅作示意性说明,不以此为限。具体地,各个轮廓的垂直中心小于行间距的1倍距离的就进行外轮廓合并,一直遍历完所有的外轮廓。如一个外轮廓和与其相邻的外轮廓的行间距满足合并条件,则将这两个外轮廓合并,之后,经合并后的轮廓再与相邻的外轮廓进行合并,一直遍历完所有的外轮廓。
将小于预设间距的外轮廓进行合并,使得被形态处理截断的一个个段落还原,段落的合并后便得到待识别图像中标题列表的所在区域。
对筛选后的外轮廓进行递归合并,得到待识别图像中标题列表的所在区域。作为示例性的实施例,对筛选后的外轮廓进行递归合并,也就是将一个个被形态处理截断呈现“段落”的外轮廓进行递归合并,还原为“标题行”,递归合并后的外轮廓即为标题列表的外轮廓,故递归合并后的外轮廓所在的区域也就是待识别图像中标题列表的所在区域,即识别并定位到了标题的位置。
通过上述步骤,采用基于汉字“方框字”的连接而成的标题段落视觉特点,以及基于传统的图像识别技术的组合及优化计算标题区域的中心,采用通用中央处理器能够识别并精确定位标题位置,可以有效地进行自动化测试,达到了app应用要求的效果,无需较高配置的软硬件,从而降低了对软硬件的要求。
作为示例性的实施例,步骤S2根据汉字的方形形状特征对二值化图像进行形态处理,得到二值化图像中所有物体的外轮廓的步骤中,如图2所示,包括步骤S21-S22。
步骤S21:采用预设形状的扁平核函数对二值化图像进行膨胀处理和腐蚀处理,预设形状是根据汉字的方形形状特征确定的。
作为示例性的实施例,预设形状是根据汉字的方形形状特征确定的,具体的,预设形状可以是预设比例的长方形,预设比例的范围为5:1~3:1。本实施例对预设比例的范围仅作示意性说明,并不以此为限,在其它实施例中,可根据需要合理确定预设形状及其比例。
具体地,结合汉字”方框字”的方形特征,采用5:1~3:1的长方形扁平核函数做膨胀,模糊汉字内部结构,初步呈现出“段落”特征。然后,通过腐蚀去掉外围细节,如散点,竖直线(扁平核)等。
步骤S22:对膨胀处理和腐蚀处理后的二值化图像进行椭圆形开运算处理,得到二值化图像中物体的外轮廓。
作为示例性的实施例,然后,对膨胀处理和腐蚀处理后的二值化图像再做一遍椭圆形开运算。开运算(MORPH_OPEN)的具体过程为先腐蚀后膨胀。开运算可以用来消除小黑点,在纤细点处分离物体、平滑较大物体的边界的,同时并不明显改变其面积。从形态上分离出张的不像“段落”的部分,使得“段落”形态更加清晰。
上述步骤,先通过扁平核函数做膨胀,模糊汉字内部结构,初步呈现出段落特征;之后,采用扁平核做腐蚀,去掉外围非文字段落特征的部分;最后,采用椭圆形开运算消除微小噪声,使得“段落”形态更加清晰,提高了轮廓提取的准确性。
作为示例性的实施例,步骤S3根据预设段落筛选信息对外轮廓进行筛选去除处理的步骤之前,如图3所示,包括步骤S7-S8。
步骤S7:对所有物体的外轮廓分别进行轮廓提取,得到每一个外轮廓所对应的最小包裹矩形。
作为示例性的实施例,经过形态处理后得到的外轮廓是二值化图像中所有物体的外轮廓,这些外轮廓不全是段落的外轮廓,故需要对这些外轮廓进行筛选,以去除不合理的部分。具体的,可通过现有技术中的轮廓提取方法进行轮廓特征提取,得到每一个外轮廓的轮廓特征,进而根据轮廓特征进行筛选。一个物体的最小包裹矩形是能够包裹住该物体轮廓的最小矩形;当然,在其它实施例中,也可以采用其它形状,如最小包裹圆形或者最小包裹椭圆形等,本实施例对此仅作示意性说明,不以此为限。
步骤S8:根据最小包裹矩形确定最小包裹矩形所对应的宽度、长度和XY坐标。
作为示例性的实施例,在得到最小包裹矩形之后,便可确定最小包裹矩形所对应的宽度、长度和XY坐标,以便根据这些信息进行外轮廓的筛选去除。具体地可以是将某一外轮廓的宽度、长度、XY坐标与预设段落筛选信息进行比较,若不满足预设段落筛选信息,则说明该外轮廓不是标题列表所对应的外轮廓,需要去除该外轮廓。
作为示例性的实施例,预设段落筛选信息包括:预设垂直坐标范围、预设字体宽度、预设字体长度、预设长宽比。
具体地,预设垂直坐标范围根据屏幕具体确定,具体根据实际确定。如屏幕的垂直坐标范围为0-1920,靠近顶端的可能是wifi、4G和电池等,顶端所占的坐标为0-50,靠近底端的可能是返回、退出、进入等按钮,底端所占的坐标为1851-1920,则预设垂直坐标范围为51-1850。
具体地,预设字体宽度可以是单个汉字的高度,也可以是0.5倍的汉字的高度,本实施例对此仅作示意性说明,不以此为限;在实际应用中,可根据经验值设定。
具体地,预设字体长度可以是5个汉字的长度,本实施例对此仅作示意性说明,不以此为限;在实际应用中,可根据经验值设定。
具体地,预设长宽比可以是5/1,当然,在其它实施例中,也可以是其它数值,如3/1等,本实施例对此仅作示意性说明,不以此为限;在实际应用中,可根据经验值设定。
作为示例性的实施例,步骤S3根据预设段落筛选信息对外轮廓进行筛选去除处理的步骤中,如图4所示,包括步骤S31-S34。
步骤S31:将外轮廓的Y坐标与预设垂直坐标范围进行比较,若Y坐标不在预设垂直坐标范围内,则去除所对应的外轮廓。
本实施例中,外轮廓的Y坐标不在预设垂直坐标范围内,则说明该外轮廓不是标题的外轮廓,故需要将其去除。
步骤S32:将宽度与预设字体宽度进行比较,若宽度小于预设字体宽度,则去除所对应的外轮廓。
本实施例中,宽度小于预设字体宽度,说明该外轮廓不满足要求,故需要去除。去除文字宽度不够的外轮廓,具体地可以是将宽度小于单个字宽要求的外轮廓去除;或者将小于0.5个字体宽度的外轮廓去除。
步骤S33:将长度与预设字体长度进行比较,若长度小于预设字体长度,则去除所对应的外轮廓。
本实施例中,长度小于预设字体长度,说明该外轮廓不满足要求,故需要去除。
步骤S34:将长度和宽度的比值与预设长宽比进行比较,若长度和宽度的比值小于预设长宽比,则去除所对应的外轮廓。
本实施例中,依据预设长宽比,筛选掉细高的外轮廓,留下矮宽的外轮廓。
通过上述步骤对外轮廓进行筛选,去除不合理的部分,使得后续段落合并结果更加准确。
作为示例性的实施例,步骤S1获取应用程序中的待识别图像的二值化图像的步骤中,如图5所示,包括步骤S11-S12。
步骤S11:获取应用程序中的待识别图像。
作为示例性的实施例,可通过截图方法得到应用程序中的待识别图像,本实施例对此仅作示意性描述,并不以此为限。
步骤S12:对待识别图像进行噪声过滤处理,得到二值化图像;其中,噪声过滤处理包括对待识别图像进行灰度二值化处理和对二值化处理后的待识别图像进行图像平滑处理。
作为示例性的实施例,对图像进行灰度二值化处理可以采用大津法。大津法(OTSU)是一种确定图像二值化分割阈值的算法,OTSU的原理是最小化类间方差,从像素分布直方图的角度来看就是在像素分布直方图的峰值之间找一个点,使得两个类之间的方差最大,类内方差最小,这样有助于前景和背景的分割。图像平滑处理可以采用中值滤波器,去除细小的“椒盐噪声”。本实施例对二值化处理的方法和图像平滑处理的方法,仅作示意性描述,并不以此为限。
上述步骤,先对获取到的待识别图像进行灰度二值化处理,滤除过小或者过大的像素;之后通过中值滤波进行图像平滑处理,去除细小的椒盐噪声,提高了二值图像的处理效果。
下面以一个具体示例进行详细说明,如图6所示。
首先,对获取到的app待识别图像进行灰度二值化处理,滤除过小或者过大的像素,再采用中值滤波器做图像平滑处理。本实施例中将这一过程称为噪声过滤,具体地,对图像进行灰度二值化采用大津法,得到的二值化图像。大津法(OTSU)是一种确定图像二值化分割阈值的算法,OTSU的原理是最小化类间方差,从像素分布直方图的角度来看就是在像素分布直方图的峰值之间找一个点,使得两个类之间的方差最大,类内方差最小。有助于前景和背景的分割。然后采用中值滤波器做图像平滑,去除细小的“椒盐噪声”。
其次,对二值化图像做形态处理。具体地,结合汉字“方框字”的正方形特征,采用3比1或者4比1扁平核函数做膨胀,模糊汉字内部结构,初步呈现出“段落”特征;采用扁平核腐蚀处理,去掉外围细节,散点,竖直线、图片背景等非文字段落特征(扁宽长方向)的部分,这时“列表行”可能会被截断为一个个段落,将在后续的递归合并中将其还原;采用椭圆核进行开运算,来消除微小噪声,将纤细断裂处的物体分离、平滑较大的联通物体边界,同时能保持不明显改变其面积,以便下一步提取轮廓特征时有较高的还原度,同时可以平滑文字段落的基本特征。
然后是段落筛选,提取所有物体的外轮廓,依据外轮廓长宽及其比例,筛选掉不合理的部分。具体地,获取最小包裹的矩形,并且其含有宽、长、XY坐标。依据Y坐标筛选掉限定范围以外的顶部和底部区域,靠近顶端的可能是wifi、4G和电池;依据长度筛选掉小于单个字宽的外轮廓,也就是去掉文字长度不够的外轮廓;依据长宽例,筛选掉细高的外轮廓,留下矮宽的外轮廓;依据宽度筛选掉小于单个字高一半的外轮廓,也就是去除太矮的外轮廓;根据面积去掉面积太小的外轮廓,如面积小于0.5倍字体面积的外轮廓。
段落筛选后得到的外轮廓,即为筛选后符合条件的外轮廓。
最后是段落合并,轮廓筛选后,标题视觉上会被截断为一个个段落,所以要进行递归合并。各个段落轮廓的重心垂直方向小于行间距一半就进行合并,一直将所有的段落方框递归完毕。具体地,递归合并是将一个个被形态处理截断为“段落”,递归合并还原为“标题行”。具体地,递归方法可以是将各个轮廓的垂直中心小于行间距的1倍距离的就进行外轮廓合并,一直遍历完所有的“段落”。段落合并后便可得到待识别图像中标题列表的所在区域。
对所述筛选后的外轮廓进行递归合并,得到所述待识别图像中标题列表的所在区域的步骤之后,还包括:根据所述待识别图像中标题列表的所在区域,对标题列表进行数据处理。具体地,数据处理可以是数据采集、数据测试等。
在本实施例中还提供了一种标题列表的识别系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例还提供一种标题列表的识别系统,如图7所示,包括:获取模块131、第一处理模块132、第二处理模块133和第三处理模块134。
获取模块131,用于获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;详细内容参考步骤S1所述。
第一处理模块132,用于根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;详细内容参考步骤S2所述。
第二处理模块133,用于根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;详细内容参考步骤S3所述。
第三处理模块134,用于根据所述筛选后的外轮廓得到每一个所述外轮廓的垂直中心;详细内容参考步骤S4所述。
第四处理模块135,用于根据所述垂直中心计算相邻外轮廓垂直中心之间的距离;详细内容参考步骤S5所述。
第五处理模块136,用于将所述距离小于预设间距的所述外轮廓进行递归合并,得到合并后的外轮廓,所述合并后的外轮廓所在区域则为所述待识别图像中标题列表的所在区域;详细内容参考步骤S6所述。
作为示例性的实施例,所述第一处理模块包括:第一处理单元,用于采用预设形状的扁平核函数对所述二值化图像进行膨胀处理和腐蚀处理,所述预设形状是根据汉字的方形形状特征确定的,详细内容参考步骤S21所述;第二处理单元,用于对膨胀处理和腐蚀处理后的所述二值化图像进行椭圆形开运算处理,得到所述二值化图像中所有物体的外轮廓,详细内容参考步骤S22所述。
作为示例性的实施例,所述预设形状为预设比例的长方形,所述预设比例的范围为5:1~3:1。
作为示例性的实施例,该系统还包括:第六处理模块,用于对所有物体的外轮廓分别进行轮廓提取,得到每一个外轮廓所对应的最小包裹矩形,详细内容参考步骤S7所述;第七处理模块,用于根据所述最小包裹矩形确定所述最小包裹矩形所对应的宽度、长度和XY坐标,详细内容参考步骤S8所述。
作为示例性的实施例,所述预设段落筛选信息包括:预设垂直坐标范围、预设字体宽度、预设字体长度,预设长宽比。
作为示例性的实施例,所述第二处理模块包括:第三处理单元,用于将外轮廓的Y坐标与预设垂直坐标范围进行比较,若Y坐标不在所述预设垂直坐标范围内,则去除所对应的外轮廓,详细内容参考步骤S31所述;第四处理单元,用于将宽度与预设字体宽度进行比较,若宽度小于预设字体宽度,则去除所对应的外轮廓,详细内容参考步骤S32所述;第五处理单元,用于将长度与预设字体长度进行比较,若长度小于预设字体长度,则去除所对应的外轮廓,详细内容参考步骤S33所述;第六处理单元,用于将长度和宽度的比值与预设长宽比进行比较,若长度和宽度的比值小于预设长宽比,则去除所对应的外轮廓,详细内容参考步骤S34所述。
作为示例性的实施例,所述获取模块包括:获取单元,用于获取应用程序中的待识别图像,详细内容参考步骤S11所述;第十处理单元,用于对所述待识别图像进行噪声过滤处理,得到二值化图像;其中,所述噪声过滤处理包括对所述待识别图像进行灰度二值化处理和对二值化处理后的所述待识别图像进行图像平滑处理,详细内容参考步骤S12所述。
本实施例中的标题列表的识别系统是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供了一种电子设备,如图8所示,该电子设备包括一个或多个处理器141以及存储器142,图8中以一个处理器141为例。
该控制器还可以包括:输入装置143和输出装置144。
处理器141、存储器142、输入装置143和输出装置144可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器141可以为中央处理器(Central Processing Unit,CPU)。处理器141还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
存储器142作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的标题列表的识别方法对应的程序指令/模块。处理器141通过运行存储在存储器142中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的标题列表的识别方法。
存储器142可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器142可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器142可选包括相对于处理器141远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置143可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置144可包括显示屏等显示设备。
一个或者多个模块存储在存储器142中,当被一个或者多个处理器141执行时,执行如图1-6所示的标题列表的识别方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述标题列表的识别方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (9)
1.一种标题列表的识别方法,其特征在于,包括:
获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;
根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;
根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;
根据所述筛选后的外轮廓得到每一个所述外轮廓的垂直中心;
根据所述垂直中心计算相邻外轮廓垂直中心之间的距离;
将所述距离小于预设间距的所述外轮廓进行递归合并,得到合并后的外轮廓,所述合并后的外轮廓所在区域则为所述待识别图像中标题列表的所在区域。
2.如权利要求1所述的标题列表的识别方法,其特征在于,根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓,包括:
采用预设形状的扁平核函数对所述二值化图像进行膨胀处理和腐蚀处理,所述预设形状是根据汉字的方形形状特征确定的;
对膨胀处理和腐蚀处理后的所述二值化图像进行椭圆形开运算处理,得到所述二值化图像中所有物体的外轮廓。
3.如权利要求1所述的标题列表的识别方法,其特征在于,根据预设段落筛选信息对所述外轮廓进行筛选去除处理的步骤之前,还包括:
对所有物体的外轮廓分别进行轮廓提取,得到每一个外轮廓所对应的最小包裹矩形;
根据所述最小包裹矩形确定所述最小包裹矩形所对应的宽度、长度和XY坐标。
4.如权利要求3所述的标题列表的识别方法,其特征在于,所述预设段落筛选信息包括:预设垂直坐标范围、预设字体宽度、预设字体长度、预设长宽比。
5.如权利要求4所述的标题列表的识别方法,其特征在于,根据预设段落筛选信息对所述外轮廓进行筛选去除处理的步骤中,包括:
将外轮廓的Y坐标与预设垂直坐标范围进行比较,若Y坐标不在所述预设垂直坐标范围内,则去除所对应的外轮廓;
将宽度与预设字体宽度进行比较,若宽度小于预设字体宽度,则去除所对应的外轮廓;
将长度与预设字体长度进行比较,若长度小于预设字体长度,则去除所对应的外轮廓;
将长度和宽度的比值与预设长宽比进行比较,若长度和宽度的比值小于预设长宽比,则去除所对应的外轮廓。
6.如权利要求1-5中任一所述的标题列表的识别方法,其特征在于,获取应用程序中的待识别图像的二值化图像,包括:
获取应用程序中的待识别图像;
对所述待识别图像进行噪声过滤处理,得到二值化图像;其中,所述噪声过滤处理包括对所述待识别图像进行灰度二值化处理和对二值化处理后的所述待识别图像进行图像平滑处理。
7.一种标题列表的识别系统,其特征在于,包括:
获取模块,用于获取应用程序中的待识别图像的二值化图像,所述待识别图像包含至少一个标题列表;
第一处理模块,用于根据汉字的方形形状特征对所述二值化图像进行形态处理,得到所述二值化图像中所有物体的外轮廓;
第二处理模块,用于根据预设段落筛选信息对所述外轮廓进行筛选去除处理,得到筛选后的外轮廓;
第三处理模块,用于根据所述筛选后的外轮廓得到每一个所述外轮廓的垂直中心;
第四处理模块,用于根据所述垂直中心计算相邻外轮廓垂直中心之间的距离;
第五处理模块,用于将所述距离小于预设间距的所述外轮廓进行递归合并,得到合并后的外轮廓,所述合并后的外轮廓所在区域则为所述待识别图像中标题列表的所在区域。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任意一项所述的标题列表的识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任意一项所述的标题列表的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291077.0A CN112101323B (zh) | 2020-11-18 | 2020-11-18 | 标题列表的识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011291077.0A CN112101323B (zh) | 2020-11-18 | 2020-11-18 | 标题列表的识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101323A true CN112101323A (zh) | 2020-12-18 |
CN112101323B CN112101323B (zh) | 2021-02-02 |
Family
ID=73785930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011291077.0A Active CN112101323B (zh) | 2020-11-18 | 2020-11-18 | 标题列表的识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101323B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553121A (zh) * | 2021-07-07 | 2021-10-26 | 北京智慧星光信息技术有限公司 | 基于elementui列表的筛选配置方法、系统、电子设备及存储介质 |
CN117079282A (zh) * | 2023-08-16 | 2023-11-17 | 读书郎教育科技有限公司 | 一种基于图像处理的智能词典笔 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495660A (zh) * | 1995-09-06 | 2004-05-12 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
US20160283818A1 (en) * | 2015-03-09 | 2016-09-29 | Fujitsu Limited | Method and apparatus for extracting specific region from color document image |
CN106355172A (zh) * | 2016-08-11 | 2017-01-25 | 无锡天脉聚源传媒科技有限公司 | 一种字符识别方法及装置 |
CN107609546A (zh) * | 2017-08-29 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN107784301A (zh) * | 2016-08-31 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于识别图像中文字区域的方法和装置 |
CN110405777A (zh) * | 2018-04-28 | 2019-11-05 | 深圳果力智能科技有限公司 | 一种机器人的交互控制方法 |
-
2020
- 2020-11-18 CN CN202011291077.0A patent/CN112101323B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495660A (zh) * | 1995-09-06 | 2004-05-12 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
US20160283818A1 (en) * | 2015-03-09 | 2016-09-29 | Fujitsu Limited | Method and apparatus for extracting specific region from color document image |
CN106355172A (zh) * | 2016-08-11 | 2017-01-25 | 无锡天脉聚源传媒科技有限公司 | 一种字符识别方法及装置 |
CN107784301A (zh) * | 2016-08-31 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于识别图像中文字区域的方法和装置 |
CN107609546A (zh) * | 2017-08-29 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种文字标题识别方法及装置 |
CN110405777A (zh) * | 2018-04-28 | 2019-11-05 | 深圳果力智能科技有限公司 | 一种机器人的交互控制方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553121A (zh) * | 2021-07-07 | 2021-10-26 | 北京智慧星光信息技术有限公司 | 基于elementui列表的筛选配置方法、系统、电子设备及存储介质 |
CN113553121B (zh) * | 2021-07-07 | 2023-12-19 | 北京智慧星光信息技术有限公司 | 基于elementui列表的筛选配置方法、系统、电子设备及存储介质 |
CN117079282A (zh) * | 2023-08-16 | 2023-11-17 | 读书郎教育科技有限公司 | 一种基于图像处理的智能词典笔 |
Also Published As
Publication number | Publication date |
---|---|
CN112101323B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018103608A1 (zh) | 一种文字检测方法、装置及存储介质 | |
JP6719457B2 (ja) | 画像の主要被写体を抽出する方法とシステム | |
CN110309824B (zh) | 文字检测方法、装置以及终端 | |
CN111767920B (zh) | 感兴趣区域的提取方法、装置、电子设备及存储介质 | |
CN112101323B (zh) | 标题列表的识别方法、系统、电子设备及存储介质 | |
CN108318773B (zh) | 一种输电导线断股检测方法及系统 | |
CN111783524B (zh) | 一种场景变换检测方法、装置、存储介质及终端设备 | |
CN111640123B (zh) | 无背景图像的生成方法、装置、设备及介质 | |
CN104156941A (zh) | 一种确定图像上几何轮廓区域的方法及系统 | |
CN114049499A (zh) | 用于连续轮廓的目标对象检测方法、设备及存储介质 | |
CN114298985B (zh) | 缺陷检测方法、装置、设备及存储介质 | |
CN117315406B (zh) | 一种样本图像处理方法、装置及设备 | |
CN109508716B (zh) | 一种图像文字的定位方法及装置 | |
CN113221601A (zh) | 字符识别方法、装置及计算机可读存储介质 | |
CN113450355A (zh) | 一种基于多膜态ct图像和3dcnn网络提取图像特征的方法 | |
Shi et al. | Image enhancement for degraded binary document images | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN111178192B (zh) | 一种图像中目标对象的位置识别方法及装置 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
JP6377214B2 (ja) | テキスト検出方法および装置 | |
CN110473222A (zh) | 图像要素提取方法及装置 | |
CN115862044A (zh) | 用于从图像中提取目标文档部分的方法、设备和介质 | |
JPH1125222A (ja) | 文字切り出し方法及び文字切り出し装置 | |
CN114529570A (zh) | 图像分割方法、图像识别方法、用户凭证补办方法及系统 | |
CN114648751A (zh) | 一种处理视频字幕的方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |