CN111968126B

CN111968126B - 页面焦点识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111968126B
Application number: CN202010630454.2A
Authority: CN
Inventors: 王勇
Original assignee: Shanghai Itest Communication Technology Co ltd
Current assignee: Shanghai Itest Communication Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-10-17
Anticipated expiration: 2040-06-30
Also published as: CN111968126A

Abstract

本发明提供一种页面焦点识别方法、装置、计算机设备和存储介质，该方法包括获取至少焦点切换前后的两个页面图像；分别对两个页面图像进行背景过滤；通过帧间差分法从待识别的焦点图像中获得第一焦点候选区域；对两个待识别的焦点图像进行相似性比较，得到比较后的焦点图像；基于卷积神经网络对两个比较后的焦点图像进行特征提取，得到特征向量；基于支持向量机对两个特征向量进行分类，根据分类结果从第二焦点候选区域中确定焦点区域。依次通过背景过滤算法、帧间差分法以及相似性比较算法，对焦点切换前后的页面图像进行多次的噪音过滤，使得卷积神经网络和支持向量机能够高效、准确地提取特征向量和分类，精确识别提取出焦点区域。

Description

页面焦点识别方法、装置、计算机设备和存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种页面焦点识别方法、装置、计算机设备和存储介质。

背景技术

EPG(Electronic Program Guide电子节目指南，)是电子节目菜单，用于为IPTV的各种业务提供索引及导航。EPG系统的界面与Web页面类似，在EPG界面上一般都提供各类菜单、按钮、链接等可供用户选择节目时直接点击的组件；EPG的界面上也可以包含各类供用户浏览的动态或静态的多媒体内容。

一般情况下，需要对EPG的焦点进行识别，以描述整个EPG的页面结构，进而进行多种拨测业务和生成相关KPI数据。EPG的焦点由焦点特征和焦点内容(焦点图片)构成，焦点特征如边框、变大和颜色填充，焦点内容比如焦点图片。焦点特征具有多样性和复杂性的特点，较之传统的图像中的物体检测，目前的EPG焦点识别主要存在以下问题：

1.不同厂家的焦点特征有较大的差异，焦点特征多种多样，通过传统经验驱动的人造特征范式HOG(Histogram of Oriented Gradient，方向梯度直方图)、SIFT(Scale-invariant feature transform，尺度不变特征变换)很难解决；

2.焦点特征不具备固定性和通用性，即一个焦点特征在当前EPG页面确定为焦点，但是在另一个EPG又不被确认为焦点，这就导致只通过焦点特征来识别也具有局限性；

3.焦点特征的不明显性，即焦点特征较周围的背景显得很不突出，即使通过人眼也很难识别。

发明内容

基于此，有必要针对上述技术问题，提供一种页面焦点识别方法、装置、计算机设备和存储介质。

一种页面焦点识别方法，包括：

获取至少两个页面图像，其中，两个所述页面图像为焦点选中时的页面图像和焦点切换后的页面图像；

采用背景过滤算法，分别对两个所述页面图像进行背景过滤，得到对应的两个待识别的焦点图像；

通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域；

对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像，所述比较后的焦点图像包含第二焦点候选区域；

基于卷积神经网络对两个所述比较后的焦点图像的所述第二焦点候选区域进行特征提取，得到所述第二焦点候选区域的特征向量；

基于支持向量机对两个所述特征向量进行分类，根据所述支持向量机的分类结果从所述第二焦点候选区域中确定焦点区域。

在一个实施例中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤包括：

检测两个所述待识别的焦点图像是否处于同一页面；

当两个所述待识别的焦点图像处于同一页面时，通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

通过帧间差分法对两个所述待识别的焦点图像进行对比，提取出两个所述待识别的焦点图像中差异的部分；

基于ORB特征的K-近邻算法对两个所述待识别的焦点图像中差异的部分进行比较，根据ORB特征的K-近邻算法的比较结果，从所述待识别的焦点图像中获得第一焦点候选区域。

在一个实施例中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤还包括：

当焦点选中时的页面图像的焦点和焦点切换后的页面图像的焦点不在同一页面时，基于尺度不变特征变换的特征匹配和模板匹配方法，提取两个所述待识别的焦点图像中相同的部分；

计算两个所述待识别的焦点图像中相同的部分在对应的所述待识别的焦点图像中的位置信息，基于相同的部分在对应的所述待识别的焦点图像中的位置信息，将两个所述待识别的焦点图像进行对齐，使得两个所述待识别的焦点图像处于同一页面；

通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

在一个实施例中，所述对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像的步骤中，

对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较的方法包括以下至少一种：

颜色比较方法、纹理比较方法、尺度不变特征变换方法以及模板匹配度比较方法。

在一个实施例中，采用颜色比较方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像包括：

获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的颜色直方图；

将两个所述待识别的焦点图像的多个区域的颜色直方图进行一一对比；

根据颜色直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像；

采用纹理比较方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像包括：

获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的梯度直方图；

将两个所述待识别的焦点图像的多个区域的梯度直方图进行一一对比；

根据梯度直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像。

在一个实施例中，所述采用背景过滤算法，对所述页面图像进行背景过滤，得到待识别的焦点图像的步骤为：

采用洪水填充算法，分别对两个对所述页面图像进行背景过滤，得到对应的所述待识别的焦点图像；

或

当所述页面图像的背景的亮度相较于焦点的亮度暗时，通过最大类间方差算法将两个所述页面图像的背景过滤，得到对应的所述待识别的焦点图像。

一种页面焦点识别装置，包括：

页面图像获取模块，用于获取至少两个页面图像，其中，两个所述页面图像为焦点选中时的页面图像和焦点切换后的页面图像；

背景过滤模块，用于采用背景过滤算法，分别对两个所述页面图像进行背景过滤，得到对应的两个待识别的焦点图像；

第一候选区域获取模块，用于通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域；

第二候选区域获取模块，用于对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像，所述比较后的焦点图像包含第二焦点候选区域；

特征向量获取模块，用于基于卷积神经网络对两个所述比较后的焦点图像的所述第二焦点候选区域进行特征提取，得到所述第二焦点候选区域的特征向量；

焦点区域确定模块，用于基于支持向量机对两个所述特征向量进行分类，根据所述支持向量机的分类结果从所述第二焦点候选区域中确定焦点区域。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述页面焦点识别方法、装置、计算机设备和存储介质，依次通过背景过滤算法、帧间差分法以及相似性比较算法，对焦点切换前后的页面图像进行多次的噪音过滤，从而准确地获取焦点候选区域，使得卷积神经网络和支持向量机能够高效、准确地提取特征向量和分类，从而精确识别提取出焦点区域。

附图说明

图1为一个实施例中页面焦点识别方法的流程示意图；

图2为一个实施例中页面焦点识别装置的结构框图；

图3为一个实施例中计算机设备的内部结构图；

图4为一个实施例中焦点切换前后的页面图像；

图5为一个实施例中通过帧间差分后得到的页面图像；

图6A为一个实施例中两个页面图像对齐前的示意图；

图6B为一个实施例中两个页面图像对齐后的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种页面焦点识别方法，其包括：

步骤110，获取至少两个页面图像，其中，两个所述页面图像为焦点选中时的页面图像和焦点切换后的页面图像。

具体地，该页面图像为电视的EPG页面的图像。本实施例中，获取前后两帧的页面图像，该两个页面图像的焦点切后前后的页面图像。比如，焦点选中时的页面图像的图像中焦点为A，焦点切换后的页面图像的焦点为B，这样，通过获取两个页面图像，即可以获得焦点切换前后的两个页面图像。并且以焦点切换前后的两个页面图像作为样本进行识别，其中，焦点选中时的页面图像作为正样本，焦点切换后的页面图像为负样本，为了提高识别效率，负样本不能设置为与正样本无关的图像。

本实施例中，正样本和负样本分别获取至少一个，也可以获取多个，1.正样本和负样本的比例定为1:1，也就是说，每获取一个正样本，则相应获取一个负样本，保持样本上是一正一负对应，每一正样本与一负样本组成一样本组，各步骤中的识别是基于同一组内的正样本和负样本进行识别的。当正样本较少的情况下可以通过过采样，形态变化和调整正样本的权重解决。

步骤120，采用背景过滤算法，分别对两个所述页面图像进行背景过滤，得到对应的两个待识别的焦点图像。

本步骤中，将两个页面图像进行背景过滤处理，将焦点选中时的页面图像和焦点切换后的页面图像的背景过滤，删除大部分的背景，消除噪音，使得页面图像中保留待识别的焦点，值得一提的是，由于背景过滤中，并不能完全将背景过滤，仍会存在部分噪音背景，而这部分部分背景和焦点将保留在图像中，这部分部分背景和焦点并不能直接区分开，为此，本步骤中并不能直接识别出图像中的焦点，因此，图像中的焦点为待识别的焦点。

步骤130，通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

本实施例中，帧间差分法能够对两个待识别的焦点图像进行再一次的过滤，对噪音进一步消除。具体地，本步骤中，通过帧间差分法对焦点切换前后的两个页面图像进行比较，过滤掉静止的部分，提取变化的部分，过滤大部分噪音数据，从而使得待识别的焦点图像中的背景噪音得到进一步过滤、消除，而使得待识别的焦点图像中的焦点更为准确，从而得到待识别的焦点图像中的第一焦点候选区域。值得一提的是，该第一焦点候选区域为候选的焦点区域，通过帧间差分法能够进一步去除大部分的噪音，但仍保留了少部分的噪音，因此，保留在待识别的焦点图像中的焦点并不能直接确定为真正的焦点，并不能直接确定该候选的焦点区域为焦点所在区域，因此，该第一焦点候选区域仅能作为候选的区域需要进一步进行焦点的提取、识别。

步骤140，对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像，所述比较后的焦点图像包含第二焦点候选区域。

应该理解的是，焦点在切换前后的主要特征将保持不变，因此，本步骤中，基于相似性比较，对两个所述待识别的焦点图像进行再一次过滤，将焦点切换前后的两个所述待识别的焦点图像中相同的部分保留，将两个所述待识别的焦点图像中不一致的部分删除，使得两个所述待识别的焦点图像中的噪音数据得到进一步删除，将部分判定为不是焦点的区域删除，使得两个比较后的焦点图像中的焦点候选区域更为准确，则得到第二焦点候选区域，该第二焦点候选区域相较于第一焦点候选区域，候选的焦点区域的数量更少，且候选的焦点区域更为准确。

步骤150，基于卷积神经网络对两个所述比较后的焦点图像的所述第二焦点候选区域进行特征提取，得到所述第二焦点候选区域的特征向量。

本步骤中，将两个所述比较后的焦点图像输入至卷积神经网络(CNN，Convolutional Neural Networks)进行特征提取，得到两个比较后的焦点图像的第二焦点候选区域的特征向量。

具体地，该卷积神经网络采用Alexnet模型，为了适应Alexnet模型，将第二焦点待选区域的大小定义为227*227，Alexnet特征提取部分包含了5个卷积层、2个全连接层，在Alexnet中p5层神经元个数为9216、f6、f7的神经元个数都是4096，通过这个网络训练完毕后，最后提取特征每个候选框图片都能得到一个4096维的特征向量，采用Alexnet的参数作为模型初始参数，网络优化求解采用随机梯度下降，学习率为0.001。

步骤160，基于支持向量机对两个所述特征向量进行分类，根据所述支持向量机的分类结果从所述第二焦点候选区域中确定焦点区域。

本步骤中，基于卷积神经网络提取到的特征向量进行分类，该支持向量机(SVM)是一种二分类模型，分类精度高，适用于样本数量少的情况。本实施例中，支持向量机定义4个svm分类器，分别是颜色填充焦点类型、边框焦点类型、放大焦点类型和背景图片。对4个支持向量机的分类器的输出进行排序，得分最高的类型就是输出类型。这样，即可将多个第二焦点候选区域进行分类，识别出比较后的焦点图像为颜色填充焦点，或者是边框焦点，或者是放大焦点，或者是背景图片，从而从从比较后的焦点图像的背景中识别出来，从多个第二焦点候选区域中确定焦点区域，从而有效、准确地识别、提取焦点区域。

上述实施例中，依次通过背景过滤算法、帧间差分法以及相似性比较算法，对焦点切换前后的页面图像进行多次的噪音过滤，从而准确地获取焦点候选区域，使得卷积神经网络和支持向量机能够高效、准确地提取特征向量和分类，从而精确识别提取出焦点区域。

在一个实施例中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤包括：检测两个所述待识别的焦点图像是否处于同一页面；当两个所述待识别的焦点图像处于同一页面时，通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

具体地，页面也称为view(视图)，即当前电视机显示的画面。同一页面指的是EPG同一位置的页面，同一页面的页面内包含相同的图像的元素，这些元素可以是图像框、图片等。当切换前后的待识别图像处于同一个页面时，其仅在焦点的位置存在区别，因此，通过帧间差分法对两个所述待识别的焦点图像，提取出两个待识别的焦点图像中变化的部分，变化的部分既可以人为四包含了焦点的变化的部分，进而获得待识别的焦点图像中获得第一焦点候选区域。本实施例中，检测两个所述待识别的焦点图像是否处于同一页面的方法可以采用帧间差分法进行检测，也可以采用SIFT(Scale Invariant Feature Transform，尺度不变特征变换)方法检测。

在一个实施例中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤包括：通过帧间差分法对两个所述待识别的焦点图像进行对比，提取出两个所述待识别的焦点图像中差异的部分；基于ORB特征的K-近邻算法对两个所述待识别的焦点图像中差异的部分进行比较，根据ORB特征的K-近邻算法的比较结果，从所述待识别的焦点图像中获得第一焦点候选区域。

值得一提的是，ORB(Oriented Fast and Rotated BRIEF，局部不变性的特征)是一种局部不变性的特征，同SIFT类似，检测精度低于SIFT，但是具有速度快的特点。K-近邻算法，是一种基于距离的聚类算法，对ORB和SIFT生成的特征进行聚类，输出图片匹配度。

本实施例中，通过帧间差分法将两个待识别的焦点图像进行对比，将两个待识别的焦点图像进行相减，将相同的部分剔除，提取出变化的部分，该变化的部分即为两个待识别的焦点图像差异的部分，随后，将两个待识别的焦点图像差异的部分进行基于ORB特征的KNN(K-NearestNeighbor，K-近邻算法)匹配和模板的匹配，如果ORB特征的K-近邻算法的比较结果是一致的，则焦点位置未发生变化，如果ORB特征的K-近邻算法的比较结果不一致的，则焦点位置发生变化，差异部分即为两个待识别的焦点图像的焦点的区域，则将差异的部分确定为第一焦点候选区域。

在一个实施例中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤还包括：当焦点选中时的页面图像的焦点和焦点切换后的页面图像的焦点不在同一页面时，基于尺度不变特征变换的特征匹配和模板匹配方法，提取两个所述待识别的焦点图像中相同的部分；计算两个所述待识别的焦点图像中相同的部分在对应的所述待识别的焦点图像中的位置信息，基于相同的部分在对应的所述待识别的焦点图像中的位置信息，将两个所述待识别的焦点图像进行对齐，使得两个所述待识别的焦点图像处于同一页面；通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

本实施例中，当焦点切换前后的页面图像不在一个页面时，则基于SIFT(ScaleInvariant Feature Transform，尺度不变特征变换)特征匹配和模板匹配的方法，从焦点切换前后的两个页面图像提取出相同的部分，计算获得相同的部分在对应的所述待识别的焦点图像中的坐标，该坐标即位置信息，根据两个图像中相同的部分的坐标差异对两个待识别的焦点图像进行相对平移，直至两个待识别的焦点图像重合，使得两个所述待识别的焦点图像对齐，处于同一页面，这样，即可通过帧间差分法获得待识别的焦点图像中的第一焦点候选区域，即将两个所述待识别的焦点图像相减，剔除掉相同的部分，保留焦点区域，即可过滤背景数据，获得待识别的焦点图像中的第一焦点候选区域。

在一个实施例中，所述对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像的步骤中，对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较的方法包括以下至少一种：颜色比较方法、纹理比较方法、尺度不变特征变换方法以及模板匹配度比较方法。

应该理解的是，焦点在切换前后的主要特征将保持不变，基于相似性进行过滤，将切换前后待识别的焦点图像相同的部分保留，不一致的部分删除，从而得到比较后的焦点图像。

具体地，对于图像的相似性比较，可以采用颜色比较方法、纹理比较方法、尺度不变特征变换方法以及模板匹配度比较方法进行。比如，采用颜色比较方法，颜色相近的则确认为待识别的焦点图像相同的部分则保留，反之，颜色相差大于预设阈值的，则确认为待识别的焦点图像不同的部分，进行删除。比如，采用纹理比较方法，纹理相近的则确认为待识别的焦点图像相同的部分则保留，反之，纹理相差大于预设纹理差值的，则确认为待识别的焦点图像不同的部分，进行删除。比如，采用尺度不变特征变换方法，SIFT特征相近的，则确认为待识别的焦点图像相同的部分则保留，反之，SIFT特征相差大于预设阈值的，则确认为待识别的焦点图像不同的部分，进行删除。

值得一提的是，模板匹配度比较方法中，将待识别的焦点图像与预存的页面模板进行对比，该预存的页面模板保存了页面的模板的结构。比较待识别的焦点图像与预存的页面模板，获得模版匹配度，从而实现相似性比较。比如，采用模板匹配度比较方法，模板匹配度高于预设匹配度阈值的则确认为待识别的焦点图像相同的部分则保留，反之，模板匹配度低于预设匹配度阈值的，则确认为待识别的焦点图像不同的部分，进行删除。

在一个实施例中，采用颜色比较方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像包括：获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的颜色直方图；将两个所述待识别的焦点图像的多个区域的颜色直方图进行一一对比；根据颜色直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像；

采用纹理比较方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像包括：获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的梯度直方图；将两个所述待识别的焦点图像的多个区域的梯度直方图进行一一对比；根据梯度直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像。

具体地，本实施例中，在相似性比较中，对于颜色比较方法和纹理比较方法，分别获得待识别的焦点图像的颜色直方图和梯度直方图，通过颜色直方图对两个待识别的焦点图像的颜色相似性进行比较，删除不同的部分，保留相同的部分，通过梯度直方图对两个待识别的焦点图像的纹理相似性进行比较，删除不同的部分，保留相同的部分，从而高效、准确地实现了相似性比较，进一步将待识别的焦点图像中的噪音数据删除。

在一个实施例中，所述采用背景过滤算法，对所述页面图像进行背景过滤，得到待识别的焦点图像的步骤为：采用洪水填充算法，分别对两个对所述页面图像进行背景过滤，得到对应的所述待识别的焦点图像；或当所述页面图像的背景的亮度相较于焦点的亮度暗时，通过最大类间方差算法将两个所述页面图像的背景过滤，得到对应的所述待识别的焦点图像。

本实施例中，可以选择采用洪水填充算法或者OTSU算法对两个对页面图像进行背景过滤。具体地，本实施例中，根据页面图像的背景选择洪水填充算法或者OTSU算法，当页面图像的背景为纯色背景时，背景颜色主要有一种或多种颜色相近的颜色组成，这种情况直接用洪水填充，过滤背景，裁剪出待识别的焦点图片，从而获得待识别的焦点图像；当页面图像的背景为动态背景时，根据颜色的亮度过滤背景，页面图像的背景为播放页面，但是亮度较暗，通过OTSU算法自动过滤亮度较低的背景，从而获得图像中的焦点，获得待识别的焦点图像。

下面是一个具体的实施例：

应该理解的是，由于焦点的复杂性，单一的识别策略很难达到高准确率和通用性，需要集成多种策略来提高识别精度，本实施例中的识别策略包含以下几种方面：

1.焦点形态特征

焦点的形态特征，主要包含颜色，纹理，大小，位置

2.焦点行为特征

焦点移动过程中，必然伴随着图片变化，基于ORB进行图像对齐，通过比较切换前后的图片，提取变化的部分，可以过滤大部分背景和非焦点图片，大大提高识别性能

3.EPG页面结构

EPG页面结构主要是指各个焦点在当前页面的位置，大小和焦点间上下文关系，一个机顶盒虽然包含大量的EPG页面，但是页面结构大部分都是一致的，在识别过程中，可以保存常用的EPG结构，检测到页面结构一致，可以复用已识别的页面模板，提高识别效率。

本实施例中，焦点识别基于对焦点选中前后的图片进行比较，流程主要包含以下几个阶段：

1.通过opencv对图片进行预处理，预处理包括背景过滤、图片对齐、特征相似性检查，提取候选区域并记录区域坐标。

2.CNN特征提取，以CNN作为特征提取器对候选区域进行特征提取

3.基于svm对特征向量进行分类，根据第一步记录的坐标获取焦点位置

在此过程中，中主要的工作量在图片预处理，生成正负样本

具体过程如下：

1.图片预处理

图片的预处理主要是对比焦点选中前后的图片差异，过滤静止的部分，提取变化的部分，然后根据颜色，大小，纹理和形状分析，过滤大部分噪音数据，通过对焦点选中前后的图片进行相似性比较，提取待选区域。

1.1进行背景过滤：背景过滤中，根据页面图像的背景是纯色背景或者动态背景，采用不同的背景过滤算法：

当页面图像的背景为纯色背景时：背景颜色主要有一种或多种颜色相近的颜色组成，这种情况直接用洪水填充，过滤背景，裁剪出待识别的焦点图片。

当页面图像的背景为动态背景时：根据颜色的亮度过滤背景，背景为播放页面，但是亮度较暗，通过OTSU算法自动过滤亮度较低的背景。

1.2通过帧间差分法过滤：以焦点选中前的图片作为背景，减去焦点选中后的图片，则可以获取焦点待选区域。假定标识切换前的焦点为A，切换后的焦点为B焦点选中前后图片主要包含以下几种情况：

情况1.焦点A和B在同一个view(页面)，且相对位置没有发生改变。

将焦点A和B所在的页面相减，即可过滤背景数据。如图4所示，即为焦点A和B切换前后的页面，且焦点在页面中相对位置没有发生改变的页面图像。通过帧间差分后得到的页面图像如图5所示。

情况2.焦点A和B在同一个view,但是位置发生变化。

将焦点A和B的相同部分进行对齐，然后按照”情况1”处理即可

情况3.焦点A和B不在同一个view。

直接从B切换到下一个焦点C，重复”情况1”的处理

在此过程中，主要的难点在于在完成焦点识别前，如何判断焦点A和B位于同一个view，且位置没有发生变化，以及位置变化以后如何对齐，主要通过以下策略：

1).当焦点A和B位于同一个view，且位置没有发生改变：

将A和B焦点图片相减，提取变化部分，通过基于ORB特征的knn匹配和模板匹配对变化的部分进行比较，如果一致，说明焦点位置未发生变化

2).当图片对齐：

焦点A和B的焦点位置发生改变，需要进行图片对齐,基于SIFT特征匹配和模板匹配，提取焦点图片A和B中共同部分，计算他们的坐标，根据坐标差异对图片进行平移，直至完成重合，然后按照”情况1”处理即可

如图6A所示，为两个页面图像对齐前的示意图，如图6B所示，为两个页面图像对齐后的示意图。

1.3相似性比较

焦点在切换前后的主要特征应该保持不变，基于相似性进行过滤，切换前后图片特征一致保留，不一致的删除，相似性判断策略如下：

1.颜色(颜色直方图)相近

2纹理(梯度直方图)相近的3.SIFT特征相近的4.模板匹配度高的

焦点在切换前后的主要特征应该保持不变：

2.特征提取

基于CNN网络生成特征，采用Alexnet模型，为了适应Alexnet模型，将待选区域resize为227*227，Alexnet特征提取部分包含了5个卷积层、2个全连接层，在Alexnet中p5层神经元个数为9216、f6、f7的神经元个数都是4096，通过这个网络训练完毕后，最后提取特征每个候选框图片都能得到一个4096维的特征向量,采用Alexnet的参数作为模型初始参数，网络优化求解采用随机梯度下降，学习率为0.001

3.svm分类

基于CNN生成的特征进行分类，定义4个svm分类器，分别是颜色填充焦点类型，边框焦点类型，放大焦点类型和背景图片。对4个svm分类器的输出进行排序，得分最高的类型就是输出类型

在一个实施例中，如图2所示，提供了一种页面焦点识别装置，包括：

页面图像获取模块210，用于获取至少两个页面图像，其中，两个所述页面图像为焦点选中时的页面图像和焦点切换后的页面图像；

背景过滤模块220，用于采用背景过滤算法，分别对两个所述页面图像进行背景过滤，得到对应的两个待识别的焦点图像；

第一候选区域获取模块230，用于通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域；

第二候选区域获取模块240，用于对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像，所述比较后的焦点图像包含第二焦点候选区域；

特征向量获取模块250，用于基于卷积神经网络对两个所述比较后的焦点图像的所述第二焦点候选区域进行特征提取，得到所述第二焦点候选区域的特征向量；

焦点区域确定模块260，用于基于支持向量机对两个所述特征向量进行分类，根据所述支持向量机的分类结果从所述第二焦点候选区域中确定焦点区域。

在一个实施例中，所述第一候选区域获取模块包括：

页面检测单元，用于检测两个所述待识别的焦点图像是否处于同一页面；

第一候选区域获取单元，用于当两个所述待识别的焦点图像处于同一页面时，通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

在一个实施例中，所述第一候选区域获取单元包括：

差异部分提取子单元，用于通过帧间差分法对两个所述待识别的焦点图像进行对比，提取出两个所述待识别的焦点图像中差异的部分；

第一焦点候选区域获取子单元，用于基于ORB特征的K-近邻算法对两个所述待识别的焦点图像中差异的部分进行比较，根据ORB特征的K-近邻算法的比较结果，从所述待识别的焦点图像中获得第一焦点候选区域。

在一个实施例中，所述第一候选区域获取单元还包括：

相同部分提取子单元，用于当焦点选中时的页面图像的焦点和焦点切换后的页面图像的焦点不在同一页面时，基于尺度不变特征变换的特征匹配和模板匹配方法，提取两个所述待识别的焦点图像中相同的部分；

图像平移子单元，用于计算两个所述待识别的焦点图像中相同的部分在对应的所述待识别的焦点图像中的位置信息，基于相同的部分在对应的所述待识别的焦点图像中的位置信息，将两个所述待识别的焦点图像进行对齐，使得两个所述待识别的焦点图像处于同一页面；

第一焦点候选区域获取子单元，用于通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域。

在一个实施例中，第二候选区域获取模块还用于通过以下至少一种方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较：

在一个实施例中，第二候选区域获取模块还用于获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的颜色直方图；将两个所述待识别的焦点图像的多个区域的颜色直方图进行一一对比；根据颜色直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像；

第二候选区域获取模块还用于获取包含所述第一焦点候选区域的两个所述待识别的焦点图像的多个区域的梯度直方图；将两个所述待识别的焦点图像的多个区域的梯度直方图进行一一对比；根据梯度直方图的对比结果，将两个所述待识别的焦点图像中不一致的区域删除，得到比较后的焦点图像。

在一个实施例中，所述背景过滤模块用于采用洪水填充算法，分别对两个对所述页面图像进行背景过滤，得到对应的所述待识别的焦点图像；

或

所述背景过滤模块用于当所述页面图像的背景的亮度相较于焦点的亮度暗时，通过最大类间方差算法将两个所述页面图像的背景过滤，得到对应的所述待识别的焦点图像。

关于页面焦点识别装置的具体限定可以参见上文中对于页面焦点识别方法的限定，在此不再赘述。上述页面焦点识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了计算机设备，该计算机设备为电视或者电视机顶盒。其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与IPTV的服务器连接。该计算机程序被处理器执行时以实现一种页面焦点识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等，本实施例中，计算机设备的输入装置为红外遥控器。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

检测两个所述待识别的焦点图像是否处于同一页面；

或

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

检测两个所述待识别的焦点图像是否处于同一页面；

或

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种页面焦点识别方法，其特征在于，包括：

基于支持向量机对两个所述特征向量进行分类，根据所述支持向量机的分类结果从所述第二焦点候选区域中确定焦点区域；

其中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤包括通过帧间差分法对焦点切换前后的两个页面图像进行比较，过滤掉静止的部分，提取变化的部分。

2.根据权利要求1所述的方法，其特征在于，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤包括：

检测两个所述待识别的焦点图像是否处于同一页面，其中，同一页面指的是EPG同一位置的页面，同一页面的页面内包含相同的图像的元素，当切换前后的待识别图像处于同一个页面时，其仅在焦点的位置存在区别；

3.根据权利要求2所述的方法，其特征在于，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域的步骤还包括：

5.根据权利要求1所述的方法，其特征在于，所述对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像的步骤中，

6.根据权利要求5所述的方法，其特征在于，采用颜色比较方法对包含所述第一焦点候选区域的两个所述待识别的焦点图像进行相似性比较，将两个所述待识别的焦点图像中不一致的部分删除，得到比较后的焦点图像包括：

7.根据权利要求1所述的方法，其特征在于，所述采用背景过滤算法，对所述页面图像进行背景过滤，得到待识别的焦点图像的步骤为：

或

8.一种页面焦点识别装置，其特征在于，包括：

第一候选区域获取模块，用于通过帧间差分法对两个所述待识别的焦点图像分别进行过滤，从所述待识别的焦点图像中获得第一焦点候选区域，其中，所述通过帧间差分法对两个所述待识别的焦点图像分别进行过滤包括通过帧间差分法对焦点切换前后的两个页面图像进行比较，过滤掉静止的部分，提取变化的部分；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。