CN102232220A

CN102232220A - 一种视频兴趣物体提取与关联的方法及系统

Info

Publication number: CN102232220A
Application number: CN2010800052097A
Authority: CN
Inventors: 田永鸿; 余昊男; 李甲; 高云超; 张军; 严军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2010-10-29
Filing date: 2010-10-29
Publication date: 2011-11-02
Anticipated expiration: 2030-10-29
Also published as: CN102232220B; WO2011140786A1; EP2587826A1; EP2587826A4; US20130101209A1

Abstract

本发明涉及一种图像和视频处理方法，特别是一种基于两阶段交互的视频兴趣物体提取与关联方法。本方法中，用户通过某种不限于常规方式、先验知识要求低的交互方法进行粗定位交互，在此基础上采用某种快速、易实现的提取算法对兴趣物体进行多参数提取。基于重选择交互出来的最合适的兴趣物体，本方法通过提取多种特征进行检索并加权得到最终结果，从增值信息库中取出对应的图像及附加信息，最后将这些信息展示在视频的周边。本方法在充分挖掘视频信息、保证用户偏好的基础上，以不影响用户观看的方式为其感兴趣的物体关联增值信息，进而满足了用户对其所关注区域深入了解和进一步探索的需求。

Description

一种视频兴趣物体提取与关联的方法及系统

技术领域

本发明涉及图像和视频处理领域，特别是一种视频对象提取方法与关联的方法及系统。

背景技术

随着多媒体技术及网络通信技术的发展，越来越多的视频涌现在互联网上，而播放视频的需求也在迅速增加。在播放视频的时候，许多视频网站和视频软件采用了对视频提供相关附加信息的技术，以使用户获得增强的观看体验。目前，常见的视频内容增强方法着重于提供视频制作者预先定义的增值信息，包括：

时域信息插入。指在视频的开头缓冲、中途暂停或结尾播放一段额外的相关信息。

周边信息关联。指当视频播放时，在视频播放器的周边(如网页、播放器边框)显示增值信息。

叠加信息相关。指在视频的部分内容上叠加附加信息，通常不影响主要部分。

文字信息相关。指将视频链接在文本里，不同文本触发不同的视频。

目前，这四种视频内容增强方法都得到了广泛的应用。优酷(www.youku.com)和Youtube(www.youtube.com)等主要采用第一种和第三种方法，而土豆网(www.tudou.com)主要采用第二种方法，第四种方法被VibrantMedia(www.vibrantmedia.com)采用。然而这些方法的效果通常不太理想，因为它们会对用户正常的观看产生干扰。而这些方式提供的信息通常和视频内容关联程度较低，从而容易被用户忽略。

为了增强增值信息与视频内容的相关程度，现有技术试图通过视频内容自动分析或者用户交互来提供与视频内容相关的信息。例如：

允许用户选择广告，来浏览存储在高速缓存中的广告增值信息的方法，这种方法的前提是对于特定的视频事先提供好相关的广告，具有一定局限性，且提供的广告灵活性不高；

让服务器根据视频的标签查找与该标签相关联的广告，并从查找到的广告中选择一个或多个广告将其插入到所述视频内容的指定位置，然而，视频标签并不能精确描述视频中用户感兴趣的内容，提供的广告虽然大致方向一致，但很多时候属于用户不感兴趣的范围。

上述方法的局限性可以归纳为以下几点：

现有方法提供的增值信息和视频内容关联程度低；自动分析提供的增值信息不具备用户个性化，不能满足用户偏好。

发明内容

为了克服以上的不足之处，本发明实施例提出了一种视频兴趣物体提取与关联方法及系统。可以通过直接对视频内容进行交互以得到用户感兴趣的物体。进而通过兴趣物体关联得到相关的增值信息，以增强视频的观看体验。通过这样的方式，使得用户在不受强迫(non-compelled)的前提下根据自己的兴趣作出选择，充分挖掘了视频本身信息，进而为用户提供了一种新的视频浏览和体验方式。

本发明实施例提供了一种视频兴趣物体提取与关联的方法，所述方法包括：

根据粗定位过程中获得的点信息生成关注度参数，所述关注度参数用于表示视频帧中各区域的受关注程度；

根据视频帧中各区域的关注程度识别出前景区域；

对所述前景区域进行凸包化处理获得候选兴趣物体，根据用户重选择结果确定最优候选兴趣物体；

提取所述最优候选兴趣物体的视觉特征，根据所述视觉特征在图像特征库中检索出最优图像，在增值信息库中匹配出所述最优图像对应的增值信息，并将匹配出的所述增值信息呈现给所述用户。

本发明实施例提供了一种基于两阶段交互的视频兴趣物体提取与关联系统，包括：

基本交互模块用于提供根据粗定位过程中获得的点信息；

兴趣物体提取模块用于根据粗定位过程中用户提供的点信息生成关注度参数，所述关注度参数用于表示视频帧中各区域的受关注程度，根据视频帧中各区域的关注程度识别出前景区域，对所述前景区域进行凸包化处理获得候选兴趣物体；

扩展交互模块用于根据用户重选择结果确定最优候选兴趣物体；

增值信息检索模块用于提取所述最优候选兴趣物体的视觉特征，根据所述视觉特征在图像特征库中检索出最优图像，在增值信息库中匹配出所述最优图像对应的增值信息，并将匹配出的所述增值信息呈现给所述用户。

本发明实施例提供用户一套不限于常规方式的交互装置，给定任意视频，用户可以通过简单的交互选择兴趣物体，并检索相关增值信息，并最终在不影响用户观看的前提下将最终结果呈现出来，以方便用户对感兴趣的视频内容的进一步了解和探索。本发明实施例提供的增值信息和视频内容关联程度高；交互使得用户偏好得到满足，可能为用户提供个性化的服务；交互方法应用场景广泛，简单，不需要先验知识。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例通过的视频兴趣物体提取与关联方法效果图；

图2是本发明实施例提供的视频兴趣物体提取与关联方法流程图

图3是本发明实施例提供的另一种视频兴趣物体提取与关联方法流程图；

图4是本发明实施例提供的兴趣物体提取方法流程图；

图5是本发明实施例提供的候选兴趣物体提取的效果图；

图6是本发明实施例提供的增值信息检索方法流程图；

图7是基于两阶段交互的视频兴趣物体提取与关联系统架构图；

图8是基于两阶段交互的视频兴趣物体提取与关联系统模块图；

图9是视频增值信息关联效果示例图。

具体实施方式

图1展示了本发明实施例通过的视频兴趣物体提取与关联方法效果图。以下通过具体实施例并结合附图对本发明的各方面进行详细描述。

如图2所示，为本发明实施例提供的一种视频兴趣物体提取与关联的方法，包括：

步骤201：根据粗定位过程中获得的点信息生成关注度参数，所述关注度参数用于表示视频帧中各区域的受关注程度；

步骤202：根据视频帧中各区域的关注程度识别出前景区域；

步骤203：对所述前景区域进行凸包化处理获得候选兴趣物体，根据用户重选择结果确定最优候选兴趣物体；

步骤204：提取所述最优候选兴趣物体的视觉特征，根据所述视觉特征在图像特征库中检索出最优图像，在增值信息库中匹配出所述最优图像对应的增值信息，并将匹配出的所述增值信息呈现给所述用户。

如图3所示，为本发明实施例提供的一种视频兴趣物体提取与关联方法流程图。根据在粗定位的首次交互中得到的点信息生成关注度参数，所述关注度参数对应视频帧中各区域的受关注程度，然后划分出前景区域继而处理得到候选兴趣物体。用户从所述候选兴趣物体中选择满意的候选兴趣物体(可以是一个或多个，本发明实施例对此并不限定)，接着系统提取出被选择对象的各种特征(具体的，可以为视频特征)，然后检索图像特征库获得每种特征的相似度，并加权匹配度，最后选取最优的若干个图像及附加信息作为增值信息提供给用户。具体的，本发明实施例中采取基于两阶段交互的方式，粗定位过程和重选择。粗定位过程和重选择所使用到的是一种与视频内容交互的便捷方法，可以在受限制较小的场景下应用，比如三维红外交互、鼠标交互等，优选地，本实施例中采用红外定位交互。

本发明实施例提供的一种基于两阶段交互的兴趣物体提取方法流程图(图4)的主要步骤如下：

步骤401：根据粗定位过程中获得的点信息生成关注度参数。

具体的，在粗定位过程中，可以采用三维红外交互或鼠标交互的方式获取点信息，进一步结合视频特点生成所述关注度参数，在一个实施例中，所述视频特定可以为视频尺寸，根据所述视频尺寸及对应的点信息采用自适应算法生成所述关注度参数。

所述采用三维红外交互或鼠标交互的方式获取点信息的方法具体为：通过鼠标单击，记录用户交互位置从而获得点信息；或，过红外三维定位装置，在三维空间中获得用户交互坐标，进而获得用户的交互位置对应的点信息。

步骤402：将视频帧划分为若干个区域，将所述关注度参数映射到各个视频区域，确定各个视频区域的关注程度。

每一组参数将视频帧划分成若干个区域，并决定了每个区域的受关注程度。具体的，关注度参数可以代表一系列框用来划分视频帧，优选地，可以将受关注程度分为1.0，0.5，0三个等级。

步骤403：以所述关注程度作为辅助因子，统计各个视频区域里像素点的代表特征，获得若干个统计类。

具体的，所述关注程度作为建立统计数据结构的辅助因子，所述统计数据结构的统计对象为视频帧上各像素点的代表特征，在一个具体的实施例中，所述代表特征可以为CIE-LAB颜色特征。

步骤404：将视频帧上的所有像素点依据其代表特征和每个统计类的相似度进行归类。

具体的，各统计类的相似度可以通过多种计算方式获得，例如特征空间的欧拉距离，本发明实施例对此并不加以限制。

步骤405：将各像素点进行归类之后，将受关注程度最大的视频区域作为前景区域，也即感兴趣区域。

步骤406：对所述前景区域进行平滑处理，将平滑后的前景区域凸包化，得到候选兴趣物体。

需要说明的是，本发明实施例对该平滑处理算法及凸包化算法并不加以限制，可以采用现有技术中的多种视频平滑处理及凸包算法。

还需要说明的是，对前景区域进行平滑处理为可选步骤，。将兴趣区域平滑处理从而扩展凸包边界保留原视频帧的边缘特征，可以提高候选步骤中兴趣物体特征提取的准确性。

步骤407：重复步骤402至步骤406，直到关注度参数对应的候选兴趣物体生成。

步骤408：呈现所有的候选兴趣物体。

候选兴趣物体生成后，此时将生成的候选兴趣物体呈现给用户。本发明实施例中，候选兴趣物体提取的效果如图5所示。

本发明实施例提供的兴趣物体检索流程(图6)的主要步骤如下：

步骤601：重选择最优的一个候选兴趣物体。

具体的，步骤601中最优的候选兴趣物体应能反映用户的偏好及较好地将前景部分和背景部分分离开来，优选地，定义候选兴趣物体的分数为其在实际兴趣物体内的区域面积减去在外的区域面积，从而当且仅当候选兴趣物体区域刚好和实际兴趣物体重叠时分数最高，即为最优的候选兴趣物体。

步骤602：包括但不限于颜色、结构、轮廓、纹理特征的提取，并获得相应的特征向量。

步骤602中的特征尽可能从多角度和多层次上反映视频帧的特点，比如全局和局部，颜色和纹理等。在所列例子中，颜色的空间表示法能很好的代表图像的色彩特征，优选地采用HSV(hue、saturation、value，色相、饱和度、亮度)颜色空间。轮廓以及纹理特征能有效地抗击噪声干扰，比如sift特征。结构特征指提取图像的关键点从而获得关键点之间的结构，在一个实施例中，上述结构特征是通过提取对尺度变换、旋转、平移、加噪、颜色及亮度变化鲁棒的不变量来生成的。优选地，在多种方法效果相差不大的情况下，采用速度快、编码简单的方法进行上述特征提取。

本步骤中各特征的特征向量的获取方法如下：

颜色特征：在给定颜色空间中统计兴趣物体的颜色直方图，以获得颜色特征向量，所述颜色特征采用空间表示法。，具体的可以采用较好反映出图像颜色分布的空间标识法。

结构特征：通过关键点提取算法，获取兴趣物体的结构特征向量。所述结构特征具体为通过考察图像局部特征之间的结构数值关系来计算对旋转、尺度变换、平移、加噪、颜色亮度等变化鲁棒性高的面特征。

纹理特征：通过Gabor变换提取兴趣物体纹理，以获得纹理特征向量。

轮廓特征：通过迹变换算法，提取构成兴趣物体的线条，以获取轮廓特征向量。

步骤603：检索图像特征库，计算每种特征的相似度。

相似度计算过程对于不同特征可以采用不同的计算方法，比如直方图求交、欧拉距离等。

步骤604：根据每种特征的先验比重对匹配结果进行加权。

需要说明的是，本步骤为可选步骤，本发明强调多种特征加权，因此不需要为提高单种特征匹配准确性而增加计算复杂性牺牲整体检索效率。每种特征加权的比重由先验知识决定，具体的，在本发明提供的一个实施例中，所有特征比重相同。

步骤605：选取加权匹配度最优的前若干个图像。

步骤606：对选出的图像在增值信息库里查询相应的附加信息。

步骤607：将选出的图像连同其附加信息作为增值信息返回。

需要说明的是，增值信息尽可能包含了这个结果图像的所有信息，在一个实施例中，结果图像作为广告logo，增值信息包括商品名、新旧价格、评价、库存量和网站链接等。

为了兼顾用户视频观赏和检索过程以及加快检索速度，检索过程进行了并行处理。优选地，本实施例采用client-server架构进行步骤603到步骤607的过程。如图7所示，对本实施例中client-server架构进行简要说明：交互处理、兴趣物体提取、特征提取和结果呈现都在client端进行，而当要进行特征匹配时，则将提取出来的特征提交给server端，这样用户可以继续流畅欣赏视频而检索会并行进行。检索完成后，server端返回增值信息。

如图8所示，为本发明实施例提供的一种视频兴趣物体提取与关联系统，包括：

基本交互模块61用于提供根据粗定位过程中获得的点信息；

兴趣物体提取模块62用于根据粗定位过程中用户提供的点信息生成关注度参数，所述关注度参数用于表示视频帧中各区域的受关注程度，根据视频帧中各区域的关注程度识别出前景区域，对所述前景区域进行凸包化处理获得候选兴趣物体；

扩展交互模块63用于根据用户重选择结果确定最优候选兴趣物体；

增值信息检索模块64用于提取所述最优候选兴趣物体的视觉特征，根据所述视觉特征在图像特征库中检索出最优图像，在增值信息库中匹配出所述最优图像对应的增值信息，并将匹配出的所述增值信息呈现给所述用户。

进一步的，所述兴趣物体提取模块62包括：

参数生成子模块621用于根据粗定位过程中获得的点信息生成关注度参数

特征统计子模块622用于根据所述关注度参数，统计视频帧中与所述关注度参数相关的区域里像素点的代表特征；

前景识别子模块623用于将视频帧上的所有像素点依据其代表特征和每个统计类的相似度进行归类，在将各像素点进行归类之后，将受关注程度最大的视频区域作为前景区域；

物体提取子模块624用于使用凸包算法从前景区域中提取兴趣物体。

所述的增值信息检索模块64包括以下子模块：

特征提取子模块641用于提取最优候选兴趣物体的待匹配视觉特征；

特征通讯子模块642用于在服务端和客户端间的传递检索特征；

图像匹配子模块643用于检索图像特征库，计算每种视觉特征的相似度，选择相似度最高的图像作为最优图像；

结果获取子模块644用于在增值信息库中匹配出所述最优图像对应的增值信息；

增值信息通讯子模块645用于在服务端和客户端间的传递增值信息。

本发明实施例提供的视频兴趣物体提取与关联系统模块(图8)有如下数据流动方式(箭头表示)：首先视频流伴随着基本交互模块(61)产生的粗定位点信息流进入参数生成子模块(621)，自适应地生成不同参数，然后分别流经特征统计子模块(622)和前景识别子模块(623)，得到的是一个前景像素点集合，集合再输入到结果呈现子模块(624)，被平滑和凸包操作后输出到系统。扩展交互模块(63)产生的重选择信号流选择合适的候选兴趣物体之后，选择结果输入到特征提取子模块(641)提取各种特征，特征数据流被特征通讯子模块(642)送往图像匹配子模块(643)，检索完之后加权匹配值数据流被送进结果获取子模块(644)，根据加权值进行查询，最后通过增值信息通讯子模块(645)输出给用户相应的图像和附加信息，和当前视频流一起作为增值视频流。

在所有工作完成、增值信息提供之后，用户可以选择增值图像以浏览相关信息，如图9所示，一个实施例的效果示例图如图2所示。

虽然以上有些地方描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如以合并上述方法步骤的方式，按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频兴趣物体提取与关联的方法，其特征在于，所述方法包括：

根据视频帧中各区域的关注程度识别出前景区域；

2.如权利要求1所述的视频兴趣物体提取与关联方法，其特征在于，在粗定位过程中获得点信息包括：

通过鼠标单击，记录用户交互位置对应的点信息；或，

通过红外三维定位装置，在三维空间中获得用户交互坐标，进而获得用户的交互位置对应的点信息。

3.如权利要求1所述的视频兴趣物体提取与关联方法，其特征在于，在根据粗定位过程中获得的点信息生成关注度参数之后，所述方法还包括：

将视频帧划分为若干个区域，将所述关注度参数映射到各个视频区域。

4.如权利要求3所述的视频兴趣物体提取与关联方法，其特征在于，所述根据视频帧中各区域的关注程度识别出前景区域包括：

根据所述关注度参数，统计视频帧中与所述关注度参数相关的区域里像素点的代表特征；

将视频帧上的所有像素点依据其代表特征和每个统计类的相似度进行归类；

将各像素点进行归类之后，将受关注程度最大的视频区域作为前景区域。

5.如权利要求3所述的视频兴趣物体提取与关联方法，其特征在于，所述代表特征的统计方法以所述关注度参数作为建立统计数据结构的辅助因子，所述统计数据结构的统计对象为视频帧上像素点的代表特征

6.如权利要求1所述的视频兴趣物体提取与关联方法，其特征在于，所述视觉特征包括以下至少一种：

颜色特征：在给定颜色空间中统计最优候选兴趣物体的颜色直方图，获得颜色特征向量；

结构特征：通过关键点提取算法，获取最优候选兴趣物体的结构特征向量。

纹理特征：通过Gabor变换提取最优候选兴趣物体纹理，以获得纹理特征向量；

轮廓特征：通过迹变换算法，提取构成最优候选兴趣物体的线条，以获取轮廓特征向量。

7.如权利要求6所述的视频兴趣物体提取与关联方法，其特征在于，所述结构特征具体为通过考察图像局部特征之间的结构数值关系来计算获得的对旋转、尺度变换、平移、加噪、颜色亮度等变化鲁棒性高的面特征。

8.如权利要求1所述的视频兴趣物体提取与关联方法，其特征在于，所述根据所述视觉特征在图像特征库中检索出最优图像包括：

检索图像特征库，计算每种视觉特征的相似度，选择相似度最高的图像作为最优图像。

9.如权利要求8所述的视频兴趣物体提取与关联方法，其特征在于，所述方法还包括：将针对每种视觉特征计算得到的相似度结果根据先验比重进行加权，选取加权结果最优的图像作为最优图像。

10.一种视频兴趣物体提取与关联系统，其特征在于，包括：

基本交互模块用于提供根据粗定位过程中获得的点信息；

11.如权利要求10所述的视频兴趣物体提取与关联系统，其特征在于，所述兴趣物体提取模块包括：

参数生成子模块用于根据粗定位过程中获得的点信息生成关注度参数

特征统计子模块用于根据所述关注度参数，统计视频帧中与所述关注度参数相关的区域里像素点的代表特征；

前景识别子模块用于将视频帧上的所有像素点依据其代表特征和每个统计类的相似度进行归类，在将各像素点进行归类之后，将受关注程度最大的视频区域作为前景区域；

物体提取子模块用于使用凸包算法从前景区域中提取兴趣物体。

12.如权利要求10所述的视频兴趣物体提取与关联系统，其特征在于，所述的增值信息检索模块包括以下子模块：

特征提取子模块用于提取最优候选兴趣物体的待匹配视觉特征；

特征通讯子模块用于在服务端和客户端间的传递检索特征；

图像匹配子模块用于检索图像特征库，计算每种视觉特征的相似度，选择相似度最高的图像作为最优图像；

结果获取子模块用于在增值信息库中匹配出所述最优图像对应的增值信息；

增值信息通讯子模块用于在服务端和客户端间的传递增值信息。