New! View global litigation for patent families

CN106407268A - 一种基于覆盖率最优化法的内容检索方法及系统 - Google Patents

一种基于覆盖率最优化法的内容检索方法及系统 Download PDF

Info

Publication number
CN106407268A
CN106407268A CN 201610727826 CN201610727826A CN106407268A CN 106407268 A CN106407268 A CN 106407268A CN 201610727826 CN201610727826 CN 201610727826 CN 201610727826 A CN201610727826 A CN 201610727826A CN 106407268 A CN106407268 A CN 106407268A
Authority
CN
Grant status
Application
Patent type
Prior art keywords
fingerprints
video
audio
representative
content
Prior art date
Application number
CN 201610727826
Other languages
English (en)
Inventor
汪灏泓
宁广涵
张帜
任小波
Original Assignee
Tcl集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRICAL DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/30Information retrieval; Database structures therefor ; File system structures therefor
    • G06F17/30781Information retrieval; Database structures therefor ; File system structures therefor of video data
    • G06F17/30784Information retrieval; Database structures therefor ; File system structures therefor of video data using features automatically derived from the video content, e.g. descriptors, fingerprints, signatures, genre

Abstract

本发明涉及一种基于覆盖率最优化法的内容检索方法及系统,包括:提取若干数据库存储内容的视频指纹和音频指纹;判断视频帧的代表性视频指纹和音频序列的代表性音频指纹;生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围;根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中;接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息;根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果,并将搜索结果返回给用户。

Description

一种基于覆盖率最优化法的内容检索方法及系统

技术领域

[0001] 本发明涉及信息技术领域,尤其涉及一种基于覆盖率最优化法的内容检索方法及 其系统。

背景技术

[0002] 如今,互联网多媒体资源的可用性和可扩展性发展突飞猛进。因此,音频和视频信 息检索技术的发展和进步变得越来越重要和受追捧。然而,现有的方法往往专注于单独的 视觉内容或音频内容,而缺乏适当的方法来结合视觉和音频信息。

[0003] 实际上,一套处理密集多任务的系统首先需要将用于检索内容的信息尽可能最小 化。尽管音频检索只需要较小的比特率,但由于其是自然的声音,所以相比于信息量更大的 二维视频帧,音频检索响应的时间更长。因此,希望优化比特流从而将比特率最小化,同时 保持良好的检索性能。

[0004] 本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。

发明内容

[0005] 本发明一方面公开了一种内容检索方法。所述方法包括提取若干数据库存储内容 的指纹,包括若干视频指纹和若干音频指纹内容。内容包括与视频指纹相对应的视频帧和 与音频指纹相对应的音频序列。所述方法包括判断视频帧的代表性视频指纹和音频序列的 代表性音频指纹,生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范 围,并且根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据 库中。所述方法还包括接收包含由用户所提交的至少一个音频数据和至少一个视频数据的 查询信息;提取至少一个用于表示查询信息的查询指纹,根据覆盖范围确定与查询指纹最 匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果,并向 用户返回搜索结果。

[0006] 本发明另一个方面公开了一种内容检索系统,包括:视频/音频指纹提取模块,用 于从数据库的存储内容中,提取若干视频指纹和音频指纹;所述内容包括与视频指纹相对 应的视频帧和与音频指纹相对应的音频序列;判断视频帧的代表性视频指纹和音频序列的 代表性音频指纹;以及生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖 范围;指纹数据库,用于根据所述存储限制,存储选中的代表性视频指纹和代表性音频指纹 在;目标查询视频/音频预处理模块,用于接收包含由用户所提交的至少一个音频数据和至 少一个视频数据的查询信息;目标查询视频/音频指纹提取模块,用于提取至少一个用于表 示查询信息的查询指纹;搜索模块,用于根据覆盖范围确定与查询指纹最匹配的若干指纹 以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索 结果。

[0007] 本发明的其他方面可以根据本发明的说明书,权利要求书以及附图进行理解。

附图说明

[0008] 1:图1为本发明实施例中应用环境示意图。

[0009] 2:图2为本发明实施例中计算系统示意图。

[0010] 3:图3为本发明实施例中基于覆盖率最优化法的视频/音频内容检索系统示意图。

[0011] 4:图4为本发明实施例中将视频/音频序列分为不同的视频/音频成分的流程图。

[0012] 5:图5为本发明实施例中多种模块在利用指纹实现覆盖率最优化的视频/音频内 容检索系统中执行的流程图。

[0013] 6:图6为本发明实施例中表示视频/音频内容的指纹示意图。

[00M] 7:图7为本发明实施例中算法中的状态转换示意图。

具体实施方式

[0015] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。除非另 外指出,在各图中相同的参考数字用于相同的部件。

[0016] 多媒体内容的爆炸性增长使其在互联网上越来越容易被获取,因此如何有效地组 织和即时地检索这些内容显得尤为重要。例如,利用搜索引擎只搜索几个单词或段落就显 得非常方便。然而,如果考虑的是一个没有先验知识的感兴趣的视频剪辑,情况就会变得有 所不同,因为用户可能无法在言语上描述它,从而可能导致大部分的工作都变成徒劳。

[0017] 创建一个可靠的内容(如视频)检索系统并不是一件容易的事情。首先,需要综合 通过利用音频或视觉信息进行内容检索。对于音频检索,第一步需要将一系列"特性"隔离 于音频,这组特征即为音频序列的"指纹"。

[0018] 指纹的概念,在音频检索系统中,是为了将含有大量比特的音频对象映射为有限 数量的比特,后者即为所谓的指纹,所述指纹需要有充足的辨识度,以便两个指纹可以被明 显地分开或被认为是互相类似。

[0019] 在视频检索中,视频序列中单个图像帧的辨别度已足够使其在大型数据集中被搜 索到。这使得无论每帧之间的信息是什么,每一帧本身都可以被认为是一个独立的单元。因 此,可以直接使用适当的帧或代表帧进行数据库搜索,而不需要收集所有的连续帧,而冗余 的帧间信息更是没有必要收集。

[0020] 术语"视频指纹"指的是一种技术,在所述技术中,软件先后识别,提取,压缩视频 的特征组件,使视频被所合成的"指纹"唯一确定。所述技术包括关键帧分析、颜色和运动变 化序列分析,功能和对象分析,相机镜头分析等,然后分析结果可被用作视频序列的指纹。

[0021] 由于互联网内容通常涉及音频和视频两方面,本发明提供了一种基于视频/音频 指纹技术的内容检索系统。图1为本发明实施例的工作环境1〇〇。

[0022] 如图1所示,环境100包括用户终端102,服务器104,用户106和网络110,也包括其 他一些设备。用户终端102包括任何合适类型的用户设备,比如电视机(TV),包括等离子电 视机,液晶电视机,投影电视机,非智能或智能电视机。用户终端102包括其他的计算系统, 比如个人电脑(PC),平板或笔记本电脑,或智能手机等。此外,用户终端102可以是任何适当 的能够呈现内容的设备,能够在一个或多个频道呈现多个节目,并能够通过遥控器实现控 制(图中未画出)。

[0023] 服务器104包括任何合适类型的服务器计算机或若干向用户提供个性化内容的服 务器计算机。服务器104也可以促进沟通、数据存储,以及其他服务器和用户终端102之间的 数据处理。用户终端102和服务器104通过一个或多个通信网络110相互通信,比如有线电视 网络、电话网络、和/或卫星网络等。

[0024] 用户106利用用户终端102查询和检索各种内容或观看节目和执行其他感兴趣的 活动,或者如果用户终端102安装了运动传感器或深度照相机,用户就可以简单地使用手或 肢体语言来控制用户终端102。用户106可以是单个用户或多个用户,比如家庭用户。

[0025] 用户终端102,和/或服务器104可以在任何合适的电子计算平台上执行。图2显示 的是能够执行用户终端102,和/或服务器104的计算系统的框图。

[0026] 如图2中所示,计算系统200包括处理器202,存储介质204,显示器206,通信模块 208,数据库214,以及外围设备212。某些设备可被省略,也可以包括其他设备。

[0027] 处理器202包括任何合适的一个或多个处理器。具体的,处理器202包括用于多线 程或并行处理的多个核心。存储介质204包括内存模块,如R0M、RAM、闪存模块,和大容量存 储器,如光盘和硬盘等。存储介质204可以存储由处理器202执行时,实现各种步骤的计算机 程序。

[0028] 此外,外围设备212包括多种传感器和其他的输入/输出设备,比如键盘和鼠标,通 信模块208包括若干网络接口设备,用于在通信网络中建立连接。数据库214包括一个或多 个数据库,用于存储特定的数据,或在存储的数据中执行特定操作,比如数据库检索。

[0029]用户终端102和/或服务器104安装内容检索系统,便于用户106使用。图3显示的是 基于利用指纹技术实现覆盖率最优化概念的内容(如视频和/或音频)检索系统300。

[0030]如图3所示,内容检索系统300包括目标查询视频/音频302,目标查询视频/音频预 处理模块304,目标查询视频/音频指纹提取模块306、搜索模块308,视频/音频数据库310, 视频/音频预处理模块311,视频/音频指纹提取模块312、指纹数据库314,搜索结果316。某 些组件可被省略,也可以增加其他组件。内容检索系统300 (如各种组件)可以应用于硬件, 软件,或者硬件和软件的结合。

[0031] 在执行过程中,内容检索系统300可以创建和存储大量的内容,并创建一个视频/ 音频指纹数据库用于存储内容的指纹。用户可以通过用户终端查询音频和/或视频,从内容 检索系统300中检索出所需的内容。进一步地,应用程序也可以自动查询内容检索系统300, 并从内容检索系统300中检索出相应的内容。

[0032]目标查询视频/音频302包括任何合适类型的视频/音频。目标查询视频/音频302 可以同时包括视频/音频数据和元数据。图4显示的是被分成不同视频组件的视频流。

[0033] 如图4所不,一个视频分为多个场景;一个场景可以分为多个镜头;一个镜头可以 分成多个帧,一个帧又可以进一步分为多个对象。因此,提取视频帧的特点再进一步进行处 理。而音频数据可以单独显示,或者与视频数据一起显示。

[0034] 请继续参阅图3,目标查询视频/音频处理模块304用于转换视频/音频信号,消除 噪音,重采样以及过滤目标查询视频/音频。目标查询视频/音频处理模块304可以安装于用 户终端102内部或者外部,由特定的应用程序而定。

[0035]目标查询视频/音频指纹提取模块306用于提取指纹,所述指纹表示由目标查询视 频/音频302获取的查询视频帧或音频序列。例如,目标查询视频/音频指纹提取模块306使 用一个预先设计的特征提取算法提取目标查询视频帧的特征以代表目标查询视频帧的特 征信息,和/或使用一个预先设计的音频特征提取算法提取查询音频序列的特征。即,视频 特征和音频特征可以同时或单独被提取。

[0036] 此外,搜索模块308用于计算查询指纹和选定指纹之间的相似性,然后从最优化覆 盖范围内的指纹数据库314中寻找与查询指纹相匹配的指纹,以便找出一个或多个最相似 的指纹。

[0037] 此外,视频/音频数据库310或内容数据库310包含任何合适的数据库以存储视频/ 音频序列和/或视频/音频序列的元数据,所述元数据即为基于查询视频/音频检索的内容。 [0038] 视频/音频预处理模块311的功能类似于目标查询视频/音频预处理模块304的功 能。视频/音频预处理模块311用于转换视频/音频信号、降噪、重采样和过滤存储在视频/音 频数据库310中的视频/音频序列。

[0039] 视频/音频指纹提取模块312用于从存储在视频/音频数据库310的若干音频或视 频帧序列中提取若干视频/音频指纹。更具体的,视频/音频指纹提取模块312使用预先设计 的与目标查询视频/音频指纹提取模块306相同的特征提取算法,从若干视频/音频帧中提 取视频/音频指纹。即,可以在查询内容检索系统300中同时或分别使用视频或音频特征。

[0040] 指纹数据库314用于存储从大量视频/音频序列中提取的视频/音频指纹和相应的 元数据,如视频/音频的标题。

[0041] 搜索结果316由搜索模块308输出。即,根据从查询视频/音频提取模块306和指纹 数据库314获得的信息,搜索模块308会在指纹数据库314中获取与提取指纹匹配的指纹,并 生成搜索结果316。

[0042]图5显示的是本发明实施例中多种模块在利用指纹实现覆盖率最优化的视频/音 频内容检索系统300中执行的流程图。

[0043]如图5所示,首先,根据预先设计的算法(S502)提取用于检索而存储的视频/音频 内容的指纹。更具体的,视频/音频内容数据库中的每一个视频/音频序列会首先被分成若 干视频帧和音频序列。

[0044] 因为视频是视频帧序列,连续视频帧之间的变化相对于典型的视频帧速率较小 (如25帧/秒),因此不会单独处理每一帧,而是使用一些分组或集群技术将整个视频分割为 不同的帧组,并且每一组含有类似的帧以便进一步处理。具体的,代表性的帧用于代表类似 的帧。同样的,音频内容也被分为音频序列组,代表性序列用于代表类似的音频序列。

[0045] 下一步,提取视频帧和音频序列的指纹。视频/音频指纹可以作为唯一标识视频/ 音频信号的特征信息。一般的,每个视频/音频指纹对应于特定的一段视频/音频。图6显示 的是本发明实施例中的视频和音频指纹。

[0046] 如图6所示,对于视频帧,指纹是固定大小的特征向量,而对于音频段落,指纹是一 组固定大小的特征点。对于音频和视频内容而言,上述的指纹也可以用来表示已经存储的, 用于检索的视频帧及音频段落。

[0047] 进一步的,生成代表性视频指纹和代表性音频指纹(S504)。其中,代表性视频指纹 代表视频帧和代表性音频指纹代表音频序列。为内容检索服务生成内容检索系统300的数 据速率上限和覆盖范围(S506)。

[0048] 为了在最低数据率存储要求下,达到基于这些视频和音频指纹的目标内容的预期 检索精度,内容检索系统300提供基于根据从所述精度转换而来的覆盖率的搜索服务。在实 施例中,数据速率表示存储代表性视频和音频指纹的存储限制,覆盖范围表示返回的若干 搜索结果或作为搜索结果返回的若干代表性指纹。

[0049] 视频和音频代表的数量分别用和表示。对于视频帧,指纹是固定大小的特征向量, 因此每个视频代表的成本是相等的量,在这里用常数表示。而音频指纹是均匀密度分布的 自然要点,经过预处理获得音频片段,其中要点的数量是相等的。因此,对于每一个音频段, 选择代表性音频帧的比特率成本也是统一的,这里用另一个常数表示。数据速率指用于提 供服务的数据存储总量,即总比特数,由R表示。

[0050] R = BvXNv+BaXNa (1)

[0051] 因此,要解决的一个问题是在给定的比特率上限Rbudget,下,

[0052] 获得查询准确性At的最大值。其中,如果检索到满意的结果,At = 1,否则At = 0。由 于从用户输入的查询中进行选择是一个随机过程,所以要根据所有可能的查询评估查询精 度的期望值。精度的期望值可以被定义为:

[0053]

Figure CN106407268AD00091

(2)

[0054] 因此,原问题可以转换为以下公式计算:

[0055] Maximize E (A) s.t.R^iRbudget (3)

[0056] 在内容检索系统300中,在查询过程之前,从视频帧和音频片段中选择一定数量的 指纹分别作为视频和音频的代表。每个代表在特征空间中保存一组与K最邻近算法。在每次 查询中,最相似的代表组可作为查询结果返回。实际上,如果正确的帧包含在最大值为K的 组中,查询结果被视为满意,其中K是用户能够容忍的每次查询返回的结果数。即,如果查询 帧在任何代表帧的K最邻近算法中,查询结果被认为是正确的,即,精度为1。

[0057] 根据上述定义的结果满意度和正确性,基于数据集表示法,可以使用新的标准评 估查询性能。即,将估计精度转换为覆盖范围,即数据库中视频帧和音频片段的数量是正确 的,或者说,在特定代表的K最邻近算法中。覆盖范围是这些代表的属性,表示为C。

[0058] 因此,方程⑶可以转换为:

[0059] Maximize C,s.t.R^iRbudget (4)

[0060] 其中C表示数据集中代表的融合覆盖,通过重量控制参数α协调视频Cv和音频CA覆 盖之间的平衡:

[0061]

Figure CN106407268AD00092

(5)

[0062] 其中ae [0,1],根据实验结果为不同的媒体源选择不同的值。

[0063] 因此,给定的代表数量所确定的最大覆盖和大部分K点可以通过一个名为磁盘覆 盖问题的优化过程得出。具体的,为了找到基于Να和Nv的最大覆盖,可以使用RKCP3算法进行 优化。

[0064] RKCP3算法旨在解决磁盘部分覆盖问题:已知具有相同半径r的k磁盘,部分覆盖问 题研究的是k磁盘的中心位置以便覆盖η个总点的大部分。

[0065] 在最大范围的背景下,问题是找到总视频帧中覆盖大部分帧的视频代表的数量 Νν,和找到总音频片段中覆盖大部分片段的音频代表的数量Να。半径r是由用户容忍度的全 局约束决定以提供K最邻近算法,即,半径由每个代表的最大覆盖范围所限制,对于整个数 据库来说,是固定值。

[0066] 设每个点vieV,Gi (Ei,分别地)表示距离Vi点r (3r,分别地)范围内的点集。Gi的点 集被称为半径r的代表和E1的点集为相应的半径3r的扩展代表。覆盖大多数视频帧或音频 片段的RKCP3算法程序可以被描述为如下的原始3-近似算法,具体如下。

[0067] 构建所有的代表和相应的扩展代表

[0068] For i = l,.",k,do

[0069] SGi为最重要的代表,即包含了大部分覆盖的帧或片段。

[0070] 在相应的扩展代表Ei*将其标记为已覆盖的所有帧/片段。

[0071] 更新所有的代表和扩展代表,即,除去所有已覆盖的帧/片段。

[0072] Return {Gi,G2,…,Gk}

[0073] 上述算法即为3-近似算法,而这个问题的时间复杂度可以表示为0 (k · η)。

[0074] 因此,最大覆盖只由代表的数量决定,因此,我们有:

Figure CN106407268AD00101

[0077] 其中fv (Νν)和fA (Να)分别为视频//音频的最优化过程。

[0078]因此,方程⑷可以重新定义为:

[0079]

Figure CN106407268AD00102

[0080] 使得:Βν X Nv+Ba X Να 彡 Rbudget ⑶

[0081] 优化问题(8)的解可以使用拉格朗日乘子法推导以放宽比特率限制,以便于使用 最短路径算法来解决松弛问题。首先,拉格朗日成本函数可以表示为:

[0082] Ja (Νν, Να) = (〇f ν (Νν) + (1-α) f α (Να) ) +λ (Βν X Nv+Ba X Να) (9)

[0083] 其中λ被称为拉格朗日乘子,如果存在Ρ则

Figure CN106407268AD00103

并推出R=Rbudget,其中{Ν/,/}是解决问题⑶的最优化方法。因此,如果可以找到最大值的 最优化方法,则最优V以及与约束问题⑶相似的问题也可以解决。

[0084] 此外,为了计算最大的J,每个状态需要Νν和Να在同一时刻的状态。已知节点元组 (i,j)表示为最短路径空间中的状态(Νν,Να),从在先的状态p k-i引出了两条路径,用pk表示。 图7显示的是从在先状态到当前状态的转换过程。因此,从(0,0)到终止状态0^;,可 以根据二维DAG最短路径算法,使用动态规划求解问题⑶的最优解。

[0085] 在动态编程下,解决优化问题(8),需要构建一个成本函数T(pk),表示包括状态空 间中状态(i,j)的成本:

[0086] T (pk) =max {afv ⑴ + (I-α) fA (j) +λ (Βν X i+BA X j)} (10)

[0087] 子问题fv和fA,最大化视频和音频覆盖的优化问题,分别已知Nv和Να。通过观察发 现,尽管代表帧的选择与在先的状态无关,但是增量成本表示为:

[0088]

Figure CN106407268AD00104

[0089] 其独立于在先的状态PQ,P1,…,Pk- 2的选择,因此,成本方程为:

[0090] T (Pk) =max (T (Pk-1) + Δ (Pk-丄,Pk)) (12)

[0091] 可以使用DP算法解决。

[0092]因此,在预定的数据速率限制与所需的内容检索精度内(如精度是1或包含正确的 搜索结果),确定所需的或最大的覆盖,即所谓的覆盖率优化。

[0093] 请继续参阅图5,数据速率和覆盖范围被确定后,将数据速率需求内的视频指纹和 音频指纹存储于指纹数据库(S508)。指纹数据库表现为搜索树的形式,或其他适当的数据 结构,同时可以被索引。并将视频/音频内容的若干视频/音频代表指纹和相应的元数据(如 视频/音频标题)存储于指纹数据库。

[0094] 将视频/音频内容的代表指纹存储在指纹数据库之后,内容检索系统300完成服务 设置阶段,准备提供查询服务和内容检索服务。更具体地,在操作过程中,接收目标查询视 频/音频序列(S510)。可以分别或者同时收到和处理视频和音频查询。

[0095] 收到查询后,从目标查询视频/音频序列中至少提取一个指纹(S512)。提交的查询 (视频/音频)包括任何合适类型的视频/音频内容来源以及包含各种视频/音频源。查询视 频/音频内容包括视频/音频数据和元数据。若干帧与提交的查询视频相关,并用于指纹提 取,类似地,音频序列与提交的查询音频有关,并用于指纹提取。具体的,因为内容检索系统 300提供了响应用户查询的服务,用于内容检索,并根据相同的指纹提取算法将存储内容 (视频/音频)和查询转换成了视频帧和音频片段的指纹。

[0096] 此外,使用至少一个目标查询视频/音频指纹,在预定的范围内,在指纹数据库中 搜索视频/音频内容的匹配项(S514)。所述至少一个查询指纹包括视频查询指纹和音频查 询指纹,且匹配者根据视频查询指纹或音频查询指纹实现。在实施例中,视频查询指纹和音 频查询指纹都可以用于匹配。进一步的,可以包括多个视频查询指纹和/或多个音频指纹查 询。

[0097] 在匹配过程中,视频/音频内容的总K值或与大部分查询视频/音频指纹匹配的内 容代表由搜索结果决定,其中K是基于预定覆盖的内容总数,或基于预定覆盖的代表指纹的 总数。

[0098] 此外,返回K个搜索结果(S516)。例如,返回搜索结果的K数量给用户,也可以各种 显示格式呈现给客户。用户可以从搜索结果中选择所需的视频/音频内容并呈现给用户。内 容检索系统300接收用户选择和检索视频/音频内容并下载给用户(S518)。用户的选择即为 对搜索精度的确认,将这样的信息反馈到算法以便进一步的优化。

[0099] 因此,在最优化的查询精度中考虑比特率的上限,通过使用多媒体内容检索系统 的框架,提供一种优化方法将非确定性多项式难题转换为多项式时间可解的优化问题。通 过应用这个框架,可以大大节省存储空间和传输时间,同时根据内容查询任务,提供所需的 检索性能。

[0100] 应该注意的是,视频/音频检索系统的概念和方法可以扩展到其他服务。例如,在 智能电视系统和/或智能终端上集成本发明的视频/音频检索方法和系统来帮助组织和共 享信息,所述信息有利于协助检测和删除某些网站数据库中版权侵权或感知相同的视频/ 音频内容,并且防止用户未来在这些网站的任何上传行为,只接受经过鉴定或识别的图像 和/或音频,等等。进一步地,视频/音频指纹也可以用于广播监控(如广告监测、新闻监控) 和通用媒体检控。广播监控解决方案使用播放列表通知内容提供者和内容所有者应该何时 何地使用他们的视频/音频内容。

[0101] 本发明公开的系统和方法可适用于其他具有显示器的设备,如智能手机、平板电 脑,个人电脑,只能手表等,实现视频/音频检索。本发明具体实施例所述的方法仅用于解 释,相类似的想法和实现方法均可以应用于其他不同的系统中,将本发明所述系统和方法 应用于不同领域,进行改进,替换,调整或者相当于本发明所公开的具体技术实施方案都是 本领域普通技术人员不需要通过创造性劳动就能实现的。

Claims (20)

1. 一种内容检索方法,其特征在于,所述方法包括: 从数据库的存储内容中,提取若干视频指纹和音频指纹;所述存储内容包括与视频指 纹相对应的视频帧和与音频指纹相对应的音频序列; 判断视频帧的代表性视频指纹和音频序列的代表性音频指纹; 生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围; 根据所述存储限制,将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库 中; 接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息; 提取至少一个用于表示查询信息的查询指纹; 根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指 纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 接收搜索结果中用户的选择项目;以及在数据库中检索与所述选择项目相对应的内 容。
3. 根据权利要求1所述的方法,其特征在于, 所述至少一个用于表示查询信息的查询指纹包括:视频查询指纹和音频查询指纹;以 及所述最匹配的指纹与视频查询指纹或者音频查询指纹相匹配。
4. 根据权利要求1所述的方法,其特征在于, 所述视频指纹是视频帧的固定大小的特征向量;以及所述音频指纹是音频序列的密度 分布的固定数量的原始关键点。
5. 根据权利要求1所述的方法,其特征在于, 使用预设的指纹提取算法从查询信息中提取所述视频指纹和音频指纹,所述预设的指 纹提取算法与所述从数据库的存储内容中提取视频指纹和音频指纹的算法相同。
6. 根据权利要求1所述的方法,其特征在于,所述生成表示存储限制的数据比率和表示 所返回的搜索结果数量的覆盖范围的步骤具体包括:根据覆盖率最优化法,生成表示存储 限制的数据比率和表示所返回的搜索结果数量的覆盖范围。
7. 根据权利要求6所述的方法,其特征在于,所述生成数据比率和覆盖范围的步骤具体 包括:所述存储限制是由代表性视频指纹和代表性音频指纹的总数量确定的存储空间。
8. 根据权利要求6所述的方法,其特征在于,所述覆盖范围是指在用户接受范围内返回 的搜索结果数量,所述搜索结果包含正确的搜索结果。
9. 根据权利要求6所述的方法,其特征在于,所述覆盖率最优化法是指在给定的存储限 制下,寻找最大的,包含正确的搜索结果的覆盖范围。
10. 根据权利要求9所述的方法,其特征在于,所述覆盖率最优化法通过如下算式计算 所述最大的覆盖范围: NV,NA、
Figure CN106407268AC00021
' . 7 .^#:BvXNv+BAXNA^Rbudget 其中,Nv和Να分别表示代表性视频指纹和代表性音频指纹;fv (Nv)和fA (Να),分别表示视 频和音频的最优化过程,所述a e [〇,1; Βν和Βα分别表示每个视频代表性指纹和音频代表性 指纹的大小;Rbudget表示数据速率。
11. 一种内容检索系统,其特征在于,包括:视频/音频指纹提取模块,用于从数据库的 存储内容中,提取若干视频指纹和音频指纹;所述内容包括与视频指纹相对应的视频帧和 与音频指纹相对应的音频序列; 判断视频帧的代表性视频指纹和音频序列的代表性音频指纹; 以及生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围; 指纹数据库,用于根据所述存储限制,存储选中的代表性视频指纹和代表性音频指纹; 目标查询视频/音频预处理模块,用于接收包含由用户所提交的至少一个音频数据和 至少一个视频数据的查询信息; 目标查询视频/音频指纹提取模块,用于提取至少一个用于表示查询信息的查询指纹; 搜索模块,用于根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所 述最匹配的指纹所表示的匹配内容的搜索结果;以及向用户返回搜索结果。
12. 根据权利要求11所述的内容检索系统,其特征在于,所述搜索模块还用于: 接收搜索结果中用户的选择项目;以及在数据库中检索与所述选择项目相对应的内 容。
13. 根据权利要求11所述的内容检索系统,其特征在于,所述至少一个用于表示查询信 息的查询指纹包括:视频查询指纹和音频查询指纹;以及所述最匹配的指纹与视频查询指 纹或者音频查询指纹相匹配。
14. 根据权利要求11所述的内容检索系统,其特征在于, 所述视频指纹是视频帧的固定大小的特征向量;以及所述音频指纹是音频序列的密度 分布的固定数量的原始关键点。
15. 根据权利要求11所述的内容检索系统,其特征在于,使用预设的指纹提取算法从查 询中提取所述视频指纹和音频指纹; 所述预设的指纹提取算法与所述从数据库的存储内容中提取视频指纹和音频指纹的 算法相同。
16. 根据权利要求11所述的内容检索系统,其特征在于,所述视频/音频指纹提取模块 具体用于:根据覆盖率最优化法,生成表示存储限制的数据比率和表示所返回的搜索结果 数量的覆盖范围。
17. 根据权利要求16所述的内容检索系统,其特征在于,所述存储限制是由代表性视频 指纹和代表性音频指纹的总数量确定的存储空间。
18. 根据权利要求16所述的内容检索系统,其特征在于,所述覆盖为在用户接受范围内 返回的搜索结果数量,所述搜索结果包含正确的搜索结果。
19. 根据权利要求16所述的内容检索系统,其特征在于,所述覆盖率最优化法为在给定 的存储限制下,寻找最大的,包含正确的搜索结果的覆盖范围。
20. 根据权利要求19所述的内容检索系统,其特征在于,所述覆盖率最优化法通过如下 算式计算所述最大的覆盖范围:
Figure CN106407268AC00031
'使得:Bv X Nv+Ba X Na< Rbudget 其中,Nv和Να分别表示代表性视频指纹和代表性音频指纹;fv (Nv)和fA (Να),分别表示视 频和音频的最优化过程,所述a e [〇,1; Βν和Βα分别表示每个视频代表性指纹和音频代表性 指纹的大小;以及Rbudget表示数据速率。
CN 201610727826 2015-08-25 2016-08-25 一种基于覆盖率最优化法的内容检索方法及系统 CN106407268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14835004 US9836535B2 (en) 2015-08-25 2015-08-25 Method and system for content retrieval based on rate-coverage optimization

Publications (1)

Publication Number Publication Date
CN106407268A true true CN106407268A (zh) 2017-02-15

Family

ID=58004523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201610727826 CN106407268A (zh) 2015-08-25 2016-08-25 一种基于覆盖率最优化法的内容检索方法及系统

Country Status (2)

Country Link
US (1) US9836535B2 (zh)
CN (1) CN106407268A (zh)

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4677466A (en) * 1985-07-29 1987-06-30 A. C. Nielsen Company Broadcast program identification method and apparatus
EP1756693A1 (en) * 2004-05-28 2007-02-28 Philips Electronics N.V. Method and apparatus for content item signature matching
EP2168061A1 (en) * 2007-06-06 2010-03-31 Dolby Laboratories Licensing Corporation Improving audio/video fingerprint search accuracy using multiple search combining
US8959108B2 (en) * 2008-06-18 2015-02-17 Zeitera, Llc Distributed and tiered architecture for content search and content monitoring
US20090063277A1 (en) * 2007-08-31 2009-03-05 Dolby Laboratiories Licensing Corp. Associating information with a portion of media content
US8438174B2 (en) * 2007-12-21 2013-05-07 Georgetown University Automated forensic document signatures
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
US8503991B2 (en) * 2008-04-03 2013-08-06 The Nielsen Company (Us), Llc Methods and apparatus to monitor mobile devices
US9639531B2 (en) * 2008-04-09 2017-05-02 The Nielsen Company (Us), Llc Methods and apparatus to play and control playing of media in a web page
WO2009140819A1 (en) * 2008-05-21 2009-11-26 Yuvad Technologies Co., Ltd. A system for facilitating the search of video content
US8577077B2 (en) * 2008-05-22 2013-11-05 Yuvad Technologies Co., Ltd. System for identifying motion video/audio content
WO2009140823A1 (en) * 2008-05-22 2009-11-26 Yuvad Technologies Co., Ltd. A method for identifying motion video/audio content
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US20100268628A1 (en) * 2009-04-15 2010-10-21 Attributor Corporation Managing controlled content on a web page having revenue-generating code
US8195689B2 (en) * 2009-06-10 2012-06-05 Zeitera, Llc Media fingerprinting and identification system
US8860883B2 (en) * 2009-11-30 2014-10-14 Miranda Technologies Partnership Method and apparatus for providing signatures of audio/video signals and for making use thereof
US8542869B2 (en) * 2010-06-02 2013-09-24 Dolby Laboratories Licensing Corporation Projection based hashing that balances robustness and sensitivity of media fingerprints
US9047516B2 (en) * 2010-06-18 2015-06-02 Verizon Patent And Licensing Inc. Content fingerprinting
US9047371B2 (en) * 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
US8768003B2 (en) * 2012-03-26 2014-07-01 The Nielsen Company (Us), Llc Media monitoring using multiple types of signatures
US8924476B1 (en) * 2012-03-30 2014-12-30 Google Inc. Recovery and fault-tolerance of a real time in-memory index
US9703932B2 (en) * 2012-04-30 2017-07-11 Excalibur Ip, Llc Continuous content identification of broadcast content
WO2014089417A3 (en) * 2012-12-07 2014-07-31 Digimarc Corporation Physical context and cookies
US9323840B2 (en) * 2013-01-07 2016-04-26 Gracenote, Inc. Video fingerprinting
US8713600B2 (en) * 2013-01-30 2014-04-29 Almondnet, Inc. User control of replacement television advertisements inserted by a smart television
WO2014165304A1 (en) * 2013-04-05 2014-10-09 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
US20150163545A1 (en) * 2013-12-11 2015-06-11 Echostar Technologies L.L.C. Identification of video content segments based on signature analysis of the video content
US9668020B2 (en) * 2014-04-07 2017-05-30 The Nielsen Company (Us), Llc Signature retrieval and matching for media monitoring
US9894413B2 (en) * 2014-06-12 2018-02-13 Google Llc Systems and methods for locally detecting consumed video content
US20150371677A1 (en) * 2014-06-19 2015-12-24 BrightSky Labs, Inc. User interface for video editing system
US9872088B2 (en) * 2015-03-05 2018-01-16 Google Llc Monitoring and reporting household activities in the smart home according to a household policy
US9740775B2 (en) * 2015-03-13 2017-08-22 TCL Research America Inc. Video retrieval based on optimized selected fingerprints

Also Published As

Publication number Publication date Type
US20170060862A1 (en) 2017-03-02 application
US9836535B2 (en) 2017-12-05 grant

Similar Documents

Publication Publication Date Title
US7356830B1 (en) Method and apparatus for linking a video segment to another segment or information source
US20130160038A1 (en) Audio Fingerprint for Content Identification
US20080183698A1 (en) Method and system for facilitating information searching on electronic devices
US20080247610A1 (en) Apparatus, Method and Computer Program for Processing Information
US20120079380A1 (en) Systems and methods for managing interactive features associated with multimedia content
US8296797B2 (en) Intelligent video summaries in information access
US20120113121A1 (en) Aligning and summarizing different photo streams
US20120291072A1 (en) System and Method for Enhancing User Search Results by Determining a Television Program Currently Being Displayed in Proximity to an Electronic Device
US20080235393A1 (en) Framework for corrrelating content on a local network with information on an external network
US20120027256A1 (en) Automatic Media Sharing Via Shutter Click
US20080021710A1 (en) Method and apparatus for providing search capability and targeted advertising for audio, image, and video content over the internet
US9087049B2 (en) System and method for context translation of natural language
WO2011009101A1 (en) Estimating and displaying social interest in time-based media
US8959037B2 (en) Signature based system and methods for generation of personalized multimedia channels
US20120078691A1 (en) Systems and methods for providing multimedia content editing and management tools
US20090063561A1 (en) Media management based on derived quantitative data of quality
US20140101551A1 (en) Stitching videos into an aggregate video
EP1244309A1 (en) A method and microprocessor system for forming an output data stream comprising metadata
US9330189B2 (en) System and method for capturing a multimedia content item by a mobile device and matching sequentially relevant content to the multimedia content item
US20150143239A1 (en) Multi-view audio and video interactive playback
WO2014145929A1 (en) Systems and methods for addressing a media database using distance associative hashing
US20120317136A1 (en) Systems and methods for domain-specific tokenization
US20140101691A1 (en) Method and system for automatic tagging in television using crowd sourcing technique
US9176987B1 (en) Automatic face annotation method and system
US20130343598A1 (en) Systems and methods for associating electronic content

Legal Events

Date Code Title Description
C06 Publication
SE01