CN104205859B - 多媒体流的同步 - Google Patents

多媒体流的同步 Download PDF

Info

Publication number
CN104205859B
CN104205859B CN201380016892.8A CN201380016892A CN104205859B CN 104205859 B CN104205859 B CN 104205859B CN 201380016892 A CN201380016892 A CN 201380016892A CN 104205859 B CN104205859 B CN 104205859B
Authority
CN
China
Prior art keywords
terminal
media stream
ray
sync bit
original audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380016892.8A
Other languages
English (en)
Other versions
CN104205859A (zh
Inventor
Q-k-n.东
Y.莱格拉斯
C.豪森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
InterDigital Madison Patent Holdings SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN104205859A publication Critical patent/CN104205859A/zh
Application granted granted Critical
Publication of CN104205859B publication Critical patent/CN104205859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4122Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/607Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for more than one sound signal, e.g. stereo, multilanguages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

这种用于对在第一终端上呈现的第一多媒体流和在第二终端(6)上呈现的第二多媒体流进行同步的方法包括根据第一流的原始音频序列生成原始音频指纹的步骤,并且还包括以下步骤:a)根据第一流的第一序列(52)生成(56)第一音频指纹;b)在第一指纹与原始指纹之间进行比较(58)以便获得一个或更多的第一同步位置(P1);c)使第一序列(52)与位于第一同步位置(P1)周围的原始序列中的一个或更多的片段相关(60)以便获得第二同步位置(P2);d)使用第二同步位置(P2)在第二终端上呈现第二流。

Description

多媒体流的同步
技术领域
本发明一般涉及源自不同多媒体源和/或使用不同传输协议传送并且在至少一个呈现设备上恢复的多媒体流的处理。
更具体地,本发明处理这样的多媒体流的同步。例如,具体地,其寻求在第二屏幕电视情况下的应用,其中,有关的内容同时呈现在个人终端和电视机上。
因此,本发明涉及一种用于对多媒体数据流进行同步的方法、设备和系统。本发明还涉及一种实现本发明的方法的计算机程序。
背景技术
可以实行在这部分中描述的方法,但是其不一定是先前已经构思或实行的方法。因此,除非在本文中另外指示,在这部分中描述的方法不是针对本申请中的权利要求的现有技术,并且不承认通过包括这部分中而成为现有技术。
广播和宽带IP网络的互补性对混合交付模型敞开了大门,在混合交付模型中利用每种网络的实力来提供个性化电视服务。这种交付模型已经被大量参与者利用在电视场景中。消费者装备的制造商提供了合并对追赶电视(catch-up TV)、增强节目指南和因特网视频的宽带访问的“联网电视(Connected TV)”。
诸如HbbTV(混合广播宽带电视)和YouView等发起者聚集了广播者、内容提供者和因特网服务提供者,设法定义标准化方法来提供混合广播宽带服务。虽然早在2009年12月就已经推出了第一个HbbTV服务,但是当前的混合电视服务部署仍未利用因特网的全部潜力来交付媒体内容,并且仍然有相当大的进一步创新的潜力。
通过将广播交付用于流行节目的大量分发并且将宽带交付用于长尾和点播内容,组合交付模型良好地适用于将个性化的增值电视服务提供给大量订户。
诸如平板或者智能电话这样的配套终端变成良好地被建立为用于消耗链接到电视广播者的个性化内容的“电视伙伴(TV buddies)”。
在C.Howson等人的“Second Screen TV Synchronization”(2011IEEEInternational Conference on Consumer Electronics)的文章中,设想了第二屏幕使用情况,其中,通过宽带携带链接到广播节目的替代音频或视频内容,从而使得进行个性化并且缓和广播网络带宽上的负担。
这种服务的一个示例使用户能够在手持设备上选择其偏好的音频声轨来为在电视机上所显示的广播视频伴奏。主音频和视频成分通过广播网络交付,而在需要时通过因特网可以得到若干其它语言。
另一种这样的服务将使用户能够选择关于体育或音乐事件的宽带交付的替代视图,并且结合在电视机上显示的广播内容,将其呈现在用户的平板上。
如果这种第二屏幕服务的用户体验要成为可接受的,则通过宽带网络和广播网络分开交付的媒体成分需要在精确同步的情况下呈现。
虽然现有混合电视服务对于交互式应用确实采用触发机制,但是它们未合并例如将允许通过因特网交付的替代声轨自动并且精确地与广播视频成分同步的技术。
以上所引用的论文提出了一种用于第二屏幕个性化电视服务的部署的系统,其使得通过宽带网络和广播网络独立交付的内容成分的呈现能够在用户设备中得以同步。在该论文中公开的方案基于添加与通过广播网络并且在某些情况下还通过宽带网络交付的每组媒体成分相关联的辅助成分时间轴。该时间轴成分传递与每个事件有关的同步信息,并且用于调整媒体内容的呈现。
然而,在上述论文中公开的方案不是直接方案,因为其需要将签名(亦即,时间轴成分)嵌入到原始的媒体内容中。
发明内容
本发明提出一种用于改善所述情况的方案。
相应地,本发明提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步方法,包括根据所述第一多媒体流的原始音频序列生成原始音频指纹的预备步骤,并且还包括以下步骤:
a)接收所述第一多媒体流的音频数据的第一序列;
b)根据所述第一序列生成第一音频指纹;
c)在所述第一音频指纹与所述原始音频指纹的块之间进行比较,以便获得所述原始序列中的一个或更多的第一同步位置;
d)使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段(piece)相关,以便获得所述原始序列中的仅仅一个第二同步位置;以及
e)使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
通过组合对采指纹和互相关(cross-correlation)技术的使用,本发明的方法提供一种在不修改多媒体流的情况下在非常短的时间内的多媒体流的精确同步。更准确地,允许精确标识第一多媒体流中的呈现位置(亦即,从开始呈现起经过的时间),使得第二终端可以在正确时刻从内容服务器请求与第一流同步的第二流。
即使在通过比较指纹找到良好匹配的情况下,采指纹也提供具有在帧的等级上的精度的第一同步位置,亦即,粗略同步位置,因为对所考虑的序列的每个音频帧计算指纹,同时,所述相关允许将精度提高到样本的等级,亦即,第二同步位置比第一同步位置更精确。
有利地,所述相关使用具有相位变换的广义互相关技术。
例如在M.S.Brandstein和H.F.Silverman的论文“A robust method for speechsignal time-delay estimation in reverberant rooms”(Proc.IEEE Int.Conf.onAcoustics,Speech,and Signal Processing(ICASSP),1997年,第375-378页)中描述了该技术,其也被称为GCC-PHAT。
对该技术的使用,其中在频域中执行广义互相关,提高同步能力高于噪声,同时在计算上开销不大。
有利地,所述方法包括以下步骤:在所述第一终端上呈现所述第一序列的同时,所述第二终端在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列。
有利地,所述第一持续时间短于5秒,优选地包括在0.5与3秒之间。
通过使用这种短记录,在非常短的时间内首先执行所述同步。因此,在多数情况下,用户不必等待大量时间来获得在第二终端上的呈现服务。
优选地,通过计算所述第一序列和所述原始序列的指纹的对之间的距离来比较所述第一音频指纹和所述原始音频指纹。
例如,所计算的距离是欧几里德距离或汉明距离。
有利地,如果在步骤d)未获得第二同步位置,则所述方法还包括接收所述第一多媒体流的音频数据的第二序列的新步骤,并且其中,单独使用第二序列或者使用第一序列和第二序列的组合而不是第一序列来重复步骤b)至d)。
优选地,所述第二终端在第二持续时间期间捕获所述第二序列。
根据第一实施例,所述第二终端与所述第一终端相同。
在该情况下,所述第一多媒体流和所述第二多媒体流都呈现在同一终端上,如同例如在“画中画(Picture in Picture)”服务的情况下的那样。
根据第二实施例,所述第二终端与所述第一终端不同。
在该情况下,所述第一多媒体流和所述第二多媒体流呈现在两个分离的显示设备上,所述第二终端从然后被认为是在呈现时间内的主设备的第一个捕获声音。
有利地,所述方法还包括使用所述第二同步位置在所述第二终端上呈现所述第二多媒体流的步骤。
本发明还提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步系统,包括所述第一和第二终端,并且还包括:
-第一处理器,用于根据所述第一多媒体流的原始音频序列生成原始音频指纹;
-麦克风,用于在所述第一终端上呈现所述第一序列的同时,所述第二终端在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列;
-第二处理器,用于根据所述第一音频序列生成第一音频指纹;
-比较器,用于对所述第一音频指纹与所述原始音频指纹的块进行比较,以便获得所述原始序列中的一个或更多的第一同步位置;
-相关器,用于使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段相关,以便获得所述原始序列中的仅仅一个第二同步位置;以及
-同步器,用于使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
本发明还提供一种用于对打算在第一终端上呈现的第一多媒体流和打算在第二终端上呈现的第二多媒体流进行同步的同步设备,包括:
-第一处理器,用于根据所述第一多媒体流的原始音频序列生成原始音频指纹;
-第二处理器,用于根据所述第一多媒体流的音频数据的第一序列生成第一音频指纹;
-比较器,用于对所述第一音频指纹与所述原始音频指纹的块进行比较,以便获得所述原始序列中的一个或更多的第一同步位置;
-相关器,用于使所述第一序列与位于所述第一同步位置周围的所述原始序列中的一个或更多的片段相关,以便获得所述原始序列中的仅仅一个第二同步位置;以及
-同步器,用于使用所述第二同步位置对所述第一多媒体流和所述第二多媒体流进行同步。
有利地,所述同步设备包括在所述第二终端中。
所述第二终端可以例如是智能电话或者平板,
替代地,所述同步设备可以位于用户的家庭中,例如包括在机顶盒或网关中。其甚至可以包括在所述第一终端中。
所述同步设备也可以远离用户的家庭,例如包括在网络服务器中。
因此,同步设备的组件可以集成在远离用户的家庭或者位于用户的家庭中的同一机体(housing)中。
作为替代,所述同步设备的组件的一部分位于用户的家庭中,而另一部分远离用户的家庭。
在同步处理的至少一部分位于用户的家庭中的情况下,该部分能够例如通过因特网连接来访问原始音频序列或直接访问原始音频指纹。
根据本发明的方法可以实现为在可编程装置上的软件。可以仅实现为硬件或软件或其组合。
因为本发明可以实现为软件,所以可以将本发明实施为在任何适合的载体介质上的用于提供给可编程装置的计算机可读代码。载体介质可以包括诸如软盘、CD-ROM、硬盘驱动、磁带设备或者固态存储器设备等存储介质。
因此,本发明提供一种计算机可读程序,其包括用于使计算机能够执行本发明的方法的计算机可执行指令。图3的图表示出了关于该计算机程序的一般算法的示例。
附图说明
在附图中通过示例的方式而不是限制的方式示出本发明,其中,相同标号指代相似元件,附图中:
图1是根据本发明的同步系统的实施例的示意图;
图2是根据本发明的同步设备的实施例的示意图;
图3是示出根据本发明实施例的同步方法的步骤的流程图;
图4是详述图3的方法的采指纹步骤的流程图;
图5详述图3的方法的GCC-PHAT计算的步骤;
图6示出根据本发明的组合了采指纹和GCC-PHAT的处理的示例;以及
图7示出通过本发明的方法获得的精确同步位置的示例。
具体实施方式
参照图1,其中示出根据本发明优选实施例的同步系统2的示意图。
同步系统2包括位于用户的家庭8中的第一终端4和第二终端6。第一终端4例如是构成用户的主显示器的电视机,而第二终端6例如是用户用作第二屏幕设备的智能电话或平板。
从原始内容服务器10通过广播网络11传送在第一终端4上显示的内容。为了接收这样的广播内容(例如,DVB-T或DVB-C多媒体流),第一终端4链接到机顶盒12,机顶盒12链接到天线14。优选地,机顶盒12还能够从因特网16或者从用户的家庭8中的家庭网络接收多媒体流。
还可以由例如从远程或本地音频和/或视频服务器、视频文件、DVD、蓝光盘等流式传输的任何本地源或远程源提供在第一终端4上显示的内容。为此,第一终端4还连接到本地内容源17,例如DVD和/或蓝光读取器。
第二终端6经由因特网网络16连接到包含与原始内容服务器10的内容有关的内容的补充内容服务器18。例如,由机顶盒12对第二终端6提供的对补充服务的访问归功于嵌入在从广播网络11接收的广播流中的信息。
在另外的实施例中,因为补充内容服务器18的补充内容与在第一终端4上接收到的广播内容紧密耦合,所以其对于第二终端6是可以从用户容易地标识的网站访问的。该网站可以是广播提供者的网站或制作从原始内容服务器10提供的主内容的工作室的网站。
通过用户的家庭8的这些装备,用户能够接收将由第一终端4呈现的源自原始内容服务器10的第一多媒体流以及将由第二终端6呈现的源自例如补充服务器18的第二多媒体流。
用户可能希望在两个终端4、6中同时接收有关内容。例如,用户可能希望结合在第一终端4上显示的主内容来接收体育或音乐事件的替代视图,并且将其呈现在第二终端6上。
本发明的同步系统2使得能够完美地同步这两种内容,以便将它们同时呈现在终端4、6上。
因此,同步系统2包括连接到第二终端6的麦克风20。该麦克风20能够记录第一终端4所呈现的音频内容。
此外,同步系统2包括:同步设备22,其连接到用户的家庭8,并且连接到原始内容服务器10和补充内容服务器18。在所呈现的实施例中,同步设备22位于远离用户的家庭8。
替代地,同步设备22可以位于用户的家庭8中,例如实现在机顶盒12或第二终端6中。
在另外的替代中,同步设备22的部分可以实现在用户的家庭中,而其它部分则远程地实现。
同步系统2还包括存储器24。
如图2所示,同步设备22包括第一处理器30和第二处理器32。这两个处理器30、32能够根据传统的适合的采指纹算法从音频序列生成音频指纹。处理器30、32可以是两个分离的处理器或一个唯一处理器。
同步设备22还包括:比较器34,其能够通过计算两个集合的音频指纹的对之间的距离(例如,欧几里德距离或汉明距离)来比较音频指纹的两个集合。
同步设备22还包括:相关器36,其能够使用具有相位变换的广义互相关(又称为GCC-PHAT)技术使两个音频序列互相关。
其还包括:同步器38,其能够通过请求补充内容服务器18将从同步位置开始的媒体内容发送到第二终端6来使用同步位置对两个多媒体流进行同步。
图3和图4的流程图详述根据优选实施例的本发明的同步方法的步骤。
在第一终端4上呈现从原始内容服务器10传送的第一多媒体流的同时,本发明得以实现。
在图4所示的预备步骤40,同步设备22的第一处理器30从原始内容服务器10恢复第一多媒体流的原始音频序列42,并且根据该原始序列42生成原始音频指纹的集合。如图6中所示,每个所生成的原始指纹Fi-1、Fi、Fi+1、Fi+2分别与原始序列42的音频帧i-1、i、i+1、i+2相对应。
对于该生成,第一处理器30使用任何适合的传统的采指纹算法,例如J.Haitsma等人的“A highly robust audio fingerprinting system”(Proc.Int.Sym.on MusicInformation Retrieval(ISMIR),2002年)中描述的算法或者在A.L-C.Wang的“Anindustrial-strength audio search algorithm”(Proc.Int.Sym.on Music InformationRetrieval(ISMIR),2003年,第1-4页)中描述的算法。
优选地,在步骤44,将所生成的原始音频指纹存储在存储器24中。
在图3中表示的步骤50中,第二终端6在第一持续时间期间使用麦克风20记录第一终端4中所呈现的第一多媒体流的第一音频序列52。当同步服务由用户明确地激活或由在所述第二终端6中提供的应用自动地激活时,第二终端6开始这样的记录。然后,第二终端6经由因特网16将第一音频序列52发送给同步设备22。
如果用户的家庭8与同步设备22之间的因特网链接上的带宽是足够的,则优选地以原始格式发送第一音频序列52。然而,为了优化交付时间,如果对于确保后续采指纹处理的可靠性,质量仍然是可接受的,则可以有利地将其压缩到一定程度。
例如,通过使用HTTP POST协议将包含第一音频序列52的文件例如上载到同步设备22。
第一持续时间选取为短于5秒,优选地包括在0.5与3秒之间。例如,其等于1秒。
因此,第一音频序列52对应于主要被第一终端4周围的声学环境54(图4)破坏的原始音频序列42的片段。
在步骤56,第二处理器32使用第一处理器30实现的用于生成原始音频指纹的相同的采指纹算法,从第一序列52生成第一音频指纹的块。每个所生成的第一指纹F'1、F'2、F'3(图6)与第一序列52的音频帧相对应。
在优选实施例中,第二终端6在该处理期间使用麦克风20继续从第一终端4进行记录以考虑来自同步设备22的可能的附加数据请求。
在步骤58,比较器34对第一音频指纹的块与原始音频指纹的集合中的每个相同大小的块进行比较。在该比较期间,估计两个音频指纹的块之间的匹配可信度,并且将其与第一预定阈值进行比较。
为此,比较器34通过计算每个块中的每对指纹之间的距离并且对两个块中的所有对累计比较结果来执行相似度比较。作为示例,当对第一指纹(F'1、F'2、F'3)的块与原始指纹(F1、F2、F3)的相同大小的块进行比较时,计算求和距离d(F'1,F1)+d(F'2,F2)+d(F'3,F3),其中,d(F'i,Fi),1≤i≤3,表示两个指纹之间的欧几里德范数或汉明距离。
如果测量第一指纹与原始指纹的块之间的最大相似度的仅最小计算的求和距离小于第一阈值,则认为该指纹匹配是可信的,并且找到了唯一粗略同步位置P1。图7的下部的图表示这种情况。
在一些情况下,基本上由于记录的非常短的第一持续时间或者在原始流中重复的相似内容,可能找到小于第一阈值或者大于第一阈值但小于第二预定义阈值的所计算的距离的多个局部最小点。在这些情况下,找到具有低可信度的多个粗略同步位置A、B、C(图7的中部的图)。
为了验证最初检测到的粗略同步位置A、B、C中的任何一个是否为正确的同步位置,相关器36在步骤60计算第一音频序列与位于在步骤58通过采指纹找到的粗略同步位置周围的原始音频序列的片段61(图6和图7)的GCC-PHAT互相关。在频域中执行关于这些互相关的计算。
图5示出GCC-PHAT计算的示例。给出与原始音频序列的片段相对应的时域信号X(t)以及其与第一音频序列相对应的按照距离d延迟并失真的版本Y(t),使用离散傅里叶变换(DFT)分别计算它们的频率表示X(f)和Y(f)。根据以下公式来计算记为Rxy(f)的X(f)与Y(f)的互相关:
在该公式中,按照X(f)与Y(f)的乘积的幅度对互相关进行规一化,以便只保留相位信息。
然后,通过作为Rxy(f)的逆离散傅里叶变换(IDFT)的Rxy(t)的峰值P的位置来指定优选以样本的数量来测量的信号X(t)与Y(t)之间的时间滞后d。
在步骤62,比较器34对所获得的峰值P的值与第三阈值进行比较。该第三阈值可以是预定义的,或者是根据Rxy(t)(亦即,考虑Rxy(t)的方差)来自适应地计算的。
如果只有一个峰值高于第三阈值,则认为第一与原始音频序列的对应片段之间的匹配可信度高,并且找到了唯一精确同步位置P2。该位置的精度是样本的精度。
参照图7,使用GCC-PHAT互相关找到的精确同步位置P2(上部的图)与粗略同步位置A相对应,而粗略同步位置B、C(中部的图)被拒绝。
因为指纹是基于音频帧来计算的,所以粗略同步位置具有帧精度,这可能不足以对在两个终端4、6上的多媒体流的呈现进行完美同步。
因此,本发明通过实现原始音频序列与第一音频序列之间的广义互相关的另一步骤,显著地提高了同步精度。即使在采指纹步骤中找到具有高可信度的唯一粗略同步位置P1,也可以实现使用GCC-PHAT的相关步骤,以便获得样本精确的同步。
比较器34将该位置提供给同步器38,然后,同步器38对第二多媒体流到第二终端6的传送进行同步。
该同步可以包括:对补充内容服务器18指示其可以开始将第二多媒体流传送到第二终端6的时间。
同步可以还包括:向第二终端6传送与第二终端6可以开始呈现其已经接收到的第二多媒体流的时间有关的信息。
如果指纹比较中的所有峰值高于第二阈值(亦即,采指纹无法提供任何粗略同步位置),或者互相关比较中的所有峰值低于第三阈值(亦即,GCC-PHAT不确保可信的同步点),或者互相关比较中的多于一个的峰值高于第三阈值,可能是因为相似内容在原始流数据中重复,认为第一与原始音频序列的对应片段之间的匹配可信度低。在该情况下,同步设备22在步骤64从第二终端6请求所记录的数据的第二音频序列。在接收第二序列之后,同步设备22单独使用第二序列或者使用第一序列和第二序列的组合而不是第一序列来重复步骤52至62。
虽然已经示出并且描述了目前被认为是本发明优选实施例的内容,但本领域技术人员将理解,在不脱离本发明真实范围的情况下,可以进行各种其它修改,并且可以替换等同物。此外,在不脱离在此所描述的主要发明构思的情况下,可以进行很多修改以使特定情况适合于本发明的教导。此外,本发明实施例可以不包括以上所述的所有特征。因此,旨在本发明不受限于所公开的具体实施例,而是本发明包括落入所附权利要求的范围内的所有实施例。
诸如“包括”、“包含”、“合并”、“含有”、“是”和“具有”这样的表述在解释说明书及其相关联的权利要求时应以非排他的方式来理解,即,要理解为还允许存在未明确限定的其它项目或者组件。对单数的引用也要理解为对复数的引用,反之亦然。
本领域技术人员将容易地意识到,在不脱离本发明的范围的情况下,可以修改说明书中公开的各种参数,并且可以组合所公开和/或要求保护的各个实施例。
因此,即使以上描述关注于使用分离终端的第二屏幕应用,其也可以有利地应用于仅具有一个终端的情况,例如当仅存在一个屏幕时,其中,其一部分显示主内容,而其余部分(画中画)显示第二内容。在该情况下,用于同步的第一音频序列通过对终端所接收的广播内容进行解码来捕获,或者直接通过终端中的麦克风对其进行记录。
此外,同步设备可以集成在家庭网关或机顶盒或第二屏幕终端中。在该情况下,原始音频序列并且可选地其相关联的指纹必须提前存储或者发送到机顶盒或网关或第二屏幕终端。
此外,虽然以上描述关注于对用户的家庭应用使用本发明,但是本发明可以有利地用于公共建筑(例如,机场、火车站、医院等)中的第二屏幕应用。

Claims (13)

1.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步方法,包括根据所述第一多媒体流的原始音频序列(42)生成原始音频指纹的预备步骤,并且还包括以下步骤:
a)接收所述第一多媒体流的音频数据的第一序列(52);
b)根据所述第一序列(52)生成第一音频指纹;
c)在所述第一音频指纹与所述原始音频指纹的块之间进行比较,以便获得所述原始音频序列(42)中的一个或更多的第一同步位置(P1;A,B,C);
d)使所述第一序列(52)与位于所述第一同步位置(P1;A,B,C)周围的所述原始音频序列(42)的一个或更多的片段(61)相关,以便在所述第一同步位置(P1;A,B,C)之中获得所述原始音频序列(42)中的仅仅一个第二同步位置(P2);以及
e)使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步,
其中,所述相关使用在频域中执行的具有相位变换的广义互相关技术。
2.如权利要求1所述的方法,包括以下步骤:在所述第一终端(4)上呈现所述第一序列(52)的同时,所述第二终端(6)在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列(52)。
3.如权利要求2所述的方法,其中,所述第一持续时间短于5秒。
4.如权利要求1所述的方法,其中,通过计算所述第一序列(52)和所述原始音频序列(42)的各对指纹之间的距离来比较所述第一音频指纹和所述原始音频指纹。
5.如权利要求1所述的方法,其中,如果在步骤d)未获得第二同步位置,则所述方法还包括接收所述第一多媒体流的音频数据的第二序列的新步骤,并且其中,单独使用第二序列或者使用第一序列(52)和第二序列的组合而不是第一序列(52)来重复步骤b)至d)。
6.如权利要求1所述的方法,其中,所述第二终端(6)与所述第一终端(4)相同。
7.如权利要求1所述的方法,其中,所述第二终端(6)与所述第一终端(4)不同。
8.如权利要求1所述的方法,还包括使用所述第二同步位置(P2)在所述第二终端(6)上呈现所述第二多媒体流的步骤。
9.如权利要求3所述的方法,其中,所述第一持续时间在0.5与3秒之间。
10.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步系统(2),包括所述第一终端(4)和第二终端(6),并且还包括:
第一处理器(30),用于根据所述第一多媒体流的原始音频序列(42)生成原始音频指纹;
麦克风(20),在所述第一终端(4)上呈现第一序列(52)的同时,用于所述第二终端(6)在第一持续时间期间捕获所述第一多媒体流的音频数据的第一序列(52);
第二处理器(32),用于根据所述第一序列(52)生成第一音频指纹;
比较器(34),用于对所述第一音频指纹与所述原始音频指纹的块进行比较,以便获得所述原始音频序列(42)中的一个或更多的同步位置(P1;
A,B,C);
相关器(36),使用在频域中执行的具有相位变换的广义互相关技术使所述第一序列(52)与位于第一同步位置(P1;A,B,C)周围的所述原始音频序列(42)的一个或更多的片段(61)互相关,以便在所述第一同步位置(P1;A,B,C)之中获得所述原始音频序列(42)中的仅仅一个第二同步位置(P2);以及
同步器(38),用于使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步。
11.一种用于对打算在第一终端(4)上呈现的第一多媒体流和打算在第二终端(6)上呈现的第二多媒体流进行同步的同步设备(22),包括:
第一处理器(30),用于根据所述第一多媒体流的原始音频序列(42)生成原始音频指纹;
第二处理器(32),用于根据所述第一多媒体流的音频数据的第一序列(52)生成第一音频指纹;
比较器(34),用于对所述第一音频指纹与所述原始音频指纹的块进行比较,以便获得原始音频序列(42)中的一个或更多的第一同步位置(P1;A,B,C);
相关器(36),使用在频域中执行的具有相位变换的广义互相关技术使所述第一序列(52)与位于所述第一同步位置(P1;A,B,C)周围的所述原始音频序列(42)中的一个或更多的片段(61)互相关,以便在所述第一同步位置(P1;A,B,C)之中获得所述原始音频序列(42)中的仅仅一个第二同步位置(P2);以及
同步器(38),用于使用所述第二同步位置(P2)对所述第一多媒体流和所述第二多媒体流进行同步。
12.如权利要求11所述的同步设备(22),其中,所述同步设备(22)包括在所述第二终端(6)中。
13.如权利要求11或12所述的同步设备(22),其中,所述同步设备(22)包括在机顶盒(12)或者网关中。
CN201380016892.8A 2012-04-05 2013-04-02 多媒体流的同步 Active CN104205859B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305405.8 2012-04-05
EP12305405.8A EP2648418A1 (en) 2012-04-05 2012-04-05 Synchronization of multimedia streams
PCT/EP2013/056871 WO2013149989A1 (en) 2012-04-05 2013-04-02 Synchronization of multimedia streams

Publications (2)

Publication Number Publication Date
CN104205859A CN104205859A (zh) 2014-12-10
CN104205859B true CN104205859B (zh) 2018-10-30

Family

ID=48040252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380016892.8A Active CN104205859B (zh) 2012-04-05 2013-04-02 多媒体流的同步

Country Status (7)

Country Link
US (1) US9877066B2 (zh)
EP (2) EP2648418A1 (zh)
JP (1) JP6167167B2 (zh)
KR (1) KR102043088B1 (zh)
CN (1) CN104205859B (zh)
TW (1) TWI563841B (zh)
WO (1) WO2013149989A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2823642B1 (en) 2012-03-09 2024-04-24 InterDigital Madison Patent Holdings, SAS Distributed control of synchronized content
US9553756B2 (en) * 2012-06-01 2017-01-24 Koninklijke Kpn N.V. Fingerprint-based inter-destination media synchronization
US9756288B2 (en) 2013-04-10 2017-09-05 Thomson Licensing Tiering and manipulation of peer's heads in a telepresence system
KR20160022307A (ko) * 2013-06-20 2016-02-29 톰슨 라이센싱 콘텐츠의 분산 재생의 동기화를 지원하기 위한 시스템 및 방법
JP6505996B2 (ja) * 2013-08-30 2019-04-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 受信方法、及び、受信装置
EP2876890A1 (en) 2013-11-21 2015-05-27 Thomson Licensing Method and apparatus for frame accurate synchronization of video streams
JP5559445B1 (ja) * 2013-12-26 2014-07-23 株式会社スクウェア・エニックス 描画システム、制御方法、プログラム、及び記録媒体
US9860289B2 (en) 2014-05-23 2018-01-02 Radeeus, Inc. Multimedia digital content retrieval, matching, and syncing systems and methods of using the same
DE102015001622A1 (de) 2015-02-09 2016-08-11 Unify Gmbh & Co. Kg Verfahren zur Übertragung von Daten in einem Multimedia-System, sowie Softwareprodukt und Vorrichtung zur Steuerung der Übertragung von Daten in einem Multimedia-System
CN106034262B (zh) 2015-03-13 2021-01-22 中兴通讯股份有限公司 自适应流媒体处理方法及装置
CN106601243B (zh) * 2015-10-20 2020-11-06 阿里巴巴集团控股有限公司 一种视频文件识别方法及装置
US10832689B2 (en) * 2016-03-09 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing stability of an inter-channel time difference parameter
JP6785486B2 (ja) * 2017-02-21 2020-11-18 日本放送協会 音声データの比較処理プログラム
US10958966B2 (en) * 2017-03-31 2021-03-23 Gracenote, Inc. Synchronizing streaming media content across devices
US20190303400A1 (en) * 2017-09-29 2019-10-03 Axwave, Inc. Using selected groups of users for audio fingerprinting
US20190304483A1 (en) * 2017-09-29 2019-10-03 Axwave, Inc. Using selected groups of users for audio enhancement
CN108769559B (zh) * 2018-05-25 2020-12-01 数据堂(北京)科技股份有限公司 多媒体文件的同步方法及装置
WO2021072558A1 (en) * 2019-10-17 2021-04-22 D-Box Technologies Inc. Method and system for synchronizing a viewer-effect signal of a media content with a media signal of the media content
US11482004B2 (en) * 2020-07-29 2022-10-25 Disney Enterprises, Inc. Fast video content matching

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620684A (zh) * 2001-05-25 2005-05-25 多尔拜实验特许公司 利用基于听觉事件的表征比较音频
CN1742492A (zh) * 2003-02-14 2006-03-01 汤姆森特许公司 媒体内容的基于音频和视频的媒体服务的自动同步
CN101189658A (zh) * 2005-02-08 2008-05-28 兰德马克数字服务有限责任公司 音频信号中重复素材的自动识别

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1002220A (en) 1910-12-09 1911-09-05 Baylus Cade Line-casting and type-composing machine.
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
KR100820385B1 (ko) * 2002-04-25 2008-04-10 랜드마크 디지털 서비시즈 엘엘씨 확실하고 불변적인 오디오 패턴 매칭방법
MXPA06013193A (es) * 2004-05-13 2007-02-14 Qualcomm Inc Compresion de encabezado de datos de multimedia transmitidos sobre un sistema de comunicacion inalambrica.
DE102004046746B4 (de) * 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
KR100733145B1 (ko) * 2005-09-15 2007-06-27 한국과학기술원 정규화된 스펙트럼 부밴드 중심점에 기반한 핑거프린트생성 방법 및 오디오 핑거프린팅 시스템
US8707382B2 (en) * 2008-02-13 2014-04-22 At&T Intellectual Property I, L.P. Synchronizing presentations of multimedia programs
DE102008009025A1 (de) 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
US8780982B2 (en) * 2009-07-02 2014-07-15 Qualcomm Incorporated Transmitter quieting and different encoding rates for portions of a set of frames
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
EP2323046A1 (en) * 2009-10-16 2011-05-18 Telefónica, S.A. Method for detecting audio and video copy in multimedia streams
US20110276882A1 (en) * 2010-05-04 2011-11-10 Kai Buehler Automatic grouping for users experiencing a specific broadcast media
US20110307786A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for bookmarking and retrieval of video content
JP5421316B2 (ja) * 2011-03-22 2014-02-19 パナソニック株式会社 ポータブル端末、ペアリングシステム、ペアリング方法
US20110289532A1 (en) * 2011-08-08 2011-11-24 Lei Yu System and method for interactive second screen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1620684A (zh) * 2001-05-25 2005-05-25 多尔拜实验特许公司 利用基于听觉事件的表征比较音频
CN1742492A (zh) * 2003-02-14 2006-03-01 汤姆森特许公司 媒体内容的基于音频和视频的媒体服务的自动同步
CN101189658A (zh) * 2005-02-08 2008-05-28 兰德马克数字服务有限责任公司 音频信号中重复素材的自动识别

Also Published As

Publication number Publication date
TW201347522A (zh) 2013-11-16
KR20140147096A (ko) 2014-12-29
EP2648418A1 (en) 2013-10-09
JP2015515818A (ja) 2015-05-28
EP2834986A1 (en) 2015-02-11
KR102043088B1 (ko) 2019-11-11
CN104205859A (zh) 2014-12-10
WO2013149989A1 (en) 2013-10-10
TWI563841B (en) 2016-12-21
JP6167167B2 (ja) 2017-07-19
US20150095931A1 (en) 2015-04-02
US9877066B2 (en) 2018-01-23

Similar Documents

Publication Publication Date Title
CN104205859B (zh) 多媒体流的同步
US9491517B2 (en) Systems and methods for broadcast audience interaction and participation
US8869222B2 (en) Second screen content
CN103460128B (zh) 借助智能电话和音频水印的多种语言同步电影配音
EP2954511B1 (en) Systems and methods for interactive broadcast content
EP2670157B1 (en) Fingerprint-based inter-destination media synchronization
JP5216781B2 (ja) 付加情報サーバー、及び、放送コンテンツに含まれる特定放送プログラムに対して生成された付加情報を提供する方法
US20130301392A1 (en) Methods and apparatuses for communication of audio tokens
US11227620B2 (en) Information processing apparatus and information processing method
BRPI0619197A2 (pt) detecção de conteúdo de repetição em mìdia de difusão
KR20140078759A (ko) 콘텐트 프로그램 자동 탐색을 위한 시스템 및 방법
US11706481B2 (en) Media content identification on mobile devices
US8943021B2 (en) System and method for assistive caption, video description, and audio distribution
CN107785037A (zh) 使用音频时间码同步媒体内容的方法、系统和介质
US11785276B2 (en) Event source content and remote content synchronization
JP6433273B2 (ja) 端末装置、サーバ装置、及びプログラム
CN109040776B (zh) 用于播放内容的识别方法及装置
Nematollahi et al. Interacting video information via speech watermarking for mobile second screen in Android smartphone
WO2023177529A1 (en) Synchronizing content display across multiple devices
KR101403969B1 (ko) 타임코드를 상실한 동영상의 자막 재생 시점 인식 방법
KR20170060202A (ko) 동기화된 폐쇄 자막을 생성하는 시스템 및 방법
WO2010122489A1 (en) Displaying video sequences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190109

Address after: Paris France

Patentee after: Interactive Digital Madison Patent Holdings

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190109

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING