CN113170228A - 用于从视听内容中提取可变长度不相交片段的音频处理 - Google Patents

用于从视听内容中提取可变长度不相交片段的音频处理 Download PDF

Info

Publication number
CN113170228A
CN113170228A CN201980058718.7A CN201980058718A CN113170228A CN 113170228 A CN113170228 A CN 113170228A CN 201980058718 A CN201980058718 A CN 201980058718A CN 113170228 A CN113170228 A CN 113170228A
Authority
CN
China
Prior art keywords
audio data
vector
highlight
boundary
soft entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980058718.7A
Other languages
English (en)
Other versions
CN113170228B (zh
Inventor
M·斯托扬契奇
W·帕卡德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stez Ltd
Original Assignee
Stez Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stez Ltd filed Critical Stez Ltd
Priority to CN202310741442.0A priority Critical patent/CN117041659A/zh
Publication of CN113170228A publication Critical patent/CN113170228A/zh
Application granted granted Critical
Publication of CN113170228B publication Critical patent/CN113170228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

标识描绘事件的视听内容的精彩片段的边界。所述视听内容可以是广播,例如体育赛事的电视广播。所述精彩片段可以是所述视听内容中被认为是特别感兴趣的片段。存储用于所述视听内容的音频数据,并且自动分析所述音频数据以检测被标识为所分析的音频数据中的低频谱活动点和/或低音量点的软进入点。可以将所述视听内容内与所述软进入点相对应的时间索引指定为所述边界,所述边界可以是所述精彩片段的开始或结束。

Description

用于从视听内容中提取可变长度不相交片段的音频处理
相关申请的交叉引用
本申请主张于2018年7月30日提交的题为“用于从电视信号提取可变长度不相交片段的音频处理(Audio Processing for Extraction of Variable Length DisjointSegments from Television Signal)”的第62/712,041号美国临时申请(代理人案号:THU006-PROV)的权益,所述美国临时申请以全文引用的方式并入本文中。
本申请主张于2018年10月16日提交的题为“用于检测以短时能量突发为特征的响亮声音的发生的音频处理(Audio Processing for Detecting Occurrences of LoudSound Characterized by Short-Time Energy Bursts)”的第62/746,454号美国临时申请(代理人案号:THU016-PROV)的优先权,所述美国临时申请以全文引用的方式并入本文中。
本申请主张于2019年6月13日提交的题为“用于从视听内容中提取可变长度不相交片段的音频处理(Audio Processing for Extraction of Variable Length DisjointSegments from Audiovisual Content)”的第16/440,229号美国实用申请(代理人案号:THU006)的优先权,所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2012年8月31日提交并于2015年6月16日作为第9,060,210号美国专利发布的题为“生成现场表演的兴奋水平(Generating Excitement Levels for LivePerformances)”的第13/601,915号美国实用申请,所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2012年8月31日提交并于2014年9月23日作为第8,842,007号美国专利发布的题为“生成现场表演的警报(Generating Alerts for Live Performances)”的第13/601,927号美国实用申请,所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2012年8月31日提交并于2013年11月26日作为第8,595,763号美国专利发布的题为“生成现场表演的前导广告(Generating Teasers for LivePerformances)”的第13/601,933号美国实用申请,所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2014年10月9日提交的题为“生成描绘事件的定制精彩片段序列(Generating a Customized Highlight Sequence Depicting an Event)”的第14/510,481号美国实用申请(代理人案号:THU001),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2015年5月12日提交的题为“生成描绘多个事件的定制精彩片段序列(Generating a Customized Highlight Sequence Depicting Multiple Events)”的第14/710,438号美国实用申请(代理人案号:THU002),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2015年10月7日提交的题为“定制生成具有叙述成分的精彩片段展示(Customized Generation of Highlight Show with Narrative Component)”的第14/877,691号美国实用申请(代理人案号:THU004),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2016年9月14日提交的题为“用于与定制精彩片段展示交互的用户接口(User Interface for Interaction with Customized Highlight Shows)”的第15/264,928号美国实用申请(代理人案号:THU005),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2019年5月14日提交的题为“用于实现体育运动精彩片段生成的视频处理(Video Processing for Enabling Sports Highlights Generation)”的第16/411,704号美国实用申请(代理人案号:THU009),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2019年5月14日提交的题为“用于识别和解释嵌入式信息卡内容的机器学习(Machine Learning for Recognizing and Interpreting EmbeddedInformation Card Content)”的第16/411,710号美国实用申请(代理人案号:THU010),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2019年5月14日提交的题为“用于嵌入式信息卡本地化和内容提取的视频处理(Video Processing for Embedded Information Card Localization andContent Extraction)”的第16/411,713号美国实用申请(代理人案号:THU012),所述美国实用申请以全文引用的方式并入本文中。
本申请涉及于2019年5月23日提交的题为“用于在体育赛事电视节目中检测人群噪声的发生的音频处理(Audio Processing for Detecting Occurrences of CrowdNoise in Sporting Event Television Programming)”的第16/421,391号美国实用申请(代理人案号:THU007),所述美国实用申请以全文引用的方式并入本文中。
技术领域
本文件涉及用于在递送多媒体内容的电视装置或视频服务器上标识多媒体内容和相关联信息,并使嵌入式软件应用程序利用多媒体内容来与所述多媒体内容的递送同步地提供内容和服务的技术。各种实施例涉及用于提供自动化音频分析以对描绘体育赛事的节目内容进行分段的方法和系统,以便创建比赛中和比赛后观看的视频精彩片段。
背景技术
长期以来,已经设想了例如交互式广告的增强型电视应用程序以及具有比赛前、比赛中和比赛后交互式应用程序的增强型节目指南。正在调用原先为广播电视而设计的现有电缆系统以支持许多新的应用程序和服务,包含交互式电视服务和增强型(交互式)节目指南。
用于实现增强型电视应用程序的一些框架已经标准化。实例包含OpenCableTM增强型电视应用程序消息传递规范以及Tru2way规范,它们指的是通过有线电视网络递送的交互式数字电缆服务,其中包含例如交互式节目指南、交互式广告、比赛等特征。此外,有线电视运营商“OCAP”程序还提供交互式服务,例如电子商务购物、在线银行、电子节目指南和数字视频录制。这些努力使第一代视频同步应用程序得以实现,并与编程者/广播公司递送的视频内容同步,并为电视节目提供了额外的数据和交互性。
视频/音频内容分析技术和功能强大的移动装置的最新发展为开发与实况电视节目事件同步地运行的复杂应用程序开辟了一系列新的可能性。在音频信号处理和计算机视觉方面的这些新技术和进步,以及现代处理器计算能力的提高,使得能够实时生成伴有当前在电视和其它媒体环境中缺乏的元数据的复杂的节目内容精彩片段。
发明内容
提出了一种系统和方法,其基于用于检测音频流中的低频谱活动和/或低音量进入点(例如音节的结尾、单词或词组的结尾,和/或句子的结尾(软进入点))的音频处理,而实现体育赛事电视节目和/或其它视听内容的自动实时分段。可使用检测到的软进入点的列表(具有最小的频谱活动和/或低音量)来根据视频精彩片段生成的标准而提取视听内容的片段。
在至少一个实施例中,为音频信号构建频谱图,从而允许使用滑动2D区域窗口进行时频分析。对于每个分析窗口位置,可生成频谱限定符,其表示分析窗口内的频谱活动。可形成具有相关联时间位置的频谱限定符的向量,并且可将所述向量进一步划分为一组连续的一秒间隔。针对每个一秒间隔可对内部限定符进行分类,并且可执行非最大抑制以针对每个一秒间隔形成具有最大化限定符的限定符/位置对的第一向量。在后续步骤中,可处理以一秒为间隔的检测到的进入点,以规定期望的平均时间间隔和/或规定限定符/位置对的进一步选择。
在限定符/位置对的第一向量(第一元素)中建立了初始锚元素之后,可在最小期望距离(例如,两秒)处选择限定符/位置对的第一向量的下一个元素。接下来,可检查下一个元素的紧接的左和右邻域,以生成具有针对本地邻域的最大限定符的新锚元素。此过程可继续进行,直到用完限定符/位置对的第一向量的所有元素为止,从而产生新的一组进入点(软进入),其具有平均为二到三秒的可变相互距离,并且具有用于每个本地邻域的最大化频谱限定符。
然后,可将软进入的向量转变为最佳进入点的列表,然后将所述向量应用于视频精彩片段的生成。有精彩片段的视频片段边界可根据在其原始边界的邻域中的最佳可用软进入来进行修改,并且随后可提取精彩片段以由视频精彩片段生成应用程序进行进一步处理。
在至少一个实施例中,提取的视频精彩片段也可通过部署任选的衰减函数来进行处理,其中将镜像的前和尾曲率应用于片段边界,从而允许进一步平滑提取的不相交视频片段之间的过渡。
在某种意义上说,本文提出的方法可用于需要以最小干扰音频过渡来平滑重新组装分段视频的任何应用程序中的视频分段。
在至少一个实施例中,一种用于标识描绘事件的视听内容的精彩片段的边界的方法可包含:存储描绘事件的至少部分的音频数据,自动分析音频数据以检测音频数据的软进入点,并且在视听内容内将与软进入点相对应的时间索引指定为边界,所述边界包括精彩片段的开始或结束。视听内容可以是例如体育赛事的电视广播。
视听内容可包含视听流。所述方法可进一步包含:在存储描绘事件的至少部分的音频数据之前,从视听流中提取音频数据。
视听内容可包含存储的视听内容和/或实时内容。所述方法可进一步包含:在存储描绘事件的至少部分的音频数据之前,从存储的视听内容和/或实时内容中提取音频数据。
所述事件可以是体育赛事。精彩片段可描绘被认为是一个或多个用户特别感兴趣的体育赛事的部分。
所述方法可进一步包含:在软进入点的检测期间在输出装置上播放视听内容和精彩片段中的一个。
所述方法可进一步包含:在检测软进入点之前,通过将音频数据重新采样到期望的采样速率来预处理音频数据。
所述方法可进一步包含:在检测软进入点之前,通过对音频数据进行滤波以减少或去除噪声来预处理音频数据。
所述方法可进一步包含:在检测软进入点之前,处理音频数据以生成用于音频数据的至少部分的频谱图。
检测软进入点可包含针对频谱图应用滑动二维时频分析窗口。
检测软进入点可包含针对频谱图的滑动二维时频分析窗口的每个位置计算平均频谱幅度指示符,以及使用平均频谱幅度指示符形成用于频谱图的频谱幅度指示符/位置对的向量。
检测软进入点可进一步包含将每个向量元素的平均频谱幅度指示符转换为整数限定符Q,以及生成具有Q/位置对的初始向量。
检测软进入点可进一步包含逐步遍历具有Q/位置对的初始向量的元素,以及通过在每个一秒间隔中对Q限定符进行非最大抑制并且形成具有最大化的Q限定符的第一向量来使每个一秒间隔的Q最大化。
检测软进入点可进一步包含逐步遍历具有最大化的Q限定符的第一向量的每个进入的时间分量;对于每个时间位置,将当前位置的时间分量与先前位置的先前时间分量进行比较以获得距离;对于距离大于阈值所针对的第一向量的每个元素,在所述元素位置的紧接邻域中找到最大Q;并且用具有每个邻域中最大的Q的Q/位置对填充新软进入向量。
所述方法可进一步包含:在将时间索引指定为边界之前,用试验性边界来标识精彩片段。将时间索引指定为边界可包含将试验性边界替换成从可用软进入列表中获得的边界。
本文中描述进一步的细节和变化。
附图说明
附图连同描述一起说明若干实施例。本领域的技术人员将认识到在附图中说明的特定实施例仅是示范性的,且并不希望限制范围。
图1A是描绘根据客户端/服务器实施例的硬件架构的框图,其中事件内容是经由网络连接的内容提供商提供。
图1B是描绘根据另一客户端/服务器实施例的硬件架构的框图,其中事件内容存储在基于客户端的存储装置处。
图1C是描绘根据独立实施例的硬件架构的框图。
图1D是描绘根据一个实施例的系统架构的概观的框图。
图2是描绘根据一个实施例的可并入图1A、B和1C的音频数据、用户数据和精彩片段数据中的数据结构的实例的示意性框图。
图3A描绘音频波形图的实例,其展示了根据一个实施例的在时域中从体育赛事电视节目内容提取的音频流中软进入点的发生。
图3B描绘根据一个实施例的在时频域中对应于图3A的音频波形图的频谱图的实例。
图4是描绘根据一个实施例的用于通过重新采样、滤波和频谱图构建来进行音频预处理的方法的流程图。
图5是描绘根据一个实施例的用于在时频域中分析诸如音频流之类的音频数据并且生成限定符的初始向量的方法的流程图。
图6是描绘根据一个实施例的用于在每个一秒间隔内生成具有最大化限定符的向量的方法的流程图。
图7是描绘根据一个实施例的用于进一步选择具有可变间隔和最大化本地邻域限定符的软进入点的方法的流程图。
图8是描绘根据一个实施例的用于任选地修改稀疏分段的检测到的进入点的方法的流程图。
图9是描绘根据一个实施例的用于基于可用软进入点的列表来组装经调整的精彩片段的方法的流程图。
具体实施方式
定义
呈现以下定义仅用于解释性的目的,且并不希望限制范围。
·事件:出于本文论述的目的,术语“事件”指代游戏、会话、比赛、系列节目、表演、节目、音乐会等等或其部分(例如一个动作、时期、四分之一、二分之一、一局、场景、章节等)。事件可以是体育赛事、娱乐事件、事件中的参与者的较大群体内的单个个人或个人子组的特定表现等。非体育赛事的实例包含电视节目、重大新闻、社会政治事件、自然灾害、电影、演出、广播节目、播客、有声读物、在线内容、音乐表演等等。事件可具有任何长度。出于说明性目的,本文常常在体育赛事的方面描述技术;然而,所属领域的技术人员将认识到,也可在其它情境中使用所述技术,包含用于任何视听的、视觉的、基于图形的、交互式、非交互式或基于文本的内容的精彩片段展示。因此,描述内容中的术语“体育赛事”和任何其它体育专用术语的使用既定说明一个可能的实施例,但并不希望将所描述技术的范围限制于所述一个实施例。而是,这些术语应当视为在技术适当时延伸到任何合适的非体育情境。为易于描述,术语“事件”也用于是指事件的报道或表示,例如事件的视听记录,或包含事件的报道、描述或描绘的任何其它内容项目。
·精彩片段:事件的摘录或部分,或被认为是一个或多个用户特别感兴趣的与事件相关联的内容的摘录或部分。精彩片段可以具有任何长度。通常,本文中所描述的技术提供了用于为任何合适的事件标识和呈现一组定制的精彩片段(可基于用户的特定特征和/或偏好来选择)的机制。“精彩片段”还可用于指代精彩片段的报道或表示,例如精彩片段的视听记录,或包含精彩片段的报道、描述或描绘的任何其它内容项。精彩片段无需限于事件本身的描绘,但可包含与事件相关联的其它内容。举例来说,对于体育赛事,精彩片段可以包含比赛中音频/视频,以及例如比赛前、比赛中和比赛后采访、分析、解说等等的其它内容。此类内容可以从线性电视被记录(例如作为描绘事件自身的视听流的部分),或从任何数量的其它来源被检索。可以提供不同类型的精彩片段,包含例如发生的事(比赛中的表现)、字符串、控制权和序列,其全部定义于下文中。精彩片段无需具有固定持续时间,而是可以并入有开始偏移量和/或结束偏移量,如下文所描述。
·剪辑:事件的音频、视觉或视听表示的一部分。剪辑可以对应于或表示精彩片段。在本文中的许多背景下,术语“片段”可与“剪辑”互换地使用。剪辑可以是音频流、视频流或视听流的一部分,或它可以是所存储的音频、视频或视听内容的一部分。
·内容轮廓标:指示精彩片段的开始或结束的一个或多个视频帧。
·发生的事:事件期间发生的某事。实例包含:进球、场景、进攻机会、命中、救球、射门、篮框、抢断、捕捉或尝试捕捉、侥幸逃脱、对抗、比赛的开始或结束、四分之一、二分之一、时期、或一局、投球、罚分、受伤、娱乐事件中的戏剧性事情、歌曲、独奏等等。发生的事也可以是异常的,例如电力中断、球迷不守规矩的意外事件等等。可以将此类发生的事的检测用作确定是否将视听流的特定部分指定为精彩片段的基础。为易于命名,在本文中也将发生的事称作“比赛中的表现”,但此类用法不应被认作限制范围。发生的事可具有任何长度,且发生的事的表示也可具有变化长度。举例来说,如上文所提及,发生的事的延伸表示可包含描绘恰在发生的事之前和恰在发生的事之后的时间周期的连续镜头,而短暂表示可仅包含发生的事自身。也可提供任何中间表示。在至少一个实施例中,用于发生的事的表示的持续时间的选择可取决于用户偏好、可用时间、所确定的发生的事的兴奋水平、发生的事的重要性和/或任何其它因素。
·偏移量:精彩片段长度的调整量。在至少一个实施例中,可提供开始偏移和/或结束偏移,用于分别调整精彩片段的开始时间和/或结束时间。举例来说,如果精彩片段描绘进球,则可以将精彩片段延长(经由结束偏移量)几秒以便包含在进球之后的庆祝和/或球迷反应。偏移量可以被配置成例如基于可用于精彩片段的时间量、精彩片段的重要性和/或兴奋水平和/或任何其它合适因素而自动地或手动地变化。
·字符串:在某种程度上彼此联系或相关的一系列发生的事。发生的事可发生于一个控制权(下文定义)内,或可横跨多个控制权。发生的事可发生于一个序列(下文定义)内,或可横跨多个序列。发生的事可由于彼此的某种主题性或叙述性连接或者因为一者导致另一者、或者出于任何其它原因而联系或相关。串连的一个实例是导致进球或进篮的一组传球。请勿将其与“文本串”混淆,所述“文本串”具有计算机编程领域中通常赋予的含义。
·控制权:事件的任何时间分隔部分。控制权的开始/结束时间的分界可取决于事件类型。对于其中一个队伍可处于进攻而另一队伍处于防守(例如篮球或足球)的某些体育赛事,控制权可定义为其中一个队伍有球的时间周期。在例如曲棍球或足球等体育运动中,其中球块或球控制权更为流动,则控制权可视为延伸到其中一个队伍具有所述球块或球的实质控制的时间周期,而忽略另一队伍的瞬时接触(例如被阻挡的射门或救球)。对于棒球,控制权定义为半局。对于橄榄球,控制权可包含其中同一队伍有球的若干序列。对于其它类型的体育赛事以及非体育赛事,术语“控制权”可能稍微用词不当,但在本文中仍用于说明性目的。非体育背景下的实例可包含章节、场景、动作等。举例来说,在音乐演唱会的情境中,控制权可等同于演奏单首歌曲。控制权可包含任何数目的发生的事。
·序列:事件的包含动作的一个连续时间段的时间分隔部分。举例来说,在体育赛事中,序列可当动作开始(例如开球、跳球等)时开始,且可当哨子吹响以表示动作中止时结束。在例如棒球或橄榄球等体育中,序列可等效于呈发生的事的形式的场景。序列可包含任何数目的控制权,或可以是控制权的一部分。
·精彩片段展现:被布置成呈现给用户的一组精彩片段。精彩片段展现可以被线性地呈现(例如视听流),或以允许用户选择观看哪一精彩片段以及观看次序(例如通过在链接或缩略图上点击)的方式被呈现。精彩片段展现的呈现可以是非交互式或交互式,例如允许用户暂停、快退、跳过、快进、传达偏好或厌恶等等。精彩片段展示可例如为浓缩的比赛。精彩片段展示可包含来自单个事件或多个事件的任何数目的邻接或非邻接精彩片段,且可甚至包含来自不同类型的事件的精彩片段(例如,不同体育运动,和/或来自体育和非体育赛事的精彩片段的组合)。
·用户/观看者:术语“用户”或“观看者”可互换地指代观看、收听或另外经历事件、事件的一或多个精彩片段或精彩片段展示的个人、群组或其它实体。术语“用户”或“观看者”还可指代可在某个未来时间观看、收听或另外经历事件、事件的一个或多个精彩片段或精彩片段展示的个人、群组或其它实体。术语“观看者”可以用于描述性目的,但事件无需具有视频分量,使得“观看者”可以代替地是内容的收听者或任何其它消费者。
·兴奋水平:事件或精彩片段被预期为对于特定用户或一般来说为用户的兴奋或感兴趣程度的度量。也可相对于特定发生的事或运动选手确定兴奋水平。上文所引用的相关申请中论述了用于测量或评估兴奋水平的各种技术。如所论述,兴奋水平可取决于事件内发生的事,以及例如总体情境或事件的重要性等其它因素(季后赛、角旗暗示、争夺等等)。在至少一个实施例中,兴奋水平可与事件内的每一发生的事、串连、控制权或序列相关联。举例来说,可基于发生于控制权内的发生的事而确定所述控制权的兴奋水平。对于不同的用户(例如,一个队伍的球迷对中立的球迷),所测得的兴奋水平可能会有所不同,且其可取决于每一用户的个人特性。
·元数据:与其它数据有关并与其它数据关联存储的数据。主要数据可以是例如体育节目或精彩片段的媒体。
·视频数据。视频的长度,其可以呈数字形式或模拟形式。视频数据可以存储在本地存储装置上,或可以从例如电视广播天线、有线电视网络或计算机服务器的来源被实时接收,在此情况下,视频数据也可以被称为“视频流”。视频数据可能或可能不包含音频分量;如果其包含音频分量,则其可以被称为“视听数据”或“视听流”。
·音频数据。音频的长度,其可以呈数字形式或模拟形式。音频数据可以是视听数据或视听流的音频分量,且可以通过从视听数据提取音频数据被隔离。音频数据可以存储在本地存储装置中,或可以从例如电视广播天线、有线电视网络或计算机服务器的来源被实时接收,在此情况下,音频数据也可以被称作“音频流”。
·流。音频流、视频流或视听流。
·时间索引。事件发生的或以其它方式与例如精彩片段的指定片段有关的在音频数据、视频数据或视听数据内的时间的指示符。
·频谱图。例如音频流之类的信号的频率的频谱随时间变化的视觉表示。频谱图可以是通过将短时傅立叶变换(Short Time Fourier Transform;STFT)应用于音频信号而得出的音频信号的二维时频表示。
·分析窗口。视频数据、音频数据、视听数据、频谱图、流或者流或数据的以其它方式处理的版本的指定子集,在所述指定子集处将聚焦一个分析步骤。可例如在使用覆盖数据或频谱图的不同片段的移动分析窗口和/或一系列分析窗口的片段中分析音频数据、视频数据、视听数据或频谱图。
·边界。将一个音频、视频和/或视听片段与另一个分隔开的分界。边界可以是例如视听内容(例如电视广播)的精彩片段之类的片段的开始或结束。边界可以是试验性的(即,初步的和/或打算用于后续替换)或最终的。在一些实施例中,可用试验性边界来首先标识精彩片段。可执行音频分析以标识软进入点,所述软进入点然后用于(及时)定位精彩片段的最终边界。
·软进入点。音频、视频或视听流的部分,表示不同场景、内容类型、比赛等之间的可能或偏好的过渡点。软进入点可以是音频信号中较安静的部分,在体育赛事的情境中,表示游戏中的评论或比赛之间的停顿。
总览
在至少一个实施例中,本文所描述的系统和方法基于用于检测低活动进入点(“软进入点”)(例如音节、句子和/或词组的结尾)的音频处理而执行诸如电视节目之类的视听节目的自动实时、可变长度分段。当提取视听节目的片段时,这些进入点可用作指导,以便通过从一个精彩片段到下一个精彩片段的经改进过渡来促进精彩片段生成,从而避免中断对话或其它声音,并避免突然过渡。
在至少一个实施例中,自动化的视频精彩片段和相关联的元数据生成应用程序可接收现场广播视听流或经由计算机服务器接收的数字视听流。所述应用程序可接着例如使用数字信号处理技术来处理音频数据(例如从视听流提取的音频流),以检测软进入点。
在替代实施例中,本文中所描述的技术可应用于其它类型的源内容。举例来说,不需要从视听流提取音频数据;更确切地,所述音频数据可以是体育赛事或其它事件的无线电广播或其它音频描绘。替代地,本文中所描述的技术可应用于描绘事件的所存储的音频数据;此类数据可或可不从所存储的视听数据中提取。
交互式电视应用程序使得能够在主电视显示器上或在例如平板电脑、膝上型计算机或智能手机的辅助显示器上向观看电视节目的用户及时且相关地呈现有精彩片段的电视节目内容。在至少一个实施例中,表示电视广播内容精彩片段的一组剪辑连同含有基于时间的元数据的数据库一起被实时生成和/或存储,所述基于时间的元数据更详细地描述了由精彩片段剪辑呈现的事件。如本文中更详细地所描述,可以至少部分地基于对所提取的音频数据的分析来确定此类剪辑的开始时间和/或结束时间。
在各种实施例中,伴随剪辑的元数据可以是任何信息,例如文本信息、图像和/或任何类型的视听数据。与比赛中和比赛后视频内容相关联的一种类型的元数据突出显示了通过实时处理从体育赛事电视节目或其它视听内容提取的音频数据而检测的当前事件。在各种实施例中,本文中所描述的系统和方法实现了自动元数据生成和视频精彩片段处理,其中可通过分析例如音频流的数字音频数据来检测和/或提炼精彩片段的开始和/或结束时间。
举例来说,可通过分析此类音频数据以检测在某些令人兴奋的事件、音频公告、音乐等等之后的欢呼的人群噪声来标识精彩片段。另外或替代地,可以上面列出的原申请中的任一者中呈现的其它方式中的任一者来检测精彩片段。软进入点的标识可用于标识或提炼精彩片段的开始和/或结束时间,使得精彩片段在视听内容中的自然中断处开始和/或结束,从而避免不必要的突然过渡。在至少一个实施例中,对可以是从体育赛事电视节目内容提取的音频流的音频数据执行实时处理,以便检测、选择和跟踪此类软进入点。
在至少一个实施例中,用于自动实时处理从例如体育赛事电视节目内容的视听内容中提取的音频信号的方法检测软进入点。所述方法可包含:捕获、解码和预处理音频信号;生成用于联合时频分析以检测低频谱活动区域的时频音频频谱图;生成用于重叠频谱图区域的频谱指示符;以及形成具有相关联时间位置的频谱限定符的向量。所述方法可进一步包含:将所述向量划分为连续的一秒间隔;针对每个一秒间隔对内部频谱限定符进行分类;以及执行非最大抑制以形成限定符/位置对的第一向量。此外,所述方法可包含处理每个限定符/位置对的第一向量以规定期望的平均时间间隔并且规定限定符/位置对的进一步选择。再进一步,所述方法可包含:形成最佳进入点的列表;以及根据原始边界的邻域中的最佳可用软进入,例如通过修改有精彩片段的视频片段边界而将最佳进入点的列表应用于视频精彩片段生成。
在至少一个实施例中,所述系统和方法接收压缩的音频数据,并将压缩的音频数据进行读取、解码并重新采样到期望的采样速率。可执行预滤波以减少噪声、去除咔嗒声并选择感兴趣的频带;可使用数个可互换的数字滤波级中的任一者。
重叠频谱图区域可通过亚秒时间范围的2D时频窗口进行分析。在至少一个实施例中,沿频谱图时间坐标滑动分析的时频窗口,并在每个重叠窗口位置处计算窗口的归一化平均幅度。
平均幅度可以是在每个分析窗口位置生成的频谱指示符。可形成具有相关联时间位置的频谱指示符的初始向量,并将其进一步划分为连续的一秒间隔。针对每个一秒间隔可对内部限定符进行分类,并且可执行非最大抑制以形成限定符/位置对的第一向量。可处理以一秒为间隔的检测的进入点以规定期望的平均时间间隔并且规定限定符/位置对的进一步选择。出于说明性目的,本文中的描述指的是一秒间隔;然而,所属领域技术人员将认识到可使用任何合适长度的间隔。
在建立初始锚元素(第一元素)之后,可在最小期望距离(例如两秒的长度)处选择下一个元素。也可使用其它长度。可检查下一个元素的左和右紧接邻域中的元素,以生成具有针对本地邻域的最大化限定符的新锚元素。限定符/位置对的所有第一向量可在连续的步骤中进行处理,从而产生新的一组软进入点,其具有平均为例如两到三秒的可变相互距离,并且具有用于每个本地邻域的最大化频谱限定符。
可将软进入的向量转变为最佳进入点列表,然后将所述向量应用于视频精彩片段的生成。有精彩片段的视频片段边界可根据在其原始边界的邻域中的最佳可用软进入来进行修改。具有经修改边界的有精彩片段的视频片段可经提取以由视频精彩片段生成应用程序进行进一步处理。提取的视频精彩片段可通过部署任选的衰减函数另外进行处理,其中将镜像的前和尾曲率应用于片段边界。
系统架构
根据各种实施例,所述系统可实施于任何电子装置或一组电子装置上,经装备以接收、存储和呈现信息。此电子装置可以是例如台式计算机、膝上型计算机、电视、智能手机、平板电脑、音乐播放器、音频装置、一体机、机顶盒(set-top box;STB)、游戏系统、可穿戴式装置、消费者电子装置等等。
虽然本文结合特定类型计算装置中的实施方案描述所述系统,但所属领域的技术人员将认识到,本文所描述的技术可在其它情境中实施,且实际上在能够接收和/或处理用户输入且将输出呈现给用户的任何合适的装置中实施。因此,以下描述旨在借助于实例说明各种实施例,而不是限制范围。
现参考图1A,展示了根据客户端/服务器实施例的框图,所述框图描绘了系统100的硬件架构,所述系统用于自动分析音频数据以检测软进入点以指定精彩片段的边界。可经由网络连接的内容提供商124提供事件内容,例如包含音频内容的视听流。此类客户端/服务器实施例的实例是基于网络的实施方案,其中一个或多个客户端装置106中的每一个运行浏览器或应用程序,所述浏览器或应用程序提供用于经由通信网络104与来自包含数据提供商服务器122和/或内容提供商服务器124的各种服务器102、114、116的内容交互的用户界面。响应于来自客户端装置106的请求,内容和/或数据的传输可使用任何已知的协议和语言进行,例如超文本标记语言(Hypertext Markup Language;HTML)、Java、Objective C、Python、JavaScript等等。
客户端装置106可以是任何电子装置,例如台式计算机、膝上型计算机、电视、智能手机、平板电脑、音乐播放器、音频装置、一体机、机顶盒、游戏系统、可穿戴式装置、消费者电子装置等等。在至少一个实施例中,客户端装置106具有所属领域的技术人员众所周知的若干硬件组件。输入装置151可以是接收来自用户150的输入的任何组件,包含例如键盘、鼠标、触笔、触敏屏(触摸屏)、触摸垫、手势接受器、轨迹球、加速度计、五路开关、麦克风等。可经由任何合适的模式提供输入,包含例如以下各者中的一或多者:指向、轻触、打字、拖动、示意、倾斜、摇动和/或语音。显示屏幕152可以是以图形方式显示信息、视频、内容等等(包含事件、精彩片段等等的描绘)的任何组件。此类输出还可包含例如视听内容、数据可视化、导览元素、图形元素、请求用于选择内容的信息和/或参数的查询、元数据等等。在每次仅呈现期望输出中的一些的至少一个实施例中,例如滚动机构等动态控制可经由输入装置151而可用,以选择当前显示哪些信息,和/或更改显示信息的方式。
处理器157可以是用于根据众所周知的技术在软件的指示下对数据执行操作的常规微处理器。存储器156可以是具有在所属领域中已知的结构和架构的随机存取存储器,供处理器157在运行软件以执行本文中所描述的操作的过程中使用。客户端装置106还可包含本地存储装置(未示出),其可以是硬盘驱动器、快闪驱动器、光学或磁性存储装置、基于网络(基于云)的存储装置等等。
根据任何合适的协议和技术,任何合适的类型的通信网络104,例如因特网、电视网络、有线电视网络、蜂窝网络等等,都可用作用于在客户端装置106和多个服务器102、114、116和/或内容提供商124和/或数据提供商122之间传输数据的机制。除因特网之外,其它实例还包含蜂窝式电话网络、EDGE、3G、4G、长期演进(LTE)、会话起始协议(SIP)、短消息端对端协议(SMPP)、SS7、Wi-Fi、蓝牙、ZigBee、超文本传送协议(HTTP)、安全超文本传送协议(SHTTP)、传输控制协议/因特网协议(TCP/IP)等等,和/或其任何组合。在至少一个实施例中,客户端装置106经由通信网络104传输对数据和/或内容的请求,并从服务器102、114、116接收含有所请求的数据和/或内容的响应。
在至少一个实施例中,图1A的系统结合体育赛事而操作;然而,本文中的教示还适用于非体育赛事,且应了解本文中所描述的技术不限于对体育赛事的应用。举例来说,本文中所描述的技术可用于结合电视节目、电影、新闻事件、游戏节目、政治行为、商业节目、戏剧和/或其它情节内容而进行操作,或者用于多于一个此类事件。
在至少一个实施例中,系统100通过分析表示事件的音频内容来标识描绘事件的视听内容(例如体育赛事的广播)的精彩片段。可实时进行此分析。在至少一个实施例中,系统100包含经由通信网络104联接到一个或多个客户端装置106的一个或多个网络服务器102。通信网络104可以是公共网络、专用网络或例如因特网的公共网络与专用网络的组合。通信网络104可以是LAN、WAN、有线、无线和/或以上的组合。在至少一个实施例中,客户端装置106能够经由有线或无线连接而连接到通信网络104。在至少一个实施例中,客户端装置还可包含能够接收和记录事件的记录装置,例如DVR、PVR或其它媒体记录装置。此记录装置可以是客户端装置106的部分或可在外部;在其它实施例中,此记录装置可省略。虽然图1A示出一个客户端装置106,但系统100可任何数目的单个类型或多个类型的客户端装置106来实现。
网络服务器102可包含一个或多个物理计算装置和/或软件,其可接收来自客户端装置106的请求且以数据响应于那些请求,以及发送出未经请求的警示和其它消息。网络服务器102可采用针对容错性和可缩放性的各种策略,例如负载平衡、高速缓冲存储以及聚类。在至少一个实施例中,网络服务器102可包含如在所属领域中已知的高速缓冲存储技术以用于存储与事件相关的客户端请求和信息。
网络服务器102可维持或以其它方式指定一个或多个应用程序服务器114,以响应从客户端装置106接收到的请求。在至少一个实施例中,应用程序服务器114提供对业务逻辑的访问,以供客户端装置106中的客户端应用程序使用。应用程序服务器114可与网络服务器102共同定位、共同拥有或共同管理。应用程序服务器114也可远离网络服务器102。在至少一个实施例中,应用程序服务器114与一个或多个分析服务器116和一个或多个数据服务器118交互以执行所公开技术的一个或多个操作。
一个或多个存储装置153可以通过存储与系统100的操作有关的数据来充当“数据存储区”。此数据可以包含例如但不限于表示一个或多个音频信号的音频数据154。音频数据154可以例如从表示体育赛事和/或其它事件的视听流或所存储的视听内容被提取。
音频数据154可以包含与嵌入在视听流中的音频相关的任何信息,例如伴随视频图像的音频流、视听流的已处理版本,以及与音频数据154相关的度量和/或向量,例如事件的时间索引、持续时间、幅度和/或其它参数。用户数据155可以包含描述一个或多个用户150的任何信息,包括例如人口统计数据、购买行为、视听流观看行为、兴趣、偏好等等。精彩片段数据164可以包含精彩片段、精彩片段标识符、时间指示符、类别、兴奋水平,以及与精彩片段有关的其它数据。随后将详细地描述音频数据154、用户数据155和精彩片段数据164。
值得注意的是,系统100的许多组件可以是或可以包含计算装置。如上文所示出和描述,此类计算装置可各自具有类似于客户端装置106的架构。因此,通信网络104、网络服务器102、应用程序服务器114、分析服务器116、数据供应商122、内容供应商124、数据服务器118和存储装置153中的任一个可以包含一个或多个计算装置,所述计算装置中的每一个可以任选地具有输入装置151、显示屏幕152、存储器156和/或处理器157,如上文结合客户端装置106所描述。
在系统100的示范性操作中,客户端装置106的一个或多个用户150观看呈视听流的形式的来自内容提供商124的内容。视听流可以展示例如体育赛事的事件。视听流可以是可以容易地用已知计算机视觉技术处理的数字视听流。
随着显示视听流,系统100的一个或多个组件,例如客户端装置106、网络服务器102、应用程序服务器114和/或分析服务器116,可以分析视听流,标识视听流内的精彩片段,和/或从视听流,例如从所述流的音频分量提取元数据。可以响应于接收到对标识视听流的精彩片段和/或元数据的请求而进行此分析。替代地,在另一实施例中,可以在用户150没有做出特定请求的情况下标识精彩片段和/或元数据。在又一实施例中,可以在不显示视听流的情况下进行视听流的分析。
在至少一个实施例中,用户150可以经由客户端装置106处的输入装置151指定用于分析音频数据154的某些参数(例如要包含什么事件/比赛/团队、用户150有多少时间可用于观看精彩片段、需要什么元数据,和/或任何其它参数)。还可以从存储装置,例如从存储在一个或多个存储装置153中的用户数据155提取用户偏好,以便定制对音频数据154的分析,而未必要求用户150指定偏好。在至少一个实施例中,可基于观察到的用户150的行为和动作来确定用户偏好,例如,通过观察网站访问模式、电视观看模式、音乐收听模式、在线购买、先前精彩片段标识参数、精彩片段和/或由用户150实际观看的元数据等等。
另外或替代地,可从由用户150明确提供的先前存储的偏好中检索用户偏好。此类用户偏好可指示用户150感兴趣的是哪些球队、体育运动、运动员和/或事件类型,和/或它们可指示用户150感兴趣的是哪种类型的元数据或与精彩片段有关的其它信息。因此,此类偏好可以用于导引对视听流的分析以标识精彩片段和/或提取精彩片段的元数据。
可以包含如上文所描述的一个或多个计算装置的分析服务器116可以分析与来自数据提供商122的一个或多个事件相关的体育比赛现场解说统计数据的实况和/或所录制的馈送。数据提供商122的实例可包含但不限于例如STATSTM、Perform(购自英国伦敦的Opta Sports)以及瑞士圣加仑州的SportRadar的实时体育运动信息的提供商。在至少一个实施例中,分析服务器116针对事件生成不同组兴奋水平;此类兴奋水平可以接着根据本文中所描述的技术而结合由系统100标识或接收的精彩片段被存储。
应用程序服务器114可分析视听流以标识精彩片段和/或提取元数据。另外或替代地,此类分析可由客户端装置106进行。标识的精彩片段和/或提取的元数据可特定于用户150;在此情况下,在客户端装置106中标识与特定用户150有关的精彩片段可以是有利的。如上文所描述,客户端装置106可接收、保留和/或检索适用的用户偏好以用于精彩片段标识和/或元数据提取。另外或替代地,精彩片段生成和/或元数据提取可在全局范围内执行(即,使用适用于一般用户群体的客观标准,而不考虑特定用户150的偏好)。在此情况下,在应用程序服务器114中标识精彩片段和/或提取元数据可以是有利的。
有助于精彩片段标识、音频分析和/或元数据提取的内容可以来自任何合适来源,包含来自内容提供商124,所述内容提供商可以包含例如YouTube、MLB.com等网站;体育运动数据提供商;电视台;基于客户端或服务器的DVR等等。替代地,内容可以来自例如DVR的本地来源或与客户端装置106相关联(或内置于客户端装置中)的其它记录装置。在至少一个实施例中,应用程序服务器114生成定制的具有精彩片段和元数据的精彩片段展示,用户150可以下载、流式传输内容,或点播内容或以某一其它方式来使用所述精彩片段展示。
如上文所提及,在与特定用户150相关联的特定客户端装置106处执行特定于用户的精彩片段标识、音频分析和/或元数据提取可能是有利的。此实施例可以避免对不必要地经由通信网络104传输视频内容或其它高带宽内容的需求,特别是如果此类内容在客户端装置106处已经可用的情况下。
例如,现在参看图1B,展示了根据实施例的系统160的实例,其中音频数据154和精彩片段数据164中的至少一些存储在基于客户端的存储装置158处,所述基于客户端的存储装置可以是客户端装置106可用的任何形式的本地存储装置。实例可以是记录事件的DVR,例如用于完整体育赛事的视频内容。替代地,基于客户端的存储装置158可以是用于数字形式的数据的任何磁性、光学或电子存储装置;实例包含快闪存储器、磁性硬盘驱动器、CD-ROM、DVD-ROM,或者与客户端装置106整合或以通信方式与客户端装置106联接的其它装置。基于由应用程序服务器114提供的信息,客户端装置106可从存储在基于客户端的存储装置158处的视频内容(例如,包含音频数据154)中提取精彩片段和/或元数据,并将所述精彩片段和/或元数据存储为精彩片段数据164,而不必从内容提供商124或其它远程源检索其它内容。此布置可节省带宽,且可有效地利用客户端装置106可能已经可用的现有硬件。
返回到图1A,在至少一个实施例中,应用程序服务器114可根据个别用户偏好和/或其它参数来标识不同的精彩片段和/或提取不同用户150的不同元数据。可经由例如客户端装置106处的显示屏幕152的任何合适的输出装置将所标识的精彩片段和/或提取的元数据呈现给用户150。视需要,可标识多个精彩片段,并将其与相关联的元数据一起编译为精彩片段展示。可经由菜单来访问此类精彩片段展示,和/或将其拼接成“精彩片段集锦”或一组精彩片段,所述“精彩片段集锦”或所述一组精彩片段根据预定顺序为用户150播放。在至少一个实施例中,用户150可经由输入装置151控制相关联的元数据的精彩片段回放和/或递送,例如以:
·选择要显示的特定精彩片段和/或元数据;
·暂停、快退、快进;
·向前跳到下一精彩片段;
·返回到精彩片段展示内的前一精彩片段的开始;和/或
·执行其它动作。
在上文所引用的相关美国专利申请中提供了关于此类功能性的额外细节。
在至少一个实施例中,提供了一个或多个数据服务器118。数据服务器118可以响应来自服务器102、114、116中的任一个的对数据的请求,例如以获得或提供音频数据154、用户数据155和/或精彩片段数据164。在至少一个实施例中,此类信息可以存储在可以由数据服务器118访问的任何合适存储装置153处,并且可以来自任何合适来源,例如来自客户端装置106自身、内容提供商124、数据提供商122等等。
现在参看图1C,展示了根据替代实施例的系统180,其中在单独环境中实施系统180。与图1B所示的实施例一样,音频数据154、用户数据155和精彩片段数据164中的至少一些可以存储在例如DVR等的基于客户端的存储装置158处。替代地,基于客户端的存储装置158可以是快闪存储器或硬盘驱动器,或与客户端装置106整合的其它装置或与以通信方式与客户端装置106耦合的其它装置。
用户数据155可包含用户150的偏好和兴趣。基于此类用户数据155,系统180可提取精彩片段和/或元数据以便以本文中所描述的方式呈现给用户150。另外或替代地,可根据不基于特定于用户150的信息的客观标准来提取精彩片段和/或元数据。
现参考图1D,展示了根据替代实施例的具有架构的系统190的概观。在图1D中,系统190包含:广播服务,例如内容提供商124;内容接收器,其呈客户端装置106(例如具有STB的电视)形式;视频服务器,例如分析服务器116,其能够摄取和流式传输视听内容;和/或其它客户端装置106,例如移动装置和手提式计算机,其能够接收和处理视听内容,例如电视节目内容,所述其它客户端装置全部经由例如通信网络104之类的网络进行连接。例如DVR之类的基于客户端的存储装置158可连接到客户端装置106中的任一者和/或其它组件,并且可存储视听流、精彩片段、精彩片段标识符和/或元数据以有助于经由客户端装置106中的任一者而标识和呈现精彩片段和/或所提取的元数据。
图1A、图1B、图1C和图1D中描绘的特定硬件架构仅是示范性的。所属领域的技术人员将认识到,可使用其它架构实施本文所描述的技术。其中描绘的许多组件是任选的,且可省略、与其它组件合并和/或用其它组件替换。
在至少一个实施例中,系统可被实施为以任何合适的计算机编程语言编写的软件,无论是在独立还是客户端/服务器架构中。或者,其可硬件实施和/或嵌入硬体中。
数据结构
图2是描绘根据一个实施例的可以并入音频数据154、用户数据155和精彩片段数据164的数据结构的实例的示意性框图。
如所展示,音频数据154可以包含多个音频流200中的每一个的记录。出于说明性目的,描绘了音频流200,但本文中所描述的技术可应用于任何类型的音频数据154或内容,无论流式传输还是存储。除了音频流200之外,音频数据154的记录还可以包含根据音频流200的分析生成的或有助于所述音频流分析的其它数据。举例来说,对于每个音频流200,音频数据154可以包含频谱图202、一个或多个分析窗口204、向量206和时间索引208。
每个音频流200可驻留在时域中。可在时频域中针对对应的音频流200计算每个频谱图202。可分析频谱图202以更容易地定位软进入点。
分析窗口204可以是频谱图202的预定时间和/或频率间隔的指定。计算上,可以使用单个移动(即“滑动”)分析窗口204来分析频谱图202,或者可以使用一系列位移(任选地可重叠)分析窗口204。
向量206可以是含有来自音频流200和/或对应的频谱图202的分析的临时结果和/或最终结果的数据集。
时间索引208可指示在音频流200(和/或从中提取音频流200的视听流)内发生关键事件的时间。举例来说,时间索引208可以是视听内容内软进入点开始、居中或结束的时间。因此,时间索引208可指示视听流的特别感兴趣的部分的开始或结束,例如在体育赛事的情境中,重要的或令人印象深刻的比赛表现。
如进一步所展示,用户数据155可包含与用户150有关的记录,所述记录中的每一个可包含特定用户150的人口统计数据212、偏好214、观看历史216和购买历史218。
人口统计数据212可包含任何类型的人口统计数据,包含但不限于年龄、性别、位置、国籍、宗教信仰、教育程度等等。
偏好214可包含用户150考虑到他或她的偏好做出的选择。偏好214可直接涉及精彩片段和元数据的收集和/或观看,或者本质上可更普遍。在任一情况下,偏好214可以用于促进将精彩片段和元数据标识和/或呈现给用户150。
观看历史216可以列出由用户150所检索和/或观看的电视节目、视听流、精彩片段、网页、搜索查询、体育赛事和/或其它内容。
购买历史218可以列出由用户150所购买或请求的产品或服务。
如进一步所展示,精彩片段数据164可包含j个精彩片段220的记录,所述记录中的每一个可包含特定精彩片段220的视听流222和/或元数据224。
视听流222可包含描绘精彩片段220的音频和/或视频,所述音频和/或视频可从一个或多个事件的一个或多个视听流中获得(例如,通过剪切视听流以仅包含与精彩片段220有关的视听流222)。在元数据224内,标识符223可包含时间索引(例如音频数据154的时间索引208)和/或在从中获取精彩片段220的事件的视听流内指示所述精彩片段驻留于何处的其它标志。
在一些实施例中,精彩片段220中的每一个的记录可含有视听流222和标识符223中的仅一个。可以通过为用户150播放视听流222来执行精彩片段回放,或通过使用标识符223针对从中获取精彩片段220的事件仅播放视听流的有精彩片段的部分来执行精彩片段回放。标识符223的存储装置是任选的;在一些实施例中,标识符223可以仅用于提取精彩片段220的视听流222,其可以接着代替标识符223而存储。在任一情况下,可从音频数据154提取精彩片段220的时间索引208,并且将其至少临时存储为元数据224,所述元数据被附加到精彩片段220,或者被附加到从中获取音频数据154和精彩片段220的视听流。在一些实施例中,时间索引208可被存储为标识符223的边界232。
除了标识符223之外或替代所述标识符,元数据224可包含关于精彩片段220的信息,例如事件日期、季节、和事件中涉及的群体或个体或从中获取精彩片段220的视听流,例如团队、运动员、教练、主播、广播员和球迷等等。在其它信息中,每个精彩片段220的元数据224可包含阶段226、时钟227、得分228、帧号229和/或兴奋水平230。
阶段226可以是与精彩片段220有关的事件的阶段。更具体地说,阶段226可以是体育赛事的阶段,其中存在精彩片段220的开始、中间和/或结束。举例来说,阶段226可以是“第三局”、“第二局”、“下半场”等。
时钟227可以是与精彩片段220有关的比赛时钟。更具体地说,时钟227可以是在精彩片段220的开始、中间和/或结束的比赛时钟的状态。举例来说,精彩片段220的时钟227可以是“15:47”,所述精彩片段开始、结束或横跨体育赛事的时间段,在所述时间段,比赛时钟上显示了十五分钟四十七秒。
得分228可以是与精彩片段220有关的比赛得分。更具体地说,得分228可以是在精彩片段220的开始、结束和/或中间的得分。举例来说,得分228可以是“45-38”、“7-0”、“30-love”等。
帧号229可以是从中获取精彩片段220的视听流中的视频帧的编号,也可以是与精彩片段220有关的视听流222,所述视听流与精彩片段220的开始、中间和/或结束有关。
兴奋水平230可以是预测事件或精彩片段对特定用户150或一般用户的兴奋或感兴趣程度的度量。在至少一个实施例中,可如上文引用的相关申请中所指示的来计算兴奋水平230。另外或替代地,可至少部分地通过音频数据154的分析来确定兴奋水平230,所述音频数据可以是从视听流222和/或音频流200提取的分量。举例来说,含有较高水平的人群噪声、公告和/或快节奏音乐的音频数据154可指示用于相关联的精彩片段220的高兴奋水平230。精彩片段220的兴奋水平230不一定是静态的,而替代地在精彩片段220的过程中变化。因此,系统100可能够进一步提炼精彩片段220以向用户仅展示高于阈值兴奋水平230的部分。
图2中阐述的数据结构仅是示范性的。所属领域的技术人员将认识到,在精彩片段标识和/或元数据提取的执行中,可省略或用其它数据替换图2数据中的一些。另外或替代地,未在图2中具体展示或未在本申请中具体描述的数据可在精彩片段标识和/或元数据提取的执行中使用。
音频数据分析
在至少一个实施例中,系统在时频域中执行例如音频流的音频数据154的若干分析阶段,以便在描绘体育赛事或另一事件期间检测例如语音中的暂停或低点、音乐或其它声音之类的软进入点。描绘可以是电视广播、视听流、音频流、所存储的文件等等。
首先,将压缩的音频数据154读取、解码并重新采样到期望的采样速率。接下来,使用多个可互换的数字滤波级中的任一个对所得的PCM流进行预滤波,以减少噪声、去除咔嗒声和/或选择期望的频带。随后,针对音频数据154构建频谱图。在滑动二维时频区域窗口的每个位置处标识频谱幅度谷值。可采取进一步的步骤以更充分和/或更可靠地标识软进入点320。
对应于软进入点的时间索引208可用作精彩片段220的边界232(例如,开始或结束)。在一些实施例中,这些时间索引208可用于标识已被标识的精彩片段220的实际起点和/或终点(例如,用可以是随后可基于软进入点的标识而调整的试验性起点和终点的试验性边界232)。可在视频流内提取和/或标识精彩片段220,以供用户随后观看。
图3A描绘根据一个实施例的在时域中从体育赛事电视节目内容提取的音频流310中的音频波形图300的实例。有精彩片段的区域展示了示范性的软进入点320,例如音频流310的强度较小的部分。捕获的音频的振幅在软进入点320中可相对较低,代表音频流310的相对安静的部分。
图3B描绘根据一个实施例的在时频域中与图3A的音频波形图300相对应的频谱图350的实例。在至少一个实施例中,在时频域中执行感兴趣的事件的发生的检测和标记,并且将事件的边界232(未在图3A和3B中展示)实时呈现给视频精彩片段和元数据生成应用程序。这些边界232可用于从视频流中提取一个或多个精彩片段220,或者以更高的精度确定视频流中每个精彩片段220的开始和/或结束,使得精彩片段220可播放,而不会播放表示视频流中不属于精彩片段部分的其它内容。边界232可用于通过帮助确定内容中的适当过渡点(例如在句子结尾处或音频暂停期间)来减少从一个精彩片段220到另一个精彩片段的过渡中的突变。在一些实施例中,边界232可并入元数据224中,例如在标识精彩片段220的开始和/或结束的标识符223中,如图2的描述中所阐述。
音频数据分析和元数据提取
图4是描绘根据一个实施例的用于通过重新采样、滤波和频谱图构建来进行音频预处理的方法400的流程图。在至少一个实施例中,方法400可根据一个实施例由应用程序(例如,在客户端装置106和/或分析服务器116中的一个上运行)执行,所述应用程序接收视听流并执行音频数据154的即时处理以用于标识例如与精彩片段220的边界232对应的软进入点320。根据方法400,诸如音频流310之类的音频数据154可被处理以通过检测音频、视频和/或视听节目内容的片段之间的暂停、中断或其它自然隔断来检测音频数据154中的软进入点320。
在至少一个实施例中,对已从视听流或其它视听内容提取的音频数据154执行方法400(和/或本文中所描述的其它方法)。替代地,本文中所描述的技术可以应用于其它类型的来源内容。举例来说,不需要从视听流提取音频数据154;更确切地,其可以是体育赛事或其它事件的无线电广播或其它音频描绘。
在至少一个实施例中,方法400(和/或本文中所描述的其它方法)可由例如图1A的系统100之类的系统执行;然而,可使用替代系统(包含但不限于图1B的系统160、图1C的系统180和图1D的系统190)来代替图1A的系统100。此外,以下描述假定将标识强度较小的音频事件;然而,应理解,可根据与本文中明确描述的那些方法类似的方法来标识不同类型的可听事件并将其用于提取元数据和/或标识精彩片段220的边界232。在一些实施例中,特定的音频和/或视觉提示(诸如音调、黑屏等)可被标识为软进入点。
图4的方法400可从步骤410开始,在所述步骤中,读取例如音频流200的音频数据154;如果音频数据154呈压缩格式,则可任选地对其进行解码。在步骤420中,音频数据154可以被重新采样到期望的采样速率。在步骤430中,可使用多个可互换的数字滤波级中的任一者来对音频数据154进行滤波。接下来,在步骤440中,可任选地为滤波后的音频数据154生成频谱图202,例如通过在滤波后的音频数据154的一秒块上计算短时傅立叶变换(STFT)。可将频谱图202的时频系数保存在二维阵列中以用于进一步处理。
在一些实施例中,当仅对音频流中的相对安静区域感兴趣时,无论频谱内容如何,都可省略步骤440,并且可仅经由时域音频数据154的性能来简化进一步的分析。但是,在此情况下,可能会由于仅基于音频音量阈值的固有不可靠指示符而发生不期望的软进入检测,而不考虑与特定感兴趣的声音(例如评论员的语音和/或背景观众噪声)相关的频谱内容,它在时域中的音量可较小,但可在时频域中具有丰富的频谱内容。在一些实施例中,还可在时域和时频域两者中进行音频流的分析,随后将检测到的软进入点合并到最终结果中。在下文图5至10的描述中,假定已执行了步骤440,并且音频分析步骤是在与音频数据154对应的频谱图202上执行的(例如,如上文所描述,在对音频数据154进行解码、重新采样和/或滤波之后)。可形成音频流中的软进入点的最终向量,其中重点是但不限于检测与评论者语音间隙(例如,单词、词组和句子结尾)有关的音频流片段的低音量和低频谱内容。
图5是描绘根据一个实施例的用于在时频域中分析例如音频流200的音频数据154的方法500的流程图,例如通过分析频谱图202以生成所选的限定符/位置对的初始向量。首先,在步骤510中,选择大小为(F×T)的二维矩形时频分析窗口204,其中T是多秒值(通常为~100毫秒),且F是要考虑的频率范围(通常为100Hz至3kHz)。接下来,在步骤520中,在相邻分析窗口204之间选择窗口重叠区N,并且计算窗口滑动步长S=(T-N)(通常为~20毫秒)。
方法进行到步骤530,在所述步骤中,分析窗口204沿着频谱时间轴在频谱图202的时间轴上以连续步长S滑动。在步骤540中,在分析窗口204的每个位置处,计算平均频谱幅度指示符(spectral magnitude indicator;SMI)。在步骤550中,也可确定频谱图的最大SMI值M。在步骤560中,可生成SMI低于阈值的SMI/位置对向量。
在步骤570中,可根据等式Q=(M-SMI)*MFACT将每个SMI转换为整数限定符Q,其中MFACT是用于提取期望数量的整数的因子。在步骤580中,可生成Q/位置对的初始向量作为潜在软进入点320的超集。然后,方法500可在每个一秒间隔进行以使限定符最大化。
图6是描绘根据一个实施例的用于在每个一秒间隔生成具有最大化限定符的向量的方法600的流程图。这可包含步骤610,在所述步骤中,具有Q/位置元素的初始向量在一秒边界上被划分。在每个一秒连续间隔内,可执行通过限定符Q进行的分类。在步骤620中,可仅保留每个一秒间隔具有最大Q的Q/位置对。在步骤630中,可形成具有最大化的Q值的第一软进入向量。
图7是描绘根据一个实施例的用于进一步选择具有可变间隔和最大化本地邻域限定符的软进入点320的方法700的流程图。此类处理可导致生成扩展的可变大小间隔(相互距离)以用于软进入(通常平均2至3秒),和在每个间隔的本地邻域对频谱限定符的同时最大化。
如所展示,方法700可开始710,其中将锚点(先前位置)设置为零。然后,在步骤720中,方法700可逐步遍历第一软进入向量的时间分量以检测下一时间位置并将其加载到当前位置。在每个步骤,可执行查询730,其中相对于阈值检查从当前位置到先前位置的时间距离。如果此距离大于所述阈值(例如,两秒),则在步骤740中可采用当前位置进行进一步处理。如果此距离不大于所述阈值,则可针对新时间位置重复步骤720。
步骤740可包含测试所保留的当前位置的紧接邻域,以及标识具有最大Q的元素。在步骤750中,可将此元素加载到先前位置,所述位置现在成为新锚点用于进一步测试。在步骤760中,也可用此局部最大化的Q/位置对来填充最终的软进入向量。
方法700可在连续的步骤中进行,直到第一软进入向量的所有元素都用完为止。具体地说,查询770可确定是否已经到达软进入向量的结尾。如果是,则可在步骤780中提供最终的软进入向量。如果不是,则方法700可返回到步骤720以进行进一步的迭代。
图8是描绘根据一个实施例的用于任选地修改稀疏分段的检测到的进入点的方法800的流程图。对于在有精彩片段的事件的边界上没有那么严格要求的情况,方法800可用于进一步使Q限定符最大化。方法800可以步骤810开始,其中方法800一次一个地逐步遍历软进入向量元素。在查询820中,方法800可针对阈值测试Q值。在步骤840中,可去除低于阈值的Q/位置对。在步骤830中,可保留高于阈值的Q/位置对。
方法800可在连续步骤中进行,直到最终软进入向量的所有元素都用完为止。具体地说,查询850可确定是否已经到达了最终软进入向量的结尾。如果是,则方法800可进行到软进入点320的列表的形成和精彩片段处理。如果不是,则方法800可返回到步骤810以进行进一步的迭代。
图9是描述根据一个实施例的用于基于可用软进入点的列表来组装经调整的精彩片段220的方法900的流程图。首先,在步骤910中,可标识精彩片段220的试验性边界232。接下来,在步骤920中,可执行对软进入点320的列表的搜索,并且可生成针对精彩片段220的一个或多个试验性边界232的最佳近似。接下来,在步骤930中,可根据从列表中获得的最佳近似来调整试验性边界232。在步骤940中,可提取具有经修改边界的精彩片段220,并且任选地通过部署具有镜像的前和尾曲率的衰减函数进行处理,从而允许在不相交片段之间进一步平滑音频过渡(例如,在精彩片段卷轴中连续播放多个精彩片段220)。
已经关于可能的实施例以特定细节描述了本系统和方法。所属领域的技术人员将了解,可在其它实施例中实践所述系统和方法。首先,组件的特定命名、术语的大写、属性、数据结构或任何其它编程或结构方面不是强制的或重要的,且所述机制和/或特征可具有不同的名称、格式或协议。此外,所述系统可经由硬件与软件的组合或完全以硬件元件或完全以软件元件来实施。此外,本文中所描述的各种系统组件之间的功能性的特定划分仅是示范性的,且不是强制的;由单个系统组件执行的功能可以实际上由多个组件执行,且由多个组件执行的功能可以实际上由单个组件执行。
在本说明书中提到“一个实施例”或“一实施例”意味着与实施例结合描述的特定特征、结构或特性包含在至少一个实施例中。短语“在一个实施例中”或“在至少一个实施例中”在说明书中各种地方的出现不一定全部参考同一实施例。
各种实施例可包含用于单独或以任何组合执行上述技术的任何数目的系统和/或方法。另一实施例包含计算机程序产品,其包括非暂时性计算机可读存储介质和经编码于介质上的计算机程序代码,用于致使计算装置或其它电子装置中的处理器执行上述技术。
上文的一些部分是在对计算装置的存储器内的数据位的操作的算法和符号表示方面来呈现。这些算法描述和表示是数据处理领域的技术人员用以将其工作的主旨最有效地传达给所属领域的其它技术人员的方法。算法此处且大体上构想为产生所需结果的步骤(指令)的自一致序列。步骤是要求对物理量进行物理操控的步骤。通常但不一定,这些量采取能够被存储、传送、组合、比较和另外操纵的电、磁或光学信号的形式。主要出于常用的原因,将这些信号称为位、值、元件、符号、字符、术语、编号等等有时是便利的。此外,在不失一般性的情况下将需要对物理量的物理操纵的步骤的某些布置称为模块或代码装置有时也是便利的。
然而,应牢记,所有这些和类似术语应与适当物理量相关联,且仅仅是应用于这些量的方便标签。除非从以下论述显而易见确切地陈述是其它情况,否则应了解贯穿所述描述,利用例如“处理”或“计算”或“运算”或“显示”或“确定”或类似术语的论述都指代计算机系统或相似电子计算模块和/或装置的动作和过程,所述动作和过程操纵且变换计算机系统存储器或寄存器或其它此类信息存储装置、发射或显示装置内的表示为物理(电子)量的数据。
某些方面包含本文中所描述的呈算法形式的处理步骤和指令。应注意,所述处理步骤和指令可以软件、固件和/或硬件实施,且当以软件实施时可经下载以驻留于不同平台上和从不同平台操作以供多种操作系统使用。
本文档还涉及用于执行本文的操作的设备。此设备可以出于所需目的而专门构建,或其可以包括通过存储在计算装置中的计算机程序选择性激活或重新配置的通用计算装置。此计算机程序可以存储在计算机可读存储介质中,例如但不限于包含软盘的任何类型的磁盘、光盘、CD-ROM、DVD-ROM、磁光盘、只读存储器(read-only memorie;ROM)、随机存取存储器(random access memories;RAM)、EPROM、EEPROM、快闪存储器、固态驱动器、磁卡或光卡、专用集成电路(application specific integrated circuit;ASIC),或适合于存储电子指令且各自耦合到计算机系统总线的任何类型的介质。所述程序及其相关联的数据也可以在例如服务器上远程地托管和运行。此外,本文中所提到的计算装置可以包含单个处理器或可以是采用多处理器设计以用于增加计算能力的架构。
本文中所呈现的算法和显示本身不与任何特定计算装置、虚拟化系统或其它设备相关。各种通用系统也可以与根据本文中的教示的程序一起使用,或其可以是更便于构建用以执行所需方法步骤的专用设备。用于多种这些系统的期望结构将从本文中所提供的描述中变得显而易见。另外,不参考任何特定编程语言描述所述系统和方法。将了解,可使用多种编程语言来实施本文所描述的教示,且提供上文对特定语言的任何参考以用于实现和最佳模式的公开。
因此,各种实施例包含用于控制计算机系统、计算装置或其它电子装置的软件、硬件和/或其它元件,或者其任何组合或多个组合。根据此项技术中众所周知的技术,此类电子装置可包含例如处理器、输入装置(例如键盘、鼠标、触摸垫、轨迹垫、操纵杆、轨迹球、麦克风和/或其任何组合)、输出装置(例如屏幕、扬声器等等)、存储器、长期存储装置(例如磁性存储装置、光学存储装置等等),和/或网络连接性。此类电子装置可以是便携式或非便携式的。可以用于实施所描述系统和方法的电子装置的实例包含:台式计算机、膝上型计算机、电视、智能电话、平板电脑、音乐播放器、音频装置、一体机、机顶盒、游戏系统、可穿戴式装置、消费者电子装置、服务器计算机等等。电子装置可使用任何操作系统,例如且不限于:Linux;购自华盛顿雷德蒙德市的微软公司的Microsoft Windows;购自加利福尼亚库比蒂诺市的苹果公司的Mac OS X;购自加利福尼亚库比蒂诺市的苹果公司的iOS;购自加利福尼亚山景城的谷歌公司的Android;和/或适合于在所述装置上使用的任何其它操作系统。
虽然本文已经描述有限数目的实施例,但得益于以上描述的所属领域的技术人员将了解,可以设计其它实施例。另外应注意,已主要为便于阅读和指导性目的而选择在说明书中使用的语言,且可能并不是为了划定或包含标的物而选择。因此,本公开希望说明范围但不限制范围。

Claims (40)

1.一种用于标识描绘事件的视听内容的精彩片段的边界的方法,所述方法包括:
在数据存储区处,存储描绘所述事件的至少部分的音频数据;
在处理器处,自动分析所述音频数据以检测所述音频数据的软进入点;以及
在所述处理器处,在所述视听内容内将与所述软进入点相对应的时间索引指定为所述边界,所述边界包括所述精彩片段的开始和所述精彩片段的结束中的一个。
2.根据权利要求1所述的方法,其中所述视听内容包括电视广播。
3.根据权利要求1所述的方法,其中所述视听内容包括视听流,并且其中所述方法进一步包括:在存储描绘所述事件的至少部分的音频数据之前,从所述视听流中提取所述音频数据。
4.根据权利要求1所述的方法,其中所述视听内容包括所存储的视听内容,并且其中所述方法进一步包括:在存储描绘所述事件的至少部分的音频数据之前,从所述所存储的视听内容中提取所述音频数据。
5.根据权利要求1所述的方法,其中:
所述事件包括体育赛事;并且
所述精彩片段描绘所述体育赛事中被认为是至少一个用户特别感兴趣的部分。
6.根据权利要求5所述的方法,其进一步包括:在输出装置处,在检测所述软进入点期间播放所述视听内容和所述精彩片段中的至少一个。
7.根据权利要求1所述的方法,其进一步包括:在检测所述软进入点之前,通过将所述音频数据重新采样到期望的采样速率来预处理所述音频数据。
8.根据权利要求1所述的方法,其进一步包括:在检测所述软进入点之前,通过对所述音频数据进行滤波以执行以下各者中的至少一个来预处理所述音频数据:
减少噪声;以及
选择感兴趣的频谱带。
9.根据权利要求1所述的方法,其进一步包括:在检测所述软进入点之前,处理所述音频数据以生成针对所述音频数据的至少部分的频谱图。
10.根据权利要求9所述的方法,其中检测所述软进入点包括:针对所述频谱图应用亚秒时间范围的滑动二维时频分析窗口。
11.根据权利要求10所述的方法,其中检测所述软进入点包括:
为所述滑动二维时频分析窗口的每个位置计算平均频谱幅度指示符;以及
使用所述平均频谱幅度指示符以形成所述频谱图的频谱幅度指示符/位置对的向量。
12.根据权利要求11所述的方法,其中检测所述软进入点进一步包括:
对于具有频谱幅度指示符/位置对的所述向量的每个元素,将所述频谱幅度指示符转换为整数限定符Q;以及
为所述频谱图生成具有Q/位置对的初始向量。
13.根据权利要求12所述的方法,其中检测所述软进入点进一步包括:
将具有Q/位置对的所述初始向量划分为连续的一秒间隔;以及
使每一秒间隔的Q最大化。
14.根据权利要求13所述的方法,其中使每一秒间隔的Q最大化包括:
针对每个一秒间隔对限定符Q进行分类;以及
在每个一秒间隔中执行非最大抑制以形成所述频谱图的Q/位置对的第一向量。
15.根据权利要求14所述的方法,其中检测所述软进入点进一步包括:
逐步遍历Q/位置对的所述第一向量的元素的时间位置;
对于每个时间位置,将当前位置的时间与先前位置的时间进行比较以获得时间距离;
对于所述时间距离大于阈值所针对的Q/位置对的所述第一向量的每个元素,在所述当前位置的紧接邻域中找到最大Q;以及
用具有所述最大Q的所述Q/位置对填充新软进入向量。
16.根据权利要求15所述的方法,其中在所述紧接邻域中找到所述最大Q进一步包括:
将所述第一向量的第一元素指定为锚元素;以及
选择与所述第一元素相距约两秒的下一个元素。
17.根据权利要求16所述的方法,其中在所述紧接邻域中找到所述最大Q进一步包括:
检查靠近所述下一个元素的任一侧的元素;以及
将所述下一个元素以及靠近所述下一个元素的任一侧的所述元素中具有最大化限定符Q的所述元素指定为新锚元素。
18.根据权利要求17所述的方法,其中在所述紧接邻域中找到所述最大Q进一步包括:在连续的步骤中处理Q/位置对的所述第一向量的所有元素,以产生具有可变相互距离并且具有最大化频谱限定符Q的一组软进入点。
19.根据权利要求18所述的方法,其进一步包括:
将所述一组软进入点转变为最佳进入点列表;以及
从所述最佳进入点列表中选择所述时间索引。
20.根据权利要求1所述的方法,其进一步包括:在将所述时间索引指定为所述边界之前,用试验性边界来标识所述精彩片段;
其中:
在所述音频数据中的多个软进入点中的所述软进入点在时间上最接近所述试验性边界;并且
将所述时间索引指定为所述边界包括用所述边界替换所述试验性边界。
21.一种用于标识描绘事件的视听内容的精彩片段的边界的非暂时性计算机可读介质,其包括存储在其上的指令,所述指令在由处理器执行时执行以下步骤:
使数据存储区存储描绘所述事件的至少部分的音频数据;
自动分析所述音频数据以检测所述音频数据的软进入点;以及
在所述视听内容内将与所述软进入点相对应的时间索引指定为所述边界,所述边界包括所述精彩片段的开始和所述精彩片段的结束中的一个。
22.根据权利要求21所述的非暂时性计算机可读介质,其中所述视听内容包括电视广播。
23.根据权利要求21所述的非暂时性计算机可读介质,其中:
所述事件包括体育赛事;并且
所述精彩片段描绘所述体育赛事中被认为是至少一个用户特别感兴趣的部分。
24.根据权利要求23所述的非暂时性计算机可读介质,其进一步包括存储在其上的指令,所述指令在由处理器执行时使输出装置在检测所述软进入点期间播放所述视听内容和所述精彩片段中的至少一个。
25.根据权利要求21所述的非暂时性计算机可读介质,其进一步包括存储在其上的指令,所述指令在由处理器执行时,在检测所述软进入点之前,通过执行以下各者中的至少一个来预处理所述音频数据:
将所述音频数据重新采样到期望的采样速率;
对所述音频数据进行滤波以减少噪声;以及
对所述音频数据进行滤波以选择感兴趣的频谱带。
26.根据权利要求21所述的非暂时性计算机可读介质,其进一步包括存储在其上的指令,所述指令在由处理器执行时,在检测所述软进入点之前,预处理所述音频数据,处理所述音频数据以生成针对所述音频数据的至少部分的频谱图。
27.根据权利要求26所述的非暂时性计算机可读介质,其中检测所述软进入点包括:针对所述频谱图应用亚秒时间范围的滑动二维时频分析窗口。
28.根据权利要求27所述的非暂时性计算机可读介质,其中检测所述软进入点包括:
为所述滑动二维时频分析窗口的每个位置计算平均频谱幅度指示符;
使用所述平均频谱幅度指示符以形成所述频谱图的频谱幅度指示符/位置对的向量;
对于具有频谱幅度指示符/位置对的所述向量的每个元素,将所述频谱幅度指示符转换为整数限定符Q;
为所述频谱图生成具有Q/位置对的初始向量;
将具有Q/位置对的所述初始向量划分为连续的一秒间隔;以及
使每一秒间隔的Q最大化;
其中使每一秒间隔的Q最大化包括:
针对每个一秒间隔对限定符Q进行分类;以及
在每个一秒间隔中执行非最大抑制以形成所述频谱图的Q/位置对的第一向量。
29.根据权利要求28所述的非暂时性计算机可读介质,其中检测所述软进入点进一步包括:
逐步遍历Q/位置对的所述第一向量的元素的时间位置;
对于每个时间位置,将当前位置的时间与先前位置的时间进行比较以获得时间距离;
对于所述时间距离大于阈值所针对的Q/位置对的所述第一向量的每个元素,在所述当前位置的紧接邻域中找到最大Q;以及
用具有所述最大Q的所述Q/位置对填充新软进入向量;
其中在所述紧接邻域中找到所述最大Q进一步包括:
将所述第一向量的第一元素指定为锚元素;
选择与所述第一元素相距约两秒的下一个元素;
检查靠近所述下一个元素的任一侧的元素;
将所述下一个元素以及靠近所述下一个元素的任一侧的所述元素中具有最大化限定符Q的所述元素指定为新锚元素;以及
在连续的步骤中处理Q/位置对的所述第一向量的所有元素,以产生具有可变相互距离并且具有最大化频谱限定符Q的一组软进入点;
其中所述非暂时性计算机可读介质进一步包括存储在其上的指令,所述指令在由处理器执行时:
将所述一组软进入点转变为最佳进入点列表;以及
从所述最佳进入点列表中选择所述时间索引。
30.根据权利要求21所述的非暂时性计算机可读介质,其进一步包括存储在其上的指令,所述指令在由处理器执行时,在将所述时间索引指定为所述边界之前,用试验性边界来标识所述精彩片段;
其中:
在所述音频数据中的多个软进入点中的所述软进入点在时间上最接近所述试验性边界;并且
将所述时间索引指定为所述边界包括用所述边界替换所述试验性边界。
31.一种用于标识描绘事件的视听内容的精彩片段的边界的系统,所述系统包括:
数据存储区,其被配置成存储描绘所述事件的至少部分的音频数据;以及
处理器,其被配置成:
自动分析所述音频数据以检测所述音频数据的软进入点;并且
在所述视听内容内将与所述软进入点相对应的时间索引指定为所述边界,所述边界包括所述精彩片段的开始和所述精彩片段的结束中的一个。
32.根据权利要求31所述的系统,其中所述视听内容包括电视广播。
33.根据权利要求31所述的系统,其中:
所述事件包括体育赛事;并且
所述精彩片段描绘所述体育赛事中被认为是至少一个用户特别感兴趣的部分。
34.根据权利要求33所述的系统,其进一步包括输出装置,所述输出装置被配置成在检测所述软进入点期间播放所述视听内容和所述精彩片段中的至少一个。
35.根据权利要求31所述的系统,其中所述处理器进一步被配置成在检测所述软进入点之前,预处理所述音频数据以执行以下各者中的至少一个:
将所述音频数据重新采样到期望的采样速率;
对所述音频数据进行滤波以减少噪声;以及
对所述音频数据进行滤波以选择感兴趣的频谱带。
36.根据权利要求31所述的系统,其中所述处理器进一步被配置成在检测所述软进入点之前,处理所述音频数据以生成针对所述音频数据的至少部分的频谱图。
37.根据权利要求36所述的系统,其中所述处理器进一步被配置成通过针对所述频谱图应用亚秒时间范围的滑动二维时频分析窗口来检测所述软进入点。
38.根据权利要求37所述的系统,其中所述处理器进一步被配置成通过以下各者来检测所述软进入点:
为所述滑动二维时频分析窗口的每个位置计算平均频谱幅度指示符;
使用所述平均频谱幅度指示符以形成所述频谱图的频谱幅度指示符/位置对的向量;
对于具有频谱幅度指示符/位置对的所述向量的每个元素,将所述频谱幅度指示符转换为整数限定符Q;
为所述频谱图生成具有Q/位置对的初始向量;
将具有Q/位置对的所述初始向量划分为连续的一秒间隔;以及
使每一秒间隔的Q最大化;
其中所述处理器进一步被配置成通过以下各者来使每一秒间隔的Q最大化:
针对每个一秒间隔对限定符Q进行分类;以及
在每个一秒间隔中执行非最大抑制以形成所述频谱图的Q/位置对的第一向量。
39.根据权利要求38所述的系统,其中所述处理器进一步被配置成进一步通过以下各者来检测所述软进入点:
逐步遍历Q/位置对的所述第一向量的元素的时间位置;
对于每个时间位置,将当前位置的时间与先前位置的时间进行比较以获得时间距离;
对于所述时间距离大于阈值所针对的Q/位置对的所述第一向量的每个元素,在所述当前位置的紧接邻域中找到最大Q;以及
用具有所述最大Q的所述Q/位置对填充新软进入向量;
其中所述处理器进一步被配置成通过以下各者在所述紧接邻域中找到所述最大Q:
将所述第一向量的第一元素指定为锚元素;
选择与所述第一元素相距约两秒的下一个元素;
检查靠近所述下一个元素的任一侧的元素;
将所述下一个元素以及靠近所述下一个元素的任一侧的所述元素中具有最大化限定符Q的所述元素指定为新锚元素;
在连续的步骤中处理Q/位置对的所述第一向量的所有元素,以产生具有可变相互距离并且具有最大化频谱限定符Q的一组软进入点;
其中所述处理器进一步被配置成:
将所述一组软进入点转变为最佳进入点列表;以及
从所述最佳进入点列表中选择所述时间索引。
40.根据权利要求31所述的系统,其中所述处理器进一步被配置成在将所述时间索引指定为所述边界之前,用试验性边界来标识所述精彩片段;
其中:
在所述音频数据中的多个软进入点中的所述软进入点在时间上最接近所述试验性边界;并且
将所述时间索引指定为所述边界包括用所述边界替换所述试验性边界。
CN201980058718.7A 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理 Active CN113170228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310741442.0A CN117041659A (zh) 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862712041P 2018-07-30 2018-07-30
US62/712,041 2018-07-30
US201862746454P 2018-10-16 2018-10-16
US62/746,454 2018-10-16
US16/440,229 2019-06-13
US16/440,229 US20200037022A1 (en) 2018-07-30 2019-06-13 Audio processing for extraction of variable length disjoint segments from audiovisual content
PCT/US2019/042391 WO2020028057A1 (en) 2018-07-30 2019-07-18 Audio processing for extraction of variable length disjoint segments from audiovisual content

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310741442.0A Division CN117041659A (zh) 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理

Publications (2)

Publication Number Publication Date
CN113170228A true CN113170228A (zh) 2021-07-23
CN113170228B CN113170228B (zh) 2023-07-14

Family

ID=69178979

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980058718.7A Active CN113170228B (zh) 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理
CN202310741442.0A Pending CN117041659A (zh) 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310741442.0A Pending CN117041659A (zh) 2018-07-30 2019-07-18 用于从视听内容中提取可变长度不相交片段的音频处理

Country Status (7)

Country Link
US (1) US20200037022A1 (zh)
EP (1) EP3831083A4 (zh)
JP (1) JP2021533405A (zh)
CN (2) CN113170228B (zh)
AU (1) AU2019314223A1 (zh)
CA (1) CA3108129A1 (zh)
WO (1) WO2020028057A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808615A (zh) * 2021-08-31 2021-12-17 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11934439B1 (en) * 2023-02-27 2024-03-19 Intuit Inc. Similar cases retrieval in real time for call center agents

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6452875B1 (en) * 1998-06-30 2002-09-17 International Business Machines Corp. Multimedia search and indexing for automatic selection of scenes and/or sounds recorded in a media for replay by setting audio clip levels for frequency ranges of interest in the media
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20070162924A1 (en) * 2006-01-06 2007-07-12 Regunathan Radhakrishnan Task specific audio classification for identifying video highlights
CN101018347A (zh) * 2006-02-09 2007-08-15 智辉研发股份有限公司 用以检测媒体数据流中精彩片段的装置以及相关方法
CN101650722A (zh) * 2009-06-01 2010-02-17 南京理工大学 基于音视频融合的足球视频精彩事件检测方法
CN103999150A (zh) * 2011-12-12 2014-08-20 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
CN105912560A (zh) * 2015-02-24 2016-08-31 泽普实验室公司 基于语音识别检测体育视频精彩部分
US20160314803A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US20170228600A1 (en) * 2014-11-14 2017-08-10 Clipmine, Inc. Analysis of video game videos for information extraction, content labeling, smart video editing/creation and highlights generation
US20180192158A1 (en) * 2016-12-29 2018-07-05 Arris Enterprises Llc Video segment detection and replacement

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4615166B2 (ja) * 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
KR100863122B1 (ko) * 2002-06-27 2008-10-15 주식회사 케이티 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
JP5034516B2 (ja) * 2007-01-26 2012-09-26 富士通モバイルコミュニケーションズ株式会社 ハイライトシーン検出装置
JP2011075935A (ja) * 2009-09-30 2011-04-14 Toshiba Corp 音声処理装置、プログラム、音声処理方法および録画装置
JP5559128B2 (ja) * 2011-11-07 2014-07-23 株式会社東芝 装置、方法及びプログラム
WO2015133782A1 (ko) * 2014-03-03 2015-09-11 삼성전자 주식회사 컨텐츠 분석 방법 및 디바이스

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6452875B1 (en) * 1998-06-30 2002-09-17 International Business Machines Corp. Multimedia search and indexing for automatic selection of scenes and/or sounds recorded in a media for replay by setting audio clip levels for frequency ranges of interest in the media
US20040167767A1 (en) * 2003-02-25 2004-08-26 Ziyou Xiong Method and system for extracting sports highlights from audio signals
US20070162924A1 (en) * 2006-01-06 2007-07-12 Regunathan Radhakrishnan Task specific audio classification for identifying video highlights
CN101018347A (zh) * 2006-02-09 2007-08-15 智辉研发股份有限公司 用以检测媒体数据流中精彩片段的装置以及相关方法
US9299364B1 (en) * 2008-06-18 2016-03-29 Gracenote, Inc. Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications
CN101650722A (zh) * 2009-06-01 2010-02-17 南京理工大学 基于音视频融合的足球视频精彩事件检测方法
CN103999150A (zh) * 2011-12-12 2014-08-20 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US20170228600A1 (en) * 2014-11-14 2017-08-10 Clipmine, Inc. Analysis of video game videos for information extraction, content labeling, smart video editing/creation and highlights generation
CN105912560A (zh) * 2015-02-24 2016-08-31 泽普实验室公司 基于语音识别检测体育视频精彩部分
US20160314803A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US20180192158A1 (en) * 2016-12-29 2018-07-05 Arris Enterprises Llc Video segment detection and replacement

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808615A (zh) * 2021-08-31 2021-12-17 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质
CN113808615B (zh) * 2021-08-31 2023-08-11 北京字跳网络技术有限公司 音频类别定位方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP3831083A4 (en) 2022-06-08
CA3108129A1 (en) 2020-02-06
JP2021533405A (ja) 2021-12-02
US20200037022A1 (en) 2020-01-30
WO2020028057A1 (en) 2020-02-06
EP3831083A1 (en) 2021-06-09
CN113170228B (zh) 2023-07-14
CN117041659A (zh) 2023-11-10
AU2019314223A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
CN112753225B (zh) 用于嵌入信息卡定位和内容提取的视频处理
US11025985B2 (en) Audio processing for detecting occurrences of crowd noise in sporting event television programming
US11922968B2 (en) Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11677711B2 (en) Metrics-based timeline of previews
CN113170228B (zh) 用于从视听内容中提取可变长度不相交片段的音频处理
CN118158470A (zh) 用于嵌入信息卡定位和内容提取的视频处理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant