CN115119043A - 情境驱动式内容快倒的方法和系统 - Google Patents

情境驱动式内容快倒的方法和系统 Download PDF

Info

Publication number
CN115119043A
CN115119043A CN202210746377.6A CN202210746377A CN115119043A CN 115119043 A CN115119043 A CN 115119043A CN 202210746377 A CN202210746377 A CN 202210746377A CN 115119043 A CN115119043 A CN 115119043A
Authority
CN
China
Prior art keywords
digital content
dialog
fast
content
trigger event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210746377.6A
Other languages
English (en)
Inventor
K·孙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OpenTV Inc
Original Assignee
OpenTV Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OpenTV Inc filed Critical OpenTV Inc
Publication of CN115119043A publication Critical patent/CN115119043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44227Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及情境驱动式内容快倒的方法和系统。示例性实施方案提供用于基于数字内容的情境在回放期间快倒所述数字内容的系统和方法。内容快倒系统电子存取数字内容。快倒触发事件由所述系统检测。所述系统分析所述数字内容以检测所述数字内容内的至少一个对话段。所述分析是基于所述数字内容的情境,例如,所述数字内容内的对话。所述系统通过快倒至前一对话段的开始点来快倒所述数字内容的回放。

Description

情境驱动式内容快倒的方法和系统
本申请是中国专利申请号为201780037283.9,发明名称为“情境驱动式内容快倒的方法和系统”,申请日为2017年6月15日的进入中国的PCT专利申请的分案申请。
与相关申请的交叉引用
本申请要求2016年6月15日提交的美国专利申请No.15/183,604的优先权,其全部内容以引用的方式并入本文中。
技术领域
本发明总体而言涉及机器,所述机器配置到专用机器的技术领域,所述机器有助于管理包含此类专用机器的计算机化变型的数字内容和对此类变型的改进,且涉及与有助于数字内容的管理的其它专用机器相比此类专用机器改善所借助的技术。具体地,本发明使系统和方法专注于目前数字内容,并且在具体示例性实施方案中,专注于用于基于数字内容的情境动态且自动地快倒和显示数字内容的机制。
背景技术
当消耗数字内容(例如,观看电视节目或电影)时,观看者可能错过关键的故事发展或对话。如果观看者确定出它可能影响他对故事主线的理解,那么当经由过顶(over-the-top,OTT)内容、个人录像机(PVR)录制观看或通过回看缓冲器观看时,他可快倒数字内容。用于实施快倒的一种惯用方法是基于时间的。例如,当观看者按下遥控器上的快倒按钮时,数字内容被快倒回固定秒数。用于实施快倒的另一种惯用方法是基于场景的。基于场景的快倒将数字内容快倒回至例如存在场景改变的一系列位置中的位置(例如,按章节、按帧)。另外仍然,观看者可手动触发和停止快倒。
这些惯用和手动的快倒未考虑在快倒时的口头对话。举例而言,当快倒将观看者带回到章节或场景的开头时,可能过度执行了快倒的效果。这种过度快倒导致观看者等待多秒时间,直到一段错过的对话开始回放。等待不仅浪费时间和资源,而且打乱了故事的心流。
发明内容
本发明的示例性实施方案提供了一种情境驱动式内容快倒的方法,其包括:由内容处理系统使数字内容在用户的装置上显示;利用内容处理系统的一个或更多个硬件处理器来检测快倒触发事件以快倒数字内容;基于快倒触发事件来确定多个对话段,以快倒数字内容;响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;以及响应于识别出对话段,由内容处理系统将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
本发明的示例性实施方案提供了一种情境驱动式内容快倒的系统,其包括:一个或更多个硬件处理器;以及存储器,其存储指令,所述指令在由一个或更多个硬件处理器执行时使得一个或更多个硬件处理器执行包括以下的操作:使数字内容在用户的装置上显示;检测快倒触发事件以快倒数字内容;基于快倒触发事件来确定多个对话段,以快倒数字内容;响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;响应于识别出对话段,将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
本发明的示例性实施方案提供了一种机器可读存储介质,其具有指令,所述指令在由机器的一个或更多个硬件处理器执行时使得机器执行包括以下的操作:使数字内容在用户的装置上显示;检测快倒触发事件以快倒数字内容;基于快倒触发事件来确定多个对话段,以快倒数字内容;响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;以及响应于识别出对话段,将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
附图说明
附图中的各图仅说明本发明的示例性实施方案,且不能被视为限制其范围。
图1是说明根据示例性实施方案的用于提供数字内容的情境驱动式快倒的示例环境的图。
图2是说明情境快倒系统的示例性实施方案的框图。
图3是说明根据示例性实施方案的数字内容的情境驱动式快倒的图。
图4是用于提供情境驱动式快倒的示例性方法的流程图。
图5是用于验证和调整用于情境驱动式快倒的开始点的示例性方法的流程图。
图6是根据示例性实施方案的呈计算系统的示例形式的机器的图形表示,在所述计算系统内,可执行一组指令以用于使机器执行本文中论述的方法中的任何一个或多个。
具体实施方式
以下描述包括实施本发明主题的说明性实施方案的系统、方法、技术、指令序列和计算机器程序产品。在以下描述中,出于解释的目的,阐述了众多具体细节以便提供对本发明的主题的各种实施方案的理解。然而,对于本领域技术人员将明显的是,可在无这些具体细节中的一些或其它的情况下实践本发明主题的实施方案。一般来说,尚未详细示出众所周知的指令示例、协议、结构和技术。示例仅代表可能的变化。除非另外明确陈述,否则结构(例如,结构组件,例如模块)是任选的且可组合或细分,且(例如,在程序、算法或其它函数中的)操作可以在顺序方面不同或者加以组合或细分。
示例性方法(例如,算法)有助于基于数字内容的情境动态且自动地快倒数字内容,且示例性系统(例如,专用机器)配置为有助于基于数字内容的情境动态且自动地快倒数字内容。具体地,示例性实施方案提供了基于在数字内容中检测到的对话(例如,数字内容的情境)在回放期间快倒数字内容的机制和逻辑。在示例性实施方案中,系统电子地存取数字内容。系统可以位于数字接收器(例如,机顶盒、智能电视)处或数据转发器(headend)处。系统分析数字内容以检测数字内容内的对话,每一段对话包含语音。可以通过利用面部辨识/嘴唇移动检测或场景改变检测来验证每一段对话。当检测到快倒触发事件时,数字内容被自动地快倒至由系统检测到的至少最后一段对话的开头。在一个实施方案中,快倒触发事件可以包括当系统在情境驱动式快倒模式中时由观看者说出的口头命令。
结果,本文中描述的方法中的一个或多个有助于解决基于情境(例如,在数字内容中检测到的对话)动态且自动地快倒数字内容的技术问题。所述方法包括检测数字内容中的对话并且验证至少最后一段检测到的对话。在无人为干预的情况下,逻辑还响应于检测到快倒触发事件而将数字内容动态地快倒至最后一段检测到的对话的开头(例如,开始点)。结果,本文中描述的方法中的一个或多个可排除对于将另外在手动快倒和回放比重听最后一段对话必需的数字内容多的数字内容中涉及的某些成果或资源的需求。另外,可减少由一个或多个机器、数据库或装置(例如,在环境内)使用的资源。此类计算资源的示例包括:处理器循环、网络流量、存储器使用、数据存储容量、功率消耗、网络带宽和冷却能力。
参看图1,示出了说明包括用于基于情境动态地快倒数字内容的系统的示例性环境100的图。在示例性实施方案中,用户的数字接收器102提供对数字内容的存取。在一个实施方案中,数字接收器102是机顶盒。数字接收器102联接至用户可在其上观看数字内容的观看装置104(例如,电视或监视器)。在一些实施方案中,数字接收器102可与观看装置104(例如,智能电视)组合。
由于用户通过数字接收器102存取数字内容,因此数字接收器102配置为接收关于数字内容的命令。在示例性实施方案中,命令包括快进、快倒和显示数字内容的指令(例如,来自遥控器装置112)。根据一个实施方案,所述指令使数字接收器102当在情境驱动式快倒模式中时将数字内容快倒至最后一段对话的开头。因此,在一个实施方案中,遥控器装置112上的机制被激活且将信号发送到数字接收器102以进入情境驱动式快倒模式。
在情境驱动式快倒模式中,响应于检测到快倒触发事件,自动地执行数字内容的快倒(例如,不需要基于数字内容的时间或场景而手动快倒的人为干预)。快倒触发事件可以包括由观看者激活遥控器装置112上的按钮,或由遥控器装置112、数字接收器102或观看装置104上的传感器(例如,麦克风)检测到的口头命令。口头命令可以包括由观看者作出的叙述,例如,“他/她刚说了什么”;“快倒”;或“等一下,返回”。
在一些实施方案中,数字接收器102包括分析数字内容和动态地分析数字内容的情境以引起情境驱动式快倒的逻辑。在其他实施方案中,在通过网络108将处理的数字内容传输到数字接收器102之前,数据转发器106处理或预处理数字内容。在示例性实施方案中,所述处理检测数字内容中的一段或多段对话(例如,最后一段对话或最后对话段集合)。
网络108的一个或多个部分可以是自组织(ad hoc)网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网的一部分、公共交换电话网络(PSTN)的一部分、蜂窝式电话网络、无线网络、WiFi网络、WiMax网络、另一类型的网络、或两个或更多个此类网络的组合。网络108的任何一个或多个部分可以经由传输介质来传送信息。如本文中所利用,“传输介质”指能够传送(例如,传输)指令以供机器(例如,供此机器的一个或多个处理器)执行的任何无形(例如,易失性)介质,并且包括数字或模拟通信信号或其它无形介质以有助于此软件的通信。
更进一步,内容提供者110联接到网络108。内容提供者110存储数字内容,或经由网络108将数字内容提供到数据转发器106或数字接收器102。数字内容可以包括音频/视频内容(例如,电影、电视节目)或音频内容(例如,播客)。
应注意,图1中所示的环境100只是示例。例如,可以示出环境100的非全部组件。另外,可以组合环境100的一些组件。例如,数字接收器102可以在观看装置104内实施以形成单个装置(例如,智能电视)。此外,论述为在数字接收器102处发生的操作可以在数据转发器106处执行,借此将处理的数字内容传输到数字接收器102供呈现。
图1中所示的系统或机器(例如,数据库、装置、服务器)中的任一个可以为、包括已被修改(例如,通过例如应用程序、操作系统、固件、中间件或其它程序的一个或多个软件模块的软件配置或编程)以执行本文中针对该系统或机器描述的功能中的一个或多个的专用(例如,专业化或另外非一般)计算机,或另外实施于所述专用计算机中。例如,能够实施本文中描述的方法中的任何一个或多个的专用计算机系统在以下参照图6进行论述,且此类专用计算机可以相应地为用于执行本文中论述的方法中的任何一个或多个的构件。在此类专用计算机的技术领域内,已由本文中论述的结构修改以执行本文中论述的功能的专用计算机与缺乏本文中论述的结构或另外不能够执行本文中论述的功能的其它专用计算机相比技术上得以改善。因此,根据本文中论述的系统和方法配置的专用机器提供了对类似的专用机器的技术的改善。此外,图1中所说明的系统或机器中的任何两个或更多个可以组合为单个系统或机器,且本文中针对任何单个系统或机器描述的功能可以在多个系统或机器之间细分。
图2是说明情境快倒系统200的示例性实施方案的框图。在示例性实施方案中,情境快倒系统200在数字接收器102内实施。在替选的实施方案中,情境快倒系统200在数据转发器106内实施,且在将处理的数字内容传输到数字接收器102以供呈现之前,所述数据转发器106处理数字内容。情境快倒系统200配置为分析并处理数字内容,使得根据在数字内容中检测到的情境(例如,对话)来快倒数字内容。具体地,将数字内容快倒至最后对话段的开头(也被称作“开始点”)。为了实现这些操作,情境快倒系统200包括:内容存取模块202、对话检测器204、视频辨识模块206、验证模块208、字幕模块210和快倒模块212,它们都可以配置为(例如,通过总线、共享存储器或交换机)相互通信。本文中描述的组件(例如,模块)中的任何一个或多个可以单独地利用硬件(例如,机器的一个或多个处理器)或者利用硬件和软件的组合来实施。例如,本文中所描述的任何组件可以物理上包括处理器中的一个或多个的布置,或配置处理器(例如,在机器的一个或多个处理器当中)以执行本文中针对那个模块描述的操作。相应地,本文中所描述的不同组件可以在不同时间点包括和配置处理器的不同布置,或在不同时间点包含和配置处理器的单个布置。本文中描述的每一组件(例如,模块)是用于执行本文中针对那个组件描述的操作的构件的示例。此外,这些组件中的任何两个或更多个可以组合成单个组件,并且本文中针对单个组件描述的功能可以在多个组件之间细分。此外,根据各种示例性实施方案,本文中描述为在单个机器、数据库或装置内实施的组件可以跨多个机器、数据库或装置分布。例如,所述组件中的一些可以在数字接收器102内实施,而其它的在数据转发器106内实施。情境快倒系统200可以包括不与未示出或论述的示例性实施方案相关的其它组件。
内容存取模块202管理情境快倒系统200与环境100的其它组件之间的数据交换以便存取数字内容。例如,情境快倒系统200从数据转发器106(例如,在数字接收器102内实施内容快倒系统200的实施方案中)或从内容提供者110接收或检索数字内容。在数字接收器102执行加速处理的实施方案中,数字内容由内容存取模块202暂时缓冲和存储,以使情境快倒系统200能够在观看装置104上呈现之前动态地处理数字内容,并且提供快倒数字内容的能力。
对话检测器204分析由内容存取模块202存取或检索的数字内容。具体地,对话检测器204检验数字内容以检测对话段,并且更确切地说,检测至少最后一段对话。对话检测器204也可以将对话与音乐或背景噪声分开。在示例性实施方案中,对话检测器204基于在数字内容的音频播放轨中发现的语音范围内的音高检测对话。另外,对话检测器204利用情境信息来检测语音。例如,语句通常为数秒长。因此,如果对话检测器204检测到小于0.1秒的某事,那么对话检测器204确定出它不是语音(例如,背景噪声)。在示例性实施方案中,将由对话检测器204检测的对话段用作基线,且由例如视频辨识模块206和验证模块208执行检测增强,如以下进一步论述的。
视频辨识模块206管理辅助验证对话段的视频提示。在一些实施方案中,视频辨识模块206检测场景改变。典型地,语音会话不跨场景改变发生。因此,由视频辨识模块206进行的场景改变的检测由验证模块208用以验证在特定数字内容部分中是否存在对话。例如,可以将一段对话(也被称作“对话段”)与场景改变边界对准。
在一些实施方案中,视频辨识模块206执行面部辨识和嘴唇移动检测。面部辨识和嘴唇移动检测数据也由验证模块208用以确认、验证或调整对话段。例如,将延伸超出嘴唇移动的对话的检测部分确定为应被忽略的噪声。相反地,面部辨识和嘴唇移动检测数据可以识别由对话检测器204错过的对话(例如,在由对话检测器204识别的对话段之前的嘴唇移动)。
字幕模块210管理在情境分析中的字幕(也被称作“隐藏式字幕数据”)的使用。隐藏式字幕数据包括计时信息(例如,对话的开始和停止时间)。在一个实施方案中,字幕模块210利用此信息确认、验证或调整由对话检测器204检测的对话段。字幕的使用通常导致价格低廉的计算对比由对话检测器204、视频辨识模块206和验证模块208执行的操作(例如,替代检测对话或执行验证/交叉检查所检测的对话)。因此,在替选的实施方案中,替代由语音检测器204进行的处理,可利用由字幕模块210进行的处理,以减小计算成本。
当系统在情境驱动式快倒模式中时,内容快倒模块212管理数字内容的快倒。在示例性实施方案中,内容快倒模块212基于快倒触发事件将数字内容快倒至最后一个对话段的开头(例如,开始点)。在另一个实施方案中,如果观看者在预定时段(例如,2秒)内提供连续的快倒触发事件(例如,“将那个快倒。再次快倒。”),那么内容快倒模块212依序快倒至前n个对话段,其中n对应于连续快倒触发事件的数目。
图3是说明数字内容的情境驱动式快倒分析和快倒的图。具体地,图3示出包含五个部分的一段数字内容300。所述部分可以对应于一个或多个场景的各种部分,对应于特定量的数字内容300(例如,50秒的数字内容,由此每一部分为10秒)、或区分和呈现数字内容300的任意其它方式。
在示例性实施方案中,用户正在观看数字内容300。在位置302,用户发出快倒触发事件。即,例如,用户说出指示出用户想要重复最后一个对话段的口头命令。在基于时间的快倒中,系统可以快倒至位置304。或者,在基于场景的快倒中,系统快倒至场景或章节的开头(其可以位于位置304)。基于时间的快倒和基于场景的快倒导致时间和资源的浪费,因为对话直到位置306才开始,所以用户被迫查看位置304与位置306之间的非信息区段。
位置306为最后一个对话段(例如,在位置306与302之间)的开始点。从数字内容300中的音频信号308通过语音活动检测来检测最后一个对话段。在一个实施方案中,最后一个对话段通过面部检测和嘴唇移动检测来验证(例如,精确度辅助)。结果,当在位置302检测到快倒触发事件时,系统将数字内容的回放快倒至位置306。
图4是用于数字内容的情境驱动式快倒的示例性方法400的流程图。在示例性实施方案中,方法400由可全部或部分地在数字接收器102或数据转发器106中实施的情境快倒系统200的组件部分或全部执行。因此,通过参考情境快倒系统200的示例来描述方法400。然而,应了解,方法400的操作中的至少一些可以部署于各种其它硬件配置上,或由存在于环境100中其它处的类似组件执行。因此,方法400不旨在限于情境快倒系统200。
在操作402,接收激活情境驱动式快倒模式的命令。在一个实施方案中,从遥控器装置接收开启情境驱动式快倒模式的激活的信号。在情境驱动式快倒模式中,当检测到快倒触发事件时,基于数字内容的情境将数字内容自动地快倒至前一(或先前)对话段的开头。在一个实施方案中,响应于所述触发事件的检测,自动发生快倒(例如,不需要手动快倒数字内容的人为干预)。
在操作404,存取数字内容。在示例性实施方案中,数字内容由内容存取模块202检索或接收(例如,从数据转发器106或从内容提供者110)。在数字接收器102执行情境驱动式快倒分析的实施方案中,可以存取在正同时回放的区段前的数字内容并且所述数字内容由内容存取模块202本地缓冲,以使得情境快倒系统200在观看装置104上呈现之前动态地处理数字内容。在一些实施方案中,数字内容的存取(操作404)发生在接收情境驱动式快倒命令(操作402)之前。例如,可以在数字内容的回放之前或期间的任何时间接收情境驱动式快倒命令,以将系统置于情境驱动式快倒模式中。
在操作406,检测快倒触发事件。在一个实施方案中,手动命令(例如,按钮的选择)可以由在遥控器装置112或数字接收器102处的传感器检测到,所述手动命令指示出观看者想要快倒至前一对话段的开头。在另一个实施方案中,遥控器装置112、数字接收器102或观看装置104检测由观看者发出的口头命令(例如,口头叙述)(例如,经由诸如麦克风的传感器)。因此,当在情境驱动式快倒模式中时,遥控器装置112、数字接收器102或观看装置104中的传感器监测将触发情境快倒的口头命令。例如,观看者可说出“他说了什么”或“我错过了那个”。这些口头命令指示出观看者想要快倒至前一对话段(例如,最后一个对话段)的开头。应了解,可利用不同口头命令。因此,口头命令的库可以存储于例如遥控器装置112或数字接收器102中。然后可以将由传感器检测到的任何发声与口头命令的库的内容比较以检测匹配。
在操作408,对数字内容执行情境驱动式快倒分析。情境驱动式快倒分析导致数字内容中的一个或多个对话段且具体地最后一个对话段的识别。在一些实施方案中,可以基于观看者在相对短时间量内发出多个快倒触发事件以快倒不只一个对话段来识别一系列先前对话段。
在数据转发器106执行情境驱动式快倒分析的实施方案中,操作408是任选的或不发生。在这些实施方案中,数据转发器106在方法400的其余操作之前执行分析,或与数字内容的存取和呈现(操作404)同时执行分析(例如,在将数字内容相对实时地流式传输到数字接收器102的实施方案中),以便在对观看者回放对话段之前确定对话段。将结合图5更详细地论述操作408。
在操作410,将数字内容快倒至前一对话段的开始点。如果连续地且在短时间量内(例如,在2秒内)接收到不只一个快倒触发事件,例如,(例如,“将那个快倒。将那个再次快倒。”),那么依序将数字内容快倒至前n个对话段的开始点,其中n对应于连续快倒触发事件的数目。例如,如果视图发出“快倒;再次;再次”的口头命令,那么快倒模块212将数字内容快倒回三个对话段。在操作412,数字内容的呈现从在操作410中快倒至的开始点继续。
图5是用于验证对话段的示例性方法(操作408)的流程图。在一些实施方案中,所述方法由可全部或部分在数字接收器102或数据转发器106中实施的情境快倒系统200的组件部分或全部执行。因此,所述方法通过参考情境快倒系统200的示例来描述。然而,应了解,所述方法的操作中的至少一些可以部署于各种其它硬件配置上,或由存在于环境100中其它处的类似组件执行。因此,所述方法不旨在限于情境快倒系统200。
在操作502,执行语音活动检测。在示例性实施方案中,对话检测器204检测数字内容中的对话段。例如,对话检测器204基于在数字内容的音频播放轨中发现的语音范围内的音高来检测对话。另外,对话检测器204利用情境信息来检测语音(例如,检测到的语音的长度)。
在操作504,利用面部辨识/嘴唇检测来验证对话段。在示例性实施方案中,视频辨识模块206管理辅助验证对话段的视频提示。因而,视频辨识模块206在操作504执行面部辨识和嘴唇移动检测。面部辨识和嘴唇移动检测信息由验证模块208用以验证或调整对话段。例如,将延伸超出检测到的嘴唇移动的对话段的一部分确定为在快倒期间应忽略的噪声。相反地,利用面部辨识和嘴唇移动检测信息可以检测可能已被语音检测器204错过的对话。
在操作506,利用字幕数据(也被称作“隐藏式字幕数据”)来验证对话段。在示例性实施方案中,字幕模块210利用隐藏式字幕数据(例如,诸如语音的开始和停止时间的计时信息)来确认、验证或调整由语音检测器204检测的对话段(例如,验证或调整音频部分的开始和停止时间)。虽然字幕数据的使用可以用以验证或调整已由语音检测器204检测的对话段,但替选地,字幕数据可以用以确定对话段,而非由语音检测器204处理。
在操作508,利用场景改变数据来验证对话段。相应地,视频辨识模块206检测场景改变。通常,对话不跨场景改变发生。因此,由视频辨识模块206进行的场景改变的检测由验证模块208用以验证特定对话段中是否应存在对话(例如,是否在场景改变内检测到对话)。
虽然所述方法论述了利用字幕、面部辨识和场景改变来验证或调整音频部分,但是替选实施方案可以包括较少的操作。即,操作504至508中的一个或多个可以不实践或在替选的实施方案中是任选的。
图6是说明根据一些示例性实施方案的机器600的组件的框图,所述机器能够从机器可读介质622(例如,非易失性机器可读介质、机器可读存储介质、计算机可读存储介质或其任何合适的组合)读取指令624,并且全部或部分地执行本文中论述的方法中的任何一个或多个。具体地说,图6以计算机装置(例如,计算机)的示例形式示出机器600,在所述计算机装置内,可全部或部分地执行用于使得机器600执行本文中论述的方法中的任何一个或多个的指令624(例如,软件、程序、应用程序、小程序、app或其它可执行代码)。
例如,指令624可以使机器600执行图4和5的流程图。指令624可以将一般、未编程的机器600变换成被编程以按描述的方式进行所述和说明的功能的特定机器(例如,特别配置的机器)。
在替选的实施方案中,机器600作为独立装置操作或可连接(例如,联网)到其它机器。机器600可以为服务器计算机、客户端计算机、个人计算机(PC)、平板电脑、膝上型计算机、上网本、机顶盒(例如,STB)、个人数字助理(PDA)、蜂窝式电话、智能电话、网络器具、网络路由器、网络交换机、网桥、电源适配器或能够依序或以其它方式执行指定待由那个机器600采取的动作的指令624的任一机器600。另外,虽然只说明了单个机器600,但术语“机器”也应被认为包括个别地或共同地执行指令624以执行本文中论述的方法中的任何一个或多个的机器的集合。
机器600包括:处理器602(例如,中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)或其任何合适的组合)、主存储器604和静态存储器606,它们配置为经由总线608相互通信。处理器602可以包括微电路,其可通过指令624中的一些或全部暂时地或永久地配置,使得处理器602可配置为全部或部分地执行本文中描述的方法中的任何一个或多个。例如,处理器602的一个或多个微电路的集合可以是可配置的以执行本文中所描述的一个或多个模块(例如,软件模块)。
机器600可以进一步包括:图形显示器610(例如,等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪、阴极射线管(CRT)或能够显示图形或视频的任何其它显示器)。机器600还可以包括:字母数字输入装置612(例如,键盘或小键盘)、光标控制装置614(例如,鼠标、触摸板、轨迹球、操纵杆、运动传感器、眼睛追踪装置或其它指向仪器)、存储单元616、信号产生装置618(例如,声卡、放大器、扬声器、头戴式耳机插孔或其任何合适的组合)和网络接口装置620。
存储单元616包括机器可读介质622(例如,有形机器可读存储介质),在其上存储有实施本文中描述的方法或功能中的任何一个或多个的指令624。在由机器600执行指令624之前或期间,指令624也可以完全或至少部分存在于主存储器604内、处理器602内(例如,处理器的高速缓冲存储器)或两者之内。因此,主存储器604和处理器602可以被视为机器可读介质622(例如,有形和非易失性机器可读介质)。
在一些示例性实施方案中,机器600可以为携带型计算装置并且具有一个或多个额外输入组件(例如,传感器或计量器)。此类输入组件的示例包括:图像输入组件(例如,一个或多个摄像机)、音频输入组件(例如,麦克风)、方向输入组件(例如,罗盘)、位置输入组件(例如,全球定位系统(GPS)接收器)、定向组件(例如,陀螺仪)、运动检测组件(例如,一个或多个加速度计)、海拔高度检测组件(例如,高度计)和气体检测组件(例如,气体传感器)。由这些输入组件中的任何一个或多个采集的输入可以是可存取的且可用于供本文中所描述的模块中的任一个使用。
如本文中所利用的,术语“存储器”指能够暂时地或永久地存储数据的机器可读介质622,并且可以被认为包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存和高速缓冲存储器。虽然在示例性实施方案中将机器可读介质622示为单个介质,但术语“机器可读介质”应被认为包括能够存储指令624的单个介质或多个介质(例如,集中式或分散式数据库,或相关联的高速缓冲存储器和服务器)。术语“机器可读介质”也应被认为包括能够存储指令624供机器(例如,机器600)执行使得指令624在由机器600的一个或多个处理器(例如,处理器602)执行时使机器600执行本文中描述的方法中的任何一个或多个的任何介质或多个介质的组合。因此,“机器可读介质”指单个存储设备或装置,以及包括多个存储设备或装置的基于云的存储系统或存储网络。因此,术语“机器可读介质”应被认为包括但不限于呈固态存储器、光学介质、磁性介质或其任何合适的组合的形式的一个或多个数据存储库。在一些实施方案中,“机器可读介质”还可以被称作为“机器可读存储装置”。
此外,机器可读介质622为非易失性的,因为其不实施传播信号或易失性信号。然而,将机器可读介质622标记为“非易失性”不应解释为意味着所述介质不能移动——应将所述介质视为可从一个物理位置运输到另一物理位置。另外,因为机器可读介质622是有形的,所以所述介质可以被视为机器可读存储装置。
此外,机器可读介质622不包括任何易失性信号。在一些示例性实施方案中,用于由机器600执行的指令624可以通过载体介质传送。此载体介质的示例包括存储介质(例如,从一处物理移动到另一处的非易失性机器可读存储介质,例如固态存储器)和暂态介质(例如,传送指令624的传播信号)。
可进一步利用传输介质经由网络接口装置620和利用许多熟知的传输协议(例如,HTTP)中的任一个,通过通信网络626传输或接收指令624。通信网络626的示例包括:局域网(LAN)、广域网(WAN)、因特网、移动电话网络、简易老式电话业务(POTS)网络和无线数据网络(例如,WiFi、LTE和WiMAX网络)。术语“传输介质”应被认为包括能够存储、编码或载送指令624以由机器600执行的任何无形介质,且包括数字或模拟通信信号或其它无形介质以有助于此软件的通信。
示例1是一种用于动态且自动地提供情境驱动式内容快倒的方法。数字内容由内容存取模块电子存取。所述数字内容显示于用户的装置上。检测由用户发出的快倒触发事件。响应于检测到所述快倒触发事件,数字内容的显示由快倒模块快倒至基于数字内容中的对话的分析所识别的前一对话段的开始点。
在示例2中,示例1的主题可任选地包括由语音检测器分析数字内容以识别数字内容内的至少一个对话段,分析是基于在数字内容中检测到的对话,至少一个对话段包括前一对话段。
在示例3中,示例1到2的主题可任选地包括验证至少一个对话段。
在示例4中,示例1到3的主题可任选地包括基于验证来调整至少一个对话段,调整包括改变至少一个对话段的开始点或结束点。
在示例5中,示例1到4的主题可任选地包括:其中,验证包括对数字内容执行嘴唇移动检测以及确定嘴唇移动检测是否与至少一个对话段的开始点和结束点重合。
在示例6中,示例1到5的主题可任选地包括:其中,验证包括检测数字内容中的场景改变以及确定至少一个对话段是否在场景改变内发生。
在示例7中,示例1到6的主题可任选地包括:其中,验证包括存取字幕数据,由此所述字幕数据包括用于数字内容中的对话的计时信息,以及利用所述计时信息来验证至少一个先前消耗的对话段。
在示例8中,示例1到7的主题可任选地包括:接收激活命令以激活情境驱动式快倒模式,所述情境驱动式快倒模式使检测和快倒响应于快倒触发事件的检测而自动发生。
在示例9中,示例1到8的主题可任选地包括:当在情境驱动式快倒模式时主动地监测快倒触发事件。
在示例10中,示例1到9的主题可任选地包括:利用来自字幕数据的计时信息分析所述数字内容以检测至少一个对话段,所述至少一个对话段包括所述前一对话段。
在示例11中,示例1到10的主题可任选地包括:其中,所述快倒触发事件是指示观看者想要重放前一对话段的口头命令。
示例12是一种机器可读存储装置,其存储指令,所述指令在由机器的至少一个处理器执行时使所述机器执行操作。所述操作包括:电子存取数字内容;使数字内容在用户的装置上显示;检测由用户发出的快倒触发事件;以及响应于检测到快倒触发事件,将数字内容的显示快倒至基于数字内容中的对话的分析所识别的前一对话段的开始点。
在示例13中,示例12的主题可任选地包括:其中,所述操作进一步包括分析数字内容以识别数字内容内的至少一个对话段,分析是基于在数字内容中检测到的对话,所述至少一个对话段包括前一对话段。
在示例14中,示例12至13的主题可任选地包括:其中,所述操作进一步包括接收激活命令以激活情境驱动式快倒模式,所述情境驱动式快倒模式使检测和快倒响应于快倒触发事件的检测而自动发生。
在示例15中,示例12至14的主题可任选地包括:其中,所述操作进一步包括当在情境驱动式快倒模式中时主动地监测快倒触发事件。
示例16是一种用于动态且自动地提供情境驱动式内容快倒的系统。所述系统包括一个或多个处理器,所述一个或多个处理器配置为执行包括以下的操作:电子存取数字内容;使数字内容在用户的装置上显示;检测由用户发出的快倒触发事件;以及响应于检测到快倒触发事件,将数字内容的显示快倒至基于数字内容中的对话的分析所识别的前一对话段的开始点。
在示例17中,示例16的主题可任选地包括:其中,所述操作进一步包括分析数字内容以识别数字内容内的至少一个对话段,分析是基于在数字内容中检测到的对话,所述至少一个对话段包括前一对话段。
在示例18中,示例16至17的主题可任选地包括:其中,所述操作进一步包括接收激活命令以激活情境驱动式快倒模式,所述情境驱动式快倒模式使检测和快倒响应于快倒触发事件的检测而自动发生。
在示例19中,示例16至18的主题可任选地包括:其中,所述操作进一步包括当在情境驱动式快倒模式中时主动地监测快倒触发事件。
在示例20中,示例16至19的主题可任选地包括:其中,所述快倒触发事件是指示观看者想要重放前一对话段的口头命令。
贯穿本说明书,多个示例可以实施描述为单个示例的组件、操作或结构。尽管将一个或多个方法的个别操作说明且描述为单独操作,但可以同时地执行个别操作中的一或多个,且并不需要以所说明的次序执行操作。呈现为示例性配置中的单独组件的结构和功能性可以实施为组合结构或组件。类似地,呈现为单个组件的结构和功能性可以实施为单独组件。这些和其它变化、修改、添加和改进落在本文中的主题的范围内。
本文中将某些实施方案描述为包括逻辑或许多组件、模块或机制。模块可以构成软件模块(例如,在机器可读介质622上或传输信号中实施的代码)或硬件模块。“硬件模块”为能够执行某些操作的有形单元并且可以某一物理方式配置或布置。在各种示例性实施方案中,一个或多个计算机系统(例如,独立式计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如,处理器602或处理器602的群组)可以由软件(例如,应用程序或应用程序部分)配置为操作以执行如本文中所描述的某些操作的硬件模块。
在一些实施方案中,可以机械方式、电子方式或其任何合适的组合来实施硬件模块。例如,硬件模块可以包括永久地配置为执行某些操作的专用电路系统或逻辑。例如,硬件模块可以是专用处理器,例如,现场可编程门阵列(FPGA)或ASIC。硬件模块还可以包括由软件暂时配置以执行某些操作的可编程逻辑或电路系统。例如,硬件模块可以包括涵盖于通用处理器或其它的可编程处理器内的软件。应了解,可以通过成本和时间考虑来驱动以机械方式、在专用且永久性配置的电路系统中或在暂时配置的电路系统(例如,由软件配置)中实施硬件模块的决策。
因此,短语“硬件模块”应理解为涵盖有形实体,即以物理方式构建、永久配置(例如,固线式)或暂时配置(例如,编程)以按某一方式操作或执行本文中所描述的某些操作的实体。如本文中所利用的,“硬件实施的模块”指硬件模块。考虑硬件模块被暂时配置(例如,编程)的实施方案,无需在任一时刻配置或示例化硬件模块中的每一个。例如,在硬件模块包括由软件配置以变为专用处理器的通用处理器的情况下,通用处理器可以在不同时间处配置为分别不同的专用处理器(例如,包括不同的硬件模块)。软件因此可以配置处理器,例如,以在一个时刻构成特定的硬件模块,并且在不同时刻构成不同的硬件模块。
本文中描述的示例性方法的各种操作可以至少部分由暂时配置(例如,由软件)或永久配置为执行相关操作的一个或多个处理器来执行。无论临时还是永久地配置,此类处理器都可以构成操作以执行本文中所描述的一个或多个操作或功能的处理器实施的模块。如本文中所利用的,“处理器实施的模块”指利用一个或多个处理器实施的硬件模块。
类似地,本文所描述的方法可以至少部分地由处理器实施,处理器为硬件的示例。例如,方法的操作中的至少一些可以由一个或多个处理器或处理器实施的模块执行。
可以在对存储为机器存储器(例如,计算机存储器)内的位或二进制数字信号的数据的操作的算法或符号表示方面来呈现本文中论述的主题的一些部分。此类算法或符号表示是数据处理领域的普通技术人员用来向所属领域的其他技术人员传达其工作的实质内容的技术的示例。如本文中所利用的,“算法”为导致期望结果的操作或类似处理的自一致性序列。在此上下文中,算法和操作涉及物理量的物理操控。通常,但不是必须地,此类量可以采取电、磁性或光学信号的形式,所述电、磁或光学信号能够由机器存储、存取、传送、组合、比较或以其它方式操控。主要出于常用的原因,有时使用例如“数据”、“内容”、“位”、“值”、“元素”、“符号”、“字符”、“项”、“数目”、“数字”等词语来提及此类信号是很方便的。然而,这些词语仅为方便的标记并将与适当物理量相关联。
除非另有具体陈述,否则在本文中利用例如“处理”、“运算”、“计算”、“确定”、“呈现”、“显示”等词的论述可以指操控或变换一个或多个存储器(例如,易失性存储器、非易失性存储器或其任何合适的组合)、寄存器或接收、存储、传输或显示信息的其它机器组件内表示为物理(例如,电子、磁性或光学)量的数据的机器(例如,计算机)的动作或过程。此外,除非另有具体陈述,否则如在专利文件中所常见的,在本文中利用术语“一”或“一个”包括一个或多于一个示例。最后,如本文中所利用,除非另有具体陈述,否则连词“或”是指非排他性的“或”。
尽管已经参考具体示例性实施方案描述了本发明主题的概要,但是可以在不脱离本发明的实施方案的更广泛范围的情况下对这些实施方案进行各种修改和改变。例如,各种实施方案或其特征可以由所属领域的技术人员进行混合和匹配或使之任选。仅为方便起见,且在不希望自愿地将本申请的范围限制于任何单个发明或发明构思(如果实际上公开不只一个)的情况下,本发明主题的此类实施方案在本文中可个别地或共同地由术语“本发明”提及。
相信足够详细地描述了本文中所说明的实施方案以使所属领域的技术人员能够实践所公开的教示。可利用其它实施方案和从本文中导出其它实施方案,使得可在不脱离本发明的范围的情况下进行结构和逻辑取代和改变。因此,具体实施方式不应以限制性意义来理解,并且各种实施方案的范围仅由所附权利要求连同此类权利要求授权的等同形式的全部范围来限定。
此外,针对本文中描述为单个示例的资源、操作或结构可以提供多个示例。另外,各种资源、操作、模块、引擎和数据存储装置之间的边界为略微任意的,且在具体说明性配置的上下文中说明了特定操作。功能性的其它分配被预见到且可以落在本发明的各种实施方案的范围内。通常,作为示例性配置中的单独资源提出的结构和功能性可以实施为组合结构或资源。类似地,作为单个资源提出的结构和功能性可以实施为单独资源。这些和其它变化、修改、添加和改进落在如由所附权利要求表示的本发明的实施方案的范围内。因此,说明书和附图应被视为说明性而非限制性意义。

Claims (20)

1.一种情境驱动式内容快倒的方法,其包括:
由内容处理系统使数字内容在用户的装置上显示;
利用内容处理系统的一个或更多个硬件处理器来检测快倒触发事件以快倒数字内容;
基于快倒触发事件来确定多个对话段,以快倒数字内容;
响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;以及
响应于识别出对话段,由内容处理系统将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
2.根据权利要求1所述的方法,其中,基于对话段的数量来识别对话段,以快倒基于快倒触发事件确定的数字内容。
3.根据权利要求1所述的方法,其中,所述快倒触发事件包括口头命令。
4.根据权利要求1所述的方法,其中,所述快倒触发事件包括遥控器装置上的按钮的激活。
5.根据权利要求1所述的方法,进一步包括验证数字内容中的对话段。
6.根据权利要求5所述的方法,进一步包括基于验证来自动地调整数字内容中的对话段的一个对话段,自动地调整包括改变对话段的开始点或对话段的结束点。
7.根据权利要求6所述的方法,其中:
验证包括:
对数字内容执行嘴唇移动检测,以及
确定检测到的嘴唇移动检测与对话段的开始点或结束点是否重合;以及
自动地调整包括响应于检测到的嘴唇移动与对话段的开始点或结束点不重合,将对话段与检测到的嘴唇移动对准。
8.根据权利要求6所述的方法,其中:
验证包括:
检测数字内容中的场景改变,以及
确定在场景改变内是否发生对话段;以及
自动地调整包括响应于在场景改变内发生对话段,将对话段与场景改变边界对准。
9.根据权利要求6所述的方法,其中:
验证包括:
存取字幕数据,所述字幕数据包括用于数字内容中的对话的计时信息,以及
利用计时信息来验证连续对话段集合;以及
自动地调整包括将对话段与计时信息对准。
10.根据权利要求1所述的方法,进一步包括激活情境驱动模式,所述情境驱动模式使得响应于检测到快倒触发事件而自动地发生修改。
11.根据权利要求10所述的方法,进一步包括当在情境驱动模式中时,由传感器主动地监测快倒触发事件。
12.一种情境驱动式内容快倒的系统,其包括:
一个或更多个硬件处理器;以及
存储器,其存储指令,所述指令在由一个或更多个硬件处理器执行时,使得一个或更多个硬件处理器执行包括以下的操作:
使数字内容在用户的装置上显示;
检测快倒触发事件以快倒数字内容;
基于快倒触发事件来确定多个对话段,以快倒数字内容;
响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;
响应于识别出对话段,将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
13.根据权利要求12所述的情境驱动式内容快倒的系统,其中,基于对话段的数量来识别对话段,以快倒基于快倒触发事件确定的数字内容。
14.根据权利要求12所述的情境驱动式内容快倒的系统,其中,所述快倒触发事件包括口头命令。
15.根据权利要求12所述的情境驱动式内容快倒的系统,其中,所述快倒触发事件包括遥控器装置上的按钮的激活。
16.根据权利要求12所述的情境驱动式内容快倒的系统,其中,所述操作进一步包括验证数字内容中的对话段。
17.根据权利要求16所述的情境驱动式内容快倒的系统,其中,所述操作进一步包括基于验证来自动地调整数字内容中的对话段的一个对话段,自动地调整包括改变对话段的开始点或对话段的结束点。
18.根据权利要求12所述的情境驱动式内容快倒的系统,其中,所述操作进一步包括激活情境驱动模式,所述情境驱动模式使得响应于检测到快倒触发事件而自动地发生修改。
19.根据权利要求17所述的情境驱动式内容快倒的系统,其中,所述操作进一步包括当在情境驱动模式中时,由传感器主动地监测快倒触发事件。
20.一种机器可读存储介质,其具有指令,所述指令在由机器的一个或更多个硬件处理器执行时,使得机器执行包括以下的操作:
使数字内容在用户的装置上显示;
检测快倒触发事件以快倒数字内容;
基于快倒触发事件来确定多个对话段,以快倒数字内容;
响应于检测到快倒触发事件,通过分析数字内容中的对话来识别数字内容中的对话段;以及
响应于识别出对话段,将数字内容的显示修改为与对话段的数量相对应的开始点,以快倒根据快倒触发事件确定的数字内容。
CN202210746377.6A 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统 Pending CN115119043A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US15/183,604 US10764643B2 (en) 2016-06-15 2016-06-15 Context driven content rewind
US15/183,604 2016-06-15
CN201780037283.9A CN109314798B (zh) 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统
PCT/US2017/037615 WO2017218736A1 (en) 2016-06-15 2017-06-15 Context driven content rewind

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201780037283.9A Division CN109314798B (zh) 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统

Publications (1)

Publication Number Publication Date
CN115119043A true CN115119043A (zh) 2022-09-27

Family

ID=60660910

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210746377.6A Pending CN115119043A (zh) 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统
CN201780037283.9A Active CN109314798B (zh) 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201780037283.9A Active CN109314798B (zh) 2016-06-15 2017-06-15 情境驱动式内容快倒的方法和系统

Country Status (4)

Country Link
US (3) US10764643B2 (zh)
EP (2) EP3473002B1 (zh)
CN (2) CN115119043A (zh)
WO (1) WO2017218736A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10764643B2 (en) 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind
US10366691B2 (en) * 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
US10360909B2 (en) * 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
CN111052752A (zh) * 2017-08-28 2020-04-21 杜比实验室特许公司 媒体感知导航元数据
US11558658B2 (en) * 2020-11-02 2023-01-17 Rovi Guides, Inc. Systems and methods for handling audio disruptions

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080127244A1 (en) * 2006-06-30 2008-05-29 Tong Zhang Detecting blocks of commercial content in video data
CN101228787A (zh) * 2005-06-03 2008-07-23 尼尔逊媒介研究股份有限公司 检测与媒体内容的呈现相关的时移事件的方法和装置
CN102469309A (zh) * 2010-11-16 2012-05-23 扬智科技股份有限公司 影像处理方法
US20140350941A1 (en) * 2013-05-21 2014-11-27 Microsoft Corporation Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface (Disambiguation)
US20150084859A1 (en) * 2013-09-23 2015-03-26 Yair ITZHAIK System and Method for Recognition and Response to Gesture Based Input
US20150139610A1 (en) * 2013-11-15 2015-05-21 Clipmine, Inc. Computer-assisted collaborative tagging of video content for indexing and table of contents generation
US20150154982A1 (en) * 2013-12-03 2015-06-04 Kt Corporation Media content playing scheme
US20160154625A1 (en) * 2013-12-31 2016-06-02 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6471420B1 (en) 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3688879B2 (ja) 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
SG93278A1 (en) 1998-12-21 2002-12-17 Mou Shiung Lin Top layers of metal for high performance ics
JP4442585B2 (ja) 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US8230468B2 (en) * 2008-07-01 2012-07-24 Cisco Technology, Inc. Dynamically creating trick files to hide latency in streaming networks
JP4873018B2 (ja) * 2009-01-09 2012-02-08 ソニー株式会社 データ処理装置、データ処理方法、及び、プログラム
JP5559128B2 (ja) 2011-11-07 2014-07-23 株式会社東芝 装置、方法及びプログラム
US9396761B2 (en) * 2013-08-05 2016-07-19 Rovi Guides, Inc. Methods and systems for generating automatic replays in a media asset
US9215510B2 (en) * 2013-12-06 2015-12-15 Rovi Guides, Inc. Systems and methods for automatically tagging a media asset based on verbal input and playback adjustments
CN113268498A (zh) * 2014-07-11 2021-08-17 华为技术有限公司 业务推荐方法和具有智能助手的装置
US10764643B2 (en) 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101228787A (zh) * 2005-06-03 2008-07-23 尼尔逊媒介研究股份有限公司 检测与媒体内容的呈现相关的时移事件的方法和装置
US20080127244A1 (en) * 2006-06-30 2008-05-29 Tong Zhang Detecting blocks of commercial content in video data
CN102469309A (zh) * 2010-11-16 2012-05-23 扬智科技股份有限公司 影像处理方法
US20140350941A1 (en) * 2013-05-21 2014-11-27 Microsoft Corporation Method For Finding Elements In A Webpage Suitable For Use In A Voice User Interface (Disambiguation)
US20150084859A1 (en) * 2013-09-23 2015-03-26 Yair ITZHAIK System and Method for Recognition and Response to Gesture Based Input
US20150139610A1 (en) * 2013-11-15 2015-05-21 Clipmine, Inc. Computer-assisted collaborative tagging of video content for indexing and table of contents generation
US20150154982A1 (en) * 2013-12-03 2015-06-04 Kt Corporation Media content playing scheme
US20160154625A1 (en) * 2013-12-31 2016-06-02 Google Inc. Methods, systems, and media for rewinding media content based on detected audio events

Also Published As

Publication number Publication date
US20230099875A1 (en) 2023-03-30
EP3473002A1 (en) 2019-04-24
CN109314798B (zh) 2022-07-15
CN109314798A (zh) 2019-02-05
US20170366857A1 (en) 2017-12-21
WO2017218736A1 (en) 2017-12-21
EP4138386A1 (en) 2023-02-22
US20210051375A1 (en) 2021-02-18
US10764643B2 (en) 2020-09-01
EP3473002A4 (en) 2020-01-08
EP3473002B1 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
CN109314798B (zh) 情境驱动式内容快倒的方法和系统
US9786326B2 (en) Method and device of playing multimedia and medium
US9799375B2 (en) Method and device for adjusting playback progress of video file
US10026417B2 (en) Audio driven accelerated binge watch
CN106971723B (zh) 语音处理方法和装置、用于语音处理的装置
EP3216025B1 (en) Media presentation modification using audio segment marking
US8381238B2 (en) Information processing apparatus, information processing method, and program
US10356487B2 (en) Video advertisement filtering method, apparatus and device
US11190845B2 (en) End-of-show con lent display trigger
US11463776B2 (en) Video playback processing method, terminal device, server, and storage medium
US10382836B2 (en) System and method for dynamically generating and rendering highlights of a video content
WO2019218656A1 (zh) 一种智能电视、其截屏应用方法及存储介质
US11064264B2 (en) Intelligent rewind function when playing media content
CN104253928A (zh) 基于场景侦测的实时影像记录系统及方法
CN116471442A (zh) 视频字幕生成方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination