CN105323648B - 字幕隐藏方法和电子装置 - Google Patents
字幕隐藏方法和电子装置 Download PDFInfo
- Publication number
- CN105323648B CN105323648B CN201510359178.XA CN201510359178A CN105323648B CN 105323648 B CN105323648 B CN 105323648B CN 201510359178 A CN201510359178 A CN 201510359178A CN 105323648 B CN105323648 B CN 105323648B
- Authority
- CN
- China
- Prior art keywords
- data
- closed caption
- dialogue
- background
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
- H04N21/8133—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42201—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Human Computer Interaction (AREA)
Abstract
提供了一种字幕隐藏方法和电子装置。该字幕隐藏方法包括:在显示设备上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。描述并要求保护其它方面。
Description
技术领域
本公开涉及智能隐藏字幕,具体地涉及一种字幕隐藏方法和电子装置。
背景技术
信息处理装置(“电子装置”或“装置”),例如智能电视、平板显示器、智能电话、平板装置、膝上型计算机等通常被用于观看视频(音频和视频内容)。很多时候用户会错过音频,例如在发生突发环境噪声或演员以低音量的方式说出对话的情况下。
内容提供方试图通过提供跟踪对话的隐藏字幕(caption)数据来使视频内容更可理解。这在一些方面是有帮助的,虽然它通常没有适当地适应各种媒体消费情形。例如,隐藏字幕数据是有帮助的,但是必须手动启用。因此,用户往往不会打开隐藏字幕选项,直到他们已经错过了对话的重要部分。类似地,对于没有听力受损的用户来说,使隐藏字幕选项无限期地处于打开状态虽然在帮助理解听不见的对话时是有用的,但是通常会不必要地干扰观看体验。
发明内容
概括地说,一个方面提供了一种字幕隐藏方法,该方法包括:在显示装置上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。
另一方面提供了一种电子装置,该电子装置包括:显示装置;输入部件;至少一个扬声器;一个或更多个处理器;以及存储器,其中存储器工作上耦接至一个或更多个处理器、显示装置、至少一个扬声器以及输入部件,存储器存储能够由一个或更多个处理器执行的指令,所述指令能够由所述一个或更多个处理器执行以:在显示装置上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。
又一方面提供了一种计算机程序产品,该计算机程序产品包括:存储装置,其存储能够由处理器执行的指令,所述指令包括:在显示装置上播放视频内容的指令;使用至少一个扬声器提供与视频内容相关联的音频内容的指令;从外部源获得与回放背景有关的数据的指令;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联的指令;以及在显示装置上提供与视频内容的对话相关联的文本数据的指令。
前述内容是概述,因此可包含对细节的简化、概括以及省略;因此,本领域的技术人员将会理解该概述仅仅是说明性的,而不意图以任何方式进行限制。
为了更好地理解实施例,连同实施例的其它以及另外的特征和优势,结合附图,提到了以下描述。在所附权利要求中将指出本发明的范围。
附图说明
图1图示了示例信息处理装置。
图2图示了另一示例信息处理装置。
图3图示了用于智能隐藏字幕的示例方法。
具体实施方式
将容易理解,如在本文的附图中一般性地描述和图示的实施例的部件除了可以被布置并设计为描述的示例实施例以外,还可以被布置并设计为各种各样的不同配置。因此,如附图中所呈现的示例实施例的以下更详细的描述不意图限制本实施例的范围,而仅仅代表示例实施例。
贯穿本说明书提及的“一个实施例”或“一种实施例”(等)表示在至少一个实施例中包括结合本实施例所描述的特定特征、结构或特性。因此,贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在一种实施例中”等不一定都指同一实施例。
此外,可以以任何适当的方式将所描述的特征、结构或特性结合在一个或更多个实施例中。在以下描述中,提供了大量的具体细节以给出对实施例的透彻的理解。然而,相关领域的技术人员将认识到,能够在无需一个或更多个具体细节的情况下,或者用其它方法、部件、材料等等来实践各个实施例。在其它实例中,没有详细地示出或描述众所周知的结构、材料或操作,以避免混淆。
隐藏字幕通常是观看选项。也就是说,观看者选择在整个视频回放期间是打开隐藏字幕还是关闭隐藏字幕。如果观看者听力受损,不理解音频对话的主要语言,或者处于不能充分提高音频的环境中(例如,不允许提高音频的安静的环境或提高音频没有用的嘈杂的环境),则他或她通常可以打开隐藏字幕。
然而,有时可能只有视频的某些部分难以理解。例如,可能在短时段内存在压倒性的背景噪声或者演员在视频回放的简短片段内不可以清楚地讲话。在这些情况下,观看者能够手动倒回视频,试图暂时地快速增大音量,或者暂时打开隐藏字幕并重放场景。
有时包括字幕说明(subtitle),例如,在内容制作者预料到大部分观看者能够听到但不能够理解语言或口音时显示所述字幕说明。例如,电视节目或纪录片中的人可能在背景中喃喃而语,或者用与主要语言不同的语言讲话。在这些情况下,制作者可能会迫使字幕说明显示出来,使得观看者能够理解说了什么。然而,这样的字幕说明是预定的,且不是可定制的。
因而,实施例提供了用于在降低的可听度的背景下实现智能隐蔽字幕的方法。例如,通过监视背景数据,例如在视频回放期间麦克风可检测的且使用语音识别被处理的音频对话,实施例可以针对视频中的难以理解的部分自动显示文本,例如相应的隐藏字幕文本。关于要显示哪些文本数据(例如,隐藏字幕数据)的确定可以基于若干因素。
例如,在实施例中,语音识别引擎可以处理环境音频并确定该音频不能被翻译。例如,这能够通过以下操作来推断:具有语音识别引擎的错误响应,即由语音识别引擎确定对话从字面上是不可理解的。这可以被精化,例如当识别准确度在统计上为低或具有降低的置信度的情况下,例如可以对语音识别引擎进行校准以使用识别的统计概率,语音识别引擎可以提供应当显示隐藏字幕数据的确定。
作为另一示例,实施例可以使用直接确定来识别降低的可听度的背景,例如显示装置的音量设置处于被认为太低而不能听见的水平的指示。在这种情况下,实施例可以显示隐藏字幕数据,使得用户可以阅读对话。在另一示例中,除了使用音量设置以外,实施例还可以使用显示装置控制数据来检测降低的可听度的环境。例如,如果用户一次或更多次地倒回视频回放,则这可以被映射到例如用户需要重看场景以正确听到视频的降低的可听度的背景。
在另一示例中,实施例可以检测到观看环境中的环境噪声超过阈值音量(例如,狗叫、人说话、空调系统开启等)。用户可以配置声音阈值(例如,提供在以下情况下显示隐藏字幕数据的设置:在超出某一分贝(dB)水平时、在出现某一高音调/低音调声音时等)。
在另一示例中,观看环境中频繁出现的某些声音(例如,救护车驶过、狗叫等)可以在不考虑其大小的情况下被用作显示与对话相关联的文本的触发。用户可以调整这样的设置,以仔细听某些类型的声音。
降低的可听度的背景数据的另一个源可以是用户他或她本身。例如,如果实施例检测到用户讲出某一触发短语,例如“他说什么?”、“你能明白吗?”等,则实施例可以将其用作对话的文本显示会有所帮助的指示。在这方面可以利用(leverage)自然语言的唤醒词语或短语的集合,使得系统可以自动实现隐藏字幕显示,并且用户不必手动干预以使用该特征。在某些情况下,可以通过用户提供的输入或选择来检测降低的可听度背景,例如利用音频输入或手势输入来开启隐藏字幕。
虽然实施例可以响应于确定在降低的可听度背景下出现视频回放而自动地倒回视频回放,但是实施例还可以包括对在前音频部分的文本引用。因此,可以向用户报告:系统通过稍后以文本形式呈现先前讲过的对话来跟上先前讲过的对话。这可以采取多种形式,例如,显示为文本的对话回头引用先前讲过的一段对话的简单参考。此外,取决于可用的数据和/或处理能力,实施例可以包括特定的引用,例如,“演员A说‘XYZ’”。因此,如果难以听到/理解特定词语/短语的置信度为高(可听度置信度为低),则可能需要将隐藏字幕数据标记为应用于几秒以前的对话,使得用户不需要倒回和重听。隐藏字幕文本可以显示图形、特殊字符等,以告知用户正在显示的隐藏字幕针对先前的对话。例如当在音频流中不能提前检测的对话期间发生突发噪声时,这会是有帮助的。
另外,观看者可以选择性地配置系统,以仅针对视频中的、观看者难以理解的特定的男/女演员开启隐藏字幕。系统能够使用讲话者识别来自动地识别演员的语音,并且在该演员讲话时开启隐藏字幕。可替选地,实施例可以检查隐藏字幕数据,以确定演员的对话何时出现以及应何时被显示。
通过参考附图将会最佳地理解示出的示例实施例。以下描述仅意在举例,并且仅示出了某些示例实施例。
虽然在信息处理装置中可以利用各种其它电路、电路系统或部件,但是关于智能电话、平板电脑或智能电视电路100,图1中示出的示例包括例如在平板电脑或其它移动计算平台中出现的系统设计。软件和处理器被结合在单个单元110中。内部总线等取决于不同的供应商,但是基本上所有外围设备(120)都可以附接到单个单元110。电路100将处理器、存储器控制以及I/O控制器集线器全部结合成单个单元110。而且,这种类型的系统100通常不使用SATA或PCI或LPC。例如,通用接口包括SDIO和I2C。
存在电源管理电路130,例如电池管理单元BMU,其管理例如经由可充电电池140所供给的电力,其中可再充电电池140可以通过到电源(未示出)的连接而再充电。在至少一个设计中,诸如110的单个单元被用于提供类似BIOS的功能和DRAM存储器。
系统100典型地包括WWAN收发机150以及WLAN收发机160中的一个或更多个,以连接到各种网络,诸如电信网络和无线因特网装置,例如访问点。通常包括附加装置120,例如麦克风、摄像机、IR接收机等。附加装置120还可以包括短距离无线的无线电台,例如蓝牙无线电台,以通过不同类型的网络(例如短距离无线网或个人局域网)与其它装置通信。还可以包括近场通信元件,以作为附加网络部件或附加装置120。通常,系统100将包括用于数据输入和显示的触摸屏/控制器170。系统100还典型地包括各种存储器装置,例如闪速存储器180和SDRAM 190。
就图2而言,其描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于计算系统(例如由地处北卡罗莱纳州的莫里斯维尔的联想(美国)股份公司出售的THINKPAD系列个人计算机)或其它装置。从本文的描述将明白的是,实施例可以包括其它特征或图2中图示的示例的仅一些特征。
图2的示例包括具有可取决于制造商(例如,INTEL、AMD、ARM等)而变化的架构的组210(一起工作的集成电路群)。INTEL是因特尔公司(Intel Corporation)在美国和其它管辖区域的注册商标。AMD是超微半导体公司(Advanced Micro Devices,Inc.)在美国和其它管辖区域的注册商标。ARM是ARM控股有限公司(ARM Holdings plc)在各个管辖区域的商标。
组210的架构包括核与存储器控制群220以及I/O控制器集线器250,其中I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如,数据、信号、命令等)。在图2中,DMI 242是一种接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制群220包括经由前端总线(FSB)224交换信息的一个或更多个存储器222(例如,单核或多核)以及存储器控制器集线器226。注意,群220的部件可以被集成到代替常规的“北桥”式架构的单元中。
在图2中,存储器控制器集线器226与存储器240接口连接(例如,以便对可被称为“系统存储器”或“存储器”的一种RAM提供支持)。存储器控制器集线器226还包括用于显示装置292(例如,CRT、平板显示器、触摸屏等)的LVDS接口232。块238包括可以经由LVDS接口232而被支持的一些技术(例如,串行数字视频、HDMI/DVI、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-高速接口(PCI-E)234。
在图2中,I/O控制器集线器250包括SATA接口251(例如,用于HDD、SDD、280等)、PCI-E接口252(例如,用于无线连接282)、USB接口253(例如,用于装置284,诸如数字转换器、键盘、鼠标、摄像机、电话、麦克风、存储装置、其它连接装置等)、网络接口254(例如,LAN)、GPIO接口255、LPC接口270(用于ASIC 271、TPM 272、超级I/O 273、固件集线器274、BIOS支持275,以及各种类型的存储器276,诸如ROM 277、闪存278和NVRAM 279)、电源管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、TCO接口264、系统管理总线接口265、以及SPI闪存266,该SPI闪存266可以包括BIOS 268和启动代码290。I/O控制器集线器250可以包括千兆位以太网支持。
在上电时,系统可以被配置成执行在SPI闪存266内所存储的针对BIOS 268的启动代码290,此后在一个或更多个操作系统和应用软件(例如,被存储在系统存储器240中)的控制下处理数据。操作系统可以被存储在多个位置的任意位置中,并且例如根据BIOS 268的指令可以访问该操作系统。如本文中所描述的,装置可以包括比图2的系统中示出的特征更少或更多的特征。
例如如图1或图2中所概括的信息处理装置电路可以被用在以下装置中:诸如一般为平板电脑、智能电话、个人计算装置,和/或用户借以消费音频和视频内容的其它电子装置。例如,图1中概括的电路可以被实现在平板电脑或智能电话实施例中,而图2中概括的电路可以被实现在膝上型PC实施例中。在某些情况下,例如在分布式处理情况下可以使用多于一个装置。例如,如本文中所概述的,用户的智能电话可以捕获环境音频,并且将其转播回包含显示器和扬声器的装置以进行进一步处理。其它分布式系统示例是可能的。
如本文中所描述的,实施例可以分别在例如图1和图2的显示器170或292上显示视频内容。结合视频内容的显示,实施例可以例如使用诸如图2的扬声器294的至少一个扬声器,来提供与视频内容相关联的音频内容,例如视频内容的对话。
如图3中所示,根据实施例,在301处播放音频和视频内容还伴有在302处获得回放背景数据。如在本文中进一步描述的,在302获得的该回放背景数据可以源自于各种外部源,包括例如由摄像机捕获的手势数据(例如,用户用手朝着他或她的耳朵做出动作)、由摄像机、麦克风或其它装置捕获的生物计量数据(例如,用于识别特定的用户或男/女演员)、用麦克风捕获的环境音频数据(例如,用于检测干扰可听度的突发环境噪声、检测环境中或视频和音频数据中的特定的讲话者等)、和/或显示装置控制数据(例如,低音量设置、反复暂停和倒回事件等)。
因此,在302处从外部源获得与视频内容和音频内容的回放背景有关的背景数据之后,实施例可以在303确定该数据映射到降低的可听度背景。在303可以单独地或以某种组合来利用多种技术,以确定数据是否指示降低的可听度背景。
例如,在303处,实施例可以使用语音识别引擎分析环境音频数据,以分配有关环境音频数据的识别的置信度得分。这可以对应于以下系统:该系统确定例如由麦克风捕获并被语音识别引擎处理的视频和音频数据的讲过的对话是否是可理解的。因此,在304处实施例可以将音频内容的对话与具有低置信度得分的环境音频数据关联起来,并且如果置信度得分没有超过预定阈值,则在305处访问隐藏字幕数据并提供与具有低置信度得分的对话相关联的隐藏字幕数据以用于显示。
再者,因为可以在线或实时地进行语音识别引擎的语音处理,所以在降低的可听度背景检测的发生与隐藏字幕数据的显示之间可能存在略微的延迟。如此,实施例可以包括对先前显示的视频数据的引用,例如指示由特定的角色先前讲过的隐藏字幕数据等。
作为另一示例,在303处确定可以包括:使用语音识别引擎分析环境音频数据,以识别所识别的环境音频数据中的预定触发表达,例如“我听不见”。如果检测到这样的触发表达,则实施例同样可以访问隐藏字幕数据,并且在304处将隐藏字幕数据与包含预定触发表达的环境音频数据和对话关联起来。以这种方式,在305处实施例可以显示或提供对应于在降低的可听度背景下讲过的对话的文本数据。通过举例的方式,可以检测到预定触发表达并使用自然语言处理将其映射到用户提供的不充分音频的指示。这向系统警报以下情况或背景:在该情况或背景下,用户正在提供指示视频的对话的文本呈现会有帮助的输入。
作为另一示例,在303处的分析可以包括使用手势识别引擎分析手势数据,类似于针对触发表达而分析音频数据,例如用户用他或她的手做出他或她不能听到音频内容的手势。因此,实施例可以在303处识别手势数据中的预定触发手势,并且在304处访问例如在时间上与手势表达相关联的合适的隐藏字幕数据。然后,可能再次在引用先前的音频对话的情况下,实施例可以在305处提供与对话和预定触发手势相关联的隐藏字幕数据以作为文本显示。
在另一示例中,可以为特定的用户和/或对话的特定的讲话者定制系统。通过举例的方式,实施例可以在303处分析所捕获的生物计量数据,例如由摄像机捕获的图像,以识别特定的个体,例如正在观看视频和收听音频内容的特定的用户。响应于识别特定的个体,实施例可以在304处访问例如在时间上与特定的个体的识别相关联的合适的隐藏字幕数据。因此,实施例可以在305处提供与对话和特定的个体的识别相关联的隐藏字幕数据以用于文本显示。如果已知特定的用户听力困难和/或如果已知特定的用户引起了可听度中断(例如,小孩),则这会是有用的。
在类似的示例中,可以使用生物计量分析来具体地识别对话的讲话者(例如,演员),以提供与特定的个体相关联的对话的文本显示。这可以自动实现(例如,通过查阅对话的历史)和/或可以利用手动输入(例如,用户可以指出例如由于口音、降低的音调等而难以理解特定的演员)。
通过进一步举例,实施例可以在303处分析显示装置控制数据,例如降低的音量设置、反复暂停倒回事件等,以识别指示降低的可听度背景的显示控制背景。这可以被认为是系统监视用户反馈(例如,增大音量、倒回并重播视频片段以再次收听音频等)以推断出降低的可听度背景。如果在303处通过使用显示装置控制数据检测到这样的背景,则实施例接着可以在304处访问在时间上与指示降低的可听度背景的显示控制背景相关联的隐藏字幕数据,并且随后在305处提供隐藏字幕数据以用于对话的文本显示。
如果在303处没有确定这样的降低的可听度背景,则实施例可以简单地使数据的文本显示停止。以这种方式,可以避免隐藏字幕数据的不必要的显示,从而增强用户的视觉体验,而不会以手动地控制视频回放而烦扰他们。
简要概括,实施例监视媒体消费场景的可听度背景,以智能且自动地实现对话的文本显示,对话的文本显示在许多情况下可以从已经提供的(却没有显示的)隐藏字幕数据可得到。在隐藏字幕数据不可得的情况下,实施例可以例如通过语音识别和语音到文本处理而在本地提供文本显示。再者,就引入延迟方面来说,实施例可以包括引用,使得用户被告知文本显示对应于哪段音频对话。在一些实施例中,可以使用用户输入和/或用户反馈的历史来精化针对对话而呈现自动文本显示的准确度和定时。
如本领域的技术人员将理解的,各个方面可以被具体化成系统、方法或装置程序产品。因此,各方面可以采取完全硬件实施例或包括软件的实施例的形式,在本文中它们可以全部一般地称为“电路”、“模块”或“系统”。此外,各方面可以采取被具体化在一个或更多个装置可读介质中的装置程序产品的形式,其中装置可读介质中具体化有装置可读程序代码。
可以利用一个或更多个无信号装置可读存储介质的任何组合。存储介质可以是例如电子系统、设备或装置;磁系统、设备或装置;光系统、设备或装置;电磁系统、设备或装置;红外系统、设备或装置;或者半导体系统、设备或装置;或者前述系统、设备或装置的任何合适的组合。存储介质的更具体的示例将包括以下项:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或者前述项的任何合适的组合。在本文件的上下文中,存储介质不是信号,而是非临时性的,并且“非临时性”包括除信号媒体以外的所有媒体。
可以使用任何合适的介质,包括但不限于无线、电缆、光纤线缆、RF等等、或者前述项的任何合适的组合,来传输被具体化在存储介质上的程序代码。
可以采用一种或更多种编程语言的任意组合编写用于实现操作的程序代码。程序代码可以完全在单个装置上执行,部分地在单个装置上执行,作为独立的软件包执行,部分地在单个装置上且部分地在另一装置上执行,或者完全在其它装置上执行。在某些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接各装置,或者可以通过以下方式进行连接:通过其它装置(例如,通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信或短距离无线通信)、或者通过硬线连接(例如通过USB连接)。
在本文中参考附图描述了示例实施例,附图图示了根据各个示例实施例的示例方法、装置以及程序产品。将要理解的是,可以至少部分地通过程序指令来实现动作和功能。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或者其它可编程数据处理装置的处理器以产生机器,使得通过装置的处理器执行的指令实现指定的功能/动作。
值得注意的是,虽然在附图中使用了特定的块,并且已经图示了块的特定顺序,但是这些都是非限制性的示例。在某些情况下,由于明确说明的示例仅用于描述的目的而不被理解为进行限制,所以可以结合两个或更多个块,可以将一个块分成两个或更多个块,或者适当地重排或重新组织某些块。
除非另外明确指出,否则如本文中所使用的单数形式“一个(a)”和“一种(an)”可以被理解为包括复数。
出于说明和描述的目的呈现了本公开内容,但是本公开内容并不意在穷举或限制。许多修改和变化对本领域的普通技术人员来说是明显的。选择并描述了示例实施例,以说明原理和实际应用,以及以使本领域的其它普通技术人员能够理解具有适用于想到的特定用途的各种修改的各个实施例的公开内容。
因此,虽然在本文中已经参考附图描述了说明性的示例实施例,但是要理解的是,本说明书不是限制性的,而且在不偏离本公开内容的范围或精神的情况下,本领域的技术人员可以在其中完成各种其它改变和修改。
Claims (21)
1.一种字幕隐藏方法,包括:
在显示装置上播放视频内容;
使用至少一个扬声器提供与所述视频内容相关联的音频内容;
从外部源获得与回放背景有关的数据,所述与回放背景有关的数据包括环境音频数据,所述环境音频数据包括:所述扬声器提供的所述视频内容中的特定讲话者的语音;
使用处理器确定与所述回放背景有关的所述数据与降低的可听度背景相关联;以及
在所述显示装置上提供与所述视频内容的对话相关联的文本数据。
2.根据权利要求1所述的方法,还包括:使用处理器将与所述降低的可听度背景相关联的所述数据和所述音频内容的对话关联起来。
3.根据权利要求1所述的方法,其中,与回放背景有关的所述数据选自由手势数据、生物计量数据、环境音频数据以及显示装置控制数据构成的组。
4.根据权利要求3所述的方法,还包括:
使用语音识别引擎分析所述环境音频数据;
分配有关所述环境音频数据的识别的置信度得分;
将所述音频内容的对话与具有低置信度得分的所述环境音频数据关联起来;以及
响应于所述置信度得分没有超过预定阈值而访问隐藏字幕数据;
其中,所述提供包括:提供与具有所述低置信度得分的所述对话相关联的隐藏字幕数据。
5.根据权利要求4所述的方法,其中,所述隐藏字幕数据包括对先前显示的视频数据的引用。
6.根据权利要求5所述的方法,其中,所述引用指示所述视频数据内的特定的讲话者。
7.根据权利要求3所述的方法,还包括:
使用语音识别引擎分析所述环境音频数据;
识别所识别的环境音频数据中的预定触发表达;以及
响应于识别所述预定触发表达而访问隐藏字幕数据;
其中,所述提供包括:提供与所述对话和包含所述预定触发表达的所述环境音频数据相关联的隐藏字幕数据。
8.根据权利要求7所述的方法,其中,使用自然语言处理将所述预定触发表达关联到用户提供的不充分音频的指示。
9.根据权利要求3所述的方法,还包括:
使用手势识别引擎分析所述手势数据;
识别所述手势数据中的预定触发手势;以及
响应于识别所述预定触发手势而访问隐藏字幕数据;
其中,所述提供包括:提供与所述对话和所述预定触发手势相关联的隐藏字幕数据。
10.根据权利要求3所述的方法,还包括:
分析所述生物计量数据以识别特定的个体;以及
响应于识别所述特定的个体而访问隐藏字幕数据;
其中,所述提供包括:提供与所述对话和所述特定的个体的识别相关联的隐藏字幕数据。
11.根据权利要求3所述的方法,还包括:
分析显示控制数据以识别指示降低的可听度背景的显示控制背景;以及
访问在时间上与指示降低的可听度背景的所述显示控制背景相关联的隐藏字幕数据;
其中,所述提供包括:提供与所述对话和指示降低的可听度背景的所述显示控制背景相关联的隐藏字幕数据。
12.一种电子装置,包括:
显示装置;
输入部件;
至少一个扬声器;
一个或更多个处理器;以及
存储器,其工作上耦接至所述一个或更多个处理器、所述显示装置、所述至少一个扬声器以及所述输入部件,所述存储器存储能够由所述一个或更多个处理器执行的指令,所述指令能够由所述一个或更多个处理器执行以:
在所述显示装置上播放视频内容;
使用所述至少一个扬声器提供与所述视频内容相关联的音频内容;
从外部源获得与回放背景有关的数据,所述与回放背景有关的数据包括环境音频数据,所述环境音频数据包括:所述扬声器提供的所述视频内容中的特定讲话者的语音;
确定与回放背景有关的所述数据与降低的可听度背景相关联,以及
在所述显示装置上提供与所述视频内容的对话相关联的文本数据。
13.根据权利要求12所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行,以将与降低的可听度背景相关联的所述数据与所述音频内容的对话关联起来。
14.根据权利要求12所述的电子装置,其中,与回放背景有关的所述数据选自由手势数据、生物计量数据、环境音频数据以及显示装置控制数据构成的组。
15.根据权利要求14所述的电子装置,其中,所述指令还能够由一个或更多个处理器执行以:
使用语音识别引擎分析所述环境音频数据;
分配有关所述环境音频数据的识别的置信度得分;
将所述音频内容的对话与具有低置信度得分的所述环境音频数据关联起来;
响应于所述置信度得分没有超过预定阈值而访问隐藏字幕数据;
其中,所述提供包括:提供与具有所述低置信度得分的所述对话相关联的隐藏字幕数据。
16.根据权利要求15所述的电子装置,其中,所述隐藏字幕数据包括对先前显示的视频数据的引用。
17.根据权利要求16所述的电子装置,其中,所述引用指示所述视频数据内的特定的讲话者。
18.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以:
使用语音识别引擎分析所述环境音频数据;
识别所识别的环境音频数据中的预定触发表达;以及
响应于识别所述预定触发表达而访问隐藏字幕数据;
其中,提供包括:提供与所述对话和包含所述预定触发表达的所述环境音频数据相关联的隐藏字幕数据。
19.根据权利要求18所述的电子装置,其中,使用自然语言处理将所述预定触发表达映射到用户提供的不充分音频的指示。
20.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以:
使用手势识别引擎分析所述手势数据;
识别所述手势数据中的预定触发手势;以及
响应于识别所述预定触发手势而访问隐藏字幕数据;
其中,所述提供包括:提供与所述对话和所述预定触发手势相关联的隐藏字幕数据。
21.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以:
分析所述生物计量数据,以识别特定的个体;以及
响应于识别所述特定的个体而访问隐藏字幕数据;
其中,所述提供包括:提供与所述对话和所述特定的个体的识别相关联的隐藏字幕数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/329,374 | 2014-07-11 | ||
US14/329,374 US10321204B2 (en) | 2014-07-11 | 2014-07-11 | Intelligent closed captioning |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105323648A CN105323648A (zh) | 2016-02-10 |
CN105323648B true CN105323648B (zh) | 2019-10-29 |
Family
ID=54867053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510359178.XA Active CN105323648B (zh) | 2014-07-11 | 2015-06-25 | 字幕隐藏方法和电子装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10321204B2 (zh) |
CN (1) | CN105323648B (zh) |
DE (1) | DE102015110621B4 (zh) |
Families Citing this family (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2954514B1 (en) | 2013-02-07 | 2021-03-31 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
KR102187195B1 (ko) * | 2014-07-28 | 2020-12-04 | 삼성전자주식회사 | 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10057532B2 (en) * | 2016-04-01 | 2018-08-21 | Comcast Cable Communications, Llc | Methods and systems for environmental noise compensation |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10771853B2 (en) * | 2016-12-01 | 2020-09-08 | Arris Enterprises Llc | System and method for caption modification |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
WO2018112789A1 (en) * | 2016-12-21 | 2018-06-28 | Arris Enterprises Llc | Automatic activation of closed captioning for low volume periods |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US9854324B1 (en) * | 2017-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for automatically enabling subtitles based on detecting an accent |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US20190259424A1 (en) * | 2018-02-21 | 2019-08-22 | Comcast Cable Communications, Llc | Content Playback Control |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11064264B2 (en) * | 2018-09-20 | 2021-07-13 | International Business Machines Corporation | Intelligent rewind function when playing media content |
US10848819B2 (en) * | 2018-09-25 | 2020-11-24 | Rovi Guides, Inc. | Systems and methods for adjusting buffer size |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11178465B2 (en) * | 2018-10-02 | 2021-11-16 | Harman International Industries, Incorporated | System and method for automatic subtitle display |
US11265597B2 (en) | 2018-10-23 | 2022-03-01 | Rovi Guides, Inc. | Methods and systems for predictive buffering of related content segments |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11372965B2 (en) | 2019-05-10 | 2022-06-28 | Microsoft Technology Licensing, Llc | Application with self-configuring accessibility settings |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11558658B2 (en) * | 2020-11-02 | 2023-01-17 | Rovi Guides, Inc. | Systems and methods for handling audio disruptions |
EP4245040A1 (en) * | 2021-03-03 | 2023-09-20 | Google LLC | Multi-party optimization for audiovisual enhancement |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100431342C (zh) * | 2003-08-15 | 2008-11-05 | 株式会社东芝 | 隐藏字幕控制装置及其所用的方法 |
CN101461241A (zh) * | 2006-06-09 | 2009-06-17 | 汤姆逊许可公司 | 隐藏式字幕的系统和方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480819B1 (en) * | 1999-02-25 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television |
US6993246B1 (en) * | 2000-09-15 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method and system for correlating data streams |
US20040044532A1 (en) * | 2002-09-03 | 2004-03-04 | International Business Machines Corporation | System and method for remote audio caption visualizations |
US8041025B2 (en) * | 2006-08-07 | 2011-10-18 | International Business Machines Corporation | Systems and arrangements for controlling modes of audio devices based on user selectable parameters |
US9282377B2 (en) * | 2007-05-31 | 2016-03-08 | iCommunicator LLC | Apparatuses, methods and systems to provide translations of information into sign language or other formats |
US7487096B1 (en) * | 2008-02-20 | 2009-02-03 | International Business Machines Corporation | Method to automatically enable closed captioning when a speaker has a heavy accent |
US9131191B2 (en) * | 2008-09-18 | 2015-09-08 | VIZIO Inc. | Synchronizing operational states of closed captioning and audio mute |
KR102003267B1 (ko) * | 2011-12-30 | 2019-10-02 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US20130242189A1 (en) * | 2012-03-13 | 2013-09-19 | Verizon Patent And Licensing Inc. | Method and system for providing synchronized playback of media streams and corresponding closed captions |
US9210360B2 (en) * | 2012-12-28 | 2015-12-08 | Echostar Uk Holdings Limited | Volume level-based closed-captioning control |
-
2014
- 2014-07-11 US US14/329,374 patent/US10321204B2/en active Active
-
2015
- 2015-06-25 CN CN201510359178.XA patent/CN105323648B/zh active Active
- 2015-07-01 DE DE102015110621.3A patent/DE102015110621B4/de active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100431342C (zh) * | 2003-08-15 | 2008-11-05 | 株式会社东芝 | 隐藏字幕控制装置及其所用的方法 |
CN101461241A (zh) * | 2006-06-09 | 2009-06-17 | 汤姆逊许可公司 | 隐藏式字幕的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
DE102015110621A1 (de) | 2016-01-14 |
US10321204B2 (en) | 2019-06-11 |
US20160014476A1 (en) | 2016-01-14 |
CN105323648A (zh) | 2016-02-10 |
DE102015110621B4 (de) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105323648B (zh) | 字幕隐藏方法和电子装置 | |
US11785395B2 (en) | Hearing aid with voice recognition | |
US10204624B1 (en) | False positive wake word | |
EP3179474B1 (en) | User focus activated voice recognition | |
CN106663245B (zh) | 社交提醒 | |
US20230045237A1 (en) | Wearable apparatus for active substitution | |
KR102374620B1 (ko) | 음성 인식을 위한 전자 장치 및 시스템 | |
US11537360B2 (en) | System for processing user utterance and control method of same | |
CN104954960A (zh) | 调整助听器声音的方法、执行该方法的助听器和电子装置 | |
CN112532266A (zh) | 智能头盔及智能头盔的语音交互控制方法 | |
WO2022227655A1 (zh) | 一种声音播放方法、装置、电子设备及可读存储介质 | |
JP6662962B2 (ja) | 話者検証方法及び音声認識システム | |
WO2022199405A1 (zh) | 一种语音控制方法和装置 | |
CN111683329A (zh) | 麦克风检测方法、装置、终端及存储介质 | |
US20200286475A1 (en) | Two-person Automatic Speech Recognition Training To Interpret Unknown Voice Inputs | |
US10748535B2 (en) | Transcription record comparison | |
KR20150029197A (ko) | 이동 단말기 및 그 동작 방법 | |
US11687317B2 (en) | Wearable computing device audio interface | |
US20210266681A1 (en) | Processing audio and video in a hearing aid system | |
US11315544B2 (en) | Cognitive modification of verbal communications from an interactive computing device | |
US11250861B2 (en) | Audio input filtering based on user verification | |
CN111326175A (zh) | 一种对话者的提示方法及穿戴设备 | |
US11968519B2 (en) | Directional audio provision system | |
US10803847B1 (en) | Authorized sound notification during noise cancellation context | |
KR20220041413A (ko) | 전자장치 및 그 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |