CN105323648A - 字幕隐藏方法和电子装置 - Google Patents

字幕隐藏方法和电子装置 Download PDF

Info

Publication number
CN105323648A
CN105323648A CN201510359178.XA CN201510359178A CN105323648A CN 105323648 A CN105323648 A CN 105323648A CN 201510359178 A CN201510359178 A CN 201510359178A CN 105323648 A CN105323648 A CN 105323648A
Authority
CN
China
Prior art keywords
described
data
associated
closed caption
dialogue
Prior art date
Application number
CN201510359178.XA
Other languages
English (en)
Other versions
CN105323648B (zh
Inventor
小尼尔·罗伯特·卡利恩多
拉塞尔·斯佩格特·范布恩
阿诺德·S·韦克斯勒
Original Assignee
联想(新加坡)私人有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US14/329,374 priority Critical
Priority to US14/329,374 priority patent/US10321204B2/en
Application filed by 联想(新加坡)私人有限公司 filed Critical 联想(新加坡)私人有限公司
Publication of CN105323648A publication Critical patent/CN105323648A/zh
Application granted granted Critical
Publication of CN105323648B publication Critical patent/CN105323648B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details

Abstract

提供了一种字幕隐藏方法和电子装置。该字幕隐藏方法包括:在显示设备上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。描述并要求保护其它方面。

Description

字幕隐藏方法和电子装置

技术领域

[0001] 本公开涉及智能隐藏字幕,具体地涉及一种字幕隐藏方法和电子装置。

背景技术

[0002] 信息处理装置(“电子装置”或“装置”),例如智能电视、平板显示器、智能电话、平板装置、膝上型计算机等通常被用于观看视频(音频和视频内容)。很多时候用户会错过音频,例如在发生突发环境噪声或演员以低音量的方式说出对话的情况下。

[0003] 内容提供方试图通过提供跟踪对话的隐藏字幕(capt1n)数据来使视频内容更可理解。这在一些方面是有帮助的,虽然它通常没有适当地适应各种媒体消费情形。例如,隐藏字幕数据是有帮助的,但是必须手动启用。因此,用户往往不会打开隐藏字幕选项,直到他们已经错过了对话的重要部分。类似地,对于没有听力受损的用户来说,使隐藏字幕选项无限期地处于打开状态虽然在帮助理解听不见的对话时是有用的,但是通常会不必要地干扰观看体验。

发明内容

[0004] 概括地说,一个方面提供了一种字幕隐藏方法,该方法包括:在显示装置上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。

[0005] 另一方面提供了一种电子装置,该电子装置包括:显示装置;输入部件;至少一个扬声器;一个或更多个处理器;以及存储器,其中存储器工作上耦接至一个或更多个处理器、显示装置、至少一个扬声器以及输入部件,存储器存储能够由一个或更多个处理器执行的指令,所述指令能够由所述一个或更多个处理器执行以:在显示装置上播放视频内容;使用至少一个扬声器提供与视频内容相关联的音频内容;从外部源获得与回放背景有关的数据;确定与回放背景有关的数据与降低的可听度背景相关联;以及在显示装置上提供与视频内容的对话相关联的文本数据。

[0006] 又一方面提供了一种计算机程序产品,该计算机程序产品包括:存储装置,其存储能够由处理器执行的指令,所述指令包括:在显示装置上播放视频内容的指令;使用至少一个扬声器提供与视频内容相关联的音频内容的指令;从外部源获得与回放背景有关的数据的指令;使用处理器确定与回放背景有关的数据与降低的可听度背景相关联的指令;以及在显示装置上提供与视频内容的对话相关联的文本数据的指令。

[0007] 前述内容是概述,因此可包含对细节的简化、概括以及省略;因此,本领域的技术人员将会理解该概述仅仅是说明性的,而不意图以任何方式进行限制。

[0008] 为了更好地理解实施例,连同实施例的其它以及另外的特征和优势,结合附图,提到了以下描述。在所附权利要求中将指出本发明的范围。

附图说明

[0009] 图1图示了示例信息处理装置。

[0010] 图2图示了另一示例信息处理装置。

[0011] 图3图示了用于智能隐藏字幕的示例方法。

具体实施方式

[0012] 将容易理解,如在本文的附图中一般性地描述和图示的实施例的部件除了可以被布置并设计为描述的示例实施例以外,还可以被布置并设计为各种各样的不同配置。因此,如附图中所呈现的示例实施例的以下更详细的描述不意图限制本实施例的范围,而仅仅代表示例实施例。

[0013] 贯穿本说明书提及的“一个实施例”或“一种实施例”(等)表示在至少一个实施例中包括结合本实施例所描述的特定特征、结构或特性。因此,贯穿本说明书在各个地方出现的短语“在一个实施例中”或“在一种实施例中”等不一定都指同一实施例。

[0014] 此外,可以以任何适当的方式将所描述的特征、结构或特性结合在一个或更多个实施例中。在以下描述中,提供了大量的具体细节以给出对实施例的透彻的理解。然而,相关领域的技术人员将认识到,能够在无需一个或更多个具体细节的情况下,或者用其它方法、部件、材料等等来实践各个实施例。在其它实例中,没有详细地示出或描述众所周知的结构、材料或操作,以避免混淆。

[0015] 隐藏字幕通常是观看选项。也就是说,观看者选择在整个视频回放期间是打开隐藏字幕还是关闭隐藏字幕。如果观看者听力受损,不理解音频对话的主要语言,或者处于不能充分提高音频的环境中(例如,不允许提高音频的安静的环境或提高音频没有用的嘈杂的环境),则他或她通常可以打开隐藏字幕。

[0016] 然而,有时可能只有视频的某些部分难以理解。例如,可能在短时段内存在压倒性的背景噪声或者演员在视频回放的简短片段内不可以清楚地讲话。在这些情况下,观看者能够手动倒回视频,试图暂时地快速增大音量,或者暂时打开隐藏字幕并重放场景。

[0017] 有时包括字幕说明(subtitle),例如,在内容制作者预料到大部分观看者能够听到但不能够理解语言或口音时显示所述字幕说明。例如,电视节目或纪录片中的人可能在背景中喃喃而语,或者用与主要语言不同的语言讲话。在这些情况下,制作者可能会迫使字幕说明显示出来,使得观看者能够理解说了什么。然而,这样的字幕说明是预定的,且不是可定制的。

[0018] 因而,实施例提供了用于在降低的可听度的背景下实现智能隐蔽字幕的方法。例如,通过监视背景数据,例如在视频回放期间麦克风可检测的且使用语音识别被处理的音频对话,实施例可以针对视频中的难以理解的部分自动显示文本,例如相应的隐藏字幕文本。关于要显示哪些文本数据(例如,隐藏字幕数据)的确定可以基于若干因素。

[0019] 例如,在实施例中,语音识别引擎可以处理环境音频并确定该音频不能被翻译。例如,这能够通过以下操作来推断:具有语音识别引擎的错误响应,即由语音识别引擎确定对话从字面上是不可理解的。这可以被精化,例如当识别准确度在统计上为低或具有降低的置信度的情况下,例如可以对语音识别引擎进行校准以使用识别的统计概率,语音识别引擎可以提供应当显示隐藏字幕数据的确定。

[0020] 作为另一示例,实施例可以使用直接确定来识别降低的可听度的背景,例如显示装置的音量设置处于被认为太低而不能听见的水平的指示。在这种情况下,实施例可以显示隐藏字幕数据,使得用户可以阅读对话。在另一示例中,除了使用音量设置以外,实施例还可以使用显示装置控制数据来检测降低的可听度的环境。例如,如果用户一次或更多次地倒回视频回放,则这可以被映射到例如用户需要重看场景以正确听到视频的降低的可听度的背景。

[0021] 在另一示例中,实施例可以检测到观看环境中的环境噪声超过阈值音量(例如,狗叫、人说话、空调系统开启等)。用户可以配置声音阈值(例如,提供在以下情况下显示隐藏字幕数据的设置:在超出某一分贝(dB)水平时、在出现某一高音调/低音调声音时等)。

[0022] 在另一示例中,观看环境中频繁出现的某些声音(例如,救护车驶过、狗叫等)可以在不考虑其大小的情况下被用作显示与对话相关联的文本的触发。用户可以调整这样的设置,以仔细听某些类型的声音。

[0023] 降低的可听度的背景数据的另一个源可以是用户他或她本身。例如,如果实施例检测到用户讲出某一触发短语,例如“他说什么? ”、“你能明白吗? ”等,则实施例可以将其用作对话的文本显示会有所帮助的指示。在这方面可以利用(leverage)自然语言的唤醒词语或短语的集合,使得系统可以自动实现隐藏字幕显示,并且用户不必手动干预以使用该特征。在某些情况下,可以通过用户提供的输入或选择来检测降低的可听度背景,例如利用音频输入或手势输入来开启隐藏字幕。

[0024] 虽然实施例可以响应于确定在降低的可听度背景下出现视频回放而自动地倒回视频回放,但是实施例还可以包括对在前音频部分的文本引用。因此,可以向用户报告:系统通过稍后以文本形式呈现先前讲过的对话来跟上先前讲过的对话。这可以采取多种形式,例如,显示为文本的对话回头引用先前讲过的一段对话的简单参考。此外,取决于可用的数据和/或处理能力,实施例可以包括特定的引用,例如,“演员A说‘XYZ’”。因此,如果难以听到/理解特定词语/短语的置信度为高(可听度置信度为低),则可能需要将隐藏字幕数据标记为应用于几秒以前的对话,使得用户不需要倒回和重听。隐藏字幕文本可以显示图形、特殊字符等,以告知用户正在显示的隐藏字幕针对先前的对话。例如当在音频流中不能提前检测的对话期间发生突发噪声时,这会是有帮助的。

[0025] 另外,观看者可以选择性地配置系统,以仅针对视频中的、观看者难以理解的特定的男/女演员开启隐藏字幕。系统能够使用讲话者识别来自动地识别演员的语音,并且在该演员讲话时开启隐藏字幕。可替选地,实施例可以检查隐藏字幕数据,以确定演员的对话何时出现以及应何时被显示。

[0026] 通过参考附图将会最佳地理解示出的示例实施例。以下描述仅意在举例,并且仅示出了某些示例实施例。

[0027] 虽然在信息处理装置中可以利用各种其它电路、电路系统或部件,但是关于智能电话、平板电脑或智能电视电路100,图1中示出的示例包括例如在平板电脑或其它移动计算平台中出现的系统设计。软件和处理器被结合在单个单元110中。内部总线等取决于不同的供应商,但是基本上所有外围设备(120)都可以附接到单个单元110。电路100将处理器、存储器控制以及I/O控制器集线器全部结合成单个单元110。而且,这种类型的系统100通常不使用SATA或PCI或LPCo例如,通用接口包括SD10和I2C。

[0028] 存在电源管理电路130,例如电池管理单元BMU,其管理例如经由可充电电池140所供给的电力,其中可再充电电池140可以通过到电源(未示出)的连接而再充电。在至少一个设计中,诸如110的单个单元被用于提供类似B1S的功能和DRAM存储器。

[0029] 系统100典型地包括WWAN收发机150以及WLAN收发机160中的一个或更多个,以连接到各种网络,诸如电信网络和无线因特网装置,例如访问点。通常包括附加装置120,例如麦克风、摄像机、IR接收机等。附加装置120还可以包括短距离无线的无线电台,例如蓝牙无线电台,以通过不同类型的网络(例如短距离无线网或个人局域网)与其它装置通信。还可以包括近场通信元件,以作为附加网络部件或附加装置120。通常,系统100将包括用于数据输入和显示的触摸屏/控制器170。系统100还典型地包括各种存储器装置,例如闪速存储器180和SDRAM 190。

[0030] 就图2而言,其描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于计算系统(例如由地处北卡罗莱纳州的莫里斯维尔的联想(美国)股份公司出售的THINKPAD系列个人计算机)或其它装置。从本文的描述将明白的是,实施例可以包括其它特征或图2中图示的示例的仅一些特征。

[0031] 图2的示例包括具有可取决于制造商(例如,INTEL、AMD、ARM等)而变化的架构的组210 ( —起工作的集成电路群)。INTEL是因特尔公司(Intel Corporat1n)在美国和其它管辖区域的注册商标。AMD是超微半导体公司(Advanced Micro Devices, Inc.)在美国和其它管辖区域的注册商标。ARM是ARM控股有限公司(ARM Holdings pic)在各个管辖区域的商标。

[0032] 组210的架构包括核与存储器控制群220以及1/0控制器集线器250,其中1/0控制器集线器250经由直接管理接口(DMI) 242或链路控制器244交换信息(例如,数据、信号、命令等)。在图2中,DMI 242是一种接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制群220包括经由前端总线(FSB) 224交换信息的一个或更多个存储器222(例如,单核或多核)以及存储器控制器集线器226。注意,群220的部件可以被集成到代替常规的“北桥”式架构的单元中。

[0033] 在图2中,存储器控制器集线器226与存储器240接口连接(例如,以便对可被称为“系统存储器”或“存储器”的一种RAM提供支持)。存储器控制器集线器226还包括用于显示装置292 (例如,CRT、平板显示器、触摸屏等)的LVDS接口 232。块238包括可以经由LVDS接口 232而被支持的一些技术(例如,串行数字视频、HDMI/DV1、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PC1-高速接口(PCI_E)234。

[0034] 在图2中,1/0控制器集线器250包括SATA接口 251(例如,用于HDD、SDD、280等)、PC1-E接口 252 (例如,用于无线连接282)、USB接口 253 (例如,用于装置284,诸如数字转换器、键盘、鼠标、摄像机、电话、麦克风、存储装置、其它连接装置等)、网络接口 254(例如,LAN)、GP10 接口 255、LPC 接口 270(用于 ASIC 27UTPM 272、超级 1/0 273、固件集线器274,B1S支持275,以及各种类型的存储器276,诸如ROM 277、闪存278和NVRAM 279)、电源管理接口 261、时钟发生器接口 262、音频接口 263(例如,用于扬声器294)、TC0接口 264、系统管理总线接口 265、以及SPI闪存266,该SPI闪存266可以包括B1S 268和启动代码290。1/0控制器集线器250可以包括千兆位以太网支持。

[0035] 在上电时,系统可以被配置成执行在SPI闪存266内所存储的针对B1S 268的启动代码290,此后在一个或更多个操作系统和应用软件(例如,被存储在系统存储器240中)的控制下处理数据。操作系统可以被存储在多个位置的任意位置中,并且例如根据B1S 268的指令可以访问该操作系统。如本文中所描述的,装置可以包括比图2的系统中示出的特征更少或更多的特征。

[0036] 例如如图1或图2中所概括的信息处理装置电路可以被用在以下装置中:诸如一般为平板电脑、智能电话、个人计算装置,和/或用户借以消费音频和视频内容的其它电子装置。例如,图1中概括的电路可以被实现在平板电脑或智能电话实施例中,而图2中概括的电路可以被实现在膝上型PC实施例中。在某些情况下,例如在分布式处理情况下可以使用多于一个装置。例如,如本文中所概述的,用户的智能电话可以捕获环境音频,并且将其转播回包含显示器和扬声器的装置以进行进一步处理。其它分布式系统示例是可能的。

[0037] 如本文中所描述的,实施例可以分别在例如图1和图2的显示器170或292上显示视频内容。结合视频内容的显示,实施例可以例如使用诸如图2的扬声器294的至少一个扬声器,来提供与视频内容相关联的音频内容,例如视频内容的对话。

[0038] 如图3中所示,根据实施例,在301处播放音频和视频内容还伴有在302处获得回放背景数据。如在本文中进一步描述的,在302获得的该回放背景数据可以源自于各种外部源,包括例如由摄像机捕获的手势数据(例如,用户用手朝着他或她的耳朵做出动作)、由摄像机、麦克风或其它装置捕获的生物计量数据(例如,用于识别特定的用户或男/女演员)、用麦克风捕获的环境音频数据(例如,用于检测干扰可听度的突发环境噪声、检测环境中或视频和音频数据中的特定的讲话者等)、和/或显示装置控制数据(例如,低音量设置、反复暂停和倒回事件等)。

[0039] 因此,在302处从外部源获得与视频内容和音频内容的回放背景有关的背景数据之后,实施例可以在303确定该数据映射到降低的可听度背景。在303可以单独地或以某种组合来利用多种技术,以确定数据是否指示降低的可听度背景。

[0040] 例如,在303处,实施例可以使用语音识别引擎分析环境音频数据,以分配有关环境音频数据的识别的置信度得分。这可以对应于以下系统:该系统确定例如由麦克风捕获并被语音识别引擎处理的视频和音频数据的讲过的对话是否是可理解的。因此,在304处实施例可以将音频内容的对话与具有低置信度得分的环境音频数据关联起来,并且如果置信度得分没有超过预定阈值,则在305处访问隐藏字幕数据并提供与具有低置信度得分的对话相关联的隐藏字幕数据以用于显示。

[0041] 再者,因为可以在线或实时地进行语音识别引擎的语音处理,所以在降低的可听度背景检测的发生与隐藏字幕数据的显示之间可能存在略微的延迟。如此,实施例可以包括对先前显示的视频数据的引用,例如指示由特定的角色先前讲过的隐藏字幕数据等。

[0042] 作为另一示例,在303处确定可以包括:使用语音识别引擎分析环境音频数据,以识别所识别的环境音频数据中的预定触发表达,例如“我听不见”。如果检测到这样的触发表达,则实施例同样可以访问隐藏字幕数据,并且在304处将隐藏字幕数据与包含预定触发表达的环境音频数据和对话关联起来。以这种方式,在305处实施例可以显示或提供对应于在降低的可听度背景下讲过的对话的文本数据。通过举例的方式,可以检测到预定触发表达并使用自然语言处理将其映射到用户提供的不充分音频的指示。这向系统警报以下情况或背景:在该情况或背景下,用户正在提供指示视频的对话的文本呈现会有帮助的输入。

[0043] 作为另一示例,在303处的分析可以包括使用手势识别引擎分析手势数据,类似于针对触发表达而分析音频数据,例如用户用他或她的手做出他或她不能听到音频内容的手势。因此,实施例可以在303处识别手势数据中的预定触发手势,并且在304处访问例如在时间上与手势表达相关联的合适的隐藏字幕数据。然后,可能再次在引用先前的音频对话的情况下,实施例可以在305处提供与对话和预定触发手势相关联的隐藏字幕数据以作为文本显示。

[0044] 在另一示例中,可以为特定的用户和/或对话的特定的讲话者定制系统。通过举例的方式,实施例可以在303处分析所捕获的生物计量数据,例如由摄像机捕获的图像,以识别特定的个体,例如正在观看视频和收听音频内容的特定的用户。响应于识别特定的个体,实施例可以在304处访问例如在时间上与特定的个体的识别相关联的合适的隐藏字幕数据。因此,实施例可以在305处提供与对话和特定的个体的识别相关联的隐藏字幕数据以用于文本显示。如果已知特定的用户听力困难和/或如果已知特定的用户引起了可听度中断(例如,小孩),则这会是有用的。

[0045] 在类似的示例中,可以使用生物计量分析来具体地识别对话的讲话者(例如,演员),以提供与特定的个体相关联的对话的文本显示。这可以自动实现(例如,通过查阅对话的历史)和/或可以利用手动输入(例如,用户可以指出例如由于口音、降低的音调等而难以理解特定的演员)。

[0046] 通过进一步举例,实施例可以在303处分析显示装置控制数据,例如降低的音量设置、反复暂停倒回事件等,以识别指示降低的可听度背景的显示控制背景。这可以被认为是系统监视用户反馈(例如,增大音量、倒回并重播视频片段以再次收听音频等)以推断出降低的可听度背景。如果在303处通过使用显示装置控制数据检测到这样的背景,则实施例接着可以在304处访问在时间上与指示降低的可听度背景的显示控制背景相关联的隐藏字幕数据,并且随后在305处提供隐藏字幕数据以用于对话的文本显示。

[0047] 如果在303处没有确定这样的降低的可听度背景,则实施例可以简单地使数据的文本显示停止。以这种方式,可以避免隐藏字幕数据的不必要的显示,从而增强用户的视觉体验,而不会以手动地控制视频回放而烦扰他们。

[0048] 简要概括,实施例监视媒体消费场景的可听度背景,以智能且自动地实现对话的文本显示,对话的文本显示在许多情况下可以从已经提供的(却没有显示的)隐藏字幕数据可得到。在隐藏字幕数据不可得的情况下,实施例可以例如通过语音识别和语音到文本处理而在本地提供文本显示。再者,就引入延迟方面来说,实施例可以包括引用,使得用户被告知文本显示对应于哪段音频对话。在一些实施例中,可以使用用户输入和/或用户反馈的历史来精化针对对话而呈现自动文本显示的准确度和定时。

[0049] 如本领域的技术人员将理解的,各个方面可以被具体化成系统、方法或装置程序产品。因此,各方面可以采取完全硬件实施例或包括软件的实施例的形式,在本文中它们可以全部一般地称为“电路”、“模块”或“系统”。此外,各方面可以采取被具体化在一个或更多个装置可读介质中的装置程序产品的形式,其中装置可读介质中具体化有装置可读程序代码。

[0050] 可以利用一个或更多个无信号装置可读存储介质的任何组合。存储介质可以是例如电子系统、设备或装置;磁系统、设备或装置;光系统、设备或装置;电磁系统、设备或装置;红外系统、设备或装置;或者半导体系统、设备或装置;或者前述系统、设备或装置的任何合适的组合。存储介质的更具体的示例将包括以下项:便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪速存储器)、光纤、便携式致密盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或者前述项的任何合适的组合。在本文件的上下文中,存储介质不是信号,而是非临时性的,并且“非临时性”包括除信号媒体以外的所有媒体。

[0051] 可以使用任何合适的介质,包括但不限于无线、电缆、光纤线缆、RF等等、或者前述项的任何合适的组合,来传输被具体化在存储介质上的程序代码。

[0052] 可以采用一种或更多种编程语言的任意组合编写用于实现操作的程序代码。程序代码可以完全在单个装置上执行,部分地在单个装置上执行,作为独立的软件包执行,部分地在单个装置上且部分地在另一装置上执行,或者完全在其它装置上执行。在某些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接各装置,或者可以通过以下方式进行连接:通过其它装置(例如,通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信或短距离无线通信)、或者通过硬线连接(例如通过USB连接)。

[0053] 在本文中参考附图描述了示例实施例,附图图示了根据各个示例实施例的示例方法、装置以及程序产品。将要理解的是,可以至少部分地通过程序指令来实现动作和功能。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或者其它可编程数据处理装置的处理器以产生机器,使得通过装置的处理器执行的指令实现指定的功能/动作。

[0054] 值得注意的是,虽然在附图中使用了特定的块,并且已经图示了块的特定顺序,但是这些都是非限制性的示例。在某些情况下,由于明确说明的示例仅用于描述的目的而不被理解为进行限制,所以可以结合两个或更多个块,可以将一个块分成两个或更多个块,或者适当地重排或重新组织某些块。

[0055] 除非另外明确指出,否则如本文中所使用的单数形式“一个(a) ”和“一种(an) ”可以被理解为包括复数。

[0056] 出于说明和描述的目的呈现了本公开内容,但是本公开内容并不意在穷举或限制。许多修改和变化对本领域的普通技术人员来说是明显的。选择并描述了示例实施例,以说明原理和实际应用,以及以使本领域的其它普通技术人员能够理解具有适用于想到的特定用途的各种修改的各个实施例的公开内容。

[0057] 因此,虽然在本文中已经参考附图描述了说明性的示例实施例,但是要理解的是,本说明书不是限制性的,而且在不偏离本公开内容的范围或精神的情况下,本领域的技术人员可以在其中完成各种其它改变和修改。

Claims (21)

1.一种字幕隐藏方法,包括: 在显示装置上播放视频内容; 使用至少一个扬声器提供与所述视频内容相关联的音频内容; 从外部源获得与回放背景有关的数据; 使用处理器确定与所述回放背景有关的所述数据与降低的可听度背景相关联;以及 在所述显示装置上提供与所述视频内容的对话相关联的文本数据。
2.根据权利要求1所述的方法,还包括:使用处理器将与所述降低的可听度背景相关联的所述数据和所述音频内容的对话关联起来。
3.根据权利要求1所述的方法,其中,与回放背景有关的所述数据选自由手势数据、生物计量数据、环境音频数据以及显示装置控制数据构成的组。
4.根据权利要求3所述的方法,还包括: 使用语音识别引擎分析所述环境音频数据; 分配有关所述环境音频数据的识别的置信度得分; 将所述音频内容的对话与具有低置信度得分的所述环境音频数据关联起来;以及 响应于所述置信度得分没有超过预定阈值而访问隐藏字幕数据; 其中,所述提供包括:提供与具有所述低置信度得分的所述对话相关联的隐藏字幕数据。
5.根据权利要求4所述的方法,其中,所述隐藏字幕数据包括对先前显示的视频数据的引用。
6.根据权利要求5所述的方法,其中,所述引用指示所述视频数据内的特定的讲话者。
7.根据权利要求3所述的方法,还包括: 使用语音识别引擎分析所述环境音频数据; 识别所识别的环境音频数据中的预定触发表达;以及 响应于识别所述预定触发表达而访问隐藏字幕数据; 其中,所述提供包括:提供与所述对话和包含所述预定触发表达的所述环境音频数据相关联的隐藏字幕数据。
8.根据权利要求7所述的方法,其中,使用自然语言处理将所述预定触发表达关联到用户提供的不充分音频的指示。
9.根据权利要求3所述的方法,还包括: 使用手势识别引擎分析所述手势数据; 识别所述手势数据中的预定触发手势;以及 响应于识别所述预定触发手势而访问隐藏字幕数据; 其中,所述提供包括:提供与所述对话和所述预定触发手势相关联的隐藏字幕数据。
10.根据权利要求3所述的方法,还包括: 分析所述生物计量数据以识别特定的个体;以及 响应于识别所述特定的个体而访问隐藏字幕数据; 其中,所述提供包括:提供与所述对话和所述特定的个体的识别相关联的隐藏字幕数据。
11.根据权利要求3所述的方法,还包括: 分析显示控制数据以识别指示降低的可听度背景的显示控制背景;以及 访问在时间上与指示降低的可听度背景的所述显示控制背景相关联的隐藏字幕数据; 其中,所述提供包括:提供与所述对话和指示降低的可听度背景的所述显示控制背景相关联的隐藏字幕数据。
12.—种电子装置,包括: 显示装置; 输入部件; 至少一个扬声器; 一个或更多个处理器;以及 存储器,其工作上耦接至所述一个或更多个处理器、所述显示装置、所述至少一个扬声器以及所述输入部件,所述存储器存储能够由所述一个或更多个处理器执行的指令,所述指令能够由所述一个或更多个处理器执行以: 在所述显示装置上播放视频内容; 使用所述至少一个扬声器提供与所述视频内容相关联的音频内容; 从外部源获得与回放背景有关的数据; 确定与回放背景有关的所述数据与降低的可听度背景相关联,以及 在所述显示装置上提供与所述视频内容的对话相关联的文本数据。
13.根据权利要求12所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行,以将与降低的可听度背景相关联的所述数据与所述音频内容的对话关联起来。
14.根据权利要求12所述的电子装置,其中,与回放背景有关的所述数据选自由手势数据、生物计量数据、环境音频数据以及显示装置控制数据构成的组。
15.根据权利要求14所述的电子装置,其中,所述指令还能够由一个或更多个处理器执行以: 使用语音识别引擎分析所述环境音频数据; 分配有关所述环境音频数据的识别的置信度得分; 将所述音频内容的对话与具有低置信度得分的所述环境音频数据关联起来; 响应于所述置信度得分没有超过预定阈值而访问隐藏字幕数据; 其中,所述提供包括:提供与具有所述低置信度得分的所述对话相关联的隐藏字幕数据。
16.根据权利要求15所述的电子装置,其中,所述隐藏字幕数据包括对先前显示的视频数据的引用。
17.根据权利要求16所述的电子装置,其中,所述引用指示所述视频数据内的特定的讲话者。
18.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以: 使用语音识别引擎分析所述环境音频数据; 识别所识别的环境音频数据中的预定触发表达;以及 响应于识别所述预定触发表达而访问隐藏字幕数据; 其中,提供包括:提供与所述对话和包含所述预定触发表达的所述环境音频数据相关联的隐藏字幕数据。
19.根据权利要求18所述的电子装置,其中,使用自然语言处理将所述预定触发表达映射到用户提供的不充分音频的指示。
20.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以: 使用手势识别引擎分析所述手势数据; 识别所述手势数据中的预定触发手势;以及 响应于识别所述预定触发手势而访问隐藏字幕数据; 其中,所述提供包括:提供与所述对话和所述预定触发手势相关联的隐藏字幕数据。
21.根据权利要求14所述的电子装置,其中,所述指令还能够由所述一个或更多个处理器执行以: 分析所述生物计量数据,以识别特定的个体;以及 响应于识别所述特定的个体而访问隐藏字幕数据; 其中,所述提供包括:提供与所述对话和所述特定的个体的识别相关联的隐藏字幕数据。
CN201510359178.XA 2014-07-11 2015-06-25 字幕隐藏方法和电子装置 CN105323648B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/329,374 2014-07-11
US14/329,374 US10321204B2 (en) 2014-07-11 2014-07-11 Intelligent closed captioning

Publications (2)

Publication Number Publication Date
CN105323648A true CN105323648A (zh) 2016-02-10
CN105323648B CN105323648B (zh) 2019-10-29

Family

ID=54867053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510359178.XA CN105323648B (zh) 2014-07-11 2015-06-25 字幕隐藏方法和电子装置

Country Status (3)

Country Link
US (1) US10321204B2 (zh)
CN (1) CN105323648B (zh)
DE (1) DE102015110621A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018112789A1 (en) * 2016-12-21 2018-06-28 Arris Enterprises Llc Automatic activation of closed captioning for low volume periods

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
KR20160013649A (ko) * 2014-07-28 2016-02-05 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10057532B2 (en) * 2016-04-01 2018-08-21 Comcast Cable Communications, Llc Methods and systems for environmental noise compensation
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180160190A1 (en) * 2016-12-01 2018-06-07 Arris Enterprises Llc System and Method for Caption Modification
US9854324B1 (en) 2017-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for automatically enabling subtitles based on detecting an accent
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US20190259424A1 (en) * 2018-02-21 2019-08-22 Comcast Cable Communications, Llc Content Playback Control
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044532A1 (en) * 2002-09-03 2004-03-04 International Business Machines Corporation System and method for remote audio caption visualizations
CN100431342C (zh) * 2003-08-15 2008-11-05 株式会社东芝 隐藏字幕控制装置及其所用的方法
CN101461241A (zh) * 2006-06-09 2009-06-17 汤姆逊许可公司 隐藏式字幕的系统和方法
US20130242189A1 (en) * 2012-03-13 2013-09-19 Verizon Patent And Licensing Inc. Method and system for providing synchronized playback of media streams and corresponding closed captions

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6993246B1 (en) * 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US8041025B2 (en) * 2006-08-07 2011-10-18 International Business Machines Corporation Systems and arrangements for controlling modes of audio devices based on user selectable parameters
US9282377B2 (en) * 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
US9131191B2 (en) * 2008-09-18 2015-09-08 VIZIO Inc. Synchronizing operational states of closed captioning and audio mute
US9210360B2 (en) * 2012-12-28 2015-12-08 Echostar Uk Holdings Limited Volume level-based closed-captioning control

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040044532A1 (en) * 2002-09-03 2004-03-04 International Business Machines Corporation System and method for remote audio caption visualizations
CN100431342C (zh) * 2003-08-15 2008-11-05 株式会社东芝 隐藏字幕控制装置及其所用的方法
CN101461241A (zh) * 2006-06-09 2009-06-17 汤姆逊许可公司 隐藏式字幕的系统和方法
US20130242189A1 (en) * 2012-03-13 2013-09-19 Verizon Patent And Licensing Inc. Method and system for providing synchronized playback of media streams and corresponding closed captions

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018112789A1 (en) * 2016-12-21 2018-06-28 Arris Enterprises Llc Automatic activation of closed captioning for low volume periods

Also Published As

Publication number Publication date
CN105323648B (zh) 2019-10-29
US10321204B2 (en) 2019-06-11
US20160014476A1 (en) 2016-01-14
DE102015110621A1 (de) 2016-01-14

Similar Documents

Publication Publication Date Title
US9659561B2 (en) Recording support electronic device and method
US9699399B2 (en) Mobile terminal and control method thereof
US9507772B2 (en) Instant translation system
US20130079061A1 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
DE212015000185U1 (de) Soziale Erinnerungen
KR20150138109A (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
JP6381153B2 (ja) ユーザ端末ならびに端末の音量を調整する方法および装置
US8972251B2 (en) Generating a masking signal on an electronic device
US9729984B2 (en) Dynamic calibration of an audio system
US20160225372A1 (en) Smart home connected device contextual learning using audio commands
US9547642B2 (en) Voice to text to voice processing
KR101605347B1 (ko) 휴대단말의 외부 출력 제어 방법 및 장치
US9374649B2 (en) Smart hearing aid
US20090034750A1 (en) System and method to evaluate an audio configuration
EP2314077A2 (en) Wearable headset with self-contained vocal feedback and vocal command
US20140036022A1 (en) Providing a conversational video experience
CA2537741A1 (en) Dynamic video generation in interactive voice response systems
US20150281853A1 (en) Systems and methods for enhancing targeted audibility
KR101907406B1 (ko) 통신 서비스 운용 방법 및 시스템
US20060085183A1 (en) System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
US20150245128A1 (en) Remotely controlling a hearing device
US20140270200A1 (en) System and method to detect close voice sources and automatically enhance situation awareness
US9620144B2 (en) Confirmation of speech commands for control of headset computers
CN104010267A (zh) 支持基于翻译的通信服务方法和系统和支持该服务的终端
CN1933507B (zh) 移动终端设备

Legal Events

Date Code Title Description
PB01 Publication
C06 Publication
SE01 Entry into force of request for substantive examination
C10 Entry into substantive examination
GR01 Patent grant
GR01 Patent grant