CN110996163A - 用于自动字幕显示的系统和方法 - Google Patents

用于自动字幕显示的系统和方法 Download PDF

Info

Publication number
CN110996163A
CN110996163A CN201910930371.2A CN201910930371A CN110996163A CN 110996163 A CN110996163 A CN 110996163A CN 201910930371 A CN201910930371 A CN 201910930371A CN 110996163 A CN110996163 A CN 110996163A
Authority
CN
China
Prior art keywords
display
space
subtitle data
language
display content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910930371.2A
Other languages
English (en)
Other versions
CN110996163B (zh
Inventor
G.加纳佩西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN110996163A publication Critical patent/CN110996163A/zh
Application granted granted Critical
Publication of CN110996163B publication Critical patent/CN110996163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41422Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance located in transportation means, e.g. personal vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Abstract

本公开涉及用于自动字幕显示的系统、装置和方法。在一个实施方案中,提供了一种方法,所述方法包括确定用于空间的对话语言,以及识别在所述空间中在显示器上呈现的显示内容。所述方法还可以包括基于针对所述空间确定的所述对话语言而请求用于所述显示内容的字幕数据,以及由所述控制装置控制用于所述显示内容的字幕数据的呈现,以便在装置上输出,其中针对所述确定的对话语言选择呈现的字幕数据。过程和配置可以包括通过语音辨识、面部辨识和用户简档设置中的一个或多个来确定对话语言。另外,可以针对车舱以及一般的显示装置的观看区域中的显示器来提供自动字幕显示。

Description

用于自动字幕显示的系统和方法
技术领域
本公开涉及用于控制显示元素的系统、方法和装置,并且更具体地,涉及用于显示装置和车辆的自动字幕显示的呈现。
背景技术
媒体内容典型地包括单一语言的声音。有时,对用于媒体内容的音频数据进行配音,使得在后期制作过程中,附加或补充的录音替换原始制作声音。对用于媒体内容的声音进行配音可能是耗劳动力的。另外,媒体的声音质量常常降低。对于很多类型的媒体,观众需要理解媒体的话音或语音的能力。一些广播格式包括伴随媒体的辅助音频,并且媒体播放器可以设置成包括字幕。需要向显示装置提供附加字幕信息,不限于向媒体提供的固定的一组字幕信息。
很多显示装置未被配置成提供除了由输入装置接收的信息以外的内容。常规显示装置通常被编程用于特定的一组操作语言。期望向显示装置提供访问媒体并用期望的语言呈现媒体的能力。
发明内容
本文公开并描述了用于自动字幕显示的方法、装置和系统。一个实施方案涉及一种方法,所述方法包括由控制装置确定用于空间的对话语言。所述方法还包括由所述控制装置识别在所述空间中在显示器上呈现的显示内容,以及由所述控制装置基于针对所述空间确定的所述对话语言而请求用于所述显示内容的字幕数据。所述方法还包括由所述控制装置控制用于所述显示内容的字幕数据的呈现,以便在所述装置上输出,其中针对所述确定的对话语言选择呈现的字幕数据。
在一个实施方案中,确定对话语言包括对在所述空间中检测到的乘客话音数据执行语音辨识操作。
在一个实施方案中,确定对话语言包括对在所述空间中检测到的图像数据执行面部辨识操作。
在一个实施方案中,确定对话语言包括确定所述空间中的乘客的用户简档设置。
在一个实施方案中,所述空间是车舱,并且对话语言包括针对车舱乘客检测到的乘客话音数据。
在一个实施方案中,所述空间与显示装置的观看区域相关联,并且对话语言包括在所述观看区域中检测到的话音数据。
在一个实施方案中,识别显示内容包括确定所述显示内容的标题、来源和标识符中的至少一个。
在一个实施方案中,字幕数据包括用于所述显示内容的音频和语音数据的文本和图形表示中的至少一个。
在一个实施方案中,控制所述字幕数据的呈现包括将所述字幕数据的输出与所述显示内容的定时同步。
在一个实施方案中,所述方法包括显示针对所述字幕数据的通知以及接收针对所述字幕数据的用户输入,其中所述字幕数据的呈现是响应于接收到的用户输入。
另一个实施方案涉及一种系统,所述系统包括显示器和耦合到所述显示器的控制装置。所述控制装置被配置成确定用于空间的对话语言,识别在所述空间中在显示器上呈现的显示内容,以及基于针对所述空间确定的所述对话语言而请求用于所述显示内容的字幕数据。所述控制装置还被配置成控制用于所述显示内容的字幕数据的呈现,以便在装置上输出,其中针对所述确定的对话语言选择呈现的字幕数据。
鉴于实施方案的以下详细描述,其他方面、特征和技术将对相关领域的技术人员显而易见。
附图说明
根据下面结合附图进行的详细描述,本公开的特征、目的和优点将变得更加明显,在附图中,相同的参考符号始终对应地进行标识,并且其中:
图1A至图1B描绘了根据一个或多个实施方案的字幕显示的图形表示;
图2描绘了根据一个或多个实施方案的用于自动字幕显示的过程;
图3描绘了根据一个或多个实施方案的装置部件的图形表示;
图4描绘了根据一个或多个实施方案的用于字幕操作的过程;以及
图5描绘了根据一个或多个实施方案的用于字幕操作的另一个过程。
具体实施方式
概述和术语
本公开的一方面涉及控制显示装置的操作。提供了允许自动字幕显示的过程和装置配置。在一个实施方案中,提供了一种过程,所述过程包括控制装置上的用于显示内容输出的字幕数据的呈现。所述过程可以包括执行至少一个操作以确定关于显示的对话语言。在一个实施方案中,在车辆中针对确定的对话语言呈现字幕数据。其他实施方案涉及用于一般的显示装置的字幕数据的呈现。
在一个实施方案中,提供了一种系统,所述系统包括显示器和耦合到显示器的控制装置。控制装置被配置成确定用于空间的对话语言并且识别在显示器上呈现的显示内容。基于对话语言,控制装置可以请求用于显示内容的字幕数据。控制装置还可以被配置成控制用于显示内容的字幕数据的呈现,以便在装置上输出。由显示器呈现的字幕数据可以由控制装置针对确定的对话语言来选择。
本文描述的过程和配置可以被配置成识别在该空间中呈现的显示内容并且基于针对该空间确定的对话语言而请求用于显示内容的字幕数据。在一个实施方案中,确定对话语言可以基于相对于显示器的空间。举例来说,对话语言可以是相对于车舱内的空间或区域。在其他实施方案中,确定空间的对话语言可以是相对于显示装置(例如,TV、投影仪等)的观看区域。可以对用于显示内容的字幕数据的呈现进行控制,以便在装置上输出。
根据一个实施方案,车舱中的对话语言可以由一个或多个操作确定,包括语音辨识、自然语言处理和/或人工智能(AI)。在某些实施方案中,用于确定对话语言的一个或多个参数包括确定在用户简档中识别的语言。在其他实施方案中,确定对话语言可以包括执行面部辨识操作。可以执行面部辨识以识别在相对于显示器的空间中的一个或多个人的国籍。确定的对话语言可以用来识别最相关的字幕。本文还描述了用于将字幕数据随显示内容(诸如视频)自动地下载的操作。至于车辆配置,诸如车舱的车辆显示器,如本文论述的确定对话语言可以克服驾驶员分心的问题。例如,车辆乘客(诸如幼儿)对提供字幕数据的请求可以由过程和配置处理,而无需字幕数据的驾驶员编程。
根据一个实施方案,操作和配置可以提供对诸如电视的显示装置的改进。对于广播编程(例如,直播TV),本文论述的操作可以提供允许确定相对于显示装置的对话语言并呈现字幕数据的功能。
如本文使用,术语“一个”或“一种”应意指一个或一个以上。术语“多个”应意指两个或两个以上。术语“另一个”被定义为第二或更多。术语“包括”和/或“具有”是开放式的(例如,包括)。如本文使用的术语“或”应被解释为包含性的或意指任何一个或任何组合。因此,“A、B或C”意指“以下各项中的任一个:A;B;C;A和B;A和C;B和C;A、B和C”。只有当元件、功能、步骤或动作的组合在某种程度上固有地相互排斥时,才会出现此定义的例外情况。
贯穿本文件对“一个实施方案”、“某些实施方案”、“实施方案”或类似术语的提及意味着结合实施方案描述的特定特征、结构或特性被包括在至少一个实施方案中。因此,贯穿本说明书中在各个地方出现这种短语未必全部是指同一实施方案。此外,特定特征、结构或特性可以在一个或多个实施方案中以任何适合的方式组合而不受限制。
示例性实施方案
现在参考附图,图1A至图1B描绘了根据一个或多个实施方案的字幕显示的图形表示。图1A提供了用于包括显示器110的车辆105的系统100的图形表示。根据一个实施方案,车辆100的内部空间可以容纳一个或多个乘客。另外,车辆105可以包括被配置成控制显示器110的操作的控制装置(图1A中未示出)。根据一个实施方案,显示器110可以被配置成呈现显示内容120。根据另一个实施方案,车辆105的控制装置(诸如图3的控制装置305)可以被配置成确定车辆105的乘客厢或客舱内的对话语言。如本文将论述,提供了用于基于诸如在车辆105内的空间中的确定的对话语言来请求显示内容120的字幕数据的配置和过程。
车辆105可以被配置成控制伴随显示内容120的字幕数据(诸如字幕文本115)的呈现。如下文将更详细地论述,控制装置(例如,图3的控制装置305)可以被配置成检测车辆105内的对话语言。图1A包括乘客语音125和130的表示。在一个实施方案中,乘客语音125和130可以涉及乘员之间的常规或非命令对话。根据一个实施方案,车辆105的控制装置被配置成检测乘客语音125和130并且基于乘客语音而确定对话语言。可以基于确定的对话语言而呈现字幕文本115。如下文将更详细地论述,可以基于从乘客的成像和/或针对字幕语言的一个或多个用户设置确定的对话语言而呈现字幕文本115。显示器110和/或车辆105的控制单元可以被配置成执行本文针对字幕文本115的呈现描述的过程(例如,过程200、过程400、过程500等)。
在一个实施方案中,乘客语音125和130可以涉及乘员之间的常规或非命令对话。根据一个实施方案,确定对话语言可以基于来自车辆的一个或多个乘员的自然语言指令。举例来说,可以检测并解释乘客语音(诸如乘客语音125和130),使得可以解释出用一种或多种语言呈现字幕数据的命令。在一个实施方案中,乘客语音125和130可以涉及对话语言,诸如,一种或多种语言的“这里转弯”、“祝一天愉快”以及“我正在这里转弯”。在一个实施方案中,乘客语音125和130可以涉及一个或多个命令,包括期望语言的识别。举例来说,“英语字幕”的自然语言命令可以导致控制装置将语言识别为英语并且控制以检测到的语言呈现字幕信息。由控制装置检测到的自然语言命令的替代示例可以包括“改变字幕语言”和“用我的语言显示字幕”。乘客语音125和130可以包括用显示器110和图形元素116的一个或多个功能进行操作的命令。因此,可以识别用于自然语言命令的语言以确定字幕数据的对话语言。
图1A还示出了图形元素116,该图形元素可以呈现在显示器120上以指示基于对话语言的自动字幕显示和字幕数据的可用性中的一个或多个。根据一个实施方案,图形元素116可以是被配置成用于字幕文本115的激活、修改和/或结束字幕呈现的可选择元素。
图1B提供了用于观看区域或空间151中的显示器155的系统150的图形表示。根据一个实施方案,与显示器155相关联的空间151可以容纳一个或多个观众,诸如观众1701-n。显示器155可以包括被配置成控制显示器155的操作的控制装置(图1B中未示出)。根据一个实施方案,显示器155可以被配置成呈现显示内容160。根据另一个实施方案,显示器155的控制装置(诸如图3的控制装置305)可以被配置成确定空间151内的对话语言。如本文将论述,提供了用于基于空间151中的确定的对话语言来请求显示内容160的字幕数据的配置和过程。显示器155的控制单元可以被配置成执行本文针对字幕文本165的呈现描述的过程(例如,过程200、过程400、过程500等)。
显示器155可以被配置成控制伴随显示内容160的字幕数据(诸如字幕文本165)的呈现。如下文将更详细地论述,控制装置(例如,图3的控制装置305)可以被配置成检测空间151内的对话语言。图1B包括观众语音175和180的表示。根据一个实施方案,显示器155的控制装置被配置成检测观众语音175和180并且基于观众语音而确定对话语言。可以基于观众语音175和180的确定的对话语言而呈现字幕文本165。如下文将更详细地论述,可以基于从观众1701-n的成像和/或针对字幕语言的一个或多个用户设置确定的对话语言而呈现字幕文本165。
图1B还示出了图形元素166,该图形元素可以呈现在显示器155上以指示基于对话语言的自动字幕显示和字幕数据的可用性中的一个或多个。根据一个实施方案,图形元素166可以是被配置成用于字幕文本165的激活、修改和/或结束字幕呈现的可选择元素。
图2描绘了根据一个或多个实施方案的用于自动字幕显示的过程。根据一个实施方案,过程200可以由包括显示器(例如,显示器110)的车辆(例如,车辆105)的控制装置执行,以用于呈现带有字幕数据的显示内容。根据另一个实施方案,过程200可以由显示装置(例如,显示装置160)的控制装置执行,以用于呈现字幕数据。
过程200可以在框205处以确定用于空间的语言开始。在一个实施方案中,确定语言包括确定用于该空间的对话语言。如本文使用,对话语言可以包括确定用于沟通的口头人类语言,沟通包括以有组织且常规的方式使用词语。在一些实施方案中,可以通过分析口头词语来确定对话语言。在框205处,可以在内容的显示之前确定对话语言。在其他实施方案中,在框205处,可以响应于内容的显示而确定对话语言。
根据一个实施方案,在框205处确定对话语言包括对在该空间中检测到的乘客话音数据执行语音辨识操作。可以通过识别动作和动作的参考来识别每个命令。
根据一个实施方案,在框205处确定对话语言可以包括确定一种以上语言。响应于检测到一种以上语言,控制装置可以选择对话语言。对话语言的选择可以基于每种对话语言的词语计数。举例来说,可以选择检测到具有乘客语音的更多词语计数的对话语言。在其他实施方案中,当涉及到多种语言时,过程200可以考虑一个或多个其他因素。当识别出多种语言时,可以采用对字幕呈现的语言的用户输入偏好和在该空间中执行的面部辨识中的一个或多个来选择一种语言而不是另一种语言。在另一个实施方案中,图形元素(例如,图形元素116、图形元素166等)可以呈现在显示器上以允许用户选择检测到的语言。
在框205处确定对话语言可以包括执行一个或多个操作来表征在空间中检测到的语音。在一个实施方案中,使用声音和关键词辨识中的一个或多个来识别可能的语言。除了确定词语外,还可以确定短语和句子。过程200可以包括用于自然语言处理的参数。另外,过程200可以加载多个语言和声音数据集作为参考。语言和声音参数可以被分配标识符以允许控制装置基于确定的语言来请求字幕数据。
在一个实施方案中,在框205处确定对话语言可以包括执行话音辨识过程,该话音辨识过程包括声学和话音建模中的至少一个。声学建模可以包括接收音频数据、检测话音输入,以及识别音频数据的话音部分的一个或多个语言单位。语言单位可以用于语言建模,包括将声音和声音序列中的至少一个匹配到术语或词语。另外,语音的模式(诸如时间模式)可以用来识别口头语言。
在一个实施方案中,在框205处确定对话语言可以包括使用该空间中的话音差异和话音位置中的至少一个来识别多个乘客之间的口头语言。与显示器或空间相关联的一个或多个麦克风可以用来检测人类语音和语音的特征。在该空间的第一区域中检测到的语音可以与第一乘客/观众/个人相关联,与可能不重叠或位于第二不同位置的第二区域相关联的语音可以与第二乘客/观众/个人相关联。通过分配检测到的音频数据并且确定该空间的第一位置和该空间的第二位置中的至少一个的语音,可以将来自每个位置的语音排序。语音的序列可以用来识别术语或语言。
根据一个实施方案,在框205处确定对话语言包括对在该空间中检测到的图像数据执行面部辨识操作。对话语言可以涉及由特定团体或国家使用的通信系统。另外,与来自特定团体或国家的人相关联的参数可以与一种或多种国家语言相关联。根据一个实施方案,控制单元可以包括采用训练数据集进行面部辨识的一个或多个过程。训练数据集可以基于机器学习过程,以用于识别面部特征并将面部特征与一种或多种语言相关。用于特征辨识的训练数据集和一个或多个过程可以由过程200执行。
在一个实施方案中,在框205处确定对话语言包括确定该空间中的乘客的用户简档设置。显示器可以提供作为用户界面操作的图形显示元素(例如,图形元素116、图形元素166等),其中用户可以提供识别选择的期望对话语言。
在一个实施方案中,在框205处确定对话语言包括将音频数据、用户设置和光学特性中的一个或多个发送到服务器以供处理。控制装置可以通过通信网络与诸如服务器的网络装置通信,以确定用于该空间的对话语言。在一个实施方案中,该空间是车舱,并且对话语言包括针对车舱乘客检测到的乘客话音数据。根据另一个实施方案,该空间与显示装置的观看区域相关联,并且对话语言包括在观看区域中检测到的话音数据。
在框210处,过程200可以包括识别在该空间中的显示器上呈现的显示内容。在一个实施方案中,控制装置通过确定显示内容的标题、来源和标识符中的至少一个来识别显示内容。在框215处,控制装置基于针对该空间确定的对话语言而请求用于显示内容的字幕数据。所识别的内容和显示内容的标题中的至少一个可以与确定的对话语言一起传输到服务器,以获得用于显示内容的字幕数据。在一个实施方案中,字幕数据包括用于显示内容的音频和语音数据的文本和图形表示中的至少一个。
在框220处,过程200包括控制用于显示内容的字幕数据的呈现,以用于在装置上输出。控制装置可以针对确定的对话语言将字幕数据随显示内容输出以进行呈现。在一个实施方案中,控制字幕数据的呈现包括将字幕数据的输出与显示内容的定时同步。字幕数据可以输出以便强加在显示内容上或在显示器的期望区域中呈现。
在某些实施方案中,控制呈现可以包括显示针对字幕数据的通知并且接收针对字幕数据的用户输入。字幕数据的呈现可以是响应于在任选框225处接收到的用户输入。可以执行过程200以提供自动字幕呈现。自动字幕呈现可以包括检测一个或多个参数以识别对话语言,而无需了解空间中的个人。然后可以将字幕数据的控制和输出同步并进行显示。在一个实施方案中,除了空间内的话音之外,过程200还包括检测媒体的话音和声音。可以过滤掉(例如,忽略)媒体的检测到的声音以允许识别乘客语音。在其他实施方案中,可以识别对音频媒体的检测,并且可以对媒体音频执行语音辨识过程以确定用于字幕信息的呈现的定时。
根据一个实施方案,过程200包括在框225处接收用户输入。在框225处接收到的用户输入可以与显示器有关,诸如对图形显示元素(例如,图形元素116、图形元素166等)的输入。在一个实施方案中,在框225处的用户输入包括对显示器的图形显示元素的用户选择,以确认用于所识别的语言的字幕数据。
根据一个实施方案,过程200包括在框230处接收字幕数据。字幕数据可以包括文本和/或数据以呈现伴随显示内容的文本。在某些实施方案中,字幕数据可以包括用于将字幕数据与显示内容同步的元数据。举例来说,可以提供时基和同步框架中的一个或多个来控制字幕文本的呈现。
过程200允许显示器呈现内容和字幕数据,而不要求用户激活。以此方式,过程200提供字幕信息的自动呈现。对于在车辆中使用,过程200克服对驾驶员选择字幕组的需要,并且因此避免驾驶员分心。对于在诸如电视观看的其他环境下的显示装置操作,过程200提供了常规装置没有提供的功能性。
图3描绘了根据一个或多个实施方案的显示装置部件的图形表示。根据一个实施方案,显示装置300涉及诸如TV的显示器。在某些实施方案中,显示装置300可以是被配置成用于在车辆中操作的显示装置。显示装置300包括控制装置305、数据存储单元315、输入/输出模块320、麦克风321、扬声器322和显示器325。根据一个实施方案,显示装置300包括任选的相机310。根据另一个实施方案,显示装置300涉及车辆显示装置,并且因此可以与任选的车辆系统330的一个或多个部件互操作,以提供控制信号。
根据一个实施方案,显示装置300涉及包括显示器325和控制装置305的系统。控制装置305可以被配置成确定用于空间的对话语言、识别在该空间的显示器325上呈现的显示内容,并且基于针对该空间确定的对话语言而请求用于显示内容的字幕数据。控制装置305还可以被配置成控制用于显示内容的字幕数据的呈现,以用于由显示器325输出,其中针对确定的对话语言来选择所呈现的字幕数据。
控制装置305可以是处理器,并且被配置成控制显示装置300的操作。根据一个实施方案,控制装置305可以被配置成提供控制模块306,以生成用于显示装置的控制命令。控制装置305可以被配置成提供语言检测模块307、从麦克风321和任选的相机310中的至少一个接收到的数据。在其他实施方案中,控制模块306和语言检测模块307可以是装置300的物理硬件单元。
控制装置305可以基于控制模块306、语言检测模块307和数据存储单元315的可执行代码进行操作,以执行和控制显示装置300的功能。举例来说,控制装置305可以执行图2的过程200、图4的过程400和图5的过程500。控制装置305可以执行和指导本文针对显示装置操作描述的一个或多个过程和功能块,包括字幕数据的呈现。
在某些实施方案中,控制装置305可以使用一个或多个过程以基于由数据存储单元315存储的参数而识别对话语言。举例来说,可以存储关键词、术语和短语以进行比较来识别语言,以便请求字幕数据。由输入/输出模块320检测到的话音和/或语音数据可以转换成用于解释语言的文本或机器可读表示。
可以安装任选的相机310以对空间中的一个或多个观众进行成像,以便将图像数据提供到对象检测模块307。数据存储单元315可以被配置成存储用于操作控制装置305和显示装置300的可执行代码。输入/输出(I/O)模块320可以被配置成从控制器或输入表面(例如,触摸屏、输入按钮等)、显示器325接收输入,并且将显示内容输出到显示器325。输入/输出(I/O)模块320可以操作显示器325和扬声器326以输出对一个或多个自然语言指导指令的确认。
在某些实施方案中,显示装置300和控制装置305可以被配置成与车辆的部件通信,诸如任选的车辆系统330。举例来说,任选的车辆系统330可以被配置成与车辆的用户界面系统直接相关,包括一个或多个传感器、功能和数据能力。
图4描绘了根据一个或多个实施方案的用于字幕操作的过程。根据一个实施方案,确定用于字幕数据的语言可以基于由装置检测到的一个或多个属性和数据类型。根据一个实施方案,过程400可以由包括显示器(例如,显示器110)的车辆(例如,车辆105)的控制装置执行,以用于呈现字幕数据。根据另一个实施方案,过程400可以由显示装置(例如,显示装置160)的控制装置执行,以用于呈现字幕数据。在图4中,过程400可以包括以下至少一者:在框405处检测话音(例如,语音)、在框410处检测图像数据,以及在框415处接收用户输入。在框420处,可以提供一个或多个来源以确定语言并执行字幕请求。在框405处,在显示装置呈现内容时,可以检测话音数据。在框410处,可以检测显示装置的观众的图像数据。在框415处的用户输入可以包括用户设置和/或与显示器的交互。
在框425处的使字幕数据同步可以基于从与显示内容的来源不同的来源接收到的字幕数据。在一个实施方案中,显示内容可以从显示器本地的装置(诸如,媒体播放器)接收到或输出。在框425中采用的字幕数据可以通过网络通信来接收,诸如与服务器通信。可以使字幕数据同步,使得所呈现的字幕数据的图形元素匹配到显示内容中的话音和其他声音的出现。
图5描绘了根据一个或多个实施方案的用于字幕操作的另一个过程。根据一个实施方案,用户输入可以有助于识别对话语言和/或要呈现的字幕标题。根据一个实施方案,过程500可以由包括显示器(例如,显示器110)的车辆(例如,车辆105)的控制装置执行,以用于呈现字幕数据。根据另一个实施方案,过程500可以由显示装置(例如,显示装置160)的控制装置执行,以用于呈现字幕数据。
可以通过在框505处检测显示内容并且在框510处识别字幕数据来开始过程500。在某些实施方案中,可以使用多个来源或组的字幕。举例来说,在框505处的显示内容可以涉及流行内容,诸如公知的电影。因此,在框510处识别的字幕数据可以导致识别数据的多个文件或来源。替代地,在框510处识别的字幕数据可能不匹配所识别的对话语言。因此,过程500包括在框515处请求用户输入的操作。可以通过图形元素(例如,图形元素116、图形元素166等)的显示、可听音和一般的装置的反馈来请求用户输入。举例来说,用户输入可以包括针对显示内容中没有说起的语言来选择字幕数据。用户输入可以包括选择与所识别的语言或来源相关联的特定字幕数据集。可以接收用户输入并且在框520处,由控制装置用来控制显示输出。响应于框520处的显示输出而呈现的字幕数据可以基于用户输入。
尽管已经参考本公开的示例性实施方案具体地示出并描述了本公开,但本领域技术人员应理解,在不脱离所要求保护的实施方案的范围的情况下,可以在本公开中对形式和细节作出各种改变。

Claims (20)

1.一种用于自动字幕显示的方法,所述方法包括:
由控制装置确定用于空间的对话语言;
由所述控制装置识别在所述空间中在显示器上呈现的显示内容;
由所述控制装置基于针对所述空间确定的所述对话语言而请求用于所述显示内容的字幕数据;以及
由所述控制装置控制用于所述显示内容的字幕数据的呈现,以便在所述装置上输出,其中针对所确定的对话语言选择呈现的字幕数据。
2.如权利要求1所述的方法,其中确定对话语言包括对在所述空间中检测到的乘客话音数据执行语音辨识操作。
3.如权利要求1所述的方法,其中确定对话语言包括对在所述空间中检测到的图像数据执行面部辨识操作。
4.如权利要求1所述的方法,其中确定对话语言包括确定所述空间中的乘客的用户简档设置。
5.如权利要求1所述的方法,其中所述空间是车舱,并且对话语言包括针对车舱乘客检测到的乘客话音数据。
6.如权利要求1所述的方法,其中所述空间与显示装置的观看区域相关联,并且对话语言包括在所述观看区域中检测到的话音数据。
7.如权利要求1所述的方法,其中识别显示内容包括确定所述显示内容的标题、来源和标识符中的至少一个。
8.如权利要求1所述的方法,其中字幕数据包括用于所述显示内容的音频和语音数据的文本和图形表示中的至少一个。
9.如权利要求1所述的方法,其中控制所述字幕数据的呈现包括将所述字幕数据的输出与所述显示内容的定时同步。
10.如权利要求1所述的方法,所述方法还包括显示针对所述字幕数据的通知以及接收针对所述字幕数据的用户输入,其中所述字幕数据的呈现是响应于接收到的用户输入。
11.一种系统,所述系统包括:
显示器;以及
控制装置,所述控制装置耦合到所述显示器,其中所述控制装置被配置成:
识别在空间中在显示器上呈现的显示内容;
基于针对所述空间确定的对话语言而请求用于所述显示内容的字幕数据;以及
控制用于所述显示内容的字幕数据的呈现,以便在装置上输出,其中针对所确定的对话语言选择呈现的字幕数据。
12.如权利要求11所述的系统,其中确定对话语言包括对在所述空间中检测到的乘客话音数据执行语音辨识操作。
13.如权利要求11所述的系统,其中确定对话语言包括对在所述空间中检测到的图像数据执行面部辨识操作。
14.如权利要求11所述的系统,其中确定对话语言包括确定所述空间中的乘客的用户简档设置。
15.如权利要求11所述的系统,其中所述空间是车舱,并且对话语言包括针对车舱乘客检测到的乘客话音数据。
16.如权利要求11所述的系统,其中所述空间与显示装置的观看区域相关联,并且对话语言包括在所述观看区域中检测到的话音数据。
17.如权利要求11所述的系统,其中识别显示内容包括确定所述显示内容的标题、来源和标识符中的至少一个。
18.如权利要求11所述的系统,其中字幕数据包括用于所述显示内容的音频和语音数据的文本和图形表示中的至少一个。
19.如权利要求11所述的系统,其中控制所述字幕数据的呈现包括将所述字幕数据的输出与所述显示内容的定时同步。
20.如权利要求11所述的系统,其中所述控制装置还被配置成控制针对所述字幕数据的通知的显示并且接收针对所述字幕数据的用户输入,其中所述字幕数据的呈现是响应于接收到的用户输入。
CN201910930371.2A 2018-10-02 2019-09-29 用于自动字幕显示的系统和方法 Active CN110996163B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/149,996 2018-10-02
US16/149,996 US11178465B2 (en) 2018-10-02 2018-10-02 System and method for automatic subtitle display

Publications (2)

Publication Number Publication Date
CN110996163A true CN110996163A (zh) 2020-04-10
CN110996163B CN110996163B (zh) 2023-08-01

Family

ID=69781693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910930371.2A Active CN110996163B (zh) 2018-10-02 2019-09-29 用于自动字幕显示的系统和方法

Country Status (3)

Country Link
US (1) US11178465B2 (zh)
CN (1) CN110996163B (zh)
DE (1) DE102019126688A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017163719A1 (ja) * 2016-03-23 2017-09-28 日本電気株式会社 出力制御装置、出力制御方法、およびプログラム
US11341961B2 (en) * 2019-12-02 2022-05-24 National Cheng Kung University Multi-lingual speech recognition and theme-semanteme analysis method and device
CN111526382B (zh) * 2020-04-20 2022-04-29 广东小天才科技有限公司 一种直播视频文本生成方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540864A (zh) * 2004-02-21 2009-09-23 三星电子株式会社 再现多媒体图像数据和基于文本的字幕数据的方法
US20110097056A1 (en) * 2008-06-24 2011-04-28 Shenzhen Tcl New Technology Ltd. System and method for resolution of closed captioning and subtitle conflict
CN102474673A (zh) * 2009-07-24 2012-05-23 艾科星科技公司 用于促进外语教学的系统及方法
US20120169583A1 (en) * 2011-01-05 2012-07-05 Primesense Ltd. Scene profiles for non-tactile user interfaces
CN102802044A (zh) * 2012-06-29 2012-11-28 华为终端有限公司 视频处理方法、终端及字幕服务器
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN105323648A (zh) * 2014-07-11 2016-02-10 联想(新加坡)私人有限公司 字幕隐藏方法和电子装置
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106864358A (zh) * 2017-03-17 2017-06-20 东莞市立敏达电子科技有限公司 一种车辆与车辆之间字幕对话系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4736511B2 (ja) 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
US8156114B2 (en) * 2005-08-26 2012-04-10 At&T Intellectual Property Ii, L.P. System and method for searching and analyzing media content
US8260615B1 (en) * 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
CN104978015B (zh) 2014-04-14 2018-09-18 博世汽车部件(苏州)有限公司 具有语种自适用功能的导航系统及其控制方法
US9635392B2 (en) 2014-04-16 2017-04-25 Sony Corporation Method and system for displaying information
US20150325268A1 (en) * 2014-05-12 2015-11-12 Penthera Partners, Inc. Downloading videos with commercials to mobile devices
US9179184B1 (en) * 2014-06-20 2015-11-03 Google Inc. Methods, systems, and media for detecting a presentation of media content on a display device
US9571870B1 (en) * 2014-07-15 2017-02-14 Netflix, Inc. Automatic detection of preferences for subtitles and dubbing
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
US10685665B2 (en) * 2016-08-17 2020-06-16 Vocollect, Inc. Method and apparatus to improve speech recognition in a high audio noise environment
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US10490188B2 (en) * 2017-09-12 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for language selection
US20190197430A1 (en) * 2017-12-21 2019-06-27 Lyft, Inc. Personalized ride experience based on real-time signals
US20200007946A1 (en) * 2018-06-29 2020-01-02 Rovi Guides, Inc. Selectively delivering a translation for a media asset based on user proficiency level in the foreign language and proficiency level required to comprehend the media asset

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540864A (zh) * 2004-02-21 2009-09-23 三星电子株式会社 再现多媒体图像数据和基于文本的字幕数据的方法
US20110097056A1 (en) * 2008-06-24 2011-04-28 Shenzhen Tcl New Technology Ltd. System and method for resolution of closed captioning and subtitle conflict
CN102474673A (zh) * 2009-07-24 2012-05-23 艾科星科技公司 用于促进外语教学的系统及方法
US20120169583A1 (en) * 2011-01-05 2012-07-05 Primesense Ltd. Scene profiles for non-tactile user interfaces
CN102802044A (zh) * 2012-06-29 2012-11-28 华为终端有限公司 视频处理方法、终端及字幕服务器
CN105323648A (zh) * 2014-07-11 2016-02-10 联想(新加坡)私人有限公司 字幕隐藏方法和电子装置
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN106331893A (zh) * 2016-08-31 2017-01-11 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504754A (zh) * 2016-09-29 2017-03-15 浙江大学 一种根据音频输出的实时字幕生成方法
CN106864358A (zh) * 2017-03-17 2017-06-20 东莞市立敏达电子科技有限公司 一种车辆与车辆之间字幕对话系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质

Also Published As

Publication number Publication date
US11178465B2 (en) 2021-11-16
DE102019126688A1 (de) 2020-04-02
US20200107078A1 (en) 2020-04-02
CN110996163B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN110996163B (zh) 用于自动字幕显示的系统和方法
US10586536B2 (en) Display device and operating method therefor
US7698134B2 (en) Device in which selection is activated by voice and method in which selection is activated by voice
EP1246166A2 (en) Speech recognition based captioning system
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
US9959872B2 (en) Multimodal speech recognition for real-time video audio-based display indicia application
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
EP3805914A1 (en) Information processing device, information processing method, and information processing system
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
JP2022530201A (ja) コンピューティングデバイス上でのコンテンツの可聴部分の自動キャプショニング
JPWO2020003730A1 (ja) 情報処理装置及び情報処理方法、並びに情報処理システム
JP2010124391A (ja) 情報処理装置、機能設定方法及び機能設定プログラム
US20230100151A1 (en) Display method, display device, and display system
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
KR20200041642A (ko) 차량용 음성인식 시스템 및 그 제어 방법
WO2021157192A1 (ja) 制御装置及び制御方法、コンピュータプログラム、並びにコンテンツ再生システム
JP7467636B2 (ja) 使用者端末、放送装置、それを含む放送システム、及びその制御方法
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
CN114008566A (zh) 信息处理装置、信息处理方法和程序
JP4509188B2 (ja) 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
JP2010047093A (ja) 音声認識処理装置および音声認識処理方法
JP2019003244A (ja) 情報提供装置及び情報提供方法並びに車両
JP7471979B2 (ja) 会議支援システム
WO2024029192A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
KR102115228B1 (ko) 청각장애인 소리 습득 시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant