CN114912467A - 用于同声传译的电子设备、方法、介质及程序 - Google Patents
用于同声传译的电子设备、方法、介质及程序 Download PDFInfo
- Publication number
- CN114912467A CN114912467A CN202110179590.9A CN202110179590A CN114912467A CN 114912467 A CN114912467 A CN 114912467A CN 202110179590 A CN202110179590 A CN 202110179590A CN 114912467 A CN114912467 A CN 114912467A
- Authority
- CN
- China
- Prior art keywords
- user
- electronic device
- language
- audio
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000015654 memory Effects 0.000 claims abstract description 32
- 230000004044 response Effects 0.000 claims abstract description 13
- 239000012634 fragment Substances 0.000 claims abstract description 6
- 230000008451 emotion Effects 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013519 translation Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 241001112258 Moca Species 0.000 description 1
- 229910005580 NiCd Inorganic materials 0.000 description 1
- 229910005813 NiMH Inorganic materials 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4398—Processing of audio elementary streams involving reformatting operations of audio signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/4508—Management of client data or end-user data
- H04N21/4524—Management of client data or end-user data involving the geographical location of the client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/485—End-user interface for client configuration
- H04N21/4856—End-user interface for client configuration for language selection, e.g. for the menu or subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4882—Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
Abstract
本公开涉及用于同声传译的电子设备、方法、介质及程序。该电子设备包括:存储器,具有存储在其上的指令;以及处理器,被配置为执行存储在存储器上的指令,以使得电子设备执行以下操作:在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示;响应于用户对需要同声传译的选择向用户呈现可选目标语言,其中所述可选目标语言包括所述官方语言;接收所述视频或节目的原声音频;响应于用户对目标语言的选择,实时提取原声音频的音频片段并将所提取的音频片段翻译成目标语言;以及输出所述目标语言的音频片段。
Description
技术领域
本公开涉及电子设备领域,特别涉及能够进行同声传译的电子设备、方法、介质及程序。
背景技术
随着电视以及网络的普及,我们可以足不出户就能欣赏到来自世界各地的各种视频以及节目,例如电影、电视剧、综艺节目以及各种短视频等。但是对于大部分人来说,听不懂外语都是阻碍欣赏外语节目或视频的难关。
有些电视剧或电影会有配音或者字幕,但是大部分综艺节目、网络剧或者短视频都没有配音或者字幕。而且即使有字幕,对于文化程度不高或者没有文化的人来说,也会因为看不懂字幕而很难理解剧情。
因此,希望为听不懂外语的用户提供一种能够实现同声传译的电子设备。
发明内容
本公开提供了一种能够通过AI(Artificial Intelligence:人工智能)服务模块提供同声传译的电子设备、方法、介质及程序,便于用户能够随时没有语言障碍地欣赏世界各地的好节目或视频,从而提高用户体验。
本公开的一些方面涉及一种电子设备,所述电子设备包括:存储器,具有存储在其上的指令;以及处理器,被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示;响应于用户对需要同声传译的选择向用户呈现可选目标语言,其中所述可选目标语言包括所述官方语言;接收所述视频或节目的原声音频;响应于用户对目标语言的选择,实时提取原声音频的音频片段并将所提取的音频片段翻译成目标语言;以及输出所述目标语言的音频片段。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:在接收所述视频或节目的原声音频时,从所述视频或节目注释掉所述原声音频,使其失效。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备在输出所述目标语言的音频片段之前执行以下操作:对所提取的音频片段进行编码以获得已编码数据;利用IEMOCAP数据集将已编码数据分配给四种情绪类别,对这四种情绪类别分别进行数据训练,建立双循环神经网络模型,其中所述四种情绪类别包括愤怒、快乐、悲伤和中性;以及对所述目标语言的音频片段应用所述双循环神经网络模型。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:识别用户所在的地理位置,获得所在地理位置的官方语言。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:在检测到用户通过终端设备所观看的视频或节目的语言不是所在地理位置的官方语言时通过终端设备的用户界面向用户呈现是否需要同声传译的提示。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:从所述终端设备接收所述视频或节目的原声音频。
在一些实施例中,所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:将所述目标语言的音频片段发送给所述终端设备。
在一些实施例中,所述终端设备为机顶盒。
在一些实施例中,所述电子设备为可插拔式的。
本公开的其它方面涉及一种通过电子设备实现的同声传译方法,包括:在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示;响应于用户对需要同声传译的选择向用户呈现可选目标语言,其中所述可选目标语言包括所述官方语言;接收所述视频或节目的原声音频;响应于用户对目标语言的选择,实时提取原声音频的音频片段并将所提取的音频片段翻译成目标语言;以及输出所述目标语言的音频片段。
在一些实施例中,所述方法还包括:在接收所述视频或节目的原声音频时,从所述视频或节目注释掉所述原声音频,使其失效。
在一些实施例中,所述方法还包括在输出所述目标语言的音频片段之前执行以下操作:对所提取的音频片段进行编码以获得已编码数据;利用IEMOCAP数据集将已编码数据分配给四种情绪类别,对这四种情绪类别分别进行数据训练,建立双循环神经网络模型,其中所述四种情绪类别包括愤怒、快乐、悲伤和中性;以及对所述目标语言的音频片段应用所述双循环神经网络模型。
在一些实施例中,所述方法还包括识别用户所在的地理位置,获得所在地理位置的官方语言。
在一些实施例中,其中在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示包括:在检测到用户通过终端设备所观看的视频或节目的语言不是所在地理位置的官方语言时通过终端设备的用户界面向用户呈现是否需要同声传译的提示。
在一些实施例中,其中接收所述视频或节目的原声音频包括:从所述终端设备接收所述视频或节目的原声音频。
在一些实施例中,其中输出所述目标语言的音频片段包括:将所述目标语言的音频片段发送给所述终端设备。
在一些实施例中,所述终端设备为机顶盒。
在一些实施例中,所述电子设备为可插拔式的。
本公开的其它方面涉及一种非瞬时性计算机可读介质,所述非瞬时性计算机可读介质具有存储在其上的指令,以用于由处理器执行以执行根据上文描述的方法的步骤。
本公开的其它方面涉及一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行根据上文描述的方法的步骤。
附图说明
为了更好地理解本公开,并示出如何实现本公开,现在将以举例的方式参照附图描述,其中:
图1示出了根据本公开的实施例的包含网络接入设备的示例网络环境的示意图;
图2示出了根据本公开的实施例的用于实现同声传译的电子设备的框图;
图3示出了根据本公开的实施例的用于实现同声传译的示例性方法的流程图;
图4和图5示出了根据本公开的实施例的用于同声传译的示例性用户界面。
注意,在整个附图中,相似的附图标记指代对应的部分。
具体实施方式
参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
图1是示出根据本公开的实施例的包含网络接入设备的示例网络环境100的示意图。
示例网络环境100可以包括网络接入设备110和一个或多个终端设备120A、120B、120C、120D和120E(为简便起见,下文统称为终端设备120)。网络接入设备110用于为终端设备120提供网络连接。具体来说,网络接入设备110可以接收/路由来自终端设备120的各种类型的通信和/或传送/路由去往终端设备120的各种类型的通信。在一些实施例中,网络接入设备110仅为终端设备120提供内部网络130(例如,有线或无线局域网(Local AreaNetwork,LAN))连接,所有连接至网络接入设备110的终端设备120都处于同一内部网络内并且可以直接相互通信。在进一步的实施例中,网络接入设备110还连接到外部网络140,使得终端设备120可以经由其接入该外部网络140。网络接入设备110例如可以是组合网络接入服务器(NAS)、调制解调器、路由器、2层/3层交换机、接入点等的功能的硬件电子设备。网络接入设备110还可以包括但不限于IP/QAM机顶盒(STB)或智能媒体设备(SMD)的功能,该IP/QAM机顶盒(STB)或智能媒体设备(SMD)能够解码音频/视频内容并播放越过运营商(OTT)供应商或多系统运营商(MSO)提供的内容。
在一些实施例中,终端设备120可以是具有至少一个网络接口的任何电子设备。例如,终端设备120可以是:台式计算机、膝上型计算机、服务器、大型计算机、基于云的计算机、平板计算机、智能手机、智能手表、可穿戴设备、消费电子设备、便携式计算设备、无线电节点、路由器、交换机、中继器、接入点和/或其他电子设备。如下面将结合图2具体介绍的,终端设备120利用其网络接口与网络接入设备110的物理或虚拟网络接口通信,从而经由网络接入设备110接入内部网络130。多个终端设备120A、120B、120C、120D和120E可以连接至网络接入设备110的相同或不同网络接口。虽然在图1中示出了五个终端设备,但应当理解,网络接入设备可以连接的终端设备数量可以少于或多于五个,取决于具体的物理接口数量和/或网络接入设备支持的网络容量。
外部网络140可以包括各种类型的有线或无线网络、内部网络或公共网络,例如其它局域网或广域网(Wide Area Network,WAN)(例如Internet)。注意,本公开对外部网络140的类型不做具体限定。
图2例示了根据本公开的实施例的用于实现同声传译的电子设备200的示例性配置框图。
如图2所示,电子设备200包括用户接口20、网络接口21、电源22、外部网络接口23、存储器24和处理器26。用户接口20可以包括但不限于按钮、键盘、小键盘、LCD、CRT、TFT、LED、HD或其它类似的显示设备,包括具有触摸屏能力使得能够进行用户和网关设备之间的交互的显示设备。在一些实施例中,用户接口20可以用于呈现图形用户界面(GUI)以接收用户输入。
网络接口21可以包括各种网卡以及以软件和/或硬件实现的电路系统,以便能够使用有线或无线协议与用户设备通信。有线通信协议例如是以太网协议、MoCA规范协议、USB协议或其它有线通信协议中的任何一种或多种。无线协议例如是任何IEEE 802.11Wi-Fi协议、蓝牙协议、低功耗蓝牙(BLE)或根据无线技术标准进行操作的其他短距离协议,用于使用任何许可的或未许可的频带(诸如公民宽带无线电服务(CBRS)频带、2.4GHz频带、5GHz频带、6GHz频带或60GHz频带)、RF4CE协议、ZigBee协议、Z-Wave协议或IEEE 802.15.4协议在短距离上交换数据。在网络接口21使用无线协议的情况下,在一些实施例中,网络接口21还可以包括一个或多个天线(未示出)或者用于耦合到一个多个天线的电路节点。电子设备200可以通过网络接口21向用户设备提供内部网络(例如图1的内部网络130)。
电源22通过内部总线27向电子设备200的内部组件提供电力。电源22可以是自备电源,诸如电池组,其接口通过(例如,直接或通过其他设备)连接到插座的充电器供电。电源22还可以包括可拆卸以供替换的可再充电电池,例如NiCd、NiMH、Li-ion或Li-pol电池。外部网络接口23可以包括各种网卡以及以软件和/或硬件实现的电路系统,以实现电子设备200与外部网络(例如图1中的外部网络140)的提供者(例如互联网服务提供商或多系统运营商(MSO))之间的通信。
存储器24包括单个存储器或一个或多个存储器或存储位置,包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、EPROM、EEPROM、闪存、FPGA的逻辑块、硬盘或存储器层次结构的任何其他各层。存储器24可以用于存储任何类型的指令、软件或算法,包括用于控制电子设备200的一般功能和操作的软件25。
处理器26控制电子设备200的一般操作,并执行与网络中的其他设备(诸如用户设备)有关的管理功能。处理器26可以包括但不限于CPU、硬件微处理器、硬件处理器、多核处理器、单核处理器、微控制器、专用集成电路(ASIC)、DSP或其他类似的处理设备,能够执行根据本公开中描述的实施例的用于控制电子设备200的操作和功能的任何类型的指令、算法或软件。处理器26可以是在计算系统中执行功能的数字电路系统、模拟电路系统或混合信号(模拟和数字的组合)电路系统的各种实现。处理器26可以包括例如诸如集成电路(IC)、单独处理器核心的部分或电路、整个处理器核心、单独的处理器、诸如现场可编程门阵列(FPGA)的可编程硬件设备、和/或包括多个处理器的系统。
可以使用内部总线27来建立电子设备200的组件(例如20-22、24和26)之间的通信。
尽管使用特定组件来描述电子设备200,但是在替选实施例中,电子设备200中可以存在不同的组件。例如,电子设备200可以包括一个或多个附加控制器、存储器、网络接口、外部网络接口和/或用户接口。另外,电子设备200中可能不存在所述组件中的一个或多个。此外,在一些实施例中,电子设备200可以包括在图2中未示出的一个或多个组件。另外,尽管在图2中示出单独的组件,但是在一些实施例中,给定组件的一些或全部可以集成到电子设备200中的其他组件中的一个或多个中。此外,可以使用模拟和/或数字电路的任何组合来实现电子设备200中的电路和组件。
图3示出了根据本公开的实施例的用于实现同声传译的示例性方法300的流程图。该方法300例如可以由如图2所示的电子设备200来执行。图4-5示出了根据本公开的实施例的用于同声传译的示例性用户界面400和500。下面将参照图1-图3以及图4-5来详细描述根据本公开的实施例的电子设备以及用于该电子设备的方法。
如图3所示,在步骤S301处,识别用户所在的地理位置,获得所在地理位置的官方语言。例如,如果识别到用户的地理位置在武汉,则其官方语言为中文。根据本发明的实施例,对用户地理位置进行识别的功能可以由AI服务模块提供,AI服务模块可以由图2中的处理器26来实现。AI服务模块能够智能分析用户画像,包括用户的地理位置。
在步骤S302处,在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示。例如,在检测到用户通过终端设备所观看的视频或节目的语言不是所在地理位置的官方语言时通过终端设备的用户界面向用户呈现是否需要同声传译的提示。所述终端设备可以为电视或者电脑。以所述终端设备为电视机为例,在检测到用户观看的视频(例如,CCTV6所播放的电影)的语言为俄语,而用户所在地为武汉的情况下,通过电视机向用户呈现是否需要同声传译的提示。需要注意的是,在终端设备为电视机的情况下,所述终端设备实际上为机顶盒,电视机仅用作机顶盒的用户界面。
图4示出了通过终端设备(例如,机顶盒)的用户界面(例如,电视机)向用户呈现是否需要同声传译的提示的示意图。
在步骤S303处,响应于用户对需要同声传译的选择向用户呈现可选目标语言。所述可选目标语言包括所述官方语言。例如,在用户所观看的电影为俄语,而用户被识别为处于武汉的情况下,可选目标语言可以为中文以及日语、韩语和英语中的一种或多种。
参考图4,如果用户选择“不需要”,则用户可以继续欣赏原节目或者视频。如果用户选择“需要”,则响应于用户对“需要”按钮的选择(例如,通过遥控器点击)向用户呈现如图5所示的图形用户界面。
图5示出了通过终端设备(例如,机顶盒)的用户界面(例如,电视机)向用户呈现可供选择的目标语言的示意图。应理解,这里给出的“中文”和“英语”仅是示例性的,在用户处于不同地理位置(例如,不同国家)的情况下,可供选择的目标语言不同,语种可以为至少两种,但是为了提高用户体验,可供选择的目标语言包括所在地的官方语言。
在步骤S304处,接收所述视频或节目的原声音频。例如,从所述终端设备接收所述视频或节目的原声音频。根据本发明的实施例,在用户选择需要同声传译时,触发通过图2所示的处理器26提供的AI服务,一方面从终端设备(例如,机顶盒)接收所述视频或节目的原声音频,另一方面从所述视频或节目注释掉所述原声音频,使其失效,以便于用户不会听到节目或视频的原声,从而不会给用户造成原声与同声传译同时出现的困扰。
在步骤S305处,响应于用户对目标语言的选择,实时提取接收的原声音频的音频片段,并将所提取的音频片段翻译成目标语言。对原声音频片段的分析和到目标语言的翻译可以采用现有的音频分析和翻译方法,在此不赘述。
在步骤S306处,输出所述目标语言的音频片段。例如,将所述目标语言的音频片段发送给所述终端设备。终端设备(例如,机顶盒)于是可以以用户所选目标语言播放用户正在观看的视频或节目。由于AI服务的解析处理速度很快,用户几乎感觉不到音频的播放与原视频或节目之间的延迟。
为了进一步提高用户体验,本发明提出的AI服务还可以进一步提取视频或节目中各个人物或角色的情绪,并在将所述目标语言的音频片段发送给所述终端设备之前还原各人物或角色的情绪。
根据本发明的一个示例性实施例,AI服务模块可以对所提取的音频片段进行编码以获得已编码数据,利用IEMOCAP数据集将已编码数据分配给例如四种情绪类别,对这四种情绪类别分别进行数据训练,建立双循环神经网络模型,以及对所述目标语言的音频片段应用所述双循环神经网络模型,从而获得完整的翻译音频以用于回传到节目或视频。根据优选实施例,所述四种情绪类别包括愤怒、快乐、悲伤和中性。
根据本发明的实施例,用来实现图3所示的同声传译方法的电子设备既可以是内置模块,例如内置于机顶盒中的智能模块,也可以是可插拔式的硬件,方便具有同声传译需求的用户随身携带,既可以应用于机顶盒也可以应用于电脑等具有操作系统的终端设备。
通过上述能够实现同声传译的电子设备,能够为语言受限的用户提供欣赏外语视频或节目时的同声传译,从而提高用户体验。通过将上述能够实现同声传译的电子设备设计成可插拔式,既便于用户将一个同声传译设备应用于多种终端设备,也便于用户随身携带,提高了设备利用率,进一步提高了用户体验。
本公开可以被实现为装置、系统、集成电路和非瞬时性计算机可读介质上的计算机程序的任何组合。可以将一个或多个控制器实现为执行本公开中描述的部分或全部功能的集成电路(IC)、专用集成电路(ASIC)或大规模集成电路(LSI)、系统LSI、超级LSI或超LSI组件。
本公开包括软件、应用程序、计算机程序或算法的使用。可以将软件、应用程序、计算机程序或算法存储在非瞬时性计算机可读介质上,以使诸如一个或多个处理器的计算机执行上述步骤和附图中描述的步骤。例如,一个或多个存储器以可执行指令存储软件或算法,并且一个或多个处理器可以关联执行该软件或算法的一组指令,以根据本公开中描述的实施例提供网络接入设备的网络配置信息管理功能。
软件和计算机程序(也可以称为程序、软件应用程序、应用程序、组件或代码)包括用于可编程处理器的机器指令,并且可以以高级过程性语言、面向对象编程语言、功能性编程语言、逻辑编程语言或汇编语言或机器语言来实现。术语“计算机可读介质”是指用于向可编程数据处理器提供机器指令或数据的任何计算机程序产品、装置或设备,例如磁盘、光盘、固态存储设备、存储器和可编程逻辑设备(PLD),包括将机器指令作为计算机可读信号来接收的计算机可读介质。
举例来说,计算机可读介质可以包括动态随机存取存储器(DRAM)、随机存取存储器(RAM)、只读存储器(ROM)、电可擦只读存储器(EEPROM)、紧凑盘只读存储器(CD-ROM)或其他光盘存储设备、磁盘存储设备或其他磁性存储设备,或可以用于以指令或数据结构的形式携带或存储所需的计算机可读程序代码以及能够被通用或专用计算机或通用或专用处理器访问的任何其它介质。如本文中所使用的,磁盘或盘包括紧凑盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘,其中磁盘通常以磁性方式复制数据,而盘则通过激光以光学方式复制数据。上述的组合也包括在计算机可读介质的范围内。
另外,以上描述提供了示例,而不限制权利要求中阐述的范围、适用性或配置。在不脱离本公开的精神和范围的情况下,可以对所讨论的元件的功能和布置进行改变。各种实施例可以适当地省略、替代或添加各种过程或部件。例如,关于某些实施例描述的特征可以在其他实施例中被结合。
Claims (20)
1.一种电子设备,所述电子设备包括:
存储器,具有存储在其上的指令;以及
处理器,被配置为执行存储在所述存储器上的指令,以使得所述电子设备执行以下操作:
在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示;
响应于用户对需要同声传译的选择向用户呈现可选目标语言,其中所述可选目标语言包括所述官方语言;
接收所述视频或节目的原声音频;
响应于用户对目标语言的选择,实时提取原声音频的音频片段并将所提取的音频片段翻译成目标语言;以及
输出所述目标语言的音频片段。
2.根据权利要求1所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:
在接收所述视频或节目的原声音频时,从所述视频或节目注释掉所述原声音频,使其失效。
3.根据权利要求1所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备在输出所述目标语言的音频片段之前执行以下操作:
对所提取的音频片段进行编码以获得已编码数据;
利用IEMOCAP数据集将已编码数据分配给四种情绪类别,对这四种情绪类别分别进行数据训练,建立双循环神经网络模型,其中所述四种情绪类别包括愤怒、快乐、悲伤和中性;以及
对所述目标语言的音频片段应用所述双循环神经网络模型。
4.根据权利要求1所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:
识别用户所在的地理位置,获得所在地理位置的官方语言。
5.根据权利要求1所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:
在检测到用户通过终端设备所观看的视频或节目的语言不是所在地理位置的官方语言时通过终端设备的用户界面向用户呈现是否需要同声传译的提示。
6.根据权利要求5所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:
从所述终端设备接收所述视频或节目的原声音频。
7.根据权利要求6所述的电子设备,其中所述处理器还被配置为执行存储在所述存储器上的指令以使所述电子设备执行以下操作:
将所述目标语言的音频片段发送给所述终端设备。
8.根据权利要求5-7中任一项所述的电子设备,其中所述终端设备为机顶盒。
9.根据权利要求1-7中任一项所述的电子设备,其中所述电子设备为可插拔式的。
10.一种通过电子设备实现的同声传译方法,包括:
在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示;
响应于用户对需要同声传译的选择向用户呈现可选目标语言,其中所述可选目标语言包括所述官方语言;
接收所述视频或节目的原声音频;
响应于用户对目标语言的选择,实时提取原声音频的音频片段并将所提取的音频片段翻译成目标语言;以及
输出所述目标语言的音频片段。
11.根据权利要求10所述的同声传译方法,还包括:
在接收所述视频或节目的原声音频时,从所述视频或节目注释掉所述原声音频,使其失效。
12.根据权利要求10所述的同声传译方法,还包括在输出所述目标语言的音频片段之前执行以下操作:
对所提取的音频片段进行编码以获得已编码数据;
利用IEMOCAP数据集将已编码数据分配给四种情绪类别,对这四种情绪类别分别进行数据训练,建立双循环神经网络模型,其中所述四种情绪类别包括愤怒、快乐、悲伤和中性;以及
对所述目标语言的音频片段应用所述双循环神经网络模型。
13.根据权利要求10所述的同声传译方法,还包括:
识别用户所在的地理位置,获得所在地理位置的官方语言。
14.根据权利要求10所述的同声传译方法,其中在检测到视频或节目的语言不是所在地理位置的官方语言时通过用户界面向用户呈现是否需要同声传译的提示包括:
在检测到用户通过终端设备所观看的视频或节目的语言不是所在地理位置的官方语言时通过终端设备的用户界面向用户呈现是否需要同声传译的提示。
15.根据权利要求14所述的同声传译方法,其中接收所述视频或节目的原声音频包括:
从所述终端设备接收所述视频或节目的原声音频。
16.根据权利要求15所述的同声传译方法,其中输出所述目标语言的音频片段包括:
将所述目标语言的音频片段发送给所述终端设备。
17.根据权利要求14-16中任一项所述的同声传译方法,其中所述终端设备为机顶盒。
18.根据权利要求10-16中任一项所述的同声传译方法,其中所述电子设备为可插拔式的。
19.一种非瞬时性计算机可读介质,所述非瞬时性计算机可读介质具有存储在其上的指令,以用于由处理器执行以执行根据权利要求10-18中任一项所述的方法的步骤。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行如权利要求10-18中任一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179590.9A CN114912467A (zh) | 2021-02-09 | 2021-02-09 | 用于同声传译的电子设备、方法、介质及程序 |
PCT/US2022/015613 WO2022173734A1 (en) | 2021-02-09 | 2022-02-08 | Electronic device, method, medium, and program for simultaneous interpretation |
US17/666,995 US11792488B2 (en) | 2021-02-09 | 2022-02-08 | Electronic device, method, medium, and program for simultaneous interpretation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179590.9A CN114912467A (zh) | 2021-02-09 | 2021-02-09 | 用于同声传译的电子设备、方法、介质及程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912467A true CN114912467A (zh) | 2022-08-16 |
Family
ID=80623711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110179590.9A Pending CN114912467A (zh) | 2021-02-09 | 2021-02-09 | 用于同声传译的电子设备、方法、介质及程序 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11792488B2 (zh) |
CN (1) | CN114912467A (zh) |
WO (1) | WO2022173734A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775156B2 (en) | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
CN105912532B (zh) * | 2016-04-08 | 2020-11-20 | 华南师范大学 | 基于地理位置信息的语言翻译方法及系统 |
US10652622B2 (en) * | 2017-06-27 | 2020-05-12 | At&T Intellectual Property I, L.P. | Method and apparatus for providing content based upon a selected language |
CN108566558B (zh) * | 2018-04-24 | 2023-02-28 | 腾讯科技(深圳)有限公司 | 视频流处理方法、装置、计算机设备及存储介质 |
CN108737845B (zh) * | 2018-05-22 | 2019-09-10 | 北京百度网讯科技有限公司 | 直播处理方法、装置、设备以及存储介质 |
US20200007946A1 (en) * | 2018-06-29 | 2020-01-02 | Rovi Guides, Inc. | Selectively delivering a translation for a media asset based on user proficiency level in the foreign language and proficiency level required to comprehend the media asset |
US11282297B2 (en) * | 2019-09-10 | 2022-03-22 | Blue Planet Training, Inc. | System and method for visual analysis of emotional coherence in videos |
-
2021
- 2021-02-09 CN CN202110179590.9A patent/CN114912467A/zh active Pending
-
2022
- 2022-02-08 WO PCT/US2022/015613 patent/WO2022173734A1/en active Application Filing
- 2022-02-08 US US17/666,995 patent/US11792488B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2022173734A1 (en) | 2022-08-18 |
US11792488B2 (en) | 2023-10-17 |
US20220256248A1 (en) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11417341B2 (en) | Method and system for processing comment information | |
CN106303555A (zh) | 一种基于混合现实的直播方法、装置和系统 | |
US10142701B2 (en) | Method and apparatus for audio communication of information | |
US10237629B2 (en) | Channel classification methods and devices | |
US20140282705A1 (en) | System and method for communicating alerts through a set-top box | |
CN112272170B (zh) | 语音通信方法及装置、电子设备、存储介质 | |
US9584761B2 (en) | Videoconference terminal, secondary-stream data accessing method, and computer storage medium | |
CN106162319A (zh) | 一种语音控制电子节目的方法及装置 | |
CN103037244B (zh) | 多个智能终端之间切换网络视频的方法、系统及智能终端 | |
WO2019128829A1 (zh) | 动作执行方法、装置、存储介质及电子装置 | |
CN105025349A (zh) | 加密的投屏 | |
CN107071541A (zh) | 用于外围上下文管理的方法和设备 | |
JP2019208226A (ja) | 再生データ取得方法、装置、機器及び記憶媒体 | |
CN108347623A (zh) | 在线直播内容的生成方法、装置及在线直播系统 | |
EP3839874A1 (en) | Image compression apparatus and method | |
CN111541905B (zh) | 一种直播方法、装置、计算机设备和存储介质 | |
CN103369361A (zh) | 图像数据回显的控制方法、服务器及终端 | |
CN114912467A (zh) | 用于同声传译的电子设备、方法、介质及程序 | |
CN107771387A (zh) | 用于在不访问网络时间协议的情况下设定设备中的时间和日期的系统和方法 | |
CN104333791A (zh) | 一种移动终端与智能电视的交互方法、装置及系统 | |
CN103369359A (zh) | 一种家庭多媒体娱乐控制设备 | |
CN109640164A (zh) | 一种用于多个虚拟现实设备间的播放方法与装置 | |
CN115550705A (zh) | 一种音频播放方法及装置 | |
CN108989905B (zh) | 媒体流控制方法、装置、计算设备及存储介质 | |
CN112312208A (zh) | 多媒体信息的处理方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |