CN110335610A - 多媒体翻译的控制方法及显示器 - Google Patents

多媒体翻译的控制方法及显示器 Download PDF

Info

Publication number
CN110335610A
CN110335610A CN201910655068.6A CN201910655068A CN110335610A CN 110335610 A CN110335610 A CN 110335610A CN 201910655068 A CN201910655068 A CN 201910655068A CN 110335610 A CN110335610 A CN 110335610A
Authority
CN
China
Prior art keywords
display
cypher text
audio stream
interface
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910655068.6A
Other languages
English (en)
Inventor
杨凯瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shell Technology Co Ltd
Original Assignee
Beijing Shell Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shell Technology Co Ltd filed Critical Beijing Shell Technology Co Ltd
Priority to CN201910655068.6A priority Critical patent/CN110335610A/zh
Publication of CN110335610A publication Critical patent/CN110335610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1407General aspects irrespective of display type, e.g. determination of decimal point position, display with fixed or driving decimal point, suppression of non-significant zeros
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种多媒体翻译的控制方法及显示器,所述多媒体翻译的控制方法包括:从显示器的接口接收音频流;将所述音频流翻译成翻译文本;以及通过所述显示器输出所述翻译文本的内容,能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译。

Description

多媒体翻译的控制方法及显示器
技术领域
本发明涉及计算机技术领域,具体涉及一种多媒体翻译的控制方法及显示器。
背景技术
随着科技的不断进步,多媒体已经在人们的工作、生活中普及。在多媒体播放设备播放多媒体的时候难免会出现播放的语种并不是自己想要的,且多数多媒体播放设备只能常规单一的在两种语种进行选择,不能够切换到其他语种,无法满足用户对不同语种的使用需求。目前,为了可以自如切换不同的语种,会使用翻译装置进行翻译,即通过翻译装置的麦克风录入声音后进行翻译,但是,多数的翻译设备携带不方便,无法满足用户对翻译设备的随身携带的使用需求。
发明内容
有鉴于此,本发明实施例致力于提供一种多媒体翻译的控制方法及显示器,通过将外部设备与所述显示器相连接,能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译。
根据本发明实施例的第一方面,提供一种多媒体翻译的控制方法,包括:从显示器的接口接收音频流;将所述音频流翻译成翻译文本;以及通过所述显示器输出所述翻译文本的内容。
在一个实施例中,所述方法还包括:根据所述翻译文本合成对应的语音流。
在一个实施例中,所述通过所述显示器输出所述翻译文本的内容包括:在所述显示器上播放所述语音流;和/或在所述显示器上显示所述翻译文本。
在一个实施例中,所述根据所述翻译文本合成对应的语音流具体包括:根据所述音频流的时间点对所述翻译文本进行同步处理;以及根据同步后的翻译文本合成与所述翻译文本对应的语音流。
在一个实施例中,所述方法还包括:当所述翻译文本的显示时间大于所述语音流的播放时间,用空白语音对所述语音流进行补充。
在一个实施例中,所述方法还包括:识别所述音频流以获得需要翻译的语言种类。
在一个实施例中,所述将所述音频流翻译成翻译文本包括:根据所述语言种类将所述音频流翻译成所述翻译文本。
在一个实施例中,所述将所述音频流翻译成翻译文本包括:通过所述显示器上的芯片将所述音频流翻译成所述翻译文本。
在一个实施例中,所述将所述音频流翻译成翻译文本包括:向服务器发送所述音频流,以便所述服务器将所述音频流翻译成所述翻译文本;以及接收所述服务器发送的所述翻译文本。
在一个实施例中,所述从显示器的接口接收音频流包括:通过所述显示器上的接口从外部设备的接口获取所述音频流。
在一个实施例中,所述接口为音频接口或高清晰度多媒体接口。
根据本发明实施例的第二方面,提供一种显示器,包括:接收模块,配置为从显示器的接口接收音频流;翻译模块,配置为将所述音频流翻译成翻译文本;以及输出模块,配置为通过所述显示器输出所述翻译文本的内容。
根据本发明实施例的第三方面,提供一种显示器,包括:芯片,用于执行如上所述的多媒体翻译的控制方法;多媒体接口,用于接收由外部设备输出的音频流和视频流;以及显示屏,用于显示经过所述芯片处理得到的翻译文本和从所述外部设备获取的视频画面。
本发明的实施例所提供的一种多媒体翻译的控制方法,通过从显示器的接口接收音频流;将所述音频流翻译成翻译文本;以及通过所述显示器输出所述翻译文本的内容,能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译。
附图说明
图1所示为本发明一个实施例提供的多媒体翻译的控制方法的流程示意图。
图2所示为本发明另一个实施例提供的多媒体翻译的控制方法的流程示意图。
图3所示为本发明一个实施例提供的多媒体翻译的控制方法的操作原理示意图。
图4所示为本发明一个实施例提供的显示器的框图。
图5所示为本发明另一个实施例提供的显示器的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一个实施例提供的多媒体翻译的控制方法的流程示意图。如图1所示,该方法包括:
S101:从显示器的接口接收音频流。
应当理解,该音频流来源于外部设备,通过该外部设备的接口与显示器的接口进行音频流的传输。该外部设备可以是手机、平板电脑、车载电脑等移动终端设备,或者,也可以是个人计算机,比如膝上型便携计算机和台式计算机等等。该显示器可以包含系统,该显示器的系统可以为Android系统或Linux系统,但是本发明实施例并不限制该显示器的系统的具体类型。
需要说明的是,还可以从显示器的接口接收音频流和/或视频流,具体地,通过将显示器的接口与外部设备的接口连接可以获取音频流和/或视频流,那么该接口为可传输音频流和视频流的高清晰度多媒体接口(High Definition Multimedia Interface,HDMI)和USB Type-C接口,还可以为仅传输音频流的音频接口。本发明实施例并不限制该接口的具体类型,只要可以实现对音频流和/或视频流进行输入或输出即可。
还应当理解,音频流可以是外部设备播放音乐时产生的音频流,也可以是外部设备播放视频时产生的音频流,还可以是外部设备视频通话时所产生的音频流,本发明实施例并不限制该音频流的具体产生类型;视频流是指外部设备播放视频时产生的视频流,也可以是通过视频通话所产生的视频流,本发明实施例并不限制该视频流的具体产生类型。
S102:将所述音频流翻译成翻译文本。
具体地,当音频流从外部设备处传输到该显示器时,可以通过该显示器中的芯片对音频流进行处理以获得翻译文本,但是本发明实施例并不限制音频流翻译成翻译文本具体是由谁来执行,该显示器的系统还可以通过HTTP协议/Websocket协议与服务器进行交互以将显示器接收到的音频流发送到服务器,最后由服务器对音频流进行翻译,需要说明的是,本发明实施例并不限制服务器的具体类型,该服务器可以是虚拟的服务端,例如大数据处理平台、虚拟化平台、云计算服务中心。
S103:通过所述显示器输出所述翻译文本的内容。
应当理解,当翻译文本的内容的获得是由显示器上的芯片执行完成时,通过该显示器可以直接对芯片处理得到的翻译文本的内容进行输出;当翻译文本的内容获得是由服务器执行完成时,服务器通过HTTP协议/Websocket协议与显示器的系统进行交互以将翻译文本的内容发送给显示器,在显示器接收到翻译文本的内容时,由显示器来输出所述翻译文本的内容。
由此可见,对于任何一个带有接口的外部设备,只要将该显示器的接口与外部设备通过接口进行连接,便能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译。
如图2所示,所述多媒体翻译的控制方法还包括:
S201:根据所述翻译文本合成对应的语音流。
应当理解,当经过步骤S102处理获得翻译文本后,还可以根据所述翻译文本进行语音流的合成,但是本发明实施例并不限制合成语音流是由谁来执行,语音流的合成可以由该显示器上的芯片来执行,语音流的合成还可以由上面提到的服务器来执行,该服务器可以是虚拟的服务端,例如大数据处理平台、虚拟化平台、云计算服务中心。
在本发明另一个实施例中,所述通过所述显示器输出所述翻译文本的内容,包括:在所述显示器上播放所述语音流;和/或在所述显示器上显示所述翻译文本。
具体地,当所述翻译文本的翻译以及音频流的合成均是由服务器执行完成时,服务器通过HTTP协议/Websocket协议与显示器的系统进行交互以将翻译文本和音频流发送至显示器,当显示器接收到所述翻译文本和音频流时,显示器会输出该翻译文本和音频流。
应当理解,翻译文本直接以文字的形式在显示器的屏幕上进行显示,而语音流通过显示器的喇叭或者扬声器进行播放。需要说明的是,本发明实施例并不限制显示器具体输出哪个翻译文本的内容,该显示器输出的翻译文本的内容可以为翻译文本,也可以为语音流,还可以为翻译文本和语音流,同时,显示器具体输出哪个翻译文本的内容还可以通过用户自定义的方式进行选择,该用户自定义的方式是指可以通过设置显示器的系统中的应用程序或者显示器的系统菜单来选择显示器具体输出哪个翻译文本的内容,该系统菜单类似于目前显示器中调节显示器亮度和色调等参数的系统菜单。
需要说明的是,翻译文本可以固定地显示在显示器的屏幕的某一个位置(例如显示器的屏幕的上方或下方),翻译文本还可以根据用户自身的喜好对翻译文本进行移动,以使翻译文本可以移动到不阻碍屏幕显示其他画面的空白区域,但是本发明实施例并不限制翻译文本具体显示在显示器的哪个位置以及翻译文本显示过程是如何实现的,翻译文本还可以根据显示屏的显示画面自动显示在不阻碍屏幕显示其他画面的空白区域,以以下的应用场景为例进行说明,当外部设备的播放视频时,将显示器与外部设备连接可以同时将视频流和音频流通过接口传输到该显示器中,与视频流对应的视频画面显示在该显示器上,然后处理音频流后得到的翻译文本便可以根据屏幕上的视频画面的位置自动显示在视频画面的下方,与平时观看的视频画面类似,不管视频画面的位置处在显示器的屏幕的哪个位置,翻译文本都会自动的调节以显示在屏幕的视频画面的下方。
由此可见,对于任何一个带有接口的外部设备,只要将该显示器的接口与外部设备通过接口进行连接,便能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译,最后以翻译文本和/或语音流的形式通过该显示器呈现给用户。同时,还可以将翻译文本、语音流以及外部设备的视频画面结合来通过该显示器输出。
在本发明另一个实施例中,所述根据所述翻译文本合成对应的语音流具体包括:根据所述音频流的时间点对所述翻译文本进行同步处理;以及根据同步后的翻译文本合成与所述翻译文本对应的语音流,其中所述方法还包括:当所述翻译文本的显示时间大于所述语音流的播放时间,用空白语音对所述语音流进行补充。
具体地,当显示器同时输出翻译文本和音频流时,首先记录所述音频流中每个音频的时间点,然后根据每个音频的时间点对翻译出的翻译文本进行同步处理,同步处理就是指将该音频的时间点同步到与该音频相对应的翻译文本中以获得同步后的翻译文本,同步后的翻译文本就是指翻译文本中的每一个字均被同步,以使翻译文本中的每一个字均标记有与相应的音频的时间点相同的时间点,最后根据同步后的翻译文本来合成与所述翻译文本对应的语音流,合成后的语音流也标记有与相应的翻译文本的时间点相同的时间点,这样就可以将语音流播放的时间与翻译文本显示的时间进行匹配对应。
应当理解,当所述翻译文本的显示时间大于所述语音流的播放时间时,可以用空白语音对所述语音流进行补充,从而可以实现用空白语音对多余的翻译文本进行时间的补偿,以使后续的语音流播放的时间与翻译文本显示的时间可以完成匹配对应。
需要说明的是,该打点处理的过程可以由显示器的芯片上执行,也可以由上面提到的服务器来执行,该服务器可以是虚拟的服务端,例如大数据处理平台、虚拟化平台、云计算服务中心。
在本发明另一个实施例中,所述方法还包括:识别所述音频流以获得需要翻译的语言种类,其中所述将所述音频流翻译成翻译文本,包括:根据所述语言种类将所述音频流翻译成所述翻译文本。
应当理解,在将所述音频流翻译成翻译文本之前,还可以对所述音频流进行识别以获得需要翻译的语言种类,该语言种类就是指最终需要翻译的语种类型。当语言种类确定完成后,根据该语言种类将所述音频流翻译成与该语言种类对应的翻译文本,例如,如果语言种类为英语,那么翻译出的翻译文本就是英语,如果语言种类为俄语,那么翻译出的翻译文本就是俄语。
具体地,当翻译文本的内容的获得是由显示器上的芯片执行完成时,音频流的识别可以由显示器的系统(例如Android系统或Linux系统)来执行,假如该系统识别出该音频流为中文,系统可以通过默认的方式确定最终需要翻译的语言种类,系统还可以通过用户自定义的方式确定最终需要翻译的语言种类。默认的方式是指该系统中会预先设置好中文需要指定翻译为另外的哪个语言种类(例如英语),然后将在系统上确定出的需要翻译的语言种类(例如英语)发送到芯片,芯片会根据该语言种类(例如英语)对翻译文本进行翻译;而用户自定义的方式是指用户可以通过显示器的系统中的应用程序或者显示器的系统菜单进行用户设置以选择具体的语言种类(例如俄语),然后该系统将用户设置的指令(语言种类设置为俄语的指令)传输到芯片中时,芯片根据该语言种类(例如俄语)对翻译文本进行翻译。需要说明的是,音频流的识别还可以由显示器上的芯片来执行,当芯片识别出该音频流为何种语言类型(例如中文)时,芯片会根据与该语言类型(例如中文)对应的特定语言种类(例如英语)对翻译文本进行翻译,也就是说芯片对语言种类的选择是单一的,不可以自如的进行切换,例如,中文可以翻译为英语,英语可以翻译为俄语。
当翻译文本的内容的获得是由服务器执行完成时,音频流的识别可以由显示器的系统(例如Android系统或Linux系统)来执行,假如该系统识别出音频流为中文,系统可以通过默认的方式确定最终需要翻译的语言种类,系统还可以通过用户自定义的方式确定最终需要翻译的语言种类。默认的方式是指该系统上会预先设置好中文需要翻译为另外的哪个语言种类(例如英语),然后将在系统上确定出的需要翻译的语言种类(例如英语)发送到服务器,服务器会根据该语言种类(例如英语)对翻译文本进行翻译;而用户自定义的方式是指用户通过系统中的应用程序或者显示器的系统菜单进行用户设置以选择具体的语言种类(例如俄语),该系统将用户设置的指令(语言种类设置为俄语的指令)发送给服务器,最后服务器根据该语言种类(例如俄语)对翻译文本进行翻译。需要说明的是,音频流的识别还可以由服务器来执行,当服务器识别出该音频流为何种语言类型(例如中文)时,服务器会根据与该语言类型(例如中文)对应的特定语言种类(例如英语)对翻译文本进行翻译,也就是说服务器对语言种类的选择是单一的,不可以自如的进行切换,例如,中文可以翻译为英语,英语可以翻译为俄语。
应当理解,本发明实施例并不限制服务器的具体类型,该服务器可以是虚拟的服务端,例如大数据处理平台、虚拟化平台、云计算服务中心。
在本发明另一个实施例中,所述将所述音频流翻译成翻译文本,包括:通过所述显示器上的芯片将所述音频流翻译成所述翻译文本。
应当理解,当音频流从外部设备处传输到该显示器时,可以通过该显示器上的芯片对音频流进行处理以获得翻译文本。
在本发明另一个实施例中,所述将所述音频流翻译成翻译文本,包括:向服务器发送所述音频流,以便所述服务器将所述音频流翻译成所述翻译文本;以及接收所述服务器发送的所述翻译文本。
具体地,如图3所示,音频流从外部设备301处传输到该显示器302,显示器302的系统通过HTTP协议/Websocket协议与服务器303进行交互以将音频流从显示器302发送给服务器303,服务器303对所述音频流进行处理以获得翻译文本,显示器302的系统再通过HTTP协议/Websocket协议与服务器303进行交互以接收服务器303发送的翻译文本,最后显示器302输出翻译文本的内容。应当理解,该服务器303可以是上面描述的虚拟的服务端(例如大数据处理平台、虚拟化平台或者云计算服务中心)。
还应当理解,HTTP协议是指超文本传输协议(HyperText Transfer Protocol),HTTP协议是用于从服务器传输文本到客户端(显示器)的传输协议。WebSocket协议与HTTP协议相同均位于应用层,都是TCP/IP协议的子集。HTTP协议是单向通信协议,只有客户端(显示器)发起HTTP请求,服务器才会返回数据。而WebSocket协议是双向通信协议,在建立连接之后,客户端(显示器)和服务器都可以主动向对方发送或接受数据。WebSocket协议的目标是在一个独立的持久连接上提供全双工双向通信,客户端(显示器)和服务器可以向对方主动发送和接受数据。
在本发明另一个实施例中,所述从显示器的接口接收音频流,包括:通过所述显示器上的接口从外部设备的接口获取所述音频流。所述接口为音频接口或高清晰度多媒体接口。
应当理解,接口可以是音频接口、HDMI、USB Type-C接口、以太网接口等等,本发明实施例并不限制接口的具体类型,只要可以实现对音频流和/或视频流进行输入或输出即可。
图4所示为本发明一个实施例提供的显示器400的框图。如图4所示,该显示器400包括:
接收模块410,配置为从显示器的接口接收音频流。
应当理解,当外部设备从显示器的接口输入音频流时,显示器的接收模块410会接收该音频流,同时本发明实施例并不限制接收模块410具体接收哪种信息,该接收模块410还可以接收从显示器的接口接收到的视频流。
应当理解,接口可以是音频接口、HDMI、USB Type-C接口、以太网接口等等,本发明实施例并不限制接口的具体类型,只要可以实现对音频流和/或视频流进行输入或输出即可。
还应当理解,音频流可以是外部设备播放音乐时产生的音频流,也可以是外部设备播放视频时产生的音频流,还可以是外部设备视频通话时所产生的音频流,本发明实施例并不限制该音频流的具体产生类型;视频流是指外部设备播放视频时产生的视频流,也可以是通过视频通话所产生的视频流,本发明实施例并不限制该视频流的具体产生类型。
翻译模块420,配置为将所述音频流翻译成翻译文本。
应当理解,当接收模块410接收到音频流后,翻译模块420会对接收到的音频流进行翻译以生成翻译文本,需要说明的是,在翻译模块420进行翻译之前,该显示器的系统可以对音频流进行识别以确定需要翻译的语言种类,该语言种类就是指最终需要翻译的语种类型。当系统确定完语言种类后,该系统会将该语言种类发送给翻译模块420,最后翻译模块420根据该语言种类将所述音频流翻译成与该语言种类对应的翻译文本,例如,如果语言种类为英语,那么翻译出的翻译文本就是英语,如果语言种类为俄语,那么翻译出的翻译文本就是俄语。
具体地,假如该系统识别出该音频流为中文,该系统可以通过默认的方式确定最终需要翻译的语言种类,还可以通过用户自定义的方式确定最终需要翻译的语言种类。默认的方式是指该系统上会预先设置好中文需要指定翻译为另外的哪个语言种类(例如英语),系统将该语言种类(例如英语)发送给翻译模块420,然后翻译模块420根据该语言种类(例如英语)对翻译文本进行翻译;而用户自定义的方式是指用户可以通过显示器的系统中的应用程序或者显示器的系统菜单进行用户设置以选择具体的语言种类(例如俄语),该系统将用户设置的指令(语言种类设置为俄语的指令)发送给翻译模块420,然后翻译模块420根据该语言种类(例如俄语)对翻译文本进行翻译。需要说明的是,音频流的识别还可以由识别模块440来执行,当识别模块440识别出该音频流为何种语言类型(例如中文)时,识别模块440会根据与该语言类型(例如中文)对应的特定语言种类(例如英语)对翻译文本进行翻译,也就是说识别模块440对语言种类的选择是单一的,不可以自如的进行切换,例如,中文可以翻译为英语,英语可以翻译为俄语。
输出模块430,配置为通过所述显示器输出所述翻译文本的内容。
应当理解,当翻译模块420根据语言种类对所述音频流进行翻译以获得翻译文本后,该显示器中的语音合成模块450还会对翻译文本进行处理以合成对应的语音流,然后所述显示器通过输出模块430输出所述翻译文本的内容,需要说明的是,本发明实施例并不限制显示器具体输出哪个翻译文本的内容,该显示器输出的翻译文本的内容可以为翻译文本,也可以为语音流,还可以为翻译文本和语音流,同时,显示器具体输出哪个翻译文本的内容还可以通过用户自定义的方式进行选择,该用户自定义的方式是指可以通过设置显示器的系统中的应用程序或者显示器的系统菜单来选择显示器具体输出哪个翻译文本的内容,该系统菜单类似于目前显示器中调节显示器亮度和色调等参数的系统菜单。
需要说明的是,翻译文本可以固定地显示在显示器的屏幕的某一个位置(例如显示器的屏幕的上方或下方),翻译文本还可以根据用户自身的喜好对翻译文本进行移动,以使翻译文本可以移动到不阻碍屏幕显示其他画面的空白区域,但是本发明实施例并不限制翻译文本具体显示在显示器的哪个位置以及翻译文本显示过程是如何实现的,翻译文本还可以根据显示屏的显示画面自动显示在不阻碍屏幕显示其他画面的空白区域,以以下的应用场景为例进行说明,当外部设备的播放视频时,将显示器以外部设备连接可以同时将视频流和音频流通过接口传输到该显示器中,与视频画面显示在该显示器上,然后处理音频流后得到的翻译文本便可以根据屏幕上的视频画面的位置自动显示在视频画面的下方,与平时观看的视频画面类似,不管视频画面的位置处在显示器的屏幕的哪个位置,翻译文本都会自动的调节以显示在屏幕的视频画面的下方。
由此可见,对于任何一个带有接口的外部设备,只要将该显示器的接口与外部设备通过接口进行连接,便能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译,最后以翻译文本和/或语音流的形式通过该显示器呈现给用户。同时,还可以将翻译文本、语音流以及外部设备的视频画面结合来通过该显示器输出。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本发明实施例还提供一种显示器,该显示器包括:芯片,用于执行如上所述的多媒体翻译的控制方法;多媒体接口,用于接收由外部设备输出的音频流和视频流;以及显示屏,用于显示经过所述芯片处理得到的翻译文本和从所述外部设备获取的视频画面。
本发明实施例提到的显示器通过从显示器的接口接收音频流;将所述音频流翻译成翻译文本;根据所述翻译文本合成对应的语音流;以及通过所述显示器输出所述翻译文本的内容,能够实现随时随地对外部设备播放多媒体时所产生的任何声音进行翻译,最后以翻译文本和/或语音流的形式通过该显示器呈现给用户。
上述对多媒体翻译的控制实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
图5所示为本发明另一个实施例提供的显示器500的框图。
参照图5,显示器500包括处理组件510,其进一步包括一个或多个处理器,以及由存储器520所代表的存储器资源,用于存储可由处理组件510的执行的指令,例如应用程序。存储器520中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件510被配置为执行指令,以执行上述多媒体翻译的控制方法。
显示器500还可以包括一个电源组件被配置为执行显示器500的电源管理,一个有线或无线网络接口被配置为将显示器500连接到网络,和一个输入输出(I/O)接口。显示器500可以操作基于存储在存储器520的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
一种非临时性计算机可读存储介质,当存储介质中的指令由上述显示器500的处理器执行时,使得上述显示器500能够执行一种多媒体翻译的控制方法,包括:从显示器的接口接收音频流;将所述音频流翻译成翻译文本;根据所述翻译文本合成对应的语音流;以及通过所述显示器输出所述翻译文本的内容。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
应当理解,本发明实施例中提到的第一、第二等限定词,仅仅为了更清楚地描述本发明实施例的技术方案使用,并不能用以限制本发明的保护范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多媒体翻译的控制方法,其特征在于,包括:
从显示器的接口接收音频流;
将所述音频流翻译成翻译文本;以及
通过所述显示器输出所述翻译文本的内容。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据所述翻译文本合成对应的语音流,其中所述通过所述显示器输出所述翻译文本的内容,包括:
在所述显示器上播放所述语音流;和/或
在所述显示器上显示所述翻译文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述翻译文本合成对应的语音流具体包括:
根据所述音频流的时间点对所述翻译文本进行同步处理;以及
根据同步后的翻译文本合成与所述翻译文本对应的语音流,
其中所述方法还包括:
当所述翻译文本的显示时间大于所述语音流的播放时间,用空白语音对所述语音流进行补充。
4.根据权利要求1所述的方法,其特征在于,还包括:
识别所述音频流以获得需要翻译的语言种类,
其中所述将所述音频流翻译成翻译文本,包括:
根据所述语言种类将所述音频流翻译成所述翻译文本。
5.根据权利要求1至4中的任一项所述的方法,其特征在于,所述将所述音频流翻译成翻译文本,包括:
通过所述显示器上的芯片将所述音频流翻译成所述翻译文本。
6.根据权利要求1至4中的任一项所述的方法,其特征在于,所述将所述音频流翻译成翻译文本,包括:
向服务器发送所述音频流,以便所述服务器将所述音频流翻译成所述翻译文本;以及
接收所述服务器发送的所述翻译文本。
7.根据权利要求1至4中的任一项所述的方法,其特征在于,所述从显示器的接口接收音频流,包括:
通过所述显示器上的接口从外部设备的接口获取所述音频流。
8.根据权利要求1至4中的任一项所述的方法,其特征在于,所述接口为音频接口或高清晰度多媒体接口。
9.一种显示器,其特征在于,包括:
接收模块,配置为从显示器的接口接收音频流;
翻译模块,配置为将所述音频流翻译成翻译文本;以及
输出模块,配置为通过所述显示器输出所述翻译文本的内容。
10.一种显示器,其特征在于,包括:
芯片,用于执行如权利要求1至8中的任意一项所述的多媒体翻译的控制方法;
多媒体接口,用于接收由外部设备输出的音频流和视频流;以及
显示屏,用于显示经过所述芯片处理得到的翻译文本和从所述外部设备获取的视频画面。
CN201910655068.6A 2019-07-19 2019-07-19 多媒体翻译的控制方法及显示器 Pending CN110335610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655068.6A CN110335610A (zh) 2019-07-19 2019-07-19 多媒体翻译的控制方法及显示器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655068.6A CN110335610A (zh) 2019-07-19 2019-07-19 多媒体翻译的控制方法及显示器

Publications (1)

Publication Number Publication Date
CN110335610A true CN110335610A (zh) 2019-10-15

Family

ID=68146000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655068.6A Pending CN110335610A (zh) 2019-07-19 2019-07-19 多媒体翻译的控制方法及显示器

Country Status (1)

Country Link
CN (1) CN110335610A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160827A (zh) * 2021-04-07 2021-07-23 深圳鱼亮科技有限公司 一种基于多语言模型的语音转写系统及方法
CN114267358A (zh) * 2021-12-17 2022-04-01 北京百度网讯科技有限公司 音频处理方法、装置、设备、存储介质及程序

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325189A (zh) * 2000-05-18 2001-12-05 德国汤姆森-布兰特有限公司 根据要求提供音频翻译数据的接收机和接收方法
CN1559042A (zh) * 2001-09-28 2004-12-29 �ʼҷ����ֵ��ӹɷ����޹�˾ 多语言转录系统
CN201054644Y (zh) * 2006-07-25 2008-04-30 陈修志 具有语音识别及翻译功能的移动终端
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103491404A (zh) * 2012-06-08 2014-01-01 Lg电子株式会社 移动终端和操作移动终端的方法
CN103838714A (zh) * 2012-11-22 2014-06-04 北大方正集团有限公司 一种语音信息转换方法及装置
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
CN106340294A (zh) * 2016-09-29 2017-01-18 安徽声讯信息技术有限公司 基于同步翻译的新闻直播字幕在线制作系统
CN106792145A (zh) * 2017-02-22 2017-05-31 杭州当虹科技有限公司 一种音视频自动叠加字幕的方法和装置
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及系统
CN107979686A (zh) * 2016-10-25 2018-05-01 北京分音塔科技有限公司 一种实现实时语音互译的系统
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN109658919A (zh) * 2018-12-17 2019-04-19 深圳市沃特沃德股份有限公司 多媒体文件的翻译方法、装置及翻译播放设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325189A (zh) * 2000-05-18 2001-12-05 德国汤姆森-布兰特有限公司 根据要求提供音频翻译数据的接收机和接收方法
CN1559042A (zh) * 2001-09-28 2004-12-29 �ʼҷ����ֵ��ӹɷ����޹�˾ 多语言转录系统
CN201054644Y (zh) * 2006-07-25 2008-04-30 陈修志 具有语音识别及翻译功能的移动终端
CN103299361A (zh) * 2010-08-05 2013-09-11 谷歌公司 翻译语言
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN103491404A (zh) * 2012-06-08 2014-01-01 Lg电子株式会社 移动终端和操作移动终端的方法
CN103838714A (zh) * 2012-11-22 2014-06-04 北大方正集团有限公司 一种语音信息转换方法及装置
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN104427294A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 支持电视会议同声传译的方法及云端服务器
CN106340294A (zh) * 2016-09-29 2017-01-18 安徽声讯信息技术有限公司 基于同步翻译的新闻直播字幕在线制作系统
CN107979686A (zh) * 2016-10-25 2018-05-01 北京分音塔科技有限公司 一种实现实时语音互译的系统
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及系统
CN106792145A (zh) * 2017-02-22 2017-05-31 杭州当虹科技有限公司 一种音视频自动叠加字幕的方法和装置
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN109658919A (zh) * 2018-12-17 2019-04-19 深圳市沃特沃德股份有限公司 多媒体文件的翻译方法、装置及翻译播放设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160827A (zh) * 2021-04-07 2021-07-23 深圳鱼亮科技有限公司 一种基于多语言模型的语音转写系统及方法
CN114267358A (zh) * 2021-12-17 2022-04-01 北京百度网讯科技有限公司 音频处理方法、装置、设备、存储介质及程序
CN114267358B (zh) * 2021-12-17 2023-12-12 北京百度网讯科技有限公司 音频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
WO2020124725A1 (zh) 基于WebRTC协议的音视频推送方法和推流客户端
CN110166729B (zh) 云视频会议方法、装置、系统、介质和计算设备
CN109448709A (zh) 一种终端投屏的控制方法和终端
CN112988102A (zh) 投屏方法和装置
EP2183742A2 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
CN107613242A (zh) 视频会议处理方法及终端、服务器
CN113050916A (zh) 音频播放方法、装置及存储介质
CN110335610A (zh) 多媒体翻译的控制方法及显示器
EP2747464A1 (en) Sent message playing method, system and related device
US20240185877A1 (en) Method for providing speech video and computing device for executing the method
EP4246985A1 (en) Video recording method and electronic device
CN103346953A (zh) 一种群组通讯数据交互的方法、装置及系统
CN103294193A (zh) 多终端互动的方法、装置和系统
CN114449301B (zh) 物品发送方法、装置、电子设备和计算机可读存储介质
CN109300472A (zh) 一种语音识别方法、装置、设备及介质
CN103336649A (zh) 一种多终端间反馈窗图像共享的方法及装置
CN113411636A (zh) 连麦直播方法、装置、电子设备及计算机可读存储介质
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
CN115277650B (zh) 投屏显示控制方法、电子设备及相关装置
CN106331591B (zh) 监控画面的同步切换方法和装置
CN112672089A (zh) 会议控制及与会方法、装置、服务器、终端及存储介质
US20240046540A1 (en) Speech image providing method and computing device for performing the same
JP6101895B2 (ja) 情報処理装置、隠蔽情報付加図柄、情報処理方法、およびプログラム
US11830120B2 (en) Speech image providing method and computing device for performing the same
JP2007072054A (ja) 語学学習システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication