CN110166729A - 云视频会议方法、装置、系统、介质和计算设备 - Google Patents

云视频会议方法、装置、系统、介质和计算设备 Download PDF

Info

Publication number
CN110166729A
CN110166729A CN201910461202.9A CN201910461202A CN110166729A CN 110166729 A CN110166729 A CN 110166729A CN 201910461202 A CN201910461202 A CN 201910461202A CN 110166729 A CN110166729 A CN 110166729A
Authority
CN
China
Prior art keywords
terminal
cloud
translation
language
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910461202.9A
Other languages
English (en)
Other versions
CN110166729B (zh
Inventor
黄闻天
范圣冲
高新媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai United Mdt Infotech Ltd
Original Assignee
Shanghai United Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai United Mdt Infotech Ltd filed Critical Shanghai United Mdt Infotech Ltd
Priority to CN201910461202.9A priority Critical patent/CN110166729B/zh
Publication of CN110166729A publication Critical patent/CN110166729A/zh
Application granted granted Critical
Publication of CN110166729B publication Critical patent/CN110166729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Abstract

本发明的实施方式提供了一种云视频会议方法、装置、系统、介质和计算设备。该方法包括:云视频会议平台获取会议终端反馈的原始语音和目标语言类型;获取翻译终端反馈的翻译语音和该翻译语言的语言类型;根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;多台翻译终端和多台会议终端并行接入云视频会议平台;监会终端监控对应于相同语言类型的多台翻译终端。该方法实现了支持多语言类型同声传译的云视频会议,尤其是异地远程、多会场、多类型接入终端场景,提高了同声传译系统和云视频会议系统的融合性,降低了部署复杂度和成本。

Description

云视频会议方法、装置、系统、介质和计算设备
技术领域
本发明的实施方式涉及视频会议领域,更具体地,本发明的实施方式涉及一种支持同声传译的云视频会议方法、装置、系统、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在各种国际性会议、商务交流活动中,同声传译使得参会者无论来自于哪个国家、地区,使用何种语言,均能无障碍地进行学术交流、国际谈判和商贸洽谈等。目前,各类会议中通常需要部署两套设备系统,即同声传译系统和视频会议系统,其中翻译员采用专门的同声传译系统提供即时翻译服务,而各个参会者则需要通过视频会议系统实现沟通互动。对于涉及到多个分会场的大型会议,还需要为分会场部署多套同声传译系统和多套视频会议系统。
然而,目前的会议系统部署方案中,需要分别设置视频会议系统和针对不同语言的多套同声传译系统,设置复杂,部署难度大,成本高。而且,由于系统设置复杂,使用过程中难以维护,若会议中出现任一系统问题也很难及时恢复,造成参会者的互动体验下降。并且,针对不同的语言均需要设置单独的同声传译通道,但受硬件设备的限制,现有的同声传译系统最多仅能支持有限数量语言的即时翻译,例如4种或8种语言的即时翻译。此外,上述同声传译系统均需要翻译员到会场进行即时翻译,导致会议组织方还需负担大笔的差旅成本。
综上,目前的会议系统部署方案存在部署难度大、成本高、即时翻译语种数量受限等问题。
发明内容
由于目前的会议系统部署方案存在部署难度大、成本高、即时翻译语种数量受限等问题。因此非常需要一种改进的会议系统部署的技术方案,以解决上述技术问题。
在本上下文中,本发明的实施方式期望提供一种支持同声传译的云视频会议方法、装置、系统、介质和计算设备。
在本发明实施方式的第一方面中,提供了一种支持同声传译的云视频会议方法,该方法应用于云端交互系统,该云端交互系统包括云视频会议平台以及多台接入终端,所述接入终端包括翻译终端、会议终端和/或监会终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据,该方法包括:云视频会议平台获取会议终端反馈的原始语音和目标语言类型;获取翻译终端反馈的翻译语音和该翻译语言的语言类型,翻译语音是由翻译终端采集的对原始语音翻译得到的;根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;其中,多台翻译终端和/或多台会议终端并行接入云视频会议平台;监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
在一种可能的设计中,获取会议终端反馈的原始语音和目标语言类型之前,或获取翻译终端反馈的翻译语音和翻译语言的语言类型之前,还包括:获取通过接入终端反馈的用户选取的会场角色;其中会场角色包括参会者角色、翻译员角色和/或监督员角色,参会者角色对应的接入终端为会议终端,翻译员角色对应的接入终端为翻译终端,监督员角色对应的接入终端为监会终端。
在一种可能的设计中,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。
在一种可能的设计中,云视频会议平台获取会议终端反馈的原始语音和目标语言类型,包括:云视频会议平台与多个会议终端建立多个原始语音传输通道,获取多个会议终端的目标语言类型;并通过至少一个原始语音通道接收该原始语音传输通道对应的会议终端采集的原始语音;获取翻译终端反馈的翻译语音和该翻译语言的语言类型,包括:云视频会议平台与翻译终端建立至少一个翻译语音传输通道,接收至少一种语言类型的翻译语音以及该翻译语言对应的语言类型。
在一种可能的设计中,翻译语音的语言类型为多种,并且目标语言类型为多种,则根据翻译语音的语言类型对翻译语音和原始语音进行混音处理,得到相应语言类型的同传语音,包括:将多种语言类型的多个翻译语音和原始语音进行混音处理,得到多种语言类型的同传语音,其中混音处理后相应语言类型的同传语音包括用于第一声道单独播放的原始语音、以及用于第二声道单独播放的该相应语言类型的翻译语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端,包括:云视频会议平台与以多个语言类型为目标语言类型的会议终端建立多个同传语音传输通道;并通过多个同传语音传输通道将多种语言类型的同传语音,分别输出至以多种语言类型中的相应语言类型为目标语言类型的会议终端。
在一种可能的设计中,翻译终端包括以下之一或组合:具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在一种可能的设计中,会场终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在一种可能的设计中,接入终端反馈的会场角色为监督员角色,且监督员角色对应的接入终端为监会终端,则还包括:云视频会议平台获取该监会终端反馈的监督语言类型;将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的多个翻译终端标识输出至该监会终端,其中翻译终端标识与翻译语音一一关联;获取该监会终端反馈的切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;根据该监会终端反馈的切换指令从该监督语言类型对应的多个翻译语音通道中选取该关联的翻译终端标识对应的翻译语音传输通道,作为监督员指定的翻译语音传输通道。
在一种可能的设计中,监会终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备。
在一种可能的设计中,原始语音的语言类型为原始语言类型,并且目标语言类型与原始语言类型一致,则方法还包括:将原始语音传输至以该原始语言类型为目标语言类型的会议终端。
在一种可能的设计中,将原始语音传输至以该原始语言类型为目标语言类型的会议终端,具体包括:云视频会议平台与以该原始语言类型为目标语言类型的会议终端建立原始语音传输通道,并输出原始语音。
在一种可能的设计中,接入终端为异地远程通信的方式接入的终端。
在一种可能的设计中,云视频会议平台支持为接入终端提供异地远程的同声传译视频会议服务。
在一种可能的设计中,云视频会议平台支持为接入终端提供多会场同步的同声传译视频会议服务。
在本发明实施方式的第二方面中,提供了一种支持同声传译的云视频会议平台,云视频会议平台应用于云端交互系统,其中云端交互系统还包括多台接入终端,所述接入终端包括翻译终端、会议终端和/或监会终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据,云视频会议平台包括:
传输单元,被配置为获取会议终端反馈的原始语音和目标语言类型;获取翻译终端反馈的翻译语音和翻译语言的语言类型,翻译语音是由翻译终端采集的对原始语音翻译得到的;
语音处理单元,被配置为根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音;
传输单元,还被配置为将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
其中,云视频会议平台并行接入多台翻译终端和/或多台会议终端。
在一种可能的设计中,还包括会场角色获取单元,被配置为:在传输单元获取会议终端反馈的原始语音和目标语言类型之前,或获取翻译终端反馈的翻译语音和翻译语言的语言类型之前,获取通过接入终端反馈的用户选取的会场角色;其中会场角色包括参会者角色、翻译员角色和/或监督员角色,参会者角色对应的接入终端为会议终端,翻译员角色对应的接入终端为翻译终端,监督员角色对应的接入终端为监会终端。
在一种可能的设计中,原始语音的语言类型为原始语言类型;语音处理单元,还被配置为对原始语音进行混音处理,得到原始语言类型的原始语音;传输单元,还被配置为将原始语音传输至以该原始语言类型为目标语言类型的会议终端。
在一种可能的设计中,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。
在一种可能的设计中,传输单元在获取会议终端反馈的原始语音和目标语言类型时,具体用于:与多个会议终端建立多个原始语音传输通道,获取多个会议终端的目标语言类型;并通过至少一个原始语音通道接收该原始语音传输通道对应的会议终端采集的原始语音;传输单元在获取翻译终端反馈的翻译语音和翻译语言的语言类型时,具体用于:与翻译终端建立至少一个翻译语音传输通道,接收至少一种语言类型的翻译语音以及该翻译语言对应的语言类型。
在一种可能的设计中,翻译语音的语言类型为多种,并且目标语言类型为多种,则语音处理单元在根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音时,具体用于:将多种语言类型的多个翻译语音和原始语音进行混音处理,得到多种语言类型的同传语音,其中混音处理后相应语言类型的同传语音包括用于第一声道单独播放的所述原始语音、以及用于第二声道单独播放的该相应语言类型的翻译语音;传输单元在将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端时,具体用于:与以多个语言类型为目标语言类型的会议终端建立多个同传语音传输通道;并通过多个同传语音传输通道将多种语言类型的同传语音,分别输出至以多种语言类型中的相应语言类型为目标语言类型的会议终端。
在一种可能的设计中,接入终端反馈的会场角色为监督员角色,且监督员角色对应的接入终端为监会终端,则传输单元还用于:获取该监会终端反馈的监督语言类型;将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的翻译终端标识输出至该监会终端,其中翻译终端标识与翻译语音一一关联;获取该监会终端反馈的切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;根据该监会终端反馈的切换指令从该监督语言类型对应的多个翻译语音通道中选取该关联的翻译终端标识对应的翻译语音传输通道,作为监督员指定的翻译语音传输通道。
在一种可能的设计中,原始语音的语言类型为原始语言类型,并且目标语言类型与原始语言类型一致,则传输单元,还被配置为将原始语音传输至以该原始语言类型为目标语言类型的会议终端。
在一种可能的设计中,传输单元将原始语音传输至以该原始语言类型为目标语言类型的会议终端时,具体用于:与以该原始语言类型为目标语言类型的会议终端建立原始语音传输通道,输出原始语音。
在本发明实施方式的第三方面中,提供了一种支持同声传译的翻译终端,翻译终端用于执行如第一方面中的方法,翻译终端应用于云端交互系统,其中云端交互系统包括云视频会议平台、翻译终端和会议终端,翻译终端包括
收发单元,被配置为接收云视频会议平台输出的原始语音;
采集单元,被配置为采集对原始语音进行翻译得到的翻译语音;
收发单元,还被配置为向云视频会议平台反馈翻译语音和该翻译语言的语言类型;
其中,对应于多种语言类型的多台翻译终端并行接入云视频会议平台。
在一种可能的设计中,收发单元在向云视频会议平台反馈翻译语音时,具体用于:与云视频会议平台建立多个翻译语音传输通道,并输出多种语言类型的翻译语音以及翻译语言对应的语言类型。
在一种可能的设计中,翻译终端包括以下之一或组合:具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在本发明实施方式的第四方面中,提供了一种支持同声传译的会议终端,会议终端用于执行如第一方面的方法,会议终端应用于云端交互系统,其中云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,会议终端从云视频会议平台中获取视频会议的媒体流数据,会议终端包括
采集单元,被配置为采集用户反馈的目标语言类型和原始语音;
收发单元,被配置为向云视频会议平台反馈目标语言类型和原始语音;接收云视频会议平台输出的目标语言类型对应的同传语音;
其中,对应于多种目标语言类型的多台会议终端并行接入云视频会议平台。
在一种可能的设计中,原始语音的语言类型为原始语言类型,并且目标语言类型与原始语言类型一致,则接收云视频会议平台输出的原始语音,原始语音是对原始语音进行混音处理得到的。
在一种可能的设计中,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。
在一种可能的设计中,翻译语音的语言类型为多种,并且目标语言类型为多种,则收发单元在接收云视频会议平台输出的目标语言类型对应的同传语音时,具体用于:以多个语言类型为目标语言类型的会议终端与云视频会议平台建立多个同传语音传输通道;并通过多个同传语音传输通道分别接收多种语言类型的同传语音。
在一种可能的设计中,会场终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在本发明实施方式的第五方面中,提供了一种支持同声传译的监会终端,该监会终端用于执行如第一方面提供的方法,监会终端应用于云端交互系统,其中云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,监会终端包括
收发单元,被配置为接收云视频会议平台输出的原始语音;向云视频会议平台反馈用户通过该监会终端选取的监督语言类型;获取通过该监督语言类型对应的多个翻译语音传输通道输出的多个翻译语音以及关联的多个翻译终端标识;
监控单元,被配置为基于多个翻译语音以及关联的多个翻译终端标识生成切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
收发单元,还被配置为向云视频会议平台反馈切换指令;
其中,监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
在一种可能的设计中,监会终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备。
在本发明实施方式的第六方面中,提供了一种支持同声传译的云视频会议系统,云视频会议系统包括云视频会议平台、以及并行接入云视频会议平台的多个接入终端,这多个接入终端包括多个翻译终端、多个会议终端和/或多个监会终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据;其中
会议终端,被配置为向云视频会议平台反馈目标语言类型和原始语音;
翻译终端,被配置为接收云视频会议平台输出的原始语音;采集对原始语音进行翻译得到的翻译语音;向云视频会议平台反馈翻译语音和翻译语言的语言类型;
监会终端,被配置为向云视频会议平台反馈用户通过该监会终端选取的监督语言类型;获取通过该监督语言类型对应的多个翻译语音传输通道输出的多个翻译语音以及关联的多个翻译终端标识;基于多个翻译语音以及关联的多个翻译终端标识生成切换指令并反馈至云视频会议平台,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
云视频会议平台,被配置为根据翻译语音的语言类型对监会终端指定的翻译语音和原始语音进行处理,得到相应语言类型的同传语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端。
在一种可能的设计中,会场终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在一种可能的设计中,翻译终端包括以下之一或组合:具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
在一种可能的设计中,监会终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备。
在本发明实施方式的第七方面中,提供了一种介质,该介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行第一方面中任一实施例的方法。
在本发明实施方式的第八方面中,提供了一种计算设备,包括处理单元、存储器以及输入/输出(In/Out,I/O)接口;存储器,用于存储处理单元执行的程序或指令;处理单元,用于根据存储器存储的程序或指令,执行第一方面中任一实施例的方法;I/O接口,用于在处理单元的控制下接收或发送数据。
本发明的实施方式提供的技术方案,基于并行接入云视频会议平台的翻译终端反馈的多种语言类型的翻译语音,可以为接入该云视频会议平台的多台会议终端提供相应语言类型的同传语音,同时还可以由云视频会议平台为会议终端提供视频会议的媒体流数据,从而实现支持多种语言类型同声传译的云视频会议,提高了同声传译系统和云视频会议系统的融合性;尤其是,实现了基于云服务的异地远程的同声传译,进而改善了多会场下的异地云视频会议中的用户体验。上述技术方案不仅有助于避免目前由于视频会议系统和各会场同声传译系统均需单独部署而造成的系统部署复杂、实现难度大、成本高的问题,还使得同一会议中同声传译的语言类型数量不受系统的限制,提升用户会议体验。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1A示意性地示出了根据本发明实施方式的一种云视频会议系统的结构示意图;
图1B示意性地示出了根据本发明实施方式的另一种云视频会议系统的结构示意图;
图2示意性地示出了根据本发明实施例的一种云视频会议方法的流程示意图;
图3示意性地示出了根据本发明实施方式的一种云视频会议场景的结构示意图;
图4示意性地示出了根据本发明实施方式的再一种云视频会议场景的结构示意图;
图5A示意性地示出了根据本发明实施方式的一种云视频会议平台的结构示意图;
图5B示意性地示出了根据本发明实施方式的一种翻译终端的结构示意图;
图5C示意性地示出了根据本发明实施方式的一种会议终端的结构示意图;
图5D示意性地示出了根据本发明实施方式的一种监会终端的结构示意图;
图6示意性地示出了根据本发明实施例的一种介质的结构示意图;
图7示意性地示出了根据本发明实施例的一种计算设备的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种支持同声传译的云视频会议方法、装置、系统、介质和计算设备。
本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,目前客服获取方案存在操作复杂化、及时性不够、维护成本高等问题,影响用户体验。
为了克服技术存在的问题,本发明中提出了一种支持同声传译的云视频会议方法、装置、系统、介质和计算设备。该方法应用于云端交互系统,其中云端交互系统包括云视频会议平台、翻译终端和会议终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据,该方法包括:云视频会议平台获取会议终端反馈的原始语音和目标语言类型;获取翻译终端反馈的翻译语音,翻译语音是由翻译终端采集的对原始语音翻译得到的;根据翻译语音的语言类型对翻译语音和原始语音进行混音处理,得到相应语言类型的同传语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;其中,多台翻译终端和/或多台会议终端并行接入云视频会议平台。
本发明的实施方式提供的支持同声传译的云视频会议方法,通过并行接入云视频会议平台的翻译终端反馈的多种语言类型的翻译语音,可以为接入该云视频会议平台的多台会议终端提供相应语言类型的同传语音,同时还可以由云视频会议平台为会议终端提供视频会议的媒体流数据,从而实现支持多种语言类型同声传译的云视频会议,提高了同声传译系统和云视频会议系统的融合性,降低了异地远程的云视频会议系统部署的复杂度和成本,并且还实现了基于云服务的异地远程的同声传译,改善了多会场下的异地云视频会议中的用户体验。并且,该云视频会议方法还使得同一会议中同声传译的语言类型数量不受系统的限制,提升用户会议体验。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
本发明实施例可以应用于多台终端之间的媒体流传输场景,其中媒体流包括但不限于音频、图像、视频、文本。本发明实施例涉及的媒体流传输场景可以是云视频会议系统中同声传译语音的传输场景,比如多个会场之间的同声传译语音的传输场景;本发明实施例涉及的媒体流传输场景也可以是多方协同情境下多语种语音的传输场景,比如远程医疗手术情境下的多语种语音传输场景,多国协同救援情境下的多语种语音传输场景。当前,本发明实施例涉及的媒体流传输场景并不限定于上述举例的场景。
本发明实施例适用的云端交互系统至少包括云视频会议平台、翻译终端和会议终端,如图1A所示,其中翻译终端和会议终端的设备类型和数量仅为示例。图1A示出的云端交互系统中,云视频会议平台接收会议终端的原始语音和目标语言类型后,将原始语音发送给该目标语言类型对应的翻译终端。在翻译终端对原始语音进行翻译得到翻译语音之后,云视频会议平台接收该翻译语音,对翻译语音和原始语音进行混音处理得到同传语音,并输出至会议终端。需要注意的是,本发明实施例并不限定翻译终端和会议终端的设备类型,也不限定翻译终端和会议终端的数量。
示例性的,本发明实施例提供了一种支持同声传译的云视频会议系统,云视频会议系统包括云视频会议平台、以及并行接入云视频会议平台的多个接入终端包括多个翻译终端和多个会议终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据。其中,会议终端,被配置为向云视频会议平台反馈目标语言类型和原始语音;翻译终端,被配置为接收云视频会议平台输出的原始语音;采集对原始语音进行翻译得到的翻译语音;向云视频会议平台反馈翻译语音和翻译语音的语言类型;云视频会议平台,被配置为根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音;将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端。进一步的,会场终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。进一步的,翻译终端包括以下之一或组合:具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
图1B示出的再一种支持同声传译的云视频会议系统,在上文云视频会议系统的基础上,该云端交互系统中,参会者分别通过主会场、以及异地远程的各个分会场(如分会场1和分会场2)中的会议终端接入云视频会议平台,会场终端包括硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端;翻译员通过异地远程的各个翻译会场中的翻译终端接入该云视频会议平台。参会者和翻译员接入该云视频会议平台后,向该云视频会议平台反馈自身的会场角色。进一步的,监督员通过监会场1中的监会终端接入该云视频会议平台,向该云视频会议平台反馈自身选取的监督员角色,以便执行监督员角色对应的操作,即对相应的监督语言类型的多个翻译终端进行监控,从而为以该监督语言类型为目标语言类型的会议终端指定相应的翻译语音,提升翻译质量,改善用户体验;例如监督员通过监会终端对翻译质量不符合要求的当前翻译语音进行静音,将为用户提供的翻译语音切换为同一语言类型的质量符合要求的翻译语音。通过该云端交互系统实现了支持多种语言类型同声传译的异地远程云视频会议,提升了用户参会体验,降低了异地远程会议系统的部署成本、以及维护、运营成本。
云视频会议平台是基于云计算平台实现的,并且不需要单独占用任意一台主机或者任意一台专用设备,通过互联网即可与会议终端、翻译终端交互。需要说明的是,云视频会议平台不仅可以用于对翻译终端的即时接入互动进行管理,还可以用于通过参会者的会议终端或用户设备,实现对会议终端或用户设备对应的视频语音的即时接入互动进行管理。云视频会议平台还可以为接入该云视频会议平台的会议终端提供视频会议的媒体流数据,从而实现云视频会议的功能,比如为分会场的会议终端提供主会场的视频画面,比如为所有会议终端同步共享当前发言者的会议终端的界面,或当前会议终端展示的媒体流数据。需要说明的是,本发明实施例并不限定涉及的任一终端为异地远程终端,或为本地终端。
会议终端可以为参会方侧的具有通信功能与拍摄功能的移动终端;例如,会议终端可以包括能够进行语音和/或视频通讯的智能移动终端(例如手机、智能手表等)、智能监控设备、智能家居设备、平板电脑、MP4、MP3、PC、可穿戴设备、头戴显示设备以及适用于该云端交互系统的硬件终端等终端。
翻译终端可以为服务方侧的具有通信功能与拍摄功能的移动终端;例如,翻译终端可以包括能够进行语音通讯的智能移动终端(例如手机、智能手表等)、智能监控设备、智能家居设备、平板电脑、MP4、MP3、PC、可穿戴设备、头戴显示设备以及适用于该云端交互系统的硬件终端等终端等终端。尤其需要理解的是,同一客服终端可以同时与多个用户进行视频通信、语音通信或其他形式的通信。此情况下,根据不同用户的接入需求,可以为用户切换不同的接入方式。
可以理解的是,为了便于现有同声传译系统的改造,降低云端交互系统的部署成本,翻译终端和会议终端还可以是具有接入现有同声传译系统功能、同时支持该云端交互系统的电子设备。需说明的是,实际应用中远端交互系统的名称也不限定,例如可以是云视频会议系统、视频会议系统、远程医疗会议系统、多方会议系统等。本发明实施例中,同一电子设备在云端交互系统中既可以作为翻译终端也可以作为会议终端。例如,在云视频会议平台、以及接入该云视频会议平台的智能监控设备与平板电脑组成的云端交互系统中,平板电脑可以作为翻译终端,智能监控设备可以作为会议终端;在云视频会议平台、以及接入该云视频会议平台的智能手机与智能监控设备组成的云端交互系统中,智能监控设备可以作为翻译终端,智能手机可以作为会议终端。
示例性方法
下面结合应用场景,参考附图来描述根据本发明示例性实施方式的用于云视频会议方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
本发明实施例提供了一种支持同声传译的云视频会议方法,如图2所示,该方法应用于云端交互系统,其中云端交互系统包括云视频会议平台以及接入终端,该接入终端包括翻译终端、会议终端和/或监会终端,该云视频会议平台用于为会议终端提供视频会议的媒体流数据,该方法包括:
S201、获取会议终端反馈的原始语音和目标语言类型;
S202、获取翻译终端反馈的翻译语音和翻译语音的语言类型;
S203、根据翻译语音的语言类型对翻译语音和原始语音进行混音处理,得到相应语言类型的同传语音;
S204、将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
其中,多台翻译终端和/或多台会议终端并行接入云视频会议平台;监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
图2示出的云视频会议方法,通过并行接入云视频会议平台的翻译终端反馈的多种语言类型的翻译语音,可以为接入该云视频会议平台的多台会议终端提供相应语言类型的同传语音,同时还可以由云视频会议平台为会议终端提供视频会议的媒体流数据,从而实现支持多种语言类型同声传译的云视频会议,同声传译系统和云视频会议系统的融合性,降低了异地远程的云视频会议系统部署的复杂度和成本,并且还实现了基于云服务的异地远程的同声传译,改善了多会场下的异地云视频会议中的用户体验。并且,该云视频会议方法还使得同一会议中同声传译的语言类型数量不受系统的限制,提升用户会议体验。
本发明实施例中,监会终端、多台翻译终端和/或多台会议终端均可以为异地远程终端,从而云视频会议系统可以为这些异地远程终端提供云视频会议服务以及相应的同声传译服务。
本发明提供的一种支持同声传译的云视频会议方法的一种实施例中,方法可以包括:
S201、获取会议终端反馈的原始语音和目标语言类型;
在本实施方式中,会场终端包括但不限于具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端中之一或组合。
云视频会议平台获取会议终端反馈的原始语音和目标语言类型之前,云视频会议平台还可以获取会议终端反馈的用户选取的会场角色,其中会场角色用以辅助云视频会议平台为会议终端建立或切换对应的传输通道。例如会场角色包括主持人、参会者等。
在S201之前、之后,或在S201执行的同时,会议终端还通过音频采集模块对该会议终端对应用户发言时的原始语音进行采集。比如,会议终端通过设备内置的麦克风对该会议终端对应用户发言时的原始语音进行录制。可选的,原始语音的语言类型为原始语言类型。
S201的一种实现方式中,云视频会议平台接收当前发言者通过会议终端反馈的原始语音,并接收当前接入的会议终端反馈的用户选取的目标语言类型。具体为,在多台翻译终端和/或多台会议终端并行接入云视频会议平台的情况下,云视频会议平台与多个会议终端建立多个原始语音传输通道,获取多个会议终端的目标语言类型,并通过至少一个原始语音通道接收该原始语音传输通道对应的会议终端采集的原始语音。
在S201之前、之后,或在S201执行的同时,执行S202,获取翻译终端反馈的翻译语音和翻译语音的语言类型;
在本实施方式中,翻译终端包括但不限于具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端中的之一或组合。
翻译语音是由翻译终端采集的对原始语音翻译得到的。在S202之前、之后,或在S202执行的同时,一个可能的实施例中,翻译终端还通过音频采集模块对翻译员基于原始语音所得到的翻译语音进行采集。比如,翻译终端通过设备内置的麦克风对该会议终端对翻译员基于原始语音所得到的翻译语音进行录制。另一个可能的实施例中,翻译终端还采集并存储通过自动翻译模块基于原始语音生成的翻译语音,如自动翻译模块可以是经由相关深度学习算法训练出的用于语音翻译的网络模型。
S202的一种实现方式中,云视频会议平台接收翻译终端反馈的翻译语音和翻译语音的语言类型。具体为,在多台翻译终端和/或多台会议终端并行接入云视频会议平台的情况下,云视频会议平台与翻译终端建立至少一个翻译语音传输通道,接收至少一种语言类型的翻译语音。
在S201或S202之前,云视频会议平台还可以获取接入终端反馈的会场角色,该会场角色为用户选取的,其中会场角色包括参会者角色、翻译员角色和/或监督员角色,参会者角色对应的接入终端为会议终端,翻译员角色对应的接入终端为翻译终端,监督员角色对应的接入终端为监会终端。
例如一种可能的实施例中,接入终端反馈的会场角色为监督员角色,且监督员角色对应的接入终端为监会终端,则云视频会议平台还可以获取该监会终端反馈的监督语言类型,将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的多个翻译终端标识输出至该监会终端,其中翻译终端标识与翻译语音一一关联;进一步的,翻译终端标识可以是翻译终端对应的终端号或翻译员的姓名或编号。云视频会议平台还会获取该监会终端反馈的切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;根据该监会终端反馈的切换指令从该监督语言类型对应的多个翻译语音通道中选取该关联的翻译终端标识对应的翻译语音传输通道,作为监督员指定的翻译语音传输通道。
具体的,在云视频会议平台获取多个翻译终端反馈的对应于同一语言类型的多个翻译语音之后,将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的多个翻译终端标识输出至该对应于监督员角色的监会终端。进一步的,若多个翻译语音中至少一个翻译语音的内容存在偏差或语音质量较差,则此情况下监会终端将这至少一个翻译语音对应的翻译终端设置为静音,或将这至少一个翻译语音对应的翻译终端设置为离开会议,并基于上述设置信息生成切换指令;云视频会议平台根据该监会终端反馈的切换指令将该切换指令携带的翻译终端标识所关联的翻译语音传输通道,作为监督员指定的翻译语音传输通道,以便提升同传语音的翻译质量。
进一步的,为了便于监督员对多个翻译终端进行监控,可以通过监会终端内的至少两个声道为监督员分别播放原始语音、以及多个翻译终端对应的翻译语音,这至少两个声道的播放状态(例如播放音量)由监督员自由调整。以通过右声道播放多个翻译终端对应的多个翻译语音为例,每次单独播放一个翻译终端对应的翻译语音,并由监督员指示对这多个翻译语音进行周期性切换或自定义切换。
在本实施方式中,监会终端包括但不限于具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备中的之一或组合。
在获取翻译语音之后,执行S203,根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音;
本步骤的一个实施例中,云视频会议平台基于获取到的至少一种语言类型,对该至少一种语言类型相应的翻译语音和原始语音进行混音处理,得到对应于该至少一种语言类型的同传语音。具体的,翻译语音的语言类型为多种,并且目标语言类型为多种的情况下,分别将多种语言类型的多个翻译语音和这多个翻译语音对应的同一原始语音进行混音处理,得到多种语言类型的同传语音。进一步的,混音处理后相应语言类型的同传语音包括用于第一声道单独播放的原始语音、以及用于第二声道单独播放的该相应语言类型的翻译语音。在会议终端反馈的目标语言类型与原始语言类型不一致的情况下,经过混音处理后,同传语音包含至少两个声道的音频数据,以便用户对同传语音的播放状态(例如播放音量)进行灵活调整,提升用户参会体验。例如对应于右声道的目标语言类型的音频数据,以及对应于左声道的原始语言类型的音频数据。
在得到相应语言类型的同传语音之后,执行S204,将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
本步骤的一个实施例中,若会议终端的目标语言类型与原始语言类型不一致,则S204中,将目标语言类型的同传语音输出至以该语言类型为目标语言类型的会议终端。具体为,云视频会议平台与以多个语言类型为目标语言类型的会议终端建立多个同传语音传输通道,并通过多个同传语音传输通道将多种语言类型的同传语音,分别输出至以多种语言类型中的相应语言类型为目标语言类型的会议终端。
若目标语言类型与原始语言类型一致,则云视频会议平台还可以对原始语音进行混音处理得到原始语言类型的原始语音,将原始语音传输至以该原始语言类型为目标语言类型的会议终端。具体为,将原始语音传输至以该原始语言类型为目标语言类型的会议终端的一种实现方式可以是,云视频会议平台与以该原始语言类型为目标语言类型的会议终端建立原始语音传输通道,并输出原始语音。进一步的,为了免去部分参会者选取语言类型的操作,简化系统配置,则当会场角色为主持人,或会场角色为主会场的参会者时,优先为对应这些会场角色的会议终端输出原始语言类型的原始语音。
在S204之后,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。例如不同音频播放模块为耳机的左、右声道,或音响的左、右声道。具体的,对照于S203中的混音处理,会议终端为采用双声道耳机作为音频播放模块的终端设备,则通过该终端设备配置的右声道耳机播放同传语音中的翻译语音,并通过左声道耳机播放同传语音中的原始语音。通过单独调整双声道耳机内各声道的播放状态,用户可体验灵活的收听效果。
举例说明
下面以图3和图4示出的云视频会议为例,说明上文描述的图2示出的云视频会议方法的各个步骤。其中,会议终端包括硬件终端、安装有音频采集/播放应用的移动终端、安装有音频采集/播放客户端的电脑,翻译终端包括与传统同声传译系统连接的硬件终端、未与传统同声传译系统连接的硬件终端、安装有音频采集/播放应用的移动终端、安装有音频采集/播放客户端的电脑,监会终端包括具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备。
图3示出了云视频会议中未接入同声传译语音情况下的会议场景。在云视频会议中的同传语音接入之前,主会场以及各分会场中参会者选取目标语言类型,并由对应的终端设备反馈至云视频会议平台。以当前发言参会者为主会场的参会者为例,主会场硬件终端采集当前发音参会者的音频数据作为原始语音,并将该原始语音传输至云视频会议平台,由云视频会议平台将原始语音发送给接入该云视频会议平台的各个翻译终端和各个会议终端。在翻译场景1至4中,多个翻译员预先选取各自翻译的相应语言类型,并通过各自对应的翻译终端接收原始语音。进一步的,在监会场1中监督员选取监督语言类型,并通过对应的监会终端接收原始语音。
图4示出了云视频会议中接入同声传译语音情况下的会议场景。多个翻译员预先选取翻译的相应语言类型,在通过各自对应的翻译终端接收原始语音后,这多个翻译员对原始语音进行翻译得到相应语言类型的翻译语音,并由翻译终端反馈至云视频会议平台。可选的,翻译场景2中当同一语言类型的翻译语音是由多个翻译员得到的多个翻译语音时,监会场1中的监督员获取原始语音和多个翻译语音,并基于多个翻译语音生成切换指令,从而选取出翻译质量最高的翻译语音,并将翻译质量较差的翻译语音设置为静音,以实现对目标翻译终端的监督。云视频会议平台对翻译语音和原始语音进行混音处理得到相应语言类型的同传语音。以分会场1和分会场2为例,若参会者选取的目标语言类型与原始语言类型不一致,则云视频会议平台将同传语音传输至以相应语言类型为目标语言类型的会议终端。以主会场和分会场3为例,若参会者选取的目标语言类型与原始语言类型一致,则云视频会议平台还会对原始语音进行混音处理得到原始语言类型的原始语音,将原始语音传输至以该原始语言类型为目标语言类型的会议终端。
图2示出的云视频会议方法,通过并行接入云视频会议平台的翻译终端反馈的多种语言类型的翻译语音,可以为接入该云视频会议平台的多台会议终端提供相应语言类型的同传语音,同时还可以由云视频会议平台为会议终端提供视频会议的媒体流数据,从而实现支持多种语言类型同声传译的云视频会议。该云视频会议方法不仅提高了同声传译系统和云视频会议系统的融合性,降低了异地远程的云视频会议系统部署的复杂度和成本,并且还实现了基于云服务的异地远程的同声传译,改善了多会场下的异地云视频会议中的用户体验。此外,还使得同一会议中同声传译的语言类型数量不受系统的限制,提升用户会议体验。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,介绍本发明提供了示例性实施的装置。本发明提供的以下几种示例性装置可以实现图2对应的实施例提供的方法中任一项执行的方法。
参见图5A示出的支持同声传译的云视频会议平台,该云视频会议平台应用于云端交互系统,其中云端交互系统还包括接入终端,接入终端包括翻译终端、会议终端和/或监会终端,云视频会议平台用于为会议终端提供视频会议的媒体流数据。该云视频会议平台至少包括:
传输单元501,被配置为获取会议终端反馈的原始语音和目标语言类型;获取翻译终端反馈的翻译语音和翻译语音的语言类型,翻译语音是由翻译终端采集的对原始语音翻译得到的;
语音处理单元502,被配置为根据翻译语音的语言类型对翻译语音和原始语音进行混音处理,得到相应语言类型的同传语音;
传输单元501,还被配置为将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
其中,云视频会议平台并行接入多台翻译终端和/或多台会议终端。
可选的,还包括会场角色获取单元,被配置为:在传输单元获取会议终端反馈的原始语音和目标语言类型之前,或获取翻译终端反馈的翻译语音和翻译语言的语言类型之前,获取通过接入终端反馈的用户选取的会场角色;其中会场角色包括参会者角色、翻译员角色和/或监督员角色,参会者角色对应的接入终端为会议终端,翻译员角色对应的接入终端为翻译终端,监督员角色对应的接入终端为监会终端。
可选的,原始语音的语言类型为原始语言类型;语音处理单元502,还被配置为对原始语音进行混音处理,得到原始语言类型的原始语音;传输单元501,还被配置为将原始语音传输至以该原始语言类型为目标语言类型的会议终端。
可选的,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。
可选的,传输单元501在获取会议终端反馈的原始语音和目标语言类型时,具体用于:与多个会议终端建立多个原始语音传输通道,获取多个会议终端的目标语言类型;并通过至少一个原始语音通道接收该原始语音传输通道对应的会议终端采集的原始语音;传输单元501在获取翻译终端反馈的翻译语音和翻译语音的语言类型时,具体用于:与翻译终端建立至少一个翻译语音传输通道,接收至少一种语言类型的翻译语音以及该翻译语言对应的语言类型。
可选的,翻译语音的语言类型为多种,并且目标语言类型为多种,则语音处理单元502在根据翻译语音的语言类型对翻译语音和原始语音进行处理,得到相应语言类型的同传语音时,具体用于:将多种语言类型的多个翻译语音和原始语音进行混音处理,得到多种语言类型的同传语音,其中混音处理后相应语言类型的同传语音包括用于第一声道单独播放的所述原始语音、以及用于第二声道单独播放的该相应语言类型的翻译语音;传输单元501在将相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端时,具体用于:与以多个语言类型为目标语言类型的会议终端建立多个同传语音传输通道;并通过多个同传语音传输通道将多种语言类型的同传语音,分别输出至以多种语言类型中的相应语言类型为目标语言类型的会议终端。
可选的,接入终端反馈的会场角色为监督员角色,且监督员角色对应的接入终端为监会终端,则传输单元501还用于:获取该监会终端反馈的监督语言类型;将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的翻译终端标识输出至该监会终端,其中翻译终端标识与翻译语音一一关联;获取该监会终端反馈的切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;根据该监会终端反馈的切换指令从该监督语言类型对应的多个翻译语音通道中选取该关联的翻译终端标识对应的翻译语音传输通道,作为监督员指定的翻译语音传输通道。
可选的,原始语音的语言类型为原始语言类型,并且目标语言类型与原始语言类型一致,则传输单元501将原始语音传输至以该原始语言类型为目标语言类型的会议终端时,具体用于:与以该原始语言类型为目标语言类型的会议终端建立原始语音传输通道,并输出原始语音。
参见图5B示出的支持同声传译的翻译终端,该翻译终端应用于云端交互系统,其中云端交互系统还包括云视频会议平台、会议终端和/或监会终端,该翻译终端至少包括:
收发单元503,被配置为接收云视频会议平台输出的原始语音;
采集单元504,被配置为采集对原始语音进行翻译得到的翻译语音;
收发单元503,还被配置为向云视频会议平台反馈翻译语音和该翻译语言的语言类型;
其中,对应于多种语言类型的多台翻译终端并行接入云视频会议平台。
可选的,收发单元503在向云视频会议平台反馈翻译语音时,具体用于:与云视频会议平台建立多个翻译语音传输通道,并输出多种语言类型的翻译语音以及翻译语言对应的语言类型。
可选的,翻译终端包括以下之一或组合:具有音频采集功能的专用硬件终端、用于接入传统同声传译设备的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
参见图5C示出的支持同声传译的会议终端,该会议终端应用于云端交互系统,其中云端交互系统还包括云视频会议平台、翻译终端和/或监会终端,该会议终端从云视频会议平台中获取视频会议的媒体流数据,该会议终端至少包括:
采集单元505,被配置为采集用户反馈的目标语言类型和原始语音;
收发单元506,被配置为向云视频会议平台反馈目标语言类型和原始语音;接收云视频会议平台输出的目标语言类型对应的同传语音;
其中,对应于多种目标语言类型的多台会议终端并行接入云视频会议平台。
可选的,原始语音的语言类型为原始语言类型,并且目标语言类型与原始语言类型一致,则接收云视频会议平台输出的原始语音,原始语音是对原始语音进行混音处理得到的。
可选的,通过会议终端配置的不同音频播放模块对同传语音中的翻译语音和/或原始语音进行播放。
可选的,翻译语音的语言类型为多种,并且目标语言类型为多种,则收发单元506在接收云视频会议平台输出的目标语言类型对应的同传语音时,具体用于:以多个语言类型为目标语言类型的会议终端与云视频会议平台建立多个同传语音传输通道;并通过多个同传语音传输通道分别接收多种语言类型的同传语音。
可选的,会场终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端。
参见图5D示出的支持同声传译的监会终端,该监会终端应用于云端交互系统,其中云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,监会终端包括
收发单元507,被配置为接收云视频会议平台输出的原始语音;向云视频会议平台反馈用户通过该监会终端选取的监督语言类型;获取通过该监督语言类型对应的多个翻译语音传输通道输出的多个翻译语音以及关联的多个翻译终端标识;
监控单元508,被配置为基于多个翻译语音以及关联的多个翻译终端标识生成切换指令,其中切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
收发单元507,还被配置为向云视频会议平台反馈切换指令;
其中,监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
可选的,监会终端包括以下之一或组合:具有音频采集功能的硬件终端、搭载于移动终端的音频采集应用、搭载于用户设备的音频采集客户端、具有对翻译硬件终端、移动终端及客户端的音频输出控制功能的终端设备。
示例性介质
在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图6,本发明提供了一种示例性介质,该介质存储有计算机可执行指令,该计算机可执行指令可用于使所述计算机执行图2对应的本发明示例性实施方式中任一项所述的方法。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图7,介绍本发明提供的一种示例性计算设备70,该计算设备70包括处理单元701、存储器702、总线703、外部设备704、I/O接口705以及网络适配器706,该存储器702包括随机存取存储器(random access memory,RAM)7021、高速缓存存储器7022、只读存储器(Read-OnlyMemory,ROM)7023以及至少一片存储单元7024构成的存储单元阵列7025。其中该存储器702,用于存储处理单元701执行的程序或指令;该处理单元701,用于根据该存储器702存储的程序或指令,执行图2对应的本发明示例性实施方式中任一项所述的方法;该I/O接口705,用于在该处理单元701的控制下接收或发送数据。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种支持同声传译的云视频会议方法,其特征在于,所述方法应用于云端交互系统,其中所述云端交互系统包括云视频会议平台以及多台接入终端,所述接入终端包括翻译终端、会议终端和/或监会终端,所述云视频会议平台用于为所述会议终端提供视频会议的媒体流数据,所述方法包括:
获取所述会议终端反馈的原始语音和目标语言类型;
获取所述翻译终端反馈的翻译语音和所述翻译语言的语言类型,所述翻译语音是由所述翻译终端采集的对所述原始语音翻译得到的;
根据所述翻译语音的语言类型对所述翻译语音和所述原始语音进行处理,得到相应语言类型的同传语音;
将所述相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
其中,多台翻译终端和/或多台会议终端并行接入所述云视频会议平台;所述监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
2.如权利要求1所述的方法,其中,获取所述会议终端反馈的原始语音和目标语言类型之前,或获取所述翻译终端反馈的翻译语音和所述翻译语言的语言类型之前,还包括:
所述云视频会议平台获取通过所述接入终端反馈的用户选取的会场角色;
其中所述会场角色包括参会者角色、翻译员角色和/或监督员角色,参会者角色对应的接入终端为会议终端,翻译员角色对应的接入终端为翻译终端,监督员角色对应的接入终端为监会终端。
3.如权利要求1至2任一所述的方法,其中,所述云视频会议平台获取所述会议终端反馈的原始语音和目标语言类型,包括:
所述云视频会议平台与多个所述会议终端建立多个原始语音传输通道,获取多个所述会议终端的目标语言类型;并
通过至少一个原始语音通道接收该原始语音传输通道对应的所述会议终端采集的所述原始语音;
获取所述翻译终端反馈的翻译语音和所述翻译语言的语言类型,包括:
所述云视频会议平台与所述翻译终端建立至少一个翻译语音传输通道,接收至少一种语言类型的所述翻译语音以及该翻译语言对应的语言类型。
4.如权利要求3所述的方法,其中,所述翻译语音的语言类型为多种,并且所述目标语言类型为多种,则
所述根据所述翻译语音的语言类型对所述翻译语音和所述原始语音进行处理,得到相应语言类型的同传语音,包括:
将多种语言类型的多个翻译语音和所述原始语音进行混音处理,得到多种语言类型的同传语音,其中混音处理后相应语言类型的同传语音包括用于第一声道单独播放的所述原始语音、以及用于第二声道单独播放的该相应语言类型的翻译语音;
所述将所述相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端,包括:
所述云视频会议平台与以多个语言类型为目标语言类型的会议终端建立多个同传语音传输通道;并
通过多个同传语音传输通道将多种语言类型的同传语音,分别输出至以多种语言类型中的相应语言类型为目标语言类型的会议终端。
5.如权利要求2所述的方法,其中,所述接入终端反馈的会场角色为监督员角色,且监督员角色对应的接入终端为监会终端,则还包括:
所述云视频会议平台获取该监会终端反馈的监督语言类型;
将通过该监督语言类型对应的多个翻译语音传输通道接收的多个翻译语音以及对应的多个翻译终端标识输出至该监会终端,其中翻译终端标识与翻译语音一一关联;
获取该监会终端反馈的切换指令,其中所述切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
根据该监会终端反馈的切换指令从该监督语言类型对应的多个翻译语音通道中选取该关联的翻译终端标识对应的翻译语音传输通道,作为监督员指定的翻译语音传输通道。
6.一种支持同声传译的云视频会议平台,其特征在于,所述云视频会议平台应用于云端交互系统,其中所述云端交互系统还包括多台接入终端,所述接入终端包括翻译终端、会议终端和/或监会终端,所述云视频会议平台用于为所述会议终端提供视频会议的媒体流数据,所述云视频会议平台包括:
传输单元,被配置为获取所述会议终端反馈的原始语音和目标语言类型;获取所述翻译终端反馈的翻译语音和所述翻译语言的语言类型,所述翻译语音是由所述翻译终端采集的对所述原始语音翻译得到的;
语音处理单元,被配置为根据所述翻译语音的语言类型对所述翻译语音和所述原始语音进行处理,得到相应语言类型的同传语音;
所述传输单元,还被配置为将所述相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端;
其中,所述云视频会议平台并行接入多台翻译终端和/或多台会议终端。
7.一种支持同声传译的翻译终端,其特征在于,所述翻译终端用于执行如权利要求1至5任一所述的方法,所述翻译终端应用于云端交互系统,其中所述云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,所述翻译终端包括
收发单元,被配置为接收所述云视频会议平台输出的原始语音;
采集单元,被配置为采集对所述原始语音进行翻译得到的翻译语音;
所述收发单元,还被配置为向所述云视频会议平台反馈所述翻译语音和所述翻译语言的语言类型;
其中,对应于多种语言类型的多台翻译终端并行接入所述云视频会议平台。
8.一种支持同声传译的会议终端,其特征在于,所述会议终端用于执行如权利要求1至5任一所述的方法,所述会议终端应用于云端交互系统,其中所述云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,所述会议终端从所述云视频会议平台中获取视频会议的媒体流数据,所述会议终端包括
采集单元,被配置为采集用户反馈的目标语言类型和原始语音;
收发单元,被配置为向所述云视频会议平台反馈所述目标语言类型和所述原始语音;接收所述云视频会议平台输出的所述目标语言类型对应的同传语音;
其中,对应于多种目标语言类型的多台会议终端并行接入所述云视频会议平台。
9.一种支持同声传译的监会终端,其特征在于,所述监会终端用于执行如权利要求1至5任一所述的方法,所述监会终端应用于云端交互系统,其中所述云端交互系统包括云视频会议平台、翻译终端、会议终端和/或监会终端,所述监会终端包括
收发单元,被配置为接收所述云视频会议平台输出的原始语音;向所述云视频会议平台反馈用户通过该监会终端选取的监督语言类型;获取通过该监督语言类型对应的多个翻译语音传输通道输出的多个翻译语音以及关联的多个翻译终端标识;
监控单元,被配置为基于多个翻译语音以及关联的多个翻译终端标识生成切换指令,其中所述切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
所述收发单元,还被配置为向所述云视频会议平台反馈所述切换指令;
其中,所述监会终端监控对应于相同语言类型的多台翻译终端,并为以该语言类型为目标语言类型的会议终端指定翻译语音。
10.一种支持同声传译的云视频会议系统,其特征在于,所述云视频会议系统包括云视频会议平台、以及并行接入所述云视频会议平台的多个接入终端,所述多个接入终端包括多个翻译终端、多个会议终端和/或多个监会终端,所述云视频会议平台用于为所述会议终端提供视频会议的媒体流数据;其中
所述会议终端,被配置为向所述云视频会议平台反馈所述目标语言类型和所述原始语音;
所述翻译终端,被配置为接收所述云视频会议平台输出的原始语音;采集对所述原始语音进行翻译得到的翻译语音;向所述云视频会议平台反馈所述翻译语音和所述翻译语言的语言类型;
所述监会终端,被配置为向所述云视频会议平台反馈用户通过该监会终端选取的监督语言类型;获取通过该监督语言类型对应的多个翻译语音传输通道输出的多个翻译语音以及关联的多个翻译终端标识;基于多个翻译语音以及关联的多个翻译终端标识生成切换指令并反馈至所述云视频会议平台,其中所述切换指令用于指示为以该监督语言类型为目标语言类型的会议终端指定的翻译语音关联的翻译终端标识;
所述云视频会议平台,被配置为根据所述翻译语音的语言类型对所述监会终端指定的翻译语音和所述原始语音进行处理,得到相应语言类型的同传语音;将所述相应语言类型的同传语音输出至以该相应语言类型为目标语言类型的会议终端。
CN201910461202.9A 2019-05-30 2019-05-30 云视频会议方法、装置、系统、介质和计算设备 Active CN110166729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910461202.9A CN110166729B (zh) 2019-05-30 2019-05-30 云视频会议方法、装置、系统、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910461202.9A CN110166729B (zh) 2019-05-30 2019-05-30 云视频会议方法、装置、系统、介质和计算设备

Publications (2)

Publication Number Publication Date
CN110166729A true CN110166729A (zh) 2019-08-23
CN110166729B CN110166729B (zh) 2021-03-02

Family

ID=67630050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910461202.9A Active CN110166729B (zh) 2019-05-30 2019-05-30 云视频会议方法、装置、系统、介质和计算设备

Country Status (1)

Country Link
CN (1) CN110166729B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639503A (zh) * 2020-05-22 2020-09-08 腾讯科技(深圳)有限公司 会议数据处理方法、装置、存储介质及设备
CN112738446A (zh) * 2020-12-28 2021-04-30 传神语联网网络科技股份有限公司 基于线上会议的同声传译方法及系统
WO2021253402A1 (zh) * 2020-06-19 2021-12-23 深圳市台电实业有限公司 便携式远程同声传译翻译台
CN114554132A (zh) * 2022-02-16 2022-05-27 深圳市台电实业有限公司 远程云视讯会议平台、二合一翻译单元、翻译方法和翻译系统
CN115314660A (zh) * 2021-05-07 2022-11-08 阿里巴巴新加坡控股有限公司 音视频会议的处理方法及装置
US11776557B2 (en) * 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof
WO2023219556A1 (en) * 2022-05-13 2023-11-16 Song Peng A system and method to manage a plurality of language audio streams

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848888A (zh) * 2006-03-16 2006-10-18 夏明� 蓝牙移动电话远程口语翻译系统及操作方法
CN201156746Y (zh) * 2007-12-04 2008-11-26 孔令金 一种远程同声传译装置
US20090327441A1 (en) * 2008-06-30 2009-12-31 France Telecom Instant messaging as a communication channel for a contact center
CN101702762A (zh) * 2006-09-30 2010-05-05 华为技术有限公司 一种实现多语言会议的多点控制单元和会议终端
CN202838331U (zh) * 2012-09-14 2013-03-27 谭建中 远程同步翻译系统
CN103888711A (zh) * 2014-01-28 2014-06-25 中译语通科技(北京)有限公司 一种智能音视频会议系统
CN104636501A (zh) * 2015-03-09 2015-05-20 曹振祥 一种多媒体网络人工即时翻译系统及方法
EP3120259A1 (en) * 2014-05-27 2017-01-25 Microsoft Technology Licensing, LLC In-call translation
CN107113361A (zh) * 2014-12-23 2017-08-29 Televic会议股份有限公司 用于会议系统的中央单元
CN108076306A (zh) * 2017-12-29 2018-05-25 中兴通讯股份有限公司 会议实现方法、装置、设备和系统、计算机可读存储介质
CN208622096U (zh) * 2018-06-06 2019-03-19 科大讯飞股份有限公司 一种翻译系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650484A (zh) * 2018-06-29 2018-10-12 中译语通科技股份有限公司 一种基于音视频通讯的远程同声传译的方法及装置
CN208675397U (zh) * 2018-06-29 2019-03-29 中译语通科技股份有限公司 一种基于音视频通讯的远程同声传译的装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848888A (zh) * 2006-03-16 2006-10-18 夏明� 蓝牙移动电话远程口语翻译系统及操作方法
CN101702762A (zh) * 2006-09-30 2010-05-05 华为技术有限公司 一种实现多语言会议的多点控制单元和会议终端
CN201156746Y (zh) * 2007-12-04 2008-11-26 孔令金 一种远程同声传译装置
US20090327441A1 (en) * 2008-06-30 2009-12-31 France Telecom Instant messaging as a communication channel for a contact center
CN202838331U (zh) * 2012-09-14 2013-03-27 谭建中 远程同步翻译系统
CN103888711A (zh) * 2014-01-28 2014-06-25 中译语通科技(北京)有限公司 一种智能音视频会议系统
EP3120259A1 (en) * 2014-05-27 2017-01-25 Microsoft Technology Licensing, LLC In-call translation
CN107113361A (zh) * 2014-12-23 2017-08-29 Televic会议股份有限公司 用于会议系统的中央单元
CN104636501A (zh) * 2015-03-09 2015-05-20 曹振祥 一种多媒体网络人工即时翻译系统及方法
CN108076306A (zh) * 2017-12-29 2018-05-25 中兴通讯股份有限公司 会议实现方法、装置、设备和系统、计算机可读存储介质
CN208622096U (zh) * 2018-06-06 2019-03-19 科大讯飞股份有限公司 一种翻译系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11776557B2 (en) * 2020-04-03 2023-10-03 Electronics And Telecommunications Research Institute Automatic interpretation server and method thereof
CN111639503A (zh) * 2020-05-22 2020-09-08 腾讯科技(深圳)有限公司 会议数据处理方法、装置、存储介质及设备
CN111639503B (zh) * 2020-05-22 2021-10-26 腾讯科技(深圳)有限公司 会议数据处理方法、装置、存储介质及设备
WO2021253402A1 (zh) * 2020-06-19 2021-12-23 深圳市台电实业有限公司 便携式远程同声传译翻译台
CN112738446A (zh) * 2020-12-28 2021-04-30 传神语联网网络科技股份有限公司 基于线上会议的同声传译方法及系统
CN115314660A (zh) * 2021-05-07 2022-11-08 阿里巴巴新加坡控股有限公司 音视频会议的处理方法及装置
CN114554132A (zh) * 2022-02-16 2022-05-27 深圳市台电实业有限公司 远程云视讯会议平台、二合一翻译单元、翻译方法和翻译系统
CN114554132B (zh) * 2022-02-16 2023-02-03 深圳市台电实业有限公司 远程云视讯会议平台、二合一翻译单元、翻译方法和翻译系统
WO2023219556A1 (en) * 2022-05-13 2023-11-16 Song Peng A system and method to manage a plurality of language audio streams

Also Published As

Publication number Publication date
CN110166729B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN110166729A (zh) 云视频会议方法、装置、系统、介质和计算设备
CN202838331U (zh) 远程同步翻译系统
CN101697581A (zh) 支持同声传译视讯会议的方法、装置及系统
CN102984496B (zh) 视频会议中的视音频信息的处理方法、装置及系统
CN203338350U (zh) 机器同声翻译系统
CN104301126A (zh) 一种协同虚拟会议室系统及其实现方法
CN111010529A (zh) 可多人实时批注的视频会议方法及系统
CN101631032B (zh) 实现多语言会议的方法、装置和系统
TWI720600B (zh) 基於遠程會議的線上翻譯方法、系統、設備及電腦可讀取記錄媒體
CN103716171B (zh) 一种音频数据传输方法及主机、终端
CN206402344U (zh) 一种基于3d场景网络视频会议系统
CN101877643A (zh) 多点混音远景呈现方法、装置及系统
CN208316929U (zh) 坐席卡、主机设备及坐席卡控制系统
KR102506604B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN102065266B (zh) 突出视频会议现场氛围的方法和装置
CN103796034A (zh) 基于流媒体技术的协作平台系统架构下的视频综合系统
CN211509180U (zh) 多功能音视频处理设备
US11516346B2 (en) Three-way calling terminal for mobile human-machine coordination calling robot
CN105760126A (zh) 一种多屏文件共享方法及系统
CN112968937B (zh) 界面处理方法、装置、终端及服务器
CN110083847A (zh) 一种实现同步翻译的会议系统
US20230156419A1 (en) Sound field microphones
CN108735220A (zh) 一种语言学习用智能耳机、智能交互系统及人机交互方法
CN108712271A (zh) 翻译方法和翻译装置
CN107734287A (zh) 一种自动创建视频会议的方法以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant