CN104427294A

CN104427294A - 支持电视会议同声传译的方法及云端服务器

Info

Publication number: CN104427294A
Application number: CN201310385242.2A
Authority: CN
Inventors: 吴瑛; 丁鹏; 石挺干
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2015-03-18

Abstract

本发明涉及一种支持电视会议同声传译的方法及云端服务器，该方法包括：云端服务器在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM音频数据；云端服务器对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型；云端服务器根据确定的语言类型将所述PCM音频数据转换成对应的文本信息；云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。从而实现了在电视会议时可方便、快速的进行同声传译。

Description

支持电视会议同声传译的方法及云端服务器

技术领域

本发明涉及通信技术领域，尤其涉及一种支持电视会议同声传译的方法及云端服务器。

背景技术

电视会议是一种是利用电视技术和电话，通过通信网络召开会议的一种多媒体通信方式，在召开电视会议时，使处于两地或多个不同地点的人员，进行语音、图像等数据之间的交互。

在传统的电视会议中，由于开会人员语言上的差异需使用多种语言时，就需对会场上的发言进行同声传译。现有技术中为了实现同声传译一般都设置了专门的翻译会场，通过专业的翻译人员在电视会议进行的同时对发言人的发言进行人工实时翻译。虽然这种方式解决了在电视会议中的同声传译问题，但其成本比较大，实现起来较不方便。

发明内容

本发明的主要目的在于提供一种支持电视会议同声传译的方法及云端服务器。旨在进行电视会议时可方便、快速的实现同声传译。

本发明提供一种支持电视会议同声传译的方法，包括：云端服务器在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM音频数据；云端服务器对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型；云端服务器根据确定的语言类型将所述PCM音频数据转换成对应的文本信息；云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

优选地，在所述云端服务器将解码后的音频数据转换成对应的PCM音频数据的步骤之前，该方法还包括：云端服务器将解码后的音频数据进行自动噪音抑制处理及/或自动增益控制处理，以对解码后的音频数据进行背景噪音的消除及/或音量的自动控制。

优选地，所述云端服务器对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型的步骤包括：云端服务器分析所述PCM音频数据是否为同一音色的PCM音频数据；若所述PCM音频数据为同一音色的PCM音频数据，则确定所述PCM音频数据对应的语言类型；若所述PCM音频数据包含不同音色的PCM音频数据，则按照音色的不同对所述PCM音频数据进行分类，并确定分类的各类PCM音频数据对应的语言类型。

优选地，在所述云端服务器将翻译的预设语言类型对应的文本信息转换成对应的音频流数据的步骤之后，该方法还包括：云端服务器在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

优选地，在所述云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息的步骤之前，该方法还包括：云端服务器对转换的文本信息进行自动纠错。

优选地，在所述云端服务器将翻译的预设语言类型对应的文本信息转换成对应的音频流数据的步骤之后，该方法还包括：云端服务器确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

本发明还提供一种支持电视会议同声传译的云端服务器，该云端服务器包括：解码模块，用于在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM音频数据；确定模块，用于对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型；转换模块，用于根据确定的语言类型将所述PCM音频数据转换成对应的文本信息；翻译模块，用于将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

优选地，所述解码模块，还用于将解码后的音频数据进行自动噪音抑制处理及/或自动增益控制处理，以对解码后的音频数据进行背景噪音的消除及/或音量的自动控制。

优选地，还包括：收发模块，用于在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

优选地，所述收发模块，还包括：多点控制单元，用于确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

本发明通过对接收到的音频数据翻译成具有多国语言的文本信息，通过语音播报的方式将具有多国语言的文本信息分别处理成对应的音频流。从而实现了在电视会议时可方便、快速的进行同声传译。

附图说明

图1是本发明支持电视会议同声传译的方法第一实施例的流程示意图；

图2是上述第一实施例中包括步骤S105的流程示意图；

图3是本发明支持电视会议同声传译的方法第二实施例的流程示意图；

图4是本发明支持电视会议同声传译的方法第三实施例的流程示意图；

图5是本发明支持电视会议同声传译的云端服务器的结构示意图；

图6是图5中收发模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面结合附图及具体实施例就本发明的技术方案做进一步的说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在以下实施例中如图1、图2所示，所提供的支持电视会议同声传译的方法，包括：

步骤S101，云端服务器在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM（Pulse-code modulation，脉冲编码调制）音频数据。所述音频数据是所述采集装置从所处的所述电视会议的现场采集而得的会议参与人的原始语音。

进一步地，为了获得更好音质的PCM音频数据，云端服务器在将解码后音频数据转换成PCM音频数据之前，将解码后的音频数据进行ANS（Automatic Noise Suppression，自动噪音抑制）和AGC（Automatic GainControl，自动增益控制）处理，以对解码后的音频数据进行背景噪音的消除和音量的自动控制。本实施例中，云端服务器支持多种编码格式的音频数据的解码。

需要说明的是，云端服务器将解码后的音频数据转换成PCM音频数据的转换方式为PCM方式。

步骤S102，云端服务器对PCM音频数据进行语音识别，以确定所述PCM音频数据对应的语言类型。

具体地，云端服务器分析所述PCM音频数据是否为同一音色的PCM音频数据；若所述PCM音频数据为同一音色的PCM音频数据，则确定所述PCM音频数据对应的语言类型（例如，中文、英语、德语、法语或者阿拉伯语等）；或者若所述PCM音频数据包含不同音色的PCM音频数据，则按照音色的不同对所述PCM音频数据进行分类，并确定分类的各类PCM音频数据对应的语言类型。

需要说明的是，不同人的声音的音色是不同的，因此，云端服务器通过分析所述PCM音频数据包含的不同音色的PCM音频数据的数量，即可确定所述电视会议中的发言人的数量。比如，若在所述电视会议中有多个发言人进行了发言时，通过音色的分析方式，可以很有效区别并获得每一个发言人对应的发言语音。

步骤S103，云端服务器根据确定的语言类型将所述PCM音频数据转换成对应的文本信息。

具体地，若所述PCM音频数据为同一音色的PCM音频数据，则云端服务器将所述PCM音频数据转换成确定的语言类型对应的文本信息；若所述PCM音频数据包含不同音色的PCM音频数据，则云端服务器将确定的各个语言类型对应的PCM音频数据转换成对应的文本信息。

步骤S104，云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

具体地，若所述PCM音频数据为同一音色的PCM音频数据，则云端服务器将转换的文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据；若所述PCM音频数据包含不同音色的PCM音频数据，则云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的各个文本信息转换成对应的音频流数据。

需要说明的是，云端服务器中预置有翻译数据库，云端服务器根据预置的翻译数据库将PCM音频数据转换成对应的语言类型的文本信息，并将各个文本信息翻译成预设语言类型对应的文本信息。所述预设语言类型可以是一种，也可以是多种，例如，若PCM音频数据对应的语言类型为英文，预设语言类型包括中文和德文，则云端服务器首先将PCM音频数据翻译成英文文本信息，再将翻译的英文文本信息分别翻译成中文文本信息和德文文本信息。

步骤S105，云端服务器在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

需要说明的是，在本发明的其他实施例中，上述支持电视会议同声传译的方法不包括上述步骤S105。

本发明通过对接收到的音频数据翻译成具有多国语言的文本信息，通过语音播报的方式将具有多国语言的文本信息分别处理成对应的音频流，再根据接收到的包含语言类型的请求指令，将特定的语言文本信息及音频流发送给播放装置。从而实现了在电视会议时可方便、快速的进行同声传译。

如图3所示，为本发明支持电视会议同声传译的方法第二实施例的流程示意图。

基于上述第一实施例，在本第二实施例中，于上述步骤S103和步骤S104之间，该方法进一步包括：

步骤S106，云端服务器对转换的文本信息进行自动纠错及/或人工纠错处理，例如，自动纠错处理包括根据预设的语法规则对文本信息的语句进行语法纠错、根据预置的字词库对文本信息的字词进行纠错等。

上述步骤S106的作用是：提高文本信息的准确度，获得更准确的同声传译结果。

如图4所示，为本发明支持电视会议同声传译的方法第三实施例的流程示意图。

基于上述第一实施例，在本第三实施例中，于上述步骤S104之后，该方法进一步包括：

步骤S107，云端服务器确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

本实施例中，所述云端服务器中内置有MCU（Multi Control Unit，多点控制单元）。在有多个播放装置需要从所述云端服务器接收文本信息和音频流数据时，需通过所述MCU将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

如图5所示，为本发明支持电视会议同声传译的云端服务器的结构示意图。

本实施例所提供的支持电视会议同声传译的云端服务器1，包括：

解码模块101，用于在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM（Pulse-code modulation，脉冲编码调制）音频数据。所述音频数据是所述采集装置从所处的所述电视会议的现场采集而得的会议参与人的原始语音。

进一步地，为了获得更好音质的PCM音频数据，解码模块101在将解码后音频数据转换成PCM音频数据之前，将解码后的音频数据进行ANS（Automatic Noise Suppression，自动噪音抑制）和AGC（Automatic GainControl，自动增益控制）处理，以对解码后的音频数据进行背景噪音的消除和音量的自动控制。本实施例中，解码模块101支持多种编码格式的音频数据的解码。

需要说明的是，解码模块101将解码后的音频数据转换成PCM音频数据的转换方式为PCM方式。

确定模块102，用于对PCM音频数据进行语音识别，以确定所述PCM音频数据对应的语言类型。

具体地，确定模块102分析所述PCM音频数据是否为同一音色的PCM音频数据；若所述PCM音频数据为同一音色的PCM音频数据，则确定所述PCM音频数据对应的语言类型（例如，中文、英语、德语、法语或者阿拉伯语等）；或者若所述PCM音频数据包含不同音色的PCM音频数据，则按照音色的不同对所述PCM音频数据进行分类，并确定分类的各类PCM音频数据对应的语言类型。

需要说明的是，不同人的声音的音色是不同的，因此，确定模块102通过分析所述PCM音频数据包含的不同音色的PCM音频数据的数量，即可确定所述电视会议中的发言人的数量。比如，若在所述电视会议中有多个发言人进行了发言时，通过音色的分析方式，可以很有效区别并获得每一个发言人对应的发言语音。

转换模块103，用于根据确定的语言类型将所述PCM音频数据转换成对应的文本信息。

具体地，若所述PCM音频数据为同一音色的PCM音频数据，则转换模块103将所述PCM音频数据转换成确定的语言类型对应的文本信息；若所述PCM音频数据包含不同音色的PCM音频数据，则转换模块103将确定的各个语言类型对应的PCM音频数据转换成对应的文本信息。

翻译模块104，翻译模块104将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

具体地，若所述PCM音频数据为同一音色的PCM音频数据，则翻译模块104将转换的文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据；若所述PCM音频数据包含不同音色的PCM音频数据，则翻译模块104将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的各个文本信息转换成对应的音频流数据。

需要说明的是，翻译模块104中预置有翻译数据库，翻译模块104根据预置的翻译数据库将PCM音频数据转换成对应的语言类型的文本信息，并将各个文本信息翻译成预设语言类型对应的文本信息。所述预设语言类型可以是一种，也可以是多种，例如，若PCM音频数据对应的语言类型为英文，预设语言类型包括中文和德文，则翻译模块104首先将PCM音频数据翻译成英文文本信息，再将翻译的英文文本信息分别翻译成中文文本信息和德文文本信息。

进一步地，收发模块105用于在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

进一步地，该云端服务器1还包括：纠错模块106用于对转换的文本信息进行自动纠错及/或人工纠错处理，例如，自动纠错处理包括根据预设的语法规则对文本信息的语句进行语法纠错、根据预置的字词库对文本信息的字词进行纠错等。

所述纠错模块106作用是：提高文本信息的准确度，获得更准确的同声传译结果。

如图6所示，为图5中收发模块的结构示意图。

所述收发模块105进一步包括：多点控制单元107用于确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

本实施例中，所述收发模块105中内置有MCU（Multi Control Unit，多点控制单元）。在有多个播放装置需要从所述收发模块105接收文本信息和音频流数据时，需通过所述多点控制单元107将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种支持电视会议同声传译的方法，其特征在于，包括：

云端服务器在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM音频数据；

云端服务器对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型；

云端服务器根据确定的语言类型将所述PCM音频数据转换成对应的文本信息；

云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

2.根据权利要求1所述的方法，其特征在于，在所述云端服务器将解码后的音频数据转换成对应的PCM音频数据的步骤之前，该方法还包括：

云端服务器将解码后的音频数据进行自动噪音抑制处理及/或自动增益控制处理，以对解码后的音频数据进行背景噪音的消除及/或音量的自动控制。

3.根据权利要求1或2所述的方法，其特征在于，所述云端服务器对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型的步骤包括：

云端服务器分析所述PCM音频数据是否为同一音色的PCM音频数据；

若所述PCM音频数据为同一音色的PCM音频数据，则确定所述PCM音频数据对应的语言类型；

若所述PCM音频数据包含不同音色的PCM音频数据，则按照音色的不同对所述PCM音频数据进行分类，并确定分类的各类PCM音频数据对应的语言类型。

4.根据权利要求1或2所述的方法，其特征在于，在所述云端服务器将翻译的预设语言类型对应的文本信息转换成对应的音频流数据的步骤之后，该方法还包括：

云端服务器在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

5.根据权利要求1或2所述的方法，其特征在于，在所述云端服务器将转换的各个文本信息翻译成预设语言类型对应的文本信息的步骤之前，该方法还包括：

云端服务器对转换的文本信息进行自动纠错。

6.根据权利要求1或2所述的方法，其特征在于，在所述云端服务器将翻译的预设语言类型对应的文本信息转换成对应的音频流数据的步骤之后，该方法还包括：

云端服务器确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。

7.一种支持电视会议同声传译的云端服务器，其特征在于，该云端服务器包括：

解码模块，用于在接收到采集装置发送的电视会议的音频数据后，对接收自所述采集装置的音频数据进行解码，并将解码后的音频数据转换成对应的PCM音频数据；

确定模块，用于对转换的PCM音频数据进行语音识别，以确定转换的PCM音频数据对应的语言类型；

转换模块，用于根据确定的语言类型将所述PCM音频数据转换成对应的文本信息；

翻译模块，用于将转换的各个文本信息翻译成预设语言类型对应的文本信息，并将翻译的预设语言类型对应的文本信息转换成对应的音频流数据。

8.根据权利要求7所述的云端服务器，其特征在于，所述解码模块，还用于将解码后的音频数据进行自动噪音抑制处理及/或自动增益控制处理，以对解码后的音频数据进行背景噪音的消除及/或音量的自动控制。

9.根据权利要求7或8所述的云端服务器，其特征在于，还包括：

收发模块，用于在接收到播放装置发送的包含语言类型的数据请求时，响应该数据请求，以将该数据请求中的语言类型对应的文本信息及音频流发送给所述播放装置。

10.根据权利要求7或8所述的云端服务器，其特征在于，所述收发模块，还包括：

多点控制单元，用于确定各个预设语言类型对应的播放装置，并将各个预设语言类型对应的文本信息和音频流数据发送给对应的播放装置。