CN110677406A

CN110677406A - 基于网络的同声传译方法及系统

Info

Publication number: CN110677406A
Application number: CN201910917658.1A
Authority: CN
Inventors: 张昱; 王洁
Original assignee: Shanghai Yiniu Technology Co Ltd
Current assignee: Shanghai Yiniu Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-10

Abstract

本发明公开了基于网络的同声传译方法及系统，系统包括现场服务器、云端服务器、译员端、用户端；现场服务器单向连接现场调音台，从现场调音台接入语音输入信号；现场服务器通过无线局域网双向连接译员端；现场服务器通过无线局域网双向连接用户端；现场服务器通过互联网双向连接云端服务器。方法包括：现场服务器从现场调音台接收语音输入信号，对接收到的语音输入信号进行预处理，针对预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端；用户端根据接收到的多语种音频和多语种文字进行播放和展示，并实时响应用户的切换语种命令，播放展示用户选定语种的语音、文字。

Description

基于网络的同声传译方法及系统

技术领域

本发明涉及通信技术领域，具体涉及基于网络的同声传译方法及系统。

背景技术

目前，同声传译用途广泛，在不同的场景中皆有应用。最常用的场景为会议、广播、直播等。当前的同声传译，都是基于在传译现场通过假设通信硬件设备完成。有以下弊端：1、翻译人员需要同步到场；2、用户需要领取硬件设备；3、无法将翻译内容同步成文字在屏幕上显示，造成诸多不便，例如听力不便之人无法获得有效信息等；4、不在该场景的用户无法获得同声传译服务。

而随着同声传译过程中所涉及语种数量的增加或者各小语种的使用，采用上述现有技术进行同声传译的操作难度也将随之增加。如每增加一个新的语种或者出现一些使用频率低的小语种进行同声传译，都需增加对应的翻译操作，从而导致同声传译的效率受到很大影响。

发明内容

本发明所要解决的技术问题是：现有的同声传译方法效率不高，且语音和文字的传输过程中会出现延迟不导致不同步的问题，本发明提供了解决上述问题的基于网络的同声传译方法及系统，只需要有智能通信设备即可使用，并且操作简单，同声传译效率高，能够有效地解决语音、文字实现基础同步的传输延迟问题。

本发明通过下述技术方案实现：

基于网络的同声传译方法，该方法包括：

现场服务器从现场调音台接收语音输入信号，对接收到的语音输入信号进行预处理，针对预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端；用户端根据接收到的多语种音频和多语种文字进行播放和展示，并实时响应用户的切换语种命令，播放展示用户选定语种的语音、文字；其中，多语种音频处理包括，对预处理后的原音音频信号投递翻译任务给译员端的译员，由译员进行在线实时翻译，并实时将翻译后的译文回传给现场服务器，再由现场服务器进行音频处理、音频分拣和多语种音频投递；多语种文字处理包括对预处理后的原音音频信号进行ASR语音识别、MT机器翻译和多语种文字投递；

还包括云端服务器，云端服务器接收从现场服务器预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端的参会人；同时，云端服务器将多语种音频、文字保存并导出速记稿和会议记录，及进行后期现场回放，供用户端的参会人后续查看；

其中，多语种音频处理包括，对预处理后的原音音频信号投递翻译任务给云译员端的云端译员，由云端译员进行在线实时翻译，并实时将翻译后的译文回传给云端服务器，再由云端服务器进行音频处理、音频分拣和多语种音频投递；多语种文字处理包括对预处理后的原音音频信号进行ASR语音识别、MT机器翻译和多语种文字投递。

进一步地，所述译员或云端译员进行在线实时翻译，具体包括：

接力翻译，译员接收翻译任务进行从原音语音翻译为中间语种语音，再由其他一个但不限于一个译员从中间语种语音翻译为目标语种语音的译文；接力翻译解决了从原语种到目标语种不易寻找直接译员的情况，通过中间接力语种来实现；

交替翻译，包括两个但不限于两个同语种译员的交替，在固定时间段内各译员之间轮流交替进行翻译，一个译员完成固定时间段内的翻译后，转接翻译任务给下一个译员，只有当下一个译员接收了翻译任务后，前一个译员才会进入休眠状态，否则，继续等待能够接收转接任务的译员。这是考虑到交替翻译是两个同语种译员的交替，因为同传译员的翻译压力非常大，加上一场会的时间会比较长，通常一天可能是8小时的会，一个译员没法连续不停工组，因此通常一个语种会有两个或更多译员交替工作。交替翻译实现两个或者多个同语种译员的交替，共同间歇完成时间长久的会议翻译工作，避免一个译员的过劳疲惫翻译造成翻译不精准。

进一步地，云端服务器将处理后的多语种音频和多语种文字数据进行数据传输至用户端，其中，在传输过程中音频和文字通过并行队列投递的方式实现基础同步，ASR语音识别、MT机器翻译任务将当前数据投递到下一个接收方，而不等待接收方的完成回应，把各任务组成一组管道，传输的数据从管道入口逐一往下流通；其中，各任务是指一个音频任务，以及与该音频任务对应翻译后的文字任务。

进一步地，所述用户端的用户使用手机扫码打开HTML5网页进入，与现场服务器或云端服务器建立连接；所述译员端的译员或云端译员安装app进入或者使用手机扫码打开HTML5网页进入，与现场服务器或云端服务器建立连接。

进一步地，现场服务器对接收到的语音输入信号进行预处理，预处理包括对原音音频信号进行分片、压缩，打上时间戳语种分片尺寸信息，以此减少对网络带宽的依赖和获得更低的延迟。

基于网络的同声传译系统，该系统支持上述的基于网络的同声传译方法，该系统包括现场服务器、云端服务器、译员端、用户端；所述现场服务器单向连接现场调音台，从现场调音台接入语音输入信号；所述现场服务器通过无线局域网双向连接译员端；所述现场服务器通过无线局域网双向连接用户端；所述现场服务器通过互联网双向连接云端服务器；

所述现场服务器，用于从现场调音台接收语音输入信号，并把原音音频信号发送至云端服务器；对接收到的语音输入信号进行预处理，预处理包括对原音音频信号进行分片、压缩，打上时间戳语种分片尺寸信息，并将处理后的音频进行ASR语音识别成文字；当会议有高私密要求时，所述现场服务器负责私域部署服务器来替代云服务器；

所述云端服务器，用于接收从现场服务器预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端的参会人，其中，在传输过程中音频和文字通过并行队列投递的方式实现基础同步；同时，云端服务器将多语种音频、文字保存并导出速记稿和会议记录，及进行后期现场回放，供用户端的参会人后续查看；

所述译员端，译员或云端译员安装app进入或者使用手机扫码打开HTML5网页进入，负责从所述现场服务器或云端服务器获取翻译任务，由译员或云端译员进行在线实时听译，同时把当前译员的语音ASR识别为文字，最终把翻译好的语音译文和文字回传给现场服务器或云端服务器；其中，译员或云端译员进行在线实时听译包括接力翻译和交替翻译；

所述用户端，用户使用手机扫码打开HTML5网页进入，接收来自现场服务器或云端服务器的各语种的语音、文字并进行播放和展示，及响应用户的切换语种命令，播放展示用户选定语种的语音、文字；

所述现场服务器、云端服务器、译员端和用户端分别处于不同位置域。

进一步地，还包括投屏端，所述投屏端连接现场服务器，用于负责将现场服务器的原音文本、译员翻译的语音ASR识别文字投至现场大屏幕，并实时展示；并进行投屏界面的展示。

进一步地，所述现场服务器通过无线WiFi局域网双向连接译员端；所述现场服务器通过无线WiFi局域网双向连接用户端。

进一步地，所述用户端还负责展示会议信息、会议议程和会议资料，其中会议信息包括会议时间、简介、地址，会议议程包括各议程的主讲人、时间，会议资料可供用户下载使用。

本发明具有如下的优点和有益效果：

1、本发明的译员进行在线实时翻译时包括接力翻译和交替翻译，接力翻译解决了从原语种到目标语种不易寻找直接译员的情况，通过中间接力语种来实现；交替翻译实现两个或者多个同语种译员的交替，共同间歇完成时间长久的会议翻译工作，避免一个译员的过劳疲惫翻译造成翻译不精准。

2、本发明在传输过程中音频和文字通过并行队列投递的方式实现基础同步，ASR语音识别、MT机器翻译任务将当前数据投递到下一个接收方，而不等待接收方的完成回应，把各任务组成一组管道，传输的数据从管道入口逐一往下流通；其中，各任务是指一个音频任务，以及与该音频任务对应翻译后的文字任务；

3、本发明方法操作简单，同声传译效率高，能够有效地解决语音、文字实现基础同步的传输延迟问题。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的基于网络的同声传译系统整体架构图。

图2为本发明的基于网络的同声传译方法流程图。

图3为本发明的现场服务器从现场调音台接收语音输入信号的收音流程图。

图4为本发明的并行队列投递方式具体流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1至图4所示，基于网络的同声传译方法，该方法包括：

现场服务器从现场调音台接收语音输入信号，对接收到的语音输入信号进行预处理，预处理包括对原音音频信号进行分片、压缩，打上时间戳语种分片尺寸信息，以此减少对网络带宽的依赖和获得更低的延迟；针对预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端；用户端根据接收到的多语种音频和多语种文字进行播放和展示，并实时响应用户的切换语种命令，播放展示用户选定语种的语音、文字；

其中，多语种音频处理包括，对预处理后的原音音频信号投递翻译任务给译员端的译员，由译员进行在线实时翻译，并实时将翻译后的译文回传给现场服务器，再由现场服务器进行音频处理、音频分拣和多语种音频投递；多语种文字处理包括对预处理后的原音音频信号进行ASR语音识别、MT机器翻译和多语种文字投递。

此实施例作为基于网络的同声传译方法的一种实施方式，本实施例中现场服务器用于负责私域部署服务器(替代云服务器)，本实施例中不直接用云端服务器，这样做的目的是有些会议有较高的私密要求，不通过互联网，完全避免互联网出现安全性问题。

如图3所示，现场服务器从现场调音台接收语音输入信号的收音流程如下：向现场服务器发送软件更新请求，如有更新，更新软件后拉取云端配置，如无更新直接拉取云端配置，然后初始化插件管道，并进行开始收音，再投递音频数据至数据管道。

具体地，所述译员进行在线实时翻译，具体包括：

接力翻译，译员接收翻译任务进行从原音语音翻译为中间语种语音，再由其他一个但不限于一个译员从中间语种语音翻译为目标语种语音的译文；举例：译员不能听懂主持人的语种，例如主持人说中文，需要翻译为英文，同时需要翻译为芬兰语，而中翻芬兰语的译员极少见，不一定找得到，这时候可以找英翻芬兰语的译员，主持人说中文，中英译员听中文翻译为英文，英芬译员听中英译员翻译的英文，翻译为芬兰语，以此完成从原音语音中文翻译为中间语种英文，再由英文翻译为目标语种语音芬兰语。

交替翻译，包括两个但不限于两个同语种译员的交替，在固定时间段内各译员之间轮流交替进行翻译，一个译员完成固定时间段内的翻译后，转接翻译任务给下一个译员，只有当下一个译员接收了翻译任务后，前一个译员才会进入休眠状态，否则，继续等待能够接收转接任务的译员。这是考虑到交替翻译是两个同语种译员的交替，因为同传译员的翻译压力非常大，加上一场会的时间会比较长，通常一天可能是8小时的会，一个译员没法连续不停工组，因此通常一个语种会有两个或更多译员交替工作。举例：例如每30分钟进行轮流交替。译员通过译员端软件的交替按钮进行交替，A译员正在翻译，他点下交替按钮，界面会提示他正在等待B译员接手并倒计时30秒，B译员会同步显示A译员请求接替。此时如果B译员点击接受，则A译员进入休眠状态，他的语音不再被传递。B译员开始进入翻译。如果30秒倒计时结束B译员仍未应答则提示A译员，B译员暂无应答，需要A译员继续翻译。

具体地，所述用户端的用户使用手机扫码打开HTML5网页进入，与现场服务器建立连接；所述译员端的译员安装app进入或者使用手机扫码打开HTML5网页进入，与现场服务器建立连接。

实施例2

如图1至图4所示，本实施例与实施例1的区别在于，还包括云端服务器，云端服务器接收从现场服务器预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端的参会人；同时，云端服务器将多语种音频、文字保存并导出速记稿和会议记录，及进行后期现场回放，供用户端的参会人后续查看；

此实施例作为基于网络的同声传译方法的另一种实施方式，本实施例中使用云端服务器替代现场服务器。本实施例中，所述云端服务器、译员端和用户端分别处于不同位置地点，不同的国内城市甚至国际城市。比如会议现场在中国，云端服务器设在中国，译员端译员可以在英国，每个译员都可以在不同的地方；用户端的用户包括会议现场观众，也可以是云端观众。

具体地，云端服务器将处理后的多语种音频和多语种文字数据进行数据传输至用户端，其中，在传输过程中音频和文字通过并行队列投递的方式实现基础同步，ASR语音识别、MT机器翻译任务将当前数据投递到下一个接收方，而不等待接收方的完成回应，把各任务组成一组管道，传输的数据从管道入口逐一往下流通；其中，各任务是指一个音频任务，以及与该音频任务对应翻译后的文字任务。具体流程见附图4所示，对音频数据进行重采样后，通过音频编码器进行音频编码，同时对音频数据进行重采样后，通过ASR识别器进行语音识别把音频数据识别为文字；对音频编码后的语音和ASR识别后的文字放于一个数据分组管道中进行发送，并通过网络进行数据传输。

实施例3

如图1至图4所示，本实施例与实施例1、实施例2的区别在于，基于网络的同声传译系统，该系统支持上述实施例1、实施例2的基于网络的同声传译方法，该系统包括现场服务器、云端服务器、译员端、用户端；所述现场服务器单向连接现场调音台，从现场调音台接入语音输入信号；所述现场服务器通过无线WiFi局域网双向连接译员端；所述现场服务器通过无线WiFi局域网双向连接用户端；所述现场服务器通过互联网双向连接云端服务器；

具体地，云端服务器负责将多语种的语音、文字发送给客户端的参会人，语音信号的传输是基于HTML5的websocket，因此不需要APP，手机只需要扫码网页就可以传输；负责将多语种的语音、文字保存并导出速记稿及会打开HTML5议记录；负责将多语种的语音、文字进行后期现场回顾，回放整个过程；负责将音频进行ASR识别为文字，既识别现场原音也识别译员翻译后的语音，能同时显示多个不同语言的文字；负责将识别的文字进行MT机器翻译为其他语种；负责将翻译后的文字进行MT机器接力翻译为更多语种，整个系统除了译员翻译有人工参与，其余均由计算机处理，相比比人工要快的多，然而接力会导致延迟的累加，解决方式是并行队列投递的方式，各ASR语音识别、MT机器翻译只管将当前数据投递到下一个接收方，而不等待接收方的完成回应。把各方组成一组管道，数据从管道入口逐一往下流通；其中，各方是指一个音频任务，以及与该音频任务对应翻译后的文字任务。并行队列投递的方式具体流程见附图4所示，对音频数据进行重采样后，通过音频编码器进行音频编码，同时对音频数据进行重采样后，通过ASR识别器进行语音识别把音频数据识别为文字；对音频编码后的语音和ASR识别后的文字放于一个数据分组管道中进行发送，并通过网络进行数据传输。

具体地，译员端负责接收当前译员的语音并发送给现场服务器/云端服务器，转发给听众；负责接收当前译员的语音并ASR识别为文字发送给现场服务器/云端服务器，转发给听众；负责收听现场原音并播放给译员听译；负责收听现场原音ASR识别的文字供译员参考翻译；负责收听其他译员的翻译语音并播放给译员进行接力翻译；负责收听其他译员的翻译语音ASR识别的文字供译员参考翻译；负责控制译员的翻译语种，译员通常是两个语种互翻或者更多语的翻译，中文译员为例，主持人说中文他翻译为英文，主持人说英文他翻译为中文，因此在译员端软件界面上有语种切换按钮，以便他选择翻译为什么语音；负责控制同语种译员的交替翻译命令；负责显示现场视频供译员参考。

所述用户端，用户使用手机扫码打开HTML5网页进入，接收来自现场服务器或者云端服务器的各语种的语音、文字并进行播放和展示，及响应用户的切换语种命令，播放展示用户选定语种的语音、文字；还负责展示会议信息、会议议程和会议资料，其中会议信息包括会议时间、简介、地址，会议议程包括各议程的主讲人、时间，会议资料可供用户下载使用。

实施例4

如图1至图4所示，本实施例与实施例3的区别在于，还包括投屏端，所述投屏端连接现场服务器/云端服务器，用于负责将现场服务器/云端服务器的原音文本、译员翻译的语音ASR识别文字投至现场大屏幕，并实时展示，投屏端的信号来自PC(例如笔记本电脑)，通过用浏览器打开在云端服务器的一个网址来将文字实时显示更新在大屏幕上。

投屏端还负责进行投屏界面的展示，包括多语种投屏，自主设置背景、添加文本、图片、二维码等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于网络的同声传译方法，其特征在于：该方法包括：

现场服务器从现场调音台接收语音输入信号，对接收到的语音输入信号进行预处理，针对预处理后的原音音频信号，进行多语种音频和多语种文字处理，并将处理后的多语种音频和多语种文字数据进行数据传输至用户端；用户端根据接收到的多语种音频和多语种文字进行播放和展示，并实时响应用户的切换语种命令，播放展示用户选定语种的语音、文字；其中，多语种音频处理包括，对预处理后的原音音频信号投递翻译任务给译员端的译员，由译员进行在线实时翻译，并实时将翻译后的译文回传给现场服务器，再由现场服务器进行音频处理、音频分拣和多语种音频投递；多语种文字处理包括对预处理后的原音音频信号进行ASR语音识别、MT机器翻译和多语种文字投递。

2.根据权利要求1所述的基于网络的同声传译方法，其特征在于：译员或云端译员进行在线实时翻译，具体包括：

接力翻译，译员或云端译员接收翻译任务进行从原音语音翻译为中间语种语音，再由其他一个但不限于一个译员或云端译员从中间语种语音翻译为目标语种语音的译文；

交替翻译，包括两个但不限于两个同语种译员或云端译员的交替，在固定时间段内各译员或云端译员之间轮流交替进行翻译，一个译员或云端译员完成固定时间段内的翻译后，转接翻译任务给下一个译员或云端译员，只有当下一个译员或云端译员接收了翻译任务后，前一个译员或云端译员才会进入休眠状态，否则，继续等待能够接收转接任务的译员或云端译员。

3.根据权利要求1所述的基于网络的同声传译方法，其特征在于：云端服务器将处理后的多语种音频和多语种文字数据进行数据传输至用户端，其中，在传输过程中音频和文字通过并行队列投递的方式实现基础同步，ASR语音识别、MT机器翻译任务将当前数据投递到下一个接收方，而不等待接收方的完成回应，把各任务组成一组管道，传输的数据从管道入口逐一往下流通；其中，各任务是指一个音频任务，以及与该音频任务对应翻译后的文字任务。

4.根据权利要求1所述的基于网络的同声传译方法，其特征在于：所述用户端的用户使用手机扫码打开HTML5网页进入，与现场服务器或云端服务器建立连接；所述译员端的译员或云端译员安装app进入或者使用手机扫码打开HTML5网页进入，与现场服务器或云端服务器建立连接。

5.根据权利要求1所述的基于网络的同声传译方法，其特征在于：现场服务器对接收到的语音输入信号进行预处理，预处理包括对原音音频信号进行分片、压缩，打上时间戳语种分片尺寸信息。

6.基于网络的同声传译系统，其特征在于：该系统支持权利要求1至5中任意一项所述基于网络的同声传译方法，该系统包括现场服务器、云端服务器、译员端、用户端；所述现场服务器单向连接现场调音台，从现场调音台接入语音输入信号；所述现场服务器通过无线局域网双向连接译员端；所述现场服务器通过无线局域网双向连接用户端；所述现场服务器通过互联网双向连接云端服务器；

7.根据权利要求6所述的基于网络的同声传译系统，其特征在于：还包括投屏端，所述投屏端连接现场服务器，用于负责将现场服务器的原音文本、译员翻译的语音ASR识别文字投至现场大屏幕，并实时展示；并进行投屏界面的展示。

8.根据权利要求6所述的基于网络的同声传译系统，其特征在于：所述现场服务器通过无线WiFi局域网双向连接译员端；所述现场服务器通过无线WiFi局域网双向连接用户端。

9.根据权利要求6所述的基于网络的同声传译系统，其特征在于：所述用户端还负责展示会议信息、会议议程和会议资料，其中会议信息包括会议时间、简介、地址，会议议程包括各议程的主讲人、时间，会议资料供用户下载使用。