CN111428515B

CN111428515B - 一种同声传译的设备及方法

Info

Publication number: CN111428515B
Application number: CN202010240140.1A
Authority: CN
Inventors: 杨大胜; 潘再生; 来晓; 郑慧娴; 曹焱; 何超
Original assignee: Ningbo Zhongkong Microelectronics Co ltd; Zhejiang University ZJU
Current assignee: Ningbo Zhongkong Microelectronics Co ltd; Zhejiang University ZJU
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2022-07-15
Anticipated expiration: 2040-03-30
Also published as: CN111428515A

Abstract

本发明提供了一种同声传译设备及方法，所述设备包括：第一语言采集播放模块、第二语言采集播放模块、主机模块；所述主机模块进一步包括：用于采集第一语言或第二语言的音频数据的第三语音采集单元；用于播放第二语言或第一语言的音频数据的第三语音播放单元；用于将第一语言的音频数据翻译成第二语言的音频数据或将第二语言的音频数据翻译成第一语言的音频数据的语音翻译单元；其中，所述主机模块与所述第一语言采集播放模块之间建立有第一链路；所述主机模块与所述第二语言采集播放模块之间建立有第二链路；所述主机模块可选择打开或关闭上述第一链路和第二链路，所述主机模块可选择打开或关闭其各个单元的功能。

Description

一种同声传译的设备及方法

技术领域

本发明涉及同声传译技术，具体涉及一种同声传译的设备及方法。

背景技术

当前社会，对可以实现同声传译的智能硬件设备的需求已经非常强烈。首先，越来越多的人有出国游玩的需求。虽然英语开始普及，但是能用于日常交流的还是少数。很大一部分人有钱却不敢自由行。其次，很多的国家如中国，只靠英语也依然寸步难行。再次，同声传译一直是大需求，但当前的同声传译主要是在会议室中靠人工传译来实现。

另一方面，同声传译设备的实现已有很大的技术可行性。高速移动网络已经在全球覆盖，或即将覆盖；手机即时翻译软件产品已经有很多；智能硬件设备的语音采集和降燥处理能力大幅度加强；NLP自然语言处理技术日驱成熟；Google、讯飞、百度等语音识别和翻译平台已非常成熟并开放使用；此外也有丰富的AI技术框架可以借用。

目前常见的翻译设备包括有：

1.翻译笔/翻译棒

带按键，带扬声器，带麦克风。靠按键带触发录音和翻译功能，翻译的内容以语音或者文字方向展示出来。

所以使用效果就是：A用户按按键说一句话，等着翻译笔翻译，然后B说一句，再等着翻译笔翻译。无法做到同声传译，无法对大段话及时完成翻译，扬声器的语音会影响用户本身的讲话节奏。最后，只能是一问一答，只限于街头问询。

使用体验不够。

2.口译APP

手机上的APP，功能类似上述翻译笔。没有特殊硬件使其更加方便，但受限于智能手机系统开放的权限(如同时只有一个语音输入通道)，可实现的功能不多。使用体验上还比不上翻译笔。

3.同声传译设备

用于会议场合，主要靠人的同声传译，用户只是带了个耳机收听人工翻译。用耳机而不是扬声器可以使翻译不干扰正常交谈，同声传译速度够快的话，与普通交谈没有影响。用户体验好，但是成本太高，而且不适合于个人外出的场景。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种同声传译的设备及方法。本发明的技术方案如下：

一种同声传译设备，包括：

第一语言采集播放模块、第二语言采集播放模块、主机模块；

所述第一语言采集播放模块，用于采集或播放第一语言的音频数据；

所述第二语言采集播放模块，用于采集或播放第二语言的音频数据；

所述主机模块进一步包括：

用于采集第一语言或第二语言的音频数据的第三语音采集单元；

用于播放第二语言或第一语言的音频数据的第三语音播放单元；

用于将第一语言的音频数据翻译成第二语言的音频数据或将第二语言的音频数据翻译成第一语言的音频数据的语音翻译单元；

其中，所述主机模块与所述第一语言采集播放模块之间建立有第一链路；所述主机模块与第一语言采集播放模块通过所述第一链路进行第一语言的音频数据的无线传输；

所述主机模块与所述第二语言采集播放模块之间建立有第二链路；所述主机模块与第二语言采集播放模块通过所述第二链路进行第二语言的音频数据的无线传输；

所述主机模块可选择打开或关闭上述第一链路和第二链路，所述主机模块可选择打开或关闭其各个单元的功能，如下：

当所述主机模块打开第一链路，打开第二链路时，其关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元的功能；

当所述主机模块打开第一链路，关闭第二链路时，其打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能；

当所述主机模块关闭第一链路，关闭第二链路时，其打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能。

可选地，第一语言采集播放模块为无线蓝牙耳机或智能手机。

可选地，第二语言采集播放模块为无线蓝牙耳机或智能手机。

可选地，所述第一语言采集播放模块和第二语言采集播放模块均设置有检测单元，用于采集二者的佩戴状态信号，并将该述信号发送给主机模块；主机模块依据该信号判断第一语言采集播放模块和第二语言采集播放模块是否处于佩戴状态，并依据不同的佩戴状态选择打开或关闭第一链路和第二链路，并选择打开或关闭其各个单元的功能，如下：

如第一语言采集播放模块和第二语言采集播放模块均处于“已佩戴”的状态，则主机模块打开第一链路，打开第二链路，关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元的功能；

如第一语言采集播放模块处于“已佩戴”状态，而第二语言采集播放模块处于“未佩戴”状态，则主机模块打开第一链路，关闭第二链路，打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能；

如第一语言采集播放模块和第二语言采集播放模块均处于“未佩戴”状态，则主机模块关闭第一链路，关闭第二链路时，其打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能。

可选地，所述主机模块还包括：显示单元，用于以字幕形式实时显示第一语言和第二语言的音频数据。

可选地，所述第一语言采集播放模块和第二语言采集播放模块可内置于所述主机模块。

可选地，所述主机模块设置有充电口，可供所述第一语言采集播放模块和第二语言采集播放模块充电。

一种同声传译的方法，应用于上述的同声传译设备，包括以下步骤：

所述主机模块打开其与所述第一语言采集播放模块之间建立的第一链路，所述主机模块打开其与所述第二语言采集播放模块之间建立的第二链路；主机模块关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元的功能；

所述第一语言采集播放模块采集第一语言的音频数据，并将所述第一语言的音频数据通过所述第一链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据通过所述第二链路无线传输给所述第二语言采集播放模块，所述第二语言采集播放模块对所述第二语言的音频数据进行播放；

所述第二语言采集播放模块采集第二语言的音频数据，并将所述第二语言的音频数据通过所述第二链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第二语言的音频数据翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据通过所述第一链路无线传输给所述第一语言采集播放模块，所述第一语言采集播放模块对所述第一语言的音频数据进行播放。

一种同声传译的方法，应用上述的同声传译设备，包括以下步骤：

所述主机模块打开其与所述第一语言采集播放模块之间建立的第一链路，所述主机模块关闭其与所述第二语言采集播放模块之间建立的第二链路；所述主机模块打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能；

所述第一语言采集播放模块采集第一语言的音频数据，并将所述第一语言的音频数据通过所述第一链路无线传输给所述主机模块，所述主机模块将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据通过其第三语音播放单元进行播放；

所述主机模块通过第三语音采集单元采集第二语言的音频数据，并将所述第二语言的音频数据通过语音翻译单元翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据通过所述第一链路无线传输给所述第一语言采集播放模块，所述第一语言采集播放模块对所述第一语言的音频数据进行播放。

所述主机模块关闭其与所述第一语言采集播放模块之间建立的第一链路，所述主机模块关闭其与所述第二语言采集播放模块之间建立的第二链路；所述主机模块打开第三语音采集单元、第三语音播放单元、语音翻译单元的功能；

主机模块的第三语音采集单元采集第一语言的音频数据，并将其发送给语音翻译单元，语音翻译单元将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据发送给第三语音播放单元进行播放；

主机模块的第三语音采集单元采集第二语言的音频数据，并将其发送给语音翻译单元，语音翻译单元将所述第二语言的音频数据翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据发送给第三语音播放单元进行播放。

与现有技术相比，本发明具有如下的有益效果：

1、本发明实现的是一种基于智能硬件的同声传译装置，兼顾翻译笔、翻译APP的便携性又有同声传译的良好体验。

可以用于正常的双人间不同语种交谈(商务交谈、境外旅行对话)、接听现场外语节目(如他人的交谈讨论、脱口秀、演出)、加入到多人外语交谈对话中、电话交谈等各种类型交流场合。

2、本发明具备三条语音收发通道和两条无线数据传输通道，可以自动或配置成多种不同传译模式，适配多种应用场合，用户体验高。

3、本发明可采用耳机的形式进行传译，可以避免交谈双方和翻译结果多种声音来源的干扰，实时获取翻译结果。

4、本发明的两条独立的数据无线传输通道(如两个独立的蓝牙通道)，可以支持两个语言采集播放模块(如两个耳机)同时实时传译，而不需要等待一方谈话结束通道空闲。可以极大的提升传译效果和用户体验，实现真正的实时传译。

5、本发明的两个语言采集播放模块均可为智能手机，而连接智能手机，可以方便地对电话进行实时传译。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例的一种同声传译设备的结构示意图；

图2是本发明第二实施例的一种同声传译设备的结构示意图；

图3是本发明第三实施例的一种同声传译设备的结构示意图；

图4是本发明第四实施例的一种同声传译设备的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

第一实施例

如图1，本实施例公开了一种同声传译设备，包括：

所述第一语言采集播放模块、第二语言采集播放模块均与所述主机模块无线连接；

所述主机模块进一步包括：

用于以字幕形式实时显示第一语言和第二语言的音频数据的显示单元；

当所述主机模块打开第一链路，打开第二链路时，其关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元、显示单元的功能；

当所述主机模块打开第一链路，关闭第二链路时，其打开第三语音采集单元、第三语音播放单元、语音翻译单元、显示单元的功能；

当所述主机模块关闭第一链路，关闭第二链路时，其打开第三语音采集单元、第三语音播放单元、语音翻译单元、显示单元的功能。

需要说明的是，第一语言和第二语言的语种可以提前在语音翻译单元里进行预设，或者语音翻译单元自身可以具备自动识别第一语言和第二语言的语种的功能。

本实施例中，第一语言采集播放模块和第二语言采集播放模块均为无线蓝牙耳机，分别为耳机A、耳机B。每只耳机带有独立的麦克风，提供耳机的语音输入和播放功能。需要说明的是：具体实施时，第一语言采集播放模块和第二语言采集播放模块也可均为智能手机，或一个为蓝牙无线耳机，一个为智能手机；或为其他的可实现其功能的装置，本发明不对第一语言采集播放模块和第二语言采集播放模块的具体装置做出限定。

本实例中，主机模块为一个盒状结构，其可内置两只无线蓝牙耳机。主机模块带有麦克风(对应第三语音采集单元)和扬声器(对应第三语音播放单元)，提供模块本体的语音输入和播放功能。主机模块的显示单元含有显示屏(其可为液晶触屏界面)，提供显示和设置功能，具体的设置功能包括：传译语言选择、音量设置、传译模式选择、场景自动模式、手动模式(速度优先、准确度优先)等等。

本实施例中，主机模块硬件采用的是基于ARM处理器的智能硬件平台，内置电池+USB充电方案。包括两个独立的蓝牙通道：蓝牙通道1、蓝牙通道2(分别对应第一链路和第二链路)，支持连接两只无线蓝牙耳机，并提供对耳机充电方案。

本实施例可提供三个语音通道，即：耳机A提供语音通道1，耳机B提供语音通道2，主控设备提供语音通道3。

本实施例中，所述第一语言采集播放模块和第二语言采集播放模块均设置有检测单元，用于采集二者的佩戴状态信号，并将该述信号发送给主机模块；主机模块依据该信号判断第一语言采集播放模块和第二语言采集播放模块是否处于佩戴状态，并依据不同的佩戴状态选择打开或关闭第一链路和第二链路，并选择打开或关闭其各个单元的功能，如下：

需要说明的是，主机模块也可根据设置或具体场景需求自动地选择打开或关闭第一链路和第二链路，并选择打开或关闭其各个单元的功能。上述根据佩戴状态信号进行的操作，只是本实施例的可选方案，不以此作为对本发明的限制。

本实施例中，两个无线蓝牙耳机均内置有红外传感器(对应检测单元)，支持入耳识别(对应佩戴状态信号)。耳机支持麦克风波束成形功能和主动降燥功能。耳机内置电池，可通过触点由主机模块充电。

上述同声传译的设备，可对应以下应用场景：

参见图1，场景一：双耳机传译：耳机A、耳机B耳机完全独立，提供给对话双方a用户和b用户分别携带，完成语音采集和译听功能；耳机可通过红外传感器自动识别是否已成功插入耳朵，检测到A、B耳机都入耳后即可打开传译。(需要说明的是，主控设备也可以根据设定或实际需求采用以下方法，这里通过判断佩戴状态进行操作仅为举例，本发明不对此做出限定)

这里的红外传感器仅为举例，具体实施时，检测单元也可以为光学接近传感器、压力传感器、热传感器、水分传感器中的一个或者多个，本发明不对此做出限定。

当耳机A和耳机B均处于“已佩戴”的状态时，所述同声传译设备采用如下的同声传译的方法：

所述主机模块打开其与耳机A之间建立的第一链路，所述主机模块打开其与耳机B之间建立的第二链路(即主机模块通过两条蓝牙通道分别连接两个蓝牙耳机)；主机模块关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元的功能。

在主机模块上完成语言、模式等设置操作后，耳机A采集a用户的第一语言的音频数据，并将所述第一语言的音频数据通过所述第一链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据通过所述第二链路无线传输给耳机B，耳机B对所述第二语言的音频数据向b用户进行播放；机读模拟自然语音，语调和音色可根据另一方的语调和音色自动适配。

耳机B采集b用户的第二语言的音频数据，并将所述第二语言的音频数据通过所述第二链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第二语言的音频数据翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据通过所述第一链路无线传输给耳机A，所述耳机A对所述第一语言的音频数据向a用户进行播放。

耳机A和耳机B耳机均带入耳后，主机模块静音，不影响双方交流。且主机模块的显示单元可通过界面可实时显示双方交流的双语内容。

本实施例基于裁剪的Android系统进行实现，语音识别采用基于迅飞和google开放平台的人工智能系统，语言互译采用基于百度和google开放平台并进行定制优化的深度学习系统。

需要说明的是，所谓主机模块实体上可以是能通过蓝牙连接智能手机的一个盒状模块设备。在具体实施中，也可以是带有双路蓝牙通道的智能手机设备本身(此时，直接使用智能手机的屏幕、扬声器和麦克风完成主机模块功能)，只要在功能上承担了本发明所述的主机模块的传译功能，都可视为主机模块。

第二实施例

本实施例与第一实施例的区别在于，为不同的应用场景，参见图2，如下：

场景二：单耳机+主机模块传译：仅提供给a用户的耳机A工作，和主机模块配合，完成语音采集和译听功能；当耳机A处于“已佩戴”的状态，耳机B处于“未佩戴”的状态时，所述同声传译设备采用如下的同声传译的方法：(需要说明的是，主控设备也可以根据设定或实际需求采用以下方法，这里通过判断佩戴状态进行操作仅为举例，本发明不对此做出限定)

适用于b用户不带耳机的场景(如路人、不熟悉的人、演出等场景)，并且此时b用户可以不只一个人。此时只开启一条蓝牙通道连接主机模块和该蓝牙耳机。

需要说明的是：此时第二语言的音频数据的声音来源，可以来自于直接b用户人的声音，也可以是手机或多媒体或其他播音装置播放或传输的b用户的声音数据。本发明不对此做出限定。

在主机模块上完成语言、模式等设置操作后，a用户只需自己带上耳机A，耳机A采集a用户的第一语言的音频数据，并将所述第一语言的音频数据通过所述第一链路无线传输给所述主机模块，所述主机模块将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据通过其第三语音播放单元进行播放；

所述主机模块通过第三语音采集单元采集b用户的第二语言的音频数据，并将所述第二语言的音频数据通过语音翻译单元翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据通过所述第一链路无线传输给所述第一语言采集播放模块，所述第一语言采集播放模块对所述第一语言的音频数据向a用户进行播放。

其中，主机模块的麦克风智能识别b用户的有效语音，而对a用户语音、扬声器和环境音做自动降噪。b用户为多人时，根据音色区分并分别传译，以贴近原发言者的不同音色由A耳机进行播报。同时主机模块的显示单元通过界面可实时显示双方交流双语内容。

第三实施例

本实施例与第一和第二实施例的区别在于，为不同的应用场景，参见图3，如下：

场景三：单主机模块工作：耳机A和耳机B两只耳机均未入耳时，两个链路均关闭，主机模块可以开启双向传译功能。当耳机A处于“未佩戴”的状态，耳机B处于“未佩戴”的状态时，所述同声传译设备采用如下的同声传译的方法：(需要说明的是，主控设备也可以根据设定或实际需求采用以下方法，这里通过判断佩戴状态进行操作仅为举例，本发明不对此做出限定)

主机模块的第三语音采集单元采集a用户的第一语言的音频数据，并将其发送给语音翻译单元，语音翻译单元将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据发送给第三语音播放单元进行播放；

主机模块的第三语音采集单元采集b用户的第二语言的音频数据，并将其发送给语音翻译单元，语音翻译单元将所述第二语言的音频数据翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据发送给第三语音播放单元进行播放。

主机模块的显示单元通过界面可实时显示双方交流双语内容。

需要说明的是：此时第一语言或第二语言的音频数据的声音来源，可以来自于直接a用户或b用户人的声音，也可以是手机或多媒体或其他播音装置播放或传输的a用户或b用户的声音数据。本发明不对此做出限定。此模式下，主机模块同时只处理并传译一方的语音。另一方需要在扬声器播放完毕后再开始发言。

第四实施例

与前三个实施例不同点在于，本发明的第四实施例中，第一语言采集播放模块为蓝牙无线耳机：耳机A，第二语言采集播放模块为智能手机：手机B。主机模块分别与耳机A和手机B建立蓝牙通道1、蓝牙通道2(分别对应第一链路和第二链路)。

第一语言采集模块和智能手机上均设置有红外传感器，检测其是否处于佩戴的状态。

本实施例的同声传译的设备，参见图4，可对应以下应用场景：

，场景四：耳机+智能手机远程传译：a用户携带耳机A和手机B，b用户使用自己的手机C与a用户的手机B进行通话；耳机A可和手机B均可通过红外传感器自动识别是否已成功佩戴。手机B和手机C具备一般智能手机的所有功能，均自带扬声器和麦克风。二者之间的通话也符合一般的智能手机之间的通讯情形。

当耳机A和手机B均处于“已佩戴”的状态时，所述同声传译设备采用如下的同声传译的方法：(需要说明的是，主控设备也可以根据设定或实际需求采用以下方法，这里通过判断佩戴状态进行操作仅为举例，本发明不对此做出限定)

所述主机模块打开其与耳机A之间建立的第一链路，所述主机模块打开其与手机B之间建立的第二链路；主机模块关闭第三语音采集单元和第三语音播放单元的功能，打开语音翻译单元的功能。

在主机模块上完成语言、模式等设置操作后，耳机A采集a用户的第一语言的音频数据，并将所述第一语言的音频数据通过所述第一链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第一语言的音频数据翻译为第二语言的音频数据，并将翻译后的第二语言的音频数据通过所述第二链路无线传输给手机B，手机B对所述第二语言的音频数据通过手机C向b用户进行播放；

手机B通过手机C采集b用户的第二语言的音频数据，并将所述第二语言的音频数据通过所述第二链路无线传输给所述主机模块，所述主机模块的语音翻译单元将所述第二语言的音频数据翻译为第一语言的音频数据，并将翻译后的第一语言的音频数据通过所述第一链路无线传输给耳机A，所述耳机A对所述第一语言的音频数据向a用户进行播放，实现远程同声传译和电话语音的即时翻译。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种同声传译设备，其特征在于，包括：

所述主机模块进一步包括：

2.如权利要求1所述的设备，其特征在于，第一语言采集播放模块为无线蓝牙耳机或智能手机。

3.如权利要求1所述的设备，其特征在于，第二语言采集播放模块为无线蓝牙耳机或智能手机。

4.如权利要求1所述的设备，其特征在于，所述第一语言采集播放模块和第二语言采集播放模块均设置有检测单元，用于采集二者的佩戴状态信号，并将信号发送给主机模块；主机模块依据该信号判断第一语言采集播放模块和第二语言采集播放模块是否处于佩戴状态，并依据不同的佩戴状态选择打开或关闭第一链路和第二链路，并选择打开或关闭其各个单元的功能，如下：

5.如权利要求1所述的设备，其特征在于，所述主机模块还包括：显示单元，用于以字幕形式实时显示第一语言和第二语言的音频数据。

6.如权利要求1所述的设备，其特征在于，所述第一语言采集播放模块和第二语言采集播放模块可内置于所述主机模块。

7.如权利要求1所述的设备，其特征在于，所述主机模块设置有充电口，可供所述第一语言采集播放模块和第二语言采集播放模块充电。

8.一种同声传译的方法，其特征在于，应用于如权利要求1至权利要求7中任意一项所述的同声传译设备，包括以下步骤：

9.一种同声传译的方法，其特征在于，应用于如权利要求1至权利要求7中任意一项所述的同声传译设备，包括以下步骤：

10.一种同声传译的方法，其特征在于，应用于如权利要求1至权利要求7中任意一项所述的同声传译设备，包括以下步骤：