CN109243424A

CN109243424A - 一种一键语音翻译终端及翻译方法

Info

Publication number: CN109243424A
Application number: CN201810990264.4A
Authority: CN
Inventors: 代法刚; 陈宜义
Original assignee: Hefei Star Space Mdt Infotech Ltd
Current assignee: Hefei Star Space Mdt Infotech Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-01-18

Abstract

本发明公开了一种一键语音翻译终端及翻译方法，一种一键语音翻译终端，包括通过通信协议连接于服务器的机体，其中；所述服务器包括识别引擎、翻译引擎和合成引擎；所述机体包括相互匹配设置的第一壳体和第二壳体，所述第一壳体设有显示屏、麦克风和激活按钮，所述第二壳体设有扬声器、充电槽和SIM卡座。本发明：通过终端接入服务器，具有极高的准确率，可以让用户体验更好更快捷的翻译机服务，另外系统和语音识别模型共用网络，降低了计算资源，同时极短时间的语种判别，减少了多语种语音识别的调用时间，多语言的输出结果也增加了语种识别的并发量，而且能够极大简化翻译器的使用流程，避免误按，促进跨语言交流。

Description

一种一键语音翻译终端及翻译方法

技术领域

本发明涉及语音识别技术领域，具体来说，涉及一种一键语音翻译终端及翻译方法。

背景技术

随着经济的快速发展，对外交流越来越广泛，而对于许多人来说语言不通是对外交流的一大障碍。为了解决上述问题，市场上出现了各种各样的语音翻译设备。语音翻译设备凭借着强大的语言翻译功能，深受广大有语言翻译需求的人士的欢迎，同时也是人们学习外语的好帮手。语音翻译设备可以在双方对话的过程中进行翻译，使得使用不同语言的用户可以无障碍交流。

语音翻译设备的大致翻译流程为：语音翻译设备接收用户的原始语音信息，将语音信息发送给语音翻译引擎，语音翻译引擎将原始语音信息翻译为目标语音信息（从一种语言翻译为另一种语言）并返回给语音翻译设备，语音翻译设备再输出目标语音信息。目前的语音翻译引擎主要包括谷歌引擎、微软引擎、IBM引擎、讯飞引擎、百度引擎、金山引擎等，而每个语音翻译引擎又包括语音识别引擎、文本翻译引擎和语音合成引擎，各个引擎能支持的语言种类、计费标准、处理时延、翻译准确度各不相同。

然而，目前的语音翻译设备只支持单一的引擎，例如只支持百度引擎，通过百度引擎的语音识别引擎、文本翻译引擎和语音合成引擎来实现语音翻译。但百度引擎目前只能够对十余种主流语言进行翻译，而针对某些小语种则无法翻译。某些引擎或许可以翻译小语种，但在使用费用、翻译速度、翻译准确度等方面可能又不尽如人意。由此可见，现有的语音翻译设备，但是翻译过程需要操作多个按键，较为繁琐，容易影响到交流的顺畅性，复杂的操作也不利于翻译器的推广和使用。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种一键语音翻译终端及翻译方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种一键语音翻译终端。

一种一键语音翻译终端，包括通过通信协议连接于服务器的机体，其中；

所述服务器包括识别引擎、翻译引擎和合成引擎；

所述机体包括相互匹配设置的第一壳体和第二壳体，所述第一壳体设有显示屏、麦克风和激活按钮，所述第二壳体设有扬声器、充电槽和SIM卡座，位于所述第一壳体和所述第二壳体之间设有处理模块、语音提取模块、识别模块、通信模块、电源模块、显示模块、存储模块、播放模块和翻译文本生成模块，所述处理模块包括目标语音选择单元，所述识别模块包括声学特征提取单元，所述通信模块包括SIM传输单元、无线网络传输单元和蓝牙传输单元，其中；

所述识别引擎，用于接收识别机体的源语音特征信息和目标语音信息；

所述翻译引擎，用于接收识别引擎信息，并提取语音特征序列；

所述合成引擎，同于接收语音特征序列并通过预先训练完成的语音建模进行合成目标语音信息传输至机体；

所述处理模块，用于信息处理；

所述语音提取模块，用于连接麦克风提取源语音信息；

所述识别模块，用于接收并识别源语音特征语音信息；

所述通信模块，用于连接服务器进行信息传输；

所述电源模块，用于连接充电槽进行供电；

所述显示模块，用于连接显示屏进行目标语言确定以及显示文本信息；

所述存储模块，用于运行内存存储以及信息存储；

所述播放模块，用于连接扬声器进行播放目标语音；

所述翻译文本生成模块，用于源语音信息翻译文本信息和目标语音翻译文本信息，

所述声学特征提取单元，用于识别源语音信息提取声学特征信息；

所述SIM传输单元，用于SIM通信协议与服务器进行信息传输；

所述无线网络传输单元，用于无线网络通信协议与服务器进行信息传输；

所述蓝牙传输单元，用于蓝牙通信协议与PC端和移动端进行信息传输。

进一步的，所述声学特征提取单元包括性别信息和声纹信息。

进一步的，所述显示屏为LED触摸显示屏。

进一步的，所述合成引擎包括ASR识别模型，所述ASR识别模型包括CNN分类模型、FC分类模型和LSTM分类模型。

根据本发明的另一个方面，提供了一种一键语音翻译方法。

一种一键语音翻译方法，包括以下步骤：

建立网络连接，将终端设备通过网络与服务器连接，其中，包括：终端通过SIM传输协议与服务器连接；终端通过无线网络传输协议与服务器连接；终端通过蓝牙传输协议与PC端或手机端连接，PC端或手机端通过无线网络传输协议与服务器连接；

激活休眠，通过显示屏选择并确定要输出的目标语音；

录入语音，按动按钮通过麦克风输入源语音，源语音通过识别模块确定声学信息并传输至处理模块，处理模块将信息分别通过通信模块传输至服务器和通过翻译文本生成模块以及显示屏，显示源语音的文本信息；

翻译语音，服务器将接收的信息提取语音特征序列，将语音特征序列通过语音建模进行合成目标语音传输至终端；

播放语音，终端将接收的目标语音通过翻译文本生成模块和显示屏以及扬声器进行播放和文本信息显示。

其中，所述语音建模包括预先装配训练完成的自动语音识别模型，所述自动语音识别模型包括深度卷积神经网络分类模型、全连接网络分类模型和长短时记忆循环网络分类模型。

本发明的有益效果：本发明通过终端接入服务器，具有极高的准确率，可以让用户体验更好更快捷的翻译机服务，另外系统和语音识别模型共用网络，降低了计算资源，同时极短时间的语种判别，减少了多语种语音识别的调用时间，多语言的输出结果也增加了语种识别的并发量，而且能够极大简化翻译器的使用流程，避免误按，促进跨语言交流。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种一键语音翻译终端的结构示意图之一；

图2是根据本发明实施例的一种一键语音翻译终端的结构示意图之二；

图3是根据本发明实施例的一种一键语音翻译终端的网络拓扑图；

图4是根据本发明实施例的一种一键语音翻译终端的原理框图；

图5是根据本发明实施例的一种一键语音翻译终端的服务器的原理框图；

图6是根据本发明实施例的一种一键语音翻译方法的流程示意图。

图中：

1、服务器；2、机体；3、识别引擎；4、翻译引擎；5、合成引擎；6、第一壳体；7、第二壳体；8、显示屏；9、麦克风；10、激活按钮；11、扬声器；12、充电槽；13、SIM卡座；14、处理模块；15、语音提取模块；16、识别模块；17、通信模块；18、电源模块；19、显示模块；20、存储模块；21、播放模块；22、翻译文本生成模块；23、目标语音选择单元；24、声学特征提取单元；25、SIM传输单元；26、无线网络传输单元；27、蓝牙传输单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种一键语音翻译终端。

如图1-5所示，根据本发明实施例的一键语音翻译终端，包括通过通信协议连接于服务器1的机体2，其中；

所述服务器1包括识别引擎3、翻译引擎4和合成引擎5；

所述机体2包括相互匹配设置的第一壳体6和第二壳体7，所述第一壳体6设有显示屏8、麦克风9和激活按钮10，所述第二壳体7设有扬声器11、充电槽12和SIM卡座13，位于所述第一壳体6和所述第二壳体7之间设有处理模块14、语音提取模块15、识别模块16、通信模块17、电源模块18、显示模块19、存储模块20、播放模块21和翻译文本生成模块22，所述处理模块14包括目标语音选择单元23，所述识别模块16包括声学特征提取单元24，所述通信模块17包括SIM传输单元25、无线网络传输单元26和蓝牙传输单元27，其中；

所述识别引擎3，用于接收识别机体2的源语音特征信息和目标语音信息；

所述翻译引擎4，用于接收识别引擎信息，并提取语音特征序列；

所述合成引擎5，同于接收语音特征序列并通过预先训练完成的语音建模进行合成目标语音信息传输至机体2；

所述处理模块14，用于信息处理；

所述语音提取模块15，用于连接麦克风9提取源语音信息；

所述识别模块16，用于接收并识别源语音特征语音信息；

所述通信模块17，用于连接服务器1进行信息传输；

所述电源模块18，用于连接充电槽12进行供电；

所述显示模块19，用于连接显示屏8进行目标语言确定以及显示文本信息；

所述存储模块20，用于运行内存存储以及信息存储；

所述播放模块21，用于连接扬声器11进行播放目标语音；

所述翻译文本生成模块22，用于源语音信息翻译文本信息和目标语音翻译文本信息，

所述声学特征提取单元24，用于识别源语音信息提取声学特征信息；

所述SIM传输单元25，用于SIM通信协议与服务器1进行信息传输；

所述无线网络传输单元26，用于无线网络通信协议与服务器1进行信息传输；

所述蓝牙传输单元27，用于蓝牙通信协议与PC端和移动端进行信息传输。

在一个实施例中，所述声学特征提取单元24包括性别信息和声纹信息。所述显示屏8为LED触摸显示屏。所述显示屏8为LED触摸显示屏。

根据本发明的实施例，提供了一种一键语音翻译方法。

如图6所示，根据本发明实施例的一键语音翻译方法，包括以下步骤：

S101建立网络连接，将终端设备通过网络与服务器连接，其中，包括：终端通过SIM传输协议与服务器连接；终端通过无线网络传输协议与服务器连接；终端通过蓝牙传输协议与PC端或手机端连接，PC端或手机端通过无线网络传输协议与服务器连接；

S103激活休眠，通过显示屏选择并确定要输出的目标语音；

S105录入语音，按动按钮通过麦克风输入源语音，源语音通过识别模块确定声学信息并传输至处理模块，处理模块将信息分别通过通信模块传输至服务器和通过翻译文本生成模块以及显示屏，显示源语音的文本信息；

S107翻译语音，服务器将接收的信息提取语音特征序列，将语音特征序列通过语音建模进行合成目标语音传输至终端；

S109播放语音，终端将接收的目标语音通过翻译文本生成模块和显示屏以及扬声器进行播放和文本信息显示。

另外，在一个实施例中，所述语音建模包括预先装配训练完成的自动语音识别模型，所述自动语音识别模型包括深度卷积神经网络分类模型、全连接网络分类模型和长短时记忆循环网络分类模型。

综上所述，借助于本发明的上述技术方案，通过终端接入服务器，具有极高的准确率，可以让用户体验更好更快捷的翻译机服务，另外系统和语音识别模型共用网络，降低了计算资源，同时极短时间的语种判别，减少了多语种语音识别的调用时间，多语言的输出结果也增加了语种识别的并发量，而且能够极大简化翻译器的使用流程，避免误按，促进跨语言交流。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种一键语音翻译终端，其特征在于，包括通过通信协议连接于服务器（1）的机体（2），其中；

所述服务器（1）包括识别引擎（3）、翻译引擎（4）和合成引擎（5）；

所述机体（2）包括相互匹配设置的第一壳体（6）和第二壳体（7），所述第一壳体（6）设有显示屏（8）、麦克风（9）和激活按钮（10），所述第二壳体（7）设有扬声器（11）、充电槽（12）和SIM卡座（13），位于所述第一壳体（6）和所述第二壳体（7）之间设有处理模块（14）、语音提取模块（15）、识别模块（16）、通信模块（17）、电源模块（18）、显示模块（19）、存储模块（20）、播放模块（21）和翻译文本生成模块（22），所述处理模块（14）包括目标语音选择单元（23），所述识别模块（16）包括声学特征提取单元（24），所述通信模块（17）包括SIM传输单元（25）、无线网络传输单元（26）和蓝牙传输单元（27），其中；

所述识别引擎（3），用于接收识别机体（2）的源语音特征信息和目标语音信息；

所述翻译引擎（4），用于接收识别引擎信息，并提取语音特征序列；

所述合成引擎（5），同于接收语音特征序列并通过预先训练完成的语音建模进行合成目标语音信息传输至机体（2）；

所述处理模块（14），用于信息处理；

所述语音提取模块（15），用于连接麦克风（9）提取源语音信息；

所述识别模块（16），用于接收并识别源语音特征语音信息；

所述通信模块（17），用于连接服务器（1）进行信息传输；

所述电源模块（18），用于连接充电槽（12）进行供电；

所述显示模块（19），用于连接显示屏（8）进行目标语言确定以及显示文本信息；

所述存储模块（20），用于运行内存存储以及信息存储；

所述播放模块（21），用于连接扬声器（11）进行播放目标语音；

所述翻译文本生成模块（22），用于源语音信息翻译文本信息和目标语音翻译文本信息，

所述声学特征提取单元（24），用于识别源语音信息提取声学特征信息；

所述SIM传输单元（25），用于SIM通信协议与服务器（1）进行信息传输；

所述无线网络传输单元（26），用于无线网络通信协议与服务器（1）进行信息传输；

所述蓝牙传输单元（27），用于蓝牙通信协议与PC端和移动端进行信息传输。

2.根据权利要求1所述的一键语音翻译终端，其特征在于，所述声学特征提取单元（24）包括性别信息和声纹信息。

3.根据权利要求1所述的一键语音翻译终端，其特征在于，所述显示屏（8）为LED触摸显示屏。

4.根据权利要求1所述的一键语音翻译终端，其特征在于，所述合成引擎（5）包括ASR识别模型，所述ASR识别模型包括CNN分类模型、FC分类模型和LSTM分类模型。

5.一种一键语音翻译方法，其特征在于，用于权利要求1所述的一键语音翻译终端的翻译方法，包括以下步骤：

激活休眠，通过显示屏选择并确定要输出的目标语音；

6.根据权利要求5所述的一键语音翻译方法，其特征在于，所述语音建模包括预先装配训练完成的自动语音识别模型，所述自动语音识别模型包括深度卷积神经网络分类模型、全连接网络分类模型和长短时记忆循环网络分类模型。