CN107885736A

CN107885736A - 翻译方法及装置

Info

Publication number: CN107885736A
Application number: CN201711229757.8A
Authority: CN
Inventors: 赖阳
Original assignee: Shenzhen Water World Co Ltd
Current assignee: Shenzhen Water World Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-04-06

Abstract

本发明揭示了一种翻译方法以及翻译装置，其中翻译方法的主要步骤是将获取的声音信号转换成音频信息后分离成多个子音频信息，把仅符合声纹要求的子音频信息发送给服务器进行翻译。本发明的翻译方法可以节省翻译的工作量，提高翻译效率，加快翻译时间。

Description

翻译方法及装置

技术领域

本发明涉及到翻译领域，特别是涉及到一种翻译方法及装置。

背景技术

目前市面上的语音翻译方法一般是指定说出某种语言，然后指定翻译后的语言，录入语音之后，经过语音转文本、文本翻译、文本转语音，最终输出语音达到翻译的目的，这种方式存在一些缺陷，在多人同时说话或者有旁人干扰的时候会出现翻译错乱的情况，将一些无效声音也翻译出来了，给收听翻译的人造成一定的干扰。

发明内容

本发明的主要目的为提供一种翻译方法及装置，翻译的时候过滤掉不是讲话人的声音，提高翻译效率。

本发明提出一种翻译方法，包括步骤：

S4、将获取的第一声音信号转换成音频信息；

S5、从所述音频信息中分离出子音频信息，所述子音频信息包含声纹属性；

S6、将所述子音频信息与预存的声纹信息匹配；

S10、将匹配成功的所述子音频信息发送至服务器；

S11、接收服务器根据所述子音频信息反馈的翻译信息；

S12、输出所述翻译信息。

进一步地，所述从所述音频信息中分离出子音频信息采用的技术为非线性时频掩蔽盲分离技术。

进一步地，所述将获取的第一声音信号转换成音频信息之前包括步骤：

S1、获取第二声音信号；

S2、从所述第二声音信号中提取所述声纹信息；

S3、预存所述声纹信息。

进一步地，所述预存所述声纹信息的步骤包括：

S31、显示对话框，所述对话框具有确认保存所述声纹信息的保存图标；

S32、接收用户点击所述保存图标产生的保存指令；

S33、根据所述保存指令生成与所述声纹信息对应的标记；

S34、存储所述声纹信息以及对应的所述标记。

进一步地，所述将匹配成功的子音频信息发送至服务器的步骤包括：

S101、若所述声纹属性与预存的声纹信息匹配成功，则对所述子音频信息配置对应的所述标号；

S102、所述子音频信息配置及对应的所述标号发送服务器。

进一步地，所述将所述子音频信息与预存的声纹信息匹配的步骤之前包括：

S61、根据所述子音频信息分析位置来源；

S62、分析所述位置来源与预存的位置信息是否相符；

S62，若相符，则执行步骤“将所述子音频信息与预存的声纹信息匹配”。

进一步地，所述获取第二声音信号的步骤之后包括：

S1A、根据所述第二声音信号分析所述位置信息；

S1B、预存所述位置信息。

进一步地，所述翻译信息携带所述标记。

进一步地，所述子音频信息为一个或两个以上，对应地，所述声纹属性、预存的所述声纹信息、分别为一个或两个以上。

本发明还提出一种翻译装置，包括：

转换模块，用于将获取的第一声音信号转换成音频信息；

分离模块，用于将所述音频信息分离出子音频信息，所述子音频信息声纹属性；

匹配模块，用于将所述子音频信息与预存的声纹信息匹配；

发送模块，用于将匹配成功的子音频信息发送至服务器；

接收模块，用于接收服务器根据所述子音频信息反馈的翻译信息，

输出模块，用于输出所述翻译信息。

进一步地，所述分离模块从所述音频信息中分离出子音频信息采用的技术为非线性时频掩蔽盲分离技术。

进一步地，所述翻译装置还包括：

获取模块，用于第二声音信号；

特征信息模块，用于从所述第二声音信号中提取所述声纹信息；

预存声纹模块，用于预存所述第一声纹信息。

进一步地，所述预存声纹模块包括：

对话框单元，用于显示对话框，所述对话框具有确认保存所述声纹信息的保存图标；

保存单元，用于接收用户点击所述保存图标产生的保存指令；

标记单元，用于根据所述保存指令生成与所述声纹信息对应的标记；

存储单元，用于存储所述声纹信息以及对应的所述标记。

进一步地，所述发送模块包括：

配置单元，用于若所述声纹属性与预存的声纹信息匹配成功，则对所述子音频信息配置对应的所述标号；

发送单元，用于所述子音频信息配置及对应的所述标号发送服务器。

进一步地，所述翻译装置还包括：

位置来源模块，用于根据所述子音频信息分析位置来源；

位置判断模块，用于分析所述位置来源与预存的位置信息是否相符；

位置判定模块，用于判定位置来源与预存的位置信息相符，调用匹配模块。

进一步地，所述翻译装置还包括：

分析位置模块，用于根据所述第二声音信号分析所述位置信息；

预存位置模块，用于预存所述位置信息。

进一步地，所述翻译信息携带所述标记。

相对现有技术，本发明的有益效果是：本发明的翻译方法通过将音频信息进行分离后现匹配，选择匹配成功的音频信息进行翻译，滤去了不必要翻译的噪音或其他人的声音，提高了翻译的效率。提前将讲话人的声纹信息预存，在翻译的时候只会翻译讲话人的声音，使翻译的结果更加准确。在预存讲话人的声音信息时，将讲话人的身份信息也存起来，在将翻译结果进行输出的时候连同讲话人的身份也一起输出，使受众理解起来更加方便。

附图说明

图1是本发明一实施例的翻译方法的步骤示意图；

图2是本发明一实施例的翻译方法的步骤示意图；

图3是本发明一实施例的翻译方法的步骤示意图；

图4是本发明一实施例的翻译方法的步骤示意图；

图5是本发明一实施例的翻译方法的步骤示意图；

图6是本发明一实施例的翻译方法的步骤示意图；

图7是本发明一实施例的翻译装置的步骤示意图；

图8是本发明一实施例的翻译装置的步骤示意图；

图9是本发明一实施例的翻译装置的步骤示意图；

图10是本发明一实施例的翻译装置的步骤示意图；

图11是本发明一实施例的翻译装置的步骤示意图；

图12是本发明一实施例的翻译装置的步骤示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，提出本发明一实施例的翻译方法，其应用于翻译机，该方法包括步骤：

S4、将获取的第一声音信号转换成音频信息；

S6、将所述声纹属性与预存的声纹信息匹配；

S10、将匹配成功的所述子音频信息发送至服务器；

S11、接收服务器根据所述子音频信息反馈的翻译信息；

S12、输出所述翻译信息。

本实施例中，声纹是用电声学仪器显示的携带言语信息的声波频谱，每个人的声纹都不一样，可以根据声纹来识别每个人。从音频信息分离出子音频信息，每个子音频信息中均含语音信息和有声纹属性，即在分离的时候，先分析该音频信息中有多少个人的声纹，就分离出多少个子音频信息，每个子音频信息包含一个声纹属性。然后将子音频信息的声纹属性与预存的声纹信息匹配，如果匹配成功，说明该子音频信息是需要进行翻译的，则将对应的子音频信息发送至服务器，等待服务器根据语音信息进行翻译出翻译信息过后，发送给该翻译机，翻译机接收服务器发来的翻译信息，通过显示器或扬声器等输出装置输出，给人阅读或收听。

本实施例中，非线性时频掩蔽盲分离技术是一种常见的语音分离技术，该技术是可以快速完整的将音频信息里的各个声纹属性的音频分离出来，使分离出来的每个子音频信息至少包含有一个声纹属性。

参照图2，进一步地，所述将获取的第一声音信号转换成音频信息之前包括步骤：

S1、获取第二声音信号；

S2、从所述第二声音信号中提取所述声纹信息；

S3、预存所述声纹信息。

举例地，用户A在做国际学术报告时，会场有一些外国学者，通过实时翻译收听该报告。在演讲前，会务人员让用户A对着翻译机发出讲话的声音(即第二声音信号)，翻译机接收到用户A的讲话的声音后，其根据用户A的声音，提取出用户A的声纹信息，然后将该声纹信息预存在翻译机的存储器里，等会用户A做演讲时，该翻译机即使接收到其他人说话的声音，但是该声音信号经转成音频信息并分离成子音频信息后，如果没有用户A的声纹信息，因而不会被发送至服务器进行翻译，这样外国的学者在收听用户A的报告时，避免收听到其他人的说话。其中，翻译机在提取用户A的声音信号中的声纹信息时，利用Mel频率倒谱系数特征逐一提取技术将音频信息转换为MFCC特征信息。

参照图3，进一步地，所述预存所述声纹信息的步骤包括：

S32、接收用户点击所述保存图标产生的保存指令；

S33、根据所述保存指令生成与所述声纹信息对应的标记；

S34、存储所述声纹信息以及对应的所述标记。

举例地，用户A做报告时需要与用户B进行互动，因此会务人员需要还将用户B的声纹信息存储在翻译机内，使用户B和用户A的说话内容均需要翻译。翻译机先录取用户A的声纹信息，确认存储时，翻译机弹出对话框，会务人员点击该对话框里的确认保存声纹信息的保存图标，然后翻译机将声纹信息保存起来。翻译机为避免将用户A的声纹信息与用户B的声纹信息搞混，将用户A的声纹信息进行标记，该标记可以为翻译机自动序号的数字，也可以为用户编写文字，例如用户A的名字，翻译机将用户A的声纹信息以及用户A的标记(即用户A的名字)一起存储；然后按同样的方法再存储用户B的声纹信息及用户B的标记(例如用户B的名字)，同样也是将用户B的声纹信息与用户B的标记一起存储。

参照图4，进一步地，所述将匹配成功的子音频信息发送至服务器的步骤包括：

S101、若所述声纹属性与预存的声纹信息匹配成功，则对所述子音频信息配置对应的所述标记；

S102、将所述子音频信息及对应的所述标记发送服务器。

本实施例中，翻译机将子音频信息与预存声纹信息匹配成功，可以将声纹的标记配置给该子音频信息，即含有用户A的声纹的子音频信息标号为用户A的名字，含有用户B的声纹的子音频信息标号为用户B的名字。配置之后，翻译机将子音频信息以及该标记打包发送给服务器。这样方便会务人员后续的整理报告的时候直接搜索与用户A的名字相关的子音频信息，即可以搜索到用户A的全部报告内容。

参照图5，进一步地，所述将所述子音频信息与预存的声纹信息匹配的步骤之前包括：

S61、根据所述子音频信息分析位置来源；

S62、分析所述位置来源与预存的位置信息是否相符；

举例地，翻译机的麦克风获取声音信号都是来自四面八方的，多个麦克风的翻译机所获取的声音更是繁杂。而用户A在做报告的时候，一般也是站在或坐在一个固定的位置，因此翻译机可根据声源定位的技术，分析子音频信息的信号来源，如果该声音来源是预存的位置，那么翻译机就有可判定是用户A发出的声音，如果声音来源不是翻译机预存的位置，翻译机可判定不是用户A发出的声音，那么翻译机无须进入S6步骤，可大大的减少了翻译的工作量。

参照图6，进一步地，所述获取第二声音信号的步骤之后包括：

S11、根据所述第二声音信号分析所述位置信息；

S12、预存所述位置信息。

本实施例中，翻译机接收第一声音信号、第二声音信号时用户A均在同一位置，同样地，翻译机也放置同一位置。进一步地，所述翻译信息携带所述标记。

本实施例中，服务器将子音频信息进行翻译成翻译信息后，同时也将翻译机发来的标记携带上，方便翻译机识别同时方便后续的会务人员整理信息，知道哪些话是谁说的。相应的，将翻译信息携带标记后发送给听报告的听众或观众，他们也清楚的知道此时收听的话是谁说的。具体的例如，用户A在演讲的一句话是“中国的专利申请量越来越多”，某英语观众的显示屏上显示服务器发来的翻译是“Lin:There are more and more patentapplications in China”，其中Lin为上述标记(用户A的姓氏)，这样，英语观众就清楚的知道具体的演讲人以及演讲的话，尤其是适合对话类的有多人同时说话的会议。

进一步地，本发明的子音频信息为一个或两个以上，对应地，所述声纹属性、预存的所述声纹信息分别为一个或两个以上。

本实施例中，声纹属性、子音频信息，预存的声纹信息均可以是多个，一个翻译机可以翻译多个人的说话内容，使用更方便。对应的标记、位置来源、预存的位置信息也对应分别为一个或两个以上。

参照图7，本发明还提出一种翻译装置，其为翻译机，翻译装置包括：

转换模块4，用于将获取的第一声音信号转换成音频信息；

分离模块5，用于将所述音频信息分离出子音频信息，所述子音频信息声纹属性；

匹配模块6，用于将所述子音频信息与预存的声纹信息匹配；

发送模块10，用于将匹配成功的子音频信息发送至服务器；

接收模块11，用于接收服务器根据所述子音频信息反馈的翻译信息，

输出模块12，用于输出所述翻译信息。

本实施例中，声纹是用电声学仪器显示的携带言语信息的声波频谱，每个人的声纹都不一样，和指纹具有相同的性质，可以根据声纹来识别每个人。分离模块5从音频信息分离出子音频信息，每个子音频信息中均含有语音信息和声纹属性，即在分离的时候，先分析该音频信息中有多少个人的声纹，就分离出多少个子音频信息，每个子音频信息包含一个声纹属性。然后匹配模块6将子音频信息的声纹属性与预存的声纹信息匹配，如果匹配成功，说明该子音频信息是需要进行翻译的，则发送模块10将对应的子音频信息发送至服务器，等待服务器根据语音信息和翻译出翻译信息后，发送给该翻译机，接收模块11接收服务器发来的翻译信息，输出模块12通过显示器或扬声器等输出装置输出，给人阅读或收听。

进一步地，所述分离模块5从所述音频信息中分离出子音频信息采用的技术为非线性时频掩蔽盲分离技术。

本实施例中，非线性时频掩蔽盲分离技术是一种常见的语音分离技术，该技术是可以快速完整的将音频信息里的各个声纹属性的音频分离出来，使分离出来的每个子音频信息只包含有至少一个声纹属性的声音。

参照图8，进一步地，所述翻译装置还包括：

获取模块1，用于获取第二声音信号；

特征信息模块2，用于从所述第二声音信号中提取所述声纹信息；

预存声纹模块3，用于预存所述第一声纹信息。

举例地，用户A在做国际学术报告时，会场有一些外国学者，通过实时翻译收听该报告。在演讲前，会务人员让用户A对着翻译机发出讲话的声音(即第二声音信号)，获取模块1接收到用户A的讲话的声音后，其根据用户A的声音，特征信息模块2提取出用户A的声纹信息，然后预存声纹模块3将该声纹信息预存在翻译机的存储器里，等会用户A做演讲时，该翻译机即使接收到其他人说话的声音，但是该声音信号经转成音频信息并分离成子音频信息后，如果没有用户A的声纹信息，因而不会被发送至服务器进行翻译，这样外国的学者在收听用户A的报告时，避免收听到其他人的说话。其中，特征信息模块2与分离模块5提取声音信号中的声纹信息时，均可利用Mel频率倒谱系数特征逐一提取技术将音频信息并转换为MFCC特征信息。

参照图9，进一步地，所述预存声纹模块3包括：

对话框单元31，用于显示对话框，所述对话框具有确认保存所述声纹信息的保存图标；

保存单元32，用于接收用户点击所述保存图标产生的保存指令；

标记单元33，用于根据所述保存指令生成与所述声纹信息对应的标记；

存储单元34，用于存储所述声纹信息以及对应的所述标记。

举例地，用户A做报告时需要与用户B进行互动，因此会务人员需要还将用户B的声纹信息存储在翻译机内，使用户B和用户A的说话内容均需要翻译。获取模块1先录取用户A的声纹信息，录取完毕后对话框单元31弹出对话框，会务人员点击该对话框里的确认保存声纹信息的保存图标，然后保存单元32将声纹信息保存起来。翻译机为避免将用户A的声纹信息与用户B的声纹信息搞混，标记单元33将用户A的声纹信息进行标记，该标记可以为翻译机自动序号的数字，也可以为用户编写文字，例如用户A的名字，存储单元34在存储的时候将用户A的声纹信息以及用户A的标记(即用户A的名字)一起存储；然后按同样的方法再存储用户B的声纹信息及用户B的标记(例如用户B的名字)，同样也是将用户B的声纹信息与用户B的标记一起存储。

参照图10，进一步地，所述发送模块10包括：

配置单元101，用于若所述声纹属性与预存的声纹信息匹配成功，则对所述子音频信息配置对应的所述标记；

发送单元102，用于将所述子音频信息及对应的所述标记发送服务器。

本实施例中，翻译机将子音频信息与预存的声纹信息匹配成功，配置单元101可以将声纹的标记配置给该子音频信息，即含有用户A的声纹的子音频信息标号为用户A的名字，含有用户B的声纹的子音频信息标号为用户B的名字。配置之后，发送单元102将子音频信息以及该标记打包发送给服务器。这样方便会务人员后续的整理报告的时候直接搜索与用户A的名字相关的子音频信息，即可以搜索到用户A的全部报告内容。

参照图11，进一步地，所述翻译装置还包括：

位置来源模块61，用于根据所述子音频信息分析位置来源；

位置判断模块62，用于分析所述位置来源与预存的位置信息是否相符；

位置判定模块63，用于判定位置来源与预存的位置信息相符，启动匹配模块6。

举例地，获取模块1为麦克风，其获取声音信号可能来自四面八方的，多个麦克风的翻译机所获取的声音更是繁杂。而用户A在做报告的时候，一般也是站在或坐在一个固定的位置，因此位置来源模块61根据声源定位的技术分析子音频信息的信号来源，如果位置判断模块62判定该声音来源与预存的位置相符，说明是用户A发出的声音，则位置判定模块63启动匹配模块6继续后续的匹配翻译工作。如果声音来源与预存的位置不相符，说明不可能是用户A发出的声音，判定模块63则不启动匹配模块6，大大的减少了翻译的工作量。

参照图12，进一步地，所述翻译装置还包括：

分析位置模块110，用于根据所述第二声音信号分析所述位置信息；

预存位置模块120，用于预存所述位置信息。

本实施例中，翻译机接收第一声音信号、第二声音信号时用户A均在同一位置，同样地，翻译机也放置同一位置进一步地，所述翻译信息携带所述标记。

本实施例中，服务器将语音进行翻译后，同时也将翻译机发来的标记携带上，方便翻译机识别同时方便后续的会务人员整理信息，知道哪些话是谁说的。相应的，将翻译信息携带标记后发送给听报告的听众或观众，他们也清楚的知道此时收听的话是谁说的。具体的，输出装置为显示屏时，将标记也输出在显示屏上。例如，用户A在演讲的一句话是“中国的专利申请量越来越多”，某英语观众的显示屏上显示服务器发来的翻译是“Lin:Thereare more and more patent applications in China”。其中Lin为上述标记(用户A的姓氏)，这样，英语观众就清楚的知道具体的演讲人以及演讲的话，尤其是适合对话类的有多人同时说话的会议。

进一步地，本发明的所述子音频信息为一个或两个以上，对应地，所述声纹属性、预存的所述声纹信息、分别为一个或两个以上。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种翻译方法，包括步骤：

S4、将获取的第一声音信号转换成音频信息；

S6、将所述子音频信息与预存的声纹信息匹配；

S10、将匹配成功的所述子音频信息发送至服务器；

S11、接收服务器根据所述子音频信息反馈的翻译信息；

S12、输出所述翻译信息。

2.如权利要求1所述的翻译方法，其特征在于，所述从所述音频信息中分离出子音频信息采用的技术为非线性时频掩蔽盲分离技术。

3.如权利要求1所述的翻译方法，其特征在于，所述将获取的第一声音信号转换成音频信息之前包括步骤：

S1、获取第二声音信号；

S2、从所述第二声音信号中提取所述声纹信息；

S3、预存所述声纹信息。

4.如权利要求3所述的翻译方法，其特征在于，所述预存所述声纹信息的步骤包括：

S32、接收用户点击所述保存图标产生的保存指令；

S33、根据所述保存指令生成与所述声纹信息对应的标记；

S34、存储所述声纹信息以及对应的所述标记。

5.如权利要求1-4任意一项所述的翻译方法，其特征在于，所述子音频信息为一个或两个以上，对应地，所述声纹属性、预存的所述声纹信息、分别为一个或两个以上。

6.一种翻译装置，其特征在于，包括：

转换模块，用于将获取的第一声音信号转换成音频信息；

匹配模块，用于将所述子音频信息与预存的声纹信息匹配；

发送模块，用于将匹配成功的子音频信息发送至服务器；

输出模块，用于输出所述翻译信息。

7.如权利要求6所述的翻译装置，其特征在于，所述分离模块从所述音频信息中分离出子音频信息采用的技术为非线性时频掩蔽盲分离技术。

8.如权利要求6所述的翻译装置，其特征在于，还包括：

获取模块，用于第二声音信号；

预存声纹模块，用于预存所述第一声纹信息。

9.如权利要求8所述的翻译装置，其特征在于，所述预存声纹模块包括：

存储单元，用于存储所述声纹信息以及对应的所述标记。

10.如权利要求6-9任一项所述的翻译装置，其特征在于，所述子音频信息为一个或两个以上，对应地，所述声纹属性、预存的所述声纹信息、分别为一个或两个以上。