CN107273364A

CN107273364A - 一种语音翻译方法和装置

Info

Publication number: CN107273364A
Application number: CN201710339379.2A
Authority: CN
Inventors: 唐海玉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2017-10-20

Abstract

本申请公开了一种语音翻译方法和装置。该方法包括：接收用户输入的语音数据；识别所述语音数据中的待翻译内容和补充信息；其中，所述补充信息用于对所述待翻译内容进行解释说明；基于所述补充信息，对所述待翻译内容进行翻译。根据本申请实施例的技术方案，对待翻译内容的翻译结果准确，大大提高用户的语音输入使用体验。

Description

一种语音翻译方法和装置

技术领域

本公开一般涉及计算机技术领域，具体涉及语音识别领域，尤其涉及一种语音翻译方法和装置。

背景技术

语音识别技术随着计算机和相关软硬件技术的发展，已经越来越多的应用在各个领域，其准确率也在不断提高。在环境安静和发音标准的特定条件下，用户在使用语音输入的时候，语音识别的准确率已经可以达到95％以上。

但是，当用户在使用语音输入文字时，由于每个人口音或者普通话不标准的原因，以及很多文字音同字不同，经常造成的现象就是，用户真实想输入的东西，经过语言说出之后，语音翻译得到的文字并非用户想表达的意思。

比如，有个用户的名字叫“王岚”，用户通过语音输入说出“王岚”之后，语音输入很有可能就给翻译成“王兰”，这样完全和用户想得到的意思不一致。

针对上述这种情况，目前还未提出有效的解决方案。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种能够有效提高语音翻译准确率的方案。

第一方面，本申请实施例提供了一种语音翻译方法，包括：

接收用户输入的语音数据；

识别所述语音数据中的待翻译内容和补充信息；其中，所述补充信息用于对所述待翻译内容进行解释说明；

基于所述补充信息，对所述待翻译内容进行翻译。

第二方面，本申请实施例还提供了一种语音翻译装置，包括：

接收单元，用于接收用户输入的语音数据；

识别单元，用于识别所述语音数据中的待翻译内容和补充信息；其中，所述补充信息用于对所述待翻译内容进行解释说明；

翻译单元，用于基于所述补充信息，对所述待翻译内容进行翻译。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述语音翻译方法。

本申请实施例提供的语音翻译方案，通过在语音数据中加入用于对待翻译内容进行解释说明的补充信息，从而能够利用补充信息对待翻译内容进行准确翻译。按照本申请实施例的技术方案，对待翻译内容的翻译结果准确，大大提高用户的语音输入使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了其中可以应用本申请实施例的示例性系统架构；

图2示出了根据本申请实施例的语音翻译方法的示例性流程图；

图3示出了根据本申请一个实施例的语音翻译装置的示例性结构框图；以及

图4示出了适于用来实现本申请实施例的终端设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了可以应用本申请实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、网络103和服务器104、105、106和107。网络103用以在终端设备101、102和服务器104、105、106、107之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102通过网络103与服务器104、105、106、107交互，以访问各种服务，例如浏览网页、下载数据等。终端设备101、102上可以安装有各种客户端应用，例如可以接入统一资源定位符URL云服务的应用，包括但不限于浏览器、安全应用等。

终端设备101、102可以是各种电子设备，包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。

服务器104、105、106、107可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解，一个服务器可以提供一种或多种服务，同一种服务也可以由多个服务器来提供。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

如背景技术中所提到的，现有技术中，当用户在使用语音输入文字时，由于每个人口音或者普通话不标准的原因，以及很多文字音同字不同，经常造成的现象就是，用户真实想输入的东西，经过语言说出之后，语音翻译得到的文字并非用户想表达的意思。

鉴于现有技术的上述缺陷，本申请实施例提供了一种语音翻译方案，通过在语音数据中加入用于对待翻译内容进行解释说明的补充信息，从而能够利用补充信息对待翻译内容进行准确翻译。按照本申请实施例的技术方案，对待翻译内容的翻译结果准确，大大提高用户的语音输入使用体验。

下面将结合流程图来描述本申请实施例的方法。

参考图2，其示出了根据本申请一个实施例的语音翻译方法的示例性流程图。图2所示的方法可以在图1中的终端设备端执行。

如图2所示，包括如下步骤：

步骤210，接收用户输入的语音数据。

用户可以经由其终端设备上安装的应用来输入语音数据，比如聊天类应用，用户可以将消息通过输入语音翻译成文字发送，或者提供搜索服务的应用，比如浏览器，用户可以通过浏览器中的搜索框来输入语音。

步骤220，识别语音数据中的待翻译内容和补充信息；其中，补充信息是对待翻译内容进行解释说明的。

步骤230，基于补充信息，对待翻译内容进行翻译。

其中，步骤220的一种实现方式可以为：

首先，判断语音数据中是否包含补充信息，当判断结果为是时，再确定语音数据中的待翻译内容和补充信息，当判断结果为否时，则对语音数据进行完整翻译，即对语音数据中的所有数据均进行翻译。

具体的，判断语音数据中是否包含补充信息可以但不限于按照如下方式实现：

判断语音数据是否符合预先设置的句式结构；

当语音数据符合预先设置的句式结构时，确定语音数据中包含补充信息；

当语音数据不符合预先设置的句式结构时，确定语音数据中不包含补充信息。

上述这种方式可以简称为结构化的语音输入识别，基于这种方式，确定语音数据中的待翻译内容和补充信息可以但不限于按照如下方式实现：

根据预先设置的句式结构指示的待翻译内容位置和补充信息位置，将语音数据中待翻译内容位置对应的数据确定为待翻译内容，补充信息位置对应的数据确定为补充信息。

比如，预先设置句式结构“AB，A是什么的A，B是什么的B”，这种句式一般只是想完整的表达前面这部分的意思，后面的信息是用户把前面的信息进行强调，使翻译输入能够很好的理解，以翻译得到正确的结果，即“AB”为待翻译内容，其所在位置为待翻译内容位置，“A是什么的A，B是什么的B”为补充信息，其所在位置为补充信息位置。

仍以上述提到的“王岚”为例，本申请实施例中，当用户说出“王岚，岚是纪晓岚的岚”时，将语音数据中待翻译内容位置对应的数据，即“王岚”确定为待翻译内容，将补充信息位置对应的数据“岚是纪晓岚的岚”确定为补充信息。

如果基于现有的语音翻译方法，如果用户说出“王岚，岚是纪晓岚的岚”时，语音输入很有可能会把前面这句话逐字翻译出来，但是用户真实想表达的意思其实就是只需要输入“王岚”，后面的描述只是一些补充信息。而在本申请实施例中，语音输入后能够根据“岚是纪晓岚的岚”对“王岚”进行翻译，从而得到准确的翻译结果。

除了上述方式，判断语音数据中是否包含补充信息还可以但不限于按照如下方式实现：

判断语音数据中是否包含预先设置的关键词；

当语音数据中包含预先设置的关键词时，确定语音数据中包含补充信息；

当语音数据中不包含预先设置的关键词时，确定语音数据中不包含补充信息。

上述这种方式可以简称为带有关键词的语音输入识别，基于这种方式，确定语音数据中的待翻译内容和补充信息可以但不限于按照如下方式实现：

将关键词之前的数据确定为待翻译内容，以及将关键词之后的数据确定为补充信息。

比如，将“补充一下、强调一下、补充信息”等字段预先设置为关键字，一般情况下，这类词后面的意思是对前面信息的解释，当用户在进行语音输入时，只需要根据关键词后面的信息对关键词前面的信息进行翻译即可，关键词后面的信息无需进行翻译，因此关键词前面的信息为待翻译内容，关键词后面的信息为补充信息。

举个例子，用户使用语音输入时如果这样描述，“常熟，补充一下，常熟是一个地名”，语音输出只需要输出翻译结果“常熟”，而不是“常熟，补充一下，常熟是一个地名”或者“常数”这种并非用户想表达的意思的翻译结果。

另外，步骤220除了上述两种显式的识别分析方法之外，还可以借助机器学习的方法对用户的输入的语音数据进行分析：

根据预先训练得到的用于识别待翻译内容和补充信息的语音模型，对语音数据进行学习，确定语音数据中的待翻译内容和补充信息。

具体的，训练出满足带补充信息语意的语音模型，借助这种语音模型对用户输入的语音数据进行分析识别，判断是否带有补充信息，如果带有补充信息，就借助补充信息进行翻译，从而得到满足用户意图的翻译结果。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

进一步参考图3，其示出了根据本申请一个实施例的语音翻译装置的示例性结构框图。

该装置300包括：

接收单元310，用于接收用户输入的语音数据；

识别单元320，用于识别所述语音数据中的待翻译内容和补充信息；其中，所述补充信息用于对所述待翻译内容进行解释说明；

翻译单元330，用于基于所述补充信息，对所述待翻译内容进行翻译。

其中，所述识别单元320，包括：

判断模块321，用于判断所述语音数据中是否包含所述补充信息；

确定模块322，用于当判断结果为是时，确定所述待翻译内容和所述补充信息。

可选的，所述判断模块321，用于：

判断所述语音数据是否符合预先设置的句式结构；当所述语音数据符合所述句式结构时，确定所述语音数据中包含所述补充信息；当所述语音数据不符合所述句式结构时，确定所述语音数据中不包含所述补充信息。

则，所述确定模块322，用于：

根据所述句式结构指示的待翻译内容位置和补充信息位置，将所述语音数据中待翻译内容位置对应的数据确定为所述待翻译内容，补充信息位置对应的数据确定为所述补充信息。

可选的，所述判断模块321，用于：

判断所述语音数据中是否包含预先设置的关键词；当所述语音数据中包含所述关键词时，确定所述语音数据中包含所述补充信息；当所述语音数据中不包含所述关键词时，确定所述语音数据中不包含所述补充信息。

则，所述确定模块322，用于：

将所述关键词之前的数据确定为所述待翻译内容，以及将所述关键词之后的数据确定为所述补充信息。

其中，所述识别单元320，用于：

根据预先训练得到的用于识别待翻译内容和补充信息的语音模型，对所述语音数据进行学习，确定所述语音数据中的待翻译内容和补充信息。

应当理解，装置300中记载的诸子系统或单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置300及其中包含的单元，在此不再赘述。

下面参考图4，其示出了适于用来实现本申请实施例的服务器的计算机系统400的结构示意图。

如图4所示，计算机系统400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考图2描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行图2的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音翻译方法，其特征在于，所述方法包括：

接收用户输入的语音数据；

基于所述补充信息，对所述待翻译内容进行翻译。

2.根据权利要求1所述的方法，其特征在于，所述识别所述语音数据中的待翻译内容和补充信息，包括：

判断所述语音数据中是否包含所述补充信息；

当判断结果为是时，确定所述待翻译内容和所述补充信息。

3.根据权利要求2所述的方法，其特征在于，所述判断所述语音数据中是否包含所述补充信息，包括：

判断所述语音数据是否符合预先设置的句式结构；

当所述语音数据符合所述句式结构时，确定所述语音数据中包含所述补充信息；

当所述语音数据不符合所述句式结构时，确定所述语音数据中不包含所述补充信息。

4.根据权利要求3所述的方法，其特征在于，所述确定所述待翻译内容和所述补充信息，包括：

5.根据权利要求2所述的方法，其特征在于，所述判断所述语音数据中是否包含补充信息，包括：

判断所述语音数据中是否包含预先设置的关键词；

当所述语音数据中包含所述关键词时，确定所述语音数据中包含所述补充信息；

当所述语音数据中不包含所述关键词时，确定所述语音数据中不包含所述补充信息。

6.根据权利要求5所述的方法，其特征在于，所述确定所述待翻译内容和所述补充信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述识别所述语音数据中的待翻译内容和补充信息，包括：

8.一种语音翻译装置，其特征在于，所述装置包括：

接收单元，用于接收用户输入的语音数据；

9.根据权利要求8所述的装置，其特征在于，所述识别单元，包括：

判断模块，用于判断所述语音数据中是否包含所述补充信息；

确定模块，用于当判断结果为是时，确定所述待翻译内容和所述补充信息。

10.根据权利要求9所述的装置，其特征在于，所述判断模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述确定模块，用于：

12.根据权利要求9所述的装置，其特征在于，所述判断模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述确定模块，用于：

14.根据权利要求8所述的装置，其特征在于，所述识别单元，用于：

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：

所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的方法。