CN113591495A

CN113591495A - 语音翻译方法、装置及存储介质

Info

Publication number: CN113591495A
Application number: CN202110744733.6A
Authority: CN
Inventors: 薛海洋; 张旭
Original assignee: Beijing Sogou Intelligent Technology Co Ltd
Current assignee: Beijing Sogou Intelligent Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-11-02

Abstract

本发明公开了一种语音翻译方法、装置及存储介质，涉及翻译技术领域，主要为解决目前语音翻译的翻译效率较低的问题。该方法包括：获取语音信息，语音信息为待翻译的信息；根据预设识别模型及语音信息获取语义片段，预设识别模型为基于机器算法训练得到的、用于将语音信息拆分成至少两个语义片段的模型；语义片段为具备实际语义的词语集合；根据语义片段执行翻译操作，得到翻译结果，输出翻译结果。基于上述方法可以确保在执行翻译过程中，能够基于语义片段进行翻译，由于语义片段是包含实际语义的词语集合，从而能够在翻译过程中将具有一定含义的多个词汇按照语义片段进行翻译，可以提高翻译效率。

Description

语音翻译方法、装置及存储介质

技术领域

本发明涉及翻译技术领域，尤其涉及一种语音翻译方法、装置及存储介质。

背景技术

随着技术的发展，智能翻译技术也随之进步。例如在同声传译的过程中，用户发出语音后往往需要及时的进行翻译以确保受众能够跟上语音发出者的思路。因此，对于翻译过程而言，在确保翻译结果准确的基础上，翻译效率就显得尤为重要。

通常，在常规基于耳机等智能设备的语音翻译过程中，一般是需要在语音中对一定数量的词汇进行识别，并在识别到足够数量的词汇时进行翻译。例如，当一个语音中包含18个词汇，且常规方式若设置识别数量为2时，则每识别到两个词汇就翻译一次，以此类推，直到9次后完成整个语音的翻译。然而，在实际应用中，由于目前的翻译过程中为确保翻译效果往往设置较小的识别数量，而当一段语音中整体词汇数量较多时，往往需要整体上翻译的次数较多，从而影响整体的语音翻译效率，使得翻译效率较低。

发明内容

鉴于上述问题，本发明提供一种语音翻译方法、装置及存储介质，主要目的在于解决目前语音翻译的翻译效率较低的问题。

为解决上述技术问题，第一方面，本发明提供了一种语音翻译方法，该方法包括：

获取语音信息，所述语音信息为待翻译的信息；

根据预设识别模型及所述语音信息获取语义片段，其中，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型，所述语义片段为具备实际语义的词语集合；

根据所述语义片段执行翻译操作，得到翻译结果；

输出所述翻译结果。

可选的，所述根据预设识别模型及所述语音信息获取语义片段，包括：

根据所述预设识别模型对所述语音信息执行预测操作，得到预测结果，其中，所述预测结果包括至少两个所述语义片段，所述预测操作用于将所述语音信息进行拆分；

从所述预测结果中获取目标语义片段，所述目标语义片段是在至少两个所述语义片段中根据片段获取时间确定的，所述片段获取时间是基于每个所述语义片段中的首个词汇的获取时间确定的；

所述根据所述语义片段执行翻译操作，得到翻译结果，包括：

将所述目标语义片段执行翻译操作，得到所述翻译结果。

可选的，在所述根据预设识别模型及所述语音信息获取语义片段之前，所述方法还包括：

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

根据所述语言种类获取对应所述语言种类的识别模型作为所述预设识别模型。

根据预设训练样本经过预设算法执行训练操作，得到预设识别模型，其中，所述预设训练样本包括多个训练语句，以及每个所述训练语句对应的至少一个所述训练片段；所述训练片段是在所述训练语句中基于语法和/或词义选取的。

可选的，在所述根据预设训练样本经过预设算法执行训练操作，得到预设识别模型之前，所述方法还包括：

根据所述语法和/或所述词义，通过样本集合构建所述训练样本，所述样本集合中包含多条样本语句。

可选的，所述根据所述语法和/或所述词义，通过样本集合构建所述训练样本，包括：

在所述样本集合中获取样本语句；

根据所述语法和/或所述词义，对所述样本语句进行拆分得到多个拆分片段，其中，每个所述拆分片段为具有实际语义的词组；

将所述拆分片段以及对应的所述样本语句分别进行标记，得到所述训练语句及所述训练片段，其中，每次标记的所述训练语句与所述训练片段之间存在对应关系；

根据所述训练语句及所述训练片段构建所述训练样本。

可选的，所述预设算法包括有监督学习算法；

所述根据预设训练样本经过预设算法执行训练操作，得到预设识别模型，包括：

根据预设训练样本经过有监督学习算法执行训练操作，得到预设识别模型，其中，所述训练操作用于根据所述预设训练样本中经过标记得到的所述训练语句和训练片段，按照所述有监督学习算法中的递归算法或分类算法进行训练。

可选的，在所述根据预设识别模型及所述语音信息获取语义片段之后，所述方法还包括：

根据所述语义和/或语法，将所述语义片段进行组装，得到语义块；

根据所述语义块执行所述翻译操作，得到所述翻译结果。

第二方面，本发明实施例还提供了一种语音翻译装置，包括：

第一获取单元，用于获取语音信息，所述语音信息为待翻译的信息；

第二获取单元，用于根据预设识别模型及所述语音信息获取语义片段，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；

翻译单元，用于根据所述语义片段执行翻译操作，得到翻译结果；

输出单元，用于输出所述翻译结果。

可选的，所述第二获取单元具体用于：

所述根据所述语义片段执行翻译操作，得到翻译结果包括：

将所述目标语义片段执行翻译操作，得到所述翻译结果。

可选的，所述装置还包括第三获取单元，所述第三获取单元用于：

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

可选的，所述装置还包括训练单元，所述训练单元用于：

可选的，所述装置还包括构建单元，所述构建单元用于：

第三方面，本发明提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如前述第一方面中任意一项所述的语音翻译方法。

第四方面，本发明提供了一种语音翻译装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如前述第一方面中任意一项所述语音翻译方法。

借由上述技术方案，本发明提供的语音翻译方法、装置及存储介质，对于现有技术存在的问题，本发明通过获取语音信息，所述语音信息为待翻译的信息；然后，根据预设识别模型及所述语音信息获取语义片段，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；最后，根据所述语义片段执行翻译操作，得到翻译结果，输出所述翻译结果，从而实现了语音翻译功能。在上述方案中，由于翻译过程是基于预设识别模型获取的语义片段进行翻译的，而并非常规方式基于一定数量的词汇进行分析和翻译，这就可以使得当一个语音信息的翻译过程中，尤其是当词汇数量较多时能够基于语义拆分成几个较大的片段，从而避免基于词汇进行识别和拆分导致一个语音翻译时翻译次数较多的情况，从而可以整体上减少因识别过程导致的翻译效率较低的问题，提高了翻译效率。同时，由于语义片段是具备实际语义的词语集合，这就确保了上述翻译过程中可以将一段话或一句话对应的语音根据模型以带有实际含义的片段拆分并翻译，使得在将语音信息翻译的过程中拆分的数量能够基于模型进行自动选取，从而无需人工进行识别词汇数量的设置，从而减少本发明所述方法的步骤，执行过程更为便捷。同时，由于获取语义片段的过程是基于预设识别模型获取的，而该预设识别模型能够基于具体含义进行拆分，就避免常规方式以设定数量的词汇进行识别和翻译过程中可能将具有关联含义的词汇拆分所导致的翻译结果不准确的问题，从而可以提高翻译结果的准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种语音翻译方法流程图；

图2示出了本发明实施例提供的一种语音翻译装置的组成框图；

图3为本申请实施例提供的客户端的结构示意图；

图4为本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

语音翻译有鉴于此，本发明实施例提供了一种语音翻译方法，如图1所示，该方法包括：

101、获取语音信息。

其中，所述语音信息为待翻译的信息。本实施例所述的方法是基于耳机、音响、翻译笔等智能设备的语音翻译方法，也就是说本实施例所适用的场景主要是如同声传译等即时性的语音翻译过程。那么在这个场景下，对于翻译的效率是用户首要关心的问题。因此，在本发明实施例中首先需要基于语音采集技术从外界环境中进行音频采集，并基于采集到的音频进行语音信息的获取，即后续需要翻译的待翻译的信息。在具体执行过程中，本步骤中获取的方式包括但不限于通过预设麦克风或音频采集装置进行音频采集，也可以直接通过预设语音接口接收电子信号处理后的语音数据或者本地预存的语音数据等以得到语音信息。在此，对于获取语音信息的方式不做具体的限定，可以基于用户的实际需要进行选取。

102、根据预设识别模型及所述语音信息获取语义片段。

其中，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合。

在本实施例中，由于预设识别模型是预先通过机器算法进行训练得到的。当然，训练的过程实际上还需要基于用户需要预先选取的数据作为训练集。因此该模型能够训练完成后可以对语音信息进行拆分，得到一定数量的语义片段。一般来说至少两块语义片段，这样可以确保在获取到语音信息后，能够先对其中一个语音片段进行翻译，从而提高翻译效率。当然，在本实施例中，所述语义片段的数量可以基于实际的语音信息以及预设识别模型进行确定，在此不做限定。例如当某个语音信息中包含的内容较少，可能仅拆分成两个语义片段，而当语音信息中包含的内容较多时，可能会拆分成较多的语义片段。

例如，当语音信息为“The more people you love the weaker you are”时，若按照现有的常规技术，设置识别词汇数量为2时，则上述语音信息需要分别拆分为“Themore”、“people you”、“love the”、“weaker you”及“are”，也就是说需要依次翻译五次才能将整个语音信息翻译完成。而在本实施例中所采用的预设识别模型则可以基于语义片段进行拆分得到“The more people you love”以及“he weaker you are”两个语义片段，这在后续翻译的过程中直接执行两次翻译操作即可，可以提高翻译的效率。

基于本步骤的方法，本发明中获取语义片段的过程是根据机器算法所训练得到的预设识别模型执行的，避免了在从语音信息中获取语义片段时设置拆分规则的过程。因为语言是一种比较灵活的表达方式，通过设置拆分规则进行拆分时很可能出现诸如“peopleyou”、“weaker you”等拆分后的情况，这就造成与实际语义不通的情况，导致后续翻译结果不通顺。而通过本发明实施例所述预设识别模型的方式进行语义片段的获取可以避免这个问题，提高语义片段的准确性，为后续翻译结果的准确性奠定基础。

103、根据所述语义片段执行翻译操作，得到翻译结果；

104、输出所述翻译结果。

当前述步骤中102得到语义片段后，由于语义片段是具有实际语义的词汇集合，也就是说这个语义片段是能够翻译出实际含义的。因此，可以直接对该语义片段进行翻译，从而确保用户能够基于语义片段及时获知对应的翻译结果，从而在翻译过程中无需等待全部语音信息的翻译过程，继而确保了在语音翻译过程中的时效性，从而整体上提高了翻译效率。

基于此，上述实施例提供的一种语音翻译方法，对于现有技术存在的问题，本发明通过获取语音信息，所述语音信息为待翻译的信息；然后，根据预设识别模型及所述语音信息获取语义片段，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；最后，根据所述语义片段执行翻译操作，得到翻译结果。再输出所述翻译结果。从而实现了应用于智能硬件的语音翻译功能。在上述方案中，由于翻译过程是基于预设识别模型获取的语义片段进行翻译的，而并非常规方式基于一定数量的词汇进行分析和翻译，这就可以使得当一个语音信息的翻译过程中。尤其是当词汇数量较多时能够基于语义拆分成几个较大的片段，避免基于词汇进行识别和拆分导致一个语音翻译时翻译次数较多的情况，从而可以整体上减少因识别过程导致的翻译效率较低的问题，提高了翻译效率。同时，由于语义片段是具备实际语义的词语集合，这就确保了上述翻译过程中可以将一段话或一句话对应的语音根据模型以带有实际含义的片段拆分并翻译，使得在将语音信息翻译的过程中拆分的数量能够基于模型进行自动选取，无需人工进行识别词汇数量的设置，从而减少本发明所述方法的步骤，执行过程更为便捷。同时，由于获取语义片段的过程是基于预设识别模型获取的，而该预设识别模型能够基于具体含义进行拆分，避免常规方式的翻译结果不准确的问题，从而可以提高翻译结果的准确性。

在一些实施例中，前述实施例的步骤102中根据预设识别模型及所述语音信息获取语义片段，在执行时具体包括：

首先，根据所述预设识别模型对所述语音信息执行预测操作，得到预测结果，其中，所述预测结果包括至少两个所述语义片段。所述预测操作用于将所述语音信息进行拆分。在本步骤中执行预测操作的过程实际上就是利用预设识别模型对语音信息进行拆分的过程。具体的拆分过程中实际是将获取到的语音信息基于模型的识别方式确定所需拆分成哪几个部分，即语义片段。

然后，从所述预测结果中获取目标语义片段，其中，所述目标语义片段是在至少两个所述语义片段中根据片段获取时间确定的，所述片段获取时间是基于每个所述语义片段中的首个词汇的获取时间确定的。由于在将语音信息拆分成多个语义片段后，需要确定后续需要从哪个语义片段开始翻译，在本实施例中可以基于每个语义片段的片段获取时间进行确定。当然，由于语音信息的特殊性(即音频的性质)，在用户发出语音的过程中，实际上在一句语音中每个词汇之间是基于时间顺序发出的，那么获取时也是基于时间顺序依次获取的。因此，在本实施例中，所述片段获取时间可以是每个语义片段中的首个词汇的获取时间确定的，例如，当语义片段A中首个词汇的获取时间是17分26秒时，则该语义片段的片段获取时间可以为17分26秒。

基于此，前述实施例中步骤103中根据所述语义片段执行翻译操作，得到翻译结果，在执行时具体为：将所述目标语义片段执行翻译操作，得到所述翻译结果。

这样，由于能够基于片段获取时间确定目标语义片段，这就确保当将语音信息基于预设识别模型进行拆分后，能够确定后续翻译时从哪一个语义片段开始翻译，避免顺序错误影响最后整个语音信息整体上翻译效果，从而确保了翻译结果的准确性。

在一些实施例中，由于不同的语言种类有各自的语法和习惯，因此，为了确保后续翻译的准确性，还可以在获取语义片段之前确定语音信息的语言种类，以确保后续识别语义片段的准确性，因此，前述实施例的步骤102中根据预设识别模型及所述语音信息获取语义片段之前，所述方法还可以包括：

首先，根据所述语音信息获取语音特征；

其次，基于所述语音特征确定语言种类；

然后，根据所述语言种类获取对应所述语言种类的识别模型作为所述预设识别模型。

在本实施例中，确定语言种类的方式可以通过专用的识别设备或算法进行分析，具体的，可以先获取语音信息中的语音特征，然后基于语音特征判断语言的种类，当然，在实际应用中，所述语音特征的选取方式可以根据每种语法的表述方式和发音确定。在确定语言种类后，则可以获取对应这个语言的模型，作为所述预设识别模型，从而能够确保以适合当前语音信息的语言种类的识别模型进行识别，从而避免模型选取错误导致的后续翻译结果受到影响的问题。

例如，当基于语音信息的语音特征能够确定语言种类为英语时，则此时可以从多个预先训练得到的多个识别模型中获取对应英语的识别模型，从而确保后续识别结果的准确性。

在一些实施例中，为了实现上述方案，在实际应用中还可以基于需要在执行翻译操作之前进行预设识别模型的训练。基于此，在前述实施例的步骤102中根据预设识别模型及所述语音信息获取语义片段之前，所述方法还包括：

本实施例中的所述训练样本可以理解为用于训练模型的数据，该训练样本中包含符合训练要求的语句，即训练语句，以及对应的训练片段。其中，训练语句可以理解为模型的输入，训练片段可以理解为输入训练语句后的输出。基于每次输入的数据(即预测对象)和对应的输出数据(预测结果)作为训练样本，这样可以确保后续训练出的模型也能够在接收到信息预测对象(即前述实施例的语音信息)，将该语音信息像训练片段那样输出对应的语义片段，从而生成能够代替人工进行语义片段预测功能的预设识别模型。

在一些实施例中，由于训练模型的过程需要训练样本，而训练样本的准确性将影响训练出的模型的准确性。基于此在前述步骤中根据预设训练样本经过预设算法执行训练操作，得到预设识别模型之前，所述方法还包括：

根据所述语法和/或所述词义，通过样本集合构建所述训练样本。其中，所述样本集合中包含多条样本语句。

在本发明实施例中，样本集合可以理解为包含多条语句的集合，但普通的语句并不能直接用来做训练样本，还需要进行处理，得到符合条件的训练语句和训练片段，因此，在本实施例中可以基于语法、词义对样本集合中的语句进行处理，并以此构建训练样本。

需要说明的是，在本实施例中，构建训练样本时可以只使用语法或者词义中任意一个作为构建训练样本的依据。当然也可以同时利用语法和词义进行构建，具体的执行方式不做限定，可以基于用户实际的需要进行选取。

由于训练样本是基于包含多条样本语句的样本集合依照语法、词义构建的，这就确保了得到的训练样本符合语法、词义的要求。使基于该训练样本训练出的预设识别模型能够在获取语义片段的过程中也是基于语法、词义进行操作，从而确保每个语义片段都符合语法、词义的要求。继而为后续翻译时的准确性奠定了基础，避免了词义、语法错误导致的翻译结果准确性较差的问题。

在一些实施例中，前述步骤中根据所述语法和/或所述词义，通过样本集合构建所述训练样本，在执行时具体可以包括：

首先，在所述样本集合中获取样本语句；

然后，根据所述语法和/或所述词义，对所述样本语句进行拆分得到多个拆分片段，其中，每个所述拆分片段为具有实际语义的词组；

之后，将所述拆分片段以及对应的所述样本语句分别进行标记，得到所述训练语句及所述训练片段，其中，每次标记的所述训练语句与所述训练片段之间存在对应关系；

最后，根据所述训练语句及所述训练片段构建所述训练样本。

在上述方案中，每个样本语句在经过语法、词义进行拆分后，得到的拆分片段都是符合语法、词义的规则。因此，每个拆分片段都具有实际的语义且符合语法规则，该拆分片段可以用于后续训练预设识别模型的训练，从而确保训练出的模型也能够基于语法、词义将语音信息拆分获取语义片段。同时，在本实施例中，在标记过程中，实际上是为了确保每个样本语句与其拆分后得到的拆分片段之间的关系，以使识别模型能够在训练时基于片段和语句之间的关系来“学习”语音信息后续需要如何拆分成语义片段。

需要说明的是，由于训练样本的数据能够影响模型，而模型又会影响语义片段的获取，因此，后续语义片段的拆分方式是基于本实施例中训练样本的数据形式确定的。例如当需要后续语义片段包含的数据内容较多时，则可以在本实施例中基于语法和/或词义将样本语句均拆分成包含词汇数量较多的拆分片段。相反，若想后续翻译过程中拆分得到的语义片段所包含的数据内容较少，则本步骤中可以在将语句拆分成词汇较少的拆分片段。

在一些实施例中，所述预设算法包括有监督学习算法；

前述实施例中，根据预设训练样本经过预设算法执行训练操作，得到预设识别模型，包括：

在本实施例中，所述预设算法具体可以为有监督学习算法。其中，有监督学习算法的特点是有训练样本，以及每个样本数据标记有属性标签。相当于输入和输出都已经进行了标记，可以让模型基于标记后的训练样本学习分类经验。在具体应用中，训练过程可以结合所述有监督学习算法中的递归算法或者分类算法进行训练。从而确保后续训练出的识别模型能够基于语音信息进行拆分得到对应的语义片段。

由于本实施例中训练预设识别模型的算法是有监督算法，这就能够确保训练过程中可以基于标记后的样本进行训练，即训练过程中可以基于所述训练语句和训练片段学习拆分语音信息以获取语义片段的经验。相较于其他学习算法，本实施例所述的方式能够确保训练出的模型具有较好的准确性。从而整体上为后续得到的语义片段的准确性奠定了基础，并能够使整体的语音翻译方法的翻译结果更为准确。

在一些实施例中，由于某些情况下当语义片段拆分得较多，一个语音信息得到的翻译结果也较多，用户需要理解整个语音信息可能需要花费较多的精力。为此，还可以在前述步骤得到语义片段后，再对语义片段按照词义、语法进行组合，得到语义块，并将语义块执行翻译操作得到对应的翻译结果。具体的，本实施例中在获取到语义片段后，所述方法还包括：

前述实施例中步骤103根据所述语义片段执行翻译操作，得到翻译结果，包括：

根据所述语义块执行翻译操作，得到翻译结果。

例如，当得到语义片段为：“Mr.A”“met with”“Mr.B”“in Hong Kong”，这时分成了四个语义片段，为了能够减少翻译的次数，可以基于本步骤的方法，将上述语义块按照语法、词义进行组装，得到语义块为：“Mr.A met with Mr.B”“in Hong Kong”。这样就可以在后续翻译时，执行两次翻译操作得到两个翻译结果，从而得到对应整个语音信息的翻译结果。

需要说明的是，本实施例所述的方法一般适用于翻译过程中对实时性要求不高的环境。这样可以确保当用户无需要求较快的翻译速度时，较为完整的了解每个语音信息的含义。避免多次翻译导致用户为理解语句逻辑或含义时所消耗的精力消耗过多的问题。

进一步的，作为对上述图1及多种实施例所示方法的实现，本发明实施例还提供了一种语音翻译装置，用于对上述图1以及上述多个实施例所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图2所示，该装置包括：第一获取单元21、第二获取单元22翻译单元23及输出单元24其中

第一获取单元21，可以用于获取语音信息，所述语音信息为待翻译的信息；在本实施例中，当第一获取单元21获取语音信息时，其执行过程可以首先基于语音采集技术从外界环境中进行音频采集，然后通过采集到的音频实现语音信息的获取，即获取到后续需要翻译的待翻译的信息。

在具体执行过程中，该第一获取单元21获取语音信息的方式包括但不限于通过预设麦克风或音频采集装置进行音频采集。也可以直接通过预设语音接口接收电子信号处理后的语音数据或者本地预存的语音数据等以得到语音信息。在此，对于第一获取单元21获取语音信息的方式并不做具体的限定，用户可以基于实际需要进行选取。

第二获取单元22，可以用于根据预设识别模型及所述第一获取单元21获取的语音信息获取语义片段。所述预设识别模型为基于机器算法训练得到的、可以用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；

由于在本实施例中，第二获取单元22获取语义片段的过程中是通过预设识别模型实现的，且该预设识别模型是预先通过机器算法进行训练得到的。这就使得第二获取单元22能够将语音按照具有实际语义的词语集合的方式拆分成语义片段，例如，当语音信息为“The more people you love the weaker you are”时。若按照现有的常规技术，还需要设置识别词汇数量，譬如设置为2时，则上述语音信息后续可以分别拆分为“The more”、“people you”、“love the”、“weaker you”及“are”，五个词组。而在本实施例中，第二获取单元22可以通过预设识别模型获取语义片段时，可以基于语义片段进行拆分得到“Themore people you love”以及“he weaker you are”两个语义片段。这就确保了在整个翻译过程中，可以将一段话或一句话对应的语音，以带有实际含义的片段进行拆分。使得后续翻译的过程中，拆分的数量能够基于模型进行自动选取，无需人工进行识别词汇数量的设置，减少了执行过程中的步骤，可以提高效率。

此外，由于第二获取单元22获取语义片段的过程是基于预设识别模型获取的，且拆分方式以具体含义的进行拆分，能够避免常规方式以设定数量的词汇进行识别和翻译过程中可能将具有关联含义的词汇拆分所导致的翻译结果不准确的问题。例如，当语音信息为“The more people you love the weaker you are”时，若设置识别词汇数量为2，其拆分后会得到诸如“people you”、“weaker you”等拆分后的情况。而这样拆分的结果是不具有实际含义的。而通过第二获取单元22则可以获取到“The more people you love”以及“he weaker you are”两个语义片段，可以使第二获取单元22获取的语义片段都是具备实际含义的词语集合，继而使后续翻译时避免误将具有关联性的词汇之间拆分导致后续翻译结果准确性受到影响的问题，提高了翻译结果的准确性。

翻译单元23，可以用于根据所述第二获取单元22获取的语义片段执行翻译操作，得到翻译结果；

在翻译单元23执行翻译操作时，由于针对的翻译目标是第二获取单元22获取到的语义片段，这就在当词汇数量较多时，第二获取单元22能够基于语义将一句话或一个段落拆分成几个较大的片段。还是以前述示例为例，当语音信息为“The more people you lovethe weaker you are”时，若设置识别词汇数量为2时，也就是说得到“The more”、“peopleyou”、“love the”、“weaker you”及“are”五个词组。在翻译时需要依次翻译五次才能将整个语音信息翻译完成。而本实施例中翻译单元23则可以基于第二获取单元22拆分的“Themore people you love”以及“he weaker you are”两个语义片段进行翻译操作，也就是说两次翻译即可。

这样，翻译单元23就能避免常规的基于词汇进行识别和拆分时，极易出现因语音翻译过程中基于词汇使翻译次数较多的问题，这样可以整体上减少因识别过程导致的翻译效率较低的问题，提高了翻译效率。

输出单元24，可以用于输出所述翻译结果。

借由上述技术方案，对于现有技术存在的问题，本发明通过获取语音信息，所述语音信息为待翻译的信息；然后，根据预设识别模型及所述语音信息获取语义片段，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；最后，根据所述语义片段执行翻译操作，得到翻译结果，输出所述翻译结果，从而实现了语音翻译功能。在上述方案中，由于翻译过程是基于预设识别模型获取的语义片段进行翻译的，而并非常规方式基于一定数量的词汇进行分析和翻译，这就可以使得当一个语音信息的翻译过程中，尤其是当词汇数量较多时能够基于语义拆分成几个较大的片段，从而避免基于词汇进行识别和拆分导致一个语音翻译时翻译次数较多的情况，从而可以整体上减少因识别过程导致的翻译效率较低的问题，提高了翻译效率。同时，由于语义片段是具备实际语义的词语集合，这就确保了上述翻译过程中可以将一段话或一句话对应的语音根据模型以带有实际含义的片段拆分并翻译，使得在将语音信息翻译的过程中拆分的数量能够基于模型进行自动选取，从而无需人工进行识别词汇数量的设置，从而减少本发明所述方法的步骤，执行过程更为便捷。同时，由于获取语义片段的过程是基于预设识别模型获取的，而该预设识别模型能够基于具体含义进行拆分，就避免常规方式以设定数量的词汇进行识别和翻译过程中可能将具有关联含义的词汇拆分所导致的翻译结果不准确的问题，从而可以提高翻译结果的准确性。

本申请实施例提供的方法，可以由客户端执行也可以由服务器执行，以下对执行上述方法的客户端和服务器分别进行说明。

图3示出了一种客户端300的框图。例如，客户端300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，客户端300可以包括以下一个或多个组件：处理组件302，存储器304，电源组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口33，传感器组件314，以及通信组件316。

处理组件302通常控制客户端300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理部件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统，一个或多个电源，及其他与为客户端300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当客户端300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为客户端300提供各个方面的状态评估。例如，传感器组件314可以检测到设备300的打开/关闭状态，组件的相对定位，例如所述组件为客户端300的显示器和小键盘，传感器组件314还可以检测客户端300或客户端300一个组件的位置改变，用户与客户端300接触的存在或不存在，客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

获取语音信息，所述语音信息为待翻译的信息；

根据预设识别模型及所述语音信息获取语义片段，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型；所述语义片段为具备实际语义的词语集合；

根据所述语义片段执行翻译操作，得到翻译结果，输出所述翻译结果。

将所述目标语义片段执行翻译操作，得到所述翻译结果。

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

在所述样本集合中获取样本语句；

根据所述训练语句及所述训练片段构建所述训练样本。

可选的，所述预设算法包括有监督学习算法；

根据所述语义块执行所述翻译操作，得到所述翻译结果。

图4是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)422(例如，一个或一个以上处理器)和存储器432，一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器422可以设置为与存储介质430通信，在服务器400上执行存储介质430中的一系列指令操作。

更进一步地，中央处理器422可以执行下述方法：

获取语音信息，所述语音信息为待翻译的信息；

所述根据所述语义片段执行翻译操作，得到翻译结果包括：

将所述目标语义片段执行翻译操作，得到所述翻译结果。

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

在所述样本集合中获取样本语句；

根据所述训练语句及所述训练片段构建所述训练样本。

可选的，所述预设算法包括有监督学习算法；

根据所述语义块执行所述翻译操作，得到所述翻译结果。

服务器400还可以包括一个或一个以上电源426，一个或一个以上有线或无线网络接口450，一个或一个以上输入输出接口456，一个或一个以上键盘456，和/或，一个或一个以上操作系统441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例还提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行以上方法实施例提供的语音翻译方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音翻译方法，其特征在于，用于智能设备，包括：

获取语音信息，所述语音信息为待翻译的信息；

根据所述语义片段执行翻译操作，得到翻译结果；

输出所述翻译结果。

2.根据权利要求1所述的方法，其特征在于，所述根据预设识别模型及所述语音信息获取语义片段，包括：

所述根据所述语义片段执行翻译操作，得到翻译结果包括：

将所述目标语义片段执行翻译操作，得到所述翻译结果。

3.根据权利要求1所述的方法，其特征在于，在所述根据预设识别模型及所述语音信息获取语义片段之前，所述方法还包括：

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

4.根据权利要求1所述的方法，其特征在于，在所述根据预设识别模型及所述语音信息获取语义片段之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在所述根据预设训练样本经过预设算法执行训练操作，得到预设识别模型之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述语法和/或所述词义，通过样本集合构建所述训练样本，包括：

在所述样本集合中获取样本语句；

根据所述训练语句及所述训练片段构建所述训练样本。

7.根据权利要求4所述的方法，其特征在于，所述预设算法包括有监督学习算法；

8.根据权利要求1所述的方法，其特征在于，在所述根据预设识别模型及所述语音信息获取语义片段之后，所述方法还包括：

根据所述语义块执行所述翻译操作，得到所述翻译结果。

9.一种语音翻译装置，其特征在于，包括：

第二获取单元，用于根据预设识别模型及所述语音信息获取语义片段，其中，所述预设识别模型为基于机器算法训练得到的、用于将所述语音信息拆分成至少两个语义片段的模型，所述语义片段为具备实际语义的词语集合；

输出单元，用于输出所述翻译结果。

10.根据权利要求9所述的装置，其特征在于，所述第二获取单元具体用于：

所述根据所述语义片段执行翻译操作，得到翻译结果包括：

将所述目标语义片段执行翻译操作，得到所述翻译结果。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括第三获取单元，所述第三获取单元用于：

根据所述语音信息获取语音特征；

基于所述语音特征确定语言种类；

12.根据权利要求9所述的装置，其特征在于，所述装置还包括训练单元，所述训练单元用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括构建单元，所述构建单元用于：

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求8中任一项所述的语音翻译方法。

15.一种语音翻译装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如权利要求1至权利要求8中任一项所述语音翻译方法。