CN107844470A

CN107844470A - 一种语音数据处理方法及其设备

Info

Publication number: CN107844470A
Application number: CN201610827020.5A
Authority: CN
Inventors: 搴蜂寒; 康亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2018-03-27
Anticipated expiration: 2036-09-18
Also published as: CN107844470B

Abstract

本发明实施例公开一种语音数据处理方法及其设备，其中方法包括如下步骤：获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；对所述源语音数据的上下文信息进行解析以生成解析结果；根据所述解析结果在所述同音文本数据集合中确定所述语音数据对应的源文本数据；将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出。采用本发明，可以结合语音数据的上下文信息确定识别的文本数据，提升对语音数据的识别的准确性，进而保证翻译结果的准确性。

Description

一种语音数据处理方法及其设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音数据处理方法及其设备。

背景技术

随着计算机技术不断的开发和完善，手机和平板电脑等终端可以对用户所输入的语音数据进行识别以生成文本数据，方便了用户对文本数据的输入，同时还可以进行文本数据的翻译，方便了用户间的交流。现有的语音数据识别过程中，往往都是对语音数据直接进行识别，并输出默认的文本数据，因此往往无法很好的对同音字词进行识别，降低了对语音数据的识别的准确性，进而导致在对文本数据进行翻译时出现不符合语境的翻译结果，影响了翻译结果的准确性。

发明内容

本发明实施例提供一种语音数据处理方法及其设备，可以结合语音数据的上下文信息确定识别的文本数据，提升对语音数据的识别的准确性，进而保证翻译结果的准确性。

本发明实施例第一方面提供了一种语音数据处理方法，可包括：

获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；

对所述源语音数据的上下文信息进行解析以生成解析结果；

根据所述解析结果在所述同音文本数据集合中确定所述语音数据对应的源文本数据；

将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出。

本发明实施例第二方面提供了一种语音数据处理设备，可包括：

集合获取单元，用于获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；

结果生成单元，用于对所述源语音数据的上下文信息进行解析以生成解析结果；

数据确定单元，用于根据所述解析结果在所述同音文本数据集合中确定所述语音数据对应的源文本数据；

数据输出单元，用于将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出。

在本发明实施例中，通过对所输入的源语音数据进行识别以获取同音文本数据集合，并根据源语音数据的上下文信息在同音文本数据集合中确定语音数据对应的源文本数据，最终将源文本数据翻译处理为目标语言的目标文本数据，生成目标文本数据的目标语音数据，对目标文本数据和所述目标语音数据进行输出。通过基于语音数据的上下文信息在识别得到的同音文本数据集合确定文本数据，可以准确识别同音字词，提升了对语音数据的识别的准确性，进而可以保证对文本数据进行翻译所得到的翻译结果符合当前语境，保证了翻译结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音数据处理方法的流程示意图；

图2是本发明实施例提供的另一种语音数据处理方法的流程示意图；

图3是本发明实施例提供的一种语音数据处理设备的结构示意图；

图4是本发明实施例提供的另一种语音数据处理设备的结构示意图；

图5是本发明实施例提供的一种结果生成单元的结构示意图；

图6是本发明实施例提供的另一种结果生成单元的结构示意图；

图7是本发明实施例提供的数据输出单元的结构示意图；

图8是本发明实施例提供的又一种语音数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音数据处理方法可以应用于出境游中智能语音识别及翻译的场景，例如：语音数据处理设备获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合，所述语音数据处理设备对所述源语音数据的上下文信息进行解析以生成解析结果，所述语音数据处理设备根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据，所述语音数据处理设备将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出的场景等。通过基于语音数据的上下文信息在识别得到的同音文本数据集合确定文本数据，可以准确识别同音字词，提升了对语音数据的识别的准确性，进而可以保证对文本数据进行翻译所得到的翻译结果符合当前语境，保证了翻译结果的准确性。

本发明实施例涉及的语音数据处理设备可以为语音识别翻译应用的后台服务设备，用于对所上报的源语音数据进行识别和翻译为目标语音数据；所述源语音数据用于表示当前用户基于自身掌握语言所输入的语音数据，所述目标语音数据用于表示基于目标语言翻译得到的语音数据，所述目标语言与所述自身掌握语言为不相同的语言。

下面将结合附图1和附图2，对本发明实施例提供的语音数据处理方法进行详细介绍。

请参见图1，为本发明实施例提供了一种语音数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-S104。

S101，获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；

具体的，语音数据处理设备可以基于语音识别翻译应用获取用户所输入的源语音数据，所述语音识别翻译应用优选为即时通信应用中的语音获取功能，用户可以通过用户终端调用所述语音识别翻译应用录入源语音数据，所述用户终端可以基于所述语音识别翻译应用将所录入的源语音数据上报至所述语音数据处理设备，所述语音数据处理设备获取所述用户终端上报的所述源语音数据，所述用户终端可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等具备录音功能的终端设备。

所述语音数据处理设备可以对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合，可以理解的是，所述语音数据处理设备可以预先基于训练语料进行训练所生成的源文本数据库，优选的，针对训练语料进行训练还可以包括对不同的口音进行分析以及学习等，所述源文本数据库存储有语音数据和文本数据以及两者的对应关系，可以理解的是，由于在识别过程中容易出现同音字词的情况，因此针对同一个源语音数据，可以识别出多个版本的文本数据，所述语音数据处理设备获取包含多个版本的文本数据的同音文本数据集合，需要说明的是，对所述语音数据进行识别处理不仅可以包括对所述语音数据中的声纹等特征进行分析，还可以包括对所述语音数据中的口音进行分析，同时，可以将所述语音数据作为训练语料进行学习。

S102，对所述源语音数据的上下文信息进行解析以生成解析结果；

具体的，所述语音数据处理设备可以对所述源语音数据的上下文信息进行解析以生成解析结果，所述上下文信息可以为在所述源语音数据之前上报的历史源语音数据，也可以为当前所述源语音数据，解析所述上下文信息可以得到包括所述历史源语音数据中的关键字段信息、所述源语音数据中的字词属性(例如：名词、形容词等)和所述源语音数据中的字词位置(例如：句首、句尾等)中的至少一种信息，所述语音数据处理设备可以解析所述上下文信息，并判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与上述至少一种信息相匹配的特定映射语义信息，并在判断后生成解析结果。需要说明的是，所述语音数据处理设备可以预先在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息，所述各文本数据的映射语义信息可以由开发人员根据所述各文本数据的语义进行定义的信息。

S103，根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据；

具体的，当所述解析结果表示为存在相匹配的第一映射语义信息时，所述语音数据处理设备可以获取所述第一映射语义信息对应的同音文本数据，并将所述第一映射语义信息对应的同音文本数据确定为所述源语音数据对应的源文本数据。

优选的，当所述解析结果表示为不存在相匹配的第一映射语义信息时，所述语音数据处理设备可以默认在所述同音文本数据集合中选择字词属性为名词的同音文本数据，并将所述字词属性为名词的同音文本数据确定为所述源语音数据对应的源文本数据。

S104，将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出；

具体的，所述语音数据处理设备可以将所述源文本数据翻译处理为目标语言的目标文本数据，所述目标语言可以基于所述用户终端在上报所述源语音数据的同时所上报的所述用户终端的终端位置信息来决定，例如：所述终端位置对应的语言类别、旅游地点、交通设施、旅游生活、风俗特色等信息，或者可以为所述用户终端上报的用户所选择的语言类型，所述语音数据处理设备可以生成所述目标文本数据的目标语音数据，可以理解的是，所述语音数据处理设备可以预先进行语料翻译训练以生成翻译文本数据库，所述翻译文本数据库可以依据不同的终端位置信息或不同的语言类型进行分类，各翻译文本数据库可以包括针对当前终端位置信息或者当前语言类型的多个文本数据、多个翻译的语音数据以及多个文本数据和多个翻译的语音数据间的对应关系。所述语音数据处理设备可以对所述目标文本数据和所述目标语音数据进行输出，优选的，将所述目标文本数据和所述目标语音数据发送至所述用户终端进行文本显示和语音输出。

请参见图2，为本发明实施例提供了另一种语音数据处理方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-S209。

S201，在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息；

具体的，语音数据处理设备可以预先在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息，所述各文本数据的映射语义信息可以由开发人员根据所述各文本数据的语义进行定义的信息。例如：“鱿鱼”的映射语义信息可以包括“吃、钓、炒、煎”等关键字段信息或者“名词”等字词属性，“犹豫”的映射语义信息可以包括“情绪、人称(你我他)”等关键字段信息，“由于”的映射语义信息可以包括“句首”等字词位置。

S202，获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；

所述语音数据处理设备可以对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合，可以理解的是，所述语音数据处理设备可以预先基于训练语料进行训练所生成的源文本数据库，优选的，针对训练语料进行训练可以为对不同的口音进行分析以及学习，并对应设置文本数据等，所述源文本数据库存储有语音数据和文本数据以及两者的对应关系，可以理解的是，由于在识别过程中容易出现同音字词的情况，因此针对同一个源语音数据，可以识别出多个版本的文本数据，所述语音数据处理设备获取包含多个版本的文本数据的同音文本数据集合。例如：当A用户提问“今天吃什么”时，B用户回答“鱿鱼”，在识别“鱿鱼”的过程中，还可以同时得到“犹豫”、“由于”等同音文本数据。

需要说明的是，对所述语音数据进行识别处理不仅可以包括对所述语音数据中的声纹等特征进行分析，还可以包括对所述语音数据中的口音进行分析，同时，可以将所述语音数据作为训练语料进行学习。

S203，对所述源语音数据的上下文信息进行解析以生成解析结果；

具体的，所述语音数据处理设备可以对所述源语音数据的上下文信息进行解析以生成解析结果，所述上下文信息可以为在所述源语音数据之前上报的历史源语音数据，也可以为当前所述源语音数据，解析所述上下文信息可以得到包括所述历史源语音数据中的关键字段信息、所述源语音数据中的字词属性(例如：名词、形容词等)和所述源语音数据中的字词位置(例如：句首、句尾等)中的至少一种信息，所述语音数据处理设备可以解析所述上下文信息，并判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与上述至少一种信息相匹配的特定映射语义信息，并在判断后生成解析结果。

进一步的，在本发明实施例的第一种可行的实施方式中，若所述上下文信息为在所述源语音数据之前上报的历史源语音数据，则所述语音数据处理设备解析所述上下文信息可以得到所述历史源语音数据中的关键字段信息，所述语音数据处理设备可以判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述关键字段信息相匹配的第一映射语义信息，并在判断后生成解析结果。

在本发明实施例的第二种可行的实施方式中，若所述上下文信息为当前所述源语音数据，则所述语音数据处理设备解析所述上下文信息可以得到所述源语音数据的语义规则信息，所述语义规则信息可以包括所述源语音数据中的字词属性和所述源语音数据中的字词位置中的至少一种信息，所述语音数据处理设备可以判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述语义规则信息相匹配的第一映射语义信息，并在判断后生成解析结果。

S204，根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据；

具体的，当所述解析结果表示为存在相匹配的第一映射语义信息时，所述语音数据处理设备可以获取所述第一映射语义信息对应的同音文本数据，并将所述第一映射语义信息对应的同音文本数据确定为所述源语音数据对应的源文本数据。依据上述举例，A用户提问“今天吃什么”，其中，依据上下文信息可以得到“吃”的关键字段信息，可以匹配得到“鱿鱼”的映射语义信息，因此可以将“鱿鱼”确定为所述源语音数据对应的源文本数据。

S205，获取所上报的终端位置信息，确定所述终端位置信息对应的目标语言；

具体的，所述语音数据处理设备可以获取所上报的终端位置信息，并确定所述终端位置信息对应的目标语言，优选的，所述用户终端在上报所述源语音数据的同时可以上报所述用户终端的终端位置信息，或者所述语音数据处理设备可以向所述用户终端请求所述用户终端的终端位置信息，所述终端位置信息可以包括所述终端位置对应的语言类别、旅游地点、交通设施、旅游生活、风俗特色等信息。

S206，将所述源文本数据翻译处理为目标语言的初始翻译文本数据；

S207，基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据；

具体的，所述语音数据处理设备可以将所述源文本数据翻译处理为目标语言的初始翻译文本数据，为了保证最终得到的目标文本数据符合语法规定，所述语音数据处理设备可以基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据，可以理解的是，所述语音数据处理设备可以预先进行语料翻译训练以生成翻译文本数据库，所述翻译文本数据库可以依据不同的终端位置信息进行分类，各翻译文本数据库可以包括针对当前终端位置信息的多个文本数据、多个翻译的语音数据以及多个文本数据和多个翻译的语音数据间的对应关系。例如：针对“博物馆怎么去”以及“怎么去博物馆”，其分别对应的英文翻译为“How to get to the museum”以及“How can I get to themuseum”，根据英文语法，“How can I get to the museum”的语法更为准确，因此针对“博物馆怎么去”以及“怎么去博物馆”在英文翻译过程中，均使用“How can I get to themuseum”该目标文本数据。

S208，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出；

具体的，所述语音数据处理设备可以生成所述目标文本数据的目标语音数据，并对所述目标文本数据和所述目标语音数据进行输出，优选的，将所述目标文本数据和所述目标语音数据发送至所述用户终端进行文本显示和语音输出。

S209，将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中；

具体的，所述语音数据处理设备可以将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中，便于后续翻译过程的使用。

在本发明实施例中，通过对所输入的源语音数据进行识别以获取同音文本数据集合，并根据源语音数据的上下文信息在同音文本数据集合中确定语音数据对应的源文本数据，最终将源文本数据翻译处理为目标语言的目标文本数据，生成目标文本数据的目标语音数据，对目标文本数据和所述目标语音数据进行输出。通过基于语音数据的上下文信息在识别得到的同音文本数据集合确定文本数据，可以准确识别同音字词，提升了对语音数据的识别的准确性，进而可以保证对文本数据进行翻译所得到的翻译结果符合当前语境，保证了翻译结果的准确性；通过采用终端位置信息确定目标语言，以及通过目标语言的语法定义规则修正翻译文本数据，进一步提高了翻译结果的准确性；通过对翻译结果进行存储，可以生成针对终端位置信息的翻译文本数据库，便于后续翻译过程的使用，有效的提升了文本翻译的效率。

下面将结合附图3-附图7，对本发明实施例提供的语音数据处理设备进行详细介绍。需要说明的是，附图3-附图7所示的语音数据处理设备，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图3，为本发明实施例提供了一种语音数据处理设备的结构示意图。如图3所示，本发明实施例的所述语音数据处理设备1可以包括：集合获取单元11、结果生成单元12、数据确定单元13和数据输出单元14。

集合获取单元11，用于获取所输入的源语音数据，并对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合；

具体实现中，所述集合获取单元11可以基于语音识别翻译应用获取用户所输入的源语音数据，所述语音识别翻译应用优选为即时通信应用中的语音获取功能，用户可以通过用户终端调用所述语音识别翻译应用录入源语音数据，所述用户终端可以基于所述语音识别翻译应用将所录入的源语音数据上报至所述语音数据处理设备1，所述集合获取单元11获取所述用户终端上报的所述源语音数据，所述用户终端可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等具备录音功能的终端设备。

所述集合获取单元11可以对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合，可以理解的是，所述语音数据处理设备1可以预先基于训练语料进行训练所生成的源文本数据库，优选的，针对训练语料进行训练可以为对不同的口音进行分析以及学习，并对应设置文本数据等，所述源文本数据库存储有语音数据和文本数据以及两者的对应关系，可以理解的是，由于在识别过程中容易出现同音字词的情况，因此针对同一个源语音数据，可以识别出多个版本的文本数据，所述集合获取单元11获取包含多个版本的文本数据的同音文本数据集合，需要说明的是，对所述语音数据进行识别处理不仅可以包括对所述语音数据中的声纹等特征进行分析，还可以包括对所述语音数据中的口音进行分析，同时，可以将所述语音数据作为训练语料进行学习。

结果生成单元12，用于对所述源语音数据的上下文信息进行解析以生成解析结果；

具体实现中，所述结果生成单元12可以对所述源语音数据的上下文信息进行解析以生成解析结果，所述上下文信息可以为在所述源语音数据之前上报的历史源语音数据，也可以为当前所述源语音数据，解析所述上下文信息可以得到包括所述历史源语音数据中的关键字段信息、所述源语音数据中的字词属性(例如：名词、形容词等)和所述源语音数据中的字词位置(例如：句首、句尾等)中的至少一种信息，所述结果生成单元12可以解析所述上下文信息，并判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与上述至少一种信息相匹配的特定映射语义信息，并在判断后生成解析结果。需要说明的是，所述语音数据处理设备1可以预先在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息，所述各文本数据的映射语义信息可以由开发人员根据所述各文本数据的语义进行定义的信息。

数据确定单元13，用于根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据；

具体实现中，当所述解析结果表示为存在相匹配的第一映射语义信息时，所述数据确定单元13可以获取所述第一映射语义信息对应的同音文本数据，并将所述第一映射语义信息对应的同音文本数据确定为所述源语音数据对应的源文本数据。

优选的，当所述解析结果表示为不存在相匹配的第一映射语义信息时，所述数据确定单元13可以默认在所述同音文本数据集合中选择字词属性为名词的同音文本数据，并将所述字词属性为名词的同音文本数据确定为所述源语音数据对应的源文本数据。

数据输出单元14，用于将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出；

具体实现中，所述数据输出单元14可以将所述源文本数据翻译处理为目标语言的目标文本数据，所述目标语言可以基于所述用户终端在上报所述源语音数据的同时所上报的所述用户终端的终端位置信息来决定，例如：所述终端位置对应的语言类别、旅游地点、交通设施、旅游生活、风俗特色等信息，或者可以为所述用户终端上报的用户所选择的语言类型，所述数据输出单元14可以生成所述目标文本数据的目标语音数据，可以理解的是，所述语音数据处理设备1可以预先进行语料翻译训练以生成翻译文本数据库，所述翻译文本数据库可以依据不同的终端位置信息或不同的语言类型进行分类，各翻译文本数据库可以包括针对当前终端位置信息或者当前语言类型的多个文本数据、多个翻译的语音数据以及多个文本数据和多个翻译的语音数据间的对应关系。所述数据输出单元14可以对所述目标文本数据和所述目标语音数据进行输出，优选的，将所述目标文本数据和所述目标语音数据发送至所述用户终端进行文本显示和语音输出。

请参见图4，为本发明实施例提供了另一种语音数据处理设备的结构示意图。如图4所示，本发明实施例的所述语音数据处理设备1可以包括：集合获取单元11、结果生成单元12、数据确定单元13、数据输出单元14、信息设置单元15和数据存储单元16。

信息设置单元15，用于在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息；

具体实现中，所述信息设置单元15可以预先在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息，所述各文本数据的映射语义信息可以由开发人员根据所述各文本数据的语义进行定义的信息。例如：“鱿鱼”的映射语义信息可以包括“吃、钓、炒、煎”等关键字段信息或者“名词”等字词属性，“犹豫”的映射语义信息可以包括“情绪、人称(你我他)”等关键字段信息，“由于”的映射语义信息可以包括“句首”等字词位置。

所述集合获取单元11可以对所述语音数据进行识别处理以获取所述源语音数据对应的同音文本数据集合，可以理解的是，所述语音数据处理设备1可以预先基于训练语料进行训练所生成的源文本数据库，优选的，针对训练语料进行训练可以为对不同的口音进行分析以及学习，并对应设置文本数据等，所述源文本数据库存储有语音数据和文本数据以及两者的对应关系，可以理解的是，由于在识别过程中容易出现同音字词的情况，因此针对同一个源语音数据，可以识别出多个版本的文本数据，所述集合获取单元11获取包含多个版本的文本数据的同音文本数据集合。例如：当A用户提问“今天吃什么”时，B用户回答“鱿鱼”，在识别“鱿鱼”的过程中，还可以同时得到“犹豫”、“由于”等同音文本数据。

具体实现中，所述结果生成单元12可以对所述源语音数据的上下文信息进行解析以生成解析结果，所述上下文信息可以为在所述源语音数据之前上报的历史源语音数据，也可以为当前所述源语音数据，解析所述上下文信息可以得到包括所述历史源语音数据中的关键字段信息、所述源语音数据中的字词属性(例如：名词、形容词等)和所述源语音数据中的字词位置(例如：句首、句尾等)中的至少一种信息，所述结果生成单元12可以解析所述上下文信息，并判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与上述至少一种信息相匹配的特定映射语义信息，并在判断后生成解析结果。

具体的，在本发明实施例的第一种可行的实施方式中，若所述上下文信息为在所述源语音数据之前上报的历史源语音数据，请一并参见图5，为本发明实施例提供了一种结果生成单元的结构示意图。如图5所示，所述结果生成单元12可以包括：

第一信息获取子单元121，用于解析所述源语音数据的上下文信息以获取所述上下文信息中的关键字段信息；

第一结果生成子单元122，用于判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述关键字段信息相匹配的第一映射语义信息，并在判断后生成解析结果；

具体实现中，若所述上下文信息为在所述源语音数据之前上报的历史源语音数据，则所述第一信息获取子单元121解析所述上下文信息可以得到所述历史源语音数据中的关键字段信息，所述第一结果生成子单元122可以判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述关键字段信息相匹配的第一映射语义信息，并在判断后生成解析结果。

具体的，在本发明实施例的第二种可行的实施方式中，若所述上下文信息为当前所述源语音数据，请一并参见图6，为本发明实施例提供了另一种结果生成单元的结构示意图。如图6所示，所述结果生成单元12可以包括：

第二信息获取子单元123，用于解析所述源语音数据的上下文信息以获取所述上下文信息的语义规则信息；

第二结果生成子单元124，用于判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述语义规则信息相匹配的第一映射语义信息，并在判断后生成解析结果；

具体实现中，若所述上下文信息为当前所述源语音数据，则所述第二信息获取子单元123解析所述上下文信息可以得到所述源语音数据的语义规则信息，所述语义规则信息可以包括所述源语音数据中的字词属性和所述源语音数据中的字词位置中的至少一种信息，所述第二结果生成子单元124可以判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述语义规则信息相匹配的第一映射语义信息，并在判断后生成解析结果。

具体的，请一并参见图7，为本发明实施例提供了数据输出单元的结构示意图。如图7所示，所述数据输出单元14可以包括：

语言确定子单元141，用于获取所上报的终端位置信息，确定所述终端位置信息对应的目标语言；

具体实现中，所述语言确定子单元141可以获取所上报的终端位置信息，并确定所述终端位置信息对应的目标语言，优选的，所述用户终端在上报所述源语音数据的同时可以上报所述用户终端的终端位置信息，或者所述语音数据处理设备1可以向所述用户终端请求所述用户终端的终端位置信息，所述终端位置信息可以包括所述终端位置对应的语言类别、旅游地点、交通设施、旅游生活、风俗特色等信息。

数据翻译子单元142，用于将所述源文本数据翻译处理为目标语言的初始翻译文本数据；

数据生成子单元143，用于基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据；

具体实现中，所述数据翻译子单元142可以将所述源文本数据翻译处理为目标语言的初始翻译文本数据，为了保证最终得到的目标文本数据符合语法规定，所述数据生成子单元143可以基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据，可以理解的是，所述语音数据处理设备1可以预先进行语料翻译训练以生成翻译文本数据库，所述翻译文本数据库可以依据不同的终端位置信息进行分类，各翻译文本数据库可以包括针对当前终端位置信息的多个文本数据、多个翻译的语音数据以及多个文本数据和多个翻译的语音数据间的对应关系。例如：针对“博物馆怎么去”以及“怎么去博物馆”，其分别对应的英文翻译为“How to get to the museum”以及“How can I get to themuseum”，根据英文语法，“How can I get to the museum”的语法更为准确，因此针对“博物馆怎么去”以及“怎么去博物馆”在英文翻译过程中，均使用“How can I get to themuseum”该目标文本数据。

数据输出子单元144，用于生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出；

具体实现中，所述数据输出子单元144可以生成所述目标文本数据的目标语音数据，并对所述目标文本数据和所述目标语音数据进行输出，优选的，将所述目标文本数据和所述目标语音数据发送至所述用户终端进行文本显示和语音输出。

数据存储单元16，用于将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中；

具体实现中，所述数据存储单元16可以将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中，便于后续翻译过程的使用。

请参见图8，为本发明实施例提供了又一种语音数据处理设备的结构示意图。如图8所示，所述语音数据处理设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图8所示的语音数据处理设备1000中，用户接口1003主要用于为管理人员提供输入的接口，获取管理人员输入的数据；网络接口1004用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作：

对所述源语音数据的上下文信息进行解析以生成解析结果；

根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据；

在一个实施例中，所述处理器1001在执行获取所输入的源语音数据之前，还执行以下操作：

在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息。

在一个实施例中，所述处理器1001在执行对所述源语音数据的上下文信息进行解析以生成解析结果时，具体执行以下操作：

解析所述源语音数据的上下文信息以获取所述上下文信息中的关键字段信息；

判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述关键字段信息相匹配的第一映射语义信息，并在判断后生成解析结果。

解析所述源语音数据的上下文信息以获取所述上下文信息的语义规则信息；

判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述语义规则信息相匹配的第一映射语义信息，并在判断后生成解析结果。

在一个实施例中，所述处理器1001在执行根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据时，具体执行以下操作：

当所述解析结果表示为存在相匹配的第一映射语义信息时，获取所述第一映射语义信息对应的同音文本数据，并将所述第一映射语义信息对应的同音文本数据确定为所述源语音数据对应的源文本数据。

在一个实施例中，所述处理器1001在执行将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出时，具体执行以下操作：

获取所上报的终端位置信息，确定所述终端位置信息对应的目标语言；

将所述源文本数据翻译处理为目标语言的初始翻译文本数据；

基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据；

生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出。

在一个实施例中，所述处理器1001在执行将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出之后，还执行以下操作：

将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

对所述源语音数据的上下文信息进行解析以生成解析结果；

2.根据权利要求1所述的方法，其特征在于，所述获取所输入的源语音数据之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述源语音数据的上下文信息进行解析以生成解析结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述源语音数据的上下文信息进行解析以生成解析结果，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述源文本数据翻译处理为目标语言的目标文本数据，生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出之后，还包括：

8.一种语音数据处理设备，其特征在于，包括：

数据确定单元，用于根据所述解析结果在所述同音文本数据集合中确定所述源语音数据对应的源文本数据；

9.根据权利要求8所述的设备，其特征在于，还包括：

信息设置单元，用于在存储有至少一个文本数据的源文本数据库中，设置所述至少一个文本数据中各文本数据的映射语义信息。

10.根据权利要求9所述的设备，其特征在于，所述结果生成单元包括：

第一信息获取子单元，用于解析所述源语音数据的上下文信息以获取所述上下文信息中的关键字段信息；

第一结果生成子单元，用于判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述关键字段信息相匹配的第一映射语义信息，并在判断后生成解析结果。

11.根据权利要求9所述的设备，其特征在于，所述结果生成单元包括：

第二信息获取子单元，用于解析所述源语音数据的上下文信息以获取所述上下文信息的语义规则信息；

第二结果生成子单元，用于判断所述同音文本数据集合的各同音文本数据的映射语义信息中是否存在与所述语义规则信息相匹配的第一映射语义信息，并在判断后生成解析结果。

12.根据权利要求10或11所述的设备，其特征在于，所述数据确定单元具体用于当所述解析结果表示为存在相匹配的第一映射语义信息时，获取所述第一映射语义信息对应的同音文本数据，并将所述第一映射语义信息对应的同音文本数据确定为所述源语音数据对应的源文本数据。

13.根据权利要求8所述的设备，其特征在于，所述数据输出单元包括：

语言确定子单元，用于获取所上报的终端位置信息，确定所述终端位置信息对应的目标语言；

数据翻译子单元，用于将所述源文本数据翻译处理为目标语言的初始翻译文本数据；

数据生成子单元，用于基于所述目标语言的语法定义规则修改所述初始翻译文本数据以生成目标文本数据；

数据输出子单元，用于生成所述目标文本数据的目标语音数据，对所述目标文本数据和所述目标语音数据进行输出。

14.根据权利要求13所述的设备，其特征在于，还包括：

数据存储单元，用于将所述目标文本数据存储至所述终端位置信息对应翻译文本数据库中。