CN110069608B

CN110069608B - 一种语音交互的方法、装置、设备和计算机存储介质

Info

Publication number: CN110069608B
Application number: CN201810816608.XA
Authority: CN
Inventors: 常先堂
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2022-05-27
Anticipated expiration: 2038-07-24
Also published as: US20200035241A1; CN110069608A; JP2020016875A; JP6862632B2

Abstract

本发明提供了一种语音交互的方法、装置、设备和计算机存储介质，所述方法包括：接收第一终端设备发送的语音数据；获取所述语音数据的语音识别结果以及声纹识别结果；获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换；将转换得到的音频数据发送至所述第一终端设备。本发明实现了人机交互的语音自适应，增强了人机语音交互的真实感，提升了人机语音交互的趣味性。

Description

一种语音交互的方法、装置、设备和计算机存储介质

【技术领域】

本发明涉及互联网技术领域，尤其涉及一种语音交互的方法、装置、设备和计算机存储介质。

【背景技术】

现有的智能终端设备在进行语音交互时，一般都是采用固定的应答声音与用户进行交互，导致用户与终端设备之间的语音交互过程较为乏味。

【发明内容】

有鉴于此，本发明提供了一种语音交互的方法、装置、设备和计算机存储介质，用于提升人机语音交互的真实感、趣味性。

本发明为解决技术问题所采用的技术方案为提供一种语音交互的方法，所述方法包括：接收第一终端设备发送的语音数据；获取所述语音数据的语音识别结果以及声纹识别结果；获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换；将转换得到的音频数据发送至所述第一终端设备。

根据本发明一优选实施例，所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。

根据本发明一优选实施例，获取针对所述语音识别结果的响应文本包括：利用所述语音识别结果进行搜索匹配，获得与所述语音识别结果对应的文本搜索结果和/或提示文本。

根据本发明一优选实施例，该方法还包括：若利用所述语音识别结果进行搜索匹配，获得音频搜索结果，则将所述音频搜索结果发送至所述第一终端设备。

根据本发明一优选实施例，获取针对所述语音识别结果的响应文本包括：利用所述语音识别结果以及声纹识别结果进行搜索匹配，获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和/或提示文本。

根据本发明一优选实施例，利用所述声纹识别结果对所述响应文本进行语音转换包括：根据预设的身份信息与声音合成参数之间的对应关系，确定与所述声纹识别结果对应的声音合成参数；利用所确定的声音合成参数对所述响应文本进行语音转换。

根据本发明一优选实施例，所述方法还包括：接收并保存第二终端设备对所述对应关系的设置。

根据本发明一优选实施例，在利用所述声纹识别结果对所述响应文本进行语音转换之前，还包括：判断所述第一终端设备是否被设置为自适应语音响应，如果是，则继续执行利用所述声纹识别结果对所述响应文本进行语音转换；否则，利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。

本发明为解决技术问题所采用的技术方案为提供一种语音交互的装置，所述装置包括：接收单元，用于接收第一终端设备发送的语音数据；处理单元，用于获取所述语音数据的语音识别结果以及声纹识别结果；转换单元，用于获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换；发送单元，用于将转换得到的音频数据发送至所述第一终端设备。

根据本发明一优选实施例，所述转换单元在获取针对所述语音识别结果的响应文本时，具体执行：利用所述语音识别结果进行搜索匹配，获得与所述语音识别结果对应的文本搜索结果和/或提示文本。

根据本发明一优选实施例，所述转换单元还用于执行：若利用所述语音识别结果进行搜索匹配，获得音频搜索结果，则将所述音频搜索结果发送至所述第一终端设备。

根据本发明一优选实施例，所述转换单元在获取针对所述语音识别结果的响应文本时，具体执行：利用所述语音识别结果以及声纹识别结果进行搜索匹配，获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和/或提示文本。

根据本发明一优选实施例，所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换时，具体执行：根据预设的身份信息与声音合成参数之间的对应关系，确定与所述声纹识别结果对应的声音合成参数；利用所确定的声音合成参数对所述响应文本进行语音转换。

根据本发明一优选实施例，所述转换单元还用于执行：接收并保存第二终端设备对所述对应关系的设置。

根据本发明一优选实施例，所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换之前，还具体执行：判断所述第一终端设备是否被设置为自适应语音响应，如果是，则继续执行利用所述声纹识别结果对所述响应文本进行语音转换；否则，利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。

由以上技术方案可以看出，本发明通过用户输入的语音数据，动态地获取声音合成参数对语音识别结果对应的响应文本进行语音转换，使得转换得到的音频数据符合用户的身份信息，实现了人机交互的语音自适应，增强了人机语音交互的真实感，提升了人机语音交互的趣味性。

【附图说明】

图1为本发明一实施例提供的语音交互的方法流程图；

图2为本发明一实施例提供的语音交互的装置结构图；

图3为本发明一实施例提供的计算机系统/服务器的框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1为本发明一实施例提供的一种语音交互的方法流程图，如图1中所示，所述方法在服务器端执行，包括：

在101中，接收第一终端设备发送的语音数据。

在本步骤中，服务器端接收第一终端设备发送的由用户所输入的语音数据。在本发明中，第一终端设备为智能终端设备，例如智能手机、平板电脑、智能穿戴设备、智能音箱、智能家电等，该智能设备具有获取用户语音数据以及播放音频数据的能力。

其中，第一终端设备通过麦克风来采集用户输入的语音数据，并在第一终端设备处于唤醒状态时，将所采集的语音数据发送至服务器端。

在102中，获取所述语音数据的语音识别结果以及声纹识别结果。

在本步骤中，对步骤101中所接收到的语音数据进行语音识别以及声纹识别，从而分别获取语音数据对应的语音识别结果以及声纹识别结果。

可以理解的是，在获取语音数据的语音识别结果以及声纹识别结果时，可以在服务器端对语音数据进行语音识别和声纹识别；也可以在第一终端设备对语音数据进行语音识别和声纹识别，由第一终端设备将语音数据、语音数据对应的语音识别结果以及声纹识别结果发送至服务器端；还可以由服务器端将所接收的将语音数据分别发送至语音识别服务器和声纹识别服务器，再从这两个服务器中获取语音数据的语音识别结果以及声纹识别结果。

其中，语音数据的声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息，用户的性别可以为用户是男性或女性，用户的年龄可以为用户是儿童、青年、中年或是老年。

具体地，对语音数据进行语音识别，获取语音数据对应的语音识别结果，一般为文本数据；对语音数据进行声纹识别，获取语音数据对应的声纹识别结果。可以理解的是，本发明所涉及的语音识别以及声纹识别属于现有技术，在此不进行赘述，且本发明对语音识别以及声纹识别的的顺序不进行限定。

另外，在对语音数据进行语音识别以及声纹识别之前，还可以包括以下内容：对语音数据进行去噪处理，利用去噪处理后的语音数据进行语音识别以及声纹识别，从而提升语音识别以及声纹识别的准确度。

在103中，获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换。

在本步骤中，根据步骤102中所获取的语音数据对应的语音识别结果进行搜索匹配，获取与语音识别结果对应的响应文本，再利用声纹识别结果对响应文本进行语音转换，从而得到与响应文本对应的音频数据。

语音数据的语音识别结果为文本数据，通常在仅根据文本数据进行搜索时，会得到对应文本数据的全部搜索结果，并不会获得适应不同性别、不同年龄、不同地域、不同职业的搜索结果。因此，本步骤在利用语音识别结果进行搜索匹配时，还可以采用以下方式：利用语音识别结果以及声纹识别结果进行搜索匹配，得到对应语音识别结果以及声纹识别结果的搜索结果。本发明通过结合所获取的声纹识别结果进行搜索，能够使得所获取的搜索结果符合声纹识别结果中用户的身份信息，从而实现获取更为准确、更加符合用户期望的搜索结果的目的。

其中，在利用语音识别结果以及声纹识别结果进行搜索匹配时，可以采用以下方式：首先利用语音识别结果进行搜索匹配，得到对应语音识别结果的搜索结果；然后计算声纹识别结果与所得到的搜索结果之间的匹配度，将匹配度超过预设阈值的搜索结果作为对应语音识别结果以及声纹识别结果的搜索结果。本发明对利用语音识别结果以及声纹识别结果进行搜索匹配获取搜索结果的方式不进行限定。

举例来说，若声纹识别结果中用户的身份信息为儿童，本步骤在获取搜索结果时，会得到更加适应儿童的搜索结果。若声纹识别结果中用户的身份信息为男性，本步骤在获取搜索结果时，会得到更加适应男性的搜索结果。

在根据语音识别结果进行搜索匹配时，可以直接利用搜索引擎进行搜索，得到与语音识别结果对应的搜索结果。

也可以采用以下方式：确定与语音识别结果对应的垂类服务器；根据语音识别结果在所确定的垂类服务器中进行搜索，从而获取相应的搜索结果。例如，若语音识别结果为“推荐几首励志的歌曲”，则根据该语音识别结果确定对应的垂类服务器为音乐垂类服务器，若声纹识别结果中用户的身份信息为男性，则在音乐垂类服务器中搜索得到“适合男性的励志歌曲”的搜索结果。

在本步骤中，利用语音识别结果进行搜索匹配，得到语音识别结果对应的响应文本。其中，语音识别结果对应的响应文本包括语音识别结果对应的文本搜索结果和/或提示文本，该提示文本用于在第一终端设备播放之前提示用户接下来将要进行播放。

举例来说，若语音识别结果为“播放几首励志的歌曲”，则对应的提示文本可以为“将为您播放歌曲”；若语音识别结果为“查询几首励志歌曲的名称”，则对应的提示文本可以为“为您查询到以下内容”。

另外，本步骤在获取语音识别结果对应的响应文本后，进一步利用声纹识别结果对所获取的响应文本进行语音转换。

可以理解的是，在利用声纹识别结果对所获取的响应文本进行语音转换之前，还进一步包括以下内容：判断第一终端设备是否被设置为自适应语音响应，如果是，则执行利用声纹识别结果对所获取的响应文本进行语音转换；否则，利用预先设置的或者默认的声音合成参数对响应文本进行语音转换。

具体地，在利用声纹识别结果对响应文本进行语音转换时，可以采用以下方式：根据预设的身份信息与声音合成参数之间的对应关系，确定与声纹识别结果对应的声音合成参数；利用所确定的声音合成参数对响应文本进行语音转换，从而得到与响应文本对应的音频数据。

例如，若用户的身份信息为儿童，则确定与儿童对应的声音合成参数为“儿童”声音合成参数，进而利用所确定的“儿童”声音合成参数对响应文本进行语音转换，使得转换得到的音频数据中的声音为儿童的声音。

可以理解的是，服务器端中的身份信息与声音合成参数之间的对应关系由第二终端设备进行设置，该第二终端设备可以和第一终端设备相同，也可以不同。第二终端设备将所设置的对应关系发送至服务器端，服务器端对该对应关系进行保存，从而使得服务器端能够根据该对应关系确定与用户的身份信息对应的声音合成参数。其中声音合成参数可以包括诸如：声音的音高、音长和音强等参数。

通常情况下，在对搜索结果进行语音转换时所使用的声音合成参数一般是固定的，即不同的用户所得到的语音转换后的音频数据中的声音是固定的。而本申请根据声纹识别结果动态地获取与用户的身份信息对应的声音合成参数，使得不同的用户所得到的语音转换后的音频数据中的声音能够与用户的身份信息相对应，从而提升用户的交互体验。

在104中，将转换得到的音频数据发送至所述第一终端设备。

在本步骤中，将步骤103转换得到的音频数据发送至第一终端设备，以用于第一终端设备播放对应用户的语音数据的反馈内容。

可以理解的是，若利用语音识别结果进行匹配搜索时，所获得的搜索结果为音频搜索结果，则无需对该音频搜索结果进行语音转换，直接将该音频搜索结果发送至第一终端设备。

另外，若根据语音识别结果获取了与其对应的提示文本，则可以将该提示文本对应的的音频数据添加至音频搜索结果或者文本搜索结果对应的音频数据之前，使得第一终端设备在播放音频搜索结果或者文本搜索结果对应的音频数据之前，先播放提示文本对应的音频数据，从而确保第一终端设备在播放用户所输入的语音数据对应的反馈内容时更加流畅。

图2为本发明一实施例提供的一种语音交互的装置流程图，如图2中所示，所述装置位于服务器端，包括：

接收单元21，用于接收第一终端设备发送的语音数据。

接收单元21接收第一终端设备发送的由用户所输入的语音数据。在本发明中，第一终端设备为智能终端设备，例如智能手机、平板电脑、智能穿戴设备、智能音箱、智能家电等，该智能设备具有获取用户语音数据以及播放音频数据的能力。

其中，第一终端设备通过麦克风来采集用户输入的语音数据，并在第一终端设备处于唤醒状态时，将所采集的语音数据发送至接收单元21。

处理单元22，用于获取所述语音数据的语音识别结果以及声纹识别结果。

处理单元22对接收单元21所接收到的语音数据进行语音识别以及声纹识别，从而分别获取语音数据对应的语音识别结果以及声纹识别结果。

可以理解的是，在获取语音数据的语音识别结果以及声纹识别结果时，可以由处理单元22对语音数据进行语音识别和声纹识别；也可以在第一终端设备对语音数据进行语音识别和声纹识别后，将语音数据、语音识别结果以及声纹识别结果一同发送至服务器端；还可以由处理单元22将所接收的将语音数据分别发送至语音识别服务器和声纹识别服务器，从这两个服务器中获取语音数据的语音识别结果以及声纹识别结果。

具体地，处理单元22对语音数据进行语音识别，获取语音数据对应的语音识别结果，一般为文本数据；处理单元22对语音数据进行声纹识别，获取语音数据对应的声纹识别结果。可以理解的是，本发明所涉及的语音识别以及声纹识别属于现有技术，在此不进行赘述，且本发明对语音识别以及声纹识别的的顺序不进行限定。

另外，处理单元22在对语音数据进行语音识别以及声纹识别之前，还可以包括以下内容：对语音数据进行去噪处理，利用去噪处理后的语音数据进行语音识别以及声纹识别，从而提升语音识别以及声纹识别的准确度。

转换单元23，用于获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换。

转换单元23根据处理单元22所获取的语音数据对应的语音识别结果进行搜索匹配，获取与语音识别结果对应的响应文本，再利用声纹识别结果对响应文本进行语音转换，从而得到与响应文本对应的音频数据。

语音数据的语音识别结果为文本数据，通常在仅根据文本数据进行搜索时，会得到对应文本数据的全部搜索结果，并不会获得适应不同性别、不同年龄、不同地域、不同职业的搜索结果。

因此，转换单元23在利用语音识别结果进行搜索匹配时，还可以采用以下方式：利用语音识别结果以及声纹识别结果进行搜索匹配，得到对应语音识别结果以及声纹识别结果的搜索结果。转换单元23通过结合所获取的声纹识别结果进行搜索，能够使得所获取的搜索结果符合声纹识别结果中用户的身份信息，从而实现获取更为准确、更加符合用户期望的搜索结果的目的。

其中，转换单元23在利用语音识别结果以及声纹识别结果进行搜索匹配时，可以采用以下方式：首先利用语音识别结果进行搜索匹配，得到对应语音识别结果的搜索结果；然后计算声纹识别结果与所得到的搜索结果之间的匹配度，将匹配度超过预设阈值的搜索结果作为对应语音识别结果以及声纹识别结果的搜索结果。本发明对转换单元23利用语音识别结果以及声纹识别结果获取搜索结果的方式不进行限定。

转换单元23在根据语音识别结果进行搜索匹配时，可以直接利用搜索引擎进行搜索，得到与语音识别结果对应的搜索结果。

转换单元23也可以采用以下方式：确定与语音识别结果对应的垂类服务器；根据语音识别结果在所确定的垂类服务器中进行搜索，从而获取相应的搜索结果。

转换单元23利用语音识别结果进行搜索匹配，得到语音识别结果对应的响应文本。其中，语音识别结果对应的响应文本包括语音识别结果对应的文本搜索结果和/或提示文本，该提示文本用于在第一终端设备播放之前提示用户接下来将要进行播放。

另外，转换单元23在获取语音识别结果对应的响应文本后，进一步利用声纹识别结果对所获取的响应文本进行语音转换。

可以理解的是，转换单元23在利用声纹识别结果对所获取的响应文本进行语音转换之前，还进一步执行以下内容：判断第一终端设备是否被设置为自适应语音响应，如果是，则执行利用声纹识别结果对所获取的响应文本进行语音转换；否则，利用预先设置的或者默认的声音合成参数对响应文本进行语音转换。

具体地，转换单元23在利用声纹识别结果对响应文本进行语音转换时，可以采用以下方式：根据预设的身份信息与声音合成参数之间的对应关系，确定与声纹识别结果对应的声音合成参数；利用所确定的声音合成参数对响应文本进行语音转换，从而得到与响应文本对应的音频数据。

可以理解的是，转换单元23中的身份信息与声音合成参数之间的对应关系由第二终端设备进行设置，该第二终端设备可以和第一终端设备相同，也可以不同。第二终端设备将所设置的对应关系发送至转换单元23，转换单元23对该对应关系进行保存，从而使得转换单元23能够根据该对应关系确定与用户的身份信息对应的声音合成参数。其中声音合成参数可以包括诸如：声音的音高、音长和音强等参数。

发送单元24，用于将转换得到的音频数据发送至所述第一终端设备。

发送单元24将转换单元23转换得到的音频数据发送至第一终端设备，以用于第一终端设备播放对应用户的语音数据的反馈内容。

可以理解的是，若转换单元23利用语音识别结果进行匹配搜索时，所获得的搜索结果为音频搜索结果，则无需对该音频搜索结果进行语音转换，由发送单元24直接将该音频搜索结果发送至第一终端设备。

另外，若转换单元23根据语音识别结果获取了与其对应的提示文本，则发送单元24可以将该提示文本对应的的音频数据添加至音频搜索结果或者文本搜索结果对应的音频数据之前，使得第一终端设备在播放音频搜索结果或者文本搜索结果对应的音频数据之前，先播放提示文本对应的音频数据，从而确保第一终端设备在播放用户所输入的语音数据对应的反馈内容时更加流畅。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图3中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行本发明实施例所提供的方法流程。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

利用本发明所提供的技术方案，通过用户输入的语音数据，动态地获取声音合成参数对语音识别结果对应的响应文本进行语音转换，使得转换得到的音频数据符合用户的身份信息，实现了人机交互的语音自适应，增强了人机语音交互的真实感，提升了人机语音交互的趣味性。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音交互的方法，其特征在，所述方法包括：

接收第一终端设备发送的语音数据；

获取所述语音数据的语音识别结果以及声纹识别结果；

获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换；

将转换得到的音频数据发送至所述第一终端设备；

所述获取针对所述语音识别结果的响应文本包括：

利用所述语音识别结果进行搜索匹配，获得与所述语音识别结果对应的文本搜索结果和提示文本，所述提示文本为用于所述第一终端设备在播放所述文本搜索结果转换得到的音频数据之前提示用户接下来将要进行播放的文本。

2.根据权利要求1所述的方法，其特征在于，所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。

3.根据权利要求1所述的方法，其特征在于，该方法还包括：

若利用所述语音识别结果进行搜索匹配，获得音频搜索结果，则将所述音频搜索结果发送至所述第一终端设备。

4.根据权利要求1所述的方法，其特征在于，获取针对所述语音识别结果的响应文本包括：

利用所述语音识别结果以及声纹识别结果进行搜索匹配，获得与所述语音识别结果以及声纹识别结果对应的文本搜索结果和提示文本。

5.根据权利要求1所述的方法，其特征在于，利用所述声纹识别结果对所述响应文本进行语音转换包括：

根据预设的身份信息与声音合成参数之间的对应关系，确定与所述声纹识别结果对应的声音合成参数；

利用所确定的声音合成参数对所述响应文本进行语音转换。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收并保存第二终端设备对所述对应关系的设置。

7.根据权利要求1所述的方法，其特征在于，在利用所述声纹识别结果对所述响应文本进行语音转换之前，还包括：

判断所述第一终端设备是否被设置为自适应语音响应，如果是，则继续执行利用所述声纹识别结果对所述响应文本进行语音转换；

否则，利用预先设置的或者默认的声音合成参数对所述响应文本进行语音转换。

8.一种语音交互的装置，其特征在，所述装置包括：

接收单元，用于接收第一终端设备发送的语音数据；

处理单元，用于获取所述语音数据的语音识别结果以及声纹识别结果；

转换单元，用于获取针对所述语音识别结果的响应文本，利用所述声纹识别结果对所述响应文本进行语音转换；

发送单元，用于将转换得到的音频数据发送至所述第一终端设备；

所述转换单元在获取针对所述语音识别结果的响应文本时，具体执行：

9.根据权利要求8所述的装置，其特征在于，所述声纹识别结果包括用户的性别、年龄、地域、职业中的至少一种身份信息。

10.根据权利要求8所述的装置，其特征在于，所述转换单元还用于执行：

11.根据权利要求8所述的装置，其特征在于，所述转换单元在获取针对所述语音识别结果的响应文本时，具体执行：

12.根据权利要求8所述的装置，其特征在于，所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换时，具体执行：

利用所确定的声音合成参数对所述响应文本进行语音转换。

13.根据权利要求12所述的装置，其特征在于，所述转换单元还用于执行：

接收并保存第二终端设备对所述对应关系的设置。

14.根据权利要求8所述的装置，其特征在于，所述转换单元在利用所述声纹识别结果对所述响应文本进行语音转换之前，还具体执行：

15.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的方法。