CN111724789B

CN111724789B - 语音交互的方法和终端设备

Info

Publication number: CN111724789B
Application number: CN201910209142.1A
Authority: CN
Inventors: 戴志成; 田拓
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2023-03-28
Anticipated expiration: 2039-03-19
Also published as: CN111724789A

Abstract

本申请提供了语音交互的方法和终端设备。在本申请中的技术方案中，终端设备接收第一语音信息；该终端设备通过对该第一语音信息进行声纹识别，得到声纹识别结果；该终端设备采用与该声纹识别结果对应的答复模式，输出答复语音信息。在上述技术方案中，终端设备对用户的语音信息进行声纹识别，从而确定与语音信息对应的答复模式，进而根据与语音信息对应的答复模式，答复发出语音信息的用户。这样针对不同的用户，可以采用不同的答复模式，从而能够提高终端设备与用户语音交互的趣味性，提高用户粘性。

Description

语音交互的方法和终端设备

技术领域

本申请涉及人机交互领域，并且更具体地涉及语音交互的方法和终端设备。

背景技术

智能音箱是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

但是目前智能音箱的语音交互模式中，智能音箱针对所有用户的答复模式相同，例如，不管哪个用户唤醒智能音箱，智能音箱的答复都是“我在”，交互方式比较单一、乏味。

发明内容

本申请提供语音交互的方法和终端设备，能够提高终端设备与用户语音交互的趣味性，提高用户粘性。

第一方面，本申请提供了一种语音交互的方法，该方法包括：终端设备接收第一语音信息；该终端设备通过对该第一语音信息进行声纹识别，得到声纹识别结果；该终端设备采用与该声纹识别结果对应的答复模式，输出答复语音信息。

在上述技术方案中，终端设备对用户的语音信息进行声纹识别，从而确定与声纹识别结果对应的答复模式，进而根据与声纹识别结果对应的答复模式，答复发出语音信息的用户。这样针对不同的用户，可以采用不同的答复模式，从而能够提高终端设备与用户语音交互的趣味性，提高用户粘性。

在一种可能的实现方式中，与该答复模式对应的模式语音信息为用户提前录入的。

在上述技术方案中，终端设备可以根据用户输入的语音信息生成答复模式，换句话说，用户可以根据自己的喜好自定义答复模式，这样可以使得终端设备的答复模式更加灵活。

在一种可能的实现方式中，与该答复模式对应的模式语音信息为预配置的。

在上述技术方案中，在终端设备中预配置答复模式，可以简化用户的操作，从而提高用户粘性。

在一种可能的实现方式中，在该终端设备输出答复语音信息之前，该方法还包括：该终端设备提取该第一语音信息中的关键词；该终端设备获取与该关键词对应的服务信息；该终端设备根据该服务信息和与该答复模式，确定该答复语音信息。

其中，服务信息可以是用户需求的信息，例如，当第一语音信息中包含关键词“搜索”“拉布拉多”时，服务信息可以是搜索到的关于拉布拉多的具体介绍的信息。

可选地，终端设备可以通过服务器获取与该关键词对应的服务信息。

可选地，终端设备可以直接获取与该关键词对应的服务信息。

在一种可能的实现方式中，在该终端设备接收第一语音信息之前，该方法还包括：该终端设备接收来自与该第一语音信息对应的用户的第二语音信息；该终端设备对该第二语音信息进行声纹识别，得到声纹信息；该终端设备获取来自用户的选择指令，该选择指令指示用户选择的答复模式；该终端设备根据该选择指令和该声纹信息，生成该声纹信息与用户选择的答复模式的对应关系。

在一种可能的实现方式中，该方法还包括：该终端设备向服务器发送该声纹信息与用户选择的答复模式的对应关系。

在上述技术方案中，终端设备将用户与答复模式的对应关系发送到服务器，这样在终端设备发生更换时，新的终端设备可以从服务器获取相应的对应关系或配置信息，用户不必在新的终端设备上在重新进行注册和配置等。

在一种可能的实现方式中，该答复模式至少包括：君臣模式、主仆模式、夫妻模式、儿童模式。

第二方面，本申请提供了一种终端设备，该终端设备包括：接收模块，用于接收第一语音信息；处理模块，用于通过对该第一语音信息进行声纹识别，得到声纹识别结果；输出模块，用于采用与该声纹识别结果对应的答复模式，输出答复语音信息。

在一种可能的实现方式中，该处理模块，还用于在该终端设备输出答复语音信息之前，提取该第一语音信息中的关键词；该终端设备还包括通信模块，用于获取与该关键词对应的服务信息；该处理模块，还用于根据该服务信息和该答复模式，确定该答复语音信息。

在一种可能的实现方式中，该接收模块，还用于在该终端设备接收第一语音信息之前，接收来自与该第一语音信息对应的用户的第二语音信息；该处理模块，还用于对该第二语音信息进行声纹识别，得到的声纹信息；该接收模块，还用于获取来自用户选择指令，该选择指令指示用户的选择的答复模式；该处理模块，还用于根据该选择指令和该声纹信息，生成该声纹信息与用户选择的答复模式的对应关系。

在一种可能的实现方式中，该通信模块还用于向服务器发送该声纹信息与用户选择的答复模式的对应关系。

第三方面，本申请提供了一种芯片，所述芯片与存储器相连，用于读取并执行所述存储器中存储的软件程序，以实现第一方面或第一方面任意一种实现方式所述的方法。

第四方面，本申请提供了一种终端设备，包括收发器、处理器和存储器，用于执行第一方面或第一方面任意一种实现方式所述的方法。

第五方面，本申请提供了一种计算机可读存储介质，包括指令，当其在终端设备上运行时，使得终端设备执行第一方面或第一方面任意一种实现方式所述的方法。

第六方面，本申请提供了一种计算机程序产品，当其在终端设备上运行时，使得终端设备执行第一方面或第一方面任意一种实现方式所述的方法。

第七方面，本申请提供了一种语音处理系统，所述语音处理系统包括上述第一方面或第一方面任意一种实现方式中所述的终端设备。

附图说明

图1是本申请实施例的语音交互的方法的示意性流程图。

图2是本申请实施例的整体数据流向的示意图。

图3是本申请实施例的整体的流程的示意图。

图4是本申请实施例提供的终端设备的示意性结构图。

图5是本申请另一实施例提供的终端设备的示意性结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例旨在解决目前智能语音交互产品与用户交互方式比较单一、乏味。

图1是本申请实施例的语音交互的方法的示意性流程图。图1所示的方法可以由终端设备执行，图1所示的方法包括以下内容的至少部分内容。

在110中，终端设备接收第一语音信息。

在120中，该终端设备通过对该第一语音信息进行声纹识别，得到声纹识别结果。

在130中，该终端设备采用与该声纹识别结果对应的答复模式，输出答复语音信息。

可选地，不同的答复模式对应于不同的答复语音信息(例如，语音包)。本申请实施示例的答复模式可以包括君臣模式、主仆模式、夫妻模式、儿童模式等，本申请实施例不作具体限定。

本申请实施例对终端设备的类型不做具体限定，该终端设备可以是任意智能语音交互产品例如，终端设备可以是智能音箱、智能冰箱、语音机器人等。终端设备还可以是其他具有语音交互功能的产品，只要该产品具有智能语音功能，能够与用户进行语音交互即可。

可选地，答复语音信息由模式语音信息和服务信息组成。例如，答复模式为君臣模式，第一语音信息为“搜索儿歌”时，答复语音信息可以由模式语音信息“为皇上收缩到，将为皇上播放”和服务信息“数鸭子”构成，即答复语音信息为“为皇上搜索到数鸭子，将为皇上播放”。

本申请实施例的答复模式对应的模式语音信息可以是用户提前录入的。具体地，在终端设备接收来自用户的自定义指令后，终端设备根据来自用户的第三语音信息，生成自定义答复模式对应的模式语音信息。也就是说用户可以通过终端设备的自定义功能，自己定义终端设备的语音答复方式。

自定义指令有多种形式，例如，自定义指令可以是触摸指令、语音指令、文字指令等。

应理解，第三语音信息与第一语音信息可以来自同一个用户，也可以来自不同的用户。还应理解，自定义指令还可以有其他的叫法，只要该指令用于指示终端设备开始自定义答复模式即可，例如，配置指令等。

本申请实施例的答复模式对应的模式语音信息还可以是预配置的。例如，终端设备中配置好几种答复模式，用户可以从配置好的几种答复模式中选取自己语音信息对应的答复模式。

可以理解地，本申请实施例的终端设备可以同时具有预配置的答复模式和自定义答复模式的功能。

在一些实施例中，第一语音信息可以为唤醒语音信息。用户在想要使用终端设备时，可以说出唤醒词以便唤醒终端设备。例如，你好，小E。

可选地，唤醒语音信息可以为唤醒词，也可以为包括唤醒词的语句。

例如，当唤醒词为“你好小E”时，唤醒语音信息可以为“你好小E”，也可以为“你好我亲爱的小E”、“你好小E今天天气真好”等。

可选地，在终端设备接收到唤醒语音信息后，对唤醒语音信号进行预处理。

例如，对唤醒语音信号进行减噪滤波、语音增强等处理。

在一些实施例中，第一语音信息可以为操作语音信息。用户在想要终端设备执行某些指令时，可以说出操作语音信息以便触发终端设备的具体任务。例如，小E播放儿歌、搜索拉布拉多等。

在一些实施例中，该终端设备通过对该第一语音信息进行声纹识别，得到声纹信息；终端设备根据声纹信息与答复模式的对应关系，确定与声纹信息对应的答复模式。例如，在发出第一语音信息的用户之前已经设置过答复模式的情况下，终端设备确定与该第一语音信息对应的答复模式为用户设置的答复模式。

应理解，在发出第一语音信息的用户尚未设置过答复模式(即发出第一语音信息的用户或用户的声纹信息没有对应的答复模式)的情况下，终端设备确定与该第一语音信息对应的答复模式为默认答复模式。

其中，声纹(voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。由于人的发声具有特定性和稳定性，从理论上讲，它同指纹一样具有身份识别(认定个人)的作用。本申请实施例采用声纹识别技术，可以避免由于语音信息的模糊性、语义受上下文的影响等缺点造成的用户识别失误。

在另一些实施例中，终端设备通过对第一语音信息进行声纹识别，得到声纹信息；终端设备进一步根据得到的声纹信息确定发出第一语音信息的用户信息(例如，用户ID等)；终端设备根据得到的用户信息与答复模式的对应关系，确定与用户信息对应的答复模式。例如，终端设备或服务器中存储的是用户与答复模式的对应关系。

可选地，终端设备可以通过语音算法对第一语音信息进行声纹识别。

可选地，终端设备仅在接收到唤醒语音信号时进行声纹识别。也就是说，终端设备使用根据唤醒语音信号确定的答复模式对之后的操作语音信息进行答复。

例如，当终端设备确定发出唤醒语音信息的用户为用户A时，确定答复模式为君臣模式，在后续接收到操作语音信息时，均使用君臣模式进行答复。

可选地，终端设备可以在每次接收到语音信息时均进行声纹识别。这样，当有多个用户同时在说话时，针对不同用户采用不同答复方式。当多个用户选择同一风格的答复模式时，可以使得角色更为生动有趣。

例如，当一家三口同时与终端设备进行交互时，爸爸对应的答复模式为皇帝-大臣模式，妈妈对应的答复模式为皇后-大臣模式，女儿对应的答复模式为公主-大臣模式。当爸爸说“小E小E”，终端设备答复“臣在”，女儿说“播放儿歌”，终端设备答复“启禀公主找到儿歌数鸭子将为公主播放”，妈妈说“小E小E退下”，终端设备答复“喳微臣告退”。

应理解，终端设备还可以将第一语音信号发送给服务器，由服务器进行声纹识别并确定。

以终端设备进行声纹识别为例，在一些实施例中，在终端设备接收到第一语音信息后，确定答复语音信息。以终端设备或服务器中存储用户与答复模式的对应关系为例。

作为一个示例，终端设备根据声纹识别确定的用户与答复模式的对应关系和从第三方云获取的服务信息，确定答复语音信息。具体地，终端设备提取第一语音信息中的关键词；终端设备获取与关键词对应的服务信息；终端设备根据该用户，确定与用户对应的答复模式；终端设备根据服务信息和答复模式，确定答复语音信息。其中，服务信息可以是用户需求的信息，例如，当第一语音信息中包含关键词“搜索”“拉布拉多”时，服务信息可以是搜索到的关于拉布拉多的具体介绍的信息；当第一语音信息包含关键词“播放”“数鸭子”，服务信息可以是歌曲数鸭子；当第一语音信息包含“打开”“窗帘”时，服务信息可以是表示动作完成的信息(例如，已经为您打开窗帘等)等。

例如，用户A发出第一语音信息“播放儿歌”，终端设备接收到第一语音信息后，对第一语音信息进行声纹识别，确定发出指令的用户为用户A，根据用户A确定答复模式为君臣模式；终端设备提取第一语音信息的关键词“播放”“儿歌”，发送给服务器；服务器搜索得到儿歌数鸭子；终端设备确定答复语音信息“启禀皇上，找到儿歌数鸭子，将为皇上播放”。

应理解，终端设备还可以不通过服务器而直接获取与该关键词对应的服务信息。

作为另一个示例，终端设备根据声纹识别确定的用户与答复模式的对应关系和来自服务器的控制指令，确定答复语音信息。具体地，终端设备根据声纹识别确定的用户与答复模式的对应关系，确定答复模式；终端设备向服务器发送预处理后的第一语音信息，服务器接收预处理后的第一语音信息后，根据预处理后的第一语音信息向终端设备下发控制指令，终端设备接收服务器发送的控制指令；终端设备根据确定的答复模式和控制指令，确定答复语音信息。

例如，用户A发出第一语音信息“播放儿歌”，终端设备接收到第一语音信息后，对第一语音信息进行声纹识别，确定发出指令的用户为用户A，根据用户A确定答复模式为君臣模式；终端设备再将第一语音信息预处理后，发送给服务器，服务器对第一语音信息进行自然语言识别、自然语言处理、关键词提取等处理，服务器根据提取到的关键词“播放”和“儿歌”向终端设备下发控制指令，使得终端设备打开播放器并搜索儿歌，当搜索到儿歌数鸭子时，确定答复语音信息“启禀皇上，找到儿歌数鸭子，将为皇上播放”。

在本申请实施例中，由终端设备进行声纹识别，由服务器进行自然语言识别、自然语言处理、关键词提取等处理。

作为另外一个示例，终端设备根据服务器指示的答复模式和控制指令，确定答复语音信息。具体地，终端设备向服务器发送预处理后的第一语音信息和指示信息，指示信息用于指示用户；服务器在接收到预处理后的第一语音信息和指示信息，确定发出指令的用户，并根据用户与答复模式的对应关系确定待使用的答复模式并向终端设备发送指示信息，指示信息用于指示该待使用的答复模式，同时服务器根据预处理后的第一语音信息向终端设备下发控制指令；终端设备根据指示信息和控制指令，确定答复语音信息。

在本申请实施例中，由服务器进行声纹识别、自然语言识别、自然语言处理、关键词提取等处理，由终端设备确定答复语音信息。

作为另外一个示例，终端设备接收服务器发送的答复语音信息。也就是说，声纹识别、自然语言识别、自然语言处理、关键词提取等处理以及答复语音信息的确定均由服务器执行。作为另外一个示例，声纹识别、自然语言识别、自然语言处理、关键词提取等处理以及答复语音信息的确定均由终端设备执行。

可以理解地，当终端设备或服务器未检索到用户定制或设置的答复模式时，终端设备采用默认或基础答复模式。

在一些实施例中，终端设备在使用声纹识别技术对用户进行区分之前，需要生成用户与答复模式的对应关系，即用户对答复模式进行预设。具体地，终端设备接收来自与第一语音信息对应的用户的第二语音信息；终端设备对第二语音信息进行声纹识别，得到的声纹信息，并记录该声纹信息对应于该用户；终端设备接收来自用户的选择指令，选择指令指示用户的选择的答复模式；终端设备根据选择指令和该用户，生成用户与答复模式的对应关系，即发出第语音信息的用户与答复模式的对应关系。

在另一些实施例中，终端设备在使用声纹识别技术对用户进行区分之前，需要生成用户的声纹信息与答复模式的对应关系，即用户对答复模式进行预设。具体地，终端设备接收来自与第一语音信息对应的用户的第二语音信息；终端设备对第二语音信息进行声纹识别，得到的声纹信息；终端设备接收来自用户的选择指令，选择指令指示用户的选择的答复模式；终端设备根据选择指令和该声纹信息，生成声纹信息与答复模式的对应关系，即发出第二语音信息的用户与答复模式的对应关系。

可以理解地，选择指令可以是发出第一语音信息的用户发出的指令，也可以是其他用户发出的指令。也就是说发出选择指令的用户与发出第一语音信息的用户可以相同，也可以不同。

选择指令有多种形式，例如，选择指令可以是触摸指令、语音指令、文字指令等。

可选地，声纹信息可以为语音信息的声纹特征、声纹参数等。

在一些实施例中，终端设备还可以将该声纹信息与该答复模式的对应关系发送给服务器，服务器存储该对应关系。这样在终端设备发生更换时，新的终端设备可以从服务器获取相应的对应关系或配置信息，用户不必在新的终端设备上在重新进行注册和配置等。

图2是本申请实施例的整体数据流向的示意图。图3是本申请实施例的整体的流程的示意图。图2以终端设备执行声纹识别等语音处理，云侧(也称服务器侧)执行关键词提取等语音处理为例。应理解，图2所示的各语音处理环节可以由终端设备执行，也可以由服务器执行，本申请实施例不作限定。

结合图2和图3对本申请实施例的技术方案进行描述。用户通过终端设备上的麦克风(mic)向终端设备输入语音信息(例如，上文中的第一语音信息、第二语音信息第三语音信息等)；终端设备在接收到用户输入的语音信息之后，进行端侧(也称终端设备侧)的语音处理，例如拾音处理、噪音处理、语音唤醒、声纹识别等，然后通过语音交互软件开发工具包(software development kit，SDK)确定答复模式为答复模式N，在再将经过端侧语音处理的语音信息发送到云端(也称服务器)；云端接收到终端设备发送的语音信息后，对语音信息进行自动语音识别、自然语音处理、关键词提取等处理，然后根据提取出的关键词进行服务分发(例如访问华为云、三方云、智能家居Hilink云等)，以便向终端设备提供与语音信息相应的服务信息或控制指令；终端设备使用答复模式N输出答复语音。

下面结合图4和图5对本申请的装置实施例进行描述。

图4是本申请实施例提供的终端设备的示意性结构图。图4所示的终端设备400可以对应于上文的终端设备。如图4所示，终端设备可以包括接收模块410、处理模块420、输出模块430。

接收模块410，用于接收来自第一语音信息。

处理模块420，用于通过对该第一语音信息进行声纹识别，得到声纹识别结果。

输出模块430，用于采用与该声纹识别结果对应的答复模式，输出答复语音信息。

可选地，与该答复模式对应的模式语音信息为用户提前录入的。

可选地，与该答复模式对应的模式语音信息为预配置的。

可选地，该处理模块420，还用于在该终端设备输出答复语音信息之前，提取该第一语音信息中的关键词；该终端设备400还包括通信模块440，用于获取与该关键词对应的服务信息；该处理模块420，还用于根据该服务信息和与该答复模式，确定该答复语音信息。

可选地，该接收模块410，还用于在该终端设备接收第一语音信息之前，接收来自与该第一语音信息对应的用户的第二语音信息；该处理模块420，还用于对该第二语音信息进行声纹识别，得到的声纹信息；该接收模块410，还用于获取来自用户选择指令，该选择指令指示该用户的选择的答复模式；该处理模块420，还用于根据该选择指令和该声纹信息，生成该声纹信息与用户选择的答复模式的对应关系。

可选地，该通信模块440还用于向服务器发送该声纹信息与用户选择的答复模式的对应关系。

可选地，该答复模式至少包括：君臣模式、主仆模式、夫妻模式、儿童模式。

接收模块410可以由麦克风实现或与麦克风具有相同或相似功能的装置实现。处理模块420可以由处理器实现。输出模块430可以由扬声器或与扬声器具有相同或相似功能的装置实现。通信模块440可以由收发器实现。接收模块410、处理模块420、输出模块430和通信模块440的具体功能和有益效果可以参见图1所示的方法，在此就不再赘述。

图5是本申请另一实施例提供的终端设备的示意性结构图。图5所示的终端设备500可以对应于上文的终端设备。如图5所示，终端设备可以包括收发器510、处理器520、存储器530、扬声器540和麦克风550。

图5中仅示出了一个存储器和处理器。在实际的终端设备产品中，可以存在一个或多个处理器和一个或多个存储器。存储器也可以称为存储介质或者存储设备等。存储器可以是独立于处理器设置，也可以是与处理器集成在一起，本申请实施例对此不做限制。

收发器510、处理器520、存储器530、扬声器540和麦克风550之间通过内部连接通路互相通信，传递控制和/或数据信号。

具体地，麦克风550，用于接收第一语音信息；

处理器520，用于通过对该第一语音信息进行声纹识别，得到声纹识别结果。

扬声器540，用于采用与该声纹识别结果对应的答复模式，输出答复语音信息。

终端设备500的具体工作过程和有益效果可以参见图1所示实施例中的描述，在此不再赘述。

本申请各实施例所述的收发器也可以称为收发单元、收发机、收发装置等。处理器也可以称为处理单元，处理单板，处理模块、处理装置等。可选的，可以将收发器中用于实现接收功能的器件视为接收单元，将收发器中用于实现发送功能的器件视为发送单元，即收发器包括接收单元和发送单元。接收单元有时也可以称为接收机、接收器、或接收电路等。发送单元有时也可以称为发射机、发射器或者发射电路等。

本申请各实施例所述的存储器用于存储处理器运行所需的计算机指令和参数。

本申请各实施例所述的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。本申请各实施例所述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的指令，结合其硬件完成上述方法的步骤。

在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音交互的方法，其特征在于，包括：

终端设备接收第一语音信息；

所述终端设备通过对所述第一语音信息进行声纹识别，得到声纹识别结果；

所述终端设备采用与所述声纹识别结果对应的答复模式，输出答复语音信息，其中当多个用户选择同一风格的多个答复模式时，所述同一风格的多个答复模式对应于相同的虚拟角色。

2.根据权利要求1所述的方法，其特征在于，与所述答复模式对应的模式语音信息为用户提前录入的。

3.根据权利要求1所述的方法，其特征在于，与所述答复模式对应的模式语音信息为预配置的。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在所述终端设备采用与所述声纹识别结果对应的答复模式，输出答复语音信息之前，所述方法还包括：

所述终端设备提取所述第一语音信息中的关键词；

所述终端设备获取与所述关键词对应的服务信息；

所述终端设备根据所述服务信息和与所述答复模式，确定所述答复语音信息。

5.根据权利要求1所述的方法，其特征在于，在所述终端设备接收第一语音信息之前，所述方法还包括：

所述终端设备接收来自与所述第一语音信息对应的用户的第二语音信息；

所述终端设备对所述第二语音信息进行声纹识别，得到声纹信息；

所述终端设备获取来自用户的选择指令，所述选择指令指示用户选择的答复模式；

所述终端设备根据所述选择指令和所述声纹信息，生成所述声纹信息与用户选择的答复模式的对应关系。

6.根据权利要求2所述的方法，其特征在于，在所述终端设备接收第一语音信息之前，所述方法还包括：

7.根据权利要求3所述的方法，其特征在于，在所述终端设备接收第一语音信息之前，所述方法还包括：

8.根据权利要求4所述的方法，其特征在于，在所述终端设备接收第一语音信息之前，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

所述终端设备向服务器发送所述声纹信息与用户选择的答复模式的对应关系。

10.一种终端设备，其特征在于，包括：

接收模块，用于接收第一语音信息；

处理模块，用于通过对所述第一语音信息进行声纹识别，得到声纹识别结果；

输出模块，用于采用与所述声纹识别结果对应的答复模式输出答复语音信息，其中当多个用户选择同一风格的多个答复模式时，所述同一风格的多个答复模式对应于相同的虚拟角色。

11.根据权利要求10所述的终端设备，其特征在于，与所述答复模式对应的模式语音信息为用户提前录入的。

12.根据权利要求10所述的终端设备，其特征在于，与所述答复模式对应的模式语音信息为预配置的。

13.根据权利要求10至12中任一项所述的终端设备，其特征在于，

所述处理模块，还用于在所述终端设备输出答复语音信息之前，提取所述第一语音信息中的关键词；

所述终端设备还包括通信模块，用于获取与所述关键词对应的服务信息；

所述处理模块，还用于根据所述服务信息和与所述答复模式，确定所述答复语音信息。

14.根据权利要求10所述的终端设备，其特征在于，

所述接收模块，还用于在所述终端设备接收第一语音信息之前，接收来自与所述第一语音信息对应的用户的第二语音信息；

所述处理模块，还用于对所述第二语音信息进行声纹识别，得到的声纹信息；

所述接收模块，还用于获取来自用户选择指令，所述选择指令指示用户的选择的答复模式；

所述处理模块，还用于根据所述选择指令和所述声纹信息，生成所述声纹信息与用户选择的答复模式的对应关系。

15.根据权利要求11所述的终端设备，其特征在于，

16.根据权利要求12所述的终端设备，其特征在于，

17.根据权利要求13所述的终端设备，其特征在于，

18.根据权利要求17所述的终端设备，其特征在于，所述通信模块还用于向服务器发送所述声纹信息与用户选择的答复模式的对应关系。

19.一种计算机可读存储介质，其特征在于，包括指令，当其在终端设备上运行时，使得终端设备执行如权利要求1至9中任一项所述的方法。

20.一种语音处理系统，其特征在于，包括如权利要求10至18中任一项所述的终端设备。