CN111369985A

CN111369985A - 语音交互方法、装置、设备和介质

Info

Publication number: CN111369985A
Application number: CN201811603586.5A
Authority: CN
Inventors: 熊友军; 刘锐
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-07-03

Abstract

本发明实施例公开了一种语音交互方法、装置、设备和介质，涉及人工智能领域。该方法包括：响应用户声纹特征录入事件，对用户进行至少一次提问；获取用户基于所述至少一次提问的回答语音数据；根据所述回答语音数据提取用户的声纹特征；基于用户的声纹特征，对采集到的声音数据进行响应。本发明实施例提供的一种语音交互方法、装置、设备和介质，实现了用户在无需了解机器人的设定语音输入格式的情况下，自然地与机器人进行语音交互。

Description

语音交互方法、装置、设备和介质

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种语音交互方法、装置、设备和介质。

背景技术

随着技术的快速发展，基于语音交互的人工智能机器人也越来越多的出现在我们的生活中。

当前在用户与机器人进行语音交互的过程中，需要用户按照设定的语音输入格式向机器人发送指令或响应机器人的输出。

然而，上述交互过程需要用户了解机器人的设定语音输入格式，并且在基于设定语音输入格式进行语音输入时，用户无法自然地进行语音交互。从而导致用户使用体验差的问题。

发明内容

本发明实施例提供一种语音交互方法、装置、设备和介质，以实现用户在无需了解机器人的设定语音输入格式的情况下，自然地与机器人进行语音交互。

第一方面，本发明实施例提供了一种语音交互方法，该方法包括：

响应用户声纹特征录入事件，对用户进行至少一次提问；

获取用户基于所述至少一次提问的回答语音数据；

根据所述回答语音数据提取用户的声纹特征；

基于用户的声纹特征，对采集到的声音数据进行响应。

第二方面，本发明实施例还提供了一种语音交互装置，该装置包括：

问题提问模块，用于响应用户声纹特征录入事件，对用户进行至少一次提问；

语音获取模块，用于获取用户基于所述至少一次提问的回答语音数据；

特征提取模块，用于根据所述回答语音数据提取用户的声纹特征；

语音响应模块，用于基于用户的声纹特征，对采集到的声音数据进行响应。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

语音采集装置，用于采集语音数据；

语音输出装置和/或显示装置，用于响应用户输入的语音数据；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的语音交互方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的语音交互方法。

本发明实施例通过提问与回答的交互方式，对用户的声纹特征进行采集。从而实现在用户无感知的情况下实现对用户声纹特征的采集，避免以指令方式让用户输入语音导致的用户的不自然感。

通过基于用户的声纹特征响应采集到的声音数据，从而实现在无需用户按照设定语音输入格式或语音请求的情况下，识别用户语音数据，并对用户语音数据进行响应。因为没有按照设定语音输入格式或语音请求的限定，用户可以自然地进行交互。

附图说明

图1为本发明实施例一提供的一种语音交互方法的流程图；

图2是本发明实施例二提供的一种语音交互方法的流程图；

图3是本发明实施例三提供的语音交互方法的流程图；

图4是本发明实施例四提供的一种语音交互装置的结构示意图；

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音交互方法的流程图。本实施例可适用于响应用户语音输入的情况。该方法可以由一种语音交互装置来执行，该装置可以由软件和/或硬件的方式实现。典型地，该语音交互装置可以是具有语音识别功能的机器人。参见图1，本实施例提供的语音交互方法包括：

S110、响应用户声纹特征录入事件，对用户进行至少一次提问。

具体地，用户声纹特征录入事件可以是语音交互装置的首次开机，也可以是用户声纹特征录入控件的触发，还可以是检测到用户声纹特征录入的语音指令。可选地，用户声纹特征录入事件还可以是其他事件，具体可以根据实际需要设定，本实施例对此并不进行任何限定。

具体提问内容可以根据需要设定。

用户是具有语音交互装置的使用权限的人。

S120、获取用户基于所述至少一次提问的回答语音数据。

S130、根据所述回答语音数据提取用户的声纹特征。

具体地，根据所述回答语音数据提取用户的声纹特征，包括：

提取所述回答语音数据的声纹特征，根据提取的声纹特征确定用户声纹特征。

发明人在实现本发明的过程中发现，进行语音交互的场景通常比较复杂，不可避免的在采集用户语音数据时会存在噪声的干扰。而噪声的干扰很容易导致提取的用户声纹特征不准确的问题，进而直接影响之后对用户语音的识别。

为解决该问题，典型地根据所述回答语音数据提取用户的声纹特征，包括：

根据各次提问的回答语音数据提取声纹特征；

若提取地各次提问的回答语音数据的声纹特征的相似度满足设定相似度要求，则根据各次提问的回答语音数据的声纹特征确定用户的声纹特征；

若提取地各次提问的回答语音数据的声纹特征的相似度不满足设定相似度要求，则继续对用户进行提问，直至获取到的用户基于提问的回答语音数据满足设定语音输入要求，根据获取的回答语音数据提取用户的声纹特征。

S140、基于用户的声纹特征，对采集到的声音数据进行响应。

具体地，所述基于用户的声纹特征，对采集到的声音数据进行响应，包括：

提取采集到的声音数据的声纹特征；

将采集到的声音数据的声纹特征与用户的声纹特征进行匹配；

若匹配成功，则响应采集到的声音数据。

其中，响应采集的语音数据包括：对采集到的声音数据进行识别，根据识别结果响应用户；或根据语音数据的发生方位，移动至用户面前；或播放问候语，例如，“用户你好！”、“用户您需要我做些什么？”等。

本发明实施例的技术方案，通过提问与回答的交互方式，对用户的声纹特征进行采集。从而实现在用户无感知的情况下实现对用户声纹特征的采集，避免以指令方式让用户输入语音导致的用户的不自然感。

实施例二

图2是本发明实施例二提供的一种语音交互方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2，本实施例提供的语音交互方法包括：

S210、响应用户声纹特征录入事件，基于用户基本信息进行至少一次提问。

其中，用户基本信息包括用户的称呼、性别、年龄等信息。

S220、获取用户基于所述至少一次提问的回答语音数据。

S230、根据所述回答语音数据提取用户的声纹特征以及识别用户的基本信息，将用户的声纹特征与用户的基本信息关联。

S240、基于用户的基本信息和用户的声纹特征，对采集到的声音数据进行响应。

具体地，基于用户的基本信息和用户的声纹特征，对采集到的声音数据进行响应，包括：

根据用户的声纹特征从采集到的声音数据中确定用户的语音数据；

识别用户的语音数据，根据识别结果确定候选响应结果；

根据用户的基本信息，从候选响应结果中确定最终响应结果。

本实施例的技术方案，通过提问获取用户的基本信息。基于用户的基本信息对用户语音数据的响应结果进行筛选，从而提高响应的准确率。

实施例三

图3是本发明实施例三提供的语音交互方法的流程图。本实施例是上述实施例的基础上以语音交互装置是机器人为例提出的一种可选方案。参见图3，本实施例提供的语音交互方法包括：

开启本机，判断本机是否存在用户的声纹特征；

若本机存在用户的声纹特征，则采集周围声音数据，并提取周围声音数据的声纹特征；

将周围声音数据的声纹特征与用户的声纹特征进行匹配，若匹配成功，则触发问候等交互流程；若匹配失败，则结束；

若本机不存在用户的声纹特征，则基于用户基本信息对用户进行提问，同时收集用户的回答语音数据；

从收集的回答语音数据中识别用户的基本信息，并提取用户的声纹特征；

将用户的基本信息和用户的声纹特征绑定，并执行采集周围声音数据，以及根据采集的周围声音数据进行问候等交互流程的操作。

具体地，对用户的声纹特征的采集过程可以发生在首次开起本机的过程中。

示例性地，对用户提问的问题可以设置如下：

第一个问题为：您好，我是晓明，我是您的智能管家，请问怎么称呼您？

该问题不仅可以采集用户信息同时采集一次声纹：

第二问题为：您的生日是？

该问题可以采集用户的更多信息，同时采集一次声纹；

第三个问题为：我是您的智能管家，你可以通过对我说话使用我。

该问题可以指引用户使用方式，如果用户尝试的话，也可以采集一次声纹。

本发明实施例的技术方案，通过人性化的流程设计实现自动登记声纹特征，并根据声纹特征实现主动反馈用户，从而使得语音结果过程趋近人与人之间的沟通情形。

需要说明的是，基于上述实施例的技术教导，本领域技术人员有动机将上述实施方式进行组合，以实现人机的自然语音交互。

实施例四

图4是本发明实施例四提供的一种语音交互装置的结构示意图。参见图4，本实施例提供的语音交互装置包括，其特征在于，包括：问题提问模块10、语音获取模块20、特征提取模块30和语音响应模块40。

其中，问题提问模块10，用于响应用户声纹特征录入事件，对用户进行至少一次提问；

语音获取模块20，用于获取用户基于所述至少一次提问的回答语音数据；

特征提取模块30，用于根据所述回答语音数据提取用户的声纹特征；

语音响应模块40，用于基于用户的声纹特征，对采集到的声音数据进行响应。

进一步地，所述问题提问模块，包括：基本信息提问单元。

基本信息提问单元，用于响应用户声纹特征录入事件，基于用户基本信息进行至少一次提问；

相应地，所述语音响应模块，包括：基本信息识别单元和基本信息应用单元。

基本信息识别单元，用于获取用户基于所述至少一次提问的回答语音数据之后，根据所述回答语音数据识别用户的基本信息，并与用户的声纹特征关联；

基本信息应用单元，用于基于用户的基本信息和用户的声纹特征，对采集到的声音数据进行响应。

进一步地，所述语音响应模块，包括：特征提取单元、特征匹配单元和响应单元。

其中，特征提取单元，用于提取采集到的声音数据的声纹特征；

特征匹配单元，用于将采集到的声音数据的声纹特征与用户的声纹特征进行匹配；

响应单元，用于若匹配成功，则响应采集到的声音数据。

进一步地，所述特征提取模块，包括：声纹特征提取单元和声纹特征确定单元。

其中，声纹特征提取单元，用于根据各次提问的回答语音数据提取声纹特征；

声纹特征确定单元，用于若提取地各次提问的回答语音数据的声纹特征的相似度满足设定相似度要求，则根据各次提问的回答语音数据的声纹特征确定用户的声纹特征。

本发明实施例所提供的语音交互装置可执行本发明任意实施例所提供的语音交互方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图。如图5所示，该设备包括处理器70、存储器71、输入装置72和输出装置73；设备中处理器70的数量可以是一个或多个，图5中以一个处理器70为例；设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图5中以通过总线连接为例。

典型地，输入装置72可以是语音采集装置，用于采集语音数据；输出装置73可以是语音输出装置和/或显示装置。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音交互方法对应的程序指令/模块(例如，语音交互装置中的问题提问模块10、语音获取模块20、特征提取模块30和语音响应模块40)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的语音交互方法。

存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音交互方法，该方法包括：

响应用户声纹特征录入事件，对用户进行至少一次提问；

获取用户基于所述至少一次提问的回答语音数据；

根据所述回答语音数据提取用户的声纹特征；

基于用户的声纹特征，对采集到的声音数据进行响应。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音交互方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音交互装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音交互方法，其特征在于，包括：

响应用户声纹特征录入事件，对用户进行至少一次提问；

获取用户基于所述至少一次提问的回答语音数据；

根据所述回答语音数据提取用户的声纹特征；

基于用户的声纹特征，对采集到的声音数据进行响应。

2.根据权利要求1所述的方法，其特征在于，所述响应用户声纹特征录入事件，对用户进行至少一次提问，包括：

响应用户声纹特征录入事件，基于用户基本信息进行至少一次提问；

相应地，基于用户的声纹特征，对采集到的声音数据进行响应，包括：

根据所述回答语音数据识别用户的基本信息，并与用户的声纹特征关联；

基于用户的基本信息和用户的声纹特征，对采集到的声音数据进行响应。

3.根据权利要求1所述的方法，其特征在于，所述基于用户的声纹特征，对采集到的声音数据进行响应，包括：

提取采集到的声音数据的声纹特征；

若匹配成功，则响应采集到的声音数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述回答语音数据提取用户的声纹特征，包括：

根据各次提问的回答语音数据提取声纹特征；

若提取地各次提问的回答语音数据的声纹特征的相似度满足设定相似度要求，则根据各次提问的回答语音数据的声纹特征确定用户的声纹特征。

5.一种语音交互装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述问题提问模块，包括：

相应地，所述语音响应模块，包括：

7.根据权利要求5所述的装置，其特征在于，所述语音响应模块，包括：

特征提取单元，用于提取采集到的声音数据的声纹特征；

响应单元，用于若匹配成功，则响应采集到的声音数据。

8.根据权利要求5所述的装置，其特征在于，所述特征提取模块，包括：

声纹特征提取单元，用于根据各次提问的回答语音数据提取声纹特征；

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

语音采集装置，用于采集语音数据；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的语音交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的语音交互方法。