CN112133307A

CN112133307A - 人机交互方法、装置、电子设备及存储介质

Info

Publication number: CN112133307A
Application number: CN202010900822.0A
Authority: CN
Inventors: 张刚; 朱凯华; 黄荣升
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-12-25

Abstract

本申请公开了人机交互方法、装置、电子设备及存储介质，涉及人工智能、语音技术及深度学习领域，其中的方法可包括：当检测到用户语音中的唤醒词时，执行唤醒操作；根据用户语音中的需求词确定出用户意图，用户语音中同时包括唤醒词和需求词；获取用户语音为人机交互需求表达的声学置信度；若根据声学置信度及用户意图确定出本次唤醒为一次真实的人机交互需求表达，则对用户语音进行响应。应用本申请所述方案，可提升交互效率等。

Description

人机交互方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术，特别涉及人工智能、语音技术及深度学习领域的人机交互方法、装置、电子设备及存储介质。

背景技术

随着语音识别技术的发展，语音交互已经成为一种广泛使用的人机交互方式。

由于设备(即机器)并不是一直处于收录用户语音和识别状态，因此用户与设备交互之前通常需要先唤醒设备，设备被唤醒后，会进行应答(如播报应答语音)，表示设备已经被唤醒，接下来用户才能说出真正的需求词(query)，并由设备针对用户的query进行响应等。

可以看出，采用上述方式，即便是让当前播放的音乐“暂停”这样一个简单的需求，也需要经历至少2轮对话才能完成，交互速度慢，交互效率低。

发明内容

本申请提供了人机交互方法、装置、电子设备及存储介质。

一种人机交互方法，包括：

当检测到用户语音中的唤醒词时，执行唤醒操作；

根据所述用户语音中的需求词确定出用户意图，所述用户语音中同时包括所述唤醒词和所述需求词；

获取所述用户语音为人机交互需求表达的声学置信度；

若根据所述声学置信度及所述用户意图确定出本次唤醒为一次真实的人机交互需求表达，则对所述用户语音进行响应。

一种人机交互装置，包括：语音处理模块以及语音响应模块；

所述语音处理模块，用于当检测到用户语音中的唤醒词时，执行唤醒操作，根据所述用户语音中的需求词确定出用户意图，所述用户语音中同时包括所述唤醒词和所述需求词，获取所述用户语音为人机交互需求表达的声学置信度；

所述语音响应模块，用于当根据所述声学置信度及所述用户意图确定出本次唤醒为一次真实的人机交互需求表达时，对所述用户语音进行响应。

一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上所述的方法。

一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如以上所述的方法。

上述申请中的一个实施例具有如下优点或有益效果：用户语音中可同时包括唤醒词和需求词，在检测到用户语音中的唤醒词并执行唤醒操作后，可直接对用户语音中的需求词进行响应，从而减少了人机交互的对话轮次，进而提升了交互速度和交互效率，而且，可综合用户语音为人机交互需求表达的声学置信度以及根据需求词确定出的用户意图来确定本次唤醒是否为一次真实的人机交互需求表达，只有当为真实的人机交互需求表达时，才会对用户语音进行响应，从而确保了人机交互结果的准确性等。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请所述人机交互方法第一实施例的流程图；

图2为本申请所述人机交互方法第二实施例的流程图；

图3为本申请所述人机交互装置30实施例的组成结构示意图；

图4为根据本申请实施例所述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本申请所述人机交互方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，当检测到用户语音中的唤醒词时，执行唤醒操作。

在102中，根据用户语音中的需求词确定出用户意图，用户语音中同时包括唤醒词和需求词。

在103中，获取用户语音为人机交互需求表达的声学置信度。

在104中，若根据声学置信度及用户意图确定出本次唤醒为一次真实的人机交互需求表达，则对用户语音进行响应。

可以看出，上述方法实施例中，用户语音中可同时包括唤醒词和需求词，在检测到用户语音中的唤醒词并执行唤醒操作后，可直接对用户语音中的需求词进行响应，从而减少了人机交互的对话轮次，进而提升了交互速度和交互效率，而且，可综合用户语音为人机交互需求表达的声学置信度以及根据需求词确定出的用户意图来确定本次唤醒是否为一次真实的人机交互需求表达，只有当为真实的人机交互需求表达时，才会对用户语音进行响应，从而确保了人机交互结果的准确性等。

举例说明：

对于让当前播放的音乐“暂停”这样一个需求，按照现有方式，需要经历至少2轮对话才能完成，可如下所示：

用户：“小度小度”；

设备：“在呢”；

用户：“暂停”；

设备：“音乐已暂停”；

但如果按照本申请所述方式，只需1轮对话即可完成，可如下所示：

用户：“小度暂停”；

设备：“音乐已暂停”。

通过上述例子可以看出，用户表达极大的缩减了，设备也可更加及时的做出响应，交互更加流畅。

另外，现有方式中，用户通常需要使用至少4个字组成的唤醒词来唤醒设备，如上述例子中的“小度小度”。为了减少误唤醒情况的发生，现有技术中要求唤醒词的字数不能太少，过短的唤醒词很容易发生误唤醒，即在用户没有唤醒设备的情况下，出现设备自己说话或播放音乐等情况，这种意外的发生对于用户体验的伤害是很大的，但唤醒词越长，用户唤醒设备的成本就会越高，并降低了语音交互的便捷性，使得用户不愿意使用语音交互等。

本申请所述方式中的唤醒词可由两个字组成，如上述例子中的“小度”。由于可综合用户语音为人机交互需求表达的声学置信度以及根据需求词确定出的用户意图来确定出本次唤醒是否为一次真实的人机交互需求表达，只有当为真实的人机交互需求表达时，才会对用户语音进行响应，因此避免了短唤醒词容易产生误唤醒的问题，并且，通过将唤醒词从至少4个字减少到2个字，提升了语音交互的便捷性等。

如前所述，本申请所述方式中的用户语音中同时包括唤醒词和需求词，设备在检测到用户语音中的唤醒词并执行唤醒操作后，如102中所述，可根据用户语音中的需求词确定出用户意图。比如，可对识别出的文本形式的需求词进行意图理解，从而确定出用户意图。

假设用户语音为“小度暂停”，其中“小度”为唤醒词，那么需求词即为“暂停”，假设用户语音为“小度播放一首刘德华的歌曲”，那么需求词即为“播放一首刘德华的歌曲”。

用户意图即指用户希望进行什么操作。如何进行意图理解不作限制，比如，可通过对识别出的文本形式的需求词进行语义理解等，确定出用户意图。

如103中所述，还可获取用户语音为人机交互需求表达的声学置信度。声学置信度是从声音信号上来评估获取到的用户语音为真实的人机交互语音的概率/可能性。

具体地，可首先获取用户语音的预定声学特征，之后可将获取到的预定声学特征输入预先训练得到的评估模型，从而得到输出的用户语音为人机交互需求表达的声学置信度。

所述预定声学特征中具体包括哪些特征可根据实际需要而定。可利用历史用户语音作为训练数据，通过深度学习等方式训练得到评估模型，即让评估模型学习到真实的人机交互需求表达的用户语音的声学特征。

设备所处的环境中可能存在各种噪音，如孩子玩耍时发出的“小兔**”等用户语音，将“小兔”误检测为“小度”，从而造成误唤醒，或其它噪音造成误唤醒等，这些情况下，利用评估模型评估得到的用户语音的声学置信度通常都会较低。

如104中所述，若根据声学置信度及用户意图确定出本次唤醒为一次真实的人机交互需求表达，则可对用户语音进行响应。比如，若确定声学置信度大于预定阈值，且用户意图为与当前场景相匹配的意图，则可确定本次唤醒为一次真实的人机交互需求表达，并可对用户语音进行响应。

所述预定阈值的具体取值可根据实际需要而定。用户意图与当前场景相匹配可以是指用户意图为当前场景下能够实现的用户意图。比如，当前正在为用户播放一首歌曲，用户意图为暂停播放，那么该用户意图则为当前场景下能够实现的用户意图。再比如，当前正在为用户展示明天的天气，而用户意图为播放下一首歌曲，那么该用户意图则为当前场景下不能实现的用户意图。用户意图与当前场景不相匹配多是由于噪音误唤醒等引起的。

若确定声学置信度大于预定阈值，且用户意图为与当前场景相匹配的意图，则可确定本次唤醒为一次真实的人机交互需求表达，并可对用户语音进行响应。若根据声学置信度及用户意图确定出本次唤醒不是一次真实的人机交互需求表达，则可不对用户语音进行响应，即可抑制后续的动作，不对用户造成非预期的打扰。

基于上述介绍，图2为本申请所述人机交互方法第二实施例的流程图。如图2所示，包括以下具体实现方式。

在201中，当检测到用户语音中的唤醒词时，执行唤醒操作。

比如，当检测到用户语音中的“小度”时，执行唤醒操作，具体实现为现有技术。

在202中，根据用户语音中的需求词确定出用户意图，用户语音中同时包括唤醒词和需求词。

比如，可对识别出的文本形式的需求词进行意图理解，从而确定出用户意图。

在203中，获取用户语音的预定声学特征。

在204中，将获取到的预定声学特征输入预先训练得到的评估模型，得到输出的用户语音为人机交互需求表达的声学置信度。

在205中，根据声学置信度及用户意图确定出本次唤醒是否为一次真实的人机交互需求表达，若是，则执行206，否则，执行207。

比如，若确定声学置信度大于预定阈值，且用户意图为与当前场景相匹配的意图，则可确定本次唤醒为一次真实的人机交互需求表达。

在206中，对用户语音进行响应，之后结束流程。

假设当前正在为用户播放一首歌曲，用户语音为“小度暂停”，那么则可暂停该歌曲的播放，并可播放“歌曲已暂停”的应答语音。

在207中，不对用户语音进行响应，结束流程。

需要说明的是，对于前述的各方法实施例，为了简单描述，都将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。另外，某个实施例中没有详述的部分，可以参见其它实施例中的相关说明。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3为本申请所述人机交互装置30实施例的组成结构示意图。如图3所示，包括：语音处理模块301以及语音响应模块302。

语音处理模块301，用于当检测到用户语音中的唤醒词时，执行唤醒操作，根据用户语音中的需求词确定出用户意图，用户语音中同时包括唤醒词和需求词，并获取用户语音为人机交互需求表达的声学置信度。

语音响应模块302，用于当根据声学置信度及用户意图确定出本次唤醒为一次真实的人机交互需求表达时，对用户语音进行响应。

本实施例中所述的唤醒词可为由两个字组成的唤醒词。

如前所述，用户语音中同时包括唤醒词和需求词，语音处理模块301在检测到用户语音中的唤醒词并执行唤醒操作后，可根据用户语音中的需求词确定出用户意图。比如，可对识别出的文本形式的需求词进行意图理解，从而确定出用户意图。

语音处理模块301还可获取用户语音为人机交互需求表达的声学置信度。声学置信度是从声音信号上来评估获取到的用户语音为真实的人机交互语音的概率/可能性。

具体地，语音处理模块301可获取用户语音的预定声学特征，将所述预定声学特征输入预先训练得到的评估模型，得到输出的用户语音为人机交互需求表达的声学置信度。

语音响应模块302可根据声学置信度及用户意图确定出本次唤醒是否为一次真实的人机交互需求表达，若根据声学置信度及用户意图确定出本次唤醒为一次真实的人机交互需求表达，比如，确定声学置信度大于预定阈值，且用户意图为与当前场景相匹配的意图，则可确定本次唤醒为一次真实的人机交互需求表达，并可对用户语音进行响应，若根据声学置信度及用户意图确定出本次唤醒不是一次真实的人机交互需求表达，可不对用户语音进行响应。

图3所示装置即可为方法实施例中所述的设备。图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本申请装置实施例所述方案，用户语音中可同时包括唤醒词和需求词，在检测到用户语音中的唤醒词并执行唤醒操作后，可直接对用户语音中的需求词进行响应，从而减少了人机交互的对话轮次，进而提升了交互速度和交互效率，而且，可综合用户语音为人机交互需求表达的声学置信度以及根据需求词确定出的用户意图来确定本次唤醒是否为一次真实的人机交互需求表达，只有当为真实的人机交互需求表达时，才会对用户语音进行响应，从而确保了人机交互结果的准确性等，另外，通过减少唤醒词的个数，提升了语音交互的便捷性等。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器Y01、存储器Y02，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器Y01为例。

存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的方法。

存储器Y02作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器Y02可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器Y02可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器Y02可选包括相对于处理器Y01远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置Y03可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置)，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管或者液晶显示器监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网、广域网、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人机交互方法，包括：

当检测到用户语音中的唤醒词时，执行唤醒操作；

获取所述用户语音为人机交互需求表达的声学置信度；

2.根据权利要求1所述的方法，其中，所述唤醒词包括：由两个字组成的唤醒词。

3.根据权利要求1所述的方法，其中，所述根据所述用户语音中的需求词确定出用户意图包括：对识别出的文本形式的需求词进行意图理解，确定出所述用户意图。

4.根据权利要求1所述的方法，其中，所述获取所述用户语音为人机交互需求表达的声学置信度包括：

获取所述用户语音的预定声学特征；

将所述预定声学特征输入预先训练得到的评估模型，得到输出的所述用户语音为人机交互需求表达的声学置信度。

5.根据权利要求1所述的方法，其中，所述若根据所述声学置信度及所述用户意图确定出本次唤醒为一次真实的人机交互需求表达，则对所述用户语音进行响应包括：

若确定所述声学置信度大于预定阈值，且所述用户意图为与当前场景相匹配的意图，则确定本次唤醒为一次真实的人机交互需求表达，并对所述用户语音进行响应。

6.根据权利要求1所述的方法，还包括：若根据所述声学置信度及所述用户意图确定出本次唤醒不是一次真实的人机交互需求表达，则不对所述用户语音进行响应。

7.一种人机交互装置，包括：语音处理模块以及语音响应模块；

8.根据权利要求7所述的装置，其中，所述唤醒词包括：由两个字组成的唤醒词。

9.根据权利要求7所述的装置，其中，所述语音处理模块对识别出的文本形式的需求词进行意图理解，确定出所述用户意图。

10.根据权利要求7所述的装置，其中，所述语音处理模块获取所述用户语音的预定声学特征，将所述预定声学特征输入预先训练得到的评估模型，得到输出的所述用户语音为人机交互需求表达的声学置信度。

11.根据权利要求7所述的装置，其中，所述语音响应模块在确定所述声学置信度大于预定阈值，且所述用户意图为与当前场景相匹配的意图时，确定本次唤醒为一次真实的人机交互需求表达，对所述用户语音进行响应。

12.根据权利要求7所述的装置，其中，所述语音响应模块进一步用于，若根据所述声学置信度及所述用户意图确定出本次唤醒不是一次真实的人机交互需求表达，则不对所述用户语音进行响应。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。