CN113053388B

CN113053388B - 语音交互方法、装置、设备和存储介质

Info

Publication number: CN113053388B
Application number: CN202110258490.5A
Authority: CN
Inventors: 李俞锋; 苏文嗣; 奚佳芸; 张卜方; 周子轩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-08-01
Anticipated expiration: 2041-03-09
Also published as: US20220076677A1; CN113053388A

Abstract

本申请公开了一种语音交互方法、装置、设备和存储介质，涉及数据处理技术领域，尤其涉及物联网和语音技术等人工智能技术。具体实现方案为：响应于目标用户对语音交互设备的触发操作，输出应答信息；根据所述目标用户对所述应答信息的响应操作，确定是否满足反馈条件；响应于满足反馈条件，反馈情绪引导信息。本申请提高了用户对语音交互设备的兴趣度和使用粘性，进而为语音交互设备对应稳定用户数量的提升奠定了基础。同时，通过响应操作作为是否反馈情绪引导信息的评判依据，减少了数据运算量，并提高了语音交互方法的通用性。

Description

语音交互方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及物联网和语音技术等人工智能技术。

背景技术

随着科技的不断发展，通过AI(Artificial Intelligence，人工智能)技术实现人机对话，用于解决诸如口语训练或导航指引等语音交互问题逐渐普及。

然而，在现有技术的人机对话场景中，通常存在由于用户自身情绪，使得用户对AI产品兴趣度不高、产品粘性较低等情况，严重影响AI产品的稳定用户数量。

发明内容

本申请提供了一种语音交互方法、装置、设备和存储介质。

根据本申请的一方面，提供了一种语音交互方法，包括：

响应于目标用户对语音交互设备的触发操作，输出应答信息；

根据所述目标用户对所述应答信息的响应操作，确定是否满足反馈条件；

响应于满足反馈条件，反馈情绪引导信息。

根据本申请的另一方面，还提供了一种语音交互装置，包括：

应答信息输出模块，用于响应于目标用户对语音交互设备的触发操作，输出应答信息；

反馈确定模块，用于根据所述目标用户对所述应答信息的响应操作，确定是否满足反馈条件；

信息反馈模块，用于响应于满足反馈条件，反馈情绪引导信息。

根据本申请的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任意一种语音交互方法。

根据本申请的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本申请实施例提供的任意一种语音交互方法。

根据本申请的另一方面，还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本申请实施例提供的任意一种语音交互方法。

根据本申请的另一方面，还提供了一种语音交互设备，设置有本申请实施例所提供的任意一种计算机程序产品。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的一种语音交互方法的流程图；

图2A是根据本申请实施例的另一种语音交互方法的流程图；

图2B是本申请实施例提供的一种语音交互界面示意图；

图2C是本申请实施例提供的另一种语音交互界面示意图；

图2D是本申请实施例提供的另一种语音交互界面示意图；

图3是根据本申请实施例的另一种语音交互方法的流程图；

图4是根据本申请实施例的一种语音交互装置的结构图；

图5是用来实现本申请实施例的语音交互方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请提供的各语音交互方法和语音交互装置，适用于在人工智能技术领域，通过语音交互设备与用户进行语音交互的场景。本申请所提供的各语音交互方法，可以由语音交互装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是智能音箱、车载终端或智能手机等终端设备，还可以是服务器等服务端设备。

为了便于理解，以下将首先对语音交互方法的相关内容进行详细说明。

图1是本申请实施例提供的一种语音交互方法的流程图，该方法包括：

S101、响应于目标用户对语音交互设备的触发操作，输出应答信息。

其中，语音交互设备可以是具备语音交互功能的终端设备，如智能音箱、车载终端或智能手机中。目标用户可以通过对语音交互设备中的硬件装置、人机交互界面或语音接收端口等，实现对语音交互设备的实际触发操作或虚拟触发操作。

在一个具体实现方式中，目标用户可以通过触发硬件按键、硬件旋钮等方式、人机交互界面的设定图标或设定区域等方式产生触发操作。相应的，执行语音交互方法的计算设备(为了便于描述，后续将执行语音交互方法的计算设备简称为计算设备)基于该触发操作所产生的触发指令，确定应答信息，并通过语音交互设备向目标用户输出该应答信息。

在另一具体实现方式中，目标用户还可以通过响应前一应答信息，向语音交互设备输入文字信息或语音信息等，也即，将目标用户的文字信息输入操作或语音信息输入操作等，作为响应操作。相应的，计算设备基于该触发操作所生成的触发指令，确定性的应答信息，并通过语音交互设备向目标用户输出该应答信息。

需要说明的是，本申请中的计算设备与语音交互设备可以是同一设备或不同设备。也即，计算设备可以是语音交互设备自身，还可以是语音交互设备所安装应用程序对应的运营设备如运营服务器等。

S102、根据目标用户对应答信息的响应操作，确定是否满足反馈条件。

S103、响应于满足反馈条件，反馈情绪引导信息。

其中，目标用户对应答信息的响应操作，可以是语音录制、已录制语音发送、已录制语音删除、已录制语音撤回、已录制语音回放和应答信息播放、以及语音交互设备的应用程序关闭、退出或后台运行等操作中的至少一种。

示例性的，可以预先针对不同响应操作，进行反馈条件满足与否的设定，从而根据响应操作比对的方式，进行当前语音交互过程是否满足反馈条件的确定。

示例性的，还可以预先将各响应操作进行类别划分，并预先针对不同类别，进行反馈条件满足与否的设定，从而根据响应操作所属类别比对的方式，进行当前语音交互过程是否满足反馈条件的确定。

由于目标用户对应答信息的不同响应操作中，隐含有目标用户对语音录交互设备或语音交互设备的应用程序的满意程度，而满意程度一定程度上会受到目标用户自身情绪的影响。

为了避免由于目标用户自身情绪导致对语音交互设备的兴趣度不高，从而导致语音交互设备的稳定用户数量降低的情况，本申请通过目标用户对应答信息的响应操作，进行满足反馈条件和不满足反馈条件的区分。并且，在满足反馈条件的情况下，向目标用户反馈情绪引导信息。从而将反馈条件的满足情况与用户情绪相关联，实现了将目标用户的响应操作按照情绪类型加以区分，进而确定出与用户情绪相关的响应操作和与用户情绪无关的响应操作。相应的，当响应操作与用户情绪相关的情况下，进行情绪引导信息的反馈，从而对目标用户进行一定的情绪补偿或情绪安抚，从而避免了由于用户自身情绪导致的语音交互设备的用户流失，提高了用户对语音交互设备的兴趣度和使用粘性。

进一步的，若不满足反馈条件，则禁止向用户反馈情绪引导信息，或可以向用户反馈非情绪引导信息。

示例性的，情绪引导信息可以包括情绪引导表情和情绪引导语句等中的至少一种，从而通过不通过的形式实现对目标用户的情绪引导，提高了语音交互方法的多样性。

本申请实施例通过在语音交互过程中，响应于目标用户对语音交互设备的触发操作，输出应答信息；根据目标用户对应答信息的响应操作，确定是否满足反馈条件；响应于满足反馈条件，反馈情绪引导信息。上述技术方案通过在必要情况下向目标用户反馈情绪引导信息，对目标用户的情绪引导或修复，避免了由于目标用户自身情绪原因，导致目标用户对语音交互设备兴趣度不高或产品粘性较低的情况的发生，从而增强了用户对语音交互设备的兴趣度和使用粘性，进而为语音交互设备对应稳定用户数量的提升奠定了基础。同时，本申请将响应操作替代现有技术中语音识别的方式，作为是否反馈情绪引导信息的评判依据，减少了数据运算量，并提高了语音交互方法的通用性。

在上述各技术方案的基础上，本申请还提供了一个可选实施例。在该实施例中，将“根据目标用户对应答信息的响应操作，确定是否满足反馈条件”，细化为“识别目标用户对应答信息的响应操作的操作类型；其中，操作类型包括被动中断类型和主动中断类型；根据操作类型，确定是否满足反馈条件”，以完善语音交互机制。

参见图2A所示的一种语音交互方法，包括：

S201、响应于目标用户对语音交互设备的触发操作，输出应答信息。

S202、识别目标用户对应答信息的响应操作的操作类型；其中，操作类型包括被动中断类型和主动中断类型。

其中，被动中断类型表示目标用户由于自身情绪问题，而非实际需求导致的对语音交互设备的中断使用。主动中断类型表示目标用户由于实际需求导致的对语音交互设备的中断使用。

在一个可选实施例中，可以根据预先设定的不同操作类型与响应操作之间的对应关系，确定目标用户对应答信息的响应操作的操作类型。

其中，不同操作类型与响应操作之间的对应关系，可以人为设定；或者，可以通过对至少一个历史用户的历史响应操作进行统计分析得到；或者，还可以对目标用户的历史响应操作进行统计分析得到。本申请对上述对应关系的具体确定方式不作任何限定。

在一个具体实现方式中，若响应操作包括语音录制时删除次数大于第一设定阈值，则确定响应操作的操作类型为被动中断类型。其中，第一设定阈值可以由技术人员根据反复试验或经验值进行设定，或由目标用户根据实际需求进行设定或调整。例如，第一设定阈值可以是2次。

具体的，参见图2B所示的语音交互界面示意图，当基于目标用户的触发操作，语音交互设备向目标用户展示以下应答信息：“您好，我是你的聊天机器人Doee，您可以这样问我：你叫什么名字，能跟我聊聊天么，几岁了”。相应的，若目标用户录制语音信息过程中删除，也即录制后上传前进行删除，且录制中删除次数为3次，则确定响应操作的操作类型为被动中断类型。

可以理解的是，若响应操作包括语音录制后删除次数大于第一设定阈值，则说明目标用户出现语音反复录制并删除的情况，而目标用户实际并未发出语音信息，侧面表征目标用户认定已录制或已删除的语音信息效果并不理想，目标用户期望录制并上传效果更好的语音信息。而反复录制并删除容易导致目标用户情绪失落或自信心下降，进而出现目标用户对语音交互设备使用体验不佳的情况。此时，向目标用户反馈情绪引导信息，用于对目标用户进行情绪引导或修复，能够一定程度上对目标用户进行挽留，避免了目标用户的流失，从而提高了目标用户对语音交互设备的兴趣度和使用粘性。

在另一具体实现方式中，若响应操作包括语音录制发送并撤回次数大于第二设定阈值，或者，语音录制发送并删除次数大于第三设定阈值，则确定响应操作的操作类型为被动中断类型。其中，第二设定阈值和第三设定阈值可以分别由技术人员根据反复试验或经验值进行设定，或由目标用户根据实际需求进行设定或调整。例如第二设定阈值可以为2；第三设定阈值可以为3。

具体的，参见图2C所示的语音交互界面示意图，当基于目标用户的触发操作，语音交互设备向目标用户展示以下应答信息：“您好，我是你的聊天机器人Doee，您可以这样问我：你叫什么名字，能跟我聊聊天么，几岁了”。相应的，若目标用户进行语音录制发送并撤回，且对应统计次数大于2，或者目标用户进行语音录制发送并删除，且对应统计次数大于3，则确定响应操作的操作类型为被动中断类型。

可以理解的是，若响应操作包括语音录制发送并撤回次数大于第二设定阈值，或者语音录制发送并删除次数大于第三设定阈值，则说明目标用户出现语音反复录制发送并撤回的情况，侧面表征目标用户认定已发送语音信息或已撤回语音信息并不理想，目标用户期望录制并上传效果更好的语音信息。而反复录制上传并撤回、或录制上传并删除，容易导致目标用户情绪失落或自信心下降，进而出现目标用户对语音交互设备使用体验不佳的情况。此时，向目标用户反馈情绪引导信息，用于对目标用户进行情绪引导或修复，能够一定程度上对目标用户进行挽留，避免了目标用户的流失，从而提高了目标用户对语音交互设备的兴趣度和使用粘性。

在又一具体实现方式中，若响应操作包括已发送语音回放次数大于第四设定阈值且撤回，或者已发送语音回放次数大于第五设定阈值且删除，则确定响应操作的操作类型为被动中断类型。其中，第四设定阈值和第五设定阈值可以由技术人员根据反复试验或经验值进行设定，或由目标用户根据实际需求进行设定或调整。如第四设定阈值和第五设定阈值均为2。

具体的，参见图2D所示的语音交互界面示意图，当基于目标用户的触发操作，语音交互设备向目标用户展示以下应答信息：“您好，我是你的聊天机器人Doee，您可以这样问我：你叫什么名字，能跟我聊聊天么，几岁了”。相应的，若目标用户录制了“What do youthink of the weather today”的语音信息，发送后回放次数大于2，且最终将已发送语音社会或删除，则确定响应操作的操作类型为被动中断类型。

可以理解的是，若响应操作包括已发送语音回放次数大于第四设定阈值且撤回，或者已发送语音回放次数大于第五设定阈值且删除，则说明目标用户出现已发送语音反复回放且弃用的情况，侧面表征目标用户认定已发送语音信息并不理想。而反复回放容易导致目标用户情绪失落或自信心下降，进而出现目标用户对语音交互设备使用体验不佳的情况。此时，向目标用户反馈情绪引导信息，用于对目标用户进行情绪引导或修复，能够一定程度上对目标用户进行挽留，避免了目标用户的流失，从而提高了目标用户对语音交互设备的兴趣度和使用粘性。

需要说明的是，上述第一设定阈值、第二设定阈值、第三设定阈值、第四设定阈值和第五设定阈值的数值，可以相同或至少部分不同，本申请对此不作任何限定。

上述内容对被动中断类型的响应操作的确定方式，进行了示例性说明，以下将对主动中断类型的响应操作的确定方式，进行解释。

在一个具体实现方式中，若响应操作包括第一设定时长内对应答信息无响应、播放应答信息后第二设定时长内未接收到录制信息、退出语音交互设备的应用程序和语音交互设备的应用程序后台运行中的至少一种，则确定操作类型为主动中断类型。其中，第一设定时长和第二设定时长的各数值，可以由技术人员根据反复试验或经验值进行设定，或由目标用户根据实际需求进行设定或调整。需要说明的是，第一设定时长和第二设定时长可以相同或不同，本申请对此不作任何限定。

可以理解的是，若目标用户在第一设定时长内对应答信息无响应，则说明目标用户没有做与语音录制相关的任何操作，没有录制、没有上传、更没有删除、撤回或回放，侧面表征此时目标用户主动中断了语音交互过程，而非因为自身情绪的影响对语音交互过程进行了被动中断。若目标用户在播放应答信息后第二设定时长内为接收到录制信息，则说明当前的应答信息已经满足了目标用户的使用需求，侧面表征此时目标用户主动中断了语音交互，而非因为自身情绪的影响对语音交互过程进行了被动中断。若接收到应答信息后，检测到语音交互黑色版的应用程序被退出或处于后台运行状态，则说明当前的应答信息已经满足了目标用户的使用需求，侧面表征此时目标用户主动中断了语音交互，而非因为自身情绪的影响对语音交互过程进行了被动中断。因此，在上述至少一种情况下，无需向目标用户反馈情绪引导信息，避免了对目标用户的过度打扰引起用户反感。

在一个可选实施例中，操作类型还可以包括持续交互类型。相应的，识别目标用户对应答信息的响应操作的操作类型，可以是：若响应操作包括语音交互设定的应用程序前台运行、语音录制时删除次数不大于第一设定阈值、语音录制发送并撤回次数不大于第二设定阈值、语音录制发送并删除次数不大于第三设定阈值、已发送语音回放次数不大于第四设定阈值、和已发送语音未删除或未撤回等中的至少一种，则表明目标用户在此基础上可以与语音交互设备继续进行语音交互，因此，可以确定操作类型未持续交互类型。

S203、根据操作类型，确定是否满足反馈条件。

S204、响应于满足反馈条件，反馈情绪引导信息。

示例性的，若操作类型为被动中断类型，则确定满足反馈条件，并反馈情绪引导信息，从而能够对目标用户的负面情绪或消极情绪进行补偿或安抚，进而避免了由于用户自身情绪导致的语音交互设备的用户流失，提高了用户对语音交互设备的兴趣度和使用粘性。

示例性的，若操作类型为主动中断类型，则确定不满足反馈条件，并禁止反馈情绪引导信息，从而在目标用户主动中断语音交互的情况下，避免了对目标用户的过度打扰引起用户反感。

示例性的，若操作类型为持续交互类型，则确定不满足反馈条件，并禁止反馈情绪引导信息，从而在目标用户与语音交互设备持续进行语音交互的情况下，避免了对目标用户的过度打扰引起用户反感。

本申请实施例通过将是否反馈情绪引导信息的确定操作，细化为识别目标用户对应答信息的响应操作的操作类型；其中操作类型包括被动中断类型和主动中断类型；根据操作类型，确定是否满足反馈条件。上述技术方案通过引入响应操作的操作类型作为是否进行情绪引导信息的判定依据，进一步完善了是否反馈情绪引导信息的判定机制，为提高目标用户对语音交互设备的兴趣度和使用粘性奠定了基础。

在上述各技术方案的基础上，将情绪引导信息细化为包括情绪引导表情和/或情绪引导语句，以下将对情绪引导表情和情绪引导语句的具体使用或生成机制进行详细说明。

参见图3所示的一种语音交互方法，包括：

S301、响应于目标用户对语音交互设备的触发操作，输出应答信息。

S302、根据目标用户对应答信息的响应操作，确定是否满足反馈条件。

S303、响应于满足反馈条件，反馈情绪引导信息。其中，情绪引导信息包括情绪引导表情和/或情绪引导语句。

在一个可选实施例中，情绪引导信息可以包括情绪引导表情。示例性的，情绪引导表情可以包括表情图片和字符表情等中的至少一种。例如，表情图片可以是预先设定的表情包或自定义动画等；字符表情可以是颜文字或绘文字(emoji)等。

示例性的，可以预先设定表情列表，用于存储至少一个情绪引导表情，并在需要进行情绪引导信息反馈时，按照第一设定选取规则，从情绪列表中选取至少一个情绪引导表情，并通过语音交互设备反馈至目标用户。其中，第一设定选取规则可以是随机选取、轮流选取或按时段选取等。

然而，当目标用户开启语音交互设备后，若目标用户尚未与语音交互设备进行语音交互，贸然向目标用户反馈通用的情绪引导表情可能会引起目标用户反感，或产生歧义。为了避免上述情况的发生，可选地，可以将情绪引导表情划分为鼓励型表情符和非鼓励型表情符。相应的，若应答信息为首次触发操的输出结果，则所反馈的情绪引导表情为非鼓励型表情符，例如可爱表情等；若应答信息为非首次触发操作的输出结果，则情绪引导表情为鼓励型表情符，例如加油表情等。

在一个具体实现方式中，可以设置鼓励型表情列表和非鼓励型表情列表。相应的，当需要反馈鼓励型表情符时，按照第二设定选取规则，从鼓励型表情列表中选取至少一个情绪引导表情，并通过语音交互设备反馈至目标用户；其中，第二设定选取规则可以是随机选取、轮流选取或按时段选取等。当需要反馈非鼓励型表情符时，按照第三设定选取规则，从非鼓励型表情列表中选取至少一个情绪引导表情，并通过语音交互设备反馈至目标用户。其中，第三设定选取规则可以是随机选取、轮流选取或按时段选取等。其中，第一设定选取规则、第二设定选取规则和第三设定选取规则可以不同或至少部分相同，本申请对此不作任何限定。

为了避免表情歧义，并且避免目标用户认为表情敷衍，同时丰富语音交互方法的多样性，在另一可选实施例中，情绪引导信息可以包括情绪引导语句。示例性的，情绪引导语句可以是根据至少一条历史应答信息所反馈的历史语音信息，所生成的基本评价语句和/或附加评价语句，用以丰富语音交互方式，提高语音交互多样性。

示例性的，基本评价语句可以理解为从整体层面，对历史语音信息进行评价，所得到的具备情绪引导意义的评价词或评价句。例如“太棒了”、“漂亮”、“说的不错”等设定评价语句。

在一个具体实现方式中，可以预先构建基本评价语句库，用于存储至少一条基本评价语句，相应的，通过第四设定选取规则，从基本评价语句库中进行基本评价语句的选取，并通过语音交互设备反馈至目标用户。其中，第四设定选取规则可以是随机选取、轮流选取或按时段选取等。

可以理解的是，在构建基本评价语句库之后，还可以根据需要实时或定时对基本评价语句库进行更新。

示例性的，附加评价语句可以理解为从细节层面，对历史语音信息在至少一个维度上进行评价，所得到的具备情绪引导意义的评价语句。其中，评价维度可以是对语句、词汇和语法等评价对象维度进行肯定性评价。其中，评价维度还可以包括对至少一个评价对象，在准确度、复杂度和流利度等至少一个评价指标维度进行肯定性评价。

附加评价语句可以是预先构建的附加评价语句库，从而按照一定的选取规则，从附加评价语句库中选取附加评价语句，并在该附加评价语句对应的至少一个评价指标维度对目标用户的语音交互行为进行定性评价。

为了提高附加评价语句与目标用户的语音交互行为的契合度，在一个可选实施例中，附加评价语句还可以基于以下方式确定：对目标用户基于至少一条历史应答信息所反馈的历史语音信息进行解析，生成至少一个候选评价指标；从至少一个候选评价指标中选取目标评价指标，并基于设定话术目标，生成附加评价语句。

可以理解的是，通过借助目标用户对历史应答信息所反馈的历史语音信息，进行候选评价指标的生成，使得所生成的候选评价指标与目标用户自身的语音交互行为契合度更高，从而提高了语音交互过程的灵活性，为情绪引导的顺利执行奠定了基础。

可选地，历史应答信息可以是最新生成的至少一条应答信息；相应的，历史语音信息为目标用户最新生成的至少一条语音信息。典型的，历史语音信息为最新的语音信息。

在一个具体实现方式中，候选评价指标可以包括下述至少一种：词汇准确度，用于表征历史语音信息中词汇发音、词汇用法和词汇搭配等的准确性；词汇复杂度，用于表征历史语音信息中高阶词汇或疑难词汇使用频繁性；语法准确度，用于表征历史语音信息中所采用语法结构的准确性；语法复杂度，用于表征历史语音信息中所采用语法结构属于高阶语法的频繁性；语句流利度，用于表征用户所录入历史语音信息的流利性。

可以理解的是，通过上述不同候选评价指标的列举，丰富了附加评价语句的表现形式，进而提高了情绪引导信息的多样性。

可选地，根据历史语音信息中所包含词汇的词汇发音和/或词汇搭配，确定词汇准确度。示例性的，可以将历史语音信息根据词汇搭配拆分成至少一个目标词汇；根据各目标词汇的词汇发音和/或词汇搭配的准确情况，确定目标词汇的准确率，作为历史语音信息的词汇准确度。

其中，词汇发音的评判标准可以预先设定，例如在英语口语中，将英式发音或美式发音作为评判标准。

可选地，根据历史语音信息中所包含设定词汇的历史使用频次，确定词汇复杂度。示例性的，可以将历史语音信息根据词汇搭配拆分成至少一个目标词汇；将目标词汇中的高阶词汇或疑难词汇在设定历史时段的历史使用频率或历史使用频次，作为词汇复杂度。其中，高阶词汇可以是网络词汇、俚语或生僻词等。

可选地，根据历史语音信息的语法结构与标准语法结构的比对结果，确定语法准确度。示例性的，可以对历史语音信息进行解析，得到该历史语音信息的语法结构；获取历史语音信息对应的标准语法结构，并将历史语音信息的语法结构和标准语法结构进行比对；根据比对结果一致性，生成语法准确度。

在一个具体实现方式中，在进行语法结构比对时，可以比对语句时态、句子成分确实、第三人称单数和单词的单复数变形等类别内容中的至少一种。

可选地，可以判断历史语音信息的语法结构是否为设定语法结构(如多层嵌套等高阶语法结构或生僻语法结构等)；若是，则将设定语法结构在设定历史时段的历史使用频率或历史使用频次，作为语法复杂度。

可选地，根据历史语音信息中的停顿时长、停顿词出现频次和词汇重复次数中的至少一种，确定语句流利度。示例性的，预先划分不同语句流利度对应的停顿时长区间，根据至少两个停顿词之间的时间长度作为停顿时长；根据历史语音信息中的停顿时长所属时长区间，确定语句流利度。或者，根据停顿词出现频次，确定语句流利度。又或者，根据历史语句中相同词汇连续出现次数，确定语句流利度。其中，停顿词可以由技术人员或目标用户根据需要或经验值预先设定或调整，如“嗯”、“这个”、“那个”等。

可以理解的是，为了达到情绪引导效果，在从至少一个候选评价指标中选取目标评价指标时，选取各候选评价指标对应的数值中较高(例如最高)的候选评价指标，作为目标评价指标。

在一个具体实现方式中，设定话术模板可以是由“【你的】+【模板评价指标】+【形容词】”形成的初级话术模板。为了进一步提高情绪饱满度，还可以在上述初级话术模板中的模板评价指标和形容词之间添加程度词语(如“越来越”、“比往常”等)，和/或在形容词后追加感叹词(如“哦”、“呦”、“耶”等)，生成高级话术模板。

需要说明的是，目标评价指标可以仅包含指标对象，当然，还可以包括具体的指标数值。

举例说明，当目标评价指标为语法准确度时，所生成的附加评价语句可以是“你的语法准确度越来越好了哦”，或者“你的语法准确度提高了10％哦”。

本申请实施例通过将情绪引导信息细化为包括情绪引导表情和/或情绪引导语句，丰富情绪引导信息的表现形式，进而提高了语音交互方法的多样性。

作为上述各语音交互方法的实现，本申请还提供了一个实施上述各语音交互方法的虚拟装置的可选实施例。参见图4所示的一种语音交互装置400，包括：应答信息输出模块401、反馈确定模块402和信息反馈模块403。其中，

应答信息输出模块401，用于响应于目标用户对语音交互设备的触发操作，输出应答信息；

反馈确定模块402，用于根据所述目标用户对所述应答信息的响应操作，确定是否满足反馈条件；

信息反馈模块403，用于响应于满足反馈条件，反馈情绪引导信息。

本申请实施例在语音交互过程中，通过应答信息输出模块响应于目标用户对语音交互设备的触发操作，输出应答信息；通过反馈确定模块根据目标用户对应答信息的响应操作，确定是否满足反馈条件；响应于满足反馈条件，，反馈情绪引导信息。上述技术方案通过在必要情况下向目标用户反馈情绪引导信息，对目标用户的情绪引导或修复，避免了由于目标用户自身情绪原因，导致目标用户对语音交互设备兴趣度不高或产品粘性较低的情况的发生，从而增强了用户对语音交互设备的兴趣度和使用粘性，进而为语音交互设备对应稳定用户数量的提升奠定了基础。同时，本申请将响应操作替代现有技术中语音识别的方式，作为是否反馈情绪引导信息的评判依据，减少了数据运算量，并提高了语音交互方法的通用性。

在一个可选实施例中，所述反馈确定模块402，包括：

操作类型识别单元，用于识别所述目标用户对所述应答信息的响应操作的操作类型；其中，所述操作类型包括被动中断类型和主动中断类型；

反馈确定单元，用于根据所述操作类型，确定是否满足反馈条件。

在一个可选实施例中，所述反馈确定单元，包括：

确定反馈子单元，用于若所述操作类型为被动中断类型，则确定满足反馈条件；

禁止反馈子单元，用于若所述操作类型为主动中断类型，则确定不满足反馈条件。

在一个可选实施例中，所述操作类型识别单元，包括：

被动中断类型确定子单元，用于若所述响应操作包括语音录制时删除次数大于第一设定阈值、语音录制发送并撤回次数大于第二设定阈值、语音录制发送并删除次数大于第三设定阈值、已发送语音回放次数大于第四设定阈值且撤回、和已发送语音回放次数大于第五设定阈值且删除中的至少一种，则确定所述操作类型为被动中断类型；

主动中断类型确定子单元，用于若所述响应操作包括第一设定时长内对所述应答信息无响应、播放所述应答信息后第二设定时长内未接收到录制信息、退出所述语音交互设备的应用程序和所述语音交互设备的应用程序后台运行中的至少一种，则确定所述操作类型为主动中断类型。

在一个可选实施例中，所述情绪引导信息包括情绪引导表情和/或情绪引导语句。

在一个可选实施例中，所述情绪引导语句包括基本评价语句和/或附加评价语句。

在一个可选实施例中，所述装置还包括附加评价语句确定模块，用于确定附加评价语句；

其中，所述附加评价语句确定模块，包括：

候选评价指标生成单元，用于对所述目标用户基于至少一条历史应答信息所反馈的历史语音信息进行解析，生成至少一个候选评价指标；

附加评价语句生成单元，用于从所述至少一个候选评价指标中选取目标评价指标，并基于设定话术模板，生成所述附加评价语句。

在一个可选实施例中，所述候选评价指标包括下述至少一种：词汇准确度、词汇复杂度、语法准确度、语法复杂度和语句流利度。

在一个可选实施例中，所述候选评价指标生成单元，包括：

词汇准确度确定子单元，用于根据所述历史语音信息中所包含词汇的词汇发音和/或词汇搭配，确定所述词汇准确度；

词汇复杂度确定子单元，用于根据所述历史语音信息中所包含设定词汇的历史使用频次，确定所述词汇复杂度；

语法准确度确定子单元，用于根据所述历史语音信息的语法结构与标准语法结构的比对结果，确定所述语法准确度；

语法复杂度确定子单元，用于若所述历史语音信息的语法结构为设定语法结构，则根据所述设定语法结构的历史使用频次，确定所述语法复杂度；

语句流利度确定子单元，用于根据所述历史语音信息中的停顿时长、停顿词出现频次和词汇重复次数中的至少一种，确定所述语句流利度。

在一个可选实施例中，若所述应答信息为首次触发操作的输出结果，则所述情绪引导表情为非鼓励型表情符；若所述应答信息为非首次触发操作的输出结果，则所述情绪引导表情为鼓励型表情符。

上述语音交互装置可执行本申请任意实施例所提供的语音交互方法，具备执行语音交互方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本申请的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如语音交互方法。例如，在一些实施例中，语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音交互方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

本申请还提供了一种语音交互设备，在该语音交互设备中设置有签署各实施例所提供的计算机程序产品。示例性的，语音交互设备可以是智能音箱、车载终端或智能手机等。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音交互方法，包括：

响应于满足反馈条件，反馈情绪引导信息；

其中，所述根据所述目标用户对所述应答信息的响应操作，确定是否满足反馈条件，包括：

识别所述目标用户对所述应答信息的响应操作的操作类型；其中，所述操作类型包括被动中断类型和主动中断类型；

根据所述操作类型，确定是否满足反馈条件；

其中，所述识别所述目标用户对所述应答信息的响应操作的操作类型，包括：

若所述响应操作包括语音录制时删除次数大于第一设定阈值、语音录制发送并撤回次数大于第二设定阈值、语音录制发送并删除次数大于第三设定阈值、已发送语音回放次数大于第四设定阈值且撤回、和已发送语音回放次数大于第五设定阈值且删除中的至少一种，则确定所述操作类型为被动中断类型；

若所述响应操作包括第一设定时长内对所述应答信息无响应、播放所述应答信息后第二设定时长内未接收到录制信息、退出所述语音交互设备的应用程序和所述语音交互设备的应用程序后台运行中的至少一种，则确定所述操作类型为主动中断类型；

其中，所述根据所述操作类型，确定是否满足反馈条件，包括：

若所述操作类型为被动中断类型，则确定满足反馈条件；

若所述操作类型为主动中断类型，则确定不满足反馈条件。

2.根据权利要求1所述的方法，其中，所述情绪引导信息包括情绪引导表情和/或情绪引导语句。

3.根据权利要求2所述的方法，其中，所述情绪引导语句包括基本评价语句和/或附加评价语句。

4.根据权利要求3所述的方法，其中，所述附加评价语句采用以下方式确定：

对所述目标用户基于至少一条历史应答信息所反馈的历史语音信息进行解析，生成至少一个候选评价指标；

从所述至少一个候选评价指标中选取目标评价指标，并基于设定话术模板，生成所述附加评价语句。

5.根据权利要求4所述的方法，其中，所述候选评价指标包括下述至少一种：词汇准确度、词汇复杂度、语法准确度、语法复杂度和语句流利度。

6.根据权利要求5所述的方法，其中，所述对所述目标用户基于至少一条历史应答信息所反馈的历史语音信息进行解析，生成至少一个候选评价指标，包括：

根据所述历史语音信息中所包含词汇的词汇发音和/或词汇搭配，确定所述词汇准确度；

根据所述历史语音信息中所包含设定词汇的历史使用频次，确定所述词汇复杂度；

根据所述历史语音信息的语法结构与标准语法结构的比对结果，确定所述语法准确度；

若所述历史语音信息的语法结构为设定语法结构，则根据所述设定语法结构的历史使用频次，确定所述语法复杂度；

根据所述历史语音信息中的停顿时长、停顿词出现频次和词汇重复次数中的至少一种，确定所述语句流利度。

7.根据权利要求2所述的方法，其中，若所述应答信息为首次触发操作的输出结果，则所述情绪引导表情为非鼓励型表情符；若所述应答信息为非首次触发操作的输出结果，则所述情绪引导表情为鼓励型表情符。

8.一种语音交互装置，包括：

信息反馈模块，用于响应于满足反馈条件，反馈情绪引导信息；

其中，所述反馈确定模块，包括：

反馈确定单元，用于根据所述操作类型，确定是否满足反馈条件；

其中，所述操作类型识别单元，包括：

主动中断类型确定子单元，用于若所述响应操作包括第一设定时长内对所述应答信息无响应、播放所述应答信息后第二设定时长内未接收到录制信息、退出所述语音交互设备的应用程序和所述语音交互设备的应用程序后台运行中的至少一种，则确定所述操作类型为主动中断类型；其中，所述反馈确定单元，包括：

9.根据权利要求8所述的装置，其中，所述情绪引导信息包括情绪引导表情和/或情绪引导语句。

10.根据权利要求9所述的装置，其中，所述情绪引导语句包括基本评价语句和/或附加评价语句。

11.根据权利要求10所述的装置，其中，所述装置还包括附加评价语句确定模块，用于确定附加评价语句；

其中，所述附加评价语句确定模块，包括：

12.根据权利要求11所述的装置，其中，所述候选评价指标包括下述至少一种：词汇准确度、词汇复杂度、语法准确度、语法复杂度和语句流利度。

13.根据权利要求12所述的装置，其中，所述候选评价指标生成单元，包括：

14.根据权利要求9所述的装置，其中，若所述应答信息为首次触发操作的输出结果，则所述情绪引导表情为非鼓励型表情符；若所述应答信息为非首次触发操作的输出结果，则所述情绪引导表情为鼓励型表情符。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的一种语音交互方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的一种语音交互方法。