CN111292743A

CN111292743A - 语音交互方法及装置、电子设备

Info

Publication number: CN111292743A
Application number: CN202010074175.2A
Authority: CN
Inventors: 赵群; 任国帅; 宁洪珂
Original assignee: Beijing Pinecone Electronics Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-16
Anticipated expiration: 2040-01-22
Also published as: CN111292743B

Abstract

本公开是关于一种语音交互方法及装置、电子设备。语音交互方法应用于终端设备，所述方法包括：接收用户语音信息；通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

Description

语音交互方法及装置、电子设备

技术领域

本公开涉及终端技术领域，尤其涉及一种语音交互方法及装置、电子设备。

背景技术

随着智能设备领域的不断发展，越来越多的终端设备均配置了语音功能。例如，终端设备所配置的语音助手可以与用户进行的语音交流；再例如，终端设备可以识别语音指令，并根据语音指令指示终端设备执行对应功能。但是，当前终端设备的语音功能通常是文本回复或者语音回复，导致用户在交互过程中容易感觉都枯燥、体验不佳。

发明内容

本公开提供一种语音交互方法及装置、电子设备，以解决相关技术中的不足。

根据本公开实施例的第一方面，提供一种语音交互方法，应用于终端设备，所述方法包括：

接收用户语音信息；

通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；

通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

可选的，所述姿态决策模型预先通过下述步骤训练得到：

将获取到的多个训练样本输入至姿态决策模型，每一训练样本包括交互信息和标注所述交互信息的标签信息；

所述姿态决策模型对所述每一训练样本中的交互信息进行识别，输出所述姿态决策模型预测的标签信息；

根据所述每一训练样本中标注所述交互信息的所述标签信息以及所述姿态决策模型预测的标签信息，调整所述姿态决策模型的模型参数。

可选的，所述通过姿态决策模型确定与所述用户语音信息对应的预测信息，包括：

基于所述用户语音信息，获得交互信息；

将所述交互信息输入预先训练完成的所述姿态决策模型；

获取所述姿态决策模型输出的标签信息作为预测信息；

根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态。

可选的，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态包括：

在所述标签信息的置信度大于或者等于预设阈值时，根据所述标签信息和所述预设映射关系，获取所述标签信息所对应的多个姿态中的至少一个姿态。

可选的，还包括：

接收到来自用户的消极反馈信息；

删除所述标签信息和被呈现的三维虚拟人物的姿态之间的对应关系。

在所述标签信息的置信度小于预设阈值时，随机获取一个或者多个姿态。

可选的，还包括：

接收到来自用户的积极反馈信息；

根据所述用户语音信息与被呈现的三维虚拟人物的姿态之间的对应关系，更新所述姿态决策模型。

可选的，所述三维虚拟人物的姿态包括下述至少之一：

三维虚拟人物的面部表情；

三维虚拟人物的头部动作；

三维虚拟人物的四肢动作；

三维虚拟人物的躯干动作。

可选的，还包括：

获取用户生理特征信息；

根据所述用户生理特征信息确定三维虚拟人物。

可选的，还包括：

获取用户生理特征信息；

通过形象决策模型确定与所述用户生理特征信息对应的三维虚拟人物。

可选的，所述形象决策模型预先通过下述步骤训练得到：

将获取到的多个训练样本输入至形象决策模型，每一训练样本包括用户信息和标注所述用户信息的人物信息；

所述形象决策模型根据每一训练样本中的用户信息预测三维虚拟人物；

根据每一训练样本中的人物信息和所述形象决策模型预测的三维虚拟人物，调整所述形象决策模型的模型参数。

可选的，还包括：

在所述显示装置上示出对应于所述用户语音信息的文本回复信息。

可选的，还包括：

播放对应于所述用户语音信息的语音回复信息。

根据本公开实施例的第二方面，提供一种语音交互装置，应用于终端设备，所述装置包括：

第一接收模块，接收用户语音信息；

第一确定模块，通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；

呈现模块，通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

可选的，所述姿态决策模型预先通过下述步骤训练得到：

可选的，第一确定模块包括：

第一获取单元，基于所述用户语音信息，获得交互信息；

输入单元，将所述交互信息输入预先训练完成的所述姿态决策模型；

第二获取单元，获取所述姿态决策模型输出的标签信息作为预测信息；

第三获取单元，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态。

可选的，第三获取单元包括：

第一获取子单元，在所述标签信息的置信度大于或者等于预设阈值时，根据所述标签信息和所述预设映射关系，获取所述标签信息所对应的多个姿态中的至少一个姿态。

可选的，还包括：

第二接收模块，接收到来自用户的消极反馈信息；

删除模块，删除所述标签信息和被呈现的三维虚拟人物的姿态之间的对应关系。

第二获取子单元，在所述标签信息的置信度小于预设阈值时，随机获取一个或者多个姿态。

可选的，还包括：

第三接收模块，接收到来自用户的积极反馈信息；

更新模块，根据所述用户语音信息与被呈现的三维虚拟人物的姿态之间的对应关系，更新所述姿态决策模型。

可选的，所述三维虚拟人物的姿态包括下述至少之一：

三维虚拟人物的面部表情；

三维虚拟人物的头部动作

三维虚拟人物的四肢动作；

三维虚拟人物的躯干动作。

可选的，还包括：

第一获取模块，获取用户生理特征信息；

第二确定模块，根据所述用户生理特征信息确定三维虚拟人物。

可选的，还包括：

第一获取模块，获取用户生理特征信息；

第三确定模块，通过形象决策模型确定与所述用户生理特征信息对应的三维虚拟人物。

可选的，所述形象决策模型预先通过下述步骤训练得到：

可选的，还包括：

示出模块，在所述显示装置上示出对应于所述用户语音信息的文本回复信息。

可选的，还包括：

播放模块，播放对应于所述用户语音信息的语音回复信息。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述中任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现如上述中任一项所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开通过姿态决策模型可以匹配出与用户语音信息相匹配的预测信息，通过该预测信息可以确定三维虚拟人物的姿态，并通过显示装置进行呈现和展示，提升了用户与终端设备之间的聊天体验，丰富了聊天过程的情感体验，提高了终端设备的智能化程度和拟人化程度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音交互方法的流程图。

图2是根据一示例性实施例示出的另一种语音交互方法的流程图。

图3是根据一示例性实施例示出的一种姿态决策模型的训练流程图。

图4是根据一示例性实施例示出的一种语音交互装置框图之一。

图5是根据一示例性实施例示出的一种语音交互装置框图之二。

图6是根据一示例性实施例示出的一种语音交互装置框图之三。

图7是根据一示例性实施例示出的一种语音交互装置框图之四。

图8是根据一示例性实施例示出的一种语音交互装置框图之五。

图9是根据一示例性实施例示出的一种语音交互装置框图之六。

图10是根据一示例性实施例示出的一种语音交互装置框图之七。

图11是根据一示例性实施例示出的一种语音交互装置框图之八。

图12是根据一示例性实施例示出的一种语音交互装置框图之九。

图13是根据一示例性实施例示出的一种语音交互装置框图之十。

图14是根据一示例性实施例示出的一种用于语音交互的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种语音交互方法的流程图，如图1所示，该方法应用于终端中，可以包括以下步骤：

在步骤101中，接收用户语音信息。

在本实施例中，终端设备可以通过麦克风进行采集，该用户语音信息可以直接被输入至步骤102中的姿态决策模型中，或者在另一实施例中，该用户语音信息也可以是进行过识别处理后得到交互信息，该交互信息再被输入至步骤102中的姿态决策模型中。其中，针对用户语音信息的识别处理可以包括将用户语音信息转换为文本信息、识别用户语音信息中的关键字等处理操作，本公开对此并不进行限制。

在步骤102中，通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态。

在本实施例中，该姿态决策模型可以预先根据大量的训练样本训练获得。具体而言，可以将获取到的多个训练样本输入至姿态决策模型，每一训练样本可以包括交互信息和标注该交互信息的标签信息，该姿态决策模型可以对每一训练样本中的交互信息进行识别，并输出姿态决策模型预测到的标签信息，后再根据每一训练样本中标注交互信息的标签信息和姿态决策模型预测的信息，调整姿态决策模型的模型参数。据此，通过大量的训练样本，可以多次调节姿态决策模型的模型参数，从而使得标注交互信息的标签信息与姿态决策模型预测的标签信息之间的差异越来越小，以再后续应用阶段，该姿态决策模型输入的交互信息预测到的标签信息能够较大程度上的符合用户的目的。

该交互信息可以包括终端设备内的自定义交互信息、采集到的语音交互信息和通过文本相似度扩充得到的交互信息中的一种或者多种。其中，该自定义交互信息可以包括，例如，你好、今天天气真好、再见等日常使用频率高的信息，该采集到的语音交互信息可以包括用户与终端设备内的语音助手进行对话时所采集到的信息。通过文本相似度扩充得到的交互信息可以包括对自定义交互信息进行文本相似度扩充得到的信息、或者对采集到的语音交互信息进行文本相似度扩充得到的信息。例如，通过对“你好”进行文本相似度扩充，可以认为“你好啊”、“您好呀”的等交互信息和“你好”的交互信息能够训练输出同一标签信息。

基于训练得到的姿态决策模型，在应用阶段，可以先基于用户输入的用户语音信息得到交互信息，然后将交互信息输入至预先训练完成的姿态决策模型中，并获取该姿态决策模型输出的标签信息作为预测信息，根据标签信息和预设映射关系，可以得到三维虚拟人物的姿态。其中，该预设映射关系可以包括标签信息与姿态之间的对应关系，一个标签信息可以对应一个或者多个姿态。

例如，在一实施例中，当姿态决策模型输出的标签信息的置信度大于或者等于预设阈值时，可以根据标签信息和预设映射关系，通过显示装置呈现标签信息所对应的多个姿态中的至少一个姿态。比如可以随机呈现该至少一个姿态，或者也可以按照一定的排布规律来确定被呈现的至少一个姿态。

在另一实施例中，当标签信息的置信度小于预设阈值时，可以随机呈现一个或者多个姿态。而且可以理解的是，当终端设备呈现了三维虚拟人物的姿态之后，用户可以针对终端设备所呈现的三维虚拟人物和动作做出回应。终端设备可以接收来自用户的积极反馈信息，此时可以认为用户认可当前终端设备所呈现的三维虚拟人物的姿态，从而可以根据用户语音信息和被呈现三维虚拟人物的姿态之间的对应关系，更新姿态决策模型。

当然，基于上述各个实施例，终端设备也可以接收来自用户的消极反馈消息，此时可以认为用户不认可当前终端设备所呈现的三维虚拟人物的姿态和用户语音信息之间的关系，所以可以删除根据该用户语音信息预测到的标签信息和被呈现的三维虚拟人物的姿态之间的映射关系，后续接收到相同或者相似的用户语音信息时，不再通过三维虚拟人物展示该姿态。

上述实施例中所提及的三维虚拟人物的姿态可以包括三维虚拟人物的面部表情、三维虚拟人物的头部动作、三维虚拟人物的四肢动作和三维虚拟人物的躯干动作中的一种或者动作。例如，在同一时刻可以通过三维虚拟人物展示面部表情和头部动作，仅以此为例当然还可以在同一时刻展示其他两种或者两种以上的姿态。或者，在不同时刻展示不同的姿态，例如可以先通过三维虚拟人物展示头部动作，后呈现躯干动作，其主要目的是为了实现各个动作之间切换的流畅性，降低三维虚拟人物的僵硬度，提升拟人化程度。

基于本公开的技术方案，除了对三维虚拟人物的姿态进行确定之外，还可以对三维虚拟人物进行确定。

在一实施例中，终端设备内只存在默认的单个三维虚拟人物时，可以直接将动作配置在该三维虚拟人物上进行展示。

在另一实施例中，可以通过获取用户生理特征信息，然后根据该用户生理特征信息确定三维虚拟人物。比如，通过获取用户性别来确定三维虚拟人物、或者也可以通过获取用户年龄来确定三维虚拟人物。

在还一实施例中，可以获取用户生理特征信息，后通过形象决策模型确定与用户生理特征信息对应的三维虚拟人物，其中该形象决策模型可以需要通过下述步骤训练得到：将获取到的多个训练样本输入至形象决策模型，每一训练样本可以包括用户信息和标注该用户信息的人物信息，形象决策模型可以根据每一训练样本中的用户信息预测三维虚拟人物，根据每一训练样本中的人物信息和形象决策模型预测到的三维虚拟人物，调整形象决策模型的模型参数，使得在应用阶段通过形象决策模型输出的三维虚拟人物更加符合用户的需求。其中，输入至形象决策模型的用户生理特征信息可以包括多个维度上的生理特征信息，例如可以包括性别信息、年龄信息、性格信息等。该性格信息可以通过用户语音信息的音调或者关键词进行判断。

在步骤103中，通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

在本实施例中，该三维虚拟人物以及姿态可以通过显示装置进行展示，或者，该三维虚拟人物及其姿态还可以通过投影装置进行全息投影，本公开对此并不进行限制。

基于本公开的技术方案，还可以在显示装置上示出对应于用户语音交互信息的文本回复信息，或者同时还可以播放对应于用户语音交互信息的语音回复信息。当然，在其他实施例中，也可以是仅示出文本回复信息或者仅播放语音回复信息，本公开对此并不进行限制。

为对本公开的技术方案进行详细说明，下述将根据一具体实施例进行阐述。如图2所示，该语音交互方法可以包括以下步骤：

在步骤201中，接收用户语音信息。

在本实施例中，可以通过终端设备的麦克风采集该用户语音信息。该用户语音交互信息可以为日常的交谈用语。

在步骤202中，根据该用户语音信息确定用户性别。

在步骤203中，根据用户性别确定三维虚拟人物。

在本实施例中，终端设备可以根据输入的用户语音信息的声纹特征确定用户性别，根据该用户性别可以确定出与之匹配的三维虚拟人物。例如，当确定用户性别为女性时，可以确定出美少女的三维虚拟人物，当确定用户性别为男性时，可以确定出美国队长的三维虚拟人物。当然，图2所示实施例中仅以根据用户性别确定三维虚拟人物为例进行说明，在其他实施例中，还可以获取用户年龄或者用户性格特征等信息，并以此来确定相应的三维虚拟人物。

除了上述图2所示实施例中，通过性别等生理特征信息和映射关系确定出三维虚拟人物之外，在其他实施例中，还可以通过训练完完成的形象决策模型来根据输入的用户特征信息确定出三维虚拟人物。

在步骤204中，将用户语音信息输入至姿态决策模型。

在本实施例中，可以是将接收到的用户语音信息直接输入至姿态决策模型。在另一实施例中，也可以针对用户语音信息进行识别处理后再输入姿态决策模型，比如可以将从用户语音信息中提取到的关键字信息输入姿态决策模型，再比如可以对用户语音信息进行降噪滤波后再输入至姿态决策模型，本公开对此并不进行限制。

在步骤205中，获取姿态决策模型根据输入的用户语音信息预测到的标签信息。

在本实施例中，该姿态决策模型可以预先被训练完成，具体后续将以图3的实施例为例进行说明。

在步骤206中，确定该标签信息的置信度是否大于等于预设阈值。

在本实施例中，当标签信息的置信度大于等于预设阈值时，执行步骤207，当标签信息的置信度小于预设阈值时，执行步骤208。

在步骤207中，根据预设映射关系查找该标签信息对应的一个或者姿态。

在本实施例中，该预设映射关系可以包括标签信息和姿态动作之间的对应关系。该预设映射关系可以预先被存在终端设备内，例如，该姿态动作可以包括用户实际交互过程中的面部表情或者肢体动作，终端设备可以预先通过摄像头采集该姿态动作，并将其对应于对应的标签信息进行存储，从而提高后续展示姿态动作时的拟人化。再或者，该姿态动作也可以包括默认存储在终端设备内的设计动画或者设计表情。

每一标签信息所对应的姿态动作可以包括一种或者多种，例如，标签信息可以包括“开心”，该“开心”的标签信息可以对应“微笑”、“大笑”、“捂嘴笑”等姿态动作；其中，该“微笑”、“大笑”、“捂嘴笑”的任一姿态动作可以为采集到的用户实际交互过程中的动作，也可以是终端设备内的设计动作。当然，除了上述中相关的面部表情动作以外，该标签信息“开心”所对应的姿态动作还可以包括肢体动作，例如“双手上举”或者“摆手”等，本公开对此并不进行限制。

在步骤208中，随机确定至少一个姿态。

在本实施例中，可以是在预设映射关系中所有动作中随机确定至少一个姿态动作进行展示；或者也可以是根据多类动作中的任一类或者多类姿态中确定出至少一个姿态动作进行展示，本公开对此并不进行限制。

在步骤209中，通过确定出的三维虚拟人物示出至少一个姿态。

在本实施例中，将步骤207或者步骤208中所确定出的姿态动作配置到通过步骤202和步骤203中所确定出的三维虚拟人物上，从而通过该三维虚拟人物展示姿态动作，提升了交互过程中的趣味性。

在步骤210中，当标签信息的置信度小于预设阈值时接收到用户的积极反馈信息。

在步骤211中，根据示出的姿态和用户语音信息更新姿态决策模型。

在本实施例中，在显示装置呈现出三维虚拟人物和姿态后，可以持续采集用户的反馈信息，当接收到积极反馈信息时，可以认为用户认可前一次采取到的用户语音交互信息和呈现的姿态后之间的对应关系，据此可以更新姿态决策模型的模型参数，以使得该姿态决策模型能够再后续输出更加符合用户目的的标签预测信息。例如，当显示装置根据输出的“开心”的标签信息呈现了对应的三维虚拟人物及其动作后，接收到来自用户的“这就对了”的积极反馈信息时，可以更新姿态决策模型的模型参数。

进一步地，还可以针对接收到的积极反馈信息进行判断，若该积极反馈信息是针对姿态动作，则可以根据上述实施例更新姿态决策模型；若接收到的积极反馈信息是针对三维虚拟人物，则可以据此更新形象决策模型。

在步骤212中，接收到来自用户的消极反馈信息。

在步骤213中，删除标签信息和被呈现的姿态之间的对应关系。

在本实施例中，当接收到来自用户的消极反馈信息时，可以认为用户不认可前一次采取到的用户语音信息和呈现的姿态之间的对应关系，那么，可以删除该用户语音信息和呈现的三维虚拟人物的姿态之间的对应关系，后续接收到相同或者相似的用户语音交互信息时，不再展示这一姿态。例如，当接收到“你说什么”、“我没懂”等语音回复信息时，可以认为时接收到用户反馈的消极反馈消息。

当标签信息的置信度大于等于预设阈值的情况下接收到用户的消极反馈信息时，可以通过删除该标签信息和姿态动作之间的对应关系，使得后续接收到相同或者相似的用户语音信息时，不再呈现该姿态动作。当标签信息的置信度小于预设阈值的情况下接收到用户的消极反馈信息时，可以对该用户语音信息和姿态动作之间的对应关系进行标识，后续若接收到相同或者相似的用户语音信息、且针对该用户语音信息匹配出来的姿态动作之间的对应关系已经被标识，则不呈现这一姿态动作，可以重新随机获取其他姿态。

在上述各个实施例中，还可以在显示装置上示出对应于用户语音信息的文本回复信息；相类似的，还可以播放对应于用户语音信息的语音回复信息，以便实现终端设备和用户之间的语言交流。其中，该文本回复信息和语音回复信息可以在呈现三维虚拟人物及其动作的同时进行展示，从而丰富了用户与终端设备之间交互的内容，更加生动盒形象。

针对图2所示实施例中的姿态决策模型，可以通过图3中所示的方式进行训练。具体而言，如图3所示，可以包括：

在步骤301中，采集交互信息。

在步骤302中，采集用户标注交互信息的标签信息。

在本实施例中，交互信息可以包括终端设备内的自定义交互信息、采集到的语音交互信息和通过文本相似度扩充得到的交互信息中的一种或者多种。交互信息和标注该交互信息的标签信息之间具有一一对应的关系，例如交互信息可以为“今天天气真好”，标注该交互信息的标签信息可以为“开心”、“舒适”，从可以将“今天天气真好”-“开心”、“今天天气真好”-“舒适”作为训练样本输入姿态决策模型。

在步骤303中，将交互信息输入至姿态决策模型。

在步骤304中，对采集到的交互信息进行识别得到姿态决策模型输出的标签信息。

在步骤305中，根据训练样本中的标签信息和姿态决策模型输出的标签信息，调整姿态决策模型的模型参数。

在本实施例中，姿态决策模型可以根据输入的交互信息进行识别，并输出对应于该交互信息的标签信息，根据姿态决策模型输出的标签信息和训练样本中的标注交互信息的标签信息，可以调整姿态决策模型的一个或者多个模型参数，使得后续得姿态决策模型输出的标签信息和输入的标签信息之间的差异逐渐减小。由此，根据大量的训练样本(该训练样本包括交互信息和标注交互信息的标签信息)可以得到训练完成的姿态决策模型。

与前述的语音交互方法的实施例相对应，本公开还提供了语音交互装置的实施例。

图4是根据一示例性实施例示出的一种语音交互装置400的框图之一。参照图4，该装置400可以应用于终端设备，该语音交互装置400包括第一接收模块401、第一确定模块402和呈现模块403，其中：

第一接收模块401，接收用户语音信息；

第一确定模块402，通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；

呈现模块403，通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

可选的，所述姿态决策模型预先通过下述步骤训练得到：

如图5所示，图5是根据一示例性实施例示出的一种语音交互装置的框图之二，该实施例在前述图4所示实施例的基础上，第一确定模块402包括第一获取单元4021、输入单元4022、第二获取单元4023和第三获取单元4024，其中：

第一获取单元4021，基于所述用户语音信息，获得交互信息；

输入单元4022，将所述交互信息输入预先训练完成的所述姿态决策模型；

第二获取单元4023，获取所述姿态决策模型输出的标签信息作为预测信息；

第三获取单元4024，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态。

如图6所示，图6是根据一示例性实施例示出的一种语音交互装置的框图之三，该实施例在前述图5所示实施例的基础上，第三获取单元4024包括：

第一获取子单元40241，在所述标签信息的置信度大于或者等于预设阈值时，根据所述标签信息和所述预设映射关系，获取所述标签信息所对应的多个姿态中的至少一个姿态。

如图7所示，图7是根据一示例性实施例示出的一种语音交互装置的框图之四，该实施例在前述图5所示实施例的基础上，第三获取单元4024包括：

第二获取子单元40242，在所述标签信息的置信度小于预设阈值时，随机获取一个或者多个姿态。

如图8所示，图8是根据一示例性实施例示出的一种语音交互装置的框图之五，该实施例在前述图7所示实施例的基础上，还包括第三接收模块404和更新模块405，其中：

第三接收模块404，接收到来自用户的积极反馈信息；

更新模块405，根据所述用户语音信息与被呈现的三维虚拟人物的姿态之间的对应关系，更新所述姿态决策模型。

如图9所示，图9是根据一示例性实施例示出的一种语音交互装置的框图之六，该实施例在前述图5所示实施例的基础上，还包括第二接收模块406和删除模块407，其中：

第二接收模块406，接收到来自用户的消极反馈信息；

删除模块407，删除所述标签信息和被呈现的三维虚拟人物的姿态之间的对应关系。

需要说明的是，上述图8所示的装置实施例中的第二接收模块604和删除模块605的结构也可以包含在前述图6-图8中任一项的装置实施例中，对此本公开不进行限制。

可选的，所述三维虚拟人物的姿态包括下述至少之一：

三维虚拟人物的面部表情；

三维虚拟人物的头部动作；

三维虚拟人物的四肢动作；

三维虚拟人物的躯干动作。

如图10所示，图10是根据一示例性实施例示出的一种语音交互装置的框图之七，该实施例在前述图4所示实施例的基础上，还包括第一获取模块408和第二确定模块409，其中：

第一获取模块408，获取用户生理特征信息；

第二确定模块409，根据所述用户生理特征信息确定三维虚拟人物。

需要说明的是，上述图10所示的装置实施例中的第一获取模块408和第二确定模块409的结构也可以包含在前述图5-图9中任一项的装置实施例中，对此本公开不进行限制。

如图11所示，图11是根据一示例性实施例示出的一种语音交互装置的框图之八，该实施例在前述图4所示实施例的基础上，还包括第一获取模块408和第三确定模块410，其中：

第一获取模块408，获取用户生理特征信息；

第三确定模块410，通过形象决策模型确定与所述用户生理特征信息对应的三维虚拟人物。

需要说明的是，上述图10所示的装置实施例中的第一获取模块410和第三确定模块410的结构也可以包含在前述图5-图9中任一项的装置实施例中，对此本公开不进行限制。

可选的，所述形象决策模型预先通过下述步骤训练得到：

如图12所示，图12是根据一示例性实施例示出的一种语音交互装置的框图之九，该实施例在前述图4所示实施例的基础上，还包括：

示出模块411，在所述显示装置上示出对应于所述用户语音信息的文本回复信息。

需要说明的是，上述图12所示的装置实施例中的示出模块411的结构也可以包含在前述图5-图11中任一项的装置实施例中，对此本公开不进行限制。

如图13所示，图3是根据一示例性实施例示出的一种语音交互装置的框图之十，该实施例在前述图4所示实施例的基础上，还包括：

播放模块412，播放对应于所述用户语音信息的语音回复信息。

需要说明的是，上述图13所示的装置实施例中的播放模块412的结构也可以包含在前述图5-图12中任一项的装置实施例中，对此本公开不进行限制。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本公开还提供一种语音交互装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：接收用户语音信息；通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

相应的，本公开还提供一种终端，所述终端包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：接收用户语音信息；通过姿态决策模型确定与所述用户语音信息对应的预测信息，所述预测信息用于确定与用户进行交互的三维虚拟人物的姿态；通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

图14是根据一示例性实施例示出的一种用于语音交互的装置1400的框图。例如，装置1400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图14，装置1400可以包括以下一个或多个组件：处理组件1402，存储器1404，电源组件1406，多媒体组件1408，音频组件1410，输入/输出(I/O)的接口1412，传感器组件1414，以及通信组件1416。

处理组件1402通常控制装置1400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1402可以包括一个或多个处理器1420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1402可以包括一个或多个模块，便于处理组件1402和其他组件之间的交互。例如，处理组件1402可以包括多媒体模块，以方便多媒体组件1408和处理组件1402之间的交互。

存储器1404被配置为存储各种类型的数据以支持在装置1400的操作。这些数据的示例包括用于在装置1400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1406为装置1400的各种组件提供电力。电源组件1406可以包括电源管理系统，一个或多个电源，及其他与为装置1400生成、管理和分配电力相关联的组件。

多媒体组件1408包括在所述装置1400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1408包括一个前置摄像头和/或后置摄像头。当装置1400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1410被配置为输出和/或输入音频信号。例如，音频组件1410包括一个麦克风(MIC)，当装置1400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1404或经由通信组件1416发送。在一些实施例中，音频组件1410还包括一个扬声器，用于输出音频信号。

I/O接口1412为处理组件1402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1414包括一个或多个传感器，用于为装置1400提供各个方面的状态评估。例如，传感器组件1414可以检测到装置1400的打开/关闭状态，组件的相对定位，例如所述组件为装置1400的显示器和小键盘，传感器组件1414还可以检测装置1400或装置1400一个组件的位置改变，用户与装置1400接触的存在或不存在，装置1400方位或加速/减速和装置1400的温度变化。传感器组件1414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1416被配置为便于装置1400和其他设备之间有线或无线方式的通信。装置1400可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G LTE、5G NR或它们的组合。在一个示例性实施例中，通信组件1416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1404，上述指令可由装置1400的处理器1420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音交互方法，应用于终端设备，其特征在于，所述方法包括：

接收用户语音信息；

通过所述终端设备的显示装置呈现三维虚拟人物的姿态。

2.根据权利要求1所述的语音交互方法，其特征在于，所述姿态决策模型预先通过下述步骤训练得到：

3.根据权利要求2所述的语音交互方法，其特征在于，所述通过姿态决策模型确定与所述用户语音信息对应的预测信息，包括：

基于所述用户语音信息，获得交互信息；

将所述交互信息输入预先训练完成的所述姿态决策模型；

获取所述姿态决策模型输出的标签信息作为预测信息；

4.根据权利要求3所述的语音交互方法，其特征在于，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态包括：

5.根据权利要求3所述的语音交互方法，其特征在于，还包括：

接收到来自用户的消极反馈信息；

6.根据权利要求3所述的语音交互方法，其特征在于，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态包括：

7.根据权利要求6所述的语音交互方法，其特征在于，还包括：

接收到来自用户的积极反馈信息；

8.根据权利要求1所述的语音交互方法，其特征在于，所述三维虚拟人物的姿态包括下述至少之一：

三维虚拟人物的面部表情；

三维虚拟人物的头部动作；

三维虚拟人物的四肢动作；

三维虚拟人物的躯干动作。

9.根据权利要求1所述的语音交互方法，其特征在于，还包括：

获取用户生理特征信息；

根据所述用户生理特征信息确定三维虚拟人物。

10.根据权利要求1所述的语音交互方法，其特征在于，还包括：

获取用户生理特征信息；

11.根据权利要求10所述的语音交互方法，其特征在于，所述形象决策模型预先通过下述步骤训练得到：

12.根据权利要求1所述的语音交互方法，其特征在于，还包括：

13.根据权利要求1所述的语音交互方法，其特征在于，还包括：

播放对应于所述用户语音信息的语音回复信息。

14.一种语音交互装置，应用于终端设备，其特征在于，所述装置包括：

第一接收模块，接收用户语音信息；

15.根据权利要求14所述的语音交互装置，其特征在于，所述姿态决策模型预先通过下述步骤训练得到：

16.根据权利要求15所述的语音交互装置，其特征在于，第一确定模块包括：

第一获取单元，基于所述用户语音信息，获得交互信息；

17.根据权利要求16所述的语音交互装置，其特征在于，第三获取单元包括：

18.根据权利要求16所述的语音交互装置，其特征在于，还包括：

第二接收模块，接收到来自用户的消极反馈信息；

19.根据权利要求16所述的语音交互装置，其特征在于，根据所述标签信息和预设映射关系，得到三维虚拟人物的姿态包括：

20.根据权利要求19所述的语音交互装置，其特征在于，还包括：

第三接收模块，接收到来自用户的积极反馈信息；

21.根据权利要求14所述的语音交互装置，其特征在于，所述三维虚拟人物的姿态包括下述至少之一：

三维虚拟人物的面部表情；

三维虚拟人物的头部动作

三维虚拟人物的四肢动作；

三维虚拟人物的躯干动作。

22.根据权利要求14所述的语音交互装置，其特征在于，还包括：

第一获取模块，获取用户生理特征信息；

23.根据权利要求14所述的语音交互装置，其特征在于，还包括：

第一获取模块，获取用户生理特征信息；

24.根据权利要求23所述的语音交互装置，其特征在于，所述形象决策模型预先通过下述步骤训练得到：

25.根据权利要求14所述的语音交互装置，其特征在于，还包括：

26.根据权利要求14所述的语音交互装置，其特征在于，还包括：

播放模块，播放对应于所述用户语音信息的语音回复信息。

27.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-13中任一项所述方法的步骤。

28.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现如权利要求1-13中任一项所述方法的步骤。