CN114115533A

CN114115533A - 智能交互方法和装置

Info

Publication number: CN114115533A
Application number: CN202111333724.4A
Authority: CN
Inventors: 王红光
Original assignee: Beijing Mengtebo Intelligent Robot Technology Co ltd
Current assignee: Beijing Mengtebo Intelligent Robot Technology Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-03-01

Abstract

本公开的实施例提供了一种智能交互方法和装置，所述方法包括：获取当前用户的状态信息，所述状态信息包括所述当前用户的肢体动作、语言和面部表情；根据所述状态信息，确定当前用户的情绪状态；根据所述情绪状态，选择对应的语音模式，向所述当前用户发起语音会话，其中，所述语音模式是根据目标用户的行为特征生成的，所述行为特征是通过利用神经网络对目标用户的历史数据进行学习确定的，所述行为特征包括性格、爱好和语言习惯。以此方式，能够根据用户的实时情绪选择对应的语音模式与用户进行沟通，在满足用户的个性化需求的同时提高用户体验。

Description

智能交互方法和装置

技术领域

本公开涉及智能电视技术领域，尤其涉及智能交互方法和装置。

背景技术

智能电视，是基于Internet应用技术，具备开放式操作系统与芯片，拥有开放式应用平台，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，以满足用户多样化和个性化需求的电视产品。其目的是带给用户更便捷的体验，已经成为电视的潮流趋势。

但是，现有技术中的智能电视，不能根据用户的实时情绪状态选取对应的语音模式，不能模仿亲人的性格特征和语音习惯与用户沟通，在一定程度上仍然不能满足用户的个性化需求，影响用户体验。

发明内容

为解决现有技术中存在的上述技术问题，本公开实施例提供了一种智能交互方法和装置。

在本公开的第一方面，提供了一种智能交互方法，包括：

获取当前用户的状态信息，所述状态信息包括所述当前用户的肢体动作、语言和面部表情；

根据所述状态信息，确定当前用户的情绪状态；

根据所述情绪状态，选择对应的语音模式，向所述当前用户发起语音会话，其中，所述语音模式是根据目标用户的行为特征生成的，所述行为特征是通过利用神经网络对目标用户的历史数据进行学习确定的，所述行为特征包括性格、爱好和语言习惯。

在一些实施例中，所述获取当前用户的状态信息，包括：

通过摄像头采集包括所述当前用户在内的图像，通过语音阵列采集所述当前用户的语音信息，对所述图像进行分析，确定所述当前用户的肢体动作和面部表情，对所述语音信息进行识别，确定所述当前用户的语言，根据所述肢体动作、面部表情和语言对应的权重，确定所述当前用户的状态得分，作为状态信息。

在一些实施例中，所述根据所述状态信息，确定当前用户的情绪状态，包括：

通过查表确定所述状态得分对应的阈值，确定所述状态得分对应的情绪状态。

在一些实施例中，还包括：

获取会话过程中当前用户的语音信息和面部表情信息，确定所述当前用户的情绪状态的变化信息。

在一些实施例中，还包括：

获取目标用户的日常行为数据；

对所述日常行为数据和所述历史数据进行学习，确定所述目标用户的行为特征，所述行为特征包括性格、爱好和语言习惯；

根据所述行为特征，对所述目标用户对应的语音模式进行更新。

在一些实施例中，所述日常行为数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的日常动态信息；

所述历史数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的历史动态信息。

在一些实施例中，所述方法还包括：

在语音会话过程中，投影所述目标用户的立体形象，并根据对应的会话内容使所述立体形象做出虚拟动作。

在本公开的第一方面，提供了一种智能交互装置，包括：

状态信息获取模块，用于获取当前用户的状态信息，所述状态信息包括所述当前用户的肢体动作、语言和面部表情；

情绪状态确定模块，用于根据所述状态信息，确定当前用户的情绪状态；

交互模块，用于根据所述情绪状态，选择对应的语音模式，向所述当前用户发起语音会话，其中，所述语音模式是根据目标用户的行为特征生成的，所述行为特征是通过利用神经网络对目标用户的历史数据进行学习确定的，所述行为特征包括性格、爱好和语言习惯。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上第一方面所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

通过本公开实施例的智能交互方法，能够根据用户的实时情绪选择对应的语音模式与用户进行沟通，在满足用户的个性化需求的同时提高用户体验。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的智能交互方法的流程图；

图2示出了根据本公开的实施例的智能交互装置的结构框图；

图3示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开实施例的智能交互方法，能够对目标用户的历史数据进行学习，模仿目标用户的语言习惯和特征根据当前用户的情绪状态选取对应的语音模式与当前用户进行沟通，满足用户的心理需求，在满足用户的个性化需求的同时提高用户体验。

具体地，如图1所示，为本公开的实施例的智能交互方法的流程图。本实施例的智能交互方法，包括以下步骤:

S101:获取当前用户的状态信息，所述状态信息包括所述当前用户的肢体动作、语言和面部表情。

本公开实施例的方法，可以应用于智能电视。具体地，智能电视可以集成有摄像头和语音阵列，用于采集视频信息、图像信息和语音信息，并可以将采集的信息发送至云端的服务器，以令云端的服务器根据接收到的视频信息、图像信息和语音信息确定当前用户的情绪状态。

当当前用户在预设时间间隔内首次出现在智能电视的摄像头的拍摄范围内时，智能电视开始采集当前用户的视频信息和音频信息，并将采集到的视频信息和音频信息实时上传至云端的服务器，云端的服务器根据视频信息和音频信息识别出当前用户的肢体动作、语言内容和面部表情。

在本实施例中，可以采用现有的图像识别、语音识别和人脸识别技术对视频信息和音频信息进行识别，这里不再展开说明。

在一些实施例中，云端的服务器可以将确定的当前用户的肢体动作、语言内容和面部表情发送至智能电视，也可以将确定的当前用户的肢体动作、语言内容和面部表情存储在云端。

S102:根据所述状态信息，确定当前用户的情绪状态。

在本实施例中，当获取了当前用户的状态信息后，可以根据当前用户的状态信息确定当前用户的情绪状态。具体地，也可以预先定义不同的肢体动作、语言内容和面部表情对应的权重值，以及不要的肢体动作、语言内容和面部表情对应的情绪分值，通过计算当前用户的肢体动作、语言内容和面部表情对应的情绪综合分值，确定当前用户的情绪状态。

在一些实施例中国，确定情绪综合分值可以先分别确定肢体动作、语言内容和面部表情对应的分值，然后根据肢体动作、语言内容和面部表情对应的权重对得到的分数进行加权求和，生成当前用户的情绪综合分值，确定所述当前用户的状态得分，作为状态信息，然后通过查表确定所述状态得分对应的阈值，确定所述状态得分对应的情绪状态。

S103:根据所述情绪状态，选择对应的语音模式，向所述当前用户发起语音会话，其中，所述语音模式是根据目标用户的行为特征生成的，所述行为特征是通过利用神经网络对目标用户的历史数据进行学习确定的，所述行为特征包括性格、爱好和语言习惯。

在本实施例中，在确定了当前用户的情绪状态后，根据当前用户的情绪状态确定对应的语音模式，向所述当前用户发起语音会话。

例如，当前用户首次出现在智能电视的摄像头的拍摄范围内时，双手捧腹，面部表情张嘴大笑，声音比较兴奋，语言中包括“乐”、“逗”、“哈哈”等表示高兴的词语，可以确定当前云端的服务器可以综合得到当前用户的情绪状态为高兴，则选取对应的语音模式，向所述当前用户发起语音会话，其中，语音模式的内容包括语气和语言习惯。

在本实施例中，可以预先获取目标用户的历史数据，其中，所述目标用户的历史数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的动态信息(例如微信、微博等社交账户上更新的视频或者文字动态，或者抖音、快手等短视频平台上发布的视频、文字内容)等。通过对所述历史数据进行学习，确定所述目标用户的行为特征，所述行为特征包括性格、爱好和语言习惯；根据所述行为特征，确定生成与所述目标用户对应的语音模式(例如目标用户说话的语气，说话的语速，针对不同问题的处理方式和四维习惯等)，使目标用户的声音进行重现。

其中，目标用户可以是不能直接通过语音或者视频与当前用户进行沟通的用户，例如当前用户的已故亲人、重病亲属，或者其他原因导致的不能与当前用户进行沟通的用户。目标用户不能实时关注当前用户的状态，不能对当前用户进行心灵安慰，不能满足用户个性化需求，例如对亲人的思念，或者让缺乏亲近的倾诉对象，或者希望自己生活中的每个细节都得到关怀。

例如，可以发起会话“有什么高兴的事情，说说呗”或者“笑什么，消停下”，其分别对应的是慈祥的角色和和蔼的角色，不同的语音内容和语气(语音风格)是根据不同的目标用户的历史数据确定的，具体地，和目标用户的历史行为相关。例如，目标用户为严厉的性格，则发起的会话的风格为严厉，目标用户为和蔼的性格，则发起的会话的风格为和蔼。通过对目标用户的语音进行重现，并且呈现给当前用户具有目标用户的语言风格的会话，从而满足当前用户的心理需求(例如对亲人的思念)。

本公开实施例的智能交互方法，在日常生活中，能够根据用户的实时情绪选择对应的语音模式与用户进行沟通，尤其能够对已故亲人、重病亲属，或者其他原因导致的不能与当前用户进行沟通的用户的声音习惯和性格进行重现，使用户的心灵得到慰藉，在满足用户的个性化需求的同时提高用户体验。

此外，在本公开的一些实施例中，在会话过程中，还包括：

获取会话过程中当前用户的语音信息和面部表情信息，确定所述当前用户的情绪状态的变化信息。具体地，可以在会话过程中，动态获取当前用户的情绪状态，进而确定当前用户的情绪状态的变化信息。例如情绪低落变为情绪高涨，情绪低落变为情绪平稳，情绪高涨变为情绪平稳等。在确定当前用户变化后的情绪状态后，根据变化后的情绪状态选择对应的语音模式，继续与所述当前用户发起的语音会话。

例如，开始的时候，当前用户的情绪状态为低落(遇到不开心的事情)，通过与智能电视的会话，情绪变为平稳，则变换话题，发起与当前用户情绪状态相符合的会话，例如聊聊生活状态、工作状态等。

作为本公开的一个可选实施例，在上述实施例中，所述方法还包括：

在语音会话过程中，投影所述目标用户的立体形象，并根据对应的会话内容使所述立体形象做出虚拟动作。具体地，可以根据用户设置，投影目标用户的虚拟形象，然后根据语音会话内容令投影的虚拟形象做出相应的动作(例如摸头、拥抱、安抚等)，从而更加满足当前用户的心理需求。

此外，作为本公开的一个可选实施例，在上述实施例中，还可以获取目标用户的日常行为数据；对所述日常行为数据和所述历史数据进行学习，确定所述目标用户的行为特征，所述行为特征包括性格、爱好和语言习惯；根据所述行为特征，对所述目标用户对应的语音模式进行更新，其中，所述日常行为数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的日常动态信息；所述历史数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的历史动态信息。

通过上述过程，不仅能够对已故亲人、重病亲属，或者其他原因导致的不能与当前用户进行沟通的用户的声音习惯和性格进行重现，使用户的心灵得到慰藉，同时还能对健在目标用户日常行为习惯进行学习，从而维护一个虚拟形象，适用于短期分离导致的不习惯，从而更加能够提高用户体验。

如图2所示，为本公开实施例二的智能交互装置的结构框图。本实施例的智能交互装置，包括：

状态信息获取模块201，用于获取当前用户的状态信息，所述状态信息包括所述当前用户的肢体动作、语言和面部表情。

情绪状态确定模块202，用于根据所述状态信息，确定当前用户的情绪状态。

交互模块203，用于根据所述情绪状态，选择对应的语音模式，向所述当前用户发起语音会话，其中，所述语音模式是根据目标用户的行为特征生成的，所述行为特征是通过利用神经网络对目标用户的历史数据进行学些确定的，所述行为特征包括性格、爱好和语言习惯。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图3示出了可以用来实施本公开的实施例方法的电子设备300的示意性框图。如图所示，设备300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的计算机程序指令或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序指令，来执行各种适当的动作和处理。在RAM 303中，还可以存储设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

设备300中的多个部件连接至I/O接口305，包括：输入单元306，例如键盘、鼠标等；输出单元307，例如各种类型的显示器、扬声器等；存储单元308，例如磁盘、光盘等；以及通信单元309，例如网卡、调制解调器、无线通信收发机等。通信单元309允许设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元301执行上文所描述的各个方法和处理，其被有形地包含于机器可读介质，例如存储单元308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到设备300上。当计算机程序加载到RAM 703并由CPU301执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，CPU301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种智能交互方法，其特征在于，包括：

根据所述状态信息，确定当前用户的情绪状态；

2.根据权利要求1所述的智能交互方法，其特征在于，所述获取当前用户的状态信息，包括：

3.根据权利要求2所述的智能交互方法，其特征在于，所述根据所述状态信息，确定当前用户的情绪状态，包括：

4.根据权利要求3所述的智能交互方法，其特征在于，还包括：

5.根据权利要求4所述的智能交互方法，其特征在于，还包括：

获取目标用户的日常行为数据；

6.根据权利要求5所述的智能交互方法，其特征在于，

所述日常行为数据包括包含目标用户在内的视频数据、音频数据和社交软件上更新的日常动态信息；

7.根据权利要求6所述的智能交互方法，其特征在于，所述方法还包括：

8.一种智能交互装置，其特征在于，包括：

9.一种电子设备，包括存储器和处理器，所述存储器上存储有程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的智能交互方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的智能交互方法。