CN117371338A

CN117371338A - 一种基于用户画像的ai数字人建模方法及系统

Info

Publication number: CN117371338A
Application number: CN202311673160.8A
Authority: CN
Inventors: 张小飞; 周小明
Original assignee: Zhejiang Universe Singularity Technology Co ltd
Current assignee: Zhejiang Universe Singularity Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-01-09
Anticipated expiration: 2043-12-07
Also published as: CN117371338B

Abstract

本发明公开了一种基于用户画像的AI数字人建模方法及系统。该系统包括：检测并采集目标对象的传感信息和不同传感信息的置信度；将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中所述传感信息至少包括视图信息、语音信息以及生物特征信息；数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型。本发明构建了一种基于用户画像的AI数字人建模方法及系统，可快速有效的建立最佳的AI数字人模型，减少了数据处理量，提高交互体验。

Description

一种基于用户画像的AI数字人建模方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于用户画像的AI数字人建模系统及方法。

背景技术

业界现有的智能机器人，具备社交情感认知与表达能力，通过云计算、机器人学习技术、声音与面部识别等技术，了解人的特性与感情，从而能够与人进行娱乐互动，表达情绪，交流感情等。

但是现有的机器人识别和建模算法都是非常复杂，需要进行大量的计算，处理速度较慢，无法达到快速响应的效果，从而交互体验较差。

发明内容

为了解决上述提出的技术问题，本发明提供一种基于用户画像的AI数字人建模系统及方法，以解决传统AI数字人建模需要进行大量的计算，处理速度较慢，无法达到快速响应的效果，从而交互体验较差的技术问题。

一种基于用户画像的AI数字人建模方法，包括：

检测并采集目标对象的传感信息和不同传感信息的置信度；

将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中所述传感信息至少包括视图信息、语音信息以及生物特征信息；

数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型。

优选地，所述将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩，具体包括：传感信息输入自编码神经网络进行的信息压缩过程可用下式表示：

其中，，/>分别为自编码神经网络的输入层变量和隐藏层变量；/>为第/>层网络的第/>个输入变量，/>为第/>个输出变量，/>为输入变量对应的传感信息类型，W和b为自编码神经网络中的权重矩阵和偏离率；

其中、/>、/>为自然数/>,/>；其中，自编码神经网络不同的隐藏层之间相连接。

优选地，数据融合模型的融合过程包括：

赋予可信度高的传感信息更高的权重,可信度较低的模态则赋予低权重；

计算当前权重分布下的传感信息融合得到的预测唤醒分数；假设试验的预测唤醒分数为/>；则计算公式可表示为：

；

其中，假设有个传感信息对应/>个回归模型，共T次试验用于预测，第/>个模型中试验/>的预测平均唤醒评分为/>∈(1,2,3,…,n},te{1,2,3,…,T)，

设权重集 _k为(0.00,0.01,0.02,…,0.98,0.99,1.00]，即一个从0.00开始到1.00结束，步为0.01的数组。

优选地，计算当前权重分布下的传感信息融合得到的预测唤醒分数；假设试验的预测唤醒分数为/>，之后还包括：

计算当前权重分布下次试验的RMSE,记为/>, 计算公式为：

其中为试验/>的真实唤醒分数，通过比较/>和/>的大小关系来判断当前权重分布是否拥有更好的性能,当/>时,认为当前权重分布有更好的性能,所以将/>更新为/>,保存当前权重分布；

当时,认为当前的权重分布没有表现出更好的性能,不需要对进行更新。

优选地，所述数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型，具体包括：

根据所述情绪信息确定所述目标对象在与不同社会关系人员互动时的情绪模式；

根据所述情绪模式确定所述目标对象互动最优的社会关系人员，根据最优的社会关系人员的行为数据建立AI数字人模型。

优选地，所述根据所述情绪模式确定所述目标对象互动最优的社会关系人员，根据最优的社会关系人员的行为数据建立AI数字人模型，具体包括：

从行为数据进行筛选提取行为关键特征，使用关键特征生成模拟对象数据；

其中，所述行为数据包括肢体动作，所述行为关键特征包括肢体关键点或肢体动作单元，所述关键特征通过统计学习或机器学习生成；或者，所述行为数据包括表情，所述行为关键特征点包括面部局部关键点或面部动作单元，所述关键特征通过事先规范或机器学习生成；或者，所述行为数据包括语气，所述行为关键特征点包括陪伴对象语音输入中的声学信号特征，所述关键特征通过事先规范或机器学习生成。

第二方面，提供一种基于用户画像的AI数字人建模系统，包括：

信息采集模块，用于检测并采集目标对象的传感信息和不同传感信息的置信度；

数据处理模块，用于将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中所述传感信息至少包括视图信息、语音信息以及生物特征信息；

AI数字人建立模块，用于数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型。

第三方面，提供一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行所述一种基于用户画像的AI数字人建模方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行所述一种基于用户画像的AI数字人建模方法。

本发明通过将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中所述传感信息至少包括视图信息、语音信息以及生物特征信息；数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型，如此设置，可以使得在判定用户的情绪时，可以减少数据处理量，并且数据处理过程中通过自编码神经网络进行信息融合和压缩后，减少后续数据融合模型的结构复杂性和计算量，从而可以方便快速建立AI数字人模型，提高了交互效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本发明公开的技术方案。

图1为本发明实施例提供的一种基于用户画像的AI数字人建模方法的流程图；

图2为本发明实施例提供的一种基于用户画像的AI数字人建模方法的另一流程图；

图3为本发明实施例提供的一种基于用户画像的AI数字人建模系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

另外，为了更好地说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样能够实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

实施例1

一种基于用户画像的AI数字人建模方法，参考图1，包括：

步骤10，检测并采集目标对象的传感信息和不同传感信息的置信度；

具体地，其中传感信息包括：视图信息、语音信息以及生物特征信息。可以通过机器开启摄像头，对儿童的日程生活进行检测，检测出用户的表情，心跳，眼神等，判断用户的情绪，并将该情绪对应时刻的图像捕捉下来获得用户的情绪信息。

机器人可根据用户的行为(表情，动作等)捕捉当前时刻的图像或视频，捕捉的图像可以是一幅图像，也可以一个时间段内的几幅图像或视频等，图像的内容可以包括为用户的行为，周围的环境，用户关注的事件等，捕捉到的图像可以保存到机器人本地，也可以上传到云端服务器。

步骤20，将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中传感信息至少包括视图信息、语音信息以及生物特征信息；

具体地，假如图像信息与现有的图像数据库中的图像信息的置信度（相似度）小于70%，则不需要将图像信息进行下一步的处理，而具体的置信度的预设值可以根据实际情况进行选择。

步骤30，数据融合模型输出目标对象的情绪信息，根据情绪信息建立AI数字人模型。

本发明通过将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中传感信息至少包括视图信息、语音信息以及生物特征信息；数据融合模型输出目标对象的情绪信息，根据情绪信息建立AI数字人模型，如此设置，可以使得在判定用户的情绪时，可以减少数据处理量，并且数据处理过程中通过自编码神经网络进行信息融合和压缩后，减少后续数据融合模型的结构复杂性和计算量，从而可以方便快速建立AI数字人模型，提高了交互效果。

优选地，将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩，具体包括：传感信息输入自编码神经网络进行的信息压缩过程可用下式表示：

需要说明的是，置信度的设定可以有效地滤除噪声、异常值或不可靠的传感信息，确保输入到自编码神经网络中的数据具有较高的质量，将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩，可以提高信息处理的准确性、实现信息融合、实现数据压缩、提升系统鲁棒性、降低成本和功耗等多方面的有益效果。

优选地，数据融合模型的融合过程包括：

；

更具体地，本申请提出一种融合听觉模态、视觉模态信息以及生物信息的多模态情感识别方法，首先利用卷积神经网络和预先训练好的面部表情模型，分别从语音信号、视觉信号以及生物信息信号（心跳，血压等）中提取相应的声音特征、视觉特征以及生物信息特征；然后将提取的多类特征进行信息融合和压缩，充分挖掘模态间的相关信息；最后，利用长短期记忆循环神经网络对融合后的多模态特征进行情感识别。

需要说明的是，通过综合考虑多个传感信息的融合结果来计算预测唤醒分数，可以综合利用不同模态之间的互补性和关联性，获得更全面、准确的预测结果。这种方法避免了仅依赖单一传感信息可能带来的偏差和局限性，提升了唤醒分数的准确性和可靠性。

计算当前权重分布下次试验的RMSE,记为/>, 计算公式为：

需要说明的是，通过更新当前权重分布，可以提高模型性能优化的效率、保持模型性能的稳定性和可靠性、实现自适应的权重调整、防止过拟合和陷入局部最优解以及简化模型选择和调参过程，能够更加高效地寻找和保持更好的权重分布，提升模型的性能和泛化能力。

优选地，参考图2，步骤30，数据融合模型输出目标对象的情绪信息，根据情绪信息建立AI数字人模型，具体包括：

步骤31，根据情绪信息确定目标对象在与不同社会关系人员互动时的情绪模式；

步骤32，根据情绪模式确定目标对象互动最优的社会关系人员，根据最优的社会关系人员的行为数据建立AI数字人模型。

本实施例中，根据情绪信息，确定目标对象在与不同社会关系人员互动时的情绪模式。这可以通过分析目标对象在与不同类型社会关系人员（如家人、朋友、同事等）互动时的情绪变化来实现。例如，目标对象在与家人互动时可能表现出更多的积极情绪。家人通常是支持和理解他们的人，因此他们可能感到更加放松和开心。这种情绪模式可能反映出目标对象对家庭关系的重视和依赖；目标对象在与朋友互动时可能表现出更多的积极情绪。朋友关系通常是建立在共同兴趣、互相支持和享受时光的基础上的，因此他们可能感到更加愉快和轻松。这种情绪模式可能反映出目标对象对友谊和社交关系的重视；目标对象在与同事互动时可能表现出更多的中性或消极情绪。工作场景通常比较正式和竞争性，目标对象可能会感到压力、焦虑或不满意。这种情绪模式可能反映出目标对象对工作关系的看法和对工作环境的适应程度。通过对这些情绪变化进行分析和归纳，可以确定目标对象的情绪模式。

根据确定的情绪模式，选择目标对象互动最优的社会关系人员。这可以通过计算目标对象的情绪模式与不同社会关系人员的行为数据之间的匹配度来实现。例如，如果目标对象的情绪模式主要表现为积极情绪，那么可以选择那些在与目标对象互动时能够引发积极情绪的社会关系人员作为最优的社会关系人员。举例来说，一个情绪常年低落的人被确定为消极情绪模式，则通过计算匹配度可以得到目标对象互动最优的社会关系人员“知心姐姐栏目主持人”，并根据 “知心姐姐栏目主持人”的行为数据建立的AI数字人模型。

优选地，步骤32，根据情绪模式确定目标对象互动最优的社会关系人员，根据最优的社会关系人员的行为数据建立AI数字人模型，具体包括：

其中，行为数据包括肢体动作，行为关键特征包括肢体关键点或肢体动作单元，关键特征通过统计学习或机器学习生成；或者，行为数据包括表情，行为关键特征点包括面部局部关键点或面部动作单元，关键特征通过事先规范或机器学习生成；或者，行为数据包括语气，行为关键特征点包括陪伴对象语音输入中的声学信号特征，关键特征通过事先规范或机器学习生成。

在一个可能的实施例中，对于肢体动作数据，可以使用姿态估计算法来提取肢体关键点或肢体动作单元作为行为关键特征。这些关键点或动作单元可以通过统计学习或机器学习生成，以捕捉最优社会关系人员在与目标对象互动时的典型肢体动作。对于表情数据，可以使用面部表情识别算法来提取面部局部关键点或面部动作单元作为行为关键特征。这些关键点或动作单元可以通过事先规范或机器学习生成，以捕捉最优社会关系人员在与目标对象互动时的典型面部表情。对于语气数据，可以使用声学信号处理算法来提取陪伴对象语音输入中的声学信号特征作为行为关键特征。这些声学信号特征可以通过事先规范或机器学习生成以捕捉最优社会关系人员在与目标对象互动时的典型语气和语调。使用筛选提取的行为关键特征生成模拟对象数据。这可以通过使用生成模型来实现，例如生成对抗网络（GAN）或变分自编码器（VAE）等。具体来说可以利用行为关键特征作为输入条件来训练生成模型使其能够生成具有相似行为特征的模拟对象数据。这些数据可以用于建立AI数字人模型并模拟最优社会关系人员的行为表现。

实施例2

一种基于用户画像的AI数字人建模系统，参考图3，包括：

信息采集模块100，用于检测并采集目标对象的传感信息和不同传感信息的置信度；

数据处理模块200，用于将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩后输入至数据融合模型，其中传感信息至少包括视图信息、语音信息以及生物特征信息；

AI数字人建立模块300，用于数据融合模型输出目标对象的情绪信息，根据情绪信息建立AI数字人模型。

实施例3

一种电子设备，包括：处理器和存储器，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器执行计算机指令时，电子设备执行一种基于用户画像的AI数字人建模系统。

实施例4

一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序包括程序指令，程序指令当被电子设备的处理器执行时，使处理器执行一种基于用户画像的AI数字人建模系统。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本发明各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘（digital versatile disc，DVD）)、或者半导体介质（例如固态硬盘（solid state disk ，SSD））等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器（read-only memory，ROM）或随机存储存储器（random access memory，RAM）、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种基于用户画像的AI数字人建模方法，其特征在于，包括：

检测并采集目标对象的传感信息和不同传感信息的置信度；

2.根据权利要求1所述的一种基于用户画像的AI数字人建模方法，其特征在于，所述将置信度大于预设值的传感信息输入至自编码神经网络进行信息融合和压缩，具体包括：传感信息输入自编码神经网络进行的信息压缩过程可用下式表示：

3.根据权利要求1所述的一种基于用户画像的AI数字人建模方法，其特征在于，数据融合模型的融合过程包括：

；

4.根据权利要求3所述的一种基于用户画像的AI数字人建模方法，其特征在于，计算当前权重分布下的传感信息融合得到的预测唤醒分数；假设试验的预测唤醒分数为/>，之后还包括：

计算当前权重分布下次试验的RMSE,记为/>, 计算公式为：

其中为试验/>的真实唤醒分数，通过比较/>和/>的大小关系来判断当前权重分布是否拥有更好的性能,当/>时,认为当前权重分布有更好的性能,所以将更新为/>,保存当前权重分布；

当时,认为当前的权重分布没有表现出更好的性能,不需要对/>进行更新。

5.根据权利要求1所述的一种基于用户画像的AI数字人建模方法，其特征在于，所述数据融合模型输出所述目标对象的情绪信息，根据所述情绪信息建立AI数字人模型，具体包括：

6.根据权利要求5所述的一种基于用户画像的AI数字人建模方法，其特征在于，

所述根据所述情绪模式确定所述目标对象互动最优的社会关系人员，根据最优的社会关系人员的行为数据建立AI数字人模型，具体包括：

7.一种基于用户画像的AI数字人建模系统，其特征在于，包括：

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行权利要求1-6中任一项所述的一种基于用户画像的AI数字人建模方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行权利要求1-6中任一项所述的一种基于用户画像的AI数字人建模方法。