CN114463671A

CN114463671A - 一种基于视频数据的用户人格识别方法

Info

Publication number: CN114463671A
Application number: CN202111641101.3A
Authority: CN
Inventors: 董佩昂
Original assignee: Shanghai Huashi Electronic Commerce Co ltd
Current assignee: Shanghai Huashi Electronic Commerce Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-10

Abstract

本发明公开了一种基于视频数据的用户人格识别方法，包括步骤S001，收集用户在线社交网络的文本数据记忆用户在线行为，步骤S002，对于文字数据要先进行文字的预处理，去除特定的无用符号、数据中非文本部分以及无效的文字，提炼出有效文字和可以表达情感的表情，对于文字部分进行中文分词，将一段文字分开成符合语义的单一词语，达到电脑自动识别语句含义的效果，对于表情类的部分，先做标记与关联的内容，下一步将对其详细处理等。本发明针对特征分析和识别结果，系统可生成专业分析报告，根据识别出的人格，进行内容个性化推荐。

Description

一种基于视频数据的用户人格识别方法

技术领域

本发明涉及适用于人格识别技术领域，具体涉及基于视频数据的用户人格识别方法。

背景技术

据研究显示，中国仅10％左右的人能达到心理健康的状态，70％以上的人早已处于心理亚健康而不自知。据调查，随着心理学知识的不断普及，95％的人愿意接收心理学治疗以及学习心理学知识了解自己。

人格心理学便是在心理学中有举足轻重的地位，但在人格心理学领域中，人格测试、儿童气质测试等都需要大量的题目让人去回答，然后进行统计分析，得出结论，需要耗费大量的时间，而且不同类型测试存在一定的误差，所以如何快速判断用户人格是行业内新出现且亟待解决的问题。

发明内容

针对相关技术中的问题，本发明提出一种基于视频数据的用户人格识别方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于视频数据的用户人格识别方法，包括以下步骤，步骤S001，根据人格测试知识，设计并用户行为视频采集方案，根据方案视频数据采集，并进行五大人格测试得到分数；

步骤S002，对视频在时间流上，数据主要分为图片和语音两个信息载体，分别进行数据处理，并对图片和语音进行特征提取，创建回归或分类模型；

步骤S003，划分多个测试集、验证集进行模型训练，并在测试集中判断模型的鲁棒性；

步骤S004，选择鲁棒性最好的模型，对用户进行识别人格，并且生成专业报告，让用户充分的了解自己的人格，以及产生的行为信息。

优选的，步骤S002中具体对语音进行数据处理时，首先对语音进行情景对齐，然后生成时域和频域特征，即起音时间、过零率等时域特征，同时对语音进行MFCC特征提取。

优选的，步骤S002中的具体对视频图像处理时，首先对视频进行每秒提取25张图片，然后对每张进行数据处理，并读入图片到矩阵当中。

优选的，在步骤S002中，对每张进行数据处理包括无效图片筛选、图片模糊需增强等基础计算。

优选的，步骤S002中，针对语音和图像分别创建卷积神经网络模型，并根据开源训练好的SOTA模型权重，使用迁移学习、蒸馏方法，构建语音和图像针两个特定模型，然后对语音提取的MFCC特征和每张图片进行训练，提取深度特征。

优选的，步骤S002中的模型构建具体为利用语音和图像提取的深度特征，再后利用循环神经网络，对语音和图像在前后的时间线上，进行特征提取并进行计算，取得时间上的关联性，以及周围的变化，最后结合不同年龄、地区等分布进行模型构建。

优选的，步骤S003中，利用测试集、验证集进行模型训练，进而训练回归模型，利用均方误差进行评分，得到交叉验证交叉验证后的平均结果，判断模型拟合能力，然后利用测试集去判断模型的鲁棒性，最终选出鲁棒性最好的结果模型为最终模型。

优选的，步骤S004中的人格分析报告生成步骤具体为，针对模型特征和结果，人格心理学家会进行专业分析，生成相关规则，利用此规则，人格识别系统会自动化生成人格分析报告。

与现有技术相比，本发明的有益效果为：

1、本发明利用人格心理学家设计用户视频采集方案，获得视频数据。

2、本发明开创性的将人格心理学与人工智能结合，识别出人格。

3、本发明针对视频在图片、语音等信息，进行多模态建模融合，充分提取用户特征，识别用户人格。

4、本发明针对特征分析和识别结果，系统可生成专业分析报告，根据识别出的人格，进行内容个性化推荐。

综上，现有技术中不存在利用人工智能对人格进行识别的应用，本专利在人格心理学领域和人工智能上都利用各领域先进的知识和技术，并且能有效结合，生成最先进的模型，去识别人格，本发明通过专业的心理学家进行专业情景设计，以及特征与心理学结合分析；并且利用深度学习领域中的先进技术，对视频中的图像和语音进行特征处理以及多模态模型(针对不同类型的特征，分别建立特定的模型，最后模型融合)构建，进而对人格进行识别；同时过程中考虑了视频特征的连续性，语音、表情所反映的情绪以及心理学上的可解释性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提出的一种基于视频数据的用户人格识别方法的步骤流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

如图1所示，本实施例公开了一种基于视频数据的用户人格识别方法，包括以下步骤：

步骤1，人格心理学家根据人格测试知识，设计用户行为视频采集方案，如：让用户观看情绪刺激反应视频或图片，快速让用户带入到情景测试当中。利用手机或电脑使用本司app录取测试状态，得到用户视频。

步骤2，其中分数是利用人格心理学专业测试题进行测试，如五大人格测试(开放性、责任心、外倾性、宜人性、神经质性)，经过人格心理学家分析得到每个维度的分数[0，1]。

步骤3，针对视频在时间流上，数据分为图片和语音两个信息载体，首先对语音进行数据处理，主要有对语音进行情景对齐，即对无效数据进行删除。然后主要生成时域和频域特征，即起音时间(音符能量在上升阶段的时长)、过零率(信号在单位时间通过0点的次数)等时域特征；以及对语音进行MFCC特征提取(考虑人耳对不同频率的感受程度，进行数字化特征编码)。

步骤4，对视频图像处理，主要有对视频进行每秒提取25张图片，然后对每张进行数据处理，如无效图片筛选、图片模糊需增强等基础计算，并读入图片到矩阵当中，即数字化存储，方便处理。

步骤5，针对语音和图像分别创建卷积神经网络模型，主要利用深度学习经典神经网络架构，如EfficientNet模型(一种神经网络架构)等，并根据开源训练好的SOTA(stateof the art)模型权重，使用迁移学习、蒸馏方法，构建语音和图像针两个特定模型，然后对语音提取的MFCC特征和每张图片进行训练，提取深度特征。

步骤6，利用语音和图像提取的深度特征，然后利用循环神经网络，如LSTM、MLP(一种神经网络架构)，即其中的注意力机制，对语音和图像在前后的时间线上，进行特征提取，即前一帧的语音和图像与后一帧的语音和图像等进行计算，取得时间上的关联性，以及周围的变化，当然会使用前后传播以及多注意力等技术进行特征提取，最后结合不同年龄、地区等分布进行模型构建。

步骤7，针对视频数据采集，五大人格测试得到分数，针对不同分布划分多个测试集、验证集进行模型训练，即交叉验证，然后训练回归模型，利用均方误差进行评分，得到交叉验证交叉验证后的平均结果，判断模型拟合能力，然后利用测试集去判断模型的鲁棒性，最终选出最好的结果模型为最终模型，并且部署上线为app中，方便用户测试。

步骤8，针对模型特征和结果，人格心理学家会进行专业分析，生成相关规则，利用此规则，人格识别系统会自动化生成人格分析报告。

步骤9，针对用户人格分析报告，以及结合人格心理学家的建议会个性化推荐相关知识，让用户更全面了解自己。

在至少一个实施例中，训练集、验证集、测试集划分：

训练集，评估集和测试集(集合的划分根据数据集的大小，当数据集不大是6：2：2，当数据集很大时98：1：1，万级别为划分)，在抛开具体项目时三个集合按照上面逻辑划分，具体划分根据项目实际需求做更改。

以【假设项目要使用大五人格框架来测试用户人格】为例：

首先招募人格心理学家或本司内部的心理组对大五人格进行拆解，设计或寻找相关的视频用于人格测试，在线上发布活动，让用户观看视频并用前置摄像头录制，记录反应。

利用人格心理学专业大五测试题进行测试，大五人格(开放性、责任心、外倾性、宜人性、神经质性)，最后会得出每个维度的得分[0，1]。

对于步骤1中所采集的视频，将数据分为图片和语音两个信息载体。首先对语音进行数据处理，主要有对语音进行情景对齐，网上有很多开源的对齐工具，自己也可以独立开发适用于具体项目的对齐工具，并将无效的数据进行删除。用python直接提取数据的时域和频域特征，即起音时间(音符能量在上升阶段的时长)、过零率(信号在单位时间通过0点的次数)等时域特征；以及对语音进行MFCC特征提取(考虑人耳对不同频率的感受程度，进行数字化特征编码)。或者直接使用pyAudioAnalysis(开源工具包)从15个非重叠帧中提取音频特征(保持帧步长等于audioAnalysis子进程中的帧长度)。这些包括34个特征以及它们的delta特征。每个帧的输出是1*68维向量，或者是15个音频帧的15*68维张量。

通过pyAudioAnalysis提取的特征类型包括过零率、色度向量、色度偏差、MFCC、能量、能量熵、光谱质心、光谱扩散、光谱熵、光谱通量和光谱滚降。

对于视频图像的处理，首先将视频按照秒，每秒提取25张(具体根据项目而定)图片，然后对每张图片进行数据处理。例如使用python中opencv(图像处理和计算机视觉库)直接对图片进行处理，如图片模糊需增强等一系列图像处理，将图片变得清晰可识别，并提取视觉特征包括面部线索、手部运动、人的姿势等。

针对语音和图像分别创建卷积神经网络模型，主要利用深度学习经典神经网络架构，如EfficientNet模型(一种神经网络架构)等，并根据开源训练好的SOTA(state of theart)模型权重，使用迁移学习、蒸馏方法，构建语音和图像针两个特定模型，然后对语音提取的MFCC特征和每张图片进行训练，提取深度特征。具体使用的模型将会根据具体的项目变化而改变，其中具体细节也将根据具体项目做更改。

例子：假如用深度双峰回归模型训练数据：以tensorflow作为后端的keras的functional API用于定义模型。该模型分两个阶段定义。在第一阶段提取图像和音频特征，然后处理视频的序列特征。为了处理音频和视觉特征，在第一阶段采用了双峰时间分布式方法。

Keras有一个时间分布层，可用于将同一层单独应用于多个输入，从而产生“多对多”映射。简而言之，时间分布式包装器使任何层能够分别从每个帧或时间步长中提取特征。结果：输入和输出中的附加时间维度，表示时间步长的索引。

通过pyAudioAnalysis提取的音频特征在时间分布式包装器中通过具有32个单元的密集层。因此，相同的密集层被应用于每个音频帧的1X 68维向量。类似地，每个图像帧并行通过一系列卷积块。

在这一步之后，音频和视觉模型被连接起来。为了处理视频的时间顺序或时间方面，连接的输出被进一步传递到一个具有0.2的dropout率和循环dropout率的堆叠LSTM模型。堆叠LSTM的输出被传递到一个密集层，ReLU激活和dropout率为0.5。最后的密集层有5个输出单元(每个个性特征一个)，以及sigmoid激活，以获得0到1之间的预测分数(其中的学习率、epoch数量、批量大小等参数根据实际落地项目决定)。

利用语音和图像提取的深度特征，然后利用循环神经网络，如LSTM、MLP(一种神经网络架构)，即其中的注意力机制，对语音和图像在前后的时间线上，进行特征提取，即前一帧的语音和图像与后一帧的语音和图像等进行计算，取得时间上的关联性，以及周围的变化，当然会使用前后传播以及多注意力等技术进行特征提取，最后结合不同年龄、地区等分布进行模型构建。

针对视频数据采集，五大人格测试得到分数，针对不同分布划分多个测试集、验证集进行模型训练，即交叉验证，然后训练回归模型，利用均方误差进行评分，得到交叉验证交叉验证后的平均结果，判断模型拟合能力，然后利用测试集去判断模型的鲁棒性，最终选出最好的结果模型为最终模型，并且部署上线为app中，方便用户测试；

最优模型的选取逻辑是根据步骤2中，测得的用户大五人格结果对步骤7中的模型预测的结果进行对比，计算误差，选取误差最低的模型作为最优模型。

针对模型特征和结果，人格心理学家会进行专业分析，生成相关规则，利用此规则，人格识别系统会自动化生成人格分析报告。

针对用户人格分析报告，以及结合人格心理学家的建议会个性化推荐相关知识，让用户更全面了解自己。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频数据的用户人格识别方法，其特征在于，包括以下步骤，步骤S001，根据人格测试知识，设计并用户行为视频采集方案，根据方案视频数据采集，并进行五大人格测试得到分数；

2.根据权利要求1所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S002中具体对语音进行数据处理时，首先对语音进行情景对齐，然后生成时域和频域特征，即起音时间、过零率等时域特征，同时对语音进行MFCC特征提取。

3.根据权利要求1所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S002中的具体对视频图像处理时，首先对视频进行每秒提取25张图片，然后对每张进行数据处理，并读入图片到矩阵当中。

4.根据权利要求3所述的一种基于视频数据的用户人格识别方法，其特征在于，在步骤S002中，对每张进行数据处理包括无效图片筛选、图片模糊需增强等基础计算。

5.根据权利要求4所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S002中，针对语音和图像分别创建卷积神经网络模型，并根据开源训练好的SOTA模型权重，使用迁移学习、蒸馏方法，构建语音和图像针两个特定模型，然后对语音提取的MFCC特征和每张图片进行训练，提取深度特征。

6.根据权利要求5所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S002中的模型构建具体为利用语音和图像提取的深度特征，再后利用循环神经网络，对语音和图像在前后的时间线上，进行特征提取并进行计算，取得时间上的关联性，以及周围的变化，最后结合不同年龄、地区等分布进行模型构建。

7.根据权利要求1-3或5任一项所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S003中，利用测试集、验证集进行模型训练，进而训练回归模型，利用均方误差进行评分，得到交叉验证交叉验证后的平均结果，判断模型拟合能力，然后利用测试集去判断模型的鲁棒性，最终选出鲁棒性最好的结果模型为最终模型。

8.根据权利要求1-3或5任一项所述的一种基于视频数据的用户人格识别方法，其特征在于，步骤S004中的人格分析报告生成步骤具体为，针对模型特征和结果，人格心理学家会进行专业分析，生成相关规则，利用此规则，人格识别系统会自动化生成人格分析报告。