CN112990301A

CN112990301A - 情绪数据标注方法、装置、计算机设备和存储介质

Info

Publication number: CN112990301A
Application number: CN202110266550.8A
Authority: CN
Inventors: 黄润乾
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18

Abstract

本申请涉及一种情绪数据标注方法、装置、计算机设备和存储介质。所述方法包括：获取视频流；提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果；将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果。采用本申请实施例方法，能够有效提高情绪数据标注效率，避免人工标注的主观性，能够有效提高情绪数据标注准确性。

Description

情绪数据标注方法、装置、计算机设备和存储介质

技术领域

本申请涉及生物识别技术领域，特别是涉及一种情绪数据标注方法、装置、计算机设备和存储介质。

背景技术

情绪是一种综合主观认知经验，是人对客观事物的态度体验和行为反应，在人与人之间的交流中发挥着重要的作用。随着生物识别技术的发展，对于情绪数据的识别和分析，是神经科学、认知科学、计算机科学、心理学和人工智能等领域一项重要的交叉学科研究课题。

传统方法中对于情绪的分析识别，主要基于生理信号和非生理信号。生理信号主要基于自主神经系统和中枢神经系统，通过测量心率、人体阻抗、呼吸、大脑皮层信号等获取对应的情绪。非生理信号主要基于人脸、音频数据，通过深度学习构建函数关系推断对应的情绪。

然而，获取生理信号需要特定的仪器和设备。针对于语音数据对应的情绪的分析识别，在通过非生理信号进行深度学习时，缺少带有情绪标注的训练数据，需要人工根据语音数据进行标注，但是直接根据语音数据标注对应的情绪十分困难，因此导致情绪数据标注效率低，而且人工标注的主观性还会导致情绪数据标注准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高情绪数据标注效率和准确性的情绪数据标注方法、装置、计算机设备和存储介质。

一种情绪数据标注方法，所述方法包括：

获取视频流；

提取所述视频流的各视频帧图像数据，对各所述视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；

提取所述各视频帧图像数据对应的音频数据，对所述音频数据对应的情绪进行标注，获得语义情绪标注结果；

将所述人脸情绪标注结果与所述语义情绪标注结果进行比较，根据比较结果确定所述视频流对应的情绪数据标注结果。

在其中一个实施例中，所述对各所述视频帧图像数据中的人脸图像对应的情绪进行标注，包括：

提取各所述视频帧图像数据中的人脸特征，所述人脸特征包括人脸几何特征和人脸表征特征中的至少一种；

采用预先训练的人脸情绪识别模型，根据所述人脸特征对各所述视频帧图像中的人脸图像对应的情绪进行标注。

在其中一个实施例中，所述对所述音频数据对应的情绪进行标注，获得语义情绪标注结果，包括：

采用预先训练的语句转换模型将各所述音频数据转换为各语句，对各所述语句对应的情绪进行标注，获得语义情绪标注结果。

在其中一个实施例中，所述语句转换模型的训练过程，包括：

获取训练样本集，所述训练样本集包括：原始音频数据，以及对所述原始音频数据进行转换后得到的语句；

对所述训练样本集进行特征提取，训练获得所述语句转换模型，所述语句转换模型用于将输入的音频数据进行转换并输出为语句。

在其中一个实施例中，所述对各所述语句对应的情绪进行标注，包括：

提取各所述语句的语义特征，所述语义特征包括语气、语境和语义要素中的至少一种；

采用预先训练的语义情绪识别模型，基于所述语义特征对各所述语句对应的情绪进行标注。

在其中一个实施例中，所述根据比较结果确定所述视频流对应的情绪数据标注结果，包括：

当所述人脸情绪标注结果与所述语义情绪标注结果一致时，将所述人脸情绪标注结果或所述语义情绪标注结果作为所述视频流对应的情绪数据标注结果；

当所述人脸情绪标注结果与所述语义情绪标注结果不一致时，计算所述人脸情绪标注结果与所述语义情绪标注结果的置信度，根据所述置信度确定所述视频流对应的情绪数据标注结果。

在其中一个实施例中，所述计算所述人脸情绪标注结果与所述语义情绪标注结果的置信度，根据所述置信度确定所述视频流对应的情绪数据标注结果，包括：

获取所述人脸情绪标注结果和所述语义情绪标注结果中的各情绪权重和各信任度；

根据各所述情绪权重和各所述信任度，分别计算所述人脸情绪标注结果和所述语义情绪标注结果中存在的不同情绪标注结果的置信度；

将所述人脸情绪标注结果和所述语义情绪标注结果中相同的情绪标注结果的置信度相加得到所述情绪标注结果的综合置信度；

将所述综合置信度最高的情绪标注结果作为所述视频流对应的情绪数据标注结果。

一种情绪数据标注装置，所述装置包括：

视频流获取模块，用于获取视频流；

人脸情绪标注模块，用于提取所述视频流的各视频帧图像数据，对各所述视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；

语义情绪标注模块，用于提取所述各视频帧图像数据对应的音频数据，对所述音频数据对应的情绪进行标注，获得语义情绪标注结果；

标注结果确定模块，用于将所述人脸情绪标注结果与所述语义情绪标注结果进行比较，根据比较结果确定所述视频流对应的情绪数据标注结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述情绪数据标注方法、装置、计算机设备和存储介质，通过获取视频流；提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果；将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果。采用上述实施例方法，通过采用预先训练的多个情绪数据标注模型，并通过多个情绪数据标注结果最终确定视频流的情绪数据标注结果，能够有效提高情绪数据标注效率，避免人工标注的主观性，能够有效提高情绪数据标注准确性。

附图说明

图1为一个实施例中情绪数据标注方法的应用环境图；

图2为一个实施例中情绪数据标注方法的流程示意图；

图3为一个实施例中情绪数据标注装置的结构框图；

图4为一个实施例中计算机设备的内部结构图；

图5为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在其中一个实施例中，本申请提供的情绪数据标注方法，可以应用于如图1所示的应用环境中。该应用环境可以同时涉及终端102和服务器104，终端102通过网络与服务器104进行通信。具体地，服务器104通过终端102获取视频流；提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果；将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果。

在其中一个实施例中，该应用环境可以同时涉及终端102和服务器104，可以由服务器104预先训练获得情绪数据标注模型，终端102从服务器104中获取情绪数据标注模型。终端102获取视频流，确定视频流对应的情绪数据标注结果。

在其中一个实施例中，该应用环境可以只涉及服务器104，可以由服务器104预先训练获得情绪数据标注模型。服务器104获取视频流，确定视频流对应的情绪数据标注结果。

在其中一个实施例中，该应用环境可以只涉及终端102，可以由终端102预先训练获得情绪数据标注模型。终端102获取视频流，确定视频流对应的情绪数据标注结果。

其中，视频流可以是实时视频流或历史视频流，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种情绪数据标注方法，以该方法应用于图1中确定视频流对应的情绪数据标注结果的终端102和/或服务器104为例进行说明，包括以下步骤：

步骤S202，获取视频流。

其中，流媒体技术是指将一连串的媒体数据压缩后，以流的方式在网络中分段传送，能够实现在网络上实时传输视频数据，视频流就是使用流媒体技术进行视频数据的传输。视频流可以由摄像机产生，摄像机可以但不限于是监控摄像机、红外摄像机、电荷耦合摄像机、网络摄像机等。视频流可以是实时视频流或历史视频流。视频流的视频格式可以是音频视频交错格式(Audio Video Interleaved，AVI)、Real Media可变比特率(Real MediaVariable Bitrate，RMVB)格式、MP4(Moving Picture Experts Group 4，MP4)格式等其中的任意一种。

在其中一个实施例中，视频流可以从各视频网站或视频平台中获取。为了得到视频流对应的情绪数据标注结果，需要将所获取的视频流进行离线缓存。

具体地，从各视频网站或视频平台中获取视频流。

步骤S204，提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果。

其中，视频流中包括图像数据。提取视频流的各视频帧图像数据，可以使用AdobePremiere等任意视频编辑软件，或使用计算机编程语言编写脚本工具等方式对视频流的每一帧图像数据进行提取。具体地，计算机编程语言可以包括Python、C语言、C++等其中的任意一种。

其中，情绪是一种综合主观认知经验，是人对客观事物的态度体验和行为反应。情绪的类型一般包括四种基本情绪，即快乐、愤怒、恐惧和悲哀，具体还可以分为悲痛、恐惧、惊奇、接受、狂怒、警惕、憎恨等。在情绪发生时，总是伴随着能够观察到的某些行为特征，例如面部表情、姿态表情、语调表情等。其中，面部表情是指通过眼部肌肉、颜面肌肉和口部肌肉的变化来表现各种情绪状态。姿态表情可以包括身体表情和手势表情。面部表情、姿态表情、语调表情可以统称为身体语言。

在其中一个实施例中，为了得到视频流对应的情绪数据标注结果，可以通过对视频流的各视频帧图像数据中的人脸图像对应的情绪进行标注。具体地，可以使用预先训练得到的人脸情绪识别模型，对各视频帧图像数据中的人脸图像对应的情绪进行标注。

具体地，提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果。

步骤S206，提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果。

其中，视频流中包括音频数据。在提取视频流的各视频帧图像数据之后，提取各视频帧图像数据对应的音频数据。提取各视频帧图像数据对应的音频数据，可以使用AdobePremiere等任意视频编辑软件，或使用计算机编程语言编写脚本工具等方式对各视频帧图像数据对应的音频数据进行提取。具体地，计算机编程语言可以包括Python、C语言、C++等其中的任意一种。

在其中一个实施例中，为了得到视频流对应的情绪数据标注结果，可以通过对视频流的各视频帧图像数据对应的音频数据的情绪进行标注。具体地，可以使用预先训练得到的语义情绪识别模型，对音频数据对应的情绪进行标注。

具体地，提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果。

步骤S208，将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果。

其中，为了提高视频流对应的情绪数据标注结果的准确性，通过将所获得的人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪标注结果。具体地，当人脸情绪标注结果与语义情绪标注结果不一致时，对情绪数据标注结果进行修正，以得到准确性高的视频流对应的情绪数据标注结果。

上述情绪数据标注方法中，通过获取视频流；提取视频流的各视频帧图像数据，对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；提取各视频帧图像数据对应的音频数据，对音频数据对应的情绪进行标注，获得语义情绪标注结果；将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果。采用上述实施例方法，通过采用预先训练的多个情绪数据标注模型，并通过多个情绪数据标注结果最终确定视频流的情绪数据标注结果，能够有效提高情绪数据标注效率，避免人工标注的主观性，能够有效提高情绪数据标注准确性。

在其中一个实施例中，步骤S204中对各视频帧图像数据中的人脸图像对应的情绪进行标注，包括：

步骤S302，提取各视频帧图像数据中的人脸特征，人脸特征包括人脸几何特征和人脸表征特征中的至少一种。

其中，人脸特征可以包括人脸几何特征和人脸表征特征。人脸几何特征是指人脸的五官等面部特征之间的几何关系，如距离、面积和角度等。当人脸的面部表情发生变化时，人脸几何特征会产生相对应的变化。人脸表征特征是指利用人脸图像的灰度信息，通过算法提取人脸全局或局部特征。例如，可以将人脸图像分成若干区域，在每个区域的像素邻域内用中心值作阈值化，将其结果看成是二进制数，得到灰度直方图，按照灰度直方图进行后续的匹配和计算。

具体地，提取各视频帧图像数据中的人脸特征，人脸特征包括人脸几何特征和人脸表征特征中的至少一种。

步骤S304，采用预先训练的人脸情绪识别模型，根据人脸特征对各视频帧图像中的人脸图像对应的情绪进行标注。

其中，人脸情绪识别模型通过预先训练得到。在训练模型时，训练方法可以是卷积神经网络(Convolutional Neural Networks，CNN)或递归神经网络(Recursive NeuralNetwork，RNN)等，训练人脸情绪识别模型所使用的训练样本集，可以包括原始人脸图像，以及对原始人脸图像进行情绪标注后的人脸图像。其中，原始人脸图像的情绪标注可以是人工进行标注，可以通过网络获取公开的数据集，公开的数据集主要包括CK+数据集和Oulu-CASIA数据集。

其中，在Cohn-Kanade(CK+)数据库中包含123个对象，年龄在18-30岁之间，来源于不同的种族，数据库中的图像序列利用Panasonic AG-7500相机从正面进行拍摄得到，总共采集到593个帧数在10-60帧不等的图像序列，表情序列带有表情标签，包括生气、厌恶、开心、伤心、惊讶、害怕和鄙视。Oulu-CASIA数据库中包括80位23-58岁不同国籍的对象，对每位对象采集六种基本表情，包括惊讶、高兴、伤心、生气、害怕和厌恶。

具体地，将各视频帧图像数据导入人脸情绪识别模型中，人脸情绪识别模型根据人脸特征对各视频帧图像中的人脸图像对应的情绪进行标注。

在其中一个实施例中，当对音频数据对应的情绪进行标注时，由于音频数据中可能存在外界环境因素的影响，因此，可以将各音频数据转化为各语句，对各语句对应的情绪进行标注，使情绪标注结果的准确性更高。其中，语句是由一个词或句法上有关联的一组词构成，表示成句的话。

具体地，可以采用预先训练获得的语句转换模型，将各音频数据转换为各语句，对各语句对应的情绪进行标注，获得语义情绪标注结果。

在其中一个实施例中，语句转换模型的训练过程，包括：

步骤S402，获取训练样本集，训练样本集包括：原始音频数据，以及对原始音频数据进行转换后得到的语句。

具体地，语句转换模型的训练样本集，可以包括原始音频数据，以及对原始音频数据进行转换后得到的语句，语句以文字形式进行呈现。

步骤S404，对训练样本集进行特征提取，训练获得语句转换模型，语句转换模型用于将输入的音频数据进行转换并输出为语句。

其中，对训练样本集进行特征提取，音频的特征可以包括音频数据的MFCC特征(Mel-frequency cepstral coefficients，MFCC)和Fbank(Filter bank，Fbank)特征等。

具体地，对训练样本集进行特征提取，训练获得语句转换模型，语句转换模型用于将输入的音频数据进行转换并输出为语句。

在其中一个实施例中，对各语句对应的情绪进行标注，包括：

步骤S502，提取各语句的语义特征，语义特征包括语气、语境和语义要素中的至少一种。

其中，语义特征可以包括语气、语境和语义要素等。语义要素又称为义素，是指语言中意义或内容的单位。语气是指在一定的具体情绪支配下具体语句的声音形式，各语句的本质不同，语言环境不同，每个语句必然呈现出对应的具体感情色彩和分量，表现为千差万别的声音形式。语境是指语言环境，是在说话时人所处的状况和状态，可以包括自然语言环境、局部语言环境和自我营造的人工语言环境。

具体地，提取各语句的语义特征，语义特征包括语气、语境和语义要素中的至少一种。

步骤S504，采用预先训练的语义情绪识别模型，基于语义特征对各语句对应的情绪进行标注。

在其中一个实施例中，语义情绪识别模型通过预先训练得到。在训练语义情绪识别模型时，训练所使用的训练样本集，可以包括原始语句数据，以及对原始语句数据进行情绪标注后的语句数据。其中，原始语句数据的情绪标注可以是人工进行标注，可以通过网络获取公开的数据集。在训练样本集中避免选取不能确定准确情绪的训练样本。

在其中一个实施例中，步骤S208中将人脸情绪标注结果与语义情绪标注结果进行比较，根据比较结果确定视频流对应的情绪数据标注结果，包括：

步骤S602，当人脸情绪标注结果与语义情绪标注结果一致时，将人脸情绪标注结果或语义情绪标注结果作为视频流对应的情绪数据标注结果。

具体地，当人脸情绪标注结果与语义情绪标注结果一致时，可以将人脸情绪标注结果或语义情绪标注结果中的任意一种作为视频流对应的情绪数据标注结果。

步骤S604，当人脸情绪标注结果与语义情绪标注结果不一致时，计算人脸情绪标注结果与语义情绪标注结果的置信度，根据置信度确定视频流对应的情绪数据标注结果。

其中，一个概率样本的置信区间(Confidence interval)是对该样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度，置信度就是对该置信区间的信任程度。

具体地，当人脸情绪标注结果与语义情绪标注结果不一致时，计算人脸情绪标注结果与语义情绪标注结果的置信度，将置信度高的情绪标注结果确定为视频流对应的情绪数据标注结果。

在其中一个实施例中，步骤S604中计算人脸情绪标注结果与语义情绪标注结果的置信度，根据置信度确定视频流对应的情绪数据标注结果，包括：

步骤S702，获取人脸情绪标注结果和语义情绪标注结果中的各情绪权重和各信任度。

具体地，人脸情绪标注结果和语义情绪标注结果中的情绪类型有多种，通过获取人脸情绪标注结果和语义情绪标注结果中的各情绪权重，以及对人脸情绪标注结果和语义情绪标注结果的信任度，可以计算得到置信度。

步骤S704，根据各情绪权重和各信任度，分别计算人脸情绪标注结果和语义情绪标注结果中存在的不同情绪标注结果的置信度。

其中，情绪标注结果的置信度为对应的情绪权重与信任度的乘积。具体地，根据各情绪权重和各信任度，分别将人脸情绪标注结果和语义情绪标注结果中存在的不同情绪标注结果的置信度。

步骤S706，将人脸情绪标注结果和语义情绪标注结果中相同的情绪标注结果的置信度相加得到情绪标注结果的综合置信度。

其中，情绪标注结果的综合置信度为情绪标注结果的置信度相加之和。具体地，将人脸情绪标注结果和语义情绪标注结果中相同的情绪标注结果的置信度相加得到情绪标注结果的综合置信度。

步骤S708，将综合置信度最高的情绪标注结果作为视频流对应的情绪数据标注结果。

具体地，例如，获取视频流，在视频流的人脸情绪标注结果中，60％的可能性是开心，20％的可能性是生气，10％的可能性是悲伤，10％的可能性是惊讶；在视频流的语义情绪标注结果中，60％的可能性是生气，20％的可能性是开心，10％的可能性是悲伤，10％的可能性是惊讶。对于人脸情绪标注结果的信任度是60％，对于语义情绪标注结果的信任度是40％。

此时计算得到情绪为开心的综合置信度为60％*60％+20％*40％＝44％，情绪为生气的综合置信度为20％*60％+60％*40％＝36％，情绪为悲伤或惊讶的综合置信度均为10％*60％+10％*40％＝10％。其中，情绪为开心的综合置信度最高，因此，将综合置信度高的情绪标注结果为开心，确定为视频流对应的情绪数据标注结果。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合其中一个具体实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在其中一个具体实施例中，一种情绪数据标注方法的步骤如下：

一、预先获取和标注训练样本集

1.1、获取人脸数据及人脸对应的情绪标注；

1.2、获取音频数据及音频数据经过文字转换后对应的语句；

1.3、获取语句数据及语句对应的情绪标注；

上述训练样本集的获取可以采用人工标注方式，也可以获取公开的数据集。

二、预先训练获得模型

2.1、基于人脸数据及对应的情绪标注，训练获得人脸情绪识别模型；

2.2、基于音频数据及对应的语句，训练获得语句转换模型；

2.3、基于语句数据及对应的情绪标注，训练获得语义情绪识别模型。

三、对视频流对应的情绪数据标注

3.1、获取大量的视频流；

3.2、提取视频流的各视频帧图像数据，采用预先训练的人脸情绪识别模型对各视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果；

3.3、提取各视频帧图像数据对应的音频数据，采用预先训练的语句转换模型将各音频数据转换为各语句，采用预先训练的语义情绪识别模型对各语句对应的情绪进行标注，获得语义情绪标注结果；

3.4、将人脸情绪标注结果与语义情绪标注结果进行比较，当人脸情绪标注结果与语义情绪标注结果不一致时，根据人脸情绪标注结果和语义情绪标注结果中的各情绪权重和各信任度分别计算人脸情绪标注结果与语义情绪标注结果中存在的不同情绪标注结果的置信度，将人脸情绪标注结果和语义情绪标注结果中相同的情绪标注结果的置信度相加得到情绪标注结果的综合置信度，将综合置信度最高的情绪标注结果确定为视频流对应的情绪数据标注结果。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图3所示，提供了一种情绪数据标注装置，包括：视频流获取模块810、人脸情绪标注模块820、语义情绪标注模块830和标注结果确定模块840，其中：

视频流获取模块810，用于获取视频流。

人脸情绪标注模块820，用于提取所述视频流的各视频帧图像数据，对各所述视频帧图像数据中的人脸图像对应的情绪进行标注，得到人脸情绪标注结果。

语义情绪标注模块830，用于提取所述各视频帧图像数据对应的音频数据，对所述音频数据对应的情绪进行标注，获得语义情绪标注结果。

标注结果确定模块840，用于将所述人脸情绪标注结果与所述语义情绪标注结果进行比较，根据比较结果确定所述视频流对应的情绪数据标注结果。

在其中一个实施例中，人脸情绪标注模块820包括以下单元：

人脸特征提取单元，用于提取各所述视频帧图像数据中的人脸特征，所述人脸特征包括人脸几何特征和人脸表征特征中的至少一种。

人脸情绪标注单元，用于采用预先训练的人脸情绪识别模型，根据所述人脸特征对各所述视频帧图像中的人脸图像对应的情绪进行标注。

在其中一个实施例中，语义情绪标注模块830包括以下单元：

语义情绪标注单元，用于采用预先训练的语句转换模型将各所述音频数据转换为各语句，对各所述语句对应的情绪进行标注，获得语义情绪标注结果。

在其中一个实施例中，语义情绪标注单元包括以下单元：

语句转换模型获取单元，用于获取所述语句转换模型；其中，语句转换模型的训练过程包括：获取训练样本集，所述训练样本集包括原始音频数据，以及对所述原始音频数据进行转换后得到的语句；对所述训练样本集进行特征提取，训练获得所述语句转换模型，所述语句转换模型用于将输入的音频数据进行转换并输出为语句。

语义特征提取单元，用于提取各所述语句的语义特征，所述语义特征包括语气、语境和语义要素中的至少一种。

语义情绪标注单元，用于采用预先训练的语义情绪识别模型，基于所述语义特征对各所述语句对应的情绪进行标注。

在其中一个实施例中，标注结果确定模块840包括以下单元：

第一标注结果确定单元，用于当所述人脸情绪标注结果与所述语义情绪标注结果一致时，将所述人脸情绪标注结果或所述语义情绪标注结果作为所述视频流对应的情绪数据标注结果。

第二标注结果确定单元，用于当所述人脸情绪标注结果与所述语义情绪标注结果不一致时，计算所述人脸情绪标注结果与所述语义情绪标注结果的置信度，根据所述置信度确定所述视频流对应的情绪数据标注结果。

在其中一个实施例中，第二标注结果确定单元包括以下单元：

权重和信任度获取单元，用于获取所述人脸情绪标注结果和所述语义情绪标注结果中的各情绪权重和各信任度。

置信度计算单元，用于根据各所述情绪权重和各所述信任度，分部计算所述人脸情绪标注结果和所述语义情绪标注结果中存在的不同情绪标注结果的置信度；

综合置信度计算单元，用于将所述人脸情绪标注结果和所述语义情绪标注结果中相同的情绪标注结果的置信度相加得到所述情绪标注结果的综合置信度；

综合置信度结果确定单元，用于将所述综合置信度最高的情绪标注结果作为所述视频流对应的情绪数据标注结果。

关于情绪数据标注装置的具体限定可以参见上文中对于情绪数据标注方法的限定，在此不再赘述。上述情绪数据标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储情绪数据标注数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情绪数据标注方法。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种情绪数据标注方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4-5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述的情绪数据标注方法的步骤。

在其中一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的情绪数据标注方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种情绪数据标注方法，所述方法包括：

获取视频流；

2.根据权利要求1所述的方法，其特征在于，所述对各所述视频帧图像数据中的人脸图像对应的情绪进行标注，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音频数据对应的情绪进行标注，获得语义情绪标注结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述语句转换模型的训练过程，包括：

5.根据权利要求3所述的方法，其特征在于，所述对各所述语句对应的情绪进行标注，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据比较结果确定所述视频流对应的情绪数据标注结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述计算所述人脸情绪标注结果与所述语义情绪标注结果的置信度，根据所述置信度确定所述视频流对应的情绪数据标注结果，包括：

8.一种情绪数据标注装置，其特征在于，所述装置包括：

视频流获取模块，用于获取视频流；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。