CN110036402A

CN110036402A - 用于媒体内容表现的预测的数据处理方法

Info

Publication number: CN110036402A
Application number: CN201780074698.3A
Authority: CN
Inventors: 嘉宝·希尔泰斯; 哈维尔·奥罗斯科; 伊什特万·佩特拉斯; 丹尼尔·索尔高伊; 阿科斯·乌塔西; 杰弗里·F·科恩
Original assignee: Realeyes OU
Current assignee: Realeyes OU
Priority date: 2016-12-02
Filing date: 2017-11-16
Publication date: 2019-07-19
Also published as: GB201620476D0; EP3549084A1; JP2020501260A; JP7111711B2; US20200126111A1; US20180158093A1; US10540678B2; KR20190091488A

Abstract

提供了用于预测用户可在客户端装置处消费的一条媒体内容的表现数据的方法和系统。在一个或多个实施方案中，所述方法在所述用户观看所述内容时收集诸如来自网络摄像头的原始输入数据，所述原始输入数据指示用户对所述媒体内容的响应。处理所述数据以提取并获得一系列头部姿势信号和面部表情信号，随后将所述一系列信号输入到分类模型。所述模型响应于通过所述方法评估的所述信号而映射随时间推移所述媒体内容的表现数据，以产生对所述一条媒体内容的表现的预测。

Description

用于媒体内容表现的预测的数据处理方法

技术领域

本发明涉及一种对原始数据输入进行数据处理来预测由一个或多个用户消费的一条媒体内容的表现数据的计算机实施的方法。具体地，本发明涉及在用户消费一条媒体内容时收集关于用户的行为状态、身体状态和情绪状态的原始数据，所述一条媒体内容随后使用媒体内容分析技术进行处理以预测由所述一条媒体的消费而引起的真实世界效应。

背景技术

广告目的是引起真实世界中的消费者情绪状态的变化，并且将情绪状态的这个变化转变为诸如销售额提升的表现。例如，电视商业广告可以指望增加与其相关的产品的销售额。真实世界效应可以是能够与一条媒体内容的消费相关的任何可客观地测量的结果。所述结果可以由预测的表现数据指示。预测的表现数据可以涉及例如预测的销售额提升(例如，其中媒体内容是旨在销售特定产品的广告)、或社交媒体响应(例如，如病毒般传播的可能性)、或赢得奖项(例如，针对广告的戛纳狮子奖)的可能性。例如，可以基于在消费一条媒体内容时收集到的用户情绪响应的性质而预测表现数据。仅在美国，每年在电视广告上就花费超过$800亿。因此，对于在发表之前通过预测表现来评估媒体内容的有效性有很大需求。

用于测量广告表现有效性的一个常规选择是将给定的一条媒体内容与销售表现相关联。然而，这种关联是回顾性地完成的，并且伴随的问题在于无视了消费者/用户的情绪状态。

另一常规选择是使用尝试确定或预测诸如视频商业广告的多条媒体内容的表现的主动反馈，所述主动反馈也被称为自我报告式反馈。对于主动用户反馈，用户在消费一条媒体内容之后提供口头或书面反馈。例如，用户可以完成问卷，或者可以提供口述反馈，所述口述反馈可以被记录以便例如使用语音识别工具手动地或以自动化方式分析。反馈可以包括对在消费该条媒体内容时经历的情绪状态的指示。

为了能将主动反馈扩展到大样本尺寸并且因此有价值，反馈格式必须短，例如限于是或否回答。这排除对所经历的情绪状态的实时(即，一秒接一秒的)描述。因此，不可能使用常规主动反馈技术来核对使用主动反馈的大样本尺寸的代表性情绪状态数据。

另外，来自用户的主动反馈得自合理化的意识思维过程，而不是实际经历的(被动)情绪状态。已经证明，用户偏好是在意识觉知之外，并且受到被动情绪状态强烈影响。因此，无法使用主动情绪状态反馈来准确地预测媒体内容表现。

主动反馈是使用自我报告来测量用户情绪状态的示例。也可以通过被动方式来测量情绪状态数据，例如通过例如在消费一条媒体时收集指示用户的行为或生理特性的数据。在实践中，可能需要使用原始数据输入的组合，包括行为数据、生理数据和自我报告的数据，以便获得情绪状态信息。来自上述来源中的两者或三者的原始数据的组合可以用于识别“假”指示符。例如，如果得自所有这三个来源的情绪状态数据重叠或对齐，则这使人更确信所获得的信号。信号的任何不一致都可以指示假读数。

生理参数可以是在经历哪种情绪状态的良好指示符。很多生理参数都不是意识可控制的，即，消费者不能影响它们。因此，它们可以用来确定消费一条媒体内容的消费者的真实情绪状态，这在原理上可以用来准确地预测媒体内容表现。可以测量到的生理参数的示例包括声音分析、心率、心率变化性、皮肤电活动(其可以指示兴奋)、呼吸、体温、心电图(ECG)信号，以及脑电图(EEG)信号。

越来越普遍的是用户拥有能够读取上述类型的生理参数的可佩戴或便携式装置。这打开了此类生理测量值可以扩展到大样本尺寸的可能性，从而实现去除统计波动(噪声)，使得可以看到与媒体内容表现的关联。

用户的行为特性可以以各种方式来表明他们自身。本文中对“行为数据”或“行为信息”的引用可以是指用户响应的视觉方面。例如，行为信息可以包括面部响应、头部和身体姿态或姿势，以及视线跟踪。

在一个示例中，面部响应可以用作所经历的情绪状态的被动指示符。网络摄像头视频获取可以用于通过在用户消费一条媒体内容时捕获图像帧来监测面部响应。因此，可以经由使用网络摄像头通过处理视频图像来捕获情绪状态。

以这种方式测量到的情绪状态信息已经表明与媒体内容表现相关，并且具体地与销售额提升相关。客户端装置上的网络摄像头的增长意味着对这种类型的数据的捕获可以扩展到大样本尺寸。

然而，甚至常规被动技术也面临各种问题。面部表情与媒体内容表现之间的相关具有较差的准确性。已经表明，例如，媒体内容表现与面部表情的相关可以比与主动反馈的相关高，但只是在显著地过滤源数据时。内容表现与面部表情相关也不可应用于每个产品类别。尽管这些基于网络摄像头的技术展示了面部表情与媒体内容表现之间的正相关，但没有在产品范围上实现准确性和一致性。

因此，本领域中需要解决由常规广告表现评估技术所引起的在不同产品类别上评估消费者情绪状态的不准确性和不一致性问题，以及大规模数据扩展的困难。

发明内容

根据本文所述的方法的广泛方面，提供了一种预测用户在客户端装置处可消费的一条媒体内容的表现数据的计算机实施的方法。在一个或多个实施方案中，所述一条媒体内容可由多个用户消费，所述多个用户中的每一者在相应客户端装置处。例如，所述一条媒体内容可以是直播视频流、视频商业广告、音频商业广告、电影预告片、电影、网络广告、动画游戏或图像中的任一者。

根据本文所述的一个或多个实施方案，所述方法包括：在所述一条媒体内容的消费期间，在所述客户端装置处收集指示所述用户对所述一条媒体内容的响应的原始输入数据。在一个或多个实施方案中，所述客户端装置可通过网络与服务器装置通信，并且在所述服务器装置处发生对所述收集的原始输入数据的处理。所述原始输入数据包括与所述一条媒体内容相关的用户行为数据、用户生理数据或元数据中的任一者。例如，所述原始输入数据包括在所述客户端装置处捕获的图像数据或者从音频捕获装置捕获的音频数据。图像数据可以包括展示用户的面部图像的多个图像帧。继续这个方面，所述方法处理所述收集的原始输入数据，以便：提取描述符数据点的时间序列，以及获得情绪状态数据点的时间序列。例如，通过以下操作来执行处理所述收集的原始输入数据的步骤：确定所述预测参数；向所述预测参数应用线性回归以输出线性回归输出；将所述线性回归输出二值化以产生二值化的输出；以及向所述二值化的输出应用逻辑回归以输出所述预测的表现数据。在一个或多个实施方案中，基于一个或多个描述符数据点而确定每个情绪状态数据点。在一个或多个实施方案中，每个描述符数据点包括指示从所述原始输入数据提取的特征的定量参数。例如，所述预测参数可以是所述情绪状态数据点的时间序列中的相邻情绪状态数据点之间的所述定量参数的相对变化的函数。在一个或多个实施方案中，每个情绪状态数据点包括指示用户情绪状态的定量参数。例如，所述预测参数可以是所述情绪状态数据点的时间序列中的相邻情绪状态数据点之间的所述定量参数的相对变化的函数。在一个或多个实施方案中，每个描述符数据点是面部特征描述符数据点。例如，每个面部特征描述符数据点可以是多维数据点，所述多维数据点的每个分量指示相应面部标志。每个面部特征描述符数据点可以对指示多个面部标志的信息进行编码。在一个或多个实施方案中，每个面部特征描述符数据点与相应帧相关联。

继续这个方面，所述方法基于在表现数据与所述描述符数据点的时间序列或所述情绪状态数据点的时间序列的预测参数之间映射的分来模型而输出所述一条媒体内容的预测的表现数据，所述预测参数可以是所述用户对所述一条媒体内容的所述响应的相对变化的定量指示。在一个或多个实施方案中，所述表现数据是销售额提升数据。

在一个或多个实施方案中，所述方法另外针对所述多个用户中的每一者，从所述描述符数据点的时间序列或所述情绪状态数据点的时间序列确定单独预测参数；以及从所述多个用户的所述单独预测参数确定组预测参数，其中使用所述组预测参数来获得所述预测的表现数据。在一个或多个实施方案中，处理所述收集的数据包括将所述组预测参数输入到在所述组预测参数与所述表现数据之间映射的分类模型中。例如，使用从所述分类模型输出的结果来生成所述预测的表现数据。在一个或多个实施方案中，所述方法还包括获得多个组预测参数，其中所述分类模型在所述多个组预测参数与所述表现参数之间映射。

在一个或多个实施方案中，所述方法还包括计算所述描述符数据点的所述提取的时间序列或所述情绪状态数据点的时间序列之间的时间差值其中并且其中x^j(t)是用户j的所述提取的描述符数据点或所述提取的情绪状态数据的定量参数x的时间序列。然后，所述方法通过从所述时间差值中减去平均差值<dx^j>来将所述时间差值归一化以产生归一化时间差值其中并且T是所述时间序列的持续时间。之后，所述方法将所述时间序列分段成具有预定持续时间的多个时间元；以及根据来计算所述归一化差值的最大值，其中符号i∈k意味着第i个值落在元k中。所述方法然后根据对所述多个时间元中的每一者的值进行加权和求和，其中n是元的数量，因此变量没有更多的帧索引或段索引。在一个或多个实施方案中，所述方法通过所述一条媒体内容的长度将Dx^j归一化。接下来，所述方法生成指示所述多个用户之中的所述预测参数的描述性统计。

所述用户响应可以是用户的情绪状态。换句话说，已经观察到，可以通过来自所述预测参数的映射来获得性能数据，所述预测参数可以反映数据点的时间序列内的用户响应(例如，情绪状态)的变化规模。因此，所述预测参数是与用户的情绪状态相关的动态信息的性质，这可以优于先前使用的静态参数而提供表现预测的显著改进。

附图说明

下文将参考意图示例而非限制的附图详细地论述本发明的实施方案，在附图中相似的参考意图指代相似或对应的部分，并且其中：

图1是本发明的实施方案的用于实施方法的系统的示意图；

图2是示出本发明的实施方案中使用的数据类型之间的关系的示意性数据流程图；

图3是示出在本发明的实施方案中执行的过程步骤的流程图；

图4A是示出从情绪状态定量参数的时间序列获得的情绪状态定量参数的时间差值的曲线图；

图4B是示出针对一系列预定时间元从图4A的曲线图获得的最大归一化时间差值的曲线图；

图4C是示出从多个用户响应获得的预测参数的分布的图表；

图4D是示出从多个不同媒体获得的汇聚预测参数的分布的图表；以及

图5是示出本发明的实施方案中使用的预测器模型的示意流程图。

具体实施方式

贯穿本说明书，术语可以具有在明确陈述的含义之外的背景下建议或暗示的含义。同样，如本文中使用的词组“在一个实施方案中”不一定指代相同的实施方案，并且如本文中使用的词组“在另一实施方案中”不一定指代不同的实施方案。类似地，如本文中使用的词组“一个或多个实施方案”不一定指代相同的实施方案，并且如本文中使用的词组“至少一个实施方案”不一定指代不同的实施方案。意图在于例如要求保护的主题包括全部或部分的示例实施方案的组合。

最一般地说，本文中公开的方法提出使得能够从对一条媒体内容的用户响应的收集到的原始数据中提取准确且代表性的预测表现数据的数据分析技术。

在一个方面，本文中陈述的技术使用收集到的原始数据的动态分析以产生比使用静态分析可用的性质以更大准确性映射到媒体内容表现的性质或参数。在动态分析中，焦点在从收集到的数据中获得或提取的一个或多个信号的时间动态(即，随时间推移的变化)上。例如，可以处理原始数据以产生指示随时间推移(例如，在一条媒体内容的整个消费持续时间上)的用户情绪状态的信息。

先前采用的方法大大地忽略了此类动态信号。在这些先前方法中，仅针对某些产品类别并且只有在丢弃普通商业广告(一半的数据)时才实现表现预测。

根据本发明的广泛方面，一个或多个实施方案中的方法包括：收集关于消费一条媒体内容的用户的响应的输入数据；处理收集到的输入数据以提取描述符数据点的时间序列并获得情绪状态数据点的时间序列；以及输出针对所述一条媒体内容的表现数据的预测。输出的预测可以是基于在表现数据与描述符数据点或情绪状态数据点的时间序列的一个或多个预测参数之间映射的分类模型。预测参数是用户对所述一条媒体内容的响应的相对变化的定量指示符。

在实践中，所述一条媒体内容可以由多个用户消费，所述多个用户中的每一者在相应客户端装置处。在一个或多个实施方案中，本文中公开的方法包括在多个相应客户端装置中的每一者处收集指示对所述一条媒体内容的多个用户响应的原始输入数据。

本文中公开的方法可以有效地实施在网络环境中以提高计算机资源使用效率。例如，每个客户端装置可以通过网络与服务器装置通信，其中可以本地地或在服务器装置处进行对收集到的原始输入数据的处理。当在用户消费一条媒体内容时实施实时数据收集时，仅依赖于远程处理的常规技术可能会经受瓶颈问题。以此方式，本地处理有助于更有效的负载管理。本地处理还有助于解决隐私忧虑。

客户端装置可以分布在各种位置处，例如在每个用户的家中，或者可以存在于中心位置处，例如以使得此处公开的方法能够在中心位置测试(CLT)环境中使用。

使用本文中公开的计算机实施的方法，可以从广泛范围的产品类别的媒体内容中并且针对广泛的消费者人口统计准确且一致地提取表现数据。有利地，在用户消费媒体内容时，使用被动情绪状态指示符来准确且可靠地预测表现数据。此外，在不要求用户提供主动(例如，书面或口头)情绪状态反馈的情况下提取表现数据。

每个情绪状态数据点包括指示用户情绪状态的定量参数。定量参数可以是得分或其他数值参数。

预测参数可以是情绪状态数据点的时间序列中的相邻情绪状态数据点之间的定量参数的相对变化的函数。在一个示例中，预测参数可以指示与媒体内容的结束相关联的定量参数的值和与剩余的媒体内容相关联的定量参数的值之间的差值。

用户情绪状态可以包括选自愤怒、厌恶、恐惧、快乐、悲伤和惊讶的一个或多个情绪状态。可以使用其他情绪指示符，诸如效价和/或兴奋。在媒体内容涉及商业广告的情况下，对厌恶和惊讶进行编码的信号可以呈现与对应于销售额提升的表现数据的强相关。

原始输入数据可以包括与所述一条媒体内容相关的用户行为数据、用户生理数据或元数据中的任一者。从多个用户收集的原始输入数据可以汇聚，并且可以从代表汇聚的原始输入数据或从中获得的描述符数据点的时间序列和/或情绪状态数据点的时间序列生成预测参数。替代地或另外地，可以针对多个用户中的每一者从描述符数据点的时间序列或情绪状态数据点的时间序列确定单独预测参数。然后可以从多个用户的单独预测参数确定组预测参数，由此可以使用组预测参数获得预测的表现数据。因此，可以以两种方式获得指示表现的信号。可以在个人层级(即，针对每个用户)获得并且然后汇聚或者以其他方式分析(例如，使用各种统计测量)以提供预测模型的输入，或者可以从来自多个用户的组(即，已经汇聚)数据获得。

可以从收集到的输入数据获得多个预测参数。通过在呈现与相同的期望输出参数相关的多个信号上构建预测模型，可以更加确信输出。此外，如果使用多个预测的参数，那么对于预测被证明不正确的情况，预测模型的输入可以拥有某一诊断值。因此，预测参数背后的定量参数时间序列信号可以具有双重功能：预测表现，并且有助于说明一条媒体内容按或不按预期表现的原因。例如，如果一组预测参数中的一者或多者产生“不好”输出而其他良好，则可以研究“不好”输出以给出媒体内容的反馈。这个反馈可以用来优化发布之前的媒体内容。

处理收集到的数据以输出预测的性能数据可以包括将预测参数输入到在预测参数(例如，单独预测参数或组预测参数)与表现数据之间映射的分类模型(例如，基于计算机的预测模型)中。

可以使用从分类模型输出的结果来生成预测的表现数据。

原始输入数据可以是在相应客户端装置中的每一者处捕获的图像数据。图像数据可以包括展示用户的面部图像的多个图像帧。此外，图像数据可以包括展示用户的面部图像的图像帧的时间序列。

在图像帧描绘用户的例如嘴、眼睛、眉毛等面部特征并且每个面部特征包括多个面部标志的情况下，行为数据可以包括指示每个图像帧的面部标志的位置、形状、取向、阴影等的信息。

图像数据可以在相应客户端装置上处理，或者可以通过网络直接流到服务器装置以进行处理。

每个描述符数据点可以是面部特征描述符数据点，包括行为数据中的指示选定的多个面部标志的位置、形状、取向、分享等的信息。

换句话说，每个面部特征描述符数据点可以对指示多个面部标志的信息进行编码。每个面部特征描述符数据点可以与相应帧相关联，例如，来自图像帧的时间序列的相应图像帧。每个面部特征描述符数据点可以是多维数据点，所述多维数据点的每个分量指示相应面部标志。

情绪状态数据点可以直接地从原始数据输入、从提取描述符数据或从这两者的组合中获得。例如，可以选择多个面部标志以包括能够表征用户情绪的信息。因此可以通过将分类器应用于一个图像中或一系列图像上的一个或多个面部特征描述符数据点来确定每个情绪状态数据点。在一些示例中，可以利用深度学习技术来从原始数据输入中产生情绪状态数据点或其他相关定量参数时间序列信号。此类深度学习技术可以避开对人类选择可能的描述符特征并将它们转换成情绪状态信息的要求。原则上，也可以使用此类技术来直接地从原始数据输入产生预测参数。

可以通过利用具有已知表现数据的媒体内容项的训练集进行机器训练来训练基于计算机的预测模型。例如，训练集可以是包括多条训练媒体内容的计算的预测参数和对应已知表现值的数据。

该条媒体内容可以是期望关于用户反馈的信息的任何类型的用户可消费内容。本发明在媒体内容是商业广告(例如，视频商业广告或广告)的情况下、在可以对照销售额上升来判断表现的情况下等等可以特别有用。然而，本发明适用于任何种类的内容，例如，视频商业广告、音频商业广告、动画(例如，与商业广告或其他视频叙述相关)、电影预告片、电影、网络广告、动画游戏、图像等中的任一者。

表现数据可以是销售额提升数据。此外，预测的表现数据可以是给定的一条媒体内容的预测的销售额提升。

另外地或替代地，表现数据可以是社交媒体表现。例如，表现数据可以包括诸如Facebook、YouTube、Twitter等社交媒体平台上的喜欢/分享的数量/频率。另外地或替代地，表现数据可以包括商业广告接收到的奖项。

另外地或替代地，针对任何用户输出的信号本身可以用作分类器工具(或其一部分)，例如，以识别某些类型的媒体可以将其当作目标的用户的集群和/或将用户分配到现有的集群。

在一个或多个实施方案中，头部姿势动态和面部表情动态与情绪状态和情绪状态变化相关，并且其中头部姿势动态和面部特征动态进行组合以提供对情绪状态和情绪状态变化的可靠指示。

鉴于上述内容，本文中公开的方法对在用户消费媒体内容期间收集到的原始数据执行处理操作，以便使得能够针对给定的多条媒体内容提取预测的表现数据。

在下文的示例中，原始数据是从用户装置上的诸如网络摄像头等记录装置获得的图像数据。如下文说明，这个原始数据提供面部图像形式的行为信息，从中可以获得情绪状态信息。然而，本文中公开的实施方案不限于这种类型的原始数据或行为信息。相反，本发明提供一种生成并分析与表现数据具有有用相关的信号的新技术。此类信号原则上可以从指示消费媒体内容期间的用户响应的任何类型的原始信息中获得。因此，原始信息可以提供上述类型的行为信息、生理信息或自我报告式信息中的任一者或多者。

可以使用与下文论述的那些相似的技术提前确定并提取与表现数据相关或可以以高准确性映射到表现数据的一个或多个信号。替代地，可能没有提前知道信号。相反，可以使用深度学习技术来确定信号。

图1是适用于收集和分析行为数据的系统100的示意图，所述系统可以在本发明中使用。如可以从图1中看出，计算机实施的方法不是必须由单个装置执行，而是可以例如经由如图所示的计算机网络112(例如，有线或无线网络，诸如WiFi或蜂窝)在分布式计算机系统上执行。为简答起见，图1中示出由单个用户102使用的单个客户端装置104。客户端装置104可以是例如PC、平板PC、移动电话或具有处理器、存储器的其他计算装置，并且可以被配置成通过网络112进行通信。客户端装置104的处理器可以实施作为程序代码存储在存储器中的指令。用户102消费一条媒体内容109，例如从广告服务器下载并显示在客户端装置104的视频播放器108上的视频商业广告。媒体内容109是一系列图像帧，并且可以包括伴随的音频。在客户端装置104播放媒体内容109的同时，可操作地耦合到客户端装置104的网络摄像头106在用户消费媒体内容时收集用户的图像数据，例如，作为用户的面部的图像帧的时间序列。在一个或多个实施方案中，网络摄像头106与客户端装置成整体。在其他实施方案中，网络摄像头106是独立装置。由网络摄像头106捕获的多个原始图像帧传送到行为数据收集应用110，所述行为数据收集应用110可以存储在客户端装置104上的存储器或存储装置中或网络上的其他地方(例如，云存储装置、远程存储装置)。多个原始图像随后由行为收集应用110处理。例如，它们可以经历下文论述的预处理步骤。行为数据收集应用110随后通过网络112将经处理信息116传输到分析服务器装置114，其中从行为数据提取预测参数，并且使用预测模型来从预测参数中获得该条媒体内容的预测的表现数据。预测参数可以是来源于指示特定面部特征描述符数据点的变化的一系列数据点的用户对媒体内容的响应的相对变化的定量指示符，所述一系列数据点可以指示面部表情的变化(即，微笑或皱眉)。预测模型可以是例如分类模型，如本文中其他地方公开。分析服务器114可以从另外多个客户端装置接收类似数据。

本发明不受处理原始数据的位置限制。例如，行为数据收集应用110可以简单地将从客户端装置104接收的原始数据转发到分析服务器114，或者可以本身提取预测参数并仅通过网络发送所述预测参数。

图2是示出在本发明的一个或多个实施方案中如何处理并转换信息的示意数据流程图。处理流程200以用户j的原始数据数据202开始。原始数据可以是指示用户对一条媒体内容的进行中响应的任何合适数据来源。在下文给出的具体示例中，原始数据输入是由用户的计算机上的网络摄像头收集到的图像数据。在其他示例中，原始数据可以是针对用户收集到的任何类型的自我报告式数据、行为数据或生理数据。例如，可以使用麦克风记录来自用户的音频数据，并且可以使用可佩戴装置或适当传感器(例如，肌电图传感器、皮肤电活动传感器、勒克斯光传感器、心电图传感器)收集生理数据。

原始输入数据202用来生成一个或多个时间序列信号，从中可以计算与期望的输出相关的预测参数。时间序列信号是基于可以从原始数据输入获得的参数(本文中表示为x)。可以操纵、进一步处理或精炼原始数据输入以生成时间序列信号，如下文论述。然而，还可能的是，时间序列信号可以是在原始数据输入本身内直接可观察到的参数。

在图2所示的示例中，过程流程200随后经由处理器实施程序代码而从原始数据输入202提取各种描述符数据204。在具体示例中，如果原始数据输入202包括面部图像数据，那么提取的描述数据204可以是指示面部或头部或者其相应部分(例如，眼睛、鼻子、嘴)的相对位置或面部特征或几何形状(例如，取向)的信息。提取的描述数据204本身可以有助于从中获得预测参数的时间序列数据，或者可以提取所述提取的描述数据204以便为情绪状态分类器提供输入，从中可以获得情绪状态数据206。情绪状态数据206基于提取的描述符数据204而指示用户的潜在情绪状态。

因此，原始输入数据202用来得出表示用户对一条媒体内容的响应的定量参数208的一个或多个时间序列信号，从中可以获得预测参数。如上文说明，定量参数可以直接来自原始输入数据，或者可以使用数据识别或过滤技术从所述原始输入数据中提取，或者可以通过使用分类技术从所述原始输入数据中得出。例如，确定头部/面部的位置和估计姿势(偏转、倾斜和转动的度数)，并且确定面部标志(例如，鼻子、眼睛、嘴)的位置。在这三个维度上测量位置和估计姿势，以便获得用户在消费媒体内容看起来如何的准确肖像。这还用来丢弃用户没有主动地消费媒体内容的接收到的数据。例如，可以通过过滤掉其中位置和估计姿势指示用户没有在看向媒体内容的数据来得出定量参数，诸如如果确定偏转或倾斜经过某一度数阈值(例如，超过距基线的30度)，这将指示用户的头部相对于网络摄像头向上、向下、向左或向右转向某一距离，并且因此可能没有看向显示媒体内容的显示器。类似地，面部标志的位置可以给出用户没有在消费媒体内容的指示(例如，数据识别技术指示用户的眼睛在延长的时间段内闭上)。在下文给出的示例中，从原始面部图像数据输入中获得一组六个定量参数：三个头部姿势信号和三个情绪状态信号(微笑、厌恶、惊讶)。

然后处理对应于每个定量参数的时间序列信号以产生预测参数210，所述预测参数是呈现与期望的输出的相关的信号的性质(例如，媒体内容的表现数据)。本发明利用以下事实：定量参数是时间序列参数以产生预测参数，所述预测参数是与媒体内容交互的持续时间内的用户响应的相对变化的定量指示符。在下文给出的示例中，定量指示符表达媒体内容的最终部分的定量参数的值与媒体内容的剩余部分的值之间的差值。可以使用其他表达。

可以从给定用户的每个定量参数时间序列208中获得一个或多个预测参数210。每个预测参数210可以是代表参数(例如，描述符数据或情绪状态)的相关相对变化的单个值。

可以针对消费相同媒体内容(不论是否同时消费媒体内容)的多个其他用户获得对应的预测参数212。用户组的多个预测参数可以形成值的分布，从中可以获得用户组的单个预测参数214。在一个或多个实施方案中，组或“汇聚”预测参数214是单独预测参数的分布的预定统计性质。例如，它可以是分布的最大值或最小值，或者它可以是特定百分位数(例如，第75百分位数)或标准偏差。期望选择预定统计性质作为呈现与待预测的期望参数的最强相关(正或负)的组预测参数214。

对于任何给定的一条媒体内容，可以重复上述过程以产生多个组或“汇聚”预测参数216，每一者对应于给定的定量参数时间序列。这些预测参数形成预测模型218的输入信号，所述预测模型218的输出在这个示例中为该条媒体内容的预测的表现数据220。下文给出如何完成建模的示例。

图3是根据本发明的一个或多个实施方案的方法300的流程图。方法300可以由本文中描述的系统实施，例如，具有包括处理器和存储器的多个计算装置的系统100，其中处理器实施存储在存储器中的程序代码并且此类程序代码指示处理器执行方法的步骤。方法300以收集原始输入数据的步骤302开始，如本文中其他地方公开。方法300继续从原始输入数据中提取描述符数据点(即，描述符数据的时间序列)的步骤304。例如，可以从面部图像数据提取描述符数据点。方法300继续将提取的描述符数据点和/或原始数据输入用作合适的分类器的输入以获得一组情绪状态数据点(即，情绪状态数据的时间序列)的步骤306。分类器是被训练来将提取的描述符数据点或原始数据输入映射到一个或多个情绪状态(例如，微笑、惊讶、厌恶等)的机器学习工具。例如，来自分类器的输出可以是从其获得描述符数据点或原始数据输入的用户在呈现一系列情绪中的每一者的一组概率。

继续方法300，在步骤308中，使用时间序列数据(其可以是描述符数据和/或情绪状态数据和/或原始数据)来计算一个或多个预测参数，如本文中其他地方所述。可以针对从单个用户或从消费同一条媒体内容的多个用户收集的原始数据执行步骤302至308。在步骤308处获得的预测参数可以表示对应于从用户中的每一者获得的单独预测参数分布的一个或多个统计性质的组或“汇聚”参数。

方法300继续执行预测建模的步骤309，所述预测建模开始于将预测参数输入到预测模型中。在一个或多个实施方案中，步骤309包括用于处理预测建模的各种子步骤。在这个示例中，步骤309的预测模型在三个阶段中操作。在预测建模的第一步骤310中，向预测参数应用限定回归。在预测建模的第二步骤312中，将输出与阈值进行比较以便将其二值化。在预测建模的第三步骤314中，将二值化的输出输入到逻辑回归，所述逻辑回归的目标变量是预测的表现参数(在下文的示例中，所述预测的表现参数以简单的二元形式来表达)。方法300以来自预测建模步骤309的输出结束，所述输出可以是与给定的表现指示符相关联的概率。上述数据流程和方法的进一步细节将从以下详细示例中显而易见。

示例

下文描述的示例实现两个目标。第一个目标是针对可用销售额提升数据的一组给定的商业广告，经由网络摄像头以快速且经济的方式(在最大化计算机资源效率方面)收集大量的自发行为响应。第二个目标便是设计、实施并验证可以从可用的观察中准确地预测销售表现的简单且透明的模型。

然后将示例的结果与已知的常规静态分析技术进行比较，所述常规静态分析技术面临在不同产品类别上的消费者情绪状态的评估之间的较差准确性和一致性问题(D.J.McDuff，Crowdsourcing affective responses for predicting mediaeffectiveness，哲学博士论文，Massachusetts Institute of Technology Cambridge，MA，USA(2014年)；D.McDuff、R.E.Kaliouby、E.Kodra、L.Larguinet，Do emotions inadvertising drive sales？，Proceedings of ESOMAR Congress，2013年，下文称为“McDuff研究”)，以表明本发明的方法提供一种用于在市场调查目的的规模上分析行为响应的可靠且实际的工具。

数据收集

在这个示例中，在六个国家通过第三方现场机构招募付费参与者的基于人口普查的面板(平均面板大小是277名受试者)。出于市场调查目的而准许接近所有受试者并且提供人口统计数据，随后在需要特定面板(样本)时使用所述人口统计数据。在记录之前，准许每个受试者记录他们的面部并将所述记录用于进一步分析。遵守市场调查领域中的标准道德规范。经由参与者自己的家用计算机和网络摄像头来远程记录参与者的响应。以此方式要求人观看视频是用于诱发情绪响应的经充分验证的程序。自发行为的暗示证据在于，参与者经常忘记他们在被记录并离开房间或忙于不相关活动，比如说话、饮食等等。

除了人口统计约束外，还存在两个更多的选择标准。技术要求在于，每个参与者使她的家用计算机接入互联网并附接有网络摄像头。相关要求在于，商业广告应仅显示给对广告的产品类别感兴趣的参与者(“类别用户”)，因此使得广告相关。这与McDuff研究相反，其中只有76％的参与者是真正的类别用户。参与者的总数是18793，但出于下文描述的质量原因，分析中最终仅使用12262个会话。

商业广告表示四个产品类别：糖果、食品、宠物护理和口香糖。它们最初在六个不同的国家在2013年至2015年之间播放。商业广告以10秒与30秒之间的持续时间变化。

获得商业广告的销售额提升数据。从广告活动对“销售额提升”的实际贡献中得出目标得分。为了测量每个商业广告的销售额提升，识别暴露和控制(未暴露)比较组并且跟踪它们的实际购买。随后在暴露/比较组的集合上将暴露组与比较组的购买倾向的比率进行平均。在四点顺序规模上将销售额提升等级量化以训练分类器。

将回归任务简化层二元问题：将具有等级1和2的商业广告转换成“低”表现类别，而为具有等级3和4的广告指定“高”表现类别。然而，可以注意，以原始顺序规模编码的附加信息用于我们的预测模型的训练部分。

在这个示例中，分析因以下事实而复杂化：约三分之一的商业广告是彼此的变型。如果两个商业广告之间的差异是因为长度或内容的小编辑，则将它们视作彼此的变型。作为示例，一些商业广告具有相同的故事情节，但显示不同的品牌标签或者以不同的语言产生。在下文的结果章节中，针对所有商业广告和针对相关广告组合到单个标签的情况单独地进行报告。

此处示例的设计类似于与其相比较的McDuff研究，除了以下差异：(1)当前示例中包括两个额外的国家；(2)在McDuff研究中使用的商业广告是在2002年至2012年播放的；当前示例中使用的商业广告是最近播放的；(3)McDuff研究组含有163个独特的商业广告；当前示例含有可用的147个商业广告之中的116个独特的商业广告；以及(4)在3点顺序规模上量化McDuff研究中的销售额提升，而当前示例是在4点顺序规模上。

所有的商业广告都由参与者在他们自己的计算机上观看，同时他们的面部被网络摄像头记录并流到服务器，例如，使用类似于相对于图1描述的系统。图像分辨率是640×480。这种“野外”设置以图像质量和帧速率为代价确保比在实验室中可能实现的更生态有效的自发行为。平均帧速率为约13fps。如果面部被挡住或受试者忙于不相关活动，比如说话或饮食，则省略视频。

受试者观看以随机顺序呈现的高达四个商业广告。会话长度为约10分钟。相比之下，在McDuff研究中，受试者观察以随机序列呈现的10个商业广告并在它们之间完成自我报告式评级；会话长度平均为36分钟。当前示例选择更短的格式，因为其他研究已经发现会话长度与数据质量之间的负相关。另外，使用更大的样本(观看每个广告的平均277名受试者对100)来抵消视频质量的影响以及观察者响应的可观察性的较大变化。

甚至在应用下文论述的保守质量过滤之后，当前示例中的有效平均样本大小是164，这显著大于McDuff研究中包括的样本大小。

数据处理

在初始步骤中，以四种方式处理收集到的原始数据。第一，丢弃在持续时间上与广告不匹配的记录(将最大差值设定为1.5sec)。这些是网络摄像头可能记录了在广告完成之后发生的用户交互的记录。还丢掉后续帧中的任一者之间的延迟长于2sec的记录。这些是可能存在导致将广告延迟递送到参与者的网络连接问题的记录。第二，将彩色帧转换成灰度强度。第三，提取面部特征并输入到分类器以用于情绪检测。第四，使用提取的面部特征以及情绪算法的输出来形成用于预测建模的时间序列信号。

为了补偿噪声并且为了帮助对应于同一广告的时间序列的时间对准，可以在所有观察上应用零相位平滑和重采样，如本领域中已知。然而，在当前示例中不执行这些步骤，因为描述性统计中的一些(比如给定时间窗中的方差分布)可以对此类步骤相当敏感。

对于每个帧，确定头部/面部的位置和估计姿势(偏转、倾斜和转动的度数)，并且使用已知的技术来定位一组面部标志的精确位置(关键点对齐)。如果确定的位置和估计姿势或者面部标志指示受试者当前没有忙于消费媒体内容，那么系统可以从分析中过滤掉这些图像帧。例如，系统可以确定受试者的头部从网络摄像头转开或者其眼睛在延长的时段内闭上，并且降低那些图像帧的权重或完全丢弃那些图像帧。这个信息对应于上文提及的描述符数据。

将标志的局部几何形状以及它们周围的纹理块用作分类器的描述符，所述分类器经训练以将面部表情分类成离散的表情类别，诸如微笑、惊讶或厌恶。

最频繁的面部表情是微笑。微笑可以传达享受、良好的评价、期待以及接近的行动倾向。从自动化检测的角度来看，微笑通常涉及相对大的几何和纹理变形，这是有利的。

由于示例数据集中的大多数广告被设计成有趣或高兴的，因此预期从识别微笑中得出的信号携载关于所诱发的情绪状态的信息。另外，惊讶和厌恶相关信号对于销售预测任务而言特别具有信息性。

当前示例中的来自处理阶段的输出是估计的头部姿势的多维时间序列和三个面部表情分类器输出以及它们对应的概率输出(为给定的一组描述符选择类别标签的后验概率)。

在调查销售预测任务的最佳表示时，期望识别显示与响应诱发刺激(即，当前示例中的媒体内容或广告)的演变相关的临时变化的特征。当识别出这些特征时，可以将与此类特征相关的原始数据传送到分类模型以产生对媒体内容的用户体验的改进预测。另外，期望避免单独响应的逐点汇聚，并且提供所有信号的共用程序，由此避免对另外参数优化的需要。以此方式，最终模型将稳健且对训练数据集的特定性质不太敏感。

共用方法如下：

1.对于从头部姿势估计器和面部表情分类器获得的每个时间序列，计算给定记录中的后续帧(消除趋势)之间的时间差值：

其中x^j(t)是用户j的提取的描述符数据或分类的情绪状态数据的定量参数x的时间序列。因此项表示受试者(用户)j在时间i处的时间差值。

2.通过减去所述时间序列的平均差值将来自步骤1的时间差值归一化，即，

其中

并且T是时间序列的持续时间。

3.然后将时间序列分段成具有预定持续时间(例如，四秒)的多个时间元。因此，不管帧速率或整个记录的持续时间如何，时间元表示每个记录的时间段。

4.针对每个元，计算归一化差值的最大值：

其中符号i∈k意味着第i个值(帧)落在元k中。值的实际数量在不同元之间变化。

5.在这个示例中，然后将元值加权并合计起来以产生描述最后1个或2个段(元)与其余元之间的差值的一个数值(预测参数Dx^j)：

其中n是元的数量，因此变量没有更多的帧索引或段索引。

在这个示例中所应用的权重向量是简单的零求和步骤函数，即，∑_kw_k＝0。

6.为了使不同持续时间的广告的特征可比较，通过给定广告的长度将得到的和归一化。

7.从自多个用户获得的一组预测参数值中，计算特定描述性统计(例如，标准变化或第75百分位数)并且随后用作指示用户组上的预测参数的“汇聚”值。因此这些信号值描述对给定刺激的样本响应并且不依赖于时间或受试者索引。

8.为了减少因任意段边界而引起的混叠效应，将两个方向上将元移位高达0.25度，并且重复上述所有步骤。最终获得的样本信号便是这些计算的平均值。尽管没有必要，但这个步骤使方法更稳健。

这个程序的附加优化(比如改变时间元、各种形式的归一化、使用不同加权函数等等)将可能产生更好的表现，但此类微调可以引起关于方法的整体稳健性和可行性的担忧。元大小例如是基于平均帧速率和持续时间分布以及我们的专有训练数据集中的带标注事件的开始分散而限定的。如果选定参数的小扰动显示出相关的柔性降低，那么参数可以被视作稳健。尽管McDuff研究依赖于汇聚样本响应的简单汇总统计，诸如线性拟合的最大值或梯度，但当前示例的操作原则是，在汇聚之前的受试者水平处分析的所诱发的情绪响应的动态将更稳健且独特。另外，当前示例没有假设均匀视频帧速率，利用远程记录通常难以实现所述均匀视频帧速率。

在若干候选特征之中，选择从各种面部表情得出的三个信号和从头部姿势得出的三个其他信号，以用于在当前示例中使用。表1中示出信号来源、信号中使用的描述性统计以及它们与二元销售额提升得分的Pearson相关。

信号来源	描述性统计	相关
			微笑	第75百分位数	0.41
厌恶	第75百分位数	0.35
			惊讶	最大值	0.31
头部姿势(转动)	标准偏差	0.28
			头部姿势(转动)	最小值	-0.26
头部姿势(转动)	第75百分位数	0.32

表1：所述表显示出选定的信号(简单汇总统计)、对应的来源和与销售额提升得分的Pearson相关。

图4A至图4D示出了从单独受试者上的观察到样本分布(汇聚面板响应)和分配到对应广告的最终信号值的提出的信号生成过程的主要步骤。所示出的步骤涉及针对给定的广告将“惊讶”信号分类。

图4A是示出给定受试者的从惊讶分类器的输出计算的时间差值的曲线图。

图4B是示出两个线图的曲线图。第一线图402示出每个时间段的归一化时间差值的最大值第二线图404示出向每个元分配正权重或负权重的加权函数w_k。元值的加权和表征一个受试者的惊讶响应。

图4C示出了针对用户的样本在前一步骤中计算的单独惊讶响应的分布。图4B的特定示例由点406表示。对于给定广告的最终“惊讶”信号，我们在给定面板中选择受试者的最大值(见上表1)。对于其他信号，可以选择这个分布的不同性质作为最终输出。

图4D示出了最终输出的“惊讶”信号在广告上的分布。产生图4C所示的分布的广告的计算信号由点408表示。由于我们发现这个信号与销售额提升数据之间的正相关，因此这个特定广告最可能属于低表现类。

对于这个示例，得分与基于厌恶的信号之间存在正相关。另外，所有头部姿势相关信号指示在会话结束附近的更频繁或更大头部姿势变化(转动、倾斜和偏转的组合没有产生更高相关，因此仅使用基于转动的信号)。先前的工作已经发现，视线防线与头部姿势强烈相关，因此更大的头部姿势变化可以反映刺激内容的持续效果并且不对应于刺激的最后一段，因为具有极端头部姿势的受试者没有看向屏幕的方向。

还已发现，对于除了惊讶信号以外，只有最后一段被分配正权重(也就是说，所有信号都测量到记录的最后与其余部分之间的差异)。对于“惊讶”，已发现通过向覆盖8秒的最后两段分配正权重可以实现甚至更高的相关。这个偏差可以指示惊讶响应不那么同步(时间开始是分散的)并且持续时间也可以改变。

人们认为归因于较小的数据大小(待测试的商业广告的数量)，除了强调面部表情和头部姿势相关信号两者都携带关于销售表现的补充信息外，难以给出对调查结果的更透彻且合理的解释。

相比之下，从与特定离散表情强烈相关的面部动作单元激活(眉毛抬高通常与惊讶相关联)、离散表情(微笑)以及从所有离散面部表情的估计强度中得出的“效价”的混合中提取McDuff研究的信号。相反，当前示例使用两种信号类型的更简单混合，一种与离散情绪类别相关(微笑、厌恶和惊讶)，而另一种与没有面部动作单元难测量的头部姿势变化相关。因此，这种不要求确定全部面部动作单元的更简单混合需要实现更少的计算能力。

建模

如果所使用的方法的复杂性较高，那么受限制的样本大小和潜在的标签噪声使得难以或甚至不可能建模。当前示例使用简单的组合建模与平均，其中假设以下各项：(1)信号被处理为独立的并且不考虑它们之间的更高阶交互，这允许训练可以在组合模型中汇总其投票的简单(弱)专家；以及(2)寻找信号与目标得分之间的线性关系并且通过阈值化(单独专家的输出的二值化)来诱发非线性。这种阈值化支持信号去噪。图5中示出了当前示例中使用的模型的工作流程。

在图5中，模型存在五个输入：三个头部姿势信号(x_p1；x_p2和x_p3)和三个面部表情相关信号(x_s；x_d和x_h，分别涉及惊讶、厌恶和快乐)，如上所述。在一个或多个实施方案中，三个头部姿势信号分别涉及用户的头部的偏转、转动和倾斜。在将原始输入数据传送到模型之前，可以过滤掉指示用户当前没有在消费媒体内容的三个头部姿势信号和三个面部表情相关信号中的一些。例如，如果原始输入数据指示用户的头部没有指向输入装置或媒体内容显示器，如果测量到的时间指示媒体内容呈现已经结束，或者如果存在原始数据的其他不合期望的方面，那么这些可以避免传送到模型并且因此提高关于用户消费媒体内容的体验的所生成的预测的准确性。在每个一维信号是使用原始四点评级来训练独立的线性回归器。回归器输出经由针对其从数据学习最佳阈值的阈值化而进行二值化。这个二值化步骤充当强非线性去噪。在下一阶段之后，对阈值简单地求和并再次二值化。为了保持建模简单，向每个输入分配相同的权重，但进一步优化将产生信号特性权重。在训练集上学习所有的模型参数。逻辑回归输入是组合的输出并且其目标变量是二值化等级。这个最终步骤确保由p表示的经校准概率输出。

因此组合模型由标准线性回归器、非线性项(二值化)、求和和最终阈值化组成。对于接受者工作特征曲线(ROC AUC)计算，反而使用求和的输出。处理对于所有信号都相同并且包括以下步骤。在第一阶段处对线性回归器的输入x是上述选定特征中的一者。目标变量是如上所述的原始四点评级。在训练集上以逐阶段方式(而不是同时在两个阶段中对所有参数应用联合优化)训练加权和偏置参数(w，β)。作为下一步骤，将递归器的输出y二值化。这个步骤通过学习阈值α来实现噪声抑制。在这个阶段之后，通过简单的求和和阈值化来组合单独信号建模路径的输出

在McDuff研究中，选择的分类器是具有径向基函数核的支持向量机(RBF-SVM)。在训练之后，决策边界由“支持向量”表示，所述支持向量是待区分的两个类别中的最困难情况。这种方法的优点在于，所需的样本大小取决于表示。支持向量与样本大小的较高比率指示不满足要求，并且得到的模型在不可见数据上将具有大泛化误差。在McDuff研究的前导中，将时间序列分段成10个部分并且针对每个段计算汇总统计(最大值、平均值、最小值)。然后将得到的高维表示输入到SVM分类器。在McDuff研究本身中，丢掉分段并且在面部表情估计的整个时间序列上计算相同的汇总统计(AU的存在、给定的离散表情的强度等)。得到的表示仍具有16个维度。

结果

首先在所有商业广告、国家和产品类别上报告测试结果。随后报告用于更细粒度的比较的结果。这些结果是以下模型：(1)仅包括相关商业广告的一个变体，这消除了因样本商业广告之间的相关而引起的任何偏置，但可能会受减少数量的商业广告影响；以及(2)区分产品类别和国家。

然后将当前调查结果与McDuff研究的结果进行比较。这个比较表明根据本文中公开的系统和方法的动态特征在产品类别上实现增加的准确性和更大的一致性。对于所有的比较，报告了接受者工作特征曲线(ROC AUC)下的准确性和区域。准确性是真正值和真负值除以所有情况的总和。这在直观上具有吸引力但当分布不平衡时难以解读。在此类情况下，准确性变成分类器与地面真值之间的一致的有偏估计量。ROC AUC将真正值与假正值之间的连续关系量化。

如果向“正值类别”(即，得分更高的商业广告)分配更高排名，那么曲线下方的区域给出随机选择的正值实例将比随机选择的负值实例排名更高的概率。按照定义，ROC AUC对于随机分类器是0.5。ROC AUC不受正值情况与负值情况之间的不平衡影响，但它可以掩饰分类器之间在精度和召回方面的差异。在我们的数据中，类不平衡在跨产品类别和国家比较时是轻微的(56％)，但在类别或国家之间比较时通常更大。因此，应当谨慎地解读准确性。

为了确保训练过的模型不过度拟合，在过度拟合的情况下模型学习表示训练数据中的噪声分量并且在新数据中变得不可预测，应用不同的验证方案来评估训练过的模型的泛化能力。在对样本大小而言适当的情况下，使用K倍交叉验证(Kx-CV)，其中样本迭代地分成K个互斥的训练和测试集，并且在测试集上对最终表现度量进行平均。在测试中，使用K＝10倍并且重复n＝10次所述程序。从重复的测量中，使用t统计法以95％的置信度计算置信间隔，这更适合于小样本大小。为了帮助解读结果，报告基线，所述基线是具有训练数据的先前类别概率的随机模型。

由于广告可以沿着比如区域和产品类别的模型独立因素进行分组，因此可以运行特定交叉验证，其中由这些因素限定分裂。我们将这些验证方案称为留一标签(LOLO)方案。这些实验测试那些因素中的模型表现对变化的稳健性。

为了实现与McDuff研究比较，执行留下一个(LOO)，其中各测试仅含有一个样本。然而，对于一些度量(特别是ROC AUC)，LOO在样本大小变小时显示出奇怪的行为。

还针对仅选择一个广告变型时的情况报告结构。尽管这种数据过滤可以降低类别归属的潜在模糊性，但它减小了样本大小，从而使得更难以训练。为了避免由任意选择引起的任何偏置，针对广告变型的每一组中的广告选择运行嵌套交叉验证。随后在随机广告选择上对报告的度量进行平均。

所有样本的测试结果

不论产品类别或国家如何，在所有商业广告上训练并交叉验证所提出的模型(N＝147)。ROC AUC是0.747，其中仅具有±0.025的窄置信间隔，这指示高可靠性。见表2。

重复的10倍CV	准确性	ROC AUC
			我们的模型	71.4±2.2％	0.747±0.025
随机基线	52.3±2.7％	0.50

表2：使用所有样本点的交叉验证测试(情绪和头部姿势信号+组合模型)。以准确性和ROC AUC来表达表现。在适当的情况下，我们也以95％的置信度报告置信间隔。

对广告变体的稳健性

当在不包括变体的情况下训练并交叉验证动态模型时(N＝116)，ROC AUC保持大约相同并且置信间隔从±0.025降至±0.01。在这个设置中，仅保持一个变型离开每个广告组中的若干选型。为了抵消因随机选择引起的偏置，将随机广告选择重复10次并且针对每个随机选择运行10倍CV。见表3。

10倍CV	准确性	ROC AUC
			我们的模型	72.8±0.8％	0.745±0.01
随机基线	53.8±1.0％	0.50

表3：使用广告的独特变型的随机选择对所提议的方法的交叉验证测试(情绪和动态头部姿势信号的混合+组合模型)。(样本大小N＝116)。以准确性和ROC AUC来表达表现。在适当的情况下，也以95％的置信度报告置信间隔。

所获得的结果与在所有数据点上获得的那些结果相当类似。这指示与关于标签的模糊性的原始假设相比，广告变型实际上诱发不同的行为响应。进而，变型可以被视作独立样本。

对类别和国家差异的稳健性

为了测试模型泛化的程度如何，将训练测试过程更改如下。在除了一个以外的产品类别上完成测试，在一个类别上省略测试，并且然后针对每个类别迭代地重复训练和测试。这被称为留一标签交叉验证(LOLO验证)。类似地，可以针对国家执行相同的迭代LOLO。

ROC AUC在除了一个以外的类别上相当一致(唯一的例外是具有极高ROC AUC值的极小食品类别)。不同产品类别之中的调查结果的一致性相当明显。

ROC AUC在除了一个以外的国家中也非常类似(具有低ROC AUC值的唯一例外是不具有等级4的单个顶端执行广告的Russia)。

表4：所提议的销售额预测模型在不同产品类别上的泛化表现。验证方案是LOLO，因此训练食品不含有来自测试广告所属的类别的样本。#低和#高分别表示低和高表现类中的样本数量。

地区	准确性	ROC AUC	#低	#高
					Australia	74.1％	0.833	18	9
France	73.3％	0.786	8	7
					Germany	76.2％	0.824	9	12
Russia	59.1％	0.386	15	7
					UK	78.8％	0.806	19	14
USA	69.0％	0.733	13	16
					平均值	71.7％	0.728

表5：所提议的销售额预测模型在不同区域的广告上的泛化表现。验证方案是LOLO，因此训练食品不含有来自测试广告所属的地区的样本。#低和#高分别表示低和高表现类中的样本数量。

本文中分开的方法与惯例的比较

McDuff研究中提议的方法和本文中呈现的模型两者涉及在四个相同的国家中对相同产品类别的受试者响应进行网络摄像头评估。在这两种情况下，从相同来源获得销售额提升数据。在这两种情况下，在ROC AUC处将结果量化，但在McDuff研究中，仅报告LOO验证，但当前示例报告重复的10倍交叉验证。方法之间的两个主要差异是表示数据的特征和应用的分类模型。这两种方法也在与特征的类型、产品或国家不相关的其他方面不同。诸如商业广告的数量(对于示例模型而言更少)和观看时段(对于示例模型，更近且在更少的年数内)的这些差异以及其他程序方面与特征的类型不相关。

统计分析

记住以上条件，报告特征对分类性能的影响。为了有助于与关于静态方法的过去报告进行比较，在整个研究中提议的特征集上训练相同的RBF-SVM。表6报告McDuff信号的结果以及示例信号结果，如上所述。特征并不是McDuff研究中所使用的特征的确切复制，而是类似(例如，实际上从比如微笑的其他分类器的激活中得出的“效价”度量被示例性厌恶分类器输出替换，眉毛抬高被我们自己的惊讶分类器替换)。

还包括仅使用头部姿势信息的表示和仅使用面部表情信息的表示(基于微笑、惊讶和厌恶动态)的单独结果。对于所提议的示例模型，表现在头部和面部动态组合时比排外地使用更好。这表明非口头行为、头部姿势和运动的包装独立地有助于预测销售额提升。对于LOO和10倍交叉验证两者，示例模型的组合表示产生更高的表现，而使用McDuff的常规表示产生约随机机会的表现。这个发现强调头部姿势信息和会话水平分析的重要性。表示之间的幅度的差异表明程序差异(诸如所观看的商业广告的数量)至多起到次要作用。还报告在训练之后保持作为泛化问题的指示符的支持向量的数量(#SV)。对于10倍交叉验证方案中的147个样本，一倍训练的大小是约132。如果#SV与整个训练倍一样大，那么SVM模型无法很好地泛化。结果确认以下假设：McDuff研究中报告的低表现是因为通过非线性SVM对高维表示进行分类需要更多数据的事实。这个额外数据要求对执行本文中公开的方法来说是不必要的。

组合模型不仅在组合信号上比McDuff的SVM模型执行得更好(0.747±0.025对0.701±0.021)，而且明显更简单(如由两个训练过的模型中的参数数量指示)。进而，预期在不可见数据上导致更小的泛化误差。另一优点在于，通过添加其他行为信号的改进以良好受控的方式增加模型复杂性，因此保留改进的模型的泛化。

表6：不同的表示对分类性能的影响。分类器是具有非线性径向基函数核的相同SVM。这个比较也显示出头部姿势和面部表情信息的补充性质。

今天的市场调查的一个最大挑战是要分析媒体内容的数量额指数增长，因为基于传统调查的方法没有很好地扩展。另外，这些方法未能捕获内容与消费者之间的交互的重要情绪方面。

本文中公开的本系统和方法创建一种允许针对实际市场调查进行大规模行为数据收集和分析的可行数据采集系统。此类系统和方法还训练分类模型，所述分类模型学习用高和低销售表现来区分广告。尽管训练数据的大小和结构受限制，但它表明学习后的模型在建模中没有使用的一些因素上泛化良好。这些有希望的结果可以为新一代的自动化、成本有效、行为线索驱动的市场调查工具进行分析铺平道路。

为了进一步改进方法，需要解决若干限制。行为分析是基于假设单独差异只是随机扰动的平均响应。然而，这些单独差异更可能携带关于广告之间的差异的相关信息。另一限制在于，我们的模型不允许观察之间的更复杂交互。一旦更多的样本可用，我们的方法就可以扩展到包括更多特征，并且它还可以捕获特征之间的限定或非线性交互(泛化的逐步限定回归模型可以系统地检查特征之间的成对或更高阶交互)。最后，必须开发测试意识回忆和立即行为-情绪响应的混合模型以充分理解广告对消费者行为的影响。

图1至图5是允许说明本发明的概念图。本领域的技术人员应理解，本发明的实施方案的各种方面可以在硬件、固件、软件或其组合中实施。在此类实施方案中，各种部件和/或步骤将在硬件、固件和/或软件中实施以执行本发明的功能。也就是说，同一件硬件、固件或软件模块可以执行所示框中的一者或多者(例如，部件或步骤)。

在软件实现方式中，计算机软件(例如，程序或其他指令)和/或数据存储在机器可读介质上作为计算机程序产品的一部分，并且经由可移动存储驱动器、硬盘驱动器或通信接口加载到计算机系统或其他装置或机器中。计算机程序(也被陈伟计算机控制逻辑或计算机可读程序代码)存储在主和/或辅助存储器中，并且由一个或多个处理器(控制器等)实施以使一个或多个处理器执行如本文所述的本发明的功能。在本文件中，术语“机器可读介质”、“计算机程序介质”和“计算机可用介质”用来一般指代诸如随机存取存储器(RAM)；只读存储器(ROM)；可移动存储单元(例如，磁盘或光盘、闪存存储器装置等)；硬盘；等等介质。

应注意，以上附图和示例并不意图将本发明的范围限于单个实施方案，因为通过互换所描述或所示出的元件中的一些或全部，其他实施方案是可能的。此外，当可以使用已知的部件部分地或完全地实施本发明的某些元件时，仅描述对于理解本发明来说必要的此类已知部件的那些部分，并且省略对此类已知部件的其他部分的详细描述以免模糊本发明。在本说明书中，除非本文中另有明确陈述，否则显示单个部件的实施方案不应必要地限于包括多个相同部件的其他实施方案，反之亦然。此外，申请人并不意图向本说明书或权利要求中的任何术语赋予罕见或特别含义，除非明确地如此陈述。此外，本发明涵盖本文中通过说明方式提及的已知部件的当前和未来已知等效物。

具体实施方案的前述描述将充分地揭露本发明的总体性质，使得在不脱离本发明的总体概念的情况下，其他人无需过度实验就可以通过应用相关领域的技术人员的知识(包括以引用方式引用和并入本文中的文件的内容)来容易更改此类具体实施方案和/或使其适合于各种应用。因此，基于本文中呈现的教导和指导，此类适应和更改意图在所公开的实施方案的等效物的含义和范围内。应理解，本文中的措辞或术语是出于描述的目的而不是限制，使得本说明书的术语或措辞应由技术人员鉴于本文中呈现的教导和指导结合相关领域的技术人员的知识进行解读。

尽管上文已经描述了本发明的各种实施方案，但应理解，它们是以示例方式呈现，而不是限制。相关领域的技术人员将明白，在不脱离本发明的精神和范围的情况下，可以在其中进行形式和细节上的各种变化。因此，本发明不应受上述示例性实施方案中的任一者限制，而是应仅根据所附权利要求及其等效物来限定。

Claims

1.一种预测用户可在客户端装置处消费的一条媒体内容的表现数据的计算机实施的方法，所述方法包括：

在所述一条媒体内容的消费期间，在所述客户端装置处收集指示所述用户对所述一条媒体内容的响应的原始输入数据；

处理所述收集的原始输入数据，以便：

提取描述符数据点的时间序列，以及

获得情绪状态数据点的时间序列；以及

基于在表现数据与所述描述符数据点的时间序列或所述情绪状态数据点的时间序列的预测参数之间映射的分类模型而输出所述一条媒体内容的预测的表现数据，

其中所述预测参数是所述用户对所述一条媒体内容的所述响应的相对变化的定量指示符。

2.根据权利要求1所述的计算机实施的方法，其中所述一条媒体内容可由多个用户消费，所述多个用户中的每一者处于相应客户端装置处，并且其中所述方法还包括在多个所述相应客户端装置中的每一者处收集指示对所述一条媒体内容的多个用户响应的原始输入数据。

3.根据权利要求1所述的计算机实施的方法，其中处理所述收集的原始输入数据的步骤还包括：

确定所述预测参数；

对所述预测参数应用线性回归以输出线性回归输出；

将所述线性回归输出二值化以产生二值化的输出；以及

对所述二值化的输出应用逻辑回归以输出所述预测的表现数据。

4.根据权利要求2所述的计算机实施的方法，所述计算机实施的方法还包括：

计算所述描述符数据点的所述提取的时间序列或所述情绪状态数据点的时间序列之间的时间差值其中并且其中x^j(t)是用户j的所述提取的描述符数据点或所述提取的情绪状态数据的定量参数x的时间序列；

通过从所述时间差值中减去平均差值<dx^j>来将所述时间差值归一化以产生归一化时间差值其中并且T是所述时间序列的持续时间；

将所述时间序列分段成具有预定持续时间的多个时间元；

根据来计算所述归一化差值的最大值，其中符号i∈k意味着第i个值落在元k中；

根据对所述多个时间元中的每一者的值进行加权和求和，其中n是元的数量，因此变量没有更多的帧索引或段索引；

通过所述一条媒体内容的长度将Dx^j归一化；

生成所述多个用户之中的指示所述预测参数的描述性统计。

5.根据权利要求1所述的计算机实施的方法，其中所述客户端装置可通过网络与服务器装置通信，并且其中在所述服务器装置处发生对所述收集的原始输入数据的处理。

6.根据权利要求1所述的计算机实施的方法，其中所述原始输入数据包括与所述一条媒体内容相关的用户行为数据、用户生理数据或元数据中的任一者。

7.根据权利要求1所述的计算机实施的方法，其中基于一个或多个描述符数据点而确定每个情绪状态数据点。

8.根据权利要求7所述的计算机实施的方法，其中每个描述符数据点包括指示从所述原始输入数据提取的特征的定量参数。

9.根据权利要求8所述的计算机实施的方法，其中所述预测参数是所述情绪状态数据点的时间序列中的相邻情绪状态数据点之间的所述定量参数的相对变化的函数。

10.根据权利要求1所述的计算机实施的方法，其中每个情绪状态数据点包括指示用户情绪状态的定量参数。

11.根据权利要求10所述的计算机实施的方法，其中所述预测参数是所述情绪状态数据点的时间序列中的相邻情绪状态数据点之间的所述定量参数的相对变化的函数。

12.根据权利要求2所述的计算机实施的方法，所述计算机实施的方法还包括：

针对所述多个用户中的每一者，从所述描述符数据点的时间序列或所述情绪状态数据点的时间序列确定单独预测参数；以及

从所述多个用户的所述单独预测参数确定组预测参数，

其中使用所述组预测参数来获得所述预测的表现数据。

13.根据权利要求12所述的计算机实施的方法，其中处理所述收集的数据包括将所述组预测参数输入到在所述组预测参数与所述表现数据之间映射的分类模型中。

14.根据权利要求13所述的计算机实施的方法，所述计算机实施的方法还包括获得多个组预测参数，其中所述分类模型在所述多个组预测参数与所述表现参数之间映射。

15.根据权利要求13所述的计算机实施的方法，其中使用从所述分类模型输出的结果来生成预测的表现数据输出。

16.根据权利要求1所述的计算机实施的方法，其中所述原始输入数据包括在所述客户端装置处捕获的图像数据。

17.根据权利要求16所述的计算机实施的方法，其中所述图像数据包括显示用户的面部图像的多个图像帧。

18.根据权利要求7所述的计算机实施的方法，其中每个描述符数据点是作为多维数据点的面部特征描述符数据点，所述多维数据点的每个分量指示相应的面部标志。

19.根据权利要求18所述的计算机实施的方法，其中每个面部特征描述符数据点与相应帧相关联。

20.根据权利要求1所述的计算机实施的方法，其中所述一条媒体内容是直播视频流、视频商业广告、音频商业广告、电影预告片、电影、网络广告、动画游戏或图像中的任一者。

21.根据权利要求1所述的计算机实施的方法，其中所述表现数据是销售额提升数据。