CN113837457A

CN113837457A - 用于预测帖子互动行为状态的方法、计算设备和存储介质

Info

Publication number: CN113837457A
Application number: CN202111072826.5A
Authority: CN
Inventors: 尹顺顺; 李孟霖; 鲁南南
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-24

Abstract

本公开的实施例涉及于预测帖子互动行为状态的方法、电子设备和计算机存储介质。该方法包括：针对与用户相关联的帖子进行预处理，以便分别生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据；经由第一神经网络模型生成文本表征数据；经由第二神经网络模型生成图像表征数据；经由第三神经网络模型生成视频帧表征数据；经由第四神经网络模型生成声谱表征数据；以及融合用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据，以便经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率。由此，本公开能够在帖子内容刚发出来时便可以准确预估帖子的互动行为状态。

Description

用于预测帖子互动行为状态的方法、计算设备和存储介质

技术领域

本公开的实施例总体涉及信息处理领域，具体涉及用于预测帖子互动行为状态的方法、电子设备和计算机存储介质。

背景技术

随着信息技术的发展，越来越多的用户通过网络发帖方式进行沟通交流。一般而言，在论坛、社区、或者平台发布的帖子如果获得较高的点赞、关注、分享，收藏等互动操作，将给论坛、社区、平台带来更多的流量和热度。因此，存在准确评估帖子的互动行为状态(例如，是否具有高的互动潜质)的需求。

传统的确定帖子互动行为状态的方案，例如是在给予帖子一定曝光之后，才能根据帖子的实际互动操作数据来评估帖子的互动行为状态。然而，传统的确定帖子互动行为状态的方案无法提前预估帖子的互动行为状态潜质，这使得一些低互动潜质的帖子占用过多的曝光资源，进而导致曝光资源的浪费。

综上，传统的确定帖子互动行为状态的方案具有无法提前准确预估帖子的互动行为状态的不足之处。

发明内容

提供了一种用于预测帖子互动行为状态的方法、计算设备以及计算机存储介质，能够在帖子内容刚发出来时便可以准确预估帖子的互动行为状态。

根据本公开的第一方面，提供了一种用于预测帖子互动行为状态的方法。该方法包括：针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理，以便分别生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据；经由第一神经网络模型，提取文本输入数据的特征，以便生成文本表征数据；经由第二神经网络模型，提取图像输入数据的特征，以便生成图像表征数据；经由第三神经网络模型，提取视频帧输入数据的特征，以便生成视频帧表征数据；经由第四神经网络模型，提取频谱图输入数据的特征，以便生成声谱表征数据；以及融合用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据，以便经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率。

根据本公开的第二方面，提供了一种计算设备。该计算设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据第一方面的方法。

在本公开的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在一些实施例中，融合用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据包括：将用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据投影至同一特征空间；针对被投影至同一特征空间的数据进行拼接、向量外积或者向量平均，以便生成融合后表征数据；以及将融合后表征数据连接至输出网络层，以便经由输出网络层生成关于帖子的互动行为状态的预测概率。

在一些实施例中，经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率包括：将用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据投影至同一特征空间；针对被投影至同一特征空间的数据进行拼接、向量外积或者向量平均，以便生成融合后数据；以及将融合后数据，经由全连接层和回归模型，生成关于帖子的互动行为状态的预测概率，回归模型由Softmax模型所构建。

在一些实施例中，针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理包括：针对帖子的文本数据进行分词；将分词后的文本数据映射为文本标识序列，以便生成用于输入第一神经网络的文本输入数据，第一神经网络是基于转换器的双向编码表征模型而构建的；确定帖子的图像数据是否为灰度图像数据；响应于确定图像数据为灰度图像数据，将图像数据转换为RGB图像数据；以及裁剪RGB图像数据的中心区域，以便生成用于输入第二神经网络的图像输入数据，图像输入数据为三维图像数组。

在一些实施例中，针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理还包括：基于预定间隔，提取帖子的视频数据的视频帧数据；响应于确定视频帧数据为灰度视频帧数据，将视频帧数据转换为RGB视频帧数据；裁剪RGB视频帧数据的中心区域，以便生成用于输入第三神经网络的视频帧输入数据。

在一些实施例中，针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理还包括：裁剪帖子的音频数据，以便针对经裁剪的音频数据进行通道合并；针对合并后的音频数据进行采样，以便生成音频采样数据；经由短时傅里叶变换，将音频采样数据转换为频谱图；以及将频谱图转换为梅尔声谱特征，以生成用于输入第四神经网络的频谱图输入数据。

在一些实施例中，关于帖子的互动行为包括关于帖子的点击，点赞，私聊，关注，评论，分享，收藏中的至少一种互动行为。

在一些实施例中，用于预测帖子互动行为状态的方法还包括：基于帖子的历史曝光数据、历史点赞数、所有帖子的历史曝光平均数据和历史平均点赞数，计算关于帖子的点赞状态的第一学习目标；计算关于帖子的点击、私聊、关注、评论、分享和收藏中至少一种互动行为状态的第二学习目标；以及基于所计算的第一学习目标和第二学习目标，训练第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型和回归模型。

在一些实施例中，第二神经网络模型是基于深度残差网络模型而构建的，第三神经网络模型是基于深度残差网络和长短期记忆模型而构建的，第四神经网络模型是基于VGGish模型而构建的。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了根据本公开的实施例的用于预测帖子的互动行为状态的方法的系统的示意图。

图2示出了根据本公开的实施例的用于预测帖子的互动行为状态的方法的流程图。

图3示出了根据本公开的实施例的神经网络的示意图。

图4示出了根据本公开的实施例的第二神经网络模型的示意图。

图5示出了根据本公开的实施例的第三神经网络模型的示意图。

图6示出了根据本公开的实施例的第四神经网络模型的示意图。

图7示出了根据本公开的实施例的用于生成关于帖子的互动行为状态的预测概率的方法的流程图。

图8示出了根据本公开的实施例的用于训练神经网络模型的方法的流程图。

图9示意性示出了适于用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所描述，传统的确定帖子互动行为状态的方案，例如是在给予帖子一定曝光之后，才能根据帖子的互动操作数据来评估帖子的互动行为状态。因而，传统的确定帖子互动行为状态的方案无法提前预估帖子的互动行为状态，这使得一些低互动潜质的帖子占用过多的曝光资源，进而导致曝光资源的浪费。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于预测帖子互动行为状态的方案。在该方案中，通过针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据分别进行预处理以便分别不同模态的输入数据，然后经由经训练的第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型分别生成文本表征数据、图像表征数据、视频表征数据和声谱表征数据，以及融合上述表征数据和用户信息并经由经训练的回归模型生成关于帖子的互动行为状态的预测概率，本公开可以在帖子内容刚发出来时便可以结合用户信息和帖子内容来预估帖子的互动行为状态。另外，本公开可以基于多模态的帖子内容理解和用户信息的融合进行预测，使得预估精度显著提升。因而，本公开能够在帖子内容刚发出来时便可以准确预估帖子的互动行为状态。

在下文中，将结合附图更详细地描述本方案的具体示例。

图1示出了根据本公开的实施例的用于预测帖子的互动行为状态的方法的系统100的示意图。如图1所示，系统100例如包括计算设备110、终端设备120、网络130。计算设备110可以通过网络130以有线或者无线的方式与终端设备120进行数据交互。

计算设备110例如可以用于基于所获取的帖子的文本数据、图像数据、视频数据和音频数据生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据，以及经由第一神经网络模型、第二神经网络模型、第三神经网络模型、和第四神经网络模型分别生成文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据。计算设备110还可以将用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据融合，以及基于融合后表征特征经由回归模型生成关于帖子的互动行为状态的预测概率。在一些实施例中，计算设备110可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110包括预处理单元112、文本表征数据生成单元114、图像表征数据生成单元116、视频帧表征数据生成单元118、声谱表征数据生成单元120、互动行为状态预测单元122。预处理单元112、文本表征数据生成单元114、图像表征数据生成单元116、视频帧表征数据生成单元118、声谱表征数据生成单元120、互动行为状态预测单元122可以配置在一个或者多个计算设备110上。

关于预处理单元112，其用于针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理，以便分别生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据。

关于文本表征数据生成单元114，其用于经由第一神经网络模型，提取文本输入数据的特征，以便生成文本表征数据。

关于图像表征数据生成单元116，其用于经由第二神经网络模型，提取图像输入数据的特征，以便生成图像表征数据。

关于视频帧表征数据生成单元118，其用于经由第三神经网络模型，提取视频帧输入数据的特征，以便生成视频帧表征数据。

关于声谱表征数据生成单元120，其用于经由第四神经网络模型，提取频谱图输入数据的特征，以便生成声谱表征数据。

关于互动行为状态预测单元122，其用于融合用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据，以便经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率。

以下将结合图2至图6描述根据本公开的实施例的用于预测帖子的互动行为状态的方法。图2示出了根据本公开的实施例的用于预测帖子的互动行为状态的方法200的流程图。图3示出了根据本公开的实施例的神经网络300的示意图。应当理解，方法200例如可以在图9所描述的电子设备900处执行。也可以在图1所描述的计算设备110处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在步骤202处，计算设备110针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理，以便分别生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据。

关于生成文本输入数据的方法包括多种，在一些实施例中，该方法包括：针对帖子的文本数据进行分词；将分词后的文本数据映射为文本标识序列，以便生成用于输入第一神经网络的文本输入数据，第一神经网络是基于转换器的双向编码表征(BERT)模型而构建的。在一些实施例中，首先针对帖子的文本数据进行繁简体转换、特殊词处理和/或站内预定标签格式过滤；然后在针对经过滤的文本数据进行分词，然后利用BERT模型的专门的标记器(tokenizer)生成文本标识序列，以便用于将所生成的文本标识序列输入至预训练语言模型(简称为BERT模型)。每个文本标识序列由若干个离散编码向量组成。文本输入数据可以是单句或者句对所对应的文本标识序列。文本标识序列包括标记编码、位置编码、和句子位置编码和注意力掩码。标记编码用于指示文本标识序列中每个标记转换的编码向量，位置编码指示每个标记的位置，句子位置编码指示每个标记属于哪个句子(例如“0”指示当前标记属于第一个句子，“1”指示当前标识属于第二个句子)。注意力掩码指示当前标记是否是填充的(例如，“1”指示当前标记是非填充的，“0”指示当前标记是填充的)。

关于生成图像输入数据的方法例如包括：确定帖子的图像数据是否为灰度图像数据；响应于确定图像数据为灰度图像数据，将图像数据转换为RGB图像数据；以及裁剪RGB图像数据的中心区域，以便生成用于输入第二神经网络的图像输入数据，图像输入数据为三维图像数组。

关于生成视频帧输入数据的方法例如包括：基于预定间隔，提取帖子的视频数据的视频帧数据；响应于确定视频帧数据为灰度视频帧数据，将视频帧数据转换为RGB视频帧数据；裁剪RGB视频帧数据的中心区域，以便生成用于输入第三神经网络的视频帧输入数据。

关于生成声谱输入数据的方法例如包括：裁剪帖子的音频数据，以便针对经裁剪的音频数据进行通道合并；针对合并后的音频数据进行采样，以便生成音频采样数据；经由短时傅里叶变换，将音频采样数据转换为频谱图；以及将频谱图转换为梅尔声谱特征，以生成用于输入第四神经网络的频谱图输入数据。例如，将帖子中的音频重采样为16kHz单声道音频，再进行声道合并；然后使用第一预定时间值的Hann时窗以第二时间预定值的帧移对音频进行短时傅里叶变换得到频谱图；通过将所得到频谱图映射到64阶mel滤波器组中用于生成梅尔声谱特征以作为声谱输入数据。

在步骤204处，计算设备110经由第一神经网络模型，提取文本输入数据的特征，以便生成文本表征数据。

关于第一神经网络模型312，如图3所示，其例如是基于预训练语言模型(简称为BERT模型)作为网络主体架构而构建的。第一神经网络模型312包括嵌入(Embedding)层、编码器和池化层。本公开通过采用BERT模型构建第一神经网络模型，可以结合输入文字的位置信息对文本数据进行编码，籍此可以很好的对帖子的文字信息进行理解。

关于第一神经网络模型312所包括的嵌入层，其用于将文本输入数据310(例如文本输入标识序列)转换成连续的嵌入向量。关于第一神经网络模型312所包括的编码器，其用于提取嵌入层的输出的特征，以便生成嵌入层的输出的非线性表示。编码器是由多个结构相同但参数不同的隐藏层串连而构成的。每个隐藏层例如包括线性变换、激活函数、多头自注意力和跳跃连接(skip connection)。关于第一神经网络模型312所包括的池化层，其用于取出[CLS]标识的表示，以便生成整体序列表示向量，以及返回每个标识的表示向量和整体的序列表示，分别用于针对每个标记的预测任务和整体序列表示向量。

关于生成文本表征数据的方法，其例如包括：基于BERT模型的注意力分数作为权重，计算基于注意力分数的加权和，以便生成文本表征数据(例如文本表征特征向量)。例如，如图3所示，BERT模型的输出序列表示向量经由第一编码层314和第一全连接层316，以BERT模型的注意力分数作为权重，计算BERT模型的输出序列表示向量的注意力分数的加权和，以便生成文本表征特征向量。

在步骤206处，计算设备110经由第二神经网络模型，提取图像输入数据的特征，以便生成图像表征数据。

关于第二神经网络322，其例如是基于深度残差网络模型(例如是ResNet-101模型)作为网络主体架构而构建的。第二神经网络模型322的输出数据例如经由图3所示的第二编码层324和第二全连接层326最终生成图像表征数据。通过采用ResNet-101模型构建第二神经网络进而生成图像表征数据，本公开可以充分地提取帖子中图片的信息。

以下结合图4说明基于ResNet-101模型作为网络主体架构而构建的第二神经网络模型的结构示意图。图4示出了根据本公开的实施例的第二神经网络模型400的示意图。如图4所示，单张图片输入数据410(例如为三维图像数组)输入第二神经网络模型，经由第二神经网络模型提取特征，输出数据例如为2048维图标编码表示414。第二神经网络模型400例如包括4个阶段(stage)残差单元和平均池化层416。第一阶段包括3个残差单元、第二阶段包括4个残差单元、第三阶段包括23个残差单元、第四阶段包括4个残差单元。每个残差单元(例如标记412所示)包括3个卷积层，依次为CONV 1*1、CONV3*3和CONV1*1。

在一些实施例中，每个帖子中可能包括多个图片，对应每个图片的图像输入数据经由第二神经网络模型输出的图像编码表示后，将其输入sigmoid函数层以便生成关于当前图像输入数据的信息权重，然后计算信息权重和图像编码表示的加权和，以生成用于表征整个帖子的图片特征向量的图像表征数据。

在步骤208处，计算设备110经由第三神经网络模型，提取视频帧输入数据的特征，以便生成视频帧表征数据。

关于第三神经网络332，以下结合图5加以说明。图5示出了根据本公开的实施例的第三神经网络模型500的示意图。如图5所示，第三神经网络500例如是基于深度残差网络模型(例如是ResNet-101模型)和长短期记忆模型(long-short term memory,简称LSTM模型)作为网络主体架构而构建的。例如，视频帧输入数据510输入ResNet-101模型512而输出多帧图像编码标识514(每一帧图像编码标识为2048维编码表示)，然后多帧图像编码标识514经由LSTM模型516生成时序上的特征表示(2048维视频帧编码表示)，即第三神经网络模型的输出数据518。

对应每个视频帧输入数据经由第三神经网络模型输出的视频帧编码表示后，将其输入sigmoid函数层以便生成关于当前视频帧输入数据的信息权重，然后计算信息权重和视频帧编码表示的加权和，以生成用于表征整个帖子的视频帧特征向量的视频帧表征数据。如图3所示，视频帧输入数据330输入第三神经网络模型332。第三神经网络模型332的输出数据经由图3所示的第三编码层334和第三全连接层336最终生成频帧表征数据。

在步骤210处，计算设备110经由第四神经网络模型，提取频谱图输入数据的特征，以便生成声谱表征数据。如图3所示，声谱输入数据340输入第四神经网络模型342。第四神经网络模型342的输出数据经由图3所示的第四编码层344和第四全连接层346最终生成声谱表征数据。

关于第四神经网络342，以下结合图6加以说明。图6示出了根据本公开的实施例的第四神经网络模型600的示意图。如图6所示，第四神经网络600例如是基于VGGish模型作为网络主体架构而构建的。第四神经网络用于将声谱输入数据转化为具有语义的128维特征向量，以及将而128维特征向量转换为2048维频谱编码表示，以用于下游模型的输入。如图6所示，声谱输入数据610输入VGGish模型612而输出多n帧128维特征向量614，然后转换为第四神经网络模型的输出数据616，即2048维声谱编码表示。

关于VGGish模型，其包括六组含有卷积层的网络层(4组包括卷积层Conv2d()、激活函数ReLU()和最大池化层MaxPool2d(),2组包括卷积层Conv2d()和激活函数ReLU()，没有nn.MaxPool2d())。VGGish模型还包括全连接层(包括Linear()和ReLU())，全连接层将512*24维特征数据降到4096并进一步降至到n帧128维特征向量(例如，n＝16)，然后将n帧128维特征向量转换成一帧的2048维声谱编码表示。

在步骤212处，计算设备110融合用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据，以便经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率。如图3所示，经由四个不同神经网络模型所分别生成的文本表征数据、图像表征数据、视频帧表征数据、声谱表征数据和与帖子的关联用户的用户信息输入至表征数据融合模块350，经由表征数据融合模块350生成的融合后数据再输入回归模型352(例如是基于Softmax模型所构建的)，以便生成关于帖子的互动行为状态的预测概率。

关于用户信息，其例如是帖子的关联用户所使用的性别信息，地区信息(例如而不限于是所在城市信息)，年龄信息(例如经由离散化的年龄信息)。

在一些实施例中，融合后数据例如经由全连接层和Softmax模型生成关于帖子的互动行为状态的预测概率。通过采用上手段能够将用户信息和帖子的多模态表征信息融合以便更为准确和丰富反映帖子的特征，进而利于更为准确地预测帖子互动行为潜质。关于经由回归模型基于融合后数据生成关于帖子的互动行为状态的预测概率的方法，下文将结合图7进一步加以说明。

关于第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型和回归模型(例如Softmax模型)的训练方法。下文将结合附图8加以说明，在此不再赘述。

在该方案中，通过针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据分别进行预处理以便分别不同模态的输入数据，然后经由经训练的第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型分别生成文本表征数据、图像表征数据、视频表征数据和声谱表征数据，以及融合上述表征数据和用户信息并经由经训练的回归模型生成关于帖子的互动行为状态的预测概率，本公开可以在帖子内容刚发出来时便可以结合用户信息和帖子内容来预估帖子的互动行为状态。另外，本公开可以基于多模态的帖子内容理解和用户信息的融合进行预测，使得预估精度显著提升。因而，本公开能够在帖子内容刚发出来时便可以准确预估帖子的互动行为状态。

图7示出了根据本公开的实施例的用于生成关于帖子的互动行为状态的预测概率的方法700的流程图。例如，方法700可以由如图1所示的计算设备110来执行。应当理解的是，方法700例如也可以在图9所描述的电子设备900处执行。方法700还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤702处，计算设备110将用户信息、文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据投影至同一特征空间。

在步骤704处，计算设备110针对被投影至同一特征空间的数据进行拼接、向量外积或者向量平均，以便生成融合后数据。

在步骤706处，计算设备110将融合后数据，经由全连接层和回归模型，生成关于帖子的互动行为状态的预测概率，回归模型由Softmax模型所构建。

基于Softmax模型生成关于帖子的互动行为状态的预测概率的方法例如遵循以下公式(1)

在上述公式(1)中，x_i代表第i个输入数据，θ代表Softmax模型的参数矩阵，θ_l代表参数矩阵θ的第l个参数。J代表类别。P(y_i＝j|x_i；θ)代表将输入数据x_i归属于类别J的概率。

关于第一神经网络模型、第二神经网络模型、第三神经网络模型、第四神经网络模型和Softmax模型的损失函数，可以采用交叉熵损失函数来优化上述模型。交叉熵指示的是实际输出(概率)与期望输出(概率)的距离，通过优化网络模型参数使得交叉熵的值越小，进而使得经由本公开神经网络所预测关于帖子的互动行为状态的预测概率接近于关于帖子的互动行为状态的学习目标。关于帖子的互动行为状态的学习目标的确定方式，下文将结合图8加以说明。以下结合公式(2)说明交叉熵损失函数。

在上述公式(2)中，i代表第i个类别。P(i)代表被分到第i个类别的概率。H(p)中的p代表各个类别的分布。H代表交叉熵损失函数。

图8示出了根据本公开的实施例的用于训练神经网络模型的方法800的流程图。例如，方法800可以由如图1所示的计算设备110来执行。应当理解的是，方法800例如可以在图9所描述的电子设备900处执行。方法800还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框802处，计算设备110基于帖子的历史曝光数据、历史点赞数、所有帖子的历史曝光平均数据和平均点赞数，计算关于帖子的点赞状态的第一学习目标。

以下结合公式(3)说明用于计算第一学习目标的方式。

在上述公式(3)中，score代表关于帖子的点赞状态的第一学习目标。PV代表帖子的历史曝光数据，LIKE代表历史帖子的点赞数。PV_AVER代表所有帖子的历史曝光平均数据。LIKE_AVER代表所有帖子的历史平均点赞数。wilson[]代表威尔逊公式。

在框804处，计算设备110计算关于帖子的点击、私聊、关注、评论、分享和收藏中至少一种互动行为状态的第二学习目标。

计算第二学习目标的方式与计算第一学习目标的方式类似。例如计算关于帖子的评论状态的第二学习目标的方式包括：基于帖子的历史曝光数据、历史评论数、所有帖子的历史曝光平均数据和平均评论数，计算关于帖子的评论状态的第二学习目标。以此类推，计算关于其他互动行为的第二学习目标。在一些实施例中，计算设备110分别计算关于帖子的点击、私聊、关注、评论、分享和收藏中六种互动行为状态的第二学习目标。

在框806处，计算设备110基于所计算的第一学习目标和第二学习目标，训练第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型和回归模型。

例如，针对经由第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型和回归模型所输出的关于点击，点赞，私聊，关注，评论，分享，收藏的多种互动行为的预测概率，以及分别计算关于点击，点赞，私聊，关注，评论，分享，收藏的所终互动行为状态的学习目标，并且基于交叉损失函数调整网络参数，以便使得关于多种互动行为状态的学习目标值和预测值之间的距离最小。

通过采用上述手段，本公开可以针对帖子的多种互动行为状态进行多任务联合训练，从而可以在一定程度上共享不同任务之间的参数，进而能够提高关于帖子的各不同互动行为状态预测(子任务)以及整体互动潜质预测的模型的泛化性。

图9示意性示出了适于用来实现本公开实施例的电子设备900的框图。设备900可以是用于实现执行图2、图7和图8所示的方法200、700、800的设备。如图9所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908，处理单元901执行上文所描述的各个方法和处理，例如执行方法200、700、800。例如，在一些实施例中，方法200、700、800可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM并由CPU执行时，可以执行上文描述的方法200、700、800的一个或多个操作。备选地，在其他实施例中，CPU可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、700、800的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于预测帖子互动行为状态的方法，包括：

针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理，以便分别生成文本输入数据、图像输入数据、视频帧输入数据和频谱图输入数据；

经由第一神经网络模型，提取所述文本输入数据的特征，以便生成文本表征数据；

经由第二神经网络模型，提取所述图像输入数据的特征，以便生成图像表征数据；

经由第三神经网络模型，提取所述视频帧输入数据的特征，以便生成视频帧表征数据；

经由第四神经网络模型，提取所述频谱图输入数据的特征，以便生成声谱表征数据；以及

融合用户信息、所述文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据，以便经由回归模型基于融合后数据生成关于所述帖子的互动行为状态的预测概率。

2.根据权利要求1所述的方法，其中经由回归模型基于融合后数据生成关于所述帖子的互动行为状态的预测概率包括：

将用户信息、所述文本表征数据、图像表征数据、视频帧表征数据和声谱表征数据投影至同一特征空间；

针对被投影至同一特征空间的数据进行拼接、向量外积或者向量平均，以便生成融合后数据；以及

将所述融合后数据，经由全连接层和所述回归模型，生成关于所述帖子的互动行为状态的预测概率，所述回归模型由Softmax模型所构建。

3.根据权利要求1所述的方法，其中针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理包括：

针对所述帖子的文本数据进行分词；

将分词后的文本数据映射为文本标识序列，以便生成用于输入所述第一神经网络的文本输入数据，所述第一神经网络是基于转换器的双向编码表征模型而构建的；

确定所述帖子的图像数据是否为灰度图像数据；

响应于确定所述图像数据为灰度图像数据，将所述图像数据转换为RGB图像数据；以及

裁剪所述RGB图像数据的中心区域，以便生成用于输入所述第二神经网络的图像输入数据，所述图像输入数据为三维图像数组。

4.根据权利要求1所述的方法，其中针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理还包括：

基于预定间隔，提取所述帖子的视频数据的视频帧数据；

响应于确定所述视频帧数据为灰度视频帧数据，将所述视频帧数据转换为RGB视频帧数据；

裁剪所述RGB视频帧数据的中心区域，以便生成用于输入所述第三神经网络的视频帧输入数据。

5.根据权利要求1所述的方法，其中针对与用户相关联的帖子的文本数据、图像数据、视频数据和音频数据进行预处理还包括：

裁剪所述帖子的音频数据，以便针对经裁剪的音频数据进行通道合并；

针对合并后的音频数据进行采样，以便生成音频采样数据；

经由短时傅里叶变换，将音频采样数据转换为频谱图；以及

将所述频谱图转换为梅尔声谱特征，以生成用于输入所述第四神经网络的频谱图输入数据。

6.根据权利要求1所述的方法，其中关于帖子的互动行为包括关于所述帖子的点击，点赞，私聊，关注，评论，分享，收藏中的至少一种互动行为。

7.根据权利要求4所述的方法，还包括：

基于帖子的历史曝光数据、历史点赞数、所有帖子的历史曝光平均数据和历史平均点赞数，计算关于帖子的点赞状态的第一学习目标；

计算关于帖子的点击、私聊、关注、评论、分享和收藏中至少一种互动行为状态的第二学习目标；以及

基于所计算的第一学习目标和第二学习目标，训练第一神经网络模型、第二神经网络模型、第三神经网络模型和第四神经网络模型和回归模型。

8.根据权利要求4所述的方法，其中第二神经网络模型是基于深度残差网络模型而构建的，第三神经网络模型是基于深度残差网络和长短期记忆模型而构建的，第四神经网络模型是基于VGGish模型而构建的。

9.一种计算设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。