CN117743869A

CN117743869A - 一种内容发现方法、系统、终端及存储介质

Info

Publication number: CN117743869A
Application number: CN202410179740.XA
Authority: CN
Inventors: 张加佳; 漆舒汉; 黄驿诚
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-03-22
Anticipated expiration: 2044-02-18
Also published as: CN117743869B

Abstract

本发明公开了一种内容发现方法、系统、终端及存储介质，其中，所述方法包括：获取目标品牌信息和目标用户内容生成信息；将视频内容信息输入到视频编码模型中得到视频特征向量，将文本内容信息输入到文本编码模型中得到文本特征向量，将目标品牌信息输入到品牌编码模型中得到品牌语义；采用预先训练完成的得分函数生成目标用户内容生成信息与目标品牌信息的相似度；获取相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。本发明通过所述方法，解决了采用单模态的内容发现方法时存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题。

Description

一种内容发现方法、系统、终端及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及的是一种内容发现方法、系统、终端及存储介质。

背景技术

目前，在互联网迅速发展的情况下，包含着文字、图片或视频等内容的用户生成内容中存在着大量的与品牌广告相关联的部分，因此通过这些部分可以从大量的用户生成内容中找到与品牌相关的部分，这些部分可以用于吸引潜在用户、增强品牌形象。

将从个性化的内容中找到与品牌关联的内容，成为品牌内容发现。目前，对于品牌内容发现中通常采用单模态的内容发现方法，而其存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题，从而导致生成无法区分相似品牌的细微特征，只能粗糙的辨别不同领域的品牌。

因此，现有技术还有待改进和发展。

发明内容

本发明的主要目的在于提供一种内容发现方法、系统、终端及存储介质，旨在解决现有技术中采用单模态的内容发现方法时存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题，从而导致无法生成区分相似品牌的细微特征，只能粗糙的辨别不同领域的品牌的问题。

为了实现所述目的，本发明第一方面提供一种内容发现方法，其中，所述一种内容发现方法包括：

获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息；

将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义；

根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度；

获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

可选地，所述视频编码模型包括深度残差网络、第一全局特征编码模型、第一上下文特征编码模型、第一局部特征编码模型和第一联合嵌入模型；

所述文本编码模型包括第一词嵌入模型、第二全局特征编码模型、第二上下文特征编码模型、第二局部特征编码模型和第二联合嵌入模型；

其中，所述第一全局特征编码模型和所述第二全局特征编码模型均包括平均池化和多头目注意力机制，所述第一上下文特征编码模型和所述第二上下文特征编码模型均包括双向GRU，所述第一局部特征编码模型包括第一一维卷积神经网络，所述第二局部特征编码模型包括第二一维卷积神经网。

可选地，所述将所述视频内容信息输入到视频编码模型中得到视频编码的步骤包括：

将所述视频内容信息输入到所述深度残差网络中，得到视频模态数据特征；

将所述视频模态数据特征输入到所述第一全局特征编码模型，得到视频全局特征编码，并将所述视频模态数据特征输入到所述第一上下文特征编码模型中，得到视频特征队列和视频上下文特征编码；

将所述视频特征队列输入到所述第一局部特征编码模型中，得到视频局部特征编码；

将所述视频全局特征编码、所述视频上下文特征编码和所述视频局部特征编码串联后，输入到所述第一联合嵌入模型中，得到所述视频特征向量。

可选地，所述将所述文本内容信息输入到文本编码模型中得到文本编码的步骤包括：

根据独热编码表示所述文本内容信息，得到独热编码向量序列；

将所述独热编码向量序列输入到所述第二全局特征编码模型，得到文本全局特征编码，并将所述独热编码向量序列输入到所述第一词嵌入模型中，得到词向量特征；

将所述词向量特征输入到所述第二上下文特征编码模型中，得到文本特征队列和文本上下文特征编码；

将所述文本特征队列输入到所述第二局部特征编码模型中，得到文本局部特征编码；

将所述文本全局特征编码、所述文本上下文特征编码和所述文本局部特征编码串联后，输入到所述第二联合嵌入模型中，得到所述文本特征向量。

可选地，所述将所述目标品牌信息输入到品牌编码模型中得到品牌语义的步骤包括：

根据所述独热编码表示所述目标品牌信息，得到目标独热编码；

将所述目标独热编码输入到第二词嵌入模型中，得到嵌入特征；

根据所述目标独热编码和所述嵌入特征进行逐元素相乘，得到所述品牌语义。

可选地，所述获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息的步骤包括：

获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度；

根据每一个目标用户内容生成信息与所述目标品牌信息的相似度对所有的目标用户内容生成信息排名；

根据预设的选取阈值从所有的目标用户内容生成信息中选取排在选取阈值内的目标用户内容生成信息作为目标内容信息。

可选地，所述得分函数的训练过程包括：

获取包含有训练品牌信息和训练用户内容生成信息的训练数据，其中所述训练用户内容生成信息包括训练视频内容信息和训练文本内容信息；

将所述训练视频内容信息输入到所述视频编码模型中得到训练视频特征向量，将所述训练文本内容信息输入到所述文本编码模型中得到训练文本特征向量，将所述训练品牌信息输入到所述品牌编码模型中得到训练品牌语义；

根据所述训练视频特征向量、所述训练文本特征向量和所述训练品牌语义，采用待训练的得分函数生成所述训练用户内容生成信息与训练品牌信息的训练相似度；

根据所述训练相似度和三元损失函数计算总体损失，根据所述总体损失更新得分函数参数；

根据所述得分函数参数更新所述待训练的得分函数；

根据训练数据训练所述待训练的得分函数，当所述总体损失达到预设阈值时，结束训练过程，得到所述预先训练完成的得分函数。

本发明第二方面提供一种内容发现系统，其中，所述一种内容发现系统包括：

信息获取模块，用于获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息；

编码及语义生成模块，用于将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义；

相似度获取模块，用于根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度；

目标内容信息生成模块，用于获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

本发明第三方面提供一种终端，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种内容发现程序，所述一种内容发现程序被所述处理器执行时实现任意一项所述一种内容发现方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有一种内容发现程序，所述一种内容发现程序被处理器执行时实现任意一项所述一种内容发现方法的步骤。

由上可见，本发明方案中，获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息；将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义；根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度；获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

与现有技术相比，针对目前采用单模态的内容发现方法时存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题，本发明通过多个模型分别提取视频和文本中的特征从而使得达到了多模态内容发现的效果，通过采用视频以及文本中的特征得到对应的编码，使得获取到的用户内容信息的细粒度特征，能够更加准确的判断区分相同领域中的相似品牌与目标品牌的相似度，从而得到品牌关联度更高的内容信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种内容发现方法的流程示意图；

图2是本发明实施例提供的内容发现方法整体模型框架示意图；

图3是本发明实施例提供的一种内容发现系统的组成模块示意图；

图4是本发明实施例提供的一种终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其他情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于分类到”。类似的，短语“如果确定”或“如果分类到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦分类到[所描述的条件或事件]”或“响应于分类到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

目前，在互联网迅速发展的情况下，包含着文字、图片或视频等内容的用户生成内容中存在着大量的与品牌广告相关联的部分，因此通过这些部分可以从大量的用户生成内容中找到与品牌相关的部分，这些部分可以用于吸引潜在用户、增强品牌形象。将从个性化的内容中找到与品牌关联的内容，成为品牌内容发现。目前，对于品牌内容发现中通常采用单模态的内容发现方法，而其存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题，从而导致生成无法区分相似品牌的细微特征，只能粗糙的辨别不同领域的品牌。

为了解决所述多个问题中的至少一个问题，本发明方案提供一种内容发现方法、系统、终端及存储介质，具体地，获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息；将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义；根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度；获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

本发明通过多个模型分别提取视频和文本中的特征从而使得达到了多模态内容发现的效果，通过采用视频以及文本中的特征得到对应的编码，使得获取到的用户内容信息的细粒度特征，能够更加准确的判断区分相同领域中的相似品牌与目标品牌的相似度，从而得到品牌关联度更高的内容信息。

示例性方法

如图1所示，本发明实施例提供一种内容发现方法，具体地，所述一种内容发现方法包括如下步骤：

步骤S100，获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息。

需要说明的是，目标品牌信息为一个品牌商对应的多个品牌，目标用户内容生成信息为社交媒体中对应的信息，其中包含视频和文本，即视频内容信息和文本内容信息。其中，用B={b₁，b₂，...，b_q，...，b_B1}表示目标品牌信息，其中目标品牌信息为一个集合，b_q表示目标品牌信息中的一个品牌，其中q表示序号，且bq∈B，B1表示目标品牌信息中品牌的总数。用集合P={p₁，p₂，...，p_α...，p_β}来表示所有品牌商发布的目标用户内容生成信息，其中每个元素p_α都包含目标用户内容生成信息的视频内容信息和文本内容信息，p_β表示所有品牌商发布的目标用户内容生成信息的总数。则将一个品牌商发布的帖子历史时间线记为，则有/>。在本申请的一种实施方式中，B中的目标品牌信息可以是汽车品牌，则对应的P中的目标用户内容生成信息则可以是汽车品牌商发布的帖子、视频、宣传广告等。

步骤S200，将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义。

具体地，在获取到目标品牌信息和目标用户内容生成信息后，为了判断目标品牌信息和目标用户内容生成信息之间的相似度，因此需要通过对目标品牌信息和目标用户内容生成信息进行处理后，再进行相应的判断。在本申请中，采用视频编码模型、文本编码模型和品牌编码模型来对目标品牌信息和目标用户内容生成信息进行相应的处理。

进一步地，所述视频编码模型包括深度残差网络、第一全局特征编码模型、第一上下文特征编码模型、第一局部特征编码模型和第一联合嵌入模型；

具体地，如图2所示，其中，视频编码模型和文本编码模型中的第一全局特征编码模型和第二全局特征编码模型结构相同；第一上下文特征编码模型和第二上下文特征编码模型结构相同；第一局部特征编码模型和第二局部特征编码模型均由一维卷积神经网络组成，但其中第一局部特征编码模型和第二局部特征编码模型中一维卷积神经网络的结构彼此不同；第一联合嵌入模型和第二联合嵌入模型的结构相同，但参数不同。

进一步地，所述将所述视频内容信息输入到视频编码模型中得到视频编码的步骤包括：

具体地，在本申请实施例中，对于给定的视频内容信息，每经过预设时间抽取一帧画面，共抽取n帧画面，其中n表示数量，而对于每一帧，则利用经预训练的深度残差网络（Deep Residual Network）进行特征提取。较佳的，在本申请的一种实施例中，采用ResNet-152版本的残差网络提取视频内容信息的特征，ResNet-152版本的残差网络在使用前在ImageNet图像数据集上进行了图片分类预训练。

将第i帧画面输入ResNet-152版本的残差网络后，选取网络的倒数第二层（即除去最后一层SoftMax分类层）的输出向量作为这一帧画面的特征，即视频模态数据特征，维度大小为2018，其中i表示序号。随后，就可以利用特征向量组/>来初步描述视频内容信息，其中/>表示一个视频内容信息的视频模态数据特征的第i个的特征，v_n中/>表示所抽取的总帧数。

在获得的基础上，将提取出视频内容信息V的视频全局特征编码、视频上下文特征编码/>以及视频局部特征编码/>，这三部分特征共同组成了视频编码模块的最终编码结果/>。

进一步地，在根据第一全局特征编码模型得到视频全局特征编码的过程中，第一全局特征编码采用平均池化和多头目注意力机制相结合的方式计算视频全局特征编码。在本申请实施例中，用来表示这个平均池化的编码结果，其表示为如下公式（1）：

；（1）

但是在视频内容信息中，可能只有几个关键帧与整个视频的语义最为相关。因此在此情形下，全局平均池化将会消除这些关键帧的影响，从而减弱模型表达语义特征的能力。注意力机制的原理就是为不同特征表示计算权重，并通过加权求和的方式得到最终的特征表示，以此来体现视频中不同帧的重要程度。因此，在本申请实施例中，采用基于多头目自注意力机制的加权池化方法，通过两个偏置项为0的多层感知机（Multilayerperceptron，MLP）和一个SoftMax层来得到多头目注意力机制的输出，其具体表示为公式（2）：

；（2）

其中，和/>是多层感知机层中的参数矩阵，/>是每个帧特征向量的维数，/>和/>为参数并分别设置为/>，/>。多头目自注意力网络/>的输出向量/>是一个大小为/>的向量，其中的/>个分量分别是关于第/>个特征/>的/>个权重，权重的大小表示自注意力机制对该帧画面的选择倾向。多头目注意力机制可以自动学习视频中的重要部分，过滤掉非重要部分，学习到的权重越大，表示该部分画面越重要。最终，视频内容信息的重要部分的编码/>可由视频内容信息中的每帧的加权平均和计算获得，具体计算如下公式（3）所示：

；（3）

其中，是/>中的第/>个分量，是关于/>的/>个权重中的一个。通过结合视频内容信息中重复出现的/>和视频中的重要部分的编码/>，可以得到视频全局特征编码/>，表示为如下公式（4）：

；（4）

在将所述视频模态数据特征输入到所述第一上下文特征编码模型中，得到视频特征队列和视频上下文特征编码的过程中，采用双向GRU（Bi-GRU）来提取视频的上下文特征。一个Bi-GRU由两个分离的GRU层组成，即一个前向GRU层和一个反向GRU层，其中，前向GRU将视频内容信息中的每帧视频的特征按照正常的先后顺序输入，而反向GRU则按照反向的顺序输入，在本申请实施例中，用/>和表示在相应的时间步t¹=1，2，…，n的隐含状态，隐含状态表示为以下公式（5）：

；（5）

其中，和/>分别表示前向GRU和后向GRU，分别通过隐含状态=/>和/>来传递时间t¹的状态，将/>和/>连接后得到Bi-GRU在时刻t¹的输出/>。更进一步地，在本申请的一种实施例中，将前向GRU和后向GRU中的隐藏向量大小设置为512，对应的Bi-GRU在时刻t¹的输出/>的维数即为1024。将所有的输出结合，得到一个视频特征队列，维度是1024*n。所述视频特征队列通过平均池化，可以得到视频上下文特征编码/>，表示为如下公式（6）：

；（6）

进一步地，视频内容信息的各帧之间存在相互联系，相邻帧之间的联系更加紧密，而Bi-GRU在每一步的输出权重都一样，为了增强有助于区分视频细微差别的局部模态数据，在Bi-GRU的基础上构建了卷积网络，即在将所述视频特征队列输入到所述第一局部特征编码模型中，得到视频局部特征编码的过程中，采用第一一维卷积神经网络来得到视频局部编码特征。

具体地，用表示第一一维卷积神经网络，它包含r¹=512个大小为k¹的滤波器，其中第一一维卷积神经网络的输入视频特征队列/>，将/>输入到/>后可以产生n×r¹个特征，对得到的特征用ReLU激活函数进行非线性变换，增强模型的拟合能力；由于每个视频的帧数不一样，因此利用最大池化maxpooling将特征列表/>得到的特征进行激活后的数据转换为固定长度r²的向量/>。以上第一一维卷积神经网络的处理过程可用下面的公式（7）来表示：

；（7）

对分别用卷积核k²=2，3，4，5生成多个范围的特征来表示/>，之后将它们的输出串联起来，形成基于Bi-GRU-CNN的编码，即视频局部特征编码/>，表示为如下公式（8）所示：

；（8）

在得到视频全局特征编码、视频上下文特征编码和视频局部特征编码后，由于F¹，F²，F³是通过特定的编码策略在不同的层次上依次得到的，因此三个编码结果是互补的，且存在一定的冗余。因此，将三个编码模型的输出F¹，F²，F³串联起来，得到视频内容信息v的视频多级编码，如下公式（9）所示：

；（9）

串联后，输入到所述第一联合嵌入模型中，得到所述视频特征向量。具体地，视频内容信息得到的视频多级编码/>与文本内容信息t得到的文本多级编码/>之间并没有直接的关系，它们不能直接进行比较，因此在计算视频、文本与品牌的相似度时，需要先将向量投影到公共空间中，再进行相似度计算。

其中，对于编码后得到的视频多级编码，通过仿射转换映射到一个共享空间中，因此在本申请实施例中，采用在全连接层后加上批量正则层，能够达到好的效果，具体通过下面公式（10）的变换，可以得到经映射后处于共享空间的视频特征向量/>：

；（10）

其中，是第一联合嵌入模型的全连接层的参数矩阵，/>是第一联合嵌入模型全连接层的偏置项参数。

进一步地，所述将所述文本内容信息输入到文本编码模型中得到文本编码的步骤包括：

具体地，由于文本编码模型与视频编码模型中的部分模型结构相同，因此基于文本编码模型得到文本特征向量的过程与基于视频编码模型得到视频特征向量的过程在部分流程相同。

具体地，给定一个长度为的文本内容信息/>，首先根据独热编码表示文本内容信息t中句子中的每个单词，得到一个独热编码向量序列/>，其中/>表示第/>个单词的向量，其中i表示序号。

在此基础上，文本全局特征编码G¹是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，即第一全局特征编码模型与第二全局编码模型结构相同，因此将独热编码向量输入到第二全局编码模型中，第二全局编码模型执行与第一全局编码模型相同的操作，输出文本全局特征编码G¹。

对于文本上下文特征编码，首先将文本内容信息的独热编码序列输入到第一词嵌入模型中与一个单词嵌入矩阵相乘，即词嵌入处理，将独热编码序列转换为一个密集的词向量特征。在本申请实施例中，对于词嵌入模型，采用经过预训练的Word2Vec模型，其中Word2Vec模型在由3000万张图片的英语标记组成的集合上进行了预训练。之后将词向量输入到第二上下文特征编码模型中，用Bi-GRU处理输入的词向量特征，得到文本内容信息/>的上下文特征编码/>；其中，由于第二上下文特征编码模型与第一上下文特征编码模型结构相同，因此将词向量特征输入到第二上下文特征编码模型后，第二上下文特征编码模型执行与第一上下文特征编码模型相同的操作，输出文本上下文特征编码模型，同时在该过程中还输出文本特征队列，文本特征队列由第二上下文特征编码模型中Bi-GRU的输出结合得到。

将文本内容信息的文本特征队列输入到第二局部特征编码模型中，其中第二局部特征编码模型中包括第二一维卷积神经网络，将文本特征队列输入到第二一维卷积神经网络后产生对应的第二一维卷积神经网络特征，第二一维卷积神经网络特征再通过ReLU激活函数进行线性变换后，利用最大池化maxpooling将通过ReLU激活函数进行线性变换后的特征转换为向量。第二一维卷积神经网络中包含3个一维卷积块，即/>分别用卷积核k³=2，3，4生成多个范围的特征来表示/>，之后将它们的输出串联起来，形成文本局部特征编码G³。

最后，将在文本编码模型得到的G¹、G²和G³串联起来，得到文本内容信息的文本多级编码，表示为如下公式（11）：

；（11）

串联后，输入到所述第二联合嵌入模型中，得到所述文本特征向量。其中，对于编码后得到的文本多级编码，通过仿射转换映射到一个共享空间中，因此在本申请实施例中，采用在全连接层后加上批量正则层，能够达到好的效果，具体通过下面公式（12）的变换，可以得到经映射后处于共享空间的文本特征向量/>：

；（12）

其中，是第二联合嵌入模型的全连接层的参数矩阵，/>是第二联合嵌入模型全连接层的偏置项参数。

进一步地，所述将所述目标品牌信息输入到品牌编码模型中得到品牌语义的步骤包括：

具体地，由于相似品牌的同质性，独热编码只能生成粗糙的特征表示，导致不能区分相似品牌间的细微差别，因此在本申请实施例中，通过融合独热编码和嵌入特征，来增强品牌的语义表示。即，在本申请中，根据独热编码表示所述目标品牌信息，得到目标独热编码，再将目标独热编码输入到第二词嵌入模型中，得到嵌入特征，根据所述目标独热编码和所述嵌入特征进行逐元素相乘，得到所述品牌语义，具体可以用以下公式（13）来表示该过程：

；（13）/>

其中，是品牌编号的独热编码，/>是品牌独热编码的嵌入特征，“/>”表示对应位置元素进行乘积运算，即逐元素乘积。这样得到的结果不像独热编码是非零即一的，在非零位置上可以用更精确的数字表示，从而可以进行更细粒度的判别。在本申请的一种实施方式中，第二词嵌入模型与第一词嵌入模型结构相同。

步骤S300，根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度。

在得到视频特征向量、文本特征向量和品牌语义后，采用预先训练完成的得分函数来得出目标用户内容生成信息与目标品牌信息的相似度，从而可以根据相似度的得知目标用户内容生成信息与目标品牌之间的关联。

进一步地，所述得分函数的训练过程包括：

根据所述得分函数参数更新所述待训练的得分函数；

具体地，由于正负样本的不平衡问题，传统的排序损失函数不能到达理想的效果，而在本申请实施例中采用一种自适应的三元损失函数来参与得分函数的训练过程，其中，三元损失函数利用训练用户内容生成信息与训练品牌信息的相似度排名自动地调整损失的权重。

其中，三元损失函数具体表示为如下公式（14）：

；（14）

其中，和/>是品牌/>的目标品牌信息/>中所含的视频内容信息和文本内容信息，即每一对样本/>、/>均是匹配的，而/>和/>分别是与品牌/>不匹配的视频内容信息和文本内容信息，即/>和/>来自于其他品牌发布的帖子；/>是得分函数；/>是成对损失函数的距离常数；/>代表对/>的结果取正，若/>大于0则取/>本身，否则取0，即；/>是调整损失的权重函数，依赖于排名/>，/>是视频内容信息在所有视频中关于品牌/>的相似度排名，类似地，/>是文本内容信息在所有文本中关于品牌/>的相似度排名。

将设置为/>，其中/>为小批量训练中的批大小，三元损失函数基于在推荐结果中正确匹配的排名的权重，具体地，如果正匹配在列表中排名靠前，那么/>的值越小，将分配一个较小的权重给该匹配的损失；然而，如果一个正匹配不是排在较前面，那么/>的值较大，将分配一个较大的权重给损失。用这个损失函数进行训练，最终会将正匹配的对推到最前面。

通过包含有训练品牌信息和训练用户内容生成信息的训练数据迭代循环训练所述待训练的得分函数，同时反向更新所述视频编码模型和所述文本编码模型中的参数，当所述总体损失达到预设阈值时，结束训练过程，得到所述预先训练完成的得分函数，以及训练后的视频编码模型和文本编码模型。在本申请的一种实施例中，当训练次数达到预设次数时，结束训练过程，得到所述预先训练完成的得分函数。

步骤S400，获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

根据的得分函数得到的相似度，可以根据相似度对目标生成内容信息进行降序排序，而排在前面的目标生成内容信息即为目标生成内容信息与目标品牌信息的相似度高的，从中根据选取阈值选取出目标内容信息。

进一步地，所述获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息的步骤包括：

获取到目标用户内容生成信息与目标品牌信息的相似度后，根据相似度对每一个目标用户内容生成信息进行排序，设置预设的选取阈值为k_max，则选取排序中前k_max个目标用户内容生成信息作为目标内容信息。

进一步地，本申请对上述方法进行验证，对85个汽车品牌账户获取其历史发布记录（包括图像、视频、文字和话题标签），然后删去了一些重叠的账户或发帖数少于200的账户，最终得到含有50个汽车品牌的数据集，其中含有98398个多模态的目标用户内容生成信息。由于这些品牌来自同一个垂直领域，这些帖子具有高度的相似性。因此，存在必要使模型为了发现品牌相关内容而学习细粒度的品牌特征表示。在训练阶段，随机地选择数据集中70%的实例作为训练集，余下的30%则将用作测试集以评价模型的性能。

本申请对上述方法进行验证过程中选取了一些成对图像推荐方法作为基线，将本申请所述内容发现方法与五种方法进行了对比，五种方法分别为Random，随机地将所测试的目标用户内容生成信息进行排序；BrandAVG，在品牌发布时间线中，检索有关目标用户内容生成信息的品牌表示的最近邻居；DVBPR，该方法使用贝叶斯个性化排序（BayesianPersonalized Ranking，BPA）来扩展先前关于视觉感知推荐的方法，使用其变体以及与预训练模型来生成品牌关联；PCD，一种用于寻找品牌和社交媒体帖子关联的个性化内容发现方法的框架；PCDBA，基于PCD的一种方法，该方法通过整合品牌属性来学习主观属性的表示。

对上述方法的验证过程采用AUC（Area Under Curve，ROC曲线下方的面积）、NDCG（Normalized Discounted Cumulative Gain，归一化折损累计增益）以及top K召回率（Recall rate at top K，R@K）作为准确率评价指标。AUC是指分类器随机选取的正例排在负例前面的概率；NDCGx，于位置x处截断，基于目标用户内容生成信息在排名结果列表中的位置，来衡量排名列表的质量，其值越大越好；Recall是在检索到的结果中，相关样本占所有样本的比例，召回率越大越好。

如表1所示，将FGMCD（细粒度多模态的内容发现算法，Fine-Grained Multi-modalContent Discovery，即本申请所述内容发现方法）与其他基线进行比较。从结果可以看到，FGMCD在所有的评价指标上都超过了其他方法，说明本申请所述内容发现方法能够学习到与品牌更相关的信息，也证明了在同一领域中，其能挖掘出更细粒度的品牌内容差异。

表1，FGMCD与其他基线的性能比较：

同时仅将视频内容信息作为输入，得到如下表2所示，FGMCD仍然在所有指标上都优于PCD和PCDBA。

表2，只利用视觉特征的FGMCD与其他基线的性能对比：

此外，本申请实施例还通过消融实验来证明模型FGMCD中不同嵌入结合的影响，设置了不同层级的设置作为FGMCD模型的基线：FGMCD level-1使用全局特征嵌入；FGMCDlevel-2使用上下文特征嵌入；FGMCD level-3使用局部特征嵌入；FGMCD level-1+2使用全局和上下文特征嵌入；FGMCD level-1+2+3使用三种特征嵌入。实验结果如表3所示，结果表明，通过使用差异化的嵌入，本发明的模型确实能够抓取不同级别的多模态信息。

表3，FGMCD性能的消融研究：

结果如表3所示，可以看出，本申请所述内容发现方法比大多数内容发现或可能用于内容发现的推荐方法的性能更好，即本申请内容发现方法能够较好地提取多模态数据的细粒度特征，并且这些细粒度特征能够区分同一领域的相似品牌，从而能细致地检索出与目标品牌信息相关的目标用户内容生成信息。

由上可见，与现有技术相比，针对目前采用单模态的内容发现方法时存在着由于仅利用了图像资料而忽略了文本、话题标签等多模态信息或只利用神经网络提取图像特征而无法利用视频中语义信息的问题，本发明通过多个模型分别提取视频和文本中的特征从而使得达到了多模态内容发现的效果，通过采用视频以及文本中的特征得到对应的编码，使得获取到的用户内容信息的细粒度特征，能够更加准确的判断区分相同领域中的相似品牌与目标品牌的相似度，从而得到品牌关联度更高的内容信息。

示例性设备

如图3中所示，对应于所述一种内容发现方法，本发明实施例还提供一种内容发现系统，所述一种内容发现系统包括：

信息获取模块31，用于获取目标品牌信息和目标用户内容生成信息，其中，所述目标用户内容生成信息包括视频内容信息和文本内容信息；

编码及语义生成模块32，用于将所述视频内容信息输入到视频编码模型中得到视频特征向量，将所述文本内容信息输入到文本编码模型中得到文本特征向量，将所述目标品牌信息输入到品牌编码模型中得到品牌语义；

相似度获取模块33，用于根据所述视频特征向量、所述文本特征向量和所述品牌语义，采用预先训练完成的得分函数生成所述目标用户内容生成信息与目标品牌信息的相似度；

目标内容信息生成模块34，用于获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息。

需要说明的是，所述一种内容发现系统及其各个模块或单元的具体结构和实现方式可以参照所述方法实施例中的对应描述，在此不再赘述。

进一步地，如图4所示，基于上述内容发现方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图3仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡（Smart Media Card， SMC），安全数字（SecureDigital， SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有内容发现程序40，该内容发现程序40可被处理器10所执行，从而实现本申请中内容发现方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit，CPU），微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述内容发现方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有内容发现程序，所述内容发现程序被处理器执行时实现如上所述的内容发现方法的步骤。

需要说明的是，在本文中，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种内容发现方法，其特征在于，所述一种内容发现方法包括：

2.根据权利要求1所述的内容发现方法，其特征在于，所述视频编码模型包括深度残差网络、第一全局特征编码模型、第一上下文特征编码模型、第一局部特征编码模型和第一联合嵌入模型；

3.根据权利要求2所述的内容发现方法，其特征在于，所述将所述视频内容信息输入到视频编码模型中得到视频编码的步骤包括：

4.根据权利要求2所述的内容发现方法，其特征在于，所述将所述文本内容信息输入到文本编码模型中得到文本编码的步骤包括：

5.根据权利要求4所述的内容发现方法，其特征在于，所述将所述目标品牌信息输入到品牌编码模型中得到品牌语义的步骤包括：

6.根据权利要求1所述的内容发现方法，其特征在于，所述获取预设数量的目标用户内容生成信息与所述目标品牌信息的相似度，根据预设的选取阈值从所有的目标用户内容生成信息中选取目标内容信息的步骤包括：

7.根据权利要求1所述的内容发现方法，其特征在于，所述得分函数的训练过程包括：

根据所述得分函数参数更新所述待训练的得分函数；

8.一种内容发现系统，其特征在于，所述一种内容发现系统包括：

9.一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种内容发现程序，所述一种内容发现程序被所述处理器执行时实现如权利要求1-7任意一项所述一种内容发现方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有一种内容发现程序，所述一种内容发现程序被处理器执行时实现如权利要求1-7任意一项所述一种内容发现方法的步骤。