CN110245261A - 一种多模态的短视频推荐系统中的特征构造方法及系统 - Google Patents

一种多模态的短视频推荐系统中的特征构造方法及系统 Download PDF

Info

Publication number
CN110245261A
CN110245261A CN201910442005.2A CN201910442005A CN110245261A CN 110245261 A CN110245261 A CN 110245261A CN 201910442005 A CN201910442005 A CN 201910442005A CN 110245261 A CN110245261 A CN 110245261A
Authority
CN
China
Prior art keywords
video
word
user
vector
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910442005.2A
Other languages
English (en)
Other versions
CN110245261B (zh
Inventor
陈炳成
林倞
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910442005.2A priority Critical patent/CN110245261B/zh
Publication of CN110245261A publication Critical patent/CN110245261A/zh
Application granted granted Critical
Publication of CN110245261B publication Critical patent/CN110245261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多模态的短视频推荐系统中的特征构造方法及系统,该方法包括:步骤S1,计算各个视频对于各用户的tf‑idf值,并形成矩阵;步骤S2,对该矩阵在行方向上降维,并得到用户的行为特征;步骤S3,对任一视频切分成片段;步骤S4,将各视频片段输入预训练好的伪三维残差网络获得各片段的视频片段特征向量,并进行平均获得视频的视频特征;步骤S5,根据所有视频文本标题组成的词库中每个词的逆向文档频率值选若干词;步骤S6,对任一视频的文本标题,计算所选词在文本标题上的词频值,获得标题特征向量;步骤S7,对任一记录,根据其行为特征、视频特征和标题特征计算得到最终特征向量。

Description

一种多模态的短视频推荐系统中的特征构造方法及系统
技术领域
本发明涉及视频推荐技术领域,特别是涉及一种多模态的短视频推荐系统中的特征构造方法及系统。
背景技术
推荐系统是数据挖掘领域一个基本的研究方向,现已被广泛应用于电子商务和社交网络工具中,它的研究目的是根据用户的历史数据向用户推荐可能喜欢的信息或者商品。推荐系统技术作为机器学习和数据挖掘的一个传统方向,已有大量相关的技术产生,主要包括协同过滤、关联规则、图网络技术、因子分解机和深度学习与因子分解机结合的技术。
近年来,随着短视频应用的流行,多模态的短视频推荐系统越来越多地受到关注。短视频应用包含大量视频图像信息、音频信息、文本标题信息以及用户与短视频交互的历史行为信息,因此多模态的短视频推荐系统需要利用这些多模态的信息对用户和短视频建模,然而目前如何有效地利用这些多模态的信息来提高推荐系统的效果仍然是一个尚未有效解决的问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种多模态的短视频推荐系统中的特征构造方法及系统,以提高多模态的短视频推荐系统的推荐效果。
为达上述目的,本发明提出一种多模态的短视频推荐系统中的特征构造方法,包括如下步骤:
步骤S1,对于数据集中的任意一个用户与任意一个视频,分别计算该用户观看各个视频的次数以及观看过该视频的用户个数,计算各个视频对于各用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵U;
步骤S2,利用PCA方法对步骤S1的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并将Bi表示为第i个用户的行为特征向量;
步骤S3,对于任意一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段;
步骤S4,对于任意一个视频,根据步骤S3得到的视频片段,将各视频片段分别输入预训练好的伪三维残差网络,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对该视频的各个视频片段特征取平均,作为该视频的视频特征,将第j个视频的视频特征记为Vj
步骤S5,计算数据集中所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词;
步骤S6,对于任何一个视频的文本标题,分别计算步骤S5中的选取的词在该文本标题上的词频值,将所选取的若干个词的频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj
步骤S7,对于数据集中任意一条记录,根据步骤S2、步骤S4和步骤S6得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,根据该记录对应的行为特征Bi、视频特征Vj和标题特征Tj计算得到该条记录的最终的特征向量。
优选地,于步骤S1中,假设数据集中有m个用户和n个视频,以及各用户观看各视频的记录,所述tf-idf值矩阵U的维度为m*n,Uij表示第i个用户对应第j个视频的tf-idf值,Uij由以下公式计算:
其中tfij表示第i个用户观看第j个视频的次数,dfj表示观看过视频vidj的用户的个数,记第i个用户的ID为uidi,记第j个视频的ID为vidj
优选地,于步骤S2中,利用PCA对步骤S1中的tf-idf值矩阵U在行方向上降维,维度降至2048维,则U′的维度为m*2048。
优选地,于步骤S3中,每个视频片断由连续16帧组成,并去除末尾少于16帧的片段。
优选地,于步骤S5中,所述逆向文档频率由以下公式计算:
其中idfw表示词库C中第w个词的逆向文档频率,n表示数据集中的视频总数,表示包含词库C中第w个词的文本标题的个数。
优选地,于步骤S5中,取排序中前2048个词。
优选地,于步骤S6中,对于任何一个视频的文本标题,分别计算步骤S5中选取的2048个词在该文本标题上的词频值,然后将2048个词频值组成一个向量,作为视频的标题特征向量,将第j个视频的标题特征记为Tj
优选地,所述词频tfw,j采用如下公式计算获得:
其中tfw,j表示2048个词里的第w个词在第j个视频的文本标题下的词频,cw,j表示第w个词在第j个视频的文本标题中出现的次数,Lj表示第j个视频的文本标题中的词语总数。
优选地,于步骤S7中,分别将行为特征Bi与视频特征Vj以及视频的标题特征Tj进行外积运算,得到矩阵M1与M2,并分别对矩阵M1、M2进行行方向的平均运算,分别得到一个向量O1与向量O2,最后将向量O1与O2的对应元素相乘,得到该条记录的最终的特征向量。
为达到上述目的,本发明还提供一种多模态的短视频推荐系统中的特征构造系统,包括:
tf-idf值矩阵生成单元,用于对于数据集中的任意一个用户与任意一个视频,分别计算该用户观看各个视频的次数以及观看过该视频的用户个数,计算各个视频对于各用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵U;
行为特征获取单元,用于利用PCA方法对所述tf-idf值矩阵生成单元的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并将Bi表示为第i个用户的行为特征向量;
视频切分单元,用于对于任意一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段;
视频特征获取单元,用于对于任意一个视频,根据所述视频切分单元得到的视频片段,将各视频片段分别输入预训练好的Pseudo-3D Residual Net,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对该视频的各个视频片段特征取平均,作为该视频的视频特征,将第j个视频的视频特征记为Vj
选词单元,用于计算数据集中所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词;
标题特征获取单元,用于对于任何一个视频的文本标题,分别计算所述选词单元中的选取的词在该文本标题上的词频值,将所选取的若干个词的频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj
特征向量计算单元,用于对于数据集中任意一条记录,根据行为特征获取单元、视频特征获取单元和标题特征获取单元得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,根据该记录对应的行为特征Bi、视频特征Vj和标题特征Tj计算得到该条记录的最终的特征向量。
与现有技术相比,本发明一种多模态的短视频推荐系统中的特征构造方法及系统通过建立tf-idf值矩阵,对该矩阵在行方向上降维,并得到用户的行为特征,然后通过对任一视频切分成片段,将各视频片段输入预训练好的伪三维残差网络获得各片段的视频片段特征向量,并进行平均获得视频的视频特征,并根据所有视频文本标题组成的词库中每个词的逆向文档频率值选若干词,对任一视频的文本标题,计算所选词在文本标题上的词频值,获得标题特征向量,最后对任一记录,根据其行为特征、视频特征和标题特征计算得到最终特征向量,可实现提高多模态的短视频推荐系统的推荐效果的目的。
附图说明
图1为本发明一种多模态的短视频推荐系统中的特征构造方法的步骤流程图;
图2为本发明一种多模态的短视频推荐系统中的特征构造系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种多模态的短视频推荐系统中的特征构造方法的步骤流程图。如图1所示,本发明一种多模态的短视频推荐系统中的特征构造方法,包括如下步骤:
步骤S1,对于任意一个用户,计算该用户观看各个视频的次数,计算各个视频关于该用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵。
假设数据集中有m个用户和n个视频,以及各用户观看各视频的记录,对任意一个用户或视频都有对应的ID进行标识,为方便描述,记第i个用户的ID为uidi,记第j个视频的ID为vidj。然后计算数据集中每一个视频对于每一个用户的tf-idf值,从而组成一个tf-idf值矩阵,记为U,其中U的维度为m*n,Uij表示第i个用户对应第j个视频的tf-idf值。tf-idf值可以由以下公式计算:
其中tfij表示第i个用户观看第j个视频的次数,dfj表示观看过视频vidj的用户的个数。
步骤S2,利用PCA(Principal Component Analysis,主成分分析)方法对步骤S1的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并且将Bi表示为第i个用户的行为特征。
具体地,于步骤S2中,利用PCA对步骤S1中的tf-idf值矩阵U在行方向上降维,维度降至2048维,记降维后的矩阵为U′,则U′的维度为m*2048。记矩阵U′的第i行的行向量为U′i,且记U′i的转置为并且用Bi表示并将Bi表示为第i个用户的行为特征向量。
步骤S3,对于任何一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段,在本发明具体实施例中,每个视频片断由连续16帧组成,去除末尾少于16帧的片段。
步骤S4,对于任意一个视频,根据步骤S3得到该视频的视频片段,将视频片段分别输入预训练好的Pseudo-3D Residual Net,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对一个视频的各个视频片段特征取平均,作为整个视频的视频特征,将第j个视频的视频特征记为Vj
假设第j个视频可以切分成k个由连续16帧组成的视频片段,将该k个视频片段分别输入预训练好的伪三维残差网络(Pseudo-3D Residual Net),提取网络最后一层池化层的输出作为该视频片段的特征向量,从而得到k个视频片段特征向量,分别记为Vj1,…,Vjk,然后将这k个向量取平均,作为整个视频的视频特征向量,并记为Vj,即由于对伪三维残差网络(Pseudo-3D Residual Net)的具体训练以及提取特征向量采用的是现有技术,在此不予赘述。
步骤S5,计算所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词,在本发明具体实施例中,取排序中前2048个词。
具体地,记所有视频的文本标题中的词语组成的词库为C,计算词库C中每个词的逆向文档频率,逆向文档频率由以下公式计算:
其中idfw表示词库C中第w个词的逆向文档频率,n表示数据集中的视频总数,表示包含词库C中第w个词的文本标题的个数。
然后,根据计算获得的逆向文档频率对词从大到小排序,取前2048个词,并将这2048个词组成的集合记为C′。
步骤S6,对于任何一个视频的文本标题,分别计算步骤S5中的选取的词在该文本标题上的词频值,然后将所选取的若干个词的频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj。在本发明具体实施例中,对于任何一个视频的文本标题,分别计算步骤S5中选取的2048个词在该文本标题上的词频值,然后将2048个词频值组成一个向量,作为视频的标题特征向量,将第j个视频的标题特征记为Tj
具体地,对于任何一个视频vidj的文本标题,分别计算从步骤S5中取得的2048个词在该文本标题上的词频,然后这2048个词频组成一个向量,作为视频的标题特征向量,记为Tj,即Tj=(tf1,j,tf2,j,...,tf2048,j)T,其中(tf1,j,tf2,j,...,tf2048,j)T表示行向量(tf1,j,tf2,j,...,tf2048,j)的转置,词频tfw,j由以下公式计算:
其中tfw,j表示2048个词里的第w个词在第j个视频的文本标题下的词频,Cw,j表示第w个词在第j个视频的文本标题中出现的次数,Lj表示第j个视频的文本标题中的词语总数。
步骤S7,对于数据集中任意一条记录(uidi,vidj),根据步骤S2、步骤S4和步骤S6得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,分别将行为特征Bi与视频特征Vj以及视频的标题特征Tj进行外积运算,得到矩阵M1与M2,并分别对矩阵M1、M2进行行方向的平均运算,得到一个向量O1与向量O2,最后将向量O1与O2的对应元素相乘,得到该条记录的最终的特征向量。
具体地,将数据集中任何一条用户观看视频的记录简记为(uidi,vidj),表示第i个用户uidi观看第j个视频vidj。根据步骤S2、步骤S4和步骤S6,可以得到该记录的行为特征Bi、视频特征Vj和标题特征Tj,然后行为特征Bi分别与视频特征Vj和标题特征Tj进行外积运算,分别得到矩阵M1和M2,具体计算公式如下:
M1=BiVj T
M2=BiTj T
其中Vj T和Tj T分别表示Vj和Tj的转置,BiVj T表示Bi与Vj T进行矩阵乘法运算,BiTj T同理。
然后分别对M1和M2进行行方向上的平均运算,得到列向量O1和O2。将O1和O2的第i个元素分别记为O1(i)和O1(i),将M1(i,j)记为M1在第i行第j列上的元素,将M2(i,j)记为M2在第i行第j列上的元素,则O1和O2的计算公式如下:
最后列向量O1和O2进行对应元素的相乘,得到最终的特征向量F。将F的第i个元素记为F(i),则F具体的计算公式如下:
F(i)=O1(i)*O2(i)。
图2为本发明一种多模态的短视频推荐系统中的特征构造系统的系统架构图。如图2所示,本发明一种多模态的短视频推荐系统中的特征构造系统,包括:
tf-idf值矩阵生成单元201,用于对于任意一个用户,计算该用户观看各个视频的次数,计算各个视频关于该用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵。
假设数据集中有m个用户和n个视频,以及各用户观看各视频的记录,对任意一个用户或视频都有对应的ID进行标识,为方便描述,记第i个用户的ID为uidi,记第j个视频的ID为vidj。然后计算数据集中每一个视频对于每一个用户的tf-idf值,从而组成一个tf-idf值矩阵,记为U,其中U的维度为m*n,Uij表示第i个用户对应第j个视频的tf-idf值。tf-idf值可以由以下公式计算:
其中tfij表示第i个用户观看第j个视频的次数,dfj表示观看过视频vidj的用户的个数。
行为特征获取单元202,用于利用PCA(Principal Component Analysis,主成分分析)方法对tf-idf值矩阵生成单元201的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并且将Bi表示为第i个用户的行为特征。
具体地,行为特征获取单元202利用PCA对步骤S1中的tf-idf值矩阵U在行方向上降维,维度降至2048维,记降维后的矩阵为U′,则U′的维度为m*2048。记矩阵U′的第i行的行向量为U′i,且记U′i的转置为并且用Bi表示 并将Bi表示为第i个用户的行为特征向量。
视频切分单元203,用于对于任何一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段,在本发明具体实施例中,每个视频片断由连续16帧组成,去除末尾少于16帧的片段。
视频特征获取单元204,用于对于任意一个视频,根据视频切分单元203得到该视频的视频片段,将视频片段分别输入预训练好的Pseudo-3D Residual Net,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对一个视频的各个视频片段特征取平均,作为整个视频的视频特征,将第j个视频的视频特征记为Vj
假设第j个视频可以切分成k个由连续16帧组成的视频片段,将该k个视频片段分别输入预训练好的Pseudo-3D Residual Net,提取网络最后一层池化层的输出作为该视频片段的特征向量,从而得到k个视频片段特征向量,分别记为Vj1,…,Vjk,然后将这k个向量取平均,作为整个视频的视频特征向量,并记为Vj,即
选词单元205,用于计算所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词,在本发明具体实施例中,选词单元205取排序中前2048个词。
具体地,记所有视频的文本标题中的词语组成的词库为C,计算词库C中每个词的逆向文档频率,逆向文档频率由以下公式计算:
其中idfw表示词库C中第w个词的逆向文档频率,n表示数据集中的视频总数,表示包含词库C中第w个词的文本标题的个数。
然后,根据计算获得的逆向文档频率对词从大到小排序,取前2048个词,并将这2048个词组成的集合记为C′。
标题特征获取单元206,用于对于任何一个视频的文本标题,分别计算选词单元205选取的词在该文本标题上的词频值,然后将所选取的若干个词的频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj。在本发明具体实施例中,对于任何一个视频的文本标题,分别计算选词单元205中选取的2048个词在该文本标题上的词频值,然后将2048个词频值组成一个向量,作为视频的标题特征向量,将第j个视频的标题特征记为Tj
具体地,对于任何一个视频vidj的文本标题,分别计算从选词单元205取得的2048个词在该文本标题上的词频,然后这2048个词频组成一个向量,作为视频的标题特征向量,记为Tj,即Tj=(tf1,j,tf2,j,...,tf2048,j)T,其中(tf1,j,tf2,j,...,tf2048,j)T表示行向量(tf1,j,tf2,j,...,tf2048,j)的转置,词频tfw,j由以下公式计算:
其中tfw,j表示2048个词里的第w个词在第j个视频的文本标题下的词频,cw,j表示第w个词在第j个视频的文本标题中出现的次数,Lj表示第j个视频的文本标题中的词语总数。
特征向量计算单元207,用于对于数据集中任意一条记录(uidi,vidj),根据行为特征获取单元202、视频特征获取单元204和标题特征获取单元206得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,分别将行为特征Bi与视频特征Vj以及视频的标题特征Tj进行外积运算,得到矩阵M1与M2,并分别对矩阵M1、M2进行行方向的平均运算,得到一个向量O1与向量O2,最后将向量O1与O2的对应元素相乘,得到该条记录的最终的特征向量。
具体地,将数据集中任何一条用户观看视频的记录简记为(uidi,vidj),表示第i个用户uidi观看第j个视频vidj。根据行为特征获取单元202、视频特征获取单元204和标题特征获取单元206,可以得到该记录的行为特征Bi、视频特征Vj和标题特征Tj,然后行为特征Bi分别与视频特征Vj和标题特征Tj进行外积运算,分别得到矩阵M1和M2,具体计算公式如下:
M1=BiVj T
M2=BiTj T
其中Vj T和Tj T分别表示Vj和Tj的转置,BiVj T表示Bi与Vj T进行矩阵乘法运算,BiTj T同理。
然后分别对M1和M2进行行方向上的平均运算,得到列向量O1和O2。将O1和O2的第i个元素分别记为O1(i)和O1(i),将M1(i,j)记为M1在第i行第j列上的元素,将M2(i,j)记为M2在第i行第j列上的元素,则O1和O2的计算公式如下:
最后列向量O1和O2进行对应元素的相乘,得到最终的特征向量F。将F的第i个元素记为F(i),则F具体的计算公式如下:
F(i)=O1(i)*O2(i)。
综上所述,本发明一种多模态的短视频推荐系统中的特征构造方法及系统通过建立tf-idf值矩阵,对该矩阵在行方向上降维,并得到用户的行为特征,然后通过对任一视频切分成片段,将各视频片段输入预训练好的伪三维残差网络获得各片段的视频片段特征向量,并进行平均获得视频的视频特征,并根据所有视频文本标题组成的词库中每个词的逆向文档频率值选若干词,对任一视频的文本标题,计算所选词在文本标题上的词频值,获得标题特征向量,最后对任一记录,根据其行为特征、视频特征和标题特征计算得到最终特征向量,可实现提高多模态的短视频推荐系统的推荐效果的目的。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种多模态的短视频推荐系统中的特征构造方法,包括如下步骤:
步骤S1,对于数据集中的任意一个用户与任意一个视频,分别计算该用户观看各个视频的次数以及观看过该视频的用户个数,计算各个视频对于各用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵U;
步骤S2,利用PCA方法对步骤S1的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并将Bi表示为第i个用户的行为特征向量;
步骤S3,对于任意一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段;
步骤S4,对于任意一个视频,根据步骤S3得到的视频片段,将各视频片段分别输入预训练好的伪三维残差网络,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对该视频的各个视频片段特征取平均,作为该视频的视频特征,将第j个视频的视频特征记为Vj
步骤S5,计算数据集中所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词;
步骤S6,对于任何一个视频的文本标题,分别计算步骤S5中的选取的词在该文本标题上的词频值,将所选取的若干个词的词频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj
步骤S7,对于数据集中任意一条记录,根据步骤S2、步骤S4和步骤S6得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,根据该记录对应的行为特征Bi、视频特征Vj和标题特征Tj计算得到该条记录的最终的特征向量。
2.如权利要求1所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于,于步骤S1中,假设数据集中有m个用户和n个视频,以及各用户观看各视频的记录,所述tf-idf值矩阵U的维度为m*n,Uij表示第i个用户对应第j个视频的tf-idf值,Uij由以下公式计算:
其中tfij表示第i个用户观看第j个视频的次数,dfj表示观看过视频vidj的用户的个数,记第i个用户的ID为uidi,记第j个视频的ID为vidj
3.如权利要求2所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于:于步骤S2中,利用PCA对步骤S1中的tf-idf值矩阵U在行方向上降维,维度降至2048维,则U′的维度为m*2048。
4.如权利要求3所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于:于步骤S3中,每个视频片断由连续16帧组成,并去除末尾少于16帧的片段。
5.如权利要求4所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于,于步骤S5中,所述逆向文档频率由以下公式计算:
其中idfw表示词库C中第w个词的逆向文档频率,n表示数据集中的视频总数,表示包含词库C中第w个词的文本标题的个数。
6.如权利要求5所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于:于步骤S5中,取排序中前2048个词。
7.如权利要求6所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于:于步骤S6中,对于任何一个视频的文本标题,分别计算步骤S5中选取的2048个词在该文本标题上的词频值,然后将2048个词频值组成一个向量,作为视频的标题特征向量,将第j个视频的标题特征记为Tj
8.如权利要求7所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于,所述词频tfw,j采用如下公式计算获得:
其中tfw,j表示2048个词里的第w个词在第j个视频的文本标题下的词频,cw,j表示第w个词在第j个视频的文本标题中出现的次数,Lj表示第j个视频的文本标题中的词语总数。
9.如权利要求1所述的一种多模态的短视频推荐系统中的特征构造方法,其特征在于:于步骤S7中,分别将行为特征Bi与视频特征Vj以及视频的标题特征Tj进行外积运算,得到矩阵M1与M2,并分别对矩阵M1、M2进行行方向的平均运算,分别得到一个向量O1与向量O2,最后将向量O1与O2的对应元素相乘,得到该条记录的最终的特征向量。
10.一种多模态的短视频推荐系统中的特征构造系统,包括:
tf-idf值矩阵生成单元,用于对于数据集中的任意一个用户与任意一个视频,分别计算该用户观看各个视频的次数以及观看过该视频的用户个数,计算各个视频对于各用户的tf-idf值,并将所有用户对于每个视频的tf-idf值组成一个tf-idf值矩阵U;
行为特征获取单元,用于利用PCA方法对所述tf-idf值矩阵生成单元的tf-idf值矩阵U在行方向上降维,记降维后的矩阵为U′,对U′的任意一行i的行向量的转置记为Bi,并将Bi表示为第i个用户的行为特征向量;
视频切分单元,用于对于任意一个视频,将视频切分成片段,每个视频片段由连续N帧组成,去除末尾少于N帧的片段;
视频特征获取单元,用于对于任意一个视频,根据所述视频切分单元得到的视频片段,将各视频片段分别输入预训练好的Pseudo-3D Residual Net,提取网络最后一层池化层的输出,作为该片段的视频片段特征向量,并对该视频的各个视频片段特征取平均,作为该视频的视频特征,将第j个视频的视频特征记为Vj
选词单元,用于计算数据集中所有视频的文本标题组成的词库中每个词的逆向文档频率值,根据逆向文档频率值对词从大到小排序,并选取若干词;
标题特征获取单元,用于对于任何一个视频的文本标题,分别计算所述选词单元中的选取的词在该文本标题上的词频值,将所选取的若干个词的频值组成一个向量,作为该视频的标题特征向量,将第j个视频的标题特征记为Tj
特征向量计算单元,用于对于数据集中任意一条记录,根据行为特征获取单元、视频特征获取单元和标题特征获取单元得到的该记录对应的行为特征Bi、视频特征Vj和标题特征Tj,根据该记录对应的行为特征Bi、视频特征Vj和标题特征Tj计算得到该条记录的最终的特征向量。
CN201910442005.2A 2019-05-24 2019-05-24 一种多模态的短视频推荐系统中的特征构造方法及系统 Active CN110245261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910442005.2A CN110245261B (zh) 2019-05-24 2019-05-24 一种多模态的短视频推荐系统中的特征构造方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910442005.2A CN110245261B (zh) 2019-05-24 2019-05-24 一种多模态的短视频推荐系统中的特征构造方法及系统

Publications (2)

Publication Number Publication Date
CN110245261A true CN110245261A (zh) 2019-09-17
CN110245261B CN110245261B (zh) 2022-09-09

Family

ID=67885099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910442005.2A Active CN110245261B (zh) 2019-05-24 2019-05-24 一种多模态的短视频推荐系统中的特征构造方法及系统

Country Status (1)

Country Link
CN (1) CN110245261B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN117612072A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于动态时空图的视频理解方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
US20180293313A1 (en) * 2015-10-23 2018-10-11 Alexander G. Hauptmann Video content retrieval system
CN109325146A (zh) * 2018-11-12 2019-02-12 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006368A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
US20180293313A1 (en) * 2015-10-23 2018-10-11 Alexander G. Hauptmann Video content retrieval system
CN109325146A (zh) * 2018-11-12 2019-02-12 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N.MUTHURASU等: "Movie recommendation system using term frequency-inverse document frequency and cosine similarity method", 《INTERNATIONAL JOURNAL OF RECENT TECHNOLOGY AND ENGINEERING》 *
王娜等: "一种基于用户播放行为序列的个性化视频推荐策略", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
CN117612072A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于动态时空图的视频理解方法
CN117612072B (zh) * 2024-01-23 2024-04-19 中国科学技术大学 一种基于动态时空图的视频理解方法

Also Published As

Publication number Publication date
CN110245261B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
Tuan et al. 3D convolutional networks for session-based recommendation with content features
CN108763362B (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
US10387431B2 (en) Video recommendation based on video titles
US8010536B2 (en) Combination of collaborative filtering and cliprank for personalized media content recommendation
CN105677715B (zh) 一种基于多用户的视频推荐方法及装置
US20150205580A1 (en) Method and System for Sorting Online Videos of a Search
CN104199896A (zh) 基于特征分类的视频相似度确定及视频推荐方法
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN106131703A (zh) 一种视频推荐的方法和终端
CN106686460B (zh) 一种视频节目推荐方法及视频节目推荐装置
WO2012036736A1 (en) Generating product recommendations
US20170068870A1 (en) Using image similarity to deduplicate video suggestions based on thumbnails
CN103324686B (zh) 基于文本流网络的实时个性化视频推荐方法
CN110245261A (zh) 一种多模态的短视频推荐系统中的特征构造方法及系统
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN106897398A (zh) 一种视频展示方法及装置
CN114357201B (zh) 基于信息感知的视听推荐方法、系统
CN109213933A (zh) 内容项推荐方法、装置、设备及存储介质
Immaneni et al. A meta-level hybridization approach to personalized movie recommendation
Mai-Nguyen et al. BIDAL-HCMUS@ LSC2020: an interactive multimodal lifelog retrieval with query-to-sample attention-based search engine
Jalui et al. FlixTime: group movie recommendation system
CN116521935A (zh) 一种信息推荐方法、装置及电子设备
Vispute et al. Automatic personalized marathi content generation
Ghanwat et al. Improved personalized recommendation system with better user experience
Pahuja et al. A Review On Recent Approaches to Recommendation System Model Using Distinct Product Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Lin Jing

Inventor after: Wang Qing

Inventor after: Chen Bingcheng

Inventor before: Chen Bingcheng

Inventor before: Lin Jing

Inventor before: Wang Qing

CB03 Change of inventor or designer information