CN112861001B - 数字内容的推荐值生成方法、装置、电子设备及存储介质 - Google Patents
数字内容的推荐值生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112861001B CN112861001B CN202110190302.XA CN202110190302A CN112861001B CN 112861001 B CN112861001 B CN 112861001B CN 202110190302 A CN202110190302 A CN 202110190302A CN 112861001 B CN112861001 B CN 112861001B
- Authority
- CN
- China
- Prior art keywords
- digital content
- feature vector
- target digital
- attribute
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 267
- 230000006870 function Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 10
- 230000008485 antagonism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种数字内容的推荐值生成方法、装置、电子设备及存储介质;方法包括:根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。本发明的适用范围更广,对于刚在市场上流通的数字内容,或影响力尚处于上升期的数字内容,所生成的推荐值的准确率更高。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数字内容的推荐值生成方法、装置、电子设备及存储介质。
背景技术
数字内容是指以数字形式存在的文本、图像、声音等内容,它可以通过网络等手段传播。常见的数字内容有数字图书、数字影像、数字音乐等。
目前在网络上传播的数字内容数量庞大,如何评估这些数字内容的质量,从而向用户推荐高质量、受欢迎的数字内容是一个亟待解决的问题。
现有技术中存在利用机器学习的方法来生成数字内容推荐值的方法。以网文形式的数字图书为例,现有技术中的方法总体上是基于某一数字图书在数字图书领域的表现数据(如总推荐量、收藏数、评论数、打赏数、总回复数等)及该数字图书的总字数等自变量,以该数字图书的点击量为因变量,之后通过如M5模型树、随机森林等传统机器学习方法来拟合该数字图书点击率与总推荐量、收藏数等数字图书表现数据的关系,通过拟合后的模型,基于该数字图书表现数据来预估该数字图书的推荐值。
此类方法理论上只能预测市场上已成熟的数字内容的推荐值,如果数字内容刚在市场上流通或数字内容的影响力尚处于上升期内,那么采用现有技术方法来生成数字内容的推荐值就会存在偏差。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种数字内容的推荐值生成方法、装置、电子设备及存储介质。
第一方面,本发明提供一种数字内容的推荐值生成方法,包括:
根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;
根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
根据本发明提供的一种数字内容的推荐值生成方法,所述目标数字内容的文本描述信息包括第一文本描述信息以及第二文本描述信息,所述第一文本描述信息的内容多于所述第二文本描述信息的内容;
相应的,所述根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量,包括:
将目标数字内容的属性信息输入预先训练的属性特征向量生成模型,得到目标数字内容的属性特征列向量;其中,所述属性特征向量生成模型是基于样本数字内容的属性信息训练得到的;
根据所述第一文本描述信息得到目标数字内容的关键词信息,融合所述关键词信息与所述第二文本描述信息,将融合后的结果输入预先训练的内容属性特征向量生成模型,得到目标数字内容的内容属性特征向量;其中,所述内容属性特征向量生成模型是基于样本数字内容的文本描述信息训练得到的;
根据所述属性特征列向量与所述内容属性特征向量,得到目标数字内容的第一特征向量。
根据本发明提供的一种数字内容的推荐值生成方法,所述根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量,包括:
将目标数字内容的第一特征向量输入预先训练得到的第二特征向量生成模型,得到目标数字内容的第二特征向量;其中,第二特征向量生成模型是基于样本数字内容的第一特征向量、样本数字内容的全网络表现数据训练得到的;所述样本数字内容的全网络表现数据用于反映样本数字内容在全网络的受欢迎程度。
根据本发明提供的一种数字内容的推荐值生成方法,所述根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值,包括:
将目标数字内容的第二特征向量输入预先训练的推荐值生成模型,得到目标数字内容的推荐值;其中,所述推荐值生成模型是基于样本数字内容的第二特征向量以及样本数字内容的推荐值训练得到的。
根据本发明提供的一种数字内容的推荐值生成方法,方法还包括:
根据样本数字内容的属性信息,训练属性特征向量生成模型;基于训练确定的属性特征向量生成模型,得到样本数字内容的属性特征向量;
根据样本数字内容的文本描述信息,训练内容属性特征向量生成模型;基于训练确定的内容属性特征向量生成模型,得到样本数字内容的内容属性特征向量;
根据样本数字内容的属性特征向量与内容属性特征向量,得到样本数字内容的第一特征向量;
根据样本数字内容的第一特征向量以及样本数字内容的全网络表现数据,训练第二特征向量生成模型;基于训练确定的第二特征向量生成模型,得到样本数字内容的第二特征向量;
根据样本数字内容的第二特征向量以及样本数字内容的推荐值,训练推荐值生成模型。
根据本发明提供的一种数字内容的推荐值生成方法,所述第二特征向量生成模型包括生成网络和对抗网络;
相应的,所述根据样本数字内容的第一特征向量以及样本数字内容的全网络表现数据,训练第二特征向量生成模型,包括:
将样本数字内容的第一特征向量与随机噪声向量输入所述生成网络,得到样本数字内容的第三特征向量;其中,所述第三特征向量为所述生成网络训练过程中所产生的中间向量;
将所述样本数字内容的全网络表现数据做降维分解,得到样本数字内容的第四特征向量;
将所述样本数字内容的第一特征向量、所述样本数字内容的第三特征向量与所述样本数字内容的第四特征向量输入所述对抗网络;
当损失函数不收敛时,调整所述生成网络与所述对抗网络的参数,然后重新进行训练,直至损失函数收敛并确定所述生成网络、所述对抗网络的参数。
根据本发明提供的一种数字内容的推荐值生成方法,所述推荐值生成模型是基于Logistic回归模型实现的。
第二方面,本发明提供一种数字内容的推荐值生成装置,包括:
第一特征向量生成模块,用于根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
第二特征向量生成模块,用于根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映目标数字内容受欢迎程度的特征向量;
推荐值生成模块,用于根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面所述数字内容的推荐值生成方法的步骤。
第四方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面所述数字内容的推荐值生成方法的步骤。
本发明实施例提供的数字内容的推荐值生成方法、装置、电子设备及存储介质,通过目标数字内容的属性信息、目标数字内容的文本描述信息来预测目标数字内容的推荐值。这一过程并不依赖于目标数字内容实际的市场表现,因此,无论目标数字内容是刚在市场上流通,还是已经在市场上流通了一段时间,都不会对推荐值的生成过程产生影响。本发明的数字内容的推荐值生成方法的适用范围更广,对于刚在市场上流通的数字内容,或影响力尚处于上升期的数字内容,所生成的推荐值的准确率更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的数字内容的推荐值生成方法的流程图之一;
图2为本发明提供的数字内容的推荐值生成方法的信息走向图之一;
图3为本发明另一实施例提供的数字内容的推荐值生成方法的流程图之二;
图4为本发明提供的数字内容的推荐值生成方法的信息走向图之二;
图5为本发明提供的数字内容的推荐值生成装置的示意图;
图6为本发明所涉及的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的数字内容的推荐值生成方法的流程图之一,图2为本发明提供的数字内容的推荐值生成方法的信息走向图之一;如图1和图2所示,本发明提供的数字内容的推荐值生成方法包括:
步骤101、根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量。
在本发明中,目标数字内容是指需要采用本发明的数字内容推荐值生成方法生成推荐值的数字内容。目标数字内容可以是数字图书,也可以是数字影像、数字音乐等。目标数字内容可以是市场上已成熟的数字内容,也可以是刚在市场上流通或数字内容的影响力尚处于上升期的数字内容。为了便于理解,在本实施例中,将网文形式的数字图书(简称网文图书)作为目标数字内容。其中需要说明的是,在本发明中,市场上已成熟的数字内容是指已完结,且完结后运营一定期限以上的数字内容,如已经完结且已经运营12个月以上的网文图书。
目标数字内容的属性信息(side-information)描述了目标数字内容的一些客观属性。以网文图书为例,其属性信息可包括:网文图书作品所在平台的名称、网文图书的书名、作者、版权方、网文图书标签、网文图书类别(如仙侠、玄幻、言情等)、网文图书的价格、出版时间、网文图书关键字、网文图书评论信息、网文图书类型(“连载中”还是“已完结”)、上架总字数、上榜榜单名称、榜单排名、是否有影视题材、影视题材简介等。
目标数字内容的文本描述信息是以文字的方式对目标数字内容进行描述的信息。目标数字内容的文本描述信息包括两类,一类是对目标数字内容进行详细描述的第一文本描述信息,另一类是对目标数字内容进行简单描述的第二文本描述信息。以网文图书为例,其文本描述信息包括网文图书章节内容(对应第一文本描述信息),网文图书简介(对应第二文本描述信息)。若目标数字内容为电视剧,其文本描述信息包括电视剧分集介绍(对应第一文本描述信息),电视剧的整体简介(对应第二文本描述信息)。
目标数字内容的属性信息、目标数字内容的文本描述信息可通过爬虫技术从目标数字内容的发布平台数据库获取。在本实施例中,不对其获取过程做进一步的说明。
在本实施例中,可将目标数字内容的属性信息输入预先训练的属性特征向量生成模型,由属性特征向量生成模型将目标数字内容的属性信息映射为各平台下的属性特征向量。属性特征向量的表达式为bi,其中i为平台编号。例如,网文图书A同时发布在6个网文平台上,分别获取网文图书A在6个网文平台上的属性信息后,可根据这些属性信息生成6个属性特征向量,一个属性特征向量唯一地对应一个网文平台。
各个平台下的属性特征向量经平均池化(average)后形成一个属性特征列向量b。
目标数字内容的文本描述信息包括对目标数字内容进行详细描述的第一文本描述信息,以及对目标数字内容进行简单描述的第二文本描述信息。在本实施例中,对所述第一文本描述信息C通过TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)处理,得到目标数字内容的关键词信息Kinfo,然后将目标数字内容的关键词信息Kinfo融合至目标数字内容的第二文本描述信息上,融合后的结果输入预先训练的内容属性特征向量生成模型,得到目标数字内容的内容属性特征向量c。
将目标数字内容的属性特征列向量b与目标数字内容的内容属性特征向量c进行组合,得到目标数字内容的第一向量binfo。从对第一特征向量的生成过程可以看出,第一特征向量是对数字内容属性信息与文本描述信息的数字化表示。
在本实施例中,属性特征向量生成模型可基于第一Embedding网络实现,内容属性特征向量生成模型可基于第二Embedding网络实现。所述第一Embedding网络与第二Embedding网络均采用了Skip-Gram模型。
所采用的Embedding网络能够克服因为数据稀疏导致模型难以训练的问题,同时,embedding后的数据可以很好的保留数据原有的信息。
属性特征向量生成模型是基于样本数字内容的属性信息训练得到的;内容属性特征向量生成模型是基于样本数字内容的文本描述信息训练得到的。在本实施例中,属性特征向量生成模型与内容属性特征向量生成模型均已经预先训练完成,在其他实施例中,将对属性特征向量生成模型与内容属性特征向量生成模型的训练过程进行描述。
步骤102、根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量。
第二特征向量是用于反映数字内容受欢迎程度的特征向量。
一般而言,通过一些指标值可反映数字内容受欢迎程度。以网文图书为例,以下指标中的一种或多种可用于反映数字内容的受欢迎程度:浏览量、收藏量、推荐量、分享量、评论数、打赏量、评分人数、网文图书得分、粉丝量、点赞量、榜单排名、人气数、阅读用户数、网文图书收入等。
但由于上述指标值会受到目标数字内容在市场上运营时间的影响,因此,在本发明中,不直接使用上述指标值来得到目标数字内容的推荐值,而是通过第二特征向量来得到目标数字内容的推荐值。
将目标数字内容的第一特征向量输入预先训练得到的第二特征向量生成模型,得到目标数字内容的第二特征向量。其中,第二特征向量生成模型是基于样本数字内容的第一特征向量、样本数字内容的全网络表现数据训练得到的;所述样本数字内容的全网络表现数据用于反映样本数字内容在全网络的受欢迎程度。
在本实施例中,所述第二特征向量生成模型为生成对抗网络(GAN,GenerativeAdversarial Networks),包括生成网络和对抗网络。生成网络的参数在训练过程中通过生成网络与对抗网络之间的互相博弈学习确定。在本实施例中,第二特征向量生成模型已经训练完成,因此生成网络的参数已经确定。
将目标数字内容的第一特征向量输入生成网络后,生成网络可输出目标数字内容的第二特征向量。
在本发明的其他实施例中,将对第二特征向量生成模型的训练过程进行说明。
步骤103、根据目标数字内容的第二特征向量,得到目标数字内容的推荐值。
目标数字内容的推荐值能够反映目标数字内容潜在的受欢迎程度。一般来说,推荐值高的数字内容受用户欢迎的可能性更大,因此更值得向用户推荐。推荐值可以是数字的形式,如在1-10的范围内,数字越大,代表推荐值越高;推荐值也可以是等级的形式,如高级、中级、低级等。
在本实施例中,将目标数字内容的第二特征向量输入预先训练的推荐值生成模型,得到目标数字内容的推荐值。
所述推荐值生成模型为Logistic回归模型。在预先的训练过程中,基于样本数字内容的第二特征向量以及样本数字内容的推荐值,可确定Logistic回归模型中的各个参数的值。在本实施例中,将目标数字内容的第二特征向量输入Logistic回归模型,可直接得到目标数字内容的推荐值。在本发明的其他实施例中,将对推荐值生成模型的具体训练过程做进一步的描述。
本发明提供的数字内容的推荐值生成方法通过目标数字内容的属性信息、目标数字内容的文本描述信息来预测目标数字内容的推荐值。这一过程并不依赖于目标数字内容实际的市场表现,因此,无论目标数字内容是刚在市场上流通,还是已经在市场上流通了一段时间,都不会对推荐值的生成过程产生影响。本发明的数字内容的推荐值生成方法的适用范围更广,对于刚在市场上流通的数字内容,或影响力尚处于上升期的数字内容,所生成的推荐值的准确率更高。
基于上述任一实施例,图3为本发明另一实施例提供的数字内容的推荐值生成方法的流程图之二,图4为本发明提供的数字内容的推荐值生成方法的信息走向图之二,如图3和图4所示,本发明的方法包括:
步骤301、根据样本数字内容的属性信息,训练属性特征向量生成模型;基于训练确定的属性特征向量生成模型,得到样本数字内容的属性特征向量。
样本数字内容用于训练本发明方法中所涉及的模型。样本数字内容应当是市场上已成熟的数字内容,如已经完结且已经运营12个月以上的网文图书。
在之前的实施例中,已经对属性信息做了说明,因此不在本实施例中重复说明。
在之前的实施例中已经提到,属性特征向量生成模型是基于第一Embedding网络实现的,而第一Embedding网络采用了Skip-Gram模型。
在本步骤中,可首先初始化第一Embedding网络的参数然后将样本数字内容的属性信息输入经过初始化的第一Embedding网络,得到样本数字内容在不同平台下的属性特征向量,并对不同平台下的属性特征向量进行平均池化,得到属性特征列向量。
在生成属性特征向量的同时会得到网络损失函数值L1。网络损失函数的通用计算公式为:
L=-log p(wo|wI,1,……,wI,N);
其中,p表示急活函数,如softmax函数;wo表示当前信息的编码值,wI,N表示当前信息下临近信息的编码值,N的临近的范围。
将上述网络损失函数的计算公式应用于属性特征向量的生成过程,可得到所述网络损失函数值L1。
将计算得到的网络损失函数值L1与第一阈值loss1进行比较,若当前的网络损失函数值L1小于或等于第一阈值loss1,证明第一Embedding网络收敛,则将当前的参数确定为属性特征向量生成模型的参数;若当前的网络损失函数值大于第一阈值loss1,则需要调整第一Embedding网络的参数然后将样本数字内容的属性信息重新输入经过参数调整后的第一Embedding网络,并继续执行计算网络损失函数、判断第一Embedding网络是否收敛的步骤,直至第一Embedding网络收敛,并将第一Embedding网络收敛时的参数确定为属性特征向量生成模型的参数。其中,loss1的取值可根据具体情况设定。
在属性特征向量生成模型的参数确定后,将样本数字内容的属性信息输入已确定的属性特征向量生成模型,得到样本数字内容的属性特征向量。
步骤302、根据样本数字内容的文本描述信息,训练内容属性特征向量生成模型;基于训练确定的内容属性特征向量生成模型,得到样本数字内容的内容属性特征向量。
在之前的实施例中,已经对文本描述信息做了说明,因此不在本实施例中重复说明。
在之前的实施例中已经提到,内容属性特征向量生成模型是基于第二Embedding网络实现的,而第二Embedding网络采用了Skip-Gram模型。
在本步骤中,可首先初始化第二Embedding网络的参数λ,然后对样本数字内容的第一文本描述信息通过TF-IDF处理,得到样本数字内容的关键词信息,接着将样本数字内容的关键词信息融合至样本数字内容的第二文本描述信息上,融合后的结果输入第二Embedding网络,得到样本数字内容的内容属性特征向量。
在生成内容属性特征向量的同时会得到网络损失函数值L2。网络损失函数的计算公式在前文中已经有相应描述,此处不再重复。
将计算得到的网络损失函数值L2与第二阈值loss2进行比较,若当前的网络损失函数值L2小于或等于第二阈值loss2,证明第二Embedding网络收敛,则将当前的参数λ确定为内容属性特征向量生成模型的参数;若当前的网络损失函数值L2大于第二阈值loss2,则需要调整第二Embedding网络的参数λ。然后将样本数字内容的关键词信息与样本数字内容的第二文本描述信息的融合后结果,重新输入经过参数调整后的第二Embedding网络,并继续执行计算网络损失函数、判断第二Embedding网络是否收敛的步骤,直至第二Embedding网络收敛,并将第二Embedding网络收敛时的参数λ确定为内容属性特征向量生成模型的参数。其中,loss2的取值可根据具体情况设定。
当内容属性特征向量生成模型确定后,将样本数字内容的关键词信息与样本数字内容的第二文本描述信息的融合后结果输入内容属性特征向量生成模型,得到样本数字内容的内容属性特征向量。
步骤303、根据样本数字内容的属性特征向量与内容属性特征向量,得到样本数字内容的第一特征向量。
将样本数字内容的内容属性特征向量与样本数字内容的属性特征向量进行拼接,即可得到样本数字内容的第一特征向量。
步骤304、根据样本数字内容的第一特征向量以及样本数字内容的全网络表现数据,训练第二特征向量生成模型;基于训练确定的第二特征向量生成模型,得到样本数字内容的第二特征向量。
样本数字内容的全网表现数据是在全网络各个平台上搜集到的样本数字内容的表现数据,所述表现数据用于反映数字内容在市场上的受欢迎程度。例如,网文图书A同时发布在6个网文平台上,获取网文图书A的全网表现数据,就是要在所述6个网文平台上分别获取网文图书A的浏览量、收藏量、推荐量、分享量、评论数、打赏量、评分人数、网文图书得分、粉丝量、点赞量、榜单排名、人气数、阅读用户数、网文图书收入等表现数据。
在之前的实施例中已经提到,第二特征向量生成模型为生成对抗网络,包括生成网络和对抗网络。
本步骤具体包括:
步骤S1、初始化生成网络G的参数Φ以及对抗网络D的参数θ。
步骤S2、将样本数字内容的第一特征向量、随机噪声向量输入生成网络G,得到样本数字内容的第三特征向量其中,随机噪声向量z服从z~Np(0,I)的p维高斯分布,I为单位矩阵;所述生成网络G为多层神经网络,其网络层级LG大于2层。其中,所述第三特征向量为所述生成网络训练过程中所产生的中间向量。
步骤S3、考虑到样本数字内容的表现数据相对稀疏,将样本数字内容的全网表现数据做奇异值分解(Singular Value Decomposition,SVD),得到降维输出的m维第四特征向量o,将第四特征向量o和样本数字内容的第一特征向量以及样本数字内容的第三特征向量作为对抗网络D的输入。所述对抗网络D为多层神经网络,其网络层级LD大于2层。
根据生成对抗网络的基本原理,取交叉熵损失函数为模型的损失函数,设对抗网络D的目标函数为V(G,D),V(G,D)可以表示:
其中,E是期望表示符号;Pdata(o)是o数据分布的表示符号;z表示随机噪声向量;PΦ(z)表示z的分布;表示生成网络G当前所输出的样本数字内容的第三特征向量;o表示样本数字内容的全网表现数据经奇异值分解得到的第四特征向量;表示基于binfo下生成的概率。
基于批梯度下降法和反向传播方法优化生成网络、对抗网络的模型参数Φ和θ,直至损失函数收敛,模型训练结束,保存最后的模型参数,记为Φ’和θ’。若损失函数不收敛,则调整生成网络G的参数Φ以及对抗网络D的参数θ,然后重新执行之前的步骤S2。
当第三特征向量生成模型确定后,将样本数字内容的第一特征向量输入确定后的第二特征向量生成模型,即可得到样本数字内容的第二特征向量。
步骤305、根据样本数字内容的第二特征向量以及样本数字内容的推荐值,训练推荐值生成模型。
其中,α为偏置项,f为logistic回归函数。
确定数字内容推荐值的问题可视为回归问题,取回归问题的均方差损失函数为:
为防止梯度爆炸或者梯度损失等问题,在原始损失函数添加一系列惩罚项,之后构建拉格朗日损失函数,拉格朗日损失函数的表达式为:
其中,Ω(ψ)为范数惩罚项,约束问题的解为:
当logistic回归模型收敛后,ψ*的值确定;根据现有技术,可由ψ*求得对应的α*值。
步骤306、根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量。
步骤307、根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量。
步骤308、根据目标数字内容的第二特征向量,得到目标数字内容的推荐值。
步骤306—步骤308的实现与本发明前一实施例所描述的步骤101—步骤303并无本质区别,因此不在本实施例中做重复说明。
本发明提供的数字内容的推荐方法通过样本数字内容的属性信息、文本描述信息以及全网络表现数据来训练相关的模型,从而使得在模型训练完成后,可通过目标数字内容的属性信息、目标数字内容的文本描述信息来预测目标数字内容的推荐值。这一过程并不依赖于目标数字内容实际的市场表现,因此,无论目标数字内容是刚在市场上流通,还是已经在市场上流通了一段时间,都不会对推荐值的生成过程产生影响。本发明的数字内容的推荐值生成方法的适用范围更广,对于刚在市场上流通的数字内容,或影响力尚处于上升期的数字内容,所生成的推荐值的准确率更高。
基于上述任一实施例,图5为本发明提供的数字内容的推荐值生成装置的示意图,如图5所示,本发明提供的数字内容的推荐值生成装置包括:
第一特征向量生成模块501,用于根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
第二特征向量生成模块502,用于根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映目标数字内容受欢迎程度的特征向量;
推荐值生成模块503,用于根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
本发明提供的数字内容的推荐值生成装置通过目标数字内容的属性信息、目标数字内容的文本描述信息来预测目标数字内容的推荐值。这一过程并不依赖于目标数字内容实际的市场表现,因此,无论目标数字内容是刚在市场上流通,还是已经在市场上流通了一段时间,都不会对推荐值的生成过程产生影响。本发明的数字内容的推荐值生成方法的适用范围更广,对于刚在市场上流通的数字内容,或影响力尚处于上升期的数字内容,所生成的推荐值的准确率更高。
图6为本发明所涉及的电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:
根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;
根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图6所示的处理器610、通信接口620、存储器630和通信总线640,其中处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信,且处理器610可以调用存储器630中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;
根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;
根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;
根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种数字内容的推荐值生成方法,其特征在于,包括:
根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;所述文本描述信息包括对目标数字内容进行详细描述的第一文本描述信息和对目标数字内容进行简单描述的第二文本描述信息;
根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映数字内容受欢迎程度的特征向量;
根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值;
所述根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量,包括:
将目标数字内容的属性信息输入预先训练的属性特征向量生成模型,得到目标数字内容的属性特征列向量;其中,所述属性特征向量生成模型是基于样本数字内容的属性信息训练得到的;
根据所述第一文本描述信息得到目标数字内容的关键词信息,融合所述关键词信息与所述第二文本描述信息,将融合后的结果输入预先训练的内容属性特征向量生成模型,得到目标数字内容的内容属性特征向量;其中,所述内容属性特征向量生成模型是基于样本数字内容的文本描述信息训练得到的;
根据所述属性特征列向量与所述内容属性特征向量,得到目标数字内容的第一特征向量。
2.根据权利要求1所述的数字内容的推荐值生成方法,其特征在于,所述根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量,包括:
将目标数字内容的第一特征向量输入预先训练得到的第二特征向量生成模型,得到目标数字内容的第二特征向量;其中,第二特征向量生成模型是基于样本数字内容的第一特征向量、样本数字内容的全网络表现数据训练得到的;所述样本数字内容的全网络表现数据用于反映样本数字内容在全网络的受欢迎程度。
3.根据权利要求1所述的数字内容的推荐值生成方法,其特征在于,所述根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值,包括:
将目标数字内容的第二特征向量输入预先训练的推荐值生成模型,得到目标数字内容的推荐值;其中,所述推荐值生成模型是基于样本数字内容的第二特征向量以及样本数字内容的推荐值训练得到的。
4.根据权利要求1至3任一项所述的数字内容的推荐值生成方法,其特征在于,方法还包括:
根据样本数字内容的属性信息,训练属性特征向量生成模型;基于训练确定的属性特征向量生成模型,得到样本数字内容的属性特征向量;
根据样本数字内容的文本描述信息,训练内容属性特征向量生成模型;基于训练确定的内容属性特征向量生成模型,得到样本数字内容的内容属性特征向量;
根据样本数字内容的属性特征向量与内容属性特征向量,得到样本数字内容的第一特征向量;
根据样本数字内容的第一特征向量以及样本数字内容的全网络表现数据,训练第二特征向量生成模型;基于训练确定的第二特征向量生成模型,得到样本数字内容的第二特征向量;
根据样本数字内容的第二特征向量以及样本数字内容的推荐值,训练推荐值生成模型。
5.根据权利要求4所述的数字内容的推荐值生成方法,其特征在于,所述第二特征向量生成模型包括生成网络和对抗网络;
相应的,所述根据样本数字内容的第一特征向量以及样本数字内容的全网络表现数据,训练第二特征向量生成模型,包括:
将样本数字内容的第一特征向量与随机噪声向量输入所述生成网络,得到样本数字内容的第三特征向量;其中,所述第三特征向量为所述生成网络训练过程中所产生的中间向量;
将所述样本数字内容的全网络表现数据做降维分解,得到样本数字内容的第四特征向量;
将所述样本数字内容的第一特征向量、所述样本数字内容的第三特征向量与所述样本数字内容的第四特征向量输入所述对抗网络;
当损失函数不收敛时,调整所述生成网络与所述对抗网络的参数,然后重新进行训练,直至损失函数收敛并确定所述生成网络、所述对抗网络的参数。
6.根据权利要求4所述的数字内容的推荐值生成方法,其特征在于,所述推荐值生成模型是基于Logistic回归模型实现的。
7.一种数字内容的推荐值生成装置,其特征在于,包括:
第一特征向量生成模块,用于根据目标数字内容的属性信息以及目标数字内容的文本描述信息,得到目标数字内容的第一特征向量;所述文本描述信息包括对目标数字内容进行详细描述的第一文本描述信息和对目标数字内容进行简单描述的第二文本描述信息;
第二特征向量生成模块,用于根据目标数字内容的第一特征向量,得到目标数字内容的第二特征向量;其中,所述第二特征向量是用于反映目标数字内容受欢迎程度的特征向量;
推荐值生成模块,用于根据所述目标数字内容的第二特征向量,得到所述目标数字内容的推荐值;
所述第一特征向量生成模块具体用于:
将目标数字内容的属性信息输入预先训练的属性特征向量生成模型,得到目标数字内容的属性特征列向量;其中,所述属性特征向量生成模型是基于样本数字内容的属性信息训练得到的;
根据所述第一文本描述信息得到目标数字内容的关键词信息,融合所述关键词信息与所述第二文本描述信息,将融合后的结果输入预先训练的内容属性特征向量生成模型,得到目标数字内容的内容属性特征向量;其中,所述内容属性特征向量生成模型是基于样本数字内容的文本描述信息训练得到的;
根据所述属性特征列向量与所述内容属性特征向量,得到目标数字内容的第一特征向量。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述数字内容的推荐值生成方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述数字内容的推荐值生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190302.XA CN112861001B (zh) | 2021-02-18 | 2021-02-18 | 数字内容的推荐值生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110190302.XA CN112861001B (zh) | 2021-02-18 | 2021-02-18 | 数字内容的推荐值生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861001A CN112861001A (zh) | 2021-05-28 |
CN112861001B true CN112861001B (zh) | 2023-04-28 |
Family
ID=75989769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110190302.XA Active CN112861001B (zh) | 2021-02-18 | 2021-02-18 | 数字内容的推荐值生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861001B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5771573B2 (ja) * | 2012-07-19 | 2015-09-02 | 日本電信電話株式会社 | コンテンツ評価値予測装置、方法、及びプログラム |
CN105975641A (zh) * | 2016-07-15 | 2016-09-28 | 合网络技术(北京)有限公司 | 视频推荐方法及装置 |
CN107679960B (zh) * | 2017-10-12 | 2020-06-09 | 东北大学 | 一种基于服装图像和标签文本双模态内容分析的个性化服装的推荐方法 |
CN109190046A (zh) * | 2018-09-18 | 2019-01-11 | 北京点网聚科技有限公司 | 内容推荐方法、装置及内容推荐服务器 |
CN110490637A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 商品组的推荐方法、装置、电子设备及可读存储介质 |
CN110413894B (zh) * | 2019-07-31 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 内容推荐模型的训练方法、内容推荐的方法及相关装置 |
-
2021
- 2021-02-18 CN CN202110190302.XA patent/CN112861001B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112861001A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807154B (zh) | 一种基于混合深度学习模型的推荐方法与系统 | |
CN108959396B (zh) | 机器阅读模型训练方法及装置、问答方法及装置 | |
CN111460130B (zh) | 信息推荐方法、装置、设备和可读存储介质 | |
CN111310063B (zh) | 基于神经网络的记忆感知门控因子分解机物品推荐方法 | |
CN110929515A (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
CN112231582B (zh) | 一种基于变分自编码数据融合的网站推荐方法和设备 | |
CN114528898A (zh) | 基于自然语言命令的场景图修改 | |
CN113987155B (zh) | 一种融合知识图谱与大规模用户日志的会话式检索方法 | |
CN113051468B (zh) | 一种基于知识图谱和强化学习的电影推荐方法及系统 | |
CN116601626A (zh) | 个人知识图谱构建方法、装置及相关设备 | |
CN115269847A (zh) | 基于知识增强句法异构图的方面级情感分类方法 | |
CN112699310A (zh) | 基于深度神经网络的冷启动跨域混合推荐的方法及系统 | |
CN117058276B (zh) | 图像生成方法、装置、设备及存储介质 | |
CN110688585A (zh) | 一种基于神经网络和协同过滤的个性化电影推荐方法 | |
CN117828049A (zh) | 数据处理方法及相关装置 | |
Wang et al. | Online course recommendation algorithm based on multilevel fusion of user features and item features | |
CN108665182B (zh) | 一种专利诉讼风险预测方法 | |
Li et al. | Self-supervised bot play for transcript-free conversational recommendation with rationales | |
CN112861001B (zh) | 数字内容的推荐值生成方法、装置、电子设备及存储介质 | |
CN114936723B (zh) | 一种基于数据增强的社交网络用户属性预测方法及系统 | |
CN111177580A (zh) | 一种利用多重隐式反馈实现个性化推荐的方法 | |
CN113343121B (zh) | 基于多粒度流行度特征的轻量级图卷积协同过滤推荐方法 | |
CN114443916B (zh) | 一种面向试验数据的供需匹配方法及系统 | |
CN110659962B (zh) | 一种商品信息输出方法及相关装置 | |
Dangol et al. | Short Updates-Machine Learning Based News Summarizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |