CN114912011A - 一种基于内容提取与评分预测的视频推荐方法 - Google Patents
一种基于内容提取与评分预测的视频推荐方法 Download PDFInfo
- Publication number
- CN114912011A CN114912011A CN202111614136.8A CN202111614136A CN114912011A CN 114912011 A CN114912011 A CN 114912011A CN 202111614136 A CN202111614136 A CN 202111614136A CN 114912011 A CN114912011 A CN 114912011A
- Authority
- CN
- China
- Prior art keywords
- video
- content
- algorithm
- similarity matrix
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于内容提取与评分预测的视频推荐方法。本发明对视频内容描述进行相关的文本分析,提取视频的关键词等信息,并将视频特征转化为文本向量,计算不同视频间的内容相似度矩阵。同时使用相关的关键词信息构建知识图谱,采用基于路径的知识推理,计算相邻或非相邻视频内容实体间的相关性。使用评论感知算法对视频进行用户评分预测,以预测评分作为增强因子,对融合内容提取与知识推理所得相似度矩阵进行计算,以得到推荐模型。
Description
技术领域
本发明涉及数据挖掘领域,主要涉及视频推荐基于内容提取与评分预测的视频推荐。
背景技术
随着互联网的广泛传播与网络信息的飞速增长,视频节目已成为人们在日常生活中接收的主要媒体资源类型,但由于视频资源的爆发式产生与宣传上新,大众已经处于一种信息过载的环境当中,只凭借自身经验主动使用分类或搜索来查询,很难有效地发现满意的高质量视频资源。
对于IPTV相关的影视内容产品,目前用户在移动端和TV端都可以进行浏览或订购,但产品资源的上架展示主要由运营配置,依赖于其个体经验,产品选择的范围或方向相对固定偏窄,不具备灵活性,无法对用户做到个性化的内容推送,以进一步提升用户的黏性与转化率。
推荐系统作为一种有效的信息过滤与内容推送手段,能够通过内容之间相互的推荐机制,使得用户被动地获取到潜在感兴趣的内容。
常见的推荐方法主要是使用用户历史行为数据来进行分析推荐,通过机器学习模型或矩阵分解等方法得到用户可能感兴趣的视频,但在向用户推荐过程中,无法为用户提供通俗易懂的解释(即推荐原因)。同时以评论作为推荐信息的算法,往往通过文本分析提取与视频相关的内容标签来作为用户偏好因素,用于不同视频间的推荐计算,而忽略了用户在评价过程中的情感表达。
因此,需要一种方案来向用户推荐感兴趣的、且质量评价更优的视频。
发明内容
提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本发明对视频内容描述进行相关的文本分析,提取视频的关键词等信息,并将视频特征转化为文本向量,计算不同视频间的内容相似度矩阵。同时使用相关的关键词信息构建知识图谱,采用基于路径的知识推理,计算相邻或非相邻视频内容实体间的相关性。使用评论感知算法对视频进行用户评分预测,以预测评分作为增强因子,对融合内容提取与知识推理所得相似度矩阵进行计算得到推荐模型。
根据本发明的一个实施例,公开了一种基于内容提取与评分预测的视频推荐方法,包括:提取视频的文本内容,以生成视频内容的关键词集合;基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵;基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型对所述知识图谱进行知识推理,以构建基于知识推理的相似度矩阵;用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数;以及通过融合因子,将构建的基于内容提取的相似度矩阵以及构建的基于知识推理的相似度矩阵进行融合,得到最终的推荐模型,其中所述融合因子基于所述预测分数。
根据本发明的另一个实施例,公开了一种基于内容提取与评分预测的视频推荐系统,包括:视频内容相似度矩阵获取模块,包括基于内容提取的相似度矩阵获取模块和基于知识推理的相似度矩阵获取模块,其中所述视频内容相似度矩阵获取模块被配置为提取视频的文本内容,以生成视频内容的关键词集合,其中所述基于内容提取的相似度矩阵获取模块被配置为基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵,并且其中所述基于知识推理的相似度矩阵获取模块被配置为基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型对所述知识图谱进行知识推理,以构建基于知识推理的相似度矩阵;预测分数获取模块,所述预测分数获取模块被配置为用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数;以及推荐模型生成模块,所述推荐模型生成模块被配置为通过融合因子,将构建的基于内容提取的相似度矩阵以及构建的基于知识推理的相似度矩阵进行融合,得到最终的推荐模型,其中所述融合因子基于所述预测分数。
根据本发明的另一个实施例,公开了一种用于基于内容提取与评分预测的视频推荐的计算设备,包括:处理器;存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如上所述的方法。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
为了能详细地理解本发明的上述特征所用的方式,可以参照各实施例来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中示出。然而应该注意,附图仅示出了本发明的某些典型方面,故不应被认为限定其范围,因为该描述可以允许有其它等同有效的方面。
图1示出了根据本发明的一个实施例的用于基于内容提取与评分预测的视频推荐系统100的框图;
图2示出了根据本发明的一个实施例的用于基于内容提取与评分预测的视频推荐方法200的流程图;以及
图3出了根据本发明的一个实施例的示例性计算设备的框图300。
具体实施方式
下面结合附图详细描述本发明,本发明的特点将在以下的具体描述中得到进一步的显现。
以下为在本发明中使用的术语的解释,其包括本领域的技术人员所熟知的一般含义:
知识图谱:一种基于图的数据结构,每个节点表示“实体”(可以是具体的人、事、物体,也可以是抽象的概念),每条边表示实体与实体之间的“关系”。由{实体,关系,实体}所构成的三元组为知识图谱表达或存储的基本单位。
TextRank算法:一种基于图的用于关键词抽取和文档摘要的排序算法,它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词,它能够从一个给定的文本中抽取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法抽取出该文本的关键句。
PTransE算法:是TransE算法的拓展。TransE算法基于实体和关系的分布式向量表示,将三元组的关系看作从头实体到尾实体的翻译。最终目的是将知识库中所有的实体、关系表示成低维向量。然而,TransE算法中仅仅考虑了实体之间的直接关系,而现实中有很多信息不能通过直接推理得到,所以这个时候单步推理就不适用了,PTransE算法就是采用多步推理的方法进行知识推理。
SentiRec算法:一种具有评论感知的推荐模型。在建模用户和商品时结合评论的情感信息。SentiRec方法有两步组成:1.纳入评论情感,包括将每个评论编码为体现评论情感的固定长度评论向量;2.对评论向量进行训练以体现评论文本的情感,生成推荐。
CNN:卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。
目前,IPTV视频内容主要由运营人员通过后台配置展示,并基本只提供给用户分类检索和全局搜索等方式来获取,无法向用户主动提供个性化的视频推荐。在向用户推荐视频内容时,往往缺乏明示的推荐原因(即推荐的可解释性),用户体验不佳,且推荐的视频范围不够广,产品推荐呈现的覆盖率低。此外,用户评论中的情感表达信息往往在推荐过程中被忽略。因此,如果将实际用户评价感受融入以视频内容分析作为主要因素的推荐过程中,可以提升推荐的有效性。
本发明结合视频本身的内容信息与用户的评论信息,采用文本数据分析、知识图谱路径推理及评论感知算法模型等技术方法,通过知识推理提高推荐的可解释性,并以带有隐含情感表达的用户评论的预测评分进行增强,为用户推荐内容相似且具备较好口碑的结果,提升推荐有效性。
图1示出了根据本发明的一个实施例的用于基于内容提取与评分预测的视频推荐系统100的框图。如图1中所示的,该系统100按模块进行划分,各模块之间通过本领域已知的方式进行通信和数据交换。在本发明中,各模块可通过软件或硬件或其组合的方式来实现。如图1所示,该系统100包括视频内容相似度矩阵获取模块101、预测分数获取模块102以及推荐模型生成模块103。视频内容相似度矩阵获取模块101进一步包括基于内容提取的相似度矩阵获取模块104和基于知识推理的相似度矩阵获取模块105。该系统100可被实现在用于提供视频推荐的服务器(例如,计算设备)上,例如IPTV服务的后台服务器,或可被分布式地实现在用于提供视频推荐的云端、或可被实现在用户设备的本地计算设备中。
总体而言,视频内容相似度矩阵获取模块101被配置为构建两个矩阵,即基于内容提取的相似度矩阵以及基于知识推理的相似度矩阵。预测分数获取模块102被配置为基于卷积神经网络的SentiRec算法来计算预测视频评分。推荐模型生成模块103被配置为将视频内容相似度矩阵获取模块101构建的基于内容提取的相似度矩阵以及基于知识推理的相似度矩阵进行融合,并使用基于预测分数获取模块102计算的预测视频评分得出的评论感知因子进行增强,由此得到推荐模型。
根据本发明的一个实施例,视频内容相似度矩阵获取模块101被配置为提取目标视频的文本内容,以生成视频内容的关键词集合。根据本发明的一个实施例,目标视频的范围并没有被具体地限制,其可指业务系统中所具有的所有视频,或者根据具体的业务需求所过滤的一种或多种类型的视频。
具体而言,对于本身缺少文本描述的目标视频,先进行关键帧提取,再通过OCR(光学字符识别)工具,识别目标视频对应的文本字幕信息。接着,采用Jieba分词工具对每个视频的描述信息(包括,主题、导演、演员以及简介等文本信息)进行分词,去掉停用词等无效词。然后通过TF-IDF算法,即以下公式(1)中的计算方法,对分词后的语料进行权重的计算,对关键词进行提取,形成视频内容的关键词集合。
其中TFij为分词后的词频概率,例如在某部电影的描述简介中,“科幻”的出现率为0.16,IDFi则为对应关键词在集合中的逆文档指数。
虽然,上文中示出了采用TF-IDF算法来进行关键词的提取,但是本领域的技术人员可以理解,也可以采用例如TextRank算法来进行关键词的提取。
根据本发明的一个实施例,基于内容提取的相似度矩阵获取模块104被配置为基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵。具体而言,通过关键词集合,计算出每个视频文本内容的词频向量Vi=(P1,i,P2,i,P3,i,P4,i,P5,i…,Pk,i),通过余弦相似度即公式(2)来进行计算,计算不同视频文本向量的相似度(即视频相似度),形成基于内容提取的相似度矩阵。
根据本发明的一个实施例,基于知识推理的相似度矩阵获取模块105被配置为基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型进行知识推理,扩展实体关系,生成基于知识推理的相似度矩阵。
具体而言,根据以上提取的基于视频内容的关键词集合来进行知识图谱的构建,并通过外部爬虫程序来补充和完善知识图谱本体构建及关系填充。一般而言,通过所提取的视频内容的关键词集合,可得到目标实体及其相关属性,之后将不同实体进行关联,得到用于构建知识图谱的三元组,例如{实体,关系,实体}。其中实体在本发明的上下文中可为视频名称,关系可为该视频与其他视频的关联关系。
在实践中,由于目标视频潜在的在种类、内容等方面的局限性,从目标视频中提取的关键词集合可能不足以构建完善的知识图谱,因此,可以采用爬虫程序从外部数据源(例如,包括结构化信息或半结构化信息的数据源,诸如百度百科、豆瓣影视等媒体资源信息数据源)来进一步提取媒体资源关键词,以构建更为充实的用于构建知识图谱的三元组。
接着,使用PTransE数据模型,在知识图谱的关系实体间通过PRA路径排序算法,发现非相邻实体间的存在路径。具体模型训练时,为减少重复数据,设置随机游走的长度为l,将得分不小于0.05的新三元组补充进为实体集合中。通过公式(3)计算基于知识推理的视频内容之间的相似度。
其中,S(v1,p,v2)表示在语义p下两个实体间的相似性度量,通过欧式距离来计算。P(p|v1,v2)表示实体v1通过P路径到达实体v2的概率,最后进行归一化处理,代入计算该条路径下的两对实体间的相似度。
根据本发明的一个实施例,预测分数获取模块102被配置为使用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数。
具体而言,使用SentiRec评论感知算法,在第一阶段,获取用户评论向量。将采集的用户评论均截取为长度为d的语句,评论集记为R,将其作为CNN的输入,卷积核设为k,窗口大小设为s,从评论集R中提取特征后送入池化层得到池化特征c,将c输入第一全连接层得到评论向量V,再送入第二全连接层得到预测评分损失函数为:
接着,按照SentiRec算法,在第二阶段,获取评论向量并预测评分。将向量化后的评论组合成两类,用户对所有视频内容的评论向量Vu和视频内容收到所有用户的评论向量Vi,将两类视频向量矩阵分别输入两个CNN,经过卷积、池化、全连接后得到用户特征Fu与商品特征Fi,将此特征内积得到基于用户评论感知的预测分数r。
根据本发明的一个实施例,推荐模型生成模块103被配置为将基于内容提取的相似度矩阵以及基于知识推理的相似度矩阵进行融合,并以评论感知得到的预测分数作为影响因子,得到最终的推荐模型。
具体而言,使用下述公式(5),通过融合因子(即,下文的评论感知因子α),将基于内容提取的相似度矩阵与知识推理的相似度矩阵进行融合,将预测分数r与评分上限的比值作为评论感知因子α进行增强,μ根据启发式规则取0.3,得到用于进行Top N(前N个)视频推荐的推荐模型。
sim=α·(μ·simi,text+(1-μ)·simi,PTranE) 公式(5)
图2示出了根据本发明的一个实施例的用于基于内容提取与评分预测的视频推荐方法200的流程图。
在步骤201,提取目标视频的文本内容,以生成视频内容的关键词集合。根据本发明的一个实施例,对于缺少媒体资源信息的视频内容,首先通过关键帧提取技术对视频内容进行关键帧提取,然后结合OCR技术对关键帧进行内容文本识别,随后补充进对应视频内容的描述。采用Jieba分词工具对每个视频的描述信息进行分词,通过TF-IDF算法,对分词后的语料进行权重的计算,对关键词进行提取,形成视频内容的关键词集合。
在步骤202,基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵。根据本方发明的一个实施例,通过TF-IDF或TextRank算法对视频的文本描述进行文本分析,将视频转换成文本向量,通过文本相似度算法(例如,余弦相似度算法)计算视频间的相似度矩阵。
在步骤203,基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型基于构建的知识图谱进行知识推理,以构建基于知识推理的相似度矩阵。根据本发明的一个实施例,针对文本内容,进行实体抽取构造知识图谱,基于PTransE算法来对知识图谱中的视频实体进行基于路径的关系推理,获取基于知识推理的视频内容相似度矩阵。具体而言,使用PTransE数据模型,在知识图谱的关系实体间通过PRA路径排序算法,发现非相邻实体间的存在路径。具体模型训练时,为减少重复数据,设置随机游走的长度为l,将得分不小于0.05的新三元组补充进为实体集合中,由此计算基于知识推理的视频内容之间的相似度。
由此,通过步骤203,能够使用知识推理手段,补充内容的关联性,采用PtransE基于路径的翻译模型,对知识图谱中的实体进行知识推理以扩展实体关系,补充更多内容实体之间的相似性度量,并赋予视频内容推荐过程中的语义性。
在步骤204,使用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数。根据本发明的一个实施例,步骤204包括第一阶段和第二阶段。在第一阶段,获取用户评论向量。在第二阶段,获取评论向量并预测评分。
具体而言,在第一阶段,使用视频评论作为数据集,首先对语句进行预处理,使用SentiRec算法,通过CNN对评论进行向量化,计算预测评分r,根据损失函数进行迭代得到评论向量V。在第二阶段,将评论向量分别拼接为基于视频内容的评论向量Vu,视频内容收到所有用户的评论向量Vi,后分别输入两个CNN,经过卷积、池化、全连接后得到用户特征Fu与商品特征Fi,将此特征内积得到基于用户评论感知的预测分数r。
在步骤205,使用融合因子,将步骤202构建的基于内容提取的相似度矩阵以及步骤203构建的基于知识推理的相似度矩阵进行融合,得到最终的推荐模型。根据本发明的一个实施例,进行融合的融合因子基于步骤204得到的评论感知预测分数r。具体而言,融合因子可为预测分数r与评分上限的比值,例如,预测分数r为4,评分上限为5,则融合因子可为4/5。
由此,本发明通过采用融合因子的计算规则,对多种基于内容的相似度模型进行融合,并且引入内容以外的主观特征作为增强因子,提升推荐有效性。具体而言,本发明使用融合因子,结合基于文本提取与知识推理的结果提供融合推荐模型,提高视频内容之间的相似度判断,同时使得推荐结果具备更好的可解释性。此外,通过SentiRec评论感知算法来自动提取同时包括内容及情感的特征向量,进一步来预测视频评分,以评分作为最终推荐结果的增强因子,提升用户的推荐接受度。
相比于现有技术,本发明有以下优势:
1、在现有技术中,部分推荐算法中构建了知识图谱,但仅用于提取元信息以进行内容关联,得到一般性的基于内容本身属性的关联模型:
本发明使用知识推理手段,补充内容的关联性,采用PtransE基于路径的翻译模型,对知识图谱的中的非邻近实体进行知识推理,以扩展实体关系,补充不同内容之间的相似性度量,并赋予视频内容推荐过程中的可解释性;
2、在现有技术中,存在单纯基于历史行为的推荐算法,由于存在冷启动问题,导致推荐效果不佳:
本发明通过基于卷积神经网络的SentiRec算法从用户评论中自动提取同时带有内容特征以及情感表达特征的评论向量,进一步来来预测基于评论感知的视频评分;
3、在现有技术中,以评论作为推荐信息的算法,往往通过文本分析提取与视频相关的内容标签来作为用户偏好因素,用于不同视频间的推荐计算,而忽略了用户在评价过程中情感表达:
本发明结合基于文本提取与知识推理的相似度模型,提升了内容上推荐的语义性,同时以基于SentiRec算法得到的用户评论评分作为影响因子,在内容相似的基础上推荐质量评价更优的结果,提升推荐的有效性。
图3出了根据本发明的一个实施例的示例性计算设备的框图300,该计算设备是可应用于本发明的各方面的硬件设备的一个示例。计算设备300可以是可被配置成用于实现处理和/或计算的任何机器,可以是但并不局限于工作站、服务器、桌面型计算机、膝上型计算机、平板计算机、个人数字处理、智能手机、车载计算机或者它们的任何组合。计算设备300可包括可经由一个或多个接口和总线302连接或通信的组件。例如,计算设备300可包括总线302、一个或多个处理器304、一个或多个输入设备306以及一个或多个输出设备308。该一个或多个处理器304可以是任何类型的处理器并且可包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如,专门的处理芯片)。输入设备306可以是任何类型的能够向计算设备输入信息的设备并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备308可以是任何类型的能够呈现信息的设备并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备300也可以包括非瞬态存储设备310或者与所述非瞬态存储设备相连接,所述非瞬态存储设备可以是非瞬态的并且能够实现数据存储的任何存储设备,并且所述非瞬态存储设备可以包括但不限于磁盘驱动器、光存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何存储芯片或盒式磁带、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备310可从接口分离。非瞬态存储设备310可具有用于实施上述方法和步骤的数据/指令/代码。计算设备300也可包括通信设备312。通信设备312可以是任何类型的能够实现与内部装置通信和/或与网络通信的设备或系统并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组,例如蓝牙设备、IEEE1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似设备。
总线302可以包括但不限于工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外部设备互连(PCI)总线。
计算设备300还可包括工作存储器314,该工作存储器314可以是任何类型的能够存储有利于处理器304的工作的指令和/或数据的工作存储器并且可以包括但不限于随机存取存储器和/或只读存储设备。
软件组件可位于工作存储器314中,这些软件组件包括但不限于操作系统316、一个或多个应用程序318、驱动程序和/或其它数据和代码。用于实现本发明上述方法和步骤的指令可包含在所述一个或多个应用程序318中,并且可通过处理器304读取和执行所述一个或多个应用程序318的指令来实现本发明的上述方法200。
也应该认识到可根据具体需求而做出变化。例如,也可使用定制硬件、和/或特定组件可在硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合中实现。此外,可采用与其它计算设备、例如网络输入/输出设备等的连接。例如,可通过具有汇编语言或硬件编程语言(例如,VERILOG、VHDL、C++)的编程硬件(例如,包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)利用根据本发明的逻辑和算法来实现所公开的方法和设备的部分或全部。
尽管目前为止已经参考附图描述了本发明的各方面,但是上述方法和设备仅是示例,并且本发明的范围不限于这些方面,而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外,也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外,可以按各种方式组合各种组件。也重要的是,随着技术的发展,所描述的组件中的许多组件可被之后出现的等同组件所替代。
Claims (10)
1.一种基于内容提取与评分预测的视频推荐方法,包括:
提取视频的文本内容,以生成视频内容的关键词集合;
基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵;
基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型对所述知识图谱进行知识推理,以构建基于知识推理的相似度矩阵;
用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数;以及
通过融合因子,将构建的基于内容提取的相似度矩阵以及构建的基于知识推理的相似度矩阵进行融合,得到最终的推荐模型,其中所述融合因子基于所述预测分数。
2.如权利要求1所述的方法,其中,生成视频内容的关键词集合进一步包括:
采用Jieba分词工具对每个视频的描述信息进行分词;
通过TF-IDF算法,对分词后的语料进行权重的计算,对关键词进行提取,形成视频内容的关键词集合。
3.如权利要求1所述的方法,其中,所述文本相似度算法为余弦相似度算法。
4.如权利要求1所述的方法,其中,所述基于路径的翻译模型为PTransE模型。
5.如权利要求1所述的方法,其中,所述评论感知类型的算法为SentiRec算法。
6.如权利要求5所述的方法,对视频进行预测评分以得到预测分数进一步包括:
采集视频用户评论数据;
将评论数据作为数据集,使用SentiRec算法训练模型,得到评论向量;以及
将评论向量输入SentiRec算法训练模型抽取特征,将特征内积后得到预测分数。
7.一种基于内容提取与评分预测的视频推荐系统,包括:
视频内容相似度矩阵获取模块,包括基于内容提取的相似度矩阵获取模块和基于知识推理的相似度矩阵获取模块,其中所述视频内容相似度矩阵获取模块被配置为提取视频的文本内容,以生成视频内容的关键词集合,其中所述基于内容提取的相似度矩阵获取模块被配置为基于视频内容的关键词集合,通过文本相似度算法构建基于内容提取的相似度矩阵,并且其中所述基于知识推理的相似度矩阵获取模块被配置为基于视频内容的关键词集合,构建知识图谱,并通过基于路径的翻译模型对所述知识图谱进行知识推理,以构建基于知识推理的相似度矩阵;
预测分数获取模块,所述预测分数获取模块被配置为用评论感知类型的算法分析视频的评论,同时提取包含内容属性及情感属性的多维特征,对视频进行预测评分以得到预测分数;以及
推荐模型生成模块,所述推荐模型生成模块被配置为通过融合因子,将构建的基于内容提取的相似度矩阵以及构建的基于知识推理的相似度矩阵进行融合,得到最终的推荐模型,其中所述融合因子基于所述预测分数。
8.如权利要求7所述的系统,其中,所述文本相似度算法为余弦相似度算法,所述基于路径的翻译模型为PTransE模型和/或所述评论感知类型的算法为SentiRec算法。
9.如权利要求8所述的系统,其中,对视频进行预测评分以得到预测分数进一步包括:
采集视频用户评论数据;
将评论数据作为数据集,使用SentiRec算法训练模型,得到评论向量;以及
将评论向量输入SentiRec算法训练模型抽取特征,将特征内积后得到预测分数。
10.一种用于基于内容提取与评分预测的视频推荐的计算设备,包括:
处理器;
存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111614136.8A CN114912011A (zh) | 2021-12-27 | 2021-12-27 | 一种基于内容提取与评分预测的视频推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111614136.8A CN114912011A (zh) | 2021-12-27 | 2021-12-27 | 一种基于内容提取与评分预测的视频推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912011A true CN114912011A (zh) | 2022-08-16 |
Family
ID=82763740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111614136.8A Pending CN114912011A (zh) | 2021-12-27 | 2021-12-27 | 一种基于内容提取与评分预测的视频推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912011A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982429A (zh) * | 2023-03-21 | 2023-04-18 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
CN117235366A (zh) * | 2023-09-19 | 2023-12-15 | 北京学说科技有限公司 | 基于内容关联性的协同推荐方法及系统 |
-
2021
- 2021-12-27 CN CN202111614136.8A patent/CN114912011A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982429A (zh) * | 2023-03-21 | 2023-04-18 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
CN115982429B (zh) * | 2023-03-21 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
CN117235366A (zh) * | 2023-09-19 | 2023-12-15 | 北京学说科技有限公司 | 基于内容关联性的协同推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
KR102276728B1 (ko) | 멀티모달 콘텐츠 분석 시스템 및 그 방법 | |
Khusro et al. | On methods and tools of table detection, extraction and annotation in PDF documents | |
CN111680159B (zh) | 数据处理方法、装置及电子设备 | |
CN113158023B (zh) | 基于混合推荐算法的公共数字生活精准分类服务方法 | |
CN112163165A (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
US11023503B2 (en) | Suggesting text in an electronic document | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
WO2023108993A1 (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
Ji et al. | Survey of visual sentiment prediction for social media analysis | |
CN114912011A (zh) | 一种基于内容提取与评分预测的视频推荐方法 | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
Wei et al. | Sentiment classification of Chinese Weibo based on extended sentiment dictionary and organisational structure of comments | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Rafail et al. | Natural language processing | |
CN117216535A (zh) | 推荐文本生成模型的训练方法、装置、设备及介质 | |
Ghobakhloo et al. | Design of a personalized recommender system using sentiment analysis in social media (case study: banking system) | |
Abdi et al. | Using an auxiliary dataset to improve emotion estimation in users’ opinions | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
Trzcinski | Multimodal social media video classification with deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |