CN107766360A - 一种视频热度预测方法和装置 - Google Patents
一种视频热度预测方法和装置 Download PDFInfo
- Publication number
- CN107766360A CN107766360A CN201610682908.4A CN201610682908A CN107766360A CN 107766360 A CN107766360 A CN 107766360A CN 201610682908 A CN201610682908 A CN 201610682908A CN 107766360 A CN107766360 A CN 107766360A
- Authority
- CN
- China
- Prior art keywords
- video
- sample
- disaggregated model
- video sample
- temperature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视频热度预测方法和装置,该方法包括:选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;根据各视频样本对应的特征向量和热度类别生成分类模型;对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。本方案以视频样本对应的特征向量和热度类别作为训练数据,训练生成分类模型,该分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对视频热度进行预测,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种视频热度预测方法和装置。
背景技术
随着视频技术的快速发展,互联网上已出现大量的视频相关业务,如现在的视频点播类服务,涉及到大量片源需要存储在集群机器上、CDN或云上等硬件资源上。
实际情况中,硬件资源也有存取效率的高低之分,如果能将热门程度较高的热门视频放在效率比较高的存储资源上、增加片源备份,将热门程度较低的冷门视频放在效率相对低的存储资源上、并控制片源备份数量,无疑是对系统(硬件)资源的一种合理、有效的利用。
根据视频的热门程度对不同的视频进行不同的运营管理,是建立在预先获知视频的热度的基础上的,因此,如何对视频热度进行预测,是当前亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频热度预测方法和装置。
依据本发明的一个方面,提供了一种视频热度预测方法,该方法包括:
选取多个视频样本;
对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;
根据各视频样本对应的特征向量和热度类别生成分类模型;
对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
可选地,所述获取该视频样本对应的特征向量包括:
采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;
从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;
对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;
合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
可选地,所述合并所述第一特征向量和所述第二特征向量包括:为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;
所述分别获取所述M个字段对应的权重包括:通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;
所述对所述片源描述信息进行分词处理包括:采用维特比算法对所述片源描述信息进行分词处理;
和/或,
所述分别获取所述N个分词对应的权重包括:通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
可选地,在所述获取该视频样本对应的热度类别之前,该方法进一步包括:
获取各个视频样本在当前统计周期内的相对播放时长;
采用等量分箱算法对各个视频样本对应的相对播放时长进行热度类别的划分,得到热度类别与相对播放时长的对应关系;
则所述获取该视频样本对应的热度类别包括:根据该视频样本在当前统计周期内的相对播放时长以及所述热度类别与相对播放时长的对应关系,确定该视频样本对应的热度类别。
可选地,所述获取各个视频样本在当前统计周期内的相对播放时长包括:
对于每个视频样本,
采集该视频样本在每个预设单位时间内的播放时长并存入分布式文件系统中;
当当前统计周期结束时,从分布式文件系统中读取该视频样本在当前统计周期内的每个预设单位时间内的播放时长,累计计算得到该视频样本在当前统计周期内的播放总时长;
采集该视频样本的总时长,将该视频样本在当前统计周期内的播放总时长与该视频样本的总时长的比值作为该视频样本在当前统计周期内的相对播放时长。
可选地,所述根据各视频样本对应的特征向量和热度类别生成分类模型包括:根据所述多个视频样本的特征向量和热度类别的对应关系,基于支持向量机算法生成分类模型;
该方法进一步包括:在所述根据各视频样本对应的特征向量和热度类别生成分类模型之后,为所述分类模型添加惩罚因子。
可选地,在对待预测的视频进行热度预测之前,该方法进一步包括:
选取多个视频检验样本;
对于每个视频检验样本,获取该视频检验样本对应的特征向量,获取该视频检验样本对应的热度类别;将该视频检验样本对应的特征向量输入到所述分类模型中,判断所述分类模型输出的热度类别与该视频检验样本对应的热度类别是否相同,是则确定所述分类模型输出正确,否则确定所述分类模型输出错误;
当所述分类模型的输出错误率高于预设阈值时,对所述分类模型进行优化。
依据本发明的另一个方面,提供了一种视频热度预测装置,该装置包括:
分类模型生成单元,适于选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;根据各视频样本对应的特征向量和热度类别生成分类模型;
热度预测单元,适于对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
可选地,所述分类模型生成单元,适于采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
可选地,所述分类模型生成单元,适于为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;
所述分类模型生成单元,适于通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;
所述分类模型生成单元,适于采用维特比算法对所述片源描述信息进行分词处理;
和/或,
所述分类模型生成单元,适于通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
可选地,该装置进一步包括:视频热度分类单元;
所述视频热度分类单元,适于获取各个视频样本在当前统计周期内的相对播放时长;采用等量分箱算法对各个视频样本对应的相对播放时长进行热度类别的划分,得到热度类别与相对播放时长的对应关系;
则所述分类模型生成单元,适于根据该视频样本在当前统计周期内的相对播放时长以及所述视频热度分类单元得到的所述热度类别与相对播放时长的对应关系,确定该视频样本对应的热度类别。
可选地,所述视频热度分类单元,适于对于每个视频样本,采集该视频样本在每个预设单位时间内的播放时长并存入分布式文件系统中;当当前统计周期结束时,从分布式文件系统中读取该视频样本在当前统计周期内的每个预设单位时间内的播放时长,累计计算得到该视频样本在当前统计周期内的播放总时长;采集该视频样本的总时长,将该视频样本在当前统计周期内的播放总时长与该视频样本的总时长的比值作为该视频样本在当前统计周期内的相对播放时长。
可选地,所述分类模型生成单元,适于根据所述多个视频样本的特征向量和热度类别的对应关系,基于支持向量机算法生成分类模型;
所述分类模型生成单元,进一步适于在所述根据各视频样本对应的特征向量和热度类别生成分类模型之后,为所述分类模型添加惩罚因子。
可选地,该装置进一步包括:交叉检验单元;
所述交叉检验单元,适于在所述热度预测单元对待预测的视频进行热度预测之前,选取多个视频检验样本;对于每个视频检验样本,获取该视频检验样本对应的特征向量,获取该视频检验样本对应的热度类别;将该视频检验样本对应的特征向量输入到所述分类模型中,判断所述分类模型输出的热度类别与该视频检验样本对应的热度类别是否相同,是则确定所述分类模型输出正确,否则确定所述分类模型输出错误;当所述分类模型的输出错误率高于预设阈值时,对所述分类模型进行优化。
由上述可知,本发明提供的技术方案以视频样本对应的特征向量和热度类别作为训练数据,通过对训练数据进行训练生成分类模型,其中,视频样本对应的特征向量反映出视频样本的属性信息,视频样本对应的热度类别反映出视频样本的热门程度,训练生成的分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对已知属性信息未知热门程度的视频进行预测,预测得到该视频的热门程度,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种视频热度预测方法的示意图;
图2示出了根据本发明另一个实施例的一种视频热度预测方法的流程图;
图3示出了根据本发明一个实施例的一种视频热度预测装置的示意图;
图4示出了根据本发明另一个实施例的一种视频热度预测装置的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种视频热度预测方法的示意图。如图1所示,该方法包括:
步骤S110,选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别。
其中,在常见的视频业务中,视频样本是已上架一段时间的视频,已具有一定的用户使用历史,通过用户历史使用状况已经可以获知视频样本的热门程度。
步骤S120,根据各视频样本对应的特征向量和热度类别生成分类模型。
步骤S130,对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
其中,在常见的视频业务中,待预测的视频是刚刚上架的视频,尚不具有用户使用历史,因此也无从获知视频的热门程度,需要通过步骤S120生成的分类模型进行预测。
可见,图1所示的方法以视频样本对应的特征向量和热度类别作为训练数据,通过对训练数据进行训练生成分类模型,其中,视频样本对应的特征向量反映出视频样本的属性信息,视频样本对应的热度类别反映出视频样本的热门程度(受用户欢迎程度),训练生成的分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对已知属性信息未知热门程度的视频进行预测,预测得到该视频的热门程度,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
在本发明的一个实施例中,图1所示方法的步骤S110获取该视频样本对应的特征向量包括步骤S1101-步骤S1107:
步骤S1101,采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息。
其中,视频样本的视频属性信息在该视频样本上架后即可采集到,片源属性信息反映了视频属性信息中的规范化特征信息,如视频的分类、导演、演员等信息;片源描述信息反映了视频属性信息中的随机性特征信息,如视频的剧情简介等。
步骤S1103,从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量。
例如,一个视频样本为电影《两小无猜》,其片源属性信息为:“导演:杨·塞谬尔,编剧:杨·塞谬尔,主演:吉约姆·卡内/玛丽昂·歌迪亚,类型:剧情/喜剧/爱情”;从该片源属性信息中拆分出:指示导演信息的字段为“杨·塞谬尔”,指示编剧信息的字段为“杨·塞谬尔”,指示主演的字段为“吉约姆·卡内”和“玛丽昂·歌迪亚”,指示类型的字段为“剧情”、“喜剧”和“爱情”,可见,从该视频样本中拆分出“杨·塞谬尔”、“杨·塞谬尔”、“吉约姆·卡内”、“玛丽昂·歌迪亚”、“剧情”、“喜剧”和“爱情”,去重后得到“杨·塞谬尔”、“吉约姆·卡内”、“玛丽昂·歌迪亚”、“剧情”、“喜剧”和“爱情”者6个字段,分别获取这6个字段各自对应的权重,得到一个6维特征向量作为第一特征向量。
其中,获取每个字段对应的权重的具体方式是:方式一,根据历史统计数据预设一个特征字典,该特征字典中列出了各个字段对应的权重,通过查询该特征字典,得到M个字段各自对应的权重;或者,方式二,计算各个字段在片源属性信息的文本中所占的权重,现有技术中有多种权重计算方法,例如可以通过词频反文档频率统计算法(TF-IDF)计算各个字段对应的权重;将M个字段对应的权重的集合作为第一特征向量。
步骤S1105,对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量。
沿用上述视频样本为电影《两小无猜》的例子,其片源描述信息为:“当一个人问另一个人‘敢不敢’的时候,另一个人必须说‘敢’,这就是游戏的规则。小男孩于连和小女孩苏菲的相遇即开始于这样一场孩童的闹剧,一个精美的铁盒子就是他们游戏的见证。”,则本步骤对该片源描述信息进行分词处理,去重后得到N个分词,这N个分词的权重的集合作为N维特征向量,以该N维特征向量作为第二特征向量。
需要说明的是,对片源描述信息进行分词处理的过程并不单单是将片源描述信息的文本拆分成多个词,如上文中的片源描述信息中有很多很多的词,我们不能够将里面所有的词都提取出来作为分词结果,而是在需要将冗余的、无信息含量的词去除,因此对片源描述信息进行分词处理的过程实质是提取有效分词的过程,其实现方式可以是:方式一,基于预设字典对片源描述信息进行分词处理,将命中字典的分词提取出来作为分词结果;或者,方式二,将片源描述信息中的所有词都提取出来,计算每个词在片源描述信息中的权重值,将权重值高于预定阈值的词作为分词结果,其中计算每个词在片源描述信息中的权重值的方法有很多种,例如通过词频反文档频率统计算法(TF-IDF)计算反映各个词在片源描述信息的文本中的重要程度的权重值。
则在此基础上,如果以方式一对片源描述信息进行分词处理得到N个分词,接着计算各个分词对应的权重,例如可以通过词频反文档频率统计算法进行计算得到;如果以方式二对片源描述信息进行分词处理后得到N个分词,可以直接利用前面进行分词处理过程中计算的各个词对应的权重值得到N个分词各自对应的权重;将N个分词对应的权重的集合作为第二特征向量。
步骤S1107,合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
本步骤中,将步骤S1103得到的M维的第一特征向量和步骤S1105得到的N维的第二特征向量进行合并,得到M+N维特征向量,该M+N维特征向量即为该视频样本对应的特征向量。
其中具体地,在对第一特征向量和第二特征向量进行合并时,为第一特征向量设置第一权重因子,为第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并,例如,第一特征向量为(a1,a2,a3,a4),第二特征向量为(b1,b2,b3,b4,b5,b6),根据经验为第一特征向量设置第一向量特征β,为第二特征向量设置第二特征向量γ,将β·(a1,a2,a3,a4)与γ·(b1,b2,b3,b4,b5,b6)合并,得到该视频样本对应的特征向量(β·a1,β·a2,β·a3,β·a4,γ·b1,γ·b2,γ·b3,γ·b4,γ·b5,γb6)。
在本发明的一个实施例中,图1所示方法在步骤S110选取多个视频样本之后以及获取该视频样本对应的热度类别之前,进一步包括:获取各个视频样本在当前统计周期内的相对播放时长;采用等量分箱算法对各个视频样本对应的相对播放时长进行热度类别的划分,得到热度类别与相对播放时长的对应关系。例如,共选取了12个视频样本,各视频样本在当前统计周期内的相对播放时长分别为:56min,100min,25min,16min,37min,80min,49min,115min,90min,39min,20min,5min;采用等量分箱算法对这12个相对播放时长进行热度类别的划分具体为:分为三个箱子,即划分为三种热度类别,先对这12个相对播放时长进行排序115min,100min,90min,80min,56min,49min,39min,37min,25min,20min,16min,5min,等量均匀地放入三个箱子内,即115min,100min,90min,80min被划分到第一热度类别,56min,49min,39min,37min被划分到第二热度类别,25min,20min,16min,5min被划分到第三热度类别,其中,落入第一热度类别的视频样本的热门程度最高,落入第二热度类别的视频样本的热门程度其次,落入第三热度类别的视频样本的热门程度最低。可见,本实施例依据视频被点击播放的播放时长来判断视频的热门程度(受欢迎程度),符合用户对互联网上的视频的使用场景,
通过上述对视频样本的热度分类的划分,可以根据各个视频样本在当前统计周期内的相对播放时长以及所述热度类别与相对播放时长的对应关系,确定该视频样本对应的热度类别。其中,需要注意的是,由于不同视频样本的总时长是不同的,在同样受欢迎的情况下,同一个统计周期内总时长较大的视频样本的总播放时长显然会比总时长较小的视频样本的总播放时长大,因此在本实施例中不能根据各个视频样本的总播放时长进行热度类别的划分,而是根据各个视频样本的相对播放时长进行热度类别的划分。
具体地,获取各个视频样本在当前统计周期内的相对播放时长包括:对于每个视频样本,采集该视频样本在每个预设单位时间内的播放时长并存入分布式文件系统中;当当前统计周期结束时,从分布式文件系统中读取该视频样本在当前统计周期内的每个预设单位时间内的播放时长,累计计算得到该视频样本在当前统计周期内的播放总时长;采集该视频样本的总时长,将该视频样本在当前统计周期内的播放总时长与该视频样本的总时长的比值作为该视频样本在当前统计周期内的相对播放时长。例如,以一个月作为统计周期,对于一个视频样本,采集该视频样本当月每天被点击播放的播放时长,则当月结束后即可得到该视频样本在这一个月内被点击播放的总播放时长,将该总播放时长与该视频样本自身的总时长的比值作为该视频样本的在这一个月内的相对播放时长,可见,本实施例依据各个视频样本的播放总时长归一化后的值来进行热度类别的划分,符合实际情况,提高热度类别划分的准确程度。
在本发明的一个实施例中,图1所示的方法在生成分类模型之后、在对待预测的视频进行热度预测之前,进一步包括:选取多个视频检验样本;对于每个视频检验样本,获取该视频检验样本对应的特征向量,获取该视频检验样本对应的热度类别;将该视频检验样本对应的特征向量输入到所述分类模型中,判断所述分类模型输出的热度类别与该视频检验样本对应的热度类别是否相同,是则确定所述分类模型输出正确,否则确定所述分类模型输出错误;当所述分类模型的输出错误率高于预设阈值时,对所述分类模型进行优化。可见,本实施例通过交叉检验来验证分类模型的准确性,对于分类结果不够准确的分类模型进行进一步的优化,再利用优化后的分类模型预测视频热度,得到更为准确的预测结果。
在本发明的一个实施例中,图1所示方法的步骤S130获取待预测的视频对应的特征向量的过程与获取视频样本对应的特征向量的方法原理相同,上文中已经详细说明,在此不再赘述。
依据本发明的实施例,通过已知属性和热度的视频样本构建分类模型,利用分类模型对已知属性未知热度的视频的热度进行预测,该方案适用于多种场景下,例如,在一个互联网视频平台上,通过本发明提供的方案对新上架的视频的热度进行预测,可以将热度较高的视频放在效率比较高的存储资源上,增加片源备份;将热度较低的视频放在效率相对低的存储资源上,控制片源备份数量,能够对视频平台的系统资源进行有效的利用,且符合用户的视频点播行为习惯,提高用户使用过程的流畅度和容错率,提高用户体验。
以一个具体的例子来说明本方案的实施过程,图2示出了根据本发明另一个实施例的一种视频热度预测方法的流程图,如图2所示,选取多个视频样本,首先进行数据采集,通过批处理的方式将各视频样本的视频属性信息定时更新到HDFS中,使用流式采集方式将各视频的观看日志采集到HDFS中,各视频样本的视频属性信息和观看日志作为原始训练数据,对原始训练数据进行数据加载,接着进行数据清洗,将信息缺失的视频样本的数据采用忽略方式进行过滤;对清洗后的训练数据进行集成,对于一个视频样本,从观看日志中提取当前统计周期内用户每次点击播放的播放时长,将该视频样本的视频属性信息和当前统计周期内的多个播放时长集成;接着从这些视频样本中选择一部分作为实际训练样本,对于每个实际训练样本的观看日志进行数据变换,汇总该训练样本在当前统计周期内的播放总时长,并与该训练样本的总时长相比得到归一化的相对播放时长,采用等量分箱算法获知该训练样本对应的热度类别;对于每个实际训练样本的视频属性信息,视频属性信息中指示分类信息、演员信息、导演信息的词的片源属性信息作为规范化信息,视频属性信息中的片源描述信息作为随机信息,从片源属性信息中拆分出相应的字段,利用维特比算法对片源描述信息进行分词处理;利用词频反文档频率统计算法从片源属性信息的拆分结果中进行特征提取,
其中,
tfi|certain为第i个规范化词汇词频,|{j,ti∈dj}|为“文档总数”,为包含第i个词汇包含在多少个“文档”内,|D|表示语料库中的文件总数。
得到表征规范化特征的几个词;
利用词频反文档频率统计算法从片源描述信息的分词结果中进行特征提取,
得到表征随机特征的几个词,合并所述表征规范化特征的词和所述表征随机特征的词形成新的训练,将这几个词对应的权重的集合作为实际训练样本对应的特征向量,
其中,特征向量包括规范化特征卡分评分与随机性特征卡分评分的组合。
将各个实际训练样本对应的特征向量和热度分类进行模型训练,基于支持向量机算法(SVM)生成分类模型;利用之前未选择作为实际训练样本的视频样本进行交叉检验,根据交叉检验结果进一步优化分类模型,直至选择出误差在较好程度的优化分类模型,以及,进一步地,还可以通过在分类模型中增加惩罚因子来提高分类模型的泛化能力;利用生成的分类模型进行预测,对于已知视频属性信息未知热度类别的待分类数据,根据其视频属性信息提取特征,形成相应的特征向量(与前述提取视频样本的特征向量的方式相同),将待分类数据的特征向量输入到生成的分类模型中,分类模型输出分类预测结果,即预测出该分类数据(视频)的热度类别(受欢迎程度),以根据该待分类数据的热度类别对其进行后续的相应处理。
图3示出了根据本发明一个实施例的一种视频热度预测装置的示意图。如图3所示,该视频热度预测装置300包括:
分类模型生成单元310,适于选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;根据各视频样本对应的特征向量和热度类别生成分类模型。
热度预测单元320,适于对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
可见,图3所示的装置以视频样本对应的特征向量和热度类别作为训练数据,通过对训练数据进行训练生成分类模型,其中,视频样本对应的特征向量反映出视频样本的属性信息,视频样本对应的热度类别反映出视频样本的热门程度(受用户欢迎程度),训练生成的分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对已知属性信息未知热门程度的视频进行预测,预测得到该视频的热门程度,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
在本发明的一个实施例中,分类模型生成单元310,适于采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
其中,分类模型生成单元310,适于为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;分类模型生成单元310,适于通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;分类模型生成单元310,适于采用维特比算法对所述片源描述信息进行分词处理;和/或,分类模型生成单元310,适于通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
在本发明的一个实施例中,分类模型生成单元310,适于根据所述多个视频样本的特征向量和热度类别的对应关系,基于支持向量机算法生成分类模型;分类模型生成单元310,进一步适于在所述根据各视频样本对应的特征向量和热度类别生成分类模型之后,为所述分类模型添加惩罚因子。
图4示出了根据本发明另一个实施例的一种视频热度预测装置的示意图。如图4所示,该视频热度预测装置400包括:分类模型生成单元410、热度预测单元420、视频热度分类单元430和交叉检验单元440;
其中,分类模型生成单元410、热度预测单元420分别与上文中图3所示的分类模型生成单元310、热度预测单元320具有相同的功能,相同的部分不再赘述。
视频热度分类单元430,适于获取各个视频样本在当前统计周期内的相对播放时长;采用等量分箱算法对各个视频样本对应的相对播放时长进行热度类别的划分,得到热度类别与相对播放时长的对应关系;
分类模型生成单元410,适于根据该视频样本在当前统计周期内的相对播放时长以及所述视频热度分类单元得到的所述热度类别与相对播放时长的对应关系,确定该视频样本对应的热度类别。
其中,视频热度分类单元430,适于对于每个视频样本,采集该视频样本在每个预设单位时间内的播放时长并存入分布式文件系统中;当当前统计周期结束时,从分布式文件系统中读取该视频样本在当前统计周期内的每个预设单位时间内的播放时长,累计计算得到该视频样本在当前统计周期内的播放总时长;采集该视频样本的总时长,将该视频样本在当前统计周期内的播放总时长与该视频样本的总时长的比值作为该视频样本在当前统计周期内的相对播放时长。
交叉检验单元440,适于在所述热度预测单元对待预测的视频进行热度预测之前,选取多个视频检验样本;对于每个视频检验样本,获取该视频检验样本对应的特征向量,获取该视频检验样本对应的热度类别;将该视频检验样本对应的特征向量输入到所述分类模型中,判断所述分类模型输出的热度类别与该视频检验样本对应的热度类别是否相同,是则确定所述分类模型输出正确,否则确定所述分类模型输出错误;当所述分类模型的输出错误率高于预设阈值时,对所述分类模型进行优化。
需要说明的是,图3-图4所示装置的各实施例与图1-图2所示方法的各实施例对应相同,上文中已有详细说明,在此不再赘述。
综上所述,本发明提供的技术方案以视频样本对应的特征向量和热度类别作为训练数据,通过对训练数据进行训练生成分类模型,其中,视频样本对应的特征向量反映出视频样本的属性信息,视频样本对应的热度类别反映出视频样本的热门程度(受用户欢迎程度),训练生成的分类模型实质能够反映出视频的属性信息与视频的热门程度的关联,利用此分类模型即可以对已知属性信息未知热门程度的视频进行预测,预测得到该视频的热门程度,进而可以以该预测结果为依据,对视频进行适配性地管理和运营,符合当前互联网视频平台快速发展的需求。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种视频热度预测方法,其特征在于,该方法包括:
选取多个视频样本;
对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;
根据各视频样本对应的特征向量和热度类别生成分类模型;
对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
2.如权利要求1所述的方法,其特征在于,所述获取该视频样本对应的特征向量包括:
采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;
从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;
对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;
合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
3.如权利要求2所述的方法,其特征在于,
所述合并所述第一特征向量和所述第二特征向量包括:为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;
所述分别获取所述M个字段对应的权重包括:通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;
所述对所述片源描述信息进行分词处理包括:采用维特比算法对所述片源描述信息进行分词处理;
和/或,
所述分别获取所述N个分词对应的权重包括:通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
4.如权利要求1所述的方法,其特征在于,在所述获取该视频样本对应的热度类别之前,该方法进一步包括:
获取各个视频样本在当前统计周期内的相对播放时长;
采用等量分箱算法对各个视频样本对应的相对播放时长进行热度类别的划分,得到热度类别与相对播放时长的对应关系;
则所述获取该视频样本对应的热度类别包括:根据该视频样本在当前统计周期内的相对播放时长以及所述热度类别与相对播放时长的对应关系,确定该视频样本对应的热度类别。
5.如权利要求4所述的方法,其特征在于,所述获取各个视频样本在当前统计周期内的相对播放时长包括:
对于每个视频样本,
采集该视频样本在每个预设单位时间内的播放时长并存入分布式文件系统中;
当当前统计周期结束时,从分布式文件系统中读取该视频样本在当前统计周期内的每个预设单位时间内的播放时长,累计计算得到该视频样本在当前统计周期内的播放总时长;
采集该视频样本的总时长,将该视频样本在当前统计周期内的播放总时长与该视频样本的总时长的比值作为该视频样本在当前统计周期内的相对播放时长。
6.如权利要求1所述的方法,其特征在于,
所述根据各视频样本对应的特征向量和热度类别生成分类模型包括:根据所述多个视频样本的特征向量和热度类别的对应关系,基于支持向量机算法生成分类模型;
该方法进一步包括:在所述根据各视频样本对应的特征向量和热度类别生成分类模型之后,为所述分类模型添加惩罚因子。
7.如权利要求1所述的方法,其特征在于,在对待预测的视频进行热度预测之前,该方法进一步包括:
选取多个视频检验样本;
对于每个视频检验样本,获取该视频检验样本对应的特征向量,获取该视频检验样本对应的热度类别;将该视频检验样本对应的特征向量输入到所述分类模型中,判断所述分类模型输出的热度类别与该视频检验样本对应的热度类别是否相同,是则确定所述分类模型输出正确,否则确定所述分类模型输出错误;
当所述分类模型的输出错误率高于预设阈值时,对所述分类模型进行优化。
8.一种视频热度预测装置,其特征在于,该装置包括:
分类模型生成单元,适于选取多个视频样本;对于每个视频样本,获取该视频样本对应的特征向量,获取该视频样本对应的热度类别;根据各视频样本对应的特征向量和热度类别生成分类模型;
热度预测单元,适于对于每个待预测的视频,获取该视频对应的特征向量,将该特征向量输入到所述分类模型中,根据所述分类模型的输出确定该视频的热度类别。
9.如权利要求8所述的装置,其特征在于,
所述分类模型生成单元,适于采集该视频样本的视频属性信息,所述视频属性信息包括:片源属性信息和片源描述信息;从所述片源属性信息中拆分出指示指定属性信息的字段,去重后得到M个字段,分别获取所述M个字段对应的权重,将所述M个字段对应的权重的集合作为第一特征向量;对所述片源描述信息进行分词处理,去重后得到N个分词,分别获取所述N个分词对应的权重,将所述N个分词对应的权重的集合作为第二特征向量;合并所述第一特征向量和所述第二特征向量,得到该视频样本对应的特征向量。
10.如权利要求9所述的装置,其特征在于,
所述分类模型生成单元,适于为所述第一特征向量设置第一权重因子,为所述第二特征向量设置第二权重因子,将带有第一权重因子的第一特征向量和带有第二权重因子的第二特征向量进行合并;
所述分类模型生成单元,适于通过词频-反文档频率统计算法分别计算每个字段在所述片源属性信息中所占的权重;
所述分类模型生成单元,适于采用维特比算法对所述片源描述信息进行分词处理;
和/或,
所述分类模型生成单元,适于通过词频-反文档频率统计算法分别计算每个分词在所述片源描述信息中所占的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610682908.4A CN107766360B (zh) | 2016-08-17 | 2016-08-17 | 一种视频热度预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610682908.4A CN107766360B (zh) | 2016-08-17 | 2016-08-17 | 一种视频热度预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766360A true CN107766360A (zh) | 2018-03-06 |
CN107766360B CN107766360B (zh) | 2021-01-29 |
Family
ID=61261405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610682908.4A Active CN107766360B (zh) | 2016-08-17 | 2016-08-17 | 一种视频热度预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766360B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108259945A (zh) * | 2018-04-19 | 2018-07-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 处理播放多媒体数据的播放请求的方法和装置 |
CN108632670A (zh) * | 2018-03-15 | 2018-10-09 | 北京奇艺世纪科技有限公司 | 一种视频满意度确定方法及装置 |
CN108769730A (zh) * | 2018-05-21 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 视频的播放方法、装置、计算设备以及存储介质 |
CN109522470A (zh) * | 2018-11-06 | 2019-03-26 | 汪浩 | 一种视频热度预测方法、装置、设备及存储介质 |
WO2019242453A1 (zh) * | 2018-06-21 | 2019-12-26 | 中兴通讯股份有限公司 | 信息处理方法及装置、存储介质、电子装置 |
CN110958472A (zh) * | 2019-12-16 | 2020-04-03 | 咪咕文化科技有限公司 | 视频点击量评级预测方法、装置、电子设备及存储介质 |
CN111050195A (zh) * | 2018-10-12 | 2020-04-21 | 中国电信股份有限公司 | 流媒体缓存方法、装置及计算机可读存储介质 |
CN112784169A (zh) * | 2019-11-11 | 2021-05-11 | 华为技术有限公司 | 一种基于神经网络进行作品排名预测的方法、装置及设备 |
CN114186025A (zh) * | 2021-12-14 | 2022-03-15 | 中国建设银行股份有限公司 | 用户画像指标热度预测方法、装置、设备及存储介质 |
CN115250368A (zh) * | 2021-04-26 | 2022-10-28 | 北京字跳网络技术有限公司 | 一种视频预热方法、装置、设备和存储介质 |
CN115827988A (zh) * | 2023-02-10 | 2023-03-21 | 成都桉尼维尔信息科技有限公司 | 一种自媒体内容热度预测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103297814A (zh) * | 2013-06-28 | 2013-09-11 | 百视通新媒体股份有限公司 | 基于iptv的收视评估方法及系统 |
CN103744928A (zh) * | 2013-12-30 | 2014-04-23 | 北京理工大学 | 一种基于历史访问记录的网络视频分类方法 |
EP2618299A4 (en) * | 2010-09-15 | 2014-08-27 | Ntt Docomo Inc | POPULATION CALCULATION SYSTEM AND POPULATION CALCULATION METHOD |
CN104408210A (zh) * | 2014-12-31 | 2015-03-11 | 合一网络技术(北京)有限公司 | 基于意见领袖的视频推荐方法 |
CN104516983A (zh) * | 2015-01-08 | 2015-04-15 | 龙思薇 | 数据展示方法 |
CN104572875A (zh) * | 2014-12-19 | 2015-04-29 | 小米科技有限责任公司 | 推广信息投放有效性确定方法及装置 |
US9087124B1 (en) * | 2012-03-26 | 2015-07-21 | Google Inc. | Adaptive weighting of popular reference content in audio matching |
CN104991899A (zh) * | 2015-06-02 | 2015-10-21 | 广州酷狗计算机科技有限公司 | 用户属性的识别方法及装置 |
CN105574105A (zh) * | 2015-12-14 | 2016-05-11 | 北京锐安科技有限公司 | 一种文本分类模型的确定方法 |
-
2016
- 2016-08-17 CN CN201610682908.4A patent/CN107766360B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2618299A4 (en) * | 2010-09-15 | 2014-08-27 | Ntt Docomo Inc | POPULATION CALCULATION SYSTEM AND POPULATION CALCULATION METHOD |
US9087124B1 (en) * | 2012-03-26 | 2015-07-21 | Google Inc. | Adaptive weighting of popular reference content in audio matching |
CN103297814A (zh) * | 2013-06-28 | 2013-09-11 | 百视通新媒体股份有限公司 | 基于iptv的收视评估方法及系统 |
CN103744928A (zh) * | 2013-12-30 | 2014-04-23 | 北京理工大学 | 一种基于历史访问记录的网络视频分类方法 |
CN104572875A (zh) * | 2014-12-19 | 2015-04-29 | 小米科技有限责任公司 | 推广信息投放有效性确定方法及装置 |
CN104408210A (zh) * | 2014-12-31 | 2015-03-11 | 合一网络技术(北京)有限公司 | 基于意见领袖的视频推荐方法 |
CN104516983A (zh) * | 2015-01-08 | 2015-04-15 | 龙思薇 | 数据展示方法 |
CN104991899A (zh) * | 2015-06-02 | 2015-10-21 | 广州酷狗计算机科技有限公司 | 用户属性的识别方法及装置 |
CN105574105A (zh) * | 2015-12-14 | 2016-05-11 | 北京锐安科技有限公司 | 一种文本分类模型的确定方法 |
Non-Patent Citations (1)
Title |
---|
徐勇 等: "《微博信息传播的热度和持续度研究》", 《情报杂志》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632670B (zh) * | 2018-03-15 | 2021-03-26 | 北京奇艺世纪科技有限公司 | 一种视频满意度确定方法及装置 |
CN108632670A (zh) * | 2018-03-15 | 2018-10-09 | 北京奇艺世纪科技有限公司 | 一种视频满意度确定方法及装置 |
CN108259945A (zh) * | 2018-04-19 | 2018-07-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 处理播放多媒体数据的播放请求的方法和装置 |
CN108259945B (zh) * | 2018-04-19 | 2020-09-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 处理播放多媒体数据的播放请求的方法和装置 |
CN108769730A (zh) * | 2018-05-21 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 视频的播放方法、装置、计算设备以及存储介质 |
WO2019242453A1 (zh) * | 2018-06-21 | 2019-12-26 | 中兴通讯股份有限公司 | 信息处理方法及装置、存储介质、电子装置 |
CN111050195B (zh) * | 2018-10-12 | 2021-11-26 | 中国电信股份有限公司 | 流媒体缓存方法、装置及计算机可读存储介质 |
CN111050195A (zh) * | 2018-10-12 | 2020-04-21 | 中国电信股份有限公司 | 流媒体缓存方法、装置及计算机可读存储介质 |
CN109522470A (zh) * | 2018-11-06 | 2019-03-26 | 汪浩 | 一种视频热度预测方法、装置、设备及存储介质 |
CN112784169A (zh) * | 2019-11-11 | 2021-05-11 | 华为技术有限公司 | 一种基于神经网络进行作品排名预测的方法、装置及设备 |
CN110958472A (zh) * | 2019-12-16 | 2020-04-03 | 咪咕文化科技有限公司 | 视频点击量评级预测方法、装置、电子设备及存储介质 |
CN115250368A (zh) * | 2021-04-26 | 2022-10-28 | 北京字跳网络技术有限公司 | 一种视频预热方法、装置、设备和存储介质 |
CN114186025A (zh) * | 2021-12-14 | 2022-03-15 | 中国建设银行股份有限公司 | 用户画像指标热度预测方法、装置、设备及存储介质 |
CN115827988A (zh) * | 2023-02-10 | 2023-03-21 | 成都桉尼维尔信息科技有限公司 | 一种自媒体内容热度预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107766360B (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766360A (zh) | 一种视频热度预测方法和装置 | |
CN103559206B (zh) | 一种信息推荐方法及系统 | |
Bilgic et al. | Explaining recommendations: Satisfaction vs. promotion | |
WO2021042826A1 (zh) | 一种视频播放完整度预测方法及装置 | |
WO2018196798A1 (zh) | 用户客群分类方法和装置 | |
CN105159932B (zh) | 一种数据检索引擎和排序系统和方法 | |
CN103810162B (zh) | 推荐网络信息的方法和系统 | |
CN110442790A (zh) | 推荐多媒体数据的方法、装置、服务器和存储介质 | |
Cremonesi et al. | Hybrid algorithms for recommending new items | |
CN112667899A (zh) | 基于用户兴趣迁移的冷启动推荐方法、装置及存储设备 | |
CN106844530A (zh) | 一种问答对分类模型的训练方法和装置 | |
CN106294830A (zh) | 多媒体资源的推荐方法及装置 | |
CN109582875A (zh) | 一种在线医疗教育资源的个性化推荐方法及系统 | |
EP2488970A1 (en) | System and method for grouping multiple streams of data | |
CN107451148A (zh) | 一种视频分类方法、装置及电子设备 | |
CN104239552B (zh) | 生成关联关键词、提供关联关键词的方法及系统 | |
CN110737859A (zh) | 一种up主匹配方法及装置 | |
CN106919575A (zh) | 应用程序搜索方法及装置 | |
CN109271520A (zh) | 数据提取方法、数据提取装置、存储介质和电子设备 | |
CN105338408B (zh) | 基于时间因子的视频推荐方法 | |
WO2020135642A1 (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN107645667A (zh) | 视频推荐方法、系统及服务器设备 | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
Liu et al. | Effects of user's tastes on personalized recommendation | |
CN110059190A (zh) | 一种基于社交媒体内容和结构的用户实时观点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 818, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080 Applicant after: BEIJING ULTRAPOWER SOFTWARE Co.,Ltd. Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A Room 601 Applicant before: BEIJING ULTRAPOWER SOFTWARE Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |