CN106484773B - 确定多媒体资源的关键词的权重的方法及装置 - Google Patents
确定多媒体资源的关键词的权重的方法及装置 Download PDFInfo
- Publication number
- CN106484773B CN106484773B CN201610817473.XA CN201610817473A CN106484773B CN 106484773 B CN106484773 B CN 106484773B CN 201610817473 A CN201610817473 A CN 201610817473A CN 106484773 B CN106484773 B CN 106484773B
- Authority
- CN
- China
- Prior art keywords
- multimedia resource
- keyword
- multimedia
- weight
- ith
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Abstract
本发明涉及确定多媒体资源的关键词的权重的方法及装置。该方法包括:根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表;对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,多媒体资源对应的上下文窗口包括在多媒体资源列表中与多媒体资源相邻的多个多媒体资源。根据本发明的确定多媒体资源的关键词的权重的方法及装置能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种确定多媒体资源的关键词的权重的方法及装置。
背景技术
在视频等多媒体资源的智能推荐与检索等应用领域,精准地确定多媒体资源的关键词的权重,从而基于关键词和相应权重准确地“刻画”多媒体资源的特征,对于多媒体资源推荐和检索的效率及准确度具有重要意义。以视频为例,在相关技术中,视频关键词的权重计算主要有三种方法。第一种为基于TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆向文件频率)公式的计算方法。在该方法中,给定描述视频的文件信息(如视频标题或者视频简介),计算视频关键词的文档频率和逆文档频率,再利用TF-IDF公式计算关键词的权重。在该方法中,由于视频上传者可以自由填写视频标题和视频简介等视频的文件信息,导致计算出的视频关键词的权重的准确性较低。第二种方法为基于视频-用户交互矩阵分解的计算方法。在该方法中,构造视频-用户交互矩阵,将其进行SVD(Singular Value Decomposition,奇异值分解),可得到视频在隐式特征空间中的表示,从而得到每个视频在隐式关键词上的权重。该方法由于视频-用户交互矩阵维度巨大且通常非常稀疏,导致对于计算资源消耗较大且计算结果的准确性较低。同时,由于只能得到隐式关键词的权重,导致这种方法得到的结果的可理解性较差。第三种方法为基于视频图像特征的计算方法。在该方法中,识别、提取视频关键帧,分析关键帧的图像特征,并基于图像特征计算对应关键词的权重。该方法由于需要识别并分析视频的关键帧图像,导致对于计算资源消耗较大且运行效率较低。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,确定多媒体资源的关键词的权重的准确率较低、对于计算资源的消耗较大且效率较低。
解决方案
为了解决上述技术问题,根据本发明的一实施例,提供了一种确定多媒体资源的关键词的权重的方法,包括:
根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;
对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。
为了解决上述技术问题,根据本发明的另一实施例,提供了一种确定多媒体资源的关键词的权重的装置,包括:
多媒体资源列表确定模块,用于根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;
权重确定模块,用于对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。
有益效果
通过根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,根据本发明实施例的确定多媒体资源的关键词的权重的方法及装置能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的实现流程图;
图2示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法中多媒体资源列表以及各个多媒体资源对应的关键词的示意图;
图3示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的一示例性的实现流程图;
图4示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的另一示例性的实现流程图;
图5示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图;
图6示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图;
图7示出根据本发明另一实施例的确定多媒体资源的关键词的权重的装置的结构框图;
图8示出根据本发明另一实施例的确定多媒体资源的关键词的权重的装置的一示例性的结构框图;
图9示出了本发明的另一个实施例的一种确定多媒体资源的关键词的权重的设备的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的实现流程图。本实施例的执行主体可以为服务器,在此不作限定。如图1所示,该方法主要包括:
在步骤S101中,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表。
其中,多媒体可以为多种媒体的综合,例如可以包括文本、声音和图像等多种媒体形式。例如,多媒体资源可以为视频。
作为本发明实施例的一个示例,可以从最近180天用户观看多媒体资源的原始日志数据中抽取每个用户每天的多媒体资源观看序列,并可以按照观看时间的先后顺序进行排序,得到各个用户对应的多媒体资源列表。
在步骤S102中,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,该多媒体资源对应的上下文窗口包括在该多媒体资源列表中与该多媒体资源相邻的多个多媒体资源。
作为本发明实施例的一个示例,可以根据各个多媒体资源的标题或内容摘要等其他描述文本来确定各个多媒体资源的关键词。
图2示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法中多媒体资源列表以及各个多媒体资源对应的关键词的示意图。如图2所示,该多媒体资源列表包括多媒体资源V1、……、Vi-2、Vi-1、Vi、Vi+1、Vi+2、……、Vn。其中,多媒体资源V1对应的关键词包括T1、T5、T6,多媒体资源Vi-2对应的关键词包括T1、T3,多媒体资源Vi-1对应的关键词包括T1、T2、T4,多媒体资源Vi对应的关键词包括T1、T2、T3,多媒体资源Vi+1对应的关键词包括T1、T3,多媒体资源Vi+2对应的关键词包括T1、T2、T3、T7,多媒体资源Vn对应的关键词包括T8、T9。
作为本发明实施例的一个示例,根据多媒体资源列表以及预设的上下文窗口的长度,可以确定各个多媒体资源对应的上下文窗口。例如,预设的上下文窗口的长度为5,则多媒体资源Vi对应的上下文窗口包括Vi-2、Vi-1、Vi+1、Vi+2。对于多媒体资源Vi,其关键词T1在其上下文窗口中出现的次数为4,其关键词T2在其上下文窗口中出现的次数为2,其关键词T3在其上下文窗口中出现的次数为3。
多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数反应了该关键词在用户连续观看的多个多媒体资源中反复出现的频率,换言之,如果用户在短时间内连续观看的多个视频都包含某一关键词,则可以认为该关键词表达了视频主题,刻画了用户兴趣,本实施例提出的确定多媒体资源的关键词的权重的方法根据上述出现次数来确定关键词的权重,使得权重的确定基于用户兴趣在短时间内的稳定性,从而可以适用于视频内容画像和视频智能推荐等方面。
通过综合利用用户对于多媒体资源的观看行为数据和关键词的整体分布信息,本发明实施例能够降低多媒体资源上传者为多媒体资源设置多个无关的热词对关键词权重确定的准确度造成的影响,由此能够提高确定多媒体资源的关键词的权重的准确度,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。
此外,本实施例无需分析视频图像特征,也无需对大规模的视频-用户交互矩阵进行矩阵分解,由此能够降低对于计算资源的消耗,实现高效地计算显式的多媒体资源的关键词的权重。
在一个种可能的实现方式中,可以通过如下方式,来根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重:对于多媒体资源的每个关键词,若关键词在多媒体资源对应的上下文窗口中出现的次数越多,则关键词的权重越高;若关键词在多媒体资源对应的上下文窗口中出现的次数越少,则关键词的权重越低。通过这样的方式,本领域技术人员可根据需要,采用各种具体手段来根据上述次数确定权重。以下仅出于便于理解的目的,给出一种确定权重的示例。
在一种可能的实现方式中,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,包括:采用式1计算多媒体资源列表中的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重
其中,表示第i个多媒体资源的第j个关键词在第i个多媒体资源对应的上下文窗口中出现的次数,表示第i个多媒体资源的第k个关键词在第i个多媒体资源对应的上下文窗口中出现的次数,K表示第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。
图3示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的一示例性的实现流程图。如图3所示,该方法包括:
在步骤S301中,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表。
在步骤S302中,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,该多媒体资源对应的上下文窗口包括在该多媒体资源列表中与该多媒体资源相邻的多个多媒体资源。
在步骤S303中,对于该多媒体资源的每个关键词,根据各个频道中包含该关键词的多媒体资源的个数计算该关键词的频道分布熵值,该频道分布熵值表示该关键词在各个频道中分布的集中程度。
作为本发明实施例的一个示例,若该关键词在各个频道中分布的集中程度越低,则该关键词的频道分布熵值越高;若该关键词在各个频道中分布的集中程度越高,则该关键词的频道分布熵值越低。换言之,该关键词仅集中出现在少数频道中,则认为该关键词在各个频道中分布的集中程度较高,从而频道分布熵值较低;若该关键词分散分布在各个频道中,则认为该关键词在各个频道中分布的集中程度较低,从而频道分布熵值较高。
直观来说,若某个关键词(如“中国”)广泛分布于不同频道的多媒体资源(频道分布熵值高),那么相对于频道分布更为集中(即频道分布熵值低)的关键词(如“三角函数”)来说,广泛分布于不同频道的多媒体资源的关键词的语义更为分散,可以适当降低其权重;若包含某个关键词(如“原创”)的多媒体资源的数量非常多,那么相对于关联多媒体资源的数量较少的关键词(如“汽车喇叭”)来说,关于多媒体资源的数量庞大的关键词的语义表征度较弱,可以适当降低其权重。在本示例中,通过对多媒体资源的关键词的权重进行优化,能够有效降低歧义词、频繁词的权重,以突出真正具有表征性的关键词的权重,由此进一步提高了确定多媒体资源的关键词的权重的准确度,从而能够进一步提高多媒体资源的智能推荐与检索的效果,提高用户体验。
例如,频道可以包括搞笑频道、综艺频道和游戏频道等,在此不作限定。
通过该示例,本领域技术人员可根据需要,采用各种具体手段来根据关键词在各个频道中分布的集中程度确定该关键词的频道分布熵值。以下仅出于便于理解的目的,给出一种确定频道分布熵值的示例。
在一种可能的实现方式中,对于多媒体资源的每个关键词,根据各个频道中包含该关键词的多媒体资源的个数计算该关键词的频道分布熵值,包括:采用式2计算多媒体资源列表中的第i个多媒体资源的第j个关键词的频道分布熵值Hi(j);
其中,N表示频道的总个数,1≤n≤N,1≤m≤N,表示第i个多媒体资源的第j个关键词在第n个频道的分布比例,表示第n个频道中包含第j个关键词的多媒体资源的个数,表示第m个频道中包含第j个关键词的多媒体资源的个数。在该实现方式中,每个多媒体资源分别属于N个频道中的任意一个频道。
在步骤S304中,根据该关键词的频道分布熵值优化该关键词的权重。
在一种可能的实施方式中,根据该关键词的频道分布熵值优化该关键词的权重可通过如下方式实现:可随着关键词的频道分布熵值升高,降低该关键词的权重降低;随着关键词的频道分布熵值降低,提高该关键词的权重。通过这种方式,本领域技术人员可根据需要,采用各种具体手段来根据该关键词的频道分布熵值优化该关键词的权重。以下仅出于便于理解的目的,给出一种确定频道分布熵值的示例。
在一种可能的实现方式中,根据该关键词的频道分布熵值优化该关键词的权重,包括:采用式4优化第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重;
其中,表示优化后的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重,表示优化前的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重。可以表示第i个多媒体资源的第j个关键词的文档数,即所有频道中包含第j个关键词的多媒体资源的个数。
图4示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法的另一示例性的实现流程图。如图4所示,该方法包括:
在步骤S401中,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表。
在步骤S402中,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,该多媒体资源对应的上下文窗口包括在该多媒体资源列表中与该多媒体资源相邻的多个多媒体资源。
在步骤S403中,对于该多媒体资源的每个关键词,根据各个频道中包含该关键词的多媒体资源的个数计算该关键词的频道分布熵值。
在步骤S404中,根据该关键词的频道分布熵值优化该关键词的权重。
在步骤S405中,对优化后的权重进行归一化处理。
在一种可能的实现方式中,对优化后的权重进行归一化处理,包括:采用式5对优化后的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重进行归一化处理;
其中,表示归一化处理后的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重,表示优化后的第i个多媒体资源的第j个关键词对于第i个多媒体资源的权重,表示优化后的第i个多媒体资源的第k个关键词对于第i个多媒体资源的权重,K表示第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。
在该示例中,通过对优化后的权重进行归一化处理,使得对于同一个多媒体资源,其各个关键词的权重之和为1。
图5示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图。如图5所示,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,包括:
在步骤S501中,获取目标用户观看多媒体资源的历史数据。
例如,可以获取目标用户最近180天观看多媒体资源的观看序列。
在步骤S502中,按照观看时间的先后顺序对历史数据中的各个多媒体资源进行排序。
在步骤S503中,基于排序后的各个多媒体资源得到目标用户对应的多媒体资源列表。
进一步地,在一个示例中,可对排序后的各个多媒体资源进行“清洗”,消除对准确性和效率产生干扰的多媒体资源后,形成多媒体资源列表。以下给出一些具体的示例,来举例说明可以如何基于排序后的各个多媒体资源得到目标用户对应的多媒体资源列表。
在一种可能的实现方式中,基于排序后的各个多媒体资源得到目标用户对应的多媒体资源列表,包括:去除排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。在该实现方式中,通过去除排序后的各个多媒体资源中播放方式为预设方式的多媒体数据来对排序后的多媒体资源进行清洗,以提高确定多媒体资源的关键词的权重的准确度。
在一种可能的实现方式中,基于排序后的各个多媒体资源得到目标用户对应的多媒体资源列表,包括:在排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。在该实现方式中,对于排序后的多媒体资源中连续重复的多媒体资源,仅保留连续重复的多媒体资源中的一个多媒体资源,由此对排序后的多媒体资源进行清洗,以提高确定多媒体资源的关键词的权重的准确度。
在一种可能的实现方式中,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,还包括:在多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在相邻的多媒体资源之间对多媒体资源列表进行切分,得到新的多媒体资源列表。例如,预设时长可以为3小时。在该实现方式中,若多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长,则在该相邻的多媒体资源之间对多媒体资源列表进行切分,以保证同一多媒体资源列中相邻的多媒体资源之间的观看时间间隔小于或等于预设时长,由此基于用户兴趣在短时间内的稳定性进行多媒体资源的关键词的权重的确定,从而提高确定多媒体资源的关键词的权重的准确度。
在一种可能的实现方式中,该方法还包括:去除多媒体资源的个数不在预设区间内的多媒体资源列表。例如,预设区间可以为[2,30],可以去除多媒体资源的个数小于2或大于30的多媒体资源列表,以兼顾准确性和计算效率。
图6示出根据本发明一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图。如图6所示,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,包括:
在步骤S601中,获取目标用户观看多媒体资源的历史数据。
在步骤S602中,按照观看时间的先后顺序对历史数据中的各个多媒体资源进行排序。
在步骤S603中,去除排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。
在步骤S604中,在排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。
在步骤S605中,在多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在相邻的多媒体资源之间对多媒体资源列表进行切分,得到新的多媒体资源列表。
在步骤S606中,去除多媒体资源的个数不在预设区间内的多媒体资源列表。
在该示例中,通过去除排序后的各个多媒体资源中播放方式为预设方式的多媒体数据、保留连续重复的多媒体资源中的一个多媒体资源、对多媒体资源列表进行切分和去除多媒体资源的个数不在预设区间内的多媒体资源列表的方式对多媒体资源列表进行清洗,以提高确定多媒体资源的关键词的权重的准确度。
这样,通过根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,根据本发明实施例的确定多媒体资源的关键词的权重的方法能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。
实施例2
图7示出根据本发明另一实施例的确定多媒体资源的关键词的权重的装置的结构框图。如图7所示,该装置包括:多媒体资源列表确定模块71,用于根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;权重确定模块72,用于对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。
图8示出根据本发明另一实施例的确定多媒体资源的关键词的权重的装置的一示例性的结构框图。图8中标号与图7相同的组件具有相同的功能,为简明起见,省略对这些组件的详细说明。如图8所示:
在一种可能的实现方式中,对于所述多媒体资源的每个关键词,若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越多,则所述关键词的权重越高;若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越少,则所述关键词的权重越低。
在一种可能的实现方式中,所述装置还包括:频道分布熵值计算模块73,用于对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,所述频道分布熵值表示所述关键词在各个频道中分布的集中程度;权重优化模块74,用于根据所述关键词的频道分布熵值优化所述关键词的权重。
在一种可能的实现方式中,若所述关键词在各个频道中分布的集中程度越低,则所述关键词的频道分布熵值越高;若所述关键词在各个频道中分布的集中程度越高,则所述关键词的频道分布熵值越低。
在一种可能的实现方式中,所述权重优化模块74用于:随着关键词的频道分布熵值升高,降低所述关键词的权重;随着关键词的频道分布熵值降低,提高所述关键词的权重。
在一种可能的实现方式中,所述装置还包括:归一化模块75,用于对优化后的权重进行归一化处理。
其中,表示所述第i个多媒体资源的第j个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,表示所述第i个多媒体资源的第k个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。
在一种可能的实现方式中,所述频道分布熵值计算模块73用于:采用式2计算所述多媒体资源列表中的第i个多媒体资源的第j个关键词的频道分布熵值Hi(j);
其中,
在一种可能的实现方式中,所述权重优化模块74用于:采用式4优化第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重;
在一种可能的实现方式中,所述归一化模块75用于:采用式5对优化后的第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重进行归一化处理;
其中,表示归一化处理后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第k个关键词对于所述第i个多媒体资源的权重,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。
在一种可能的实现方式中,所述多媒体资源列表确定模块71包括:历史数据获取子模块711,用于获取所述目标用户观看多媒体资源的历史数据;排序子模块712,用于按照观看时间的先后顺序对所述历史数据中的各个多媒体资源进行排序;多媒体资源列表确定子模块713,用于基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表。
在一种可能的实现方式中,所述多媒体资源列表确定子模块713包括:去除单元,用于去除所述排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,所述预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。
在一种可能的实现方式中,所述多媒体资源列表确定子模块713包括:保留单元,用于在所述排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。
在一种可能的实现方式中,所述多媒体资源列表确定模块71还包括:划分子模块714,用于在所述多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在所述相邻的多媒体资源之间对所述多媒体资源列表进行切分,得到新的多媒体资源列表。
在一种可能的实现方式中,所述装置还包括:去除模块76,用于去除多媒体资源的个数不在预设区间内的多媒体资源列表。
需要说明的是,这样,通过根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,根据本发明实施例的确定多媒体资源的关键词的权重的装置能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。
实施例3
图9示出了本发明的另一个实施例的一种确定多媒体资源的关键词的权重的设备的结构框图。所述确定多媒体资源的关键词的权重的设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述确定多媒体资源的关键词的权重的设备1100包括处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:实现实施例1中各步骤的操作。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (28)
1.一种确定多媒体资源的关键词的权重的方法,其特征在于,包括:
根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;
对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源;
对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,所述频道分布熵值表示所述关键词在各个频道中分布的集中程度;
根据所述关键词的频道分布熵值优化所述关键词的权重。
2.根据权利要求1所述的方法,其特征在于,对于所述多媒体资源的每个关键词,若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越多,则所述关键词的权重越高;若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越少,则所述关键词的权重越低。
3.根据权利要求1所述的方法,其特征在于,若所述关键词在各个频道中分布的集中程度越低,则所述关键词的频道分布熵值越高;若所述关键词在各个频道中分布的集中程度越高,则所述关键词的频道分布熵值越低。
4.根据权利要求1所述的方法,其特征在于,根据所述关键词的频道分布熵值优化所述关键词的权重,包括:
随着关键词的频道分布熵值升高,降低所述关键词的权重;
随着关键词的频道分布熵值降低,提高所述关键词的权重。
5.根据权利要求1所述的方法,其特征在于,在根据所述关键词的频道分布熵值优化所述关键词的权重之后,所述方法还包括:
对优化后的权重进行归一化处理。
10.根据权利要求1所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,包括:
获取所述目标用户观看多媒体资源的历史数据;
按照观看时间的先后顺序对所述历史数据中的各个多媒体资源进行排序;
基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表。
11.根据权利要求10所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:
去除所述排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,所述预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。
12.根据权利要求10所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:
在所述排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。
13.根据权利要求10所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,还包括:
在所述多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在所述相邻的多媒体资源之间对所述多媒体资源列表进行切分,得到新的多媒体资源列表。
14.根据权利要求10至13中任意一项所述的方法,其特征在于,所述方法还包括:
去除多媒体资源的个数不在预设区间内的多媒体资源列表。
15.一种确定多媒体资源的关键词的权重的装置,其特征在于,包括:
多媒体资源列表确定模块,用于根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;
权重确定模块,用于对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源;
频道分布熵值计算模块,用于对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,所述频道分布熵值表示所述关键词在各个频道中分布的集中程度;
权重优化模块,用于根据所述关键词的频道分布熵值优化所述关键词的权重。
16.根据权利要求15所述的装置,其特征在于,对于所述多媒体资源的每个关键词,若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越多,则所述关键词的权重越高;若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越少,则所述关键词的权重越低。
17.根据权利要求15所述的装置,其特征在于,若所述关键词在各个频道中分布的集中程度越低,则所述关键词的频道分布熵值越高;若所述关键词在各个频道中分布的集中程度越高,则所述关键词的频道分布熵值越低。
18.根据权利要求15所述的装置,其特征在于,所述权重优化模块用于:
随着关键词的频道分布熵值升高,降低所述关键词的权重;
随着关键词的频道分布熵值降低,提高所述关键词的权重。
19.根据权利要求15所述的装置,其特征在于,所述装置还包括:
归一化模块,用于对优化后的权重进行归一化处理。
24.根据权利要求15所述的装置,其特征在于,所述多媒体资源列表确定模块包括:
历史数据获取子模块,用于获取所述目标用户观看多媒体资源的历史数据;
排序子模块,用于按照观看时间的先后顺序对所述历史数据中的各个多媒体资源进行排序;
多媒体资源列表确定子模块,用于基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表。
25.根据权利要求24所述的装置,其特征在于,所述多媒体资源列表确定子模块包括:
去除单元,用于去除所述排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,所述预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。
26.根据权利要求24所述的装置,其特征在于,所述多媒体资源列表确定子模块包括:
保留单元,用于在所述排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。
27.根据权利要求24所述的装置,其特征在于,所述多媒体资源列表确定模块还包括:
划分子模块,用于在所述多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在所述相邻的多媒体资源之间对所述多媒体资源列表进行切分,得到新的多媒体资源列表。
28.根据权利要求24至27中任意一项所述的装置,其特征在于,所述装置还包括:
去除模块,用于去除多媒体资源的个数不在预设区间内的多媒体资源列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817473.XA CN106484773B (zh) | 2016-09-12 | 2016-09-12 | 确定多媒体资源的关键词的权重的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817473.XA CN106484773B (zh) | 2016-09-12 | 2016-09-12 | 确定多媒体资源的关键词的权重的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106484773A CN106484773A (zh) | 2017-03-08 |
CN106484773B true CN106484773B (zh) | 2020-02-14 |
Family
ID=58273718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610817473.XA Expired - Fee Related CN106484773B (zh) | 2016-09-12 | 2016-09-12 | 确定多媒体资源的关键词的权重的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106484773B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110855740B (zh) * | 2019-09-27 | 2021-03-19 | 深圳市火乐科技发展有限公司 | 信息推送方法及相关设备 |
CN111225282B (zh) * | 2019-12-30 | 2021-04-02 | 重庆特斯联智慧科技股份有限公司 | 一种基于大数据的视频信息推荐方法、系统和可读存储介质 |
CN111400546B (zh) * | 2020-03-18 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种视频召回方法、视频推荐方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823829A (zh) * | 2013-11-01 | 2014-05-28 | 北京奇虎科技有限公司 | 一种对网页视频进行播放的方法和装置 |
CN104679855A (zh) * | 2015-02-13 | 2015-06-03 | 广东欧珀移动通信有限公司 | 一种播放列表创建方法及终端设备 |
CN104853248A (zh) * | 2015-05-07 | 2015-08-19 | 海信集团有限公司 | 一种视频推荐方法及装置 |
CN105868264A (zh) * | 2015-12-31 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种根据关注词推送更新信息的方法及系统 |
-
2016
- 2016-09-12 CN CN201610817473.XA patent/CN106484773B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823829A (zh) * | 2013-11-01 | 2014-05-28 | 北京奇虎科技有限公司 | 一种对网页视频进行播放的方法和装置 |
CN104679855A (zh) * | 2015-02-13 | 2015-06-03 | 广东欧珀移动通信有限公司 | 一种播放列表创建方法及终端设备 |
CN104853248A (zh) * | 2015-05-07 | 2015-08-19 | 海信集团有限公司 | 一种视频推荐方法及装置 |
CN105868264A (zh) * | 2015-12-31 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种根据关注词推送更新信息的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106484773A (zh) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182564B2 (en) | Text recommendation method and apparatus, and electronic device | |
US11030517B2 (en) | Summary obtaining method, apparatus, and device, and computer-readable storage medium | |
US9146915B2 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
CN106227834B (zh) | 多媒体资源的推荐方法及装置 | |
US9176969B2 (en) | Integrating and extracting topics from content of heterogeneous sources | |
US9256649B2 (en) | Method and system of filtering and recommending documents | |
WO2015081915A1 (zh) | 文件推荐方法和装置 | |
CN110149529B (zh) | 媒体信息的处理方法、服务器及存储介质 | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
CN111723260B (zh) | 推荐内容的获取方法、装置、电子设备及可读存储介质 | |
US10762122B2 (en) | Method and device for assessing quality of multimedia resource | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN106484773B (zh) | 确定多媒体资源的关键词的权重的方法及装置 | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
US9721000B2 (en) | Generating and using a customized index | |
WO2013107031A1 (zh) | 基于评论信息确定视频质量参数的方法、装置和系统 | |
KR101931859B1 (ko) | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 | |
US9384780B2 (en) | System and method for video summarization and navigation based on statistical models | |
CN110569447B (zh) | 一种网络资源的推荐方法、装置及存储介质 | |
CN106446696B (zh) | 一种信息处理方法及电子设备 | |
CN113076395B (zh) | 语义模型训练、搜索显示方法、装置、设备及存储介质 | |
CN106503044B (zh) | 兴趣特征分布获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200508 Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Patentee after: Alibaba (China) Co.,Ltd. Address before: 200241, room 2, floor 02, building 555, Dongchuan Road, Minhang District, Shanghai Patentee before: Transmission network technology (Shanghai) Co., Ltd |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200214 Termination date: 20200912 |