CN111064996A - 用户观看视频内容偏好识别方法、系统和存储介质 - Google Patents
用户观看视频内容偏好识别方法、系统和存储介质 Download PDFInfo
- Publication number
- CN111064996A CN111064996A CN201911252625.6A CN201911252625A CN111064996A CN 111064996 A CN111064996 A CN 111064996A CN 201911252625 A CN201911252625 A CN 201911252625A CN 111064996 A CN111064996 A CN 111064996A
- Authority
- CN
- China
- Prior art keywords
- video
- user
- watching
- preset time
- time threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
- H04N21/8586—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了用户观看视频内容偏好识别方法、系统和存储介质,方法包括以下步骤:获取HTTP协议流量话单;根据HTTP协议流量话单,获取用户观看视频的第一视频ID;根据第一视频ID,获取第一视频ID的视频的第一详细信息;根据第一详细信息,确定视频偏好分值;根据视频偏好分值,确定用户的视频偏好类型。本发明通过HTTP协议流量话单,获取用户观看视频的第一视频ID,进而获取视频的第一详细信息,简化了数据的收集过程的同时又保证数据准确不会出现遗漏;根据第一详细信息,确定视频偏好分值,根据视频偏好分值,确定用户的视频偏好类型,能准确地识别出用户的视频偏好。本发明可广泛应用于数据挖掘领域。
Description
技术领域
本发明涉及数据挖掘领域,尤其是一种用户观看视频内容偏好识别方法、系统和存储介质。
背景技术
随着网络越来越发达,越来越多的用户从传统的电视观看方式转变为通过网络的方式观看所感兴趣的视频,而由于网络上具有海量的内容,而每一个用户的喜好不同,关心的可能只是其中的一小部分内容。因此,如何掌握不同用户的喜好尤为重要。在现有技术中,通过采集用户对每个视频的评分反馈情况,确定用户的观看视频偏好,然而,该种方式数据采集难度大,为了保证准确度需要不断进行实时收集,要求高,数据收集和处理过程繁琐且容易出现遗漏;同时,实际上用户在观看感兴趣的视频时亦不一定会进行评分,因此评分反馈无办法准确识别用户的视频偏好。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供一种简单且准确的用户观看视频内容偏好识别方法、系统和存储介质。
本发明采用的技术方案是:用户观看视频内容偏好识别方法,包括以下步骤:
获取HTTP协议流量话单;
根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
根据第一视频ID,获取第一视频ID的视频的第一详细信息;
根据第一详细信息,确定视频偏好分值;
根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
进一步,所述根据HTTP协议流量话单,获取用户观看视频的第一视频ID的步骤中,包括以下步骤:
通过DPI技术提取视频APP中第二视频ID的特征字串,生成第一URL和第二视频ID正则表达式的关键字规则库;
根据关键字规则库和用户观看视频的第二URL,获取用户观看视频的第一视频ID;
其中,第二视频ID包括第一视频ID,HTTP协议流量话单包括用户观看视频的第二URL,第一URL包括第二URL。
进一步,所述根据第一视频ID,获取第一视频ID的视频的第一详细信息的步骤中,包括以下步骤:
获取视频APP中第二视频ID的视频的第二详细信息;
根据第二详细信息,进行匹配得到第一视频ID的视频的第一详细信息;
其中,第二详细信息包括第一详细信息。
进一步,所述根据第一详细信息,确定视频偏好分值的步骤中,包括以下步骤:
根据HTTP协议流量话单和第一详细信息,确定字段;
根据字段,确定视频偏好分值;
其中,HTTP协议流量话单包括流量使用的具体时间、流量使用多少、流量套餐信息;
当视频偏好类型包括明星粉丝类,字段包括第一字段;
当视频偏好类型包括追剧用户类,字段包括第二字段;
当视频偏好类型包括视频类型类,字段包括第三字段;
第一字段包括上一次观看该演员视频与本次观看该演员视频的间隔天数、预设时间阈值观看该演员视频的天数、预设时间阈值观看该演员视频的流量、预设时间阈值观看该演员视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该演员视频的流量占该用户预设时间阈值流量套餐的占比、用户在预设时间阈值观看该演员视频的所有用户中流量排名的至少一种;
第二字段包括上一次观看该名称的视频与本次观看该名称的视频的间隔天数、预设时间阈值观看该名称的视频的天数、预设时间阈值观看该名称的视频的流量、预设时间阈值观看该名称的视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该名称的视频的流量占该用户当月流量套餐的占比、用户在预设时间阈值观看该名称的视频的所有用户中流量排名的至少一种;
第三字段包括上一次观看该类型视频与本次观看该类型视频的间隔天数、预设时间阈值观看该类型视频的天数、预设时间阈值观看该类型视频的流量、预设时间阈值观看该类型视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该类型视频的流量占该用户预设时间阈值流量套餐的占比、用户在预设时间阈值观看该类型视频的所有用户中流量排名的至少一种。
进一步,所述根据字段,确定视频偏好分值的步骤中,具体为:
根据第一字段、第二字段、第三字段的至少一种,确定视频偏好分值;
其中,上一次观看该演员视频与本次观看该演员视频的间隔天数、用户在预设时间阈值观看该演员视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该演员视频的天数、预设时间阈值观看该演员视频的流量、预设时间阈值观看该演员视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该演员视频的流量占该用户预设时间阈值流量套餐的占比与视频偏好分值呈正相关;
上一次观看该名称的视频与本次观看该名称的视频的间隔天数、用户在预设时间阈值观看该名称的视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该名称的视频的天数、预设时间阈值观看该名称的视频的流量、预设时间阈值观看该名称的视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该名称的视频的流量占该用户当月流量套餐的占比与视频偏好分值呈正相关;
上一次观看该类型视频与本次观看该类型视频的间隔天数、用户在预设时间阈值观看该类型视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该类型视频的天数、预设时间阈值观看该类型视频的流量、预设时间阈值观看该类型视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该类型视频的流量占该用户预设时间阈值流量套餐的占比与视频偏好分值呈正相关。
进一步,所述根据字段,确定视频偏好分值的步骤中,具体为:
当视频偏好类型包括明星粉丝类,获取第一样本和第一样本的第四字段,根据第四字段,通过逻辑回归算法获得第一参数集,根据第一参数集和第一字段,确定视频偏好分值,其中第四字段包括第一字段;
当视频偏好类型包括追剧用户类,获取第二样本和第二样本的第五字段,根据第五字段,通过逻辑回归算法获得第二参数集,根据第二参数集和第二字段,确定视频偏好分值,其中第五字段包括第二字段;
当视频偏好类型包括视频类型类,获取第三样本和第三样本的第六字段,根据第六字段,通过逻辑回归算法获得第三参数集,根据第三参数集和第三字段,确定视频偏好分值,其中第六字段包括第三字段。
进一步,所述根据视频偏好分值,确定用户的视频偏好类型的步骤中,具体为:
当视频偏好分值等于或大于预设阈值,确定用户的视频偏好类型。
本发明还提供,用户观看视频内容偏好识别系统,包括:
第一获取模块,用于获取HTTP协议流量话单;
第二获取模块,用于根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
第三获取模块,用于根据第一视频ID,获取第一视频ID的视频的第一详细信息;
第一确定模块,用于根据第一详细信息,确定视频偏好分值
第二确定模块,用于根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
本发明还提供,用户观看视频内容偏好识别系统,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现所述用户观看视频内容偏好识别方法。
本发明还提供,存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述用户观看视频内容偏好识别方法。
本发明的有益效果是:根据HTTP协议流量话单,获取用户观看视频的第一视频ID,根据第一视频ID,获取第一视频ID的视频的第一详细信息,根据第一详细信息,确定视频偏好分值,根据视频偏好分值,确定用户的视频偏好类型;本发明通过HTTP协议流量话单,获取用户观看视频的第一视频ID,进而获取视频的第一详细信息,因此简化了数据的收集过程的同时又保证数据准确不会出现遗漏;根据第一详细信息,确定视频偏好分值,根据视频偏好分值,确定用户的视频偏好类型,能准确地识别出用户的视频偏好。
附图说明
图1为本发明方法的步骤流程示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,用户观看视频内容偏好识别方法,包括以下步骤:
获取HTTP协议流量话单;
根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
根据第一视频ID,获取第一视频ID的视频的第一详细信息;
根据第一详细信息,确定视频偏好分值;
根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
在本实施例中,获取HTTP协议流量话单指的是获取一个或若干个数量的HTTP协议流量话单;通常网上或视频APP中提供有可观看视频,每一视频都会有唯一的视频ID和URL,第一视频ID指的是用户观看视频的视频ID。在本实施例中,以用户在视频APP中观看视频为例。
在本实施例中,具体地,包括以下步骤:
1)获取HTTP协议流量话单;
采集2G、3G、4G、5G(运营商网络)的信令,对信令进行编解码,生成2G、3G、4G、5G的信令的HTTP协议流量话单,其中HTTP协议流量话单包括用户号码(电话号码),流量使用的具体时间(包括http流的发生时间和结束时间,上下行流量(流量使用多少),第二URL(用户观看视频的第二URL),用户代理,服务器ip,端口、流量套餐信息等数据。
2)获取用户观看视频内容数据维表;
S11:通过DPI技术提取所有视频APP(例如可以为用户所使用的视频APP)中第二视频ID的特征字串,生成第一URL+(和)第二视频ID正则表达式的关键字规则库,即每一个第一URL对应一个第二视频ID,第二视频ID指的是视频APP中提供可看的视频的视频ID;
S12:根据关键字规则库和用户观看视频的第二URL,通过预设视频关键词规则,获取第一视频ID,其中,预设视频关键词规则,即URL与视频ID一一匹配的方式,将第二URL与关键字规则库进行匹配,得到第一视频ID,其中,第二视频ID包括第一视频ID,第一URL包括第二URL,相当于第一视频ID为第二视频ID的子集,第二URL为第一URL的子集。
另外,预设视频关键词规则可以以SDK的形式封装,当用户通过运营商网络使用上网服务时,通过调用识别SDK,获取第一视频ID。
最终,生成用户观看视频内容数据维表,具体包括以下内容:用户号码、发生时间(观看第一视频ID的视频的具体时间)、视频APP名称、第一视频ID。
3)获取第一详细信息;
S21:通过爬虫,爬取各个视频APP的第二视频ID的视频的第二详细信息,生成包含第二详细信息的视频ID翻译表,第二详细信息包括以下内容:视频APP名称、第二视频ID、视频名称、视频类型、演员信息、爬取时间;
S22:翻译用户观看视频信息,具体地:将第一视频ID与视频ID翻译表进行匹配,得到
第一视频ID的视频的第一详细信息,其中第一详细信息包括视频名称、视频类型、演员信息,第二详细信息包括第一详细信息,即第一详细信息相当于第二详细信息的子集。
4)生成用户视频偏好特征维表;
S31:设置预设时间阈值,在本实施例中为一个月,其他实施例中可以为一个月以上,即在本实施例中预设时间阈值可以表示为月、当月、本月;
S32:根据HTTP协议流量话单和第一详细信息,确定字段,在本实施例中,视频偏好类型同时包括明星粉丝类、追剧用户类、视频类型类三种,即包括三个模型类别,字段包括第一字段、第二字段、第三字段,在其他实施例中视频偏好类型可以包含一种或两种;确定字段的方式可以为通过SQL语言构成的存储过程进行关联汇总计算所得;
S33:根据字段生成用户视频偏好特征维表,具体内容如下:
序号 | 字段名 |
1 | 月份 |
2 | 模型类别 |
3 | 统计字段 |
4 | 用户号码 |
5 | R值 |
6 | F值 |
7 | M值 |
8 | 视频流量占比 |
9 | 套餐流量占比 |
10 | 同类用户排名 |
其中,在本实施例中第一字段、第二字段、第三字段均包括用户视频偏好特征维表中的信息,其他实施例中可以包括R值、F值、M值、视频流量占比、套餐流量占比、同类用户排名的一种或多种;当字段包含同类用户排名时,通过数量为若干个的HTTP协议流量话单进行统计得到;
当模型类别取值为1,即模型类别为明星粉丝类,对应的统计字段为演员信息(例如演员名称),R值为上一次观看该明星视频与本次观看该明星视频的间隔天数,F值为本月观看该演员视频的天数,M值为本月观看该演员视频的流量,视频流量占比为本月观看该演员视频的流量占该用户当月视频流量的占比、套餐流量占比为本月观看该演员视频的流量占该用户当月流量套餐的占比、同类用户排名为用户在本月观看该演员视频的所有用户中流量排名;
当模型类别取值为2,即模型类别为追剧用户类,对应的统计字段为视频名称(例如通常一个剧集的每一集的名称中的中文文字相同,即观看剧集相当于观看相同的名称的视频,因此以下描述中用剧集取代名称的视频),R值为上一次观看该剧集与本次观看该剧集的间隔天数、F值为本月观看该剧集的天数、M值为本月观看该剧集的流量,视频流量占比为本月观看该剧集的流量占该用户当月视频流量的占比,套餐流量占比为本月观看该剧集的流量占该用户当月流量套餐的占比,同类用户排名为用户在本月观看该剧集的所有用户中流量排名;
当模型类别取值为3,即模型类别为视频类型类,对应的统计字段为视频类型(例如综艺类、音乐类等),R值为上一次观看该类型视频与本次观看该类型视频的间隔天数、F值为本月观看该类型视频的天数,M值为本月观看该类型视频的流量,视频流量占比为本月观看该类型视频的流量占该用户当月视频流量的占比,套餐流量占比为本月观看该类型视频的流量占该用户当月流量套餐的占比,同类用户排名为用户在本月观看该类型视频的所有用户中流量排名;
5)确定参数集;
S41:获取第一样本和第一样本的第四字段,获取第二样本和第二样本的第五字段,获取第三样本和第三样本的第六字段,在本实施例中,第四字段与第一字段相同,第五字段与第二字段相同,第六字段与第三字段相同;
其中,第一样本为根据运营商历史数据,将推荐演员视频成功的用户作为正样本以及推荐演员视频失败的用户作为负样本所构成的样本数据;
第二样本为根据运营商历史数据,将推荐剧集视频成功的用户作为正样本以及推荐剧集视频失败的用户作为负样本所构成的样本数据;
第三样本为根据运营商历史数据,将推荐视频类型类(例如综艺类、音乐类)视频成功的用户作为正样本以及推荐视频类型类视频失败的用户作为负样本所构成的样本数据;
而推荐成功可以为:例如运营商一个月内会通过短信、运营商的APP、运营商的公众号、小程序、官网等途径推荐视频并提供视频相应链接,若用户点击该链接,则视为推荐成功,否则则视为推荐失败。
S42:以R值、F值、M值、视频流量占比、套餐流量占比、同类用户排名六个维度作为模型特征输入模型(例如包括建立线程回归方程,转化为对数回归等过程),使用逻辑回归算法训练模型,得出包含六个维度对应的六个最优参数的参数集;
即根据第四字段通过逻辑回归算法获得第一参数集,根据第五字段通过逻辑回归算法获得第二参数集,根据第六字段通过逻辑回归算法获得第三参数集,第一参数集、第二参数集、第三参数集均具有六个维度对应的六个最优参数。
6)确定视频偏好分值;
视频偏好分值计算公式=W1×R+W2×F+W3×M+W4×视频流量占比+W5×套餐流量占比+W6×同类用户排名;其中,W1、W6为负数,W2、W3、W4、W5为正数,因此从式子中可知R、同类用户排名与视频偏好分值呈负相关,F、M、视频流量占比、套餐流量占比与视频偏好分值呈正相关。
对第一字段进行Min-Max标准化后,代入上述公式,计算明星粉丝类的视频偏好分值,此时W1、W2、W3、W4、W5、W6为第一参数集对应的六个最优参数;
对第二字段进行Min-Max标准化后,代入上述公式,计算追剧用户类的视频偏好分值,此时W1、W2、W3、W4、W5、W6为第二参数集对应的六个最优参数;
对第三字段进行Min-Max标准化后,代入上述公式,计算视频类型类的视频偏好分值,此时W1、W2、W3、W4、W5、W6为第三参数集对应的六个最优参数;
7)确定用户的视频偏好类型;
预设阈值,包括第一阈值、第二阈值、第三阈值,其中第一阈值、第二阈值、第三阈值可以相同也可以不同;
当明星粉丝类的视频偏好分值等于或大于第一阈值,确定该用户的视频偏好类型为明星粉丝类;
当追剧用户类的视频偏好分值等于或大于第二阈值,确定该用户的视频偏好类型为追剧用户类;
当视频类型类的视频偏好分值等于或大于第三阈值,确定该用户的视频偏好类型为视频类型类。
最终得到视频偏好用户结果表,具体内容如下:
序号 | 字段名 |
1 | 月份 |
2 | 号码 |
3 | 模型类别 |
4 | 统计字段 |
5 | 视频偏好分值 |
6 | 是否偏好用户 |
其中,对应每一个模型类别,输出一个视频偏好用户结果表。
作为进一步优选地实施方式,在确定用户的视频偏好类型后,可以针对性地对用户进行视频推荐。
本发明还提供一种用户观看视频内容偏好识别系统,包括:
第一获取模块,用于获取HTTP协议流量话单;
第二获取模块,用于根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
第三获取模块,用于根据第一视频ID,获取第一视频ID的视频的第一详细信息;
第一确定模块,用于根据第一详细信息,确定视频偏好分值
第二确定模块,用于根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
本发明实施例还提供了系统,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现所述所述用户观看视频内容偏好识别方法。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
综上所述,相较于现有技术,本发明具有以下优点:
1)通过获取HTTP协议流量话单,获取用户观看视频的第一视频ID,进而获取视频的第一详细信息,因此简化了数据的收集过程的同时又保证数据准确不会出现遗漏,降低的成本、提高了数据采集的效率和准确性;
2)根据第一详细信息,确定视频偏好分值,根据视频偏好分值,确定用户的视频偏好类型,能准确地识别出用户的视频偏好;
3)提供三种模型类型,准确地得出不同用户的视频偏好类型;
4)准确地得出不同用户的视频偏好类型,若进一步进行视频推荐,具有针对性,只需要从用户感兴趣的视频偏好类型中选取视频进行推荐,而不需要从全部视频内容中进行推荐,一方面减少了视频数据的总收集量,提高了数据收集效率,简化了视频收集过程;另一方面,进行视频推荐时,在总收集量减少的视频数据中进行推荐,因此也简化了推荐过程,简化了视频数据的推荐过程。
5)当需要进行视频推荐的推荐内容更新时,只需要获取HTTP协议流量话单中最新时间的内容进行更新,或者当用户通过运营商网络使用上网服务时,通过调用识别SDK,直接更新获得第一视频ID,进行后续操作,即可保证视频推荐的实时性,方便快捷。
在一些可选择的实施例中,在本发明的步骤所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
本发明实施例还提供了一种存储介质,存储有处理器可执行的指令,处理器执行所述处理器可执行的指令时执行所述用户观看视频内容偏好识别方法。
同样可见,上述方法实施例中的内容均适用于本存储介质实施例中,实现的功能和有益效果与方法实施例相同。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例中的步骤表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本说明书的描述中,参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.用户观看视频内容偏好识别方法,其特征在于,包括以下步骤:
获取HTTP协议流量话单;
根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
根据第一视频ID,获取第一视频ID的视频的第一详细信息;
根据第一详细信息,确定视频偏好分值;
根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
2.根据权利要求1所述用户观看视频内容偏好识别方法,其特征在于:所述根据HTTP协议流量话单,获取用户观看视频的第一视频ID的步骤中,包括以下步骤:
通过DPI技术提取视频APP中第二视频ID的特征字串,生成第一URL和第二视频ID正则表达式的关键字规则库;
根据关键字规则库和用户观看视频的第二URL,获取用户观看视频的第一视频ID;
其中,第二视频ID包括第一视频ID,HTTP协议流量话单包括用户观看视频的第二URL,第一URL包括第二URL。
3.根据权利要求2所述用户观看视频内容偏好识别方法,其特征在于:所述根据第一视频ID,获取第一视频ID的视频的第一详细信息的步骤中,包括以下步骤:
获取视频APP中第二视频ID的视频的第二详细信息;
根据第二详细信息,进行匹配得到第一视频ID的视频的第一详细信息;
其中,第二详细信息包括第一详细信息。
4.根据权利要求1所述用户观看视频内容偏好识别方法,其特征在于:所述根据第一详细信息,确定视频偏好分值的步骤中,包括以下步骤:
根据HTTP协议流量话单和第一详细信息,确定字段;
根据字段,确定视频偏好分值;
其中,HTTP协议流量话单包括流量使用的具体时间、流量使用多少、流量套餐信息;
当视频偏好类型包括明星粉丝类,字段包括第一字段;
当视频偏好类型包括追剧用户类,字段包括第二字段;
当视频偏好类型包括视频类型类,字段包括第三字段;
第一字段包括上一次观看该演员视频与本次观看该演员视频的间隔天数、预设时间阈值观看该演员视频的天数、预设时间阈值观看该演员视频的流量、预设时间阈值观看该演员视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该演员视频的流量占该用户预设时间阈值流量套餐的占比、用户在预设时间阈值观看该演员视频的所有用户中流量排名的至少一种;
第二字段包括上一次观看该名称的视频与本次观看该名称的视频的间隔天数、预设时间阈值观看该名称的视频的天数、预设时间阈值观看该名称的视频的流量、预设时间阈值观看该名称的视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该名称的视频的流量占该用户当月流量套餐的占比、用户在预设时间阈值观看该名称的视频的所有用户中流量排名的至少一种;
第三字段包括上一次观看该类型视频与本次观看该类型视频的间隔天数、预设时间阈值观看该类型视频的天数、预设时间阈值观看该类型视频的流量、预设时间阈值观看该类型视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该类型视频的流量占该用户预设时间阈值流量套餐的占比、用户在预设时间阈值观看该类型视频的所有用户中流量排名的至少一种。
5.根据权利要求4所述用户观看视频内容偏好识别方法,其特征在于:所述根据字段,确定视频偏好分值的步骤中,具体为:
根据第一字段、第二字段、第三字段的至少一种,确定视频偏好分值;
其中,上一次观看该演员视频与本次观看该演员视频的间隔天数、用户在预设时间阈值观看该演员视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该演员视频的天数、预设时间阈值观看该演员视频的流量、预设时间阈值观看该演员视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该演员视频的流量占该用户预设时间阈值流量套餐的占比与视频偏好分值呈正相关;
上一次观看该名称的视频与本次观看该名称的视频的间隔天数、用户在预设时间阈值观看该名称的视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该名称的视频的天数、预设时间阈值观看该名称的视频的流量、预设时间阈值观看该名称的视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该名称的视频的流量占该用户当月流量套餐的占比与视频偏好分值呈正相关;
上一次观看该类型视频与本次观看该类型视频的间隔天数、用户在预设时间阈值观看该类型视频的所有用户中流量排名与视频偏好分值呈负相关,预设时间阈值观看该类型视频的天数、预设时间阈值观看该类型视频的流量、预设时间阈值观看该类型视频的流量占该用户预设时间阈值视频流量的占比、预设时间阈值观看该类型视频的流量占该用户预设时间阈值流量套餐的占比与视频偏好分值呈正相关。
6.根据权利要求4所述用户观看视频内容偏好识别方法,其特征在于:所述根据字段,确定视频偏好分值的步骤中,具体为:
当视频偏好类型包括明星粉丝类,获取第一样本和第一样本的第四字段,根据第四字段,通过逻辑回归算法获得第一参数集,根据第一参数集和第一字段,确定视频偏好分值,其中第四字段包括第一字段;
当视频偏好类型包括追剧用户类,获取第二样本和第二样本的第五字段,根据第五字段,通过逻辑回归算法获得第二参数集,根据第二参数集和第二字段,确定视频偏好分值,其中第五字段包括第二字段;
当视频偏好类型包括视频类型类,获取第三样本和第三样本的第六字段,根据第六字段,通过逻辑回归算法获得第三参数集,根据第三参数集和第三字段,确定视频偏好分值,其中第六字段包括第三字段。
7.根据权利要求1所述用户观看视频内容偏好识别方法,其特征在于:所述根据视频偏好分值,确定用户的视频偏好类型的步骤中,具体为:
当视频偏好分值等于或大于预设阈值,确定用户的视频偏好类型。
8.用户观看视频内容偏好识别系统,其特征在于,包括:
第一获取模块,用于获取HTTP协议流量话单;
第二获取模块,用于根据HTTP协议流量话单,获取用户观看视频的第一视频ID;
第三获取模块,用于根据第一视频ID,获取第一视频ID的视频的第一详细信息;
第一确定模块,用于根据第一详细信息,确定视频偏好分值
第二确定模块,用于根据视频偏好分值,确定用户的视频偏好类型;
其中,第一详细信息包括演员信息、视频类型、视频名称,视频偏好类型包括明星粉丝类、追剧用户类、视频类型类的至少一种。
9.用户观看视频内容偏好识别系统,其特征在于,包括:
至少一处理器;
至少一存储器,用于存储至少一程序;
当所述至少一程序被所述至少一处理器执行,使得所述至少一处理器实现如权利要求1-7任一项所述用户观看视频内容偏好识别方法。
10.存储介质,存储有处理器可执行的指令,其特征在于:处理器执行所述处理器可执行的指令时执行如权利要求1-7任一项所述用户观看视频内容偏好识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252625.6A CN111064996B (zh) | 2019-12-09 | 2019-12-09 | 用户观看视频内容偏好识别方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911252625.6A CN111064996B (zh) | 2019-12-09 | 2019-12-09 | 用户观看视频内容偏好识别方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111064996A true CN111064996A (zh) | 2020-04-24 |
CN111064996B CN111064996B (zh) | 2021-11-02 |
Family
ID=70300195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911252625.6A Active CN111064996B (zh) | 2019-12-09 | 2019-12-09 | 用户观看视频内容偏好识别方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111064996B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112351345A (zh) * | 2020-11-04 | 2021-02-09 | 深圳Tcl新技术有限公司 | 推荐内容的控制方法及装置、智能电视机、存储介质 |
WO2022012271A1 (zh) * | 2020-07-16 | 2022-01-20 | 聚好看科技股份有限公司 | 显示设备和服务器 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103607691A (zh) * | 2013-11-26 | 2014-02-26 | 中国联合网络通信集团有限公司 | 一种流量套餐推荐方法及装置 |
CN103731738A (zh) * | 2014-01-23 | 2014-04-16 | 哈尔滨理工大学 | 基于用户群组行为分析的视频推荐方法及装置 |
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
US20150256885A1 (en) * | 2010-02-22 | 2015-09-10 | Thomson Licensing | Method for determining content for a personal channel |
CN106454423A (zh) * | 2016-12-15 | 2017-02-22 | 暴风集团股份有限公司 | 根据历史观看记录进行视频推送的方法和系统 |
CN106507149A (zh) * | 2016-11-24 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 视频偏好信息处理方法、装置及系统 |
CN107517237A (zh) * | 2016-06-17 | 2017-12-26 | 中国移动通信集团广东有限公司 | 一种视频识别方法和装置 |
CN108173781A (zh) * | 2017-12-20 | 2018-06-15 | 广东宜通世纪科技股份有限公司 | Https流量识别方法、装置、终端设备及存储介质 |
CN108170868A (zh) * | 2018-02-09 | 2018-06-15 | 宁夏灵智科技有限公司 | 视频推荐方法和装置 |
-
2019
- 2019-12-09 CN CN201911252625.6A patent/CN111064996B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150256885A1 (en) * | 2010-02-22 | 2015-09-10 | Thomson Licensing | Method for determining content for a personal channel |
CN103607691A (zh) * | 2013-11-26 | 2014-02-26 | 中国联合网络通信集团有限公司 | 一种流量套餐推荐方法及装置 |
CN104333773A (zh) * | 2013-12-18 | 2015-02-04 | 乐视网信息技术(北京)股份有限公司 | 一种视频推荐方法及服务器 |
CN103731738A (zh) * | 2014-01-23 | 2014-04-16 | 哈尔滨理工大学 | 基于用户群组行为分析的视频推荐方法及装置 |
CN107517237A (zh) * | 2016-06-17 | 2017-12-26 | 中国移动通信集团广东有限公司 | 一种视频识别方法和装置 |
CN106507149A (zh) * | 2016-11-24 | 2017-03-15 | 武汉斗鱼网络科技有限公司 | 视频偏好信息处理方法、装置及系统 |
CN106454423A (zh) * | 2016-12-15 | 2017-02-22 | 暴风集团股份有限公司 | 根据历史观看记录进行视频推送的方法和系统 |
CN108173781A (zh) * | 2017-12-20 | 2018-06-15 | 广东宜通世纪科技股份有限公司 | Https流量识别方法、装置、终端设备及存储介质 |
CN108170868A (zh) * | 2018-02-09 | 2018-06-15 | 宁夏灵智科技有限公司 | 视频推荐方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022012271A1 (zh) * | 2020-07-16 | 2022-01-20 | 聚好看科技股份有限公司 | 显示设备和服务器 |
CN112351345A (zh) * | 2020-11-04 | 2021-02-09 | 深圳Tcl新技术有限公司 | 推荐内容的控制方法及装置、智能电视机、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111064996B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9213961B2 (en) | Systems and methods for generating social index scores for key term analysis and comparisons | |
CN107908694A (zh) | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 | |
US20080160490A1 (en) | Seeking Answers to Questions | |
US10235680B2 (en) | System and method for populating a database with user input | |
US8527450B2 (en) | Apparatus and methods for analyzing and using short messages from commercial accounts | |
JP6170023B2 (ja) | コンテンツ推薦装置、コンテンツ推薦方法及びコンテンツ推薦プログラム | |
CN109597974B (zh) | 报表生成方法及装置 | |
CN103235796B (zh) | 一种基于用户点击行为的搜索方法及系统 | |
CN111064996B (zh) | 用户观看视频内容偏好识别方法、系统和存储介质 | |
CN104951544A (zh) | 用户数据处理方法、用户数据的提供方法和系统 | |
CN107578263A (zh) | 一种广告异常访问的检测方法、装置和电子设备 | |
CN108228784A (zh) | 视频推荐方法和装置、电子设备、存储介质、程序 | |
CN105302880A (zh) | 内容关联推荐方法及装置 | |
CN111815375B (zh) | 广告投放中的用户画像方法及装置 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
CN110175264A (zh) | 视频用户画像的构建方法、服务器及计算机可读存储介质 | |
DE112015006537T5 (de) | Gerätebasierte filterung von inhaltselementen, die mit mobilen anwendungen verbunden sind | |
CN110196941B (zh) | 一种资讯推荐方法、装置、服务器与存储介质 | |
CN106610932A (zh) | 一种语料处理方法和装置及语料分析方法和装置 | |
CN109558531A (zh) | 新闻信息推送方法、装置以及计算机设备 | |
CN106789277B (zh) | 基于状态机模型的用户行为确定方法及装置 | |
CN105117448B (zh) | 一种网络购物中基于图片的产品曝光率算法及系统 | |
Kren et al. | Public interest analysis based on implicit feedback of IPTV users | |
CN104866545A (zh) | 在信息展示页面上检索关键字的方法 | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |