CN111131899A - 一种多站点的视频播放记录整合方法和装置 - Google Patents

一种多站点的视频播放记录整合方法和装置 Download PDF

Info

Publication number
CN111131899A
CN111131899A CN201811285748.5A CN201811285748A CN111131899A CN 111131899 A CN111131899 A CN 111131899A CN 201811285748 A CN201811285748 A CN 201811285748A CN 111131899 A CN111131899 A CN 111131899A
Authority
CN
China
Prior art keywords
video
playing
site
user
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811285748.5A
Other languages
English (en)
Inventor
储晶星
全东方
齐希
傅一平
朱骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811285748.5A priority Critical patent/CN111131899A/zh
Publication of CN111131899A publication Critical patent/CN111131899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4667Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种多站点的视频播放记录整合方法和装置,基于运营商网络数据的视频播放用户识别技术,识别用户在各大视频站点的播放记录,解决多站点视频播放用户融合的问题;根据不同站点的视频属性等媒资数据,自动给视频分类,建立统一的视频分类标签,统一的视频分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。

Description

一种多站点的视频播放记录整合方法和装置
技术领域
本发明实施例涉及大数据业务支撑技术领域,更具体地,涉及一种多站点的视频播放记录整合方法和装置。
背景技术
随着移动通信技术的飞速发展和线上视频内容的不断丰富,人们越来越习惯于通过手机等移动终端播放视频,各类视频APP用户规模不断壮大。识别各类视频APP中的播放用户,分析用户视频偏好,是开展视频精准推荐的基础,在视频类企业的发展中具有重要价值。
根据现有技术,用户的视频播放记录仅可从APP的系统日志中获得,但由于系统日志数据属于核心数据,各APP只能获取本APP内部的点播记录,无法识别其他竞品的视频播放用户,无法建立全面而客观的用户视频偏好画像。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的一种多站点的视频播放记录整合方法和装置。
第一方面,本发明实施例提供一种多站点的视频播放记录整合方法,包括:
基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
第二方面,本发明实施例提供一种多站点的视频播放记录整合装置,包括:
多站点视频播放用户识别模块,用于基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
多站点视频媒资自动分类模块,用于基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
多站点用户播放记录整合模块,用于对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的多站点的视频播放记录整合方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所提供的多站点的视频播放记录整合方法的步骤。
本发明实施例提出了一种多站点的视频播放记录整合方法和装置,基于运营商网络数据的视频播放用户识别技术,识别用户在各大视频站点的播放记录,解决多站点视频播放用户融合的问题;根据不同站点的视频属性等媒资数据,自动给视频分类,建立统一的视频分类标签,统一的视频分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的多站点的视频播放记录整合方法示意图;
图2为根据本发明实施例的多站点视频播放用户识别具体流程示意图;
图3为根据本发明实施例的多站点视频媒资自动分类具体流程示意图;
图4为根据本发明实施例的多站点的视频播放记录整合装置示意图;
图5为根据本发明实施例的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术的视频播放记录高度依赖系统日志,当前视频播放记录仅限于本视频APP才能获取,而现实生活中的用户在多个视频APP中观看不同的视频,导致用户播放记录散落在各个不同的APP,呈现出一个个数据孤岛的状态,无法对用户在不同视频网站的播放记录进行汇聚整合,不同视频网站的视频媒资信息由各自的运营人员维护,视频名称、视频分类等数据在不同视频网站上无法统一,进而无法综合用户在多个视频APP的播放记录,建立全面而客观的用户视频偏好画像,影响视频业务数据化运营和发展。
因此本发明各实施例针将每个站点孤立的播放记录进行识别,通过自然语言处理和机器学习对视频建立统一分类标签,并在此基础上建立用户更加普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。以下将通过多个实施例进行展开说明和介绍。
图1为本发明实施例提供的一种多站点的视频播放记录整合方法,包括:
S1、基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
S2、基于自然语言处理方法和机器学习方法对上述视频播放记录中的播放视频进行分类;
S3、对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
在本实施例中,根据运营商的上网日志数据,识别用户在哪个视频网站观看了什么视频,以及该视频的名称、分类等媒资信息,即播放记录;并对不同视频网站采集的视频媒资数据进行分类整理,解决相同视频在不同网站分类杂乱难以合并的问题,最后以分类数据为参考,对分散在各站点的用户视频播放记录进行统一聚合,获得用户在全网的视频播放记录。
由于运营商作为一个用户上网的数据通道,记录了大量用户上网行为数据,本发明实施例基于运营商丰富的上网日志数据,将每个APP孤立的播放记录进行识别,通过自然语言处理和机器学习对视频建立统一分类标签,并在此基础上建立用户更加普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。
在上述实施例的基础上,如图2所示,基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录,具体包括:
S101、从运营商的上网日志数据中提取用户所播放视频的视频ID编号,基于视频ID编号还原对应视频站点的播放页URL,通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取上述播放视频的视频特征属性数据;
S102、从运营商的上网日志数据中提取用户行为数据,将上述用户行为数据与上述视频特征属性数据关联,得到用户在不同视频站点的视频播放记录。
在本实施例中,根据深度报文检测(Deep Packet Inspection,DPI)设备获取的User Agent、Referer等内容获取用户所播放视频的视频编码ID,并通过互联网爬虫技术获取播放视频的媒资数据,回填形成用户在各个视频网站的播放记录。
在上述各实施例的基础上,如图2所示,从运营商的上网日志数据中提取用户所播放视频的视频ID编号前,还包括:
S100、基于抓包的方法获取各站点播放视频时产生的网络数据包,对上述网络数据包进行整理,得到各站点的ID编码规则库、播放页URL规则库、站点访问特征库;
其中,上述ID编码规则库用于从运营商的上网日志数据中提取播放视频的视频ID编号;
上述播放页URL规则库用于根据视频ID编号还原对应视频站点的播放页URL;
上述站点访问特征库用于通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取用户播放视频的视频特征属性数据。
具体的,在本实施例中,主要建立视频解析3大规则库:ID编码规则库、播放页URL规则库、站点访问特征库;具体的,包括:
ID编码规则库沉淀,通过抓包的方式获取播放视频时产生的网络数据,包括IP、端口号、域名、URL、User Agent、Cookies等内容,整理视频点播规则,沉淀各站点的ID编码规则库,示例如下表1所示:
表1 ID编码规则库
规则编号 网站名称 host主机 url规则 更新时间
I0001 视频站点A data.video.***.com /videos/*qd_tvid={id}& 20170329
具体在抓包过程中,可以在手机上安装各类视频站点的APP,打开APP并多次点击不同页面位置区域的视频,通过抓包的方式获取视频播放产生的网络数据。
播放页URL规则库沉淀,在浏览器中播放各类视频站点中的视频,同时抓取网络数据包,整理视频播放页URL、视频编码ID等内容,沉淀播放页URL规则库,示例如下表2所示:
表2播放页URL规则库
Figure BDA0001849001160000051
Figure BDA0001849001160000061
站点访问特征库沉淀,整理User Agent、Referer等内容,沉淀站点访问特征库,示例如下表3所示:
表3站点访问特征库
Figure BDA0001849001160000062
根据S100步骤中的方法建立3大规则库(ID编码规则库、播放页URL规则库、站点访问特征库)后,即可根据DPI设备获取的User Agent、Referer等内容获取用户所播放视频的视频编码ID,并通过互联网爬虫技术获取播放视频的媒资数据,回填形成用户在各个视频网站的播放记录。
具体的,步骤S101中具体包括:
视频ID编号解析:根据步骤S100中的ID编码规则库,从运营商网络数据中提取用户当前播放视频的视频ID编号。示例如下:
运营商网络中的用户访问原始URL为:
Figure BDA0001849001160000063
根据表1ID编码规则库,从上述原始URL提取视频ID编码为:qd_tvid=655176000。
视频播放页面重定向,根据上一步中的当前播放视频的视频ID编号和步骤S100中的播放页URL规则库,还原该视频站点的通用播放页URL。示例如下:
视频ID编码为:qd_tvid=655176000,根据表2播放页URL规则库,转成播放页通用URL为:http://m.***.com/play.html?tvid=655176000。
视频特征属性爬取,根据上述步骤中的播放页URL和步骤S100中的站点访问特征库,通过网络爬虫对播放页中的视频名称、视频简介、来源站点等视频描述类信息进行定向爬取,获得视频特征属性数据。示例如下:
播放页URL为:http://m.***.com/play.html?tvid=655176000;
根据表3站点访问特征库,通过爬取播放页获得视频特征属性数据,例如视频名称、视频简介、视频分类等。
视频播放用户识别,从运营商网络数据中提取用户号码、访问时间等用户行为数据,与上述步骤中的视频特征属性数据关联,建立该视频的用户视频播放记录。示例如下表4所示:
表4用户视频播放记录解析结果:
Figure BDA0001849001160000071
根据上述方案,对某运营商的网络日志数据进行数据测试,每天识别用户访问播放页URL记录1.8亿条,识别用户视频点播1200万人次,覆盖各大主流视频网站,具备不同站点视频播放记录数据融合的效果。
在上述各实施例的基础上,基于自然语言处理方法和机器学习方法对上述视频播放记录中的播放视频进行分类,具体包括:
获取视频播放记录中播放视频的视频属性特征字段,并基于预先构建的中文分词词典,将上述视频属性特征字段转换为多个词向量;
以多个上述词向量作为输入,通过已训练的自动识别模型,进行播放视频自动识别分类。
在步骤S1中,解决了用户在不同网站视频播放记录识别的问题,但是,由于不同网站各自对站内视频进行运营维护,即使是相同的视频,也会在不同网站呈现不同视频名称和视频分类标签的问题,例如电影《**2》,在视频站点A的分类为“内地/动作/剧情/院线”,在视频站点B的分类为“动作/枪战/战争”,在视频站点的分类为“战争/动作/院线”。不同网站视频媒资数据的差异性问题对多站点的播放记录整合带来了极大阻碍,因此,在本实施例中,通过提出一种自动化的视频媒资分类流程,为多站点视频播放记录融合提供数据基础。
具体的,在本实施例中,对于待分类视频,通过视频属性特征字段,并基于预先构建的中文分词词典,将上述视频属性特征字段转换为多个词向量;以多个上述词向量作为输入,通过已训练的自动识别模型,进行播放视频自动识别分类,以构建视频分类自动识别标签。
在上述各实施例的基础上,基于自然语言处理方法和机器学习方法对上述视频播放记录中的播放视频进行分类前,还包括:
对各视频站点的中爬取的视频标签进行整理,形成视频分类标签,包括按视频性质进行分类的第一级分类标签,以及按视频剧情进行分类的第二级分类标签;
整理出各视频站点的视频属性特征字段,并加入第一级分类标签和第二级分类标签;
以某视频站点的播放视频为基础,核实确认视频分类标签无误后作为训练样本,对视频属性特征字段进行中文分词处理,得到多个中文词语,并通过word2vec算法对多个上述中文词语转换为词向量;
以多个上述词向量作为输入,选出训练样本,并通过机器学习算法训练学习,得到用于自动识别视频分类标签的自动识别模型。
在本实施例中,需要使用自然语言处理和机器学习相关算法,实现自动识别模型的训练,如图3所示,具体包括:
S21、视频标签体系构建:将各视频站点爬取的视频标签进行整理,形成二级视频标签分类体系,即按视频性质进行分类的第一级分类标签,约定第一级分类标签枚举值为:剧集、电影、综艺、动漫、记录、娱乐、资讯等;按视频剧情进行分类的第二级分类标签,第二级分类标签枚举值为:恐怖、动作、爱情、喜剧、战争、科幻、犯罪、惊悚、武侠等。
S22、多站点数据清洗,对各视频站点的数据进行清洗,包括繁简体转化、特殊字符剔除等,并整理出标题、导演、演员、原始视频标签等视频属性特征字段,并加入第一级分类标签和第二级分类标签。
S23、训练样本及中文词词典构建,以某个视频站点的基础(例如视频站点A或视频站点B),核实确认原始视频标签无误后作为训练样本。同时将标题、导演、演员、原始视频标签构建一个中文分词词典。
S24、中文分词及向量化编码,依据步骤S23中的中文分词词典,对步骤S22中的视频属性特征字段进行中文分词处理,将中文文本切分为多个中文词语。然后,通过word2vec算法将播放视频的标题、导演、演员、原始视频标签等视频属性特征文本转为多个词向量。
S25自动识别模型训练,从步骤S24的词向量中,选出步骤S23构建好的训练样本,并通过朴素贝叶斯等机器学习算法训练自动识别模型。
通过上述步骤训练得到的自动识别模型进行播放视频的自动分类标签:
对于待分类视频,将经过步骤S24处理过的向量化形式的视频标题、导演、演员、原始视频标签等视频属性特征字段作为模型输入,输出评分大于制定阈值的标签(例如预测评分>0.7),构建视频两级分类自动识别标签,示例如下表5所示:
表5视频两级分类自动识别标签
域名 编码 视频名称 第一级分类标签 第二级分类标签
***.com 820545900 **2 电影 动作、战争
通过上述步骤,实现了对不同视频网站采集的视频媒资数据进行分类整理,解决相同视频在不同视频站点分类杂乱难以合并的问题。
在上述各实施例的基础上,对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,具体包括:
对上述视频播放记录和上述视频分类标签进行整合,得到用户多站点视频播放记录表;
对上述用户多站点视频播放记录表中不同视频分类标签下的播放记录进行聚合,并对聚合结果排序,建立用户视频分类偏好标签。
在本实施例中,对上述视频播放记录和上述视频分类标签进行整合,得到用户多站点视频播放记录表,具体的,对表4用户视频播放记录解析结果和表5视频两级分类自动识别标签进行整合,形成一张用户多站点视频播放记录表,示例如下表6所示:
表6用户视频播放记录整合表
Figure BDA0001849001160000091
Figure BDA0001849001160000101
根据上述表6用户视频播放记录整合表,对用户不同分类下的播放记录进行聚合,并对聚合结果排序打分,建立用户视频分类偏好标签,示例如下表7和表8所示:
表7用户视频1级分类偏好
用户标识 第一级分类标签偏好 第一级分类标签偏好得分
710****65 电影 0.95
表8用户视频2级分类偏好
用户标识 第二级分类标签偏好 第二级分类标签偏好得分
710****65 动作 0.81
由于本实施例方案中的视频分类偏好是汇聚用户在各个不同视频站点的播放记录建设,对用户的视频偏好刻画更加立体,可信度更高,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。
图4示出了一种多站点的视频播放记录整合装置,基于本发明上述各实施例上述的多站点的视频播放记录整合方法,包括多站点视频播放用户识别模块40、多站点视频媒资自动分类模块50和多站点用户播放记录整合模块60,其中:
多站点视频播放用户识别模块40于基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;根据运营商的上网日志数据,识别用户在哪个视频网站观看了什么视频,以及该视频的名称、分类等媒资信息;通过建立视频解析三大规则库(ID编码规则库、播放页URL规则库、站点访问特征库),可根据DPI设备获取的User Agent、Referer等内容获取用户所播放视频的视频编码ID,并通过互联网爬虫技术获取播放视频的媒资数据,回填形成用户在各个视频网站的播放记录,解决了用户在不同网站视频播放记录识别的问题;
多站点视频媒资自动分类模块50基于自然语言处理方法和机器学习方法对上述视频播放记录中的播放视频进行分类;根据不同视频站点的视频属性等媒资数据,自动给视频分类,建立统一的视频两级分类标签;
多站点用户播放记录整合模块60对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录;统一的视频两级分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储在存储器830上并可在处理器810上运行的计算机程序,以执行上述各实施例提供的多站点的视频播放记录整合方法,例如包括:
S1、基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
S2、基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
S3、对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的多站点的视频播放记录整合方法,例如包括:
S1、基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
S2、基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
S3、对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
本发明实施例还提供本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行如上述的多站点的视频播放记录整合方法,例如包括:
S1、基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
S2、基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
S3、对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
综上所述,本发明实施例提供的一种多站点的视频播放记录整合方法和装置,基于运营商网络数据的视频播放用户识别技术,识别用户在各大视频站点的播放记录,解决多站点视频播放用户融合的问题;根据不同站点的视频属性等媒资数据,自动给视频分类,建立统一的视频分类标签,统一的视频分类标签,对用户视频播放记录进行聚合,并由此建立用户更为普适的视频分类偏好标签,更加全面而客观地丰富用户画像,促进视频业务数据化运营和发展。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多站点的视频播放记录整合方法,其特征在于,包括:
基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
2.根据权利要求1所述的多站点的视频播放记录整合方法,其特征在于,基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录,具体包括:
从运营商的上网日志数据中提取用户所播放视频的视频ID编号,基于视频ID编号还原对应视频站点的播放页URL,通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取所述播放视频的视频特征属性数据;
从运营商的上网日志数据中提取用户行为数据,将所述用户行为数据与所述视频特征属性数据关联,得到用户在不同视频站点的视频播放记录。
3.根据权利要求2所述的多站点的视频播放记录整合方法,其特征在于,从运营商的上网日志数据中提取用户所播放视频的视频ID编号前,还包括:
基于抓包的方法获取各站点播放视频时产生的网络数据包,对所述网络数据包进行整理,得到各站点的ID编码规则库、播放页URL规则库、站点访问特征库;
其中,所述ID编码规则库用于从运营商的上网日志数据中提取播放视频的视频ID编号;
所述播放页URL规则库用于根据视频ID编号还原对应视频站点的播放页URL;
所述站点访问特征库用于通过网络爬虫对播放页中URL中的视频描述类信息进行定向爬取,获取用户播放视频的视频特征属性数据。
4.根据权利要求1所述的多站点的视频播放记录整合方法,其特征在于,基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类,具体包括:
获取视频播放记录中播放视频的视频属性特征字段,并基于预先构建的中文分词词典,将所述视频属性特征字段转换为多个词向量;
以多个所述词向量作为输入,通过已训练的自动识别模型,进行播放视频自动识别分类。
5.根据权利要求4所述的多站点的视频播放记录整合方法,其特征在于,基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类前,还包括:
对各视频站点的中爬取的视频标签进行整理,形成视频分类标签,包括按视频性质进行分类的第一级分类标签,以及按视频剧情进行分类的第二级分类标签;
整理出各视频站点的视频属性特征字段,并加入第一级分类标签和第二级分类标签;
以某视频站点的播放视频为基础,核实确认视频分类标签无误后作为训练样本,对视频属性特征字段进行中文分词处理,得到多个中文词语,并通过word2vec算法对多个所述中文词语转换为词向量;
以多个所述词向量作为输入,选出训练样本,并通过机器学习算法训练学习,得到用于自动识别视频分类标签的自动识别模型。
6.根据权利要求5所述的多站点的视频播放记录整合方法,其特征在于,所述视频性质包括剧集、电影、综艺、动漫、记录、娱乐、资讯;所述视频剧情包括恐怖、动作、爱情、喜剧、战争、科幻、犯罪、惊悚、武侠;所述视频属性特征字段包括标题、导演、演员、原始视频标签。
7.根据权利要求5所述的多站点的视频播放记录整合方法,其特征在于,对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,具体包括:
对所述视频播放记录和所述视频分类标签进行整合,得到用户多站点视频播放记录表;
对所述用户多站点视频播放记录表中不同视频分类标签下的播放记录进行聚合,并对聚合结果排序,建立用户视频分类偏好标签。
8.一种多站点的视频播放记录整合装置,其特征在于,包括:
多站点视频播放用户识别模块,用于基于运营商的上网日志数据,获取用户在不同视频站点的视频播放记录;
多站点视频媒资自动分类模块,用于基于自然语言处理方法和机器学习方法对所述视频播放记录中的播放视频进行分类;
多站点用户播放记录整合模块,用于对不同分类下的播放视频在不同视频站点上的播放记录进行聚合,得到用户在全网的视频播放记录。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的多站点的视频播放记录整合方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多站点的视频播放记录整合方法的步骤。
CN201811285748.5A 2018-10-31 2018-10-31 一种多站点的视频播放记录整合方法和装置 Pending CN111131899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811285748.5A CN111131899A (zh) 2018-10-31 2018-10-31 一种多站点的视频播放记录整合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285748.5A CN111131899A (zh) 2018-10-31 2018-10-31 一种多站点的视频播放记录整合方法和装置

Publications (1)

Publication Number Publication Date
CN111131899A true CN111131899A (zh) 2020-05-08

Family

ID=70485410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285748.5A Pending CN111131899A (zh) 2018-10-31 2018-10-31 一种多站点的视频播放记录整合方法和装置

Country Status (1)

Country Link
CN (1) CN111131899A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258189A1 (en) * 1999-02-01 2011-10-20 Columbia University In The City Of New York Multimedia integration description scheme, method and system for mpeg-7
CN104298728A (zh) * 2014-09-28 2015-01-21 北京奇艺世纪科技有限公司 一种通过互联网投放视频广告的方法和系统
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN104954811A (zh) * 2015-07-17 2015-09-30 杭州当贝网络科技有限公司 一种视频聚合应用加载网络视频的方法及智能电视终端
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN105913072A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258189A1 (en) * 1999-02-01 2011-10-20 Columbia University In The City Of New York Multimedia integration description scheme, method and system for mpeg-7
CN104298728A (zh) * 2014-09-28 2015-01-21 北京奇艺世纪科技有限公司 一种通过互联网投放视频广告的方法和系统
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN104954811A (zh) * 2015-07-17 2015-09-30 杭州当贝网络科技有限公司 一种视频聚合应用加载网络视频的方法及智能电视终端
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN105279272A (zh) * 2015-10-30 2016-01-27 南京未来网络产业创新有限公司 一种基于分布式网络爬虫的内容聚合方法
CN105913072A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频分类模型的训练方法和视频分类方法
CN107547912A (zh) * 2017-09-01 2018-01-05 深圳创维数字技术有限公司 一种全媒资的资源处理方法、系统和存储介质

Similar Documents

Publication Publication Date Title
US11170064B2 (en) Method and system to filter out unwanted content from incoming social media data
US9449271B2 (en) Classifying resources using a deep network
Alshamsi et al. Sentiment analysis in English texts
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
US8527450B2 (en) Apparatus and methods for analyzing and using short messages from commercial accounts
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN110557659A (zh) 视频推荐方法、装置、服务器及存储介质
CN113392331A (zh) 文本处理方法及设备
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN113688951B (zh) 视频数据处理方法以及装置
Yang et al. Sentiment enhanced multi-modal hashtag recommendation for micro-videos
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
Tripathi et al. Prediction of movie success based on machine learning and twitter sentiment analysis using internet movie database data
CN111131899A (zh) 一种多站点的视频播放记录整合方法和装置
Singh et al. Cyberbullying detection in social networks: A survey
CN114357301A (zh) 数据处理方法、设备及可读存储介质
Outay et al. Towards understanding the monetization and censorship aspect of streaming media
Bansal et al. Twipix: a web magazine curated from social media
Kumar How Much Noise ChatGPT is Making: A Sentiment Analysis Approach
Amato et al. Opinions analysis in social networks for cultural heritage applications
Michalak Detecting sentiment in Twitter data–challenges and implementation
CN116340511B (zh) 结合深度学习与语言逻辑推理的舆情分析方法
Botzer Navigating Social Media Narratives

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication