CN106412616A - 一种影视大数据采集方法及系统 - Google Patents

一种影视大数据采集方法及系统 Download PDF

Info

Publication number
CN106412616A
CN106412616A CN201610797522.8A CN201610797522A CN106412616A CN 106412616 A CN106412616 A CN 106412616A CN 201610797522 A CN201610797522 A CN 201610797522A CN 106412616 A CN106412616 A CN 106412616A
Authority
CN
China
Prior art keywords
data acquisition
internet
acquisition module
television
video display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610797522.8A
Other languages
English (en)
Inventor
董大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Discovery Culture Media Co Ltd</en>
Original Assignee
Hangzhou Discovery Culture Media Co Ltd</en>
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Discovery Culture Media Co Ltd</en> filed Critical Hangzhou Discovery Culture Media Co Ltd</en>
Priority to CN201610797522.8A priority Critical patent/CN106412616A/zh
Publication of CN106412616A publication Critical patent/CN106412616A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2405Monitoring of the internal components or processes of the server, e.g. server load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4431OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB characterized by the use of Application Program Interface [API] libraries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6156Network physical structure; Signal processing specially adapted to the upstream path of the transmission network
    • H04N21/6175Network physical structure; Signal processing specially adapted to the upstream path of the transmission network involving transmission via Internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种影视大数据采集方法,通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。同时公开了一种影视大数据采集系统,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。本发明与现有技术相比,电视数据采集模块针对不同的型号性能的电视终端均能高效的获得电视影视数据,并且数据采集方式简单,快速精准;互联网数据采集模块能够突破现有网站的限制,针对海量的网页数据进行快速高效的抓取。

Description

一种影视大数据采集方法及系统
技术领域
本发明涉及信息技术领域,具体涉及一种影视大数据的采集方法及采集系统。
背景技术
随着云计算和大数据的发展,越老越多的用户选择在多种终端上观看影视作品,所以越来越多的影视公司需要通过影视大数据信息来分析用户的各种情况以开发生产新的影视内容来满足市场的需求。
现有的影视大数据采集一般采用的是网络爬虫技术和图像识别技术。网络爬虫技术是一种按照一定的规则,在互联网上自动智能获取网页信息的程序,利用网络爬虫技术可以对影视相关网站上的信息进行采集;图像识别技术是指利用计算机对电视图像进行分析、处理和理解,以识别图像中所需要的信息。
现有的网络爬虫技术,由于各大网站对于爬虫程序的限定,导致爬虫无法对于海量的网页数据进行快速高效的抓取;而现有的图像识别技术,只能在图片质量比较出色且没有扭曲的情况下才能工作得很好,而很多图片由于光线、所处的位置等诸多原因,无法获得质量合格的图像,导致无法进行图像识别。
发明内容
本发明的目的在于提供一种影视大数据采集方法及系统,该采集系统能够同时在互联网端和电视端进行影视大数据采集,并且针对互联网端和电视端现状,都能很好的进行数据采集,数据采集精准、速度快。
为实现上述目的本发明提供了一种影视大数据采集方法,通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。
所述电视数据采集模块采集的数据为电视截屏、台标信息等电视影视数据。
所述互联网数据采集模块采集的数据为用户观看行为、视频信息、影视相关的新闻和娱乐等互联网影视数据。
所述的电视数据采集模块采集数据的方法为:电视数据采集模块调用电视终端提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行截屏,分析截屏得到的图像的颜色和坐标值,对颜色和坐标值进行检索;通过检索的结果判断电视台台标所在位置,并对截屏得到的图像的此位置进行截取并保存成台标图片;将台标图片通过网络传输至大数据平台。
所述的互联网数据采集模块采集数据的方法为:通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。
所述的master节点控制slave节点进行数据采集的方法为:master节点首先和所有slave节点进行连接并获取各slave节点中的爬虫进程数,然后选取一个当前进程数小于阈值并且在所有slave节点中进程数最少的slave节点分配数据采集任务。
所述的slave节点在进行数据采集任务时,在多个IP和多个UA信息间进行随机切换。IP和UA的数量取决于所需要采集网站的限制。
所述的slave节点在进行数据采集任务时,会启动一个spider进程对分配的网页进行访问,此进程采用http或https的网络协议获取网页内容,并依据网页中所需元素的xpath位置进行数据采集。
一种影视大数据采集系统,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。
本发明与现有技术相比,具有以下优点及有益的效果:电视数据采集模块针对不同的型号性能的电视终端均能高效的获得电视影视数据,并且数据采集方式简单,快速精准;互联网数据采集模块能够突破现有网站的限制,针对海量的网页数据进行快速高效的抓取。
附图说明
图1是本发明实施例1的效果图;
图2是本发明实施例2的效果图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案做进一步的描述,但是本发明的保护范围并不限于这些实施例。凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。
实施例1
一种影视大数据采集方法,通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。
电视数据采集模块采集的数据为电视截屏、台标信息等电视影视数据。
互联网数据采集模块采集的数据为用户观看行为、视频信息、影视相关的新闻和娱乐等互联网影视数据。
电视数据采集模块采集数据的方法为:电视数据采集模块调用电视终端提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行截屏,分析截屏得到的图像的颜色和坐标值,对颜色和坐标值进行检索;通过检索的结果判断电视台台标所在位置,并对截屏得到的图像的此位置进行截取并保存成台标图片;将台标图片通过网络传输至大数据平台。
互联网数据采集模块采集数据的方法为:通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。
master节点控制slave节点进行数据采集的方法为:master节点首先和所有slave节点进行连接并获取各slave节点中的爬虫进程数,然后选取一个当前进程数小于阈值并且在所有slave节点中进程数最少的slave节点分配数据采集任务。
slave节点在进行数据采集任务时,在多个IP和多个UA信息间进行随机切换。IP和UA的数量取决于所需要采集网站的限制。
slave节点在进行数据采集任务时,会启动一个spider进程对分配的网页进行访问,此进程采用http或https的网络协议获取网页内容,并依据网页中所需元素的xpath位置进行数据采集。
一种影视大数据采集系统,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。
实施例2
一种影视大数据采集系统,包括数据采集服务器和电视数据采集模块;数据采集服务器通过电视网与电视数据采集模块通信,如图1所示。
一种影视大数据采集方法,首先将电视数据采集模块安装到智能电视终端,将电视数据采集模块电视网连接到数据采集服务器,电视数据采集模块调用电视终端所提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行左上角截屏,并对截屏后的图像进行解析,解析时会分析图像的各个特征值,对这些特征值进行检索,通过检索的结果判断电视台台标所在位置,并对此位置进行截取并保存成图片形式,将这些图片通过网络传输至台标识别服务器,台标识别服务器上保存了一个台标样本库,这个样本库中涵盖了所有电视台的台标样本,将获取的台标图片和这个样本库进行高效地匹配,获取到用户所观看的电视台信息及用户所观看的节目信息、电视台信息、终端信息等;实施例3
一种影视大数据采集系统,包括数据采集服务器和互联网数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,如图2所示。
一种影视大数据采集方法,通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集,master节点与数据采集服务器通信。部署影视大数据采集系统时,启用IP代理并加入随机UA,爬虫服务器5台,其中一台为master节点,4台为slave节点,爬虫服务器上保存了上述网站的URL,在抓取任务开始时,会将这些抓取的URL和抓取任务下发至4台slave节点,下发时会针对每台slave的负载情况进行动态调整,例如其中一台slave的负载较高,抓取任务较重,此时master会把即将下发至这台slave的任务转移一部分至其他负载较低的slave上。Slave节点在抓取时会随机切换自己的IP地址和UA信息,以防止抓取任务被某些网站禁止。主要抓取主流视频网站中用户的观看行为和视频信息,如用户观看了哪些影片、这些影片在网络上的点播量、影片的基本信息(如主演、导演、编剧等)、用户的基本信息(如性别、年龄等);二是影视相关的新闻和娱乐数据,如某一部影片从上映以来的在网络中点击率最高的前10条新闻以及用户在观看这部影片之后的相关评论等。

Claims (9)

1.一种影视大数据采集方法,其特征在于:通过在电视终端设置电视数据采集模块,在互联网终端上设置互联网数据采集模块,将电视终端和互联网终端的影视数据采集至数据采集服务器。
2.根据权利要求1所述的影视大数据采集方法,其特征在于:所述电视数据采集模块采集的数据为电视截屏、台标信息等电视影视数据。
3.根据权利要求1所述的影视大数据采集方法,其特征在于:所述互联网数据采集模块采集的数据为用户观看行为、视频信息、影视相关的新闻和娱乐等互联网影视数据。
4.根据权利要求2所述的影视大数据采集方法,其特征在于,所述的电视数据采集模块采集数据的方法为:电视数据采集模块调用电视终端提供的程序接口,在用户开机并处于直播观看状态时对用户的电视屏幕进行截屏,分析截屏得到的图像的颜色和坐标值,对颜色和坐标值进行检索;通过检索的结果判断电视台台标所在位置,并对截屏得到的图像的此位置进行截取并保存成台标图片;将台标图片通过网络传输至大数据平台。
5.根据权利要求3所述的影视大数据采集方法,其特征在于,所述的互联网数据采集模块采集数据的方法为:通过设置采用ssh协议进行通信的master节点与slave节点,master节点控制slave节点进行数据采集;master节点与数据采集服务器通信。
6.根据权利要求5所述的影视大数据采集方法,其特征在于,所述的master节点控制slave节点进行数据采集的方法为:master节点首先和所有slave节点进行连接并获取各slave节点中的爬虫进程数,然后选取一个当前进程数小于阈值并且在所有slave节点中进程数最少的slave节点分配数据采集任务。
7.根据权利要求6所述的影视大数据采集方法,其特征在于,所述的slave节点在进行数据采集任务时,在多个IP和多个UA信息间进行随机切换。
8.根据权利要求6所述的影视大数据采集方法,其特征在于,所述的slave节点在进行数据采集任务时,会启动一个spider进程对分配的网页进行访问,此进程采用http或https的网络协议获取网页内容,并依据网页中所需元素的xpath位置进行数据采集。
9.一种影视大数据采集系统,其特征在于,包括数据采集服务器、互联网数据采集模块、电视数据采集模块;数据采集服务器通过互联网与互联网数据采集模块通信,数据采集服务器通过电视网与电视数据采集模块通信。
CN201610797522.8A 2016-08-31 2016-08-31 一种影视大数据采集方法及系统 Pending CN106412616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610797522.8A CN106412616A (zh) 2016-08-31 2016-08-31 一种影视大数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797522.8A CN106412616A (zh) 2016-08-31 2016-08-31 一种影视大数据采集方法及系统

Publications (1)

Publication Number Publication Date
CN106412616A true CN106412616A (zh) 2017-02-15

Family

ID=58000559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797522.8A Pending CN106412616A (zh) 2016-08-31 2016-08-31 一种影视大数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN106412616A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202121723U (zh) * 2011-07-05 2012-01-18 上海百事灵多媒体科技有限公司 流媒体多终端适配与发布系统
CN103097987A (zh) * 2010-09-08 2013-05-08 索尼公司 提供视频剪辑的系统和方法及其创建
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN103763585A (zh) * 2014-01-10 2014-04-30 北京酷云互动科技有限公司 一种用户特征信息获取方法、装置和终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103097987A (zh) * 2010-09-08 2013-05-08 索尼公司 提供视频剪辑的系统和方法及其创建
CN202121723U (zh) * 2011-07-05 2012-01-18 上海百事灵多媒体科技有限公司 流媒体多终端适配与发布系统
CN103491165A (zh) * 2013-09-22 2014-01-01 复旦大学 自动检测屏蔽的通用分布式爬虫系统
CN103763585A (zh) * 2014-01-10 2014-04-30 北京酷云互动科技有限公司 一种用户特征信息获取方法、装置和终端设备

Similar Documents

Publication Publication Date Title
CN107423355B (zh) 信息推荐方法及装置、电子设备
US9230352B2 (en) Information processing apparatus, information processing method, and computer program product
CN104504061B (zh) 在弹幕载体上向用户推送信息的方法、设备及系统
CN105516820A (zh) 一种弹幕交互方法和装置
CN103686237A (zh) 推荐视频资源的方法及系统
CN103781522A (zh) 用于生成并加入经验共享的方法和系统
CN103686396A (zh) 视频分享方法及装置
CN105519123A (zh) 实况众包的媒体流
US10237629B2 (en) Channel classification methods and devices
CN103686375A (zh) 视频分享方法及装置
CN105120223A (zh) 一种获取景点视图的方法及系统
CN102708170A (zh) 一种在线影视信息的提取发布方法及装置
CN106230809B (zh) 一种基于url的移动互联网舆情监测方法及系统
CN111612639B (zh) 一种应用于保险方案的同步交流方法及系统
CN104462495A (zh) 在弹幕载体上向用户推送信息的方法、设备及系统
CN105791912A (zh) 一种基于云端的数据处理方法、系统及机顶盒
CN104837034A (zh) 一种信息处理方法、客户端及服务器
CN202444580U (zh) 一种获得电视节目截屏图片的系统,终端和服务器
CN111031399B (zh) 弹幕处理方法和系统
CN104540018A (zh) 网络电视视频异常播放数据的处理方法和装置
CN111031376A (zh) 基于微信小程序的弹幕处理方法和系统
CN108521577B (zh) 一种视频播放方法、装置、设备和存储介质
CN103686209A (zh) 具有多元化机制的转码处理的方法和系统
CN103281303A (zh) 一种获取数据的方法和设备
CN104901939A (zh) 多媒体文件播放方法和终端及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215

RJ01 Rejection of invention patent application after publication