CN114650409A - 一种基于iptv和ott业务的epg菜单资源递归爬测方法 - Google Patents
一种基于iptv和ott业务的epg菜单资源递归爬测方法 Download PDFInfo
- Publication number
- CN114650409A CN114650409A CN202011499456.9A CN202011499456A CN114650409A CN 114650409 A CN114650409 A CN 114650409A CN 202011499456 A CN202011499456 A CN 202011499456A CN 114650409 A CN114650409 A CN 114650409A
- Authority
- CN
- China
- Prior art keywords
- epg
- crawling
- resource
- resources
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
- H04N21/4627—Rights management associated to the content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/858—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
- H04N21/8586—Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,主要是通过模拟机顶盒用户进行认证,认证成功后再通过爬虫和遍历的手段,对EPG资源进行全部的爬取,爬取到的资源再进行HTTP、HLS协议的仿真测试获取业务质量,同时对获取的信息内容进行分析,包括视频资源名称、资源简介、资源集数等内容,分析出资源缺集、少集、资源访问异常等情况。主要发明的主要步骤包括:模拟EPG业务认证流程、EPG资源内容遍历爬测、数据提取和指标计算。
Description
技术领域
本发明属于电子信息技术领域,涉及了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法。
背景技术
随着互联网电视用户的不断发展,客户体验(质量体验、服务体验、内容体验等)成为吸引用户的重要因素,如何提高最终客户的良好体验,显得尤为重要和迫切。EPG作为互联网电视业务的重要元素、机顶盒用户访问视频资源的唯一入口,具有数量大、更新快、发布前验证难等特点,其服务的可用性、可靠性、安全性直接关系到用户的体验和智能终端的适配。
但目前对EPG业务的质量保障仍停留在人工测试阶段,不及时、不全面、且工作量巨大,由于EPG页面资源量庞大、资源更新频率高,且不同于普通的互联网网页爬测,获取EPG界面需要先通过平台认证请求,分析EPG页面异常问题也需要对于EPG业务有深入的了解,计算异常事件需要多次复杂运算,记录新数据的同时回溯历史数据进行对比,还需要结合拨测工具测试资源质量,整个测试流程缺一不可,所以建设一套EPG资源爬测系统对于互联网电视运维工作非常重要但是难度也非常高,目前市场上还未有完善的EPG完整性爬测方案。
基于上述互联网电视业务的监测需求和EPG监测能力现状,我们研发了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,可以针对EPG资源、全量点播节目资源的可用性、完整性、业务质量进行监测,利用爬虫和监测技术,获取EPG页面并通过深度爬测算法,可以在不影响EPG性能的情况下,一天内遍历EPG所有页面信息和试播节目,实现EPG内容完整性和质量监测,先于用户发现内容问题,有效提升IPTV运维能力。
发明内容
本发明公开了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,主要是通过模拟机顶盒用户进行认证,认证成功后再通过爬虫和遍历的手段,对EPG资源进行全部的爬取,爬取到的资源再进行HTTP、HLS协议的仿真测试获取业务质量,同时对获取的信息内容进行分析,包括视频资源名称、资源简介、资源集数等内容,分析出资源缺集、少集、资源访问异常等情况。
主要发明的主要步骤包括:
●模拟EPG业务认证流程
●EPG资源内容遍历爬测
●数据提取和指标计算
本发明方法可以应用到以下业务场景:
●对EPG实现全功能、全覆盖监测,包括对多牌照方EPG模版、行业EPG模版(抽样)、和友商的EPG模版进行监测。
●即时发现节目变更(例如:新上线节目、新下线节目等)。
●自动发现EPG发布过程中的内容错误(例如:链接错误、运行错误等)。
●自动发现EPG服务的响应异常,特别是第三方业务系统的响应异常(例如:响应慢、无响应/响应超时、响应错误等)。
●保障各节点EPG发布内容的一致性。
●确保EPG发布内容的安全性,可对敏感词进行统计分析。
●提供统一的监管平台,实现集中配置、集中展示、集中报警。
●可支持机顶盒入网或系统升级后的功能测试和性能测试。
附图说明
图1整体业务流程图;
图2模拟EPG认证流程图;
图3 EPG页面遍历流程图;
图4数据指标分类树图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明方法整体业务流程图详见附图1,包括模拟EPG业务认证流程、EPG资源内容遍历爬测、数据提取和指标计算流程。
EPG业务认证流程模拟见附图2模拟EPG认证流程图,EPG页面的获取需要通过业务平台和南传播控平台的认证,本方案结合机顶盒认证流程的抓包数据和业务平台侧、播控平台侧提供的接口流程说明,模拟机顶盒完成业务平台和南传播控平台的认证流程,成功获取EPG界面。
流程说明如下:
1)机顶盒发送账号密码到运营商业务管理平台;
2)运营商业务管理平台返回认证结果给机顶盒;
3)认证结果为失败,机顶盒停止认证;认证结果为成功,机顶盒发送启动launcherAPK的请求给播控方launcher桌面APK平台;
4)播控方launcher桌面APK平台发送获取机顶盒UserToken、UserID等共享信息给机顶盒
5)机顶盒返回共享信息数据;
6)播控方launcher桌面APK平台发送牌照方认证请求给牌照方AAA系统;
7)牌照方AAA系统返回认证结果给播控方launcher桌面APK平台;
8)认证失败则播控方launcher桌面APK平台显示EPG认证失败;认证成功则播控方launcher桌面APK平台登录EPG首页,加载EPG界面内容。
获取EPG页面后再结合IPTV业务流程和EPG页面栏位特点,定义爬测参数,对EPG页面进行逐层遍历爬测。遍历流程详见附图3。
EPG页面资源遍历的内容可以分为首页资源遍历、点播资源遍历、直播资源遍历和回看资源遍历。
首页为机顶盒开机页面,同时包括各导航栏目的页面。首页遍历是指对开机页面下的所有栏目进行遍历测试,包括:推荐、电视剧、直播、电影、少儿、综艺、4K、教育、游戏、体育等。首页的遍历测试将获取本页面的关键信息,具体如下:
●入口URL:机顶盒在EPG登录时的第一个页面登录地址;
●页面导航名称:及EPG页面上边栏每一个栏目的名称;
●推荐位ID:每一个栏目页面下的推荐位窗口的编号;
●推荐位图片URL:每一个推荐位显示的图片;
●APP URL:推荐位下一步操作对应APP的下载地址;
●视频URL:此推荐位如果直接进入视频的播放地址;
点播节目是指EGP页面上所有非直播类型的节目。这些节目具有功能的一级入口,然后通过栏目方式编排节目信息,机构大致分为:栏目、节目列表、节目集和单个分集等四级结构。
对点播的遍历测试,就是通过检测设备从点播入口进入,通过自动遍历测试脚本,对栏目、节目列表、节目集信息逐一遍历。获取关键信息。关键信息如下:
●点播节目入口:点播节目的统一入口的URL;
●栏目ID:点播节目是分栏目的,每一个栏目都有一个唯一编号,此编号将用于此栏目的节目列表的定位信息;
●栏目名称:栏目的名称字段;
●节目列表入口:通过栏目ID组装的此栏目的节目列表的URL,通过此URL的请求才可以获取对应的节目。
●节目集入口:通过节目列表获取的节目ID,拼装的此节目的访问URL,通过对此地址的请求获取节目集的信息。
●节目信息关键字段:节目id、媒体id、导演、演员、语言、节目简介、清晰度、节目评分、CP编码、资源厂家、节目分集总数、节目分集编号、视频集id、竖版海报URL、横版海报URL、节目视频URL、跳转URL、收费标识等。
直播节目是指中央卫视、广东卫视等级其他专题综艺频道等电视台直播的节目。直播节目的遍历包括直播和回看两个部分。
●直播遍历获取一下信息:
●直播入口:直播节目单的访问入口URL。通过此入口进行频道信息查询;
●频道名称:此频道的名称:例如:CCTV-1、广东卫视等;
●LOGO URL:直播节目对应的频道的LOGO图片URL,如果有将显示;
●直播地址:一般为直播请求播放地址;
回看节目遍历获取一下信息:
●节目单入口:直播节目单的访问入口URL。通过此入口进行频道信息查询;
●频道名称:此频道的名称:例如:CCTV-1、广东卫视等;
●节目名称:直播节目的名称
●开始时间:此节目的播放开始时间
●结束时间:此节目的播放结束时间
●节目URL:此节目的播放地址
爬测出EPG资源信息后,记录EPG界面上面每个栏位、每个节目的节目信息、URL等内容,分析节目缺集、少集、无片源、节目上下线等情况,模拟HTTP、HLS协议对URL资源可用性、节目播放质量进行测试。指标分类树图详见附图4。
采集和计算指标包括:
●认证测试:认证时延、认证成功率、认证错误。
●首页EPG信息:导航、块ID、块标题、块图标、节目URL、APP URL。
●直播信息:频道名称、频道LOGO URL、播放URL、URL ID
●回看节目信息:频道名称、节目ID、节目名称、开始时间、结束时间、节目URL。
●点播栏:栏目ID、栏目名称、节目名称、导演、演员、语言、节目简介、清晰度、CP编码、资源厂家、节目分集、节目评分、节目id、媒体id、节目分集编号、视频集id、竖版海报URL、横版海报URL、节目视频URL、收费标识。
●其他主动拨测:EPG各级入口Http拨测、IPTV视频测试、HLS\TS等视频测试,拉流探针联动接口。
Claims (3)
1.本发明基于IPTV和OTT业务EPG认证流程、页面特性,结合递归爬测算法,实现了EPG菜单界面资源的的全量爬测,爬测信息全面、爬测效率高,爬测结果与EPG页面结构匹配,可读性强,可以为EPG业务资源分析、质量分析提供数据支撑。
2.本发明遍历爬测的内容包括EPG首页页面资源爬测、点播节目资源爬测、直播频道资源爬测、回看资源爬测,根据不同类型的资源匹配不同的的爬测流程,爬测数据可以满足不同类型资源的分析需求。
3.本发明基于EPG业务完整性、资源可用性角度出发,可以获取EPG业务剧集分集数缺集、少集情况,图片缺失情况,文本信息缺失情况,各资源URL可用性测试,指标分析数据准确性高,可以有效的评估EPG业务的完整性和可用性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499456.9A CN114650409A (zh) | 2020-12-18 | 2020-12-18 | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011499456.9A CN114650409A (zh) | 2020-12-18 | 2020-12-18 | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114650409A true CN114650409A (zh) | 2022-06-21 |
Family
ID=81990185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011499456.9A Pending CN114650409A (zh) | 2020-12-18 | 2020-12-18 | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114650409A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401435A (zh) * | 2023-02-22 | 2023-07-07 | 北京麦克斯泰科技有限公司 | 一种日活跃栏目热度计算及调度方法和装置 |
-
2020
- 2020-12-18 CN CN202011499456.9A patent/CN114650409A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401435A (zh) * | 2023-02-22 | 2023-07-07 | 北京麦克斯泰科技有限公司 | 一种日活跃栏目热度计算及调度方法和装置 |
CN116401435B (zh) * | 2023-02-22 | 2023-11-10 | 北京麦克斯泰科技有限公司 | 一种日活跃栏目热度计算及调度方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108462888B (zh) | 用户电视及上网行为的智能关联分析方法及系统 | |
CN103974061B (zh) | 一种播放测试方法及系统 | |
CN111277844B (zh) | 一种用于教学的直播系统及设备 | |
Varmarken et al. | The tv is smart and full of trackers: Measuring smart tv advertising and tracking | |
US20140379337A1 (en) | Method and system for testing closed caption content of video assets | |
CN107222739B (zh) | 一种基于爬虫技术的iptv业务质量拨测方法 | |
KR20140088187A (ko) | 미디어 시청 어취브먼트를 생성하기 위한 사용자 시청 데이터 수집 | |
US9472241B2 (en) | Identifying and rerecording only the incomplete units of a program broadcast recording | |
CN101039410A (zh) | 网络电视智能电子节目导航系统与方法 | |
CN109413417B (zh) | 一种互动电视业务质量检测的系统与方法 | |
CN106303634A (zh) | 一种tv设备弹幕发送系统及方法 | |
CN104918043A (zh) | 节目拨测方法及装置 | |
CN114666554B (zh) | 一种边缘网关云服务管理系统 | |
Mu et al. | P2P-based IPTV services: Design, deployment, and QoE measurement | |
CN114650409A (zh) | 一种基于iptv和ott业务的epg菜单资源递归爬测方法 | |
US11678018B2 (en) | Method and system for log based issue prediction using SVM+RNN artificial intelligence model on customer-premises equipment | |
CN103179457B (zh) | 一种机顶盒业务交互过程中的故障确定方法和设备 | |
CN110611833B (zh) | 一种iptv内容发布系统及方法 | |
CN108737901A (zh) | Iptv频道列表生成使用方法及系统 | |
Valerdi et al. | Automatic testing and measurement of QoE in IPTV using image and video comparison | |
CN108337564A (zh) | 一种自动化配置生成ott平台epg界面的方法 | |
CN112995648A (zh) | 互联网电视全流程故障诊断方法、装置及计算设备 | |
CN115065820A (zh) | 一种互联网电视epg主动监测和预警的方法及装置 | |
CN105847886A (zh) | 一种互联网电视大数据智能服务平台 | |
CN112073824B (zh) | 基于直播视频的数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |