CN114650409A - 一种基于iptv和ott业务的epg菜单资源递归爬测方法 - Google Patents

一种基于iptv和ott业务的epg菜单资源递归爬测方法 Download PDF

Info

Publication number
CN114650409A
CN114650409A CN202011499456.9A CN202011499456A CN114650409A CN 114650409 A CN114650409 A CN 114650409A CN 202011499456 A CN202011499456 A CN 202011499456A CN 114650409 A CN114650409 A CN 114650409A
Authority
CN
China
Prior art keywords
epg
crawling
resource
resources
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011499456.9A
Other languages
English (en)
Inventor
林桂云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vixtel Technologies Beijing Co ltd
Original Assignee
Vixtel Technologies Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vixtel Technologies Beijing Co ltd filed Critical Vixtel Technologies Beijing Co ltd
Priority to CN202011499456.9A priority Critical patent/CN114650409A/zh
Publication of CN114650409A publication Critical patent/CN114650409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4627Rights management associated to the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,主要是通过模拟机顶盒用户进行认证,认证成功后再通过爬虫和遍历的手段,对EPG资源进行全部的爬取,爬取到的资源再进行HTTP、HLS协议的仿真测试获取业务质量,同时对获取的信息内容进行分析,包括视频资源名称、资源简介、资源集数等内容,分析出资源缺集、少集、资源访问异常等情况。主要发明的主要步骤包括:模拟EPG业务认证流程、EPG资源内容遍历爬测、数据提取和指标计算。

Description

一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法
技术领域
本发明属于电子信息技术领域,涉及了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法。
背景技术
随着互联网电视用户的不断发展,客户体验(质量体验、服务体验、内容体验等)成为吸引用户的重要因素,如何提高最终客户的良好体验,显得尤为重要和迫切。EPG作为互联网电视业务的重要元素、机顶盒用户访问视频资源的唯一入口,具有数量大、更新快、发布前验证难等特点,其服务的可用性、可靠性、安全性直接关系到用户的体验和智能终端的适配。
但目前对EPG业务的质量保障仍停留在人工测试阶段,不及时、不全面、且工作量巨大,由于EPG页面资源量庞大、资源更新频率高,且不同于普通的互联网网页爬测,获取EPG界面需要先通过平台认证请求,分析EPG页面异常问题也需要对于EPG业务有深入的了解,计算异常事件需要多次复杂运算,记录新数据的同时回溯历史数据进行对比,还需要结合拨测工具测试资源质量,整个测试流程缺一不可,所以建设一套EPG资源爬测系统对于互联网电视运维工作非常重要但是难度也非常高,目前市场上还未有完善的EPG完整性爬测方案。
基于上述互联网电视业务的监测需求和EPG监测能力现状,我们研发了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,可以针对EPG资源、全量点播节目资源的可用性、完整性、业务质量进行监测,利用爬虫和监测技术,获取EPG页面并通过深度爬测算法,可以在不影响EPG性能的情况下,一天内遍历EPG所有页面信息和试播节目,实现EPG内容完整性和质量监测,先于用户发现内容问题,有效提升IPTV运维能力。
发明内容
本发明公开了一种基于IPTV和OTT业务的EPG菜单资源递归爬测方法,主要是通过模拟机顶盒用户进行认证,认证成功后再通过爬虫和遍历的手段,对EPG资源进行全部的爬取,爬取到的资源再进行HTTP、HLS协议的仿真测试获取业务质量,同时对获取的信息内容进行分析,包括视频资源名称、资源简介、资源集数等内容,分析出资源缺集、少集、资源访问异常等情况。
主要发明的主要步骤包括:
●模拟EPG业务认证流程
●EPG资源内容遍历爬测
●数据提取和指标计算
本发明方法可以应用到以下业务场景:
●对EPG实现全功能、全覆盖监测,包括对多牌照方EPG模版、行业EPG模版(抽样)、和友商的EPG模版进行监测。
●即时发现节目变更(例如:新上线节目、新下线节目等)。
●自动发现EPG发布过程中的内容错误(例如:链接错误、运行错误等)。
●自动发现EPG服务的响应异常,特别是第三方业务系统的响应异常(例如:响应慢、无响应/响应超时、响应错误等)。
●保障各节点EPG发布内容的一致性。
●确保EPG发布内容的安全性,可对敏感词进行统计分析。
●提供统一的监管平台,实现集中配置、集中展示、集中报警。
●可支持机顶盒入网或系统升级后的功能测试和性能测试。
附图说明
图1整体业务流程图;
图2模拟EPG认证流程图;
图3 EPG页面遍历流程图;
图4数据指标分类树图。
具体实施方式
下面结合附图对本发明作进一步说明。
本发明方法整体业务流程图详见附图1,包括模拟EPG业务认证流程、EPG资源内容遍历爬测、数据提取和指标计算流程。
EPG业务认证流程模拟见附图2模拟EPG认证流程图,EPG页面的获取需要通过业务平台和南传播控平台的认证,本方案结合机顶盒认证流程的抓包数据和业务平台侧、播控平台侧提供的接口流程说明,模拟机顶盒完成业务平台和南传播控平台的认证流程,成功获取EPG界面。
流程说明如下:
1)机顶盒发送账号密码到运营商业务管理平台;
2)运营商业务管理平台返回认证结果给机顶盒;
3)认证结果为失败,机顶盒停止认证;认证结果为成功,机顶盒发送启动launcherAPK的请求给播控方launcher桌面APK平台;
4)播控方launcher桌面APK平台发送获取机顶盒UserToken、UserID等共享信息给机顶盒
5)机顶盒返回共享信息数据;
6)播控方launcher桌面APK平台发送牌照方认证请求给牌照方AAA系统;
7)牌照方AAA系统返回认证结果给播控方launcher桌面APK平台;
8)认证失败则播控方launcher桌面APK平台显示EPG认证失败;认证成功则播控方launcher桌面APK平台登录EPG首页,加载EPG界面内容。
获取EPG页面后再结合IPTV业务流程和EPG页面栏位特点,定义爬测参数,对EPG页面进行逐层遍历爬测。遍历流程详见附图3。
EPG页面资源遍历的内容可以分为首页资源遍历、点播资源遍历、直播资源遍历和回看资源遍历。
首页为机顶盒开机页面,同时包括各导航栏目的页面。首页遍历是指对开机页面下的所有栏目进行遍历测试,包括:推荐、电视剧、直播、电影、少儿、综艺、4K、教育、游戏、体育等。首页的遍历测试将获取本页面的关键信息,具体如下:
●入口URL:机顶盒在EPG登录时的第一个页面登录地址;
●页面导航名称:及EPG页面上边栏每一个栏目的名称;
●推荐位ID:每一个栏目页面下的推荐位窗口的编号;
●推荐位图片URL:每一个推荐位显示的图片;
●APP URL:推荐位下一步操作对应APP的下载地址;
●视频URL:此推荐位如果直接进入视频的播放地址;
点播节目是指EGP页面上所有非直播类型的节目。这些节目具有功能的一级入口,然后通过栏目方式编排节目信息,机构大致分为:栏目、节目列表、节目集和单个分集等四级结构。
对点播的遍历测试,就是通过检测设备从点播入口进入,通过自动遍历测试脚本,对栏目、节目列表、节目集信息逐一遍历。获取关键信息。关键信息如下:
●点播节目入口:点播节目的统一入口的URL;
●栏目ID:点播节目是分栏目的,每一个栏目都有一个唯一编号,此编号将用于此栏目的节目列表的定位信息;
●栏目名称:栏目的名称字段;
●节目列表入口:通过栏目ID组装的此栏目的节目列表的URL,通过此URL的请求才可以获取对应的节目。
●节目集入口:通过节目列表获取的节目ID,拼装的此节目的访问URL,通过对此地址的请求获取节目集的信息。
●节目信息关键字段:节目id、媒体id、导演、演员、语言、节目简介、清晰度、节目评分、CP编码、资源厂家、节目分集总数、节目分集编号、视频集id、竖版海报URL、横版海报URL、节目视频URL、跳转URL、收费标识等。
直播节目是指中央卫视、广东卫视等级其他专题综艺频道等电视台直播的节目。直播节目的遍历包括直播和回看两个部分。
●直播遍历获取一下信息:
●直播入口:直播节目单的访问入口URL。通过此入口进行频道信息查询;
●频道名称:此频道的名称:例如:CCTV-1、广东卫视等;
●LOGO URL:直播节目对应的频道的LOGO图片URL,如果有将显示;
●直播地址:一般为直播请求播放地址;
回看节目遍历获取一下信息:
●节目单入口:直播节目单的访问入口URL。通过此入口进行频道信息查询;
●频道名称:此频道的名称:例如:CCTV-1、广东卫视等;
●节目名称:直播节目的名称
●开始时间:此节目的播放开始时间
●结束时间:此节目的播放结束时间
●节目URL:此节目的播放地址
爬测出EPG资源信息后,记录EPG界面上面每个栏位、每个节目的节目信息、URL等内容,分析节目缺集、少集、无片源、节目上下线等情况,模拟HTTP、HLS协议对URL资源可用性、节目播放质量进行测试。指标分类树图详见附图4。
采集和计算指标包括:
●认证测试:认证时延、认证成功率、认证错误。
●首页EPG信息:导航、块ID、块标题、块图标、节目URL、APP URL。
●直播信息:频道名称、频道LOGO URL、播放URL、URL ID
●回看节目信息:频道名称、节目ID、节目名称、开始时间、结束时间、节目URL。
●点播栏:栏目ID、栏目名称、节目名称、导演、演员、语言、节目简介、清晰度、CP编码、资源厂家、节目分集、节目评分、节目id、媒体id、节目分集编号、视频集id、竖版海报URL、横版海报URL、节目视频URL、收费标识。
●其他主动拨测:EPG各级入口Http拨测、IPTV视频测试、HLS\TS等视频测试,拉流探针联动接口。

Claims (3)

1.本发明基于IPTV和OTT业务EPG认证流程、页面特性,结合递归爬测算法,实现了EPG菜单界面资源的的全量爬测,爬测信息全面、爬测效率高,爬测结果与EPG页面结构匹配,可读性强,可以为EPG业务资源分析、质量分析提供数据支撑。
2.本发明遍历爬测的内容包括EPG首页页面资源爬测、点播节目资源爬测、直播频道资源爬测、回看资源爬测,根据不同类型的资源匹配不同的的爬测流程,爬测数据可以满足不同类型资源的分析需求。
3.本发明基于EPG业务完整性、资源可用性角度出发,可以获取EPG业务剧集分集数缺集、少集情况,图片缺失情况,文本信息缺失情况,各资源URL可用性测试,指标分析数据准确性高,可以有效的评估EPG业务的完整性和可用性。
CN202011499456.9A 2020-12-18 2020-12-18 一种基于iptv和ott业务的epg菜单资源递归爬测方法 Pending CN114650409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499456.9A CN114650409A (zh) 2020-12-18 2020-12-18 一种基于iptv和ott业务的epg菜单资源递归爬测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499456.9A CN114650409A (zh) 2020-12-18 2020-12-18 一种基于iptv和ott业务的epg菜单资源递归爬测方法

Publications (1)

Publication Number Publication Date
CN114650409A true CN114650409A (zh) 2022-06-21

Family

ID=81990185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499456.9A Pending CN114650409A (zh) 2020-12-18 2020-12-18 一种基于iptv和ott业务的epg菜单资源递归爬测方法

Country Status (1)

Country Link
CN (1) CN114650409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401435A (zh) * 2023-02-22 2023-07-07 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401435A (zh) * 2023-02-22 2023-07-07 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置
CN116401435B (zh) * 2023-02-22 2023-11-10 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置

Similar Documents

Publication Publication Date Title
CN108462888B (zh) 用户电视及上网行为的智能关联分析方法及系统
CN103974061B (zh) 一种播放测试方法及系统
CN111277844B (zh) 一种用于教学的直播系统及设备
Varmarken et al. The tv is smart and full of trackers: Measuring smart tv advertising and tracking
US20140379337A1 (en) Method and system for testing closed caption content of video assets
CN107222739B (zh) 一种基于爬虫技术的iptv业务质量拨测方法
KR20140088187A (ko) 미디어 시청 어취브먼트를 생성하기 위한 사용자 시청 데이터 수집
US9472241B2 (en) Identifying and rerecording only the incomplete units of a program broadcast recording
CN101039410A (zh) 网络电视智能电子节目导航系统与方法
CN109413417B (zh) 一种互动电视业务质量检测的系统与方法
CN106303634A (zh) 一种tv设备弹幕发送系统及方法
CN104918043A (zh) 节目拨测方法及装置
CN114666554B (zh) 一种边缘网关云服务管理系统
Mu et al. P2P-based IPTV services: Design, deployment, and QoE measurement
CN114650409A (zh) 一种基于iptv和ott业务的epg菜单资源递归爬测方法
US11678018B2 (en) Method and system for log based issue prediction using SVM+RNN artificial intelligence model on customer-premises equipment
CN103179457B (zh) 一种机顶盒业务交互过程中的故障确定方法和设备
CN110611833B (zh) 一种iptv内容发布系统及方法
CN108737901A (zh) Iptv频道列表生成使用方法及系统
Valerdi et al. Automatic testing and measurement of QoE in IPTV using image and video comparison
CN108337564A (zh) 一种自动化配置生成ott平台epg界面的方法
CN112995648A (zh) 互联网电视全流程故障诊断方法、装置及计算设备
CN115065820A (zh) 一种互联网电视epg主动监测和预警的方法及装置
CN105847886A (zh) 一种互联网电视大数据智能服务平台
CN112073824B (zh) 基于直播视频的数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination