CN106383874A - 一种获取电子节目指南信息的方法及装置 - Google Patents
一种获取电子节目指南信息的方法及装置 Download PDFInfo
- Publication number
- CN106383874A CN106383874A CN201610808437.7A CN201610808437A CN106383874A CN 106383874 A CN106383874 A CN 106383874A CN 201610808437 A CN201610808437 A CN 201610808437A CN 106383874 A CN106383874 A CN 106383874A
- Authority
- CN
- China
- Prior art keywords
- web page
- electronic program
- guide information
- program guide
- interlinkage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种获取电子节目指南信息的方法及装置,通过该方法可以在指定网页中抓取出网页链接,并通过网络连接获取网页内容,并且通过指定语言解析出各网页内容各自对应的电子节目指南信息,通过该方法可以直接通过网页抓取的方式获取到电子节目指南信息,避免人工操作造成工作量大、易出错的问题。
Description
技术领域
本申请涉及通信技术领域,尤其涉及一种获取电子节目指南信息的方法及装置。
背景技术
目前,获取电子节目指南(英文:Electronic Program Guide,简称EPG)信息的方式大多都是工作人员复制添加,重复量大,且耗时,易出错,特别是遇到节假日,维护更加困难。
发明内容
本发明实施例提供了一种获取电子节目指南信息的方法及装置,用以解决现有技术中手工进行电子节目指南信息的处理,工作量大、易出错的问题。
其具体的技术方案如下:
一种获取电子节目指南信息的方法,所述方法包括:
获取指定网页中在设定时间内的网页链接;
分别获取每个网页链接对应的网页中的网页内容;
通过指定语言解析出各网页内容各自对应的电子节目指南信息。
可选的,获取指定网页中在设定时间内的网页链接,包括:
按照设定周期,检测是否达到指定检测时间点;
若是,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
可选的,通过指定语言解析出各网页内容各自对应的电子节目指南信息,包括:
检测所述网页链接集合中是否存在网页链接;
若是,在通过指定语言解析出各网页内容各自对应的电子节目指南信息;
若否,则继续对网页链接集合继续检测。
可选的,在通过指定语言解析出各网页内容各自对应的电子节目指南信息之后,所述方法还包括:
创建各网页内容与对应的电子节目指南信息之间的对应关系;
将所述电子节目指南信息以及所述对应关系存入指定数据库。
一种获取电子节目指南信息的装置,包括:
获取模块,用于获取指定网页中在设定时间内的网页链接;
提取模块,用于分别获取每个网页链接对应的网页中的网页内容;
解析模块,用于通过指定语言解析出各网页内容各自对应的电子节目指南信息。
可选的,所述获取模块,具体用于按照设定周期,检测是否达到指定检测时间点;若是,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
可选的,所述解析模块,具体用于检测所述网页链接集合中是否存在网页链接;若是,在通过指定语言解析出各网页内容各自对应的电子节目指南信息;若否,则继续对网页链接集合继续检测。
可选的,所述装置还包括:
处理模块,用于创建各网页内容与对应的电子节目指南信息之间的对应关系;将所述电子节目指南信息以及所述对应关系存入指定数据库。
通过本发明技术所提供的方法可以在指定网页中抓取出网页链接,并通过网络连接获取网页内容,并且通过指定语言解析出各网页内容各自对应的电子节目指南信息,通过该方法可以直接通过网页抓取的方式获取到电子节目指南信息,避免人工操作造成工作量大、易出错的问题。
附图说明
图1为本发明实施例中一种获取电子节目指南信息的方法的流程图;
图2为本发明实施例中一种获取电子节目指南信息的装置的结构示意图。
具体实施方式
本发明实施例提供了一种获取电子节目指南信息的方法,该方法可以在指定网页中抓取出网页链接,并通过网络连接获取网页内容,并且通过指定语言解析出各网页内容各自对应的电子节目指南信息,通过该方法可以直接通过网页抓取的方式获取到电子节目指南信息,避免人工操作造成工作量大、易出错的问题。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解,本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明,而不是限定,在不冲突的情况下,本发明实施例以及实施例中的具体技术特征可以相互组合。
如图1所示为本发明实施例中一种获取电子节目指南信息的方法的流程图,该方法包括:
S101,获取指定网页中在设定时间内的网页链接;
S102,分别获取每个网页链接对应的网页中的网页内容;
S103,通过指定语言解析出各网页内容各自对应的电子节目指南信息。
一般来讲,超级文本标记语言(英文:Hyper Text Markup Languag,简称:HTML)有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,提取文本信息时需要把这些标识符都过滤掉。
因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如,文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
针对上述的情况,在本发明实施例通过Java的语言构建一个软件程序,该软件程序对HTTP协议支持,通过该软件程序可以传输大部分的网页信息。并且在其内还构建了一个HTML解析器。
基于上述的构建程序就可以进行电子节目指南信息的抓取,首先是检测是否到达一个检测时间点,该检测时间点是按照设定周期来确定,比如说检测周期为2天。
装置将实时检测是否达到指定检测时间点,若达到指定检测时间点,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
比如说,以某电视网站为例,可以通过该软件程序获取该电视网站在本周以及下周中每天网页链接,将得到的所有网页链接添加到网页链接集合中。
在将所有网页链接添加到网页链接集合中之后,装置将检测在该网页链接集合中是否存在链接,也就是检测网页链接集合是否为空。
若存在网页链接时,则通过指定网页链接获取该网页链接对应的网页的全部网页内容,然后通过指定语言解析出各网页内容各自对应的电子节目指南信息,这里可以通过Java语言在网页内容中解析出电子节目指南信息,具体解析过程此处就不详述。
进一步,在解析出电子节目指南信息之后,将创建各网页内容对应的电子节目指南信息之间的对应关系,然后将电子节目指南信息以及该对应关系存入到指定数据库中。
通过上述的方法,可以在指定检测时间点,定时的通过软件程序在网页上直接获取到电子节目指南信息,避免人工手动进行粘贴复制的提取方式,从而降低了人工消耗以及错误率。
进一步,在本发明实施例中,还提供了一种获取电子节目指南信息的装置,如图2所示为本发明实施例中一种获取电子节目指南信息的装置的结构示意图,该装置包括:
获取模块201,用于获取指定网页中在设定时间内的网页链接;
提取模块202,用于分别获取每个网页链接对应的网页中的网页内容;
解析模块203,用于通过指定语言解析出各网页内容各自对应的电子节目指南信息。
进一步,在本发明实施例中,所述获取模块201,具体用于按照设定周期,检测是否达到指定检测时间点;若是,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
进一步,在本发明实施例中,所述解析模块203,具体用于检测所述网页链接集合中是否存在网页链接;若是,在通过指定语言解析出各网页内容各自对应的电子节目指南信息;若否,则继续对网页链接集合继续检测。
进一步,在本发明实施例中,所述装置还包括:
处理模块,用于创建各网页内容与对应的电子节目指南信息之间的对应关系;将所述电子节目指南信息以及所述对应关系存入指定数据库。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种获取电子节目指南信息的方法,其特征在于,所述方法包括:
获取指定网页中在设定时间内的网页链接;
分别获取每个网页链接对应的网页中的网页内容;
通过指定语言解析出各网页内容各自对应的电子节目指南信息。
2.如权利要求1所述的方法,其特征在于,获取指定网页中在设定时间内的网页链接,包括:
按照设定周期,检测是否达到指定检测时间点;
若是,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
3.如权利要求2所述的方法,其特征在于,通过指定语言解析出各网页内容各自对应的电子节目指南信息,包括:
检测所述网页链接集合中是否存在网页链接;
若是,在通过指定语言解析出各网页内容各自对应的电子节目指南信息;
若否,则继续对网页链接集合继续检测。
4.如权利要求1所述的方法,其特征在于,在通过指定语言解析出各网页内容各自对应的电子节目指南信息之后,所述方法还包括:
创建各网页内容与对应的电子节目指南信息之间的对应关系;
将所述电子节目指南信息以及所述对应关系存入指定数据库。
5.一种获取电子节目指南信息的装置,其特征在于,包括:
获取模块,用于获取指定网页中在设定时间内的网页链接;
提取模块,用于分别获取每个网页链接对应的网页中的网页内容;
解析模块,用于通过指定语言解析出各网页内容各自对应的电子节目指南信息。
6.如权利要求5所述的装置,其特征在于,所述获取模块,具体用于按照设定周期,检测是否达到指定检测时间点;若是,则在指定网页中获取指定时间内的所有网页链接,并将所以网页链接添加到网页链接集合中。
7.如权利要求6所述的装置,其特征在于,所述解析模块,具体用于检测所述网页链接集合中是否存在网页链接;若是,在通过指定语言解析出各网页内容各自对应的电子节目指南信息;若否,则继续对网页链接集合继续检测。
8.如权利要求5所述的装置,其特征在于,所述装置还包括:
处理模块,用于创建各网页内容与对应的电子节目指南信息之间的对应关系;将所述电子节目指南信息以及所述对应关系存入指定数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610808437.7A CN106383874A (zh) | 2016-09-07 | 2016-09-07 | 一种获取电子节目指南信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610808437.7A CN106383874A (zh) | 2016-09-07 | 2016-09-07 | 一种获取电子节目指南信息的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106383874A true CN106383874A (zh) | 2017-02-08 |
Family
ID=57939143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610808437.7A Pending CN106383874A (zh) | 2016-09-07 | 2016-09-07 | 一种获取电子节目指南信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106383874A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1244990A (zh) * | 1996-12-10 | 2000-02-16 | 联合视频制品公司 | 因特网电视节目指南系统 |
CN101005566A (zh) * | 2007-01-10 | 2007-07-25 | 中兴通讯股份有限公司 | 用于电子节目单导航的页面返回方法 |
CN101378472A (zh) * | 2007-08-27 | 2009-03-04 | 奇景光电股份有限公司 | 数字电视收看终端、电子节目指南服务系统及其显示方法 |
CN102291604A (zh) * | 2011-08-31 | 2011-12-21 | 华南理工大学 | 用于时移网络电视的电子节目指南的制作方法 |
CN104244034A (zh) * | 2014-09-12 | 2014-12-24 | 无锡商埃曲信息科技有限公司 | 一种基于数字电视中间件的电子节目指南epg调用管理方法 |
-
2016
- 2016-09-07 CN CN201610808437.7A patent/CN106383874A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1244990A (zh) * | 1996-12-10 | 2000-02-16 | 联合视频制品公司 | 因特网电视节目指南系统 |
CN101005566A (zh) * | 2007-01-10 | 2007-07-25 | 中兴通讯股份有限公司 | 用于电子节目单导航的页面返回方法 |
CN101378472A (zh) * | 2007-08-27 | 2009-03-04 | 奇景光电股份有限公司 | 数字电视收看终端、电子节目指南服务系统及其显示方法 |
CN102291604A (zh) * | 2011-08-31 | 2011-12-21 | 华南理工大学 | 用于时移网络电视的电子节目指南的制作方法 |
CN104244034A (zh) * | 2014-09-12 | 2014-12-24 | 无锡商埃曲信息科技有限公司 | 一种基于数字电视中间件的电子节目指南epg调用管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102253979B (zh) | 基于视觉的web页面萃取方法 | |
CN107943838B (zh) | 一种自动获取xpath生成爬虫脚本的方法及系统 | |
CN101650715B (zh) | 一种筛选网页上链接的方法和装置 | |
CN104462547B (zh) | 一种可配置的网页数据采集的方法及系统 | |
CN102254027A (zh) | 批量获取网页内容的方法 | |
CN103064827A (zh) | 一种网页内容抽取的方法及装置 | |
CN103942335A (zh) | 一种针对网页结构变化的不间断爬虫系统构建方法 | |
CN104933168B (zh) | 一种网页内容自动采集方法 | |
CN109857956A (zh) | 基于标签和分块特征的新闻网页关键信息自动抽取方法 | |
CN105718559B (zh) | 查找表单页面和目标页面转化关系的方法和装置 | |
CN103279567A (zh) | 一种基于AJAX的Web数据采集方法及系统 | |
CN102750352A (zh) | 浏览器中分类收藏历史访问记录的方法及装置 | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN107391675A (zh) | 用于生成结构化信息的方法和装置 | |
CN102662969A (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN107153716A (zh) | 网页内容提取方法和装置 | |
CN102682109A (zh) | 一种专利信息解析方法和装置 | |
CN103345532A (zh) | 一种网页信息抽取方法及装置 | |
CN103778238A (zh) | 一种从维基百科半结构化数据自动构建分类树的方法 | |
CN103778156A (zh) | 数据搜索的方法和装置以及用于数据搜索的服务器 | |
CN103744987A (zh) | 基于dom树匹配的视频网站媒资聚合方法和系统 | |
CN103354546A (zh) | 报文过滤方法与装置 | |
CN104636340A (zh) | 网页url过滤方法、装置及系统 | |
CN103678341A (zh) | 数据库交互系统及方法 | |
CN103117892B (zh) | 添加网站访问记录的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170208 |