CN106933898A - 网页信息的处理方法和装置 - Google Patents
网页信息的处理方法和装置 Download PDFInfo
- Publication number
- CN106933898A CN106933898A CN201511031428.3A CN201511031428A CN106933898A CN 106933898 A CN106933898 A CN 106933898A CN 201511031428 A CN201511031428 A CN 201511031428A CN 106933898 A CN106933898 A CN 106933898A
- Authority
- CN
- China
- Prior art keywords
- content
- url
- pages
- webpage
- crawled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种网页信息的处理方法和装置。其中,该方法包括:从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取统一资源定位符对应的待爬取网页的页面内容;将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储至服务器。本申请解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
Description
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页信息的处理方法和装置。
背景技术
在互联网舆情系统中,需要对某一地区的舆论(例如,某网页中的文章)情绪分布进行展示,以使给用户提供一个按地区进行区分的情绪值的参考。
现有技术中,对于地理位置的情绪分布是通过爬虫程序抓取微博、新闻等来源中已标明地理位置的微博和文章,并将地理信息和文章句子对于存入数据库,再利用情绪分析算法对文章中句子进行分析,得到相应的情绪值,从而实现情绪值和地理位置的对于关系。
在现有技术中,存在的问题是当有些微博和网站的文章没有对应的地理位置信息时,就无法得到该城市所有的微博和文章的对应关系,进而也无法获取情绪值。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网页信息的处理方法和装置,以至少解决现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
根据本申请实施例的一个方面,提供了一种网页信息的处理方法,包括:从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取所述统一资源定位符对应的待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
进一步地,在爬取所述统一资源定位符对应的待爬取网页的页面内容之后,所述方法还包括:标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储包括:将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
进一步地,爬取所述统一资源定位符对应的待爬取网页的页面内容包括:爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;对所述当前页面内容执行以下步骤,直到当前页面内容中不包含统一资源定位符为止:检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
进一步地,在将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,所述方法还包括:接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪。
进一步地,根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容包括:将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
根据本申请实施例的另一方面,还提供了一种网页信息的处理装置,包括:读取单元,用于从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取单元,用于爬取所述统一资源定位符对应的待爬取网页的页面内容;存储单元,用于将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
进一步地,所述装置还包括:标记单元,用于在所述爬取单元爬取所述统一资源定位符对应的待爬取网页的页面内容之后,标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;所述存储单元包括:存储模块,用于将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
进一步地,所述爬取单元包括:爬取模块,用于爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;对所述当前页面内容调用以下模块,直到当前页面内容中不包含统一资源定位符为止:检测模块,用于检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
进一步地,所述装置还包括:接收单元,用于在所述存储单元将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;查询单元,用于根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;计算单元,用于计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪。
进一步地,所述查询单元包括:匹配模块,用于将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;确定模块,用于将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
在本申请实施例中,采用从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取所述统一资源定位符对应的待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器的方式,通过以统一资源定位符队列中的统一资源定位符为入口,爬取统一定位符对应的待爬取网页中的页面内容,并将爬取到的页面内容和表征待爬取网页的地理区域的标签进行存储,相对于现有技术中无法获取网页的页面内容所在的地理区域,达到了准确地确定网页中页面内容所属区域的目的,从而实现了将网页的页面内容按照地理区域进行区分的技术效果,进而解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种网页信息的处理方法的流程图;以及
图2是根据本申请实施例的一种网页信息的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种网页信息的处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种网页信息的处理方法的流程图,如图1所示,该方法包括如下步骤S102至步骤S106:
步骤S102,从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签。
在本申请实施例中,统一资源定位符对列为用于存储统一资源定位符URL的队列。具体地,在读取待爬取网页的URL之前,可以建立一个种子样本,并通过编写的程序将该种子样本读入到队列中,得到统一资源符队列,其中,在该种子样本中研发人员已为每个统一资源定位符添加标签。需要说明的是,编写的程序可以为研发人员编写的爬虫程序。
步骤S104,爬取统一资源定位符对应的待爬取网页的页面内容。
通过读取统一资源定位符队列中的每个URL,来爬取每个统一资源定位符对应的待爬取网页的页面内容。例如,任一个URL为http://bbs.tianya.cn/list-301-1.shtml,则爬取该URL所对应的网页的页面内容,该页面内容可以为网页中的文章、帖子等信息。
步骤S106,将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储至服务器。
待爬取网页的页面内容和URL对应的标签为一一对应地存储至服务器中。
在本申请实施例中,通过以统一资源定位符队列中的统一资源定位符为入口,爬取统一定位符对应的待爬取网页中的页面内容,并将爬取到的页面内容和表征待爬取网页的地理区域的标签进行存储,相对于现有技术中无法获取网页的页面内容所在的地理区域,达到了准确地确定网页中页面内容所属区域的目的,从而实现了将网页的页面内容按照地理区域进行区分的技术效果,进而解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
本申请实施例中,下面结合表1对本申请实施例进行说明。在从统一资源定位符队列中读取待爬取网页的统一资源定位符之前,可以人工整理出全国不同区域内主流网站和论坛网站的URL列表,例如,整理出河南省主流网站和论坛网站的URL列表,并将这些网站的URL打上标签,例如,标签格式可以为“河南省;洛阳市;态势系统;天涯论坛;情绪分析”这种类型。如表1所示,给出了河南省部分主流网站的URL以及该主流网站URL的标签。
如表1所示,统一资源定位符URL为http://bbs.tianya.cn/list-301-1.shtml的来源为天涯论坛,且浏览该网页的IP地址位于河南省洛阳市,则该URL的标签定义为河南省;洛阳市;态势系统;天涯论坛;情绪分析。
表1
可选地,在爬取统一资源定位符对应的待爬取网页的页面内容之后,方法还包括如下步骤S1:
步骤S1,标记统一资源定位符对应的标签至待爬取网页的页面内容。具体地,以统一资源定位符队列中的任意统一资源定位符为入口,在互联网中爬取待爬取网页,在爬取到该待爬取网页的页面内容时,可以将该统一资源定位符对应的标签标记至页面内容。
例如,在统一资源定位符队列中选取的任意一个统一资源定位符URL:http://bbs.tianya.cn,且该统一资源定位符URL的标签为“河南省;洛阳市;态势系统;天涯论坛;情绪分析”,以该URL所对应的网站为入口来爬取网页。假设,爬取到的一个网站的URL为:http://bbs.tianya.cn/post-funinfo-6769760-1.shtml,则将标签“河南省;洛阳市;态势系统;天涯论坛;情绪分析”标记至网站http://bbs.tianya.cn/post-funinfo-6769760-1.shtml的页面内容中。
将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储包括步骤S3:将标记统一资源定位符对应的标签之后的待爬取网页的页面内容进行存储。
具体地,在本申请实施例中,除将标签之后的待爬取网页的页面内容进行存储之外,还可以将页面内容所对应的待爬取网页URL存储至服务器中与标签之后的待爬取网页的页面内容对应的区域内。
可选地,爬取统一资源定位符对应的待爬取网页的页面内容包括如下步骤:
步骤S1021,爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,起始网页为统一资源定位符队列中每个统一资源定位符所对应的网页。
对当前页面内容执行以下步骤,直到当前页面内容中不包含统一资源定位符为止。
步骤S1023,检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
具体地,以统一资源定位符队列中每个统一资源定位符所对应的网页作为起始网页,在起始网页的页面内容中检测是否包含统一资源定位符,也即检测在起始网页中是否包含分页。若检测到该起始网页中包含URL1的情况下,从起始网页中抽取该URL1,并爬取该URL1的页面内容。然后将该URL1的页面内容作为当前页面内容进行检测,即检测URL1的页面内容中是否包含统一资源定位符,在包含统一资源定位符的情况下,抽取URL1的页面内容中包含的URL2,并爬取URL2的页面内容,其中,URL1和URL2的数量可以为多个,还可以为一个。然后将该URL2的页面内容作为当前页面内容进行检测,即检测URL2的页面内容是否包含统一资源定位符,若检测出URL2中不包含统一资源定位符的情况下,结束流程。
需要说明的是,从当前页面内容中抽取统一资源定位符的方法可以有很多种,在本申请实施例中,可以利用正则表达式分析已经下载的网页(例如,上述说明中的起始网页、URL1对应的网页和URL2对应的网页),进而匹配出里面的URL地址,例如,通过正则表达式在起始网页中匹配出URL1;通过正则表达式在URL1对应的网页中匹配出URL2。
然后,可以将根据统一资源定位符队列中的原始URL爬取到的网页URL1和URL2中的页面内容的标签标记成统一资源定位符队列中的标签,直至下载到的网页中不包含未爬取的网页为止;最后,将爬取到的页面内容、页面内容的URL(例如上述URL1和URL2)以及标签存储至服务器中(例如,Elastic Search)。
可选地,在将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储至服务器之后,方法还包括如下步骤S5至步骤S9:
步骤S5,接收查询指令,其中,查询指令为查询目标区域内的页面内容的指令。
步骤S7,根据查询指令在服务器中查询所属于目标区域内的页面内容。
步骤S9,计算目标区域内的页面内容的情绪值,其中,情绪值为用于反映目标区域的舆论情绪。
在本申请实施例中,可以利用相应地编程语言开发出的抽取数据程序,在服务器中查询目标区域内的页面内容的情绪值。服务器在接收到用户的查询指令的情况下,在服务器中查询目标区域内的页面内容,并通过情绪分析算法计算出该页面内容的情绪值,进而将计算出的情绪值和该情绪值所在的位置区域显示在模型中,例如显示在河南省的地图中,显示河南省每个地级市的情绪值,以给用户直观的展示。
可选地,根据查询指令在服务器中查询所属于目标区域内的页面内容包括如下步骤:
步骤S71,将服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,匹配标签为用于确定目标区域内的页面内容的标签。
步骤S73,将服务器中与匹配标签匹配的标签对应的页面内容作为目标区域内的页面内容。
用户可以根据实际需要定义一个匹配标签,进而通过定义的匹配标签在服务器中确定所属于目标区域内的页面内容。
例如,若用户定义的匹配标签为“河南省”、“态势系统”和“情绪分析”,则根据该匹配标签在服务器中匹配标签中含有“河南省”、“态势系统”和“情绪分析”词语的所有页面内容,可以得到河南省的各个市的各个主流网站的页面内容(例如,文章等)。这样就可以实现地理信息和页面内容的一一对应,再将查找到的所属于目标区域(例如,河南)的页面内容通过情绪分析算法进行计算,就可以得到河南省每个地级市的情绪值。
需要说明的是,在爬取到的页面内容中标记的标签中包含的地理区域可以精确到地级市,例如“河南省,洛阳市”,还可以精确到县级市,例如“河南省,洛阳市,偃师市”。当精确到地级市时,可以计算河南省每个地级市所属的页面内容的情绪值,进而得到河南省每个地级市的情绪值;当精确到县级市时,可以计算河南省每个县所属的页面内容的情绪值,进而得到河南省每个县的情绪值。
本申请实施例还提供了一种网页信息的处理装置,该处理装置主要用于执行本申请实施例上述内容所提供的网页信息的处理方法,以下对本申请实施例送提供的网页信息的处理装置做具体介绍。
图2是根据本申请实施例的一种网页信息的处理装置的示意图,如图2所示,该网页信息的处理装置主要包括读取单元10、爬取单元20和存储单元30,其中:
读取单元10,用于从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,申请统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签。
在本申请实施例中,统一资源定位符对列为用于存储统一资源定位符URL的队列。具体地,在读取待爬取网页的URL之前,可以建立一个种子样本,并通过编写的程序将该种子样本读入到队列中,得到统一资源符队列,其中,在该种子样本中研发人员已为每个统一资源定位符添加标签。需要说明的是,编写的程序可以为研发人员编写的爬虫程序。
爬取单元20,用于爬取申请统一资源定位符对应的待爬取网页的页面内容。
通过读取统一资源定位符队列中的每个URL,来爬取每个统一资源定位符对应的待爬取网页的页面内容。例如,任意一个URL为:http://bbs.tianya.cn/list-301-1.shtml,则爬取该URL所对应的网页的页面内容,该页面内容可以为网页中的文章、帖子等信息。
存储单元30,用于将申请统一资源定位符对应的待爬取网页的页面内容与申请统一资源定位符对应的标签对应存储至服务器。
待爬取网页的页面内容和URL对应的标签为一一对应地存储至服务器中。
在本申请实施例中,通过以统一资源定位符队列中的统一资源定位符为入口,爬取统一定位符对应的待爬取网页中的页面内容,并将爬取到的页面内容和表征待爬取网页的地理区域的标签进行存储,相对于现有技术中无法获取网页的页面内容所在的地理区域,达到了准确地确定网页中页面内容所属区域的目的,从而实现了将网页的页面内容按照地理区域进行区分的技术效果,进而解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
可选地,装置还包括:标记单元,用于在爬取单元爬取统一资源定位符对应的待爬取网页的页面内容之后,标记统一资源定位符对应的标签至待爬取网页的页面内容;存储单元包括:存储模块,用于将标记统一资源定位符对应的标签之后的待爬取网页的页面内容进行存储。
具体地,以统一资源定位符队列中的任意统一资源定位符为入口,在互联网中爬取待爬取网页,在爬取到该待爬取网页的页面内容时,可以通过标记单元将该统一资源定位符对应的标签标记至页面内容。并通过存储模块将标记之后的待爬取网页的页面内容进行爬取。在本申请实施例中,除将标签之后的待爬取网页的页面内容进行存储之外,还可以将页面内容所对应的待爬取网页URL存储至服务器中与标签之后的待爬取网页的页面内容对应的区域内。
可选地,爬取单元包括:爬取模块,用于爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,起始网页为统一资源定位符队列中每个统一资源定位符所对应的网页;对当前页面内容调用以下模块,直到当前页面内容中不包含统一资源定位符为止:检测模块,用于检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
具体地,通过调用爬取模块爬取起始网页中的页面内容,其中,以统一资源定位符队列中每个统一资源定位符所对应的网页作为起始网页,通过检测模块在起始网页的页面内容中检测是否包含统一资源定位符,也即检测在起始网页中是否包含分页。若检测到该起始网页中包含URL1的情况下,从起始网页中抽取该URL1,并爬取该URL1的页面内容。然后将该URL1的页面内容作为当前页面内容,并再次调用检测模块继续进行检测,即检测URL1的页面内容中是否包含统一资源定位符,在包含统一资源定位符的情况下,抽取URL1的页面内容中包含的URL2,并爬取URL2的页面内容,其中,URL1和URL2的数量可以为多个,还可以为一个。然后将该URL2的页面内容作为当前页面内容,再一次调用检测模块进行检测,即检测URL2的页面内容是否包含统一资源定位符,若检测出URL2中不包含统一资源定位符的情况下,结束流程。
可选地,装置还包括:接收单元,用于在存储单元将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储至服务器之后,接收查询指令,其中,查询指令为查询目标区域内的页面内容的指令;查询单元,用于根据查询指令在服务器中查询所属于目标区域内的页面内容;计算单元,用于计算目标区域内的页面内容的情绪值,其中,情绪值为用于反映目标区域的舆论情绪。
在本申请实施例中,可以利用相应地编程语言开发出的抽取数据程序,在服务器中查询目标区域内的页面内容的情绪值。服务器在接收到用户的查询指令的情况下,在服务器中查询目标区域内的页面内容,并通过情绪分析算法计算出该页面内容的情绪值,进而将计算出的情绪值和该情绪值所在的位置区域显示给模型中,例如显示在河南省的地图中,显示河南省每个地级市的情绪值,给用户直观的展示。
可选地,查询单元包括:匹配模块,用于将服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,匹配标签为用于确定目标区域内的页面内容的标签;确定模块,用于将服务器中与匹配标签匹配的标签对应的页面内容作为目标区域内的页面内容。
具体地,通过调用匹配模块将服务器中存储的页面内容对应的标签与用户定义的匹配标签进行匹配,通过确定出与匹配标签一致的标签对应的页面内容为目标区域的页面内容。
所述网页信息的处理装置包括处理器和存储器,上述读取单元、爬取单元和存储单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来准确地确定网页中页面内容所属区域,解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取所述统一资源定位符对应的待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种网页信息的处理方法,其特征在于,包括:
从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;
爬取所述统一资源定位符对应的待爬取网页的页面内容;
将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
2.根据权利要求1所述的方法,其特征在于,在爬取所述统一资源定位符对应的待爬取网页的页面内容之后,所述方法还包括:
标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;
将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储包括:将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
3.根据权利要求1所述的方法,其特征在于,爬取所述统一资源定位符对应的待爬取网页的页面内容包括:
爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;
对所述当前页面内容执行以下步骤,直到当前页面内容中不包含统一资源定位符为止:
检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
4.根据权利要求1所述的方法,其特征在于,在将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,所述方法还包括:
接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;
根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;
计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪。
5.根据权利要求4所述的方法,其特征在于,根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容包括:
将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;
将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
6.一种网页信息的处理装置,其特征在于,包括:
读取单元,用于从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;
爬取单元,用于爬取所述统一资源定位符对应的待爬取网页的页面内容;
存储单元,用于将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
标记单元,用于在所述爬取单元爬取所述统一资源定位符对应的待爬取网页的页面内容之后,标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;
所述存储单元包括:存储模块,用于将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
8.根据权利要求6所述的装置,其特征在于,所述爬取单元包括:
爬取模块,用于爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;
对所述当前页面内容调用以下模块,直到当前页面内容中不包含统一资源定位符为止:
检测模块,用于检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
接收单元,用于在所述存储单元将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;
查询单元,用于根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;
计算单元,用于计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪。
10.根据权利要求9所述的装置,其特征在于,所述查询单元包括:
匹配模块,用于将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;
确定模块,用于将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031428.3A CN106933898B (zh) | 2015-12-31 | 2015-12-31 | 网页信息的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031428.3A CN106933898B (zh) | 2015-12-31 | 2015-12-31 | 网页信息的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106933898A true CN106933898A (zh) | 2017-07-07 |
CN106933898B CN106933898B (zh) | 2020-08-11 |
Family
ID=59444280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511031428.3A Active CN106933898B (zh) | 2015-12-31 | 2015-12-31 | 网页信息的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933898B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779174A (zh) * | 2012-06-26 | 2012-11-14 | 北京奇虎科技有限公司 | 一种舆情信息展示系统及方法 |
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN104133834A (zh) * | 2014-06-09 | 2014-11-05 | 合肥工业大学 | 指定地域微博数据收集与处理方法 |
CN104516961A (zh) * | 2014-12-18 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于地域的话题挖掘及话题走势分析方法及系统 |
CN104881417A (zh) * | 2014-02-28 | 2015-09-02 | 深圳市网安计算机安全检测技术有限公司 | 舆情分析方法及系统 |
CN105095415A (zh) * | 2015-07-10 | 2015-11-25 | 沃民高新科技(北京)股份有限公司 | 网络情绪的确定方法和装置 |
-
2015
- 2015-12-31 CN CN201511031428.3A patent/CN106933898B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779174A (zh) * | 2012-06-26 | 2012-11-14 | 北京奇虎科技有限公司 | 一种舆情信息展示系统及方法 |
CN103246644A (zh) * | 2013-04-02 | 2013-08-14 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN103544321A (zh) * | 2013-11-06 | 2014-01-29 | 北京国双科技有限公司 | 用于微博情感信息的数据处理方法和装置 |
CN104881417A (zh) * | 2014-02-28 | 2015-09-02 | 深圳市网安计算机安全检测技术有限公司 | 舆情分析方法及系统 |
CN104133834A (zh) * | 2014-06-09 | 2014-11-05 | 合肥工业大学 | 指定地域微博数据收集与处理方法 |
CN104516961A (zh) * | 2014-12-18 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于地域的话题挖掘及话题走势分析方法及系统 |
CN105095415A (zh) * | 2015-07-10 | 2015-11-25 | 沃民高新科技(北京)股份有限公司 | 网络情绪的确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106933898B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103885987B (zh) | 一种音乐推荐方法和系统 | |
CN105068989B (zh) | 地名地址提取方法及装置 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
US8682881B1 (en) | System and method for extracting structured data from classified websites | |
CN110245217A (zh) | 一种药品推荐方法、装置及电子设备 | |
CN104750754A (zh) | 网站所属行业的分类方法和服务器 | |
CN103605715B (zh) | 用于多个数据源的数据整合处理方法和装置 | |
US20150032753A1 (en) | System and method for pushing and distributing promotion content | |
CN106815198A (zh) | 模型训练方法及装置和语句业务类型的识别方法及装置 | |
CN109284498A (zh) | 自提柜推荐方法、自提柜推荐装置和电子装置 | |
CN107679119A (zh) | 生成品牌衍生词的方法和装置 | |
CN104573021A (zh) | 一种针对互联网行为进行分析的方法 | |
CN106776609A (zh) | 网站转载数量的统计方法及装置 | |
CN110020075A (zh) | 非法网站自动发掘装置 | |
CN102902790B (zh) | 网页分类系统及方法 | |
CN106250402A (zh) | 一种网站分类方法及装置 | |
CN106776640A (zh) | 一种股票资讯信息展示方法和装置 | |
CN102902792B (zh) | 列表页识别系统及方法 | |
CN106383857A (zh) | 一种信息处理方法及电子设备 | |
CN106649264A (zh) | 一种基于篇章信息的中文水果品种信息抽取方法及装置 | |
CN102929948B (zh) | 列表页识别系统及方法 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN110457603A (zh) | 用户关系抽取方法、装置、电子设备及可读存储介质 | |
CN106933898A (zh) | 网页信息的处理方法和装置 | |
US20160267341A1 (en) | Interactive optical codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |