CN102810110B - 获取网络文本数据的方法和系统 - Google Patents

获取网络文本数据的方法和系统 Download PDF

Info

Publication number
CN102810110B
CN102810110B CN201210137967.5A CN201210137967A CN102810110B CN 102810110 B CN102810110 B CN 102810110B CN 201210137967 A CN201210137967 A CN 201210137967A CN 102810110 B CN102810110 B CN 102810110B
Authority
CN
China
Prior art keywords
keyword
textual entry
entry
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210137967.5A
Other languages
English (en)
Other versions
CN102810110A (zh
Inventor
徐舟林
唐红军
王彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201210137967.5A priority Critical patent/CN102810110B/zh
Publication of CN102810110A publication Critical patent/CN102810110A/zh
Application granted granted Critical
Publication of CN102810110B publication Critical patent/CN102810110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种获取网络文本数据的方法和系统,能够提高从网页的动态数据中获取指定内容类型的文本信息的效率。在该方法中,直接以抓包的方式获取服务器的响应数据,通过自动侦辨的方式从动态数据中提取指定内容类型的文本信息。采用本发明的技术方案,有助于高效地从网页中获取指定内容类型的文本信息。

Description

获取网络文本数据的方法和系统
技术领域
本发明涉及计算机网络技术,特别地涉及一种获取网络文本数据的方法和系统。
背景技术
随着计算机网络的广泛应用,计算机网络中的信息量也日益增大。在一些应用场合,要求尽可能高效地获取网页中的信息。网页中的信息可以分为两类,一类是静态数据,包含在超文本标识语言(HTML)文件中,通过下载页面源代码即可。另一类是动态数据,这些数据在页面源代码中是不可见的,例如以推送(POST)的方式或异步JavaScript和XML(Asynchronous JavaScript and XML,AJAX)方式传递到浏览器。在相关技术中,通常利用JavaScript表现引擎重新执行获取数据的相关脚本代码从而获得执行结果,达到抓取动态数据的目的。此种方式需要构造一个浏览器(IE)核心主键JavaScript表现引擎,编码工程量大,而且定位相关数据的代码需要人工干预处理方式不够灵活,通过重复执行相关脚本代码效率低下,并且具有重复性劳动。因此现有技术中的获取网页动态数据的效率较低。
在电子商务领域,人们关心的最多的是有关商品的信息,而这些信息往往是以文本的形式出现,例如商品名称、性能参数等,并且从事商品交易的人经常会对商品进行评论,这些评论是反映商品性能和服务质量的重要信息,往往受到人们的重点关注。但是在网页的动态数据中,除了对商品的评论,还有其他文本信息,在这种情况下想要有针对性地只获取商品评论信息,通常采用的是人工筛选的方式。不仅仅是商品的评论信息,对于其他指定类型的文本信息也采用的是人工筛选的方式,这种方式效率比较低。
发明内容
有鉴于此,本发明提供一种获取网络文本数据的方法和系统,能够提高从网页的动态数据中获取指定内容类型的文本信息的效率。
为实现上述目的,根据本发明的一个方面,提供了一种获取网络文本数据的方法。
本发明的获取网络文本数据的方法包括如下步骤:对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目,从上述文本条目中选择关键词,并且计算每个关键词的第一类比值和第二类比值,其中,所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值,所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值,并且所述第一类文本条目与所述第二类文本条目互为补集;根据各个关键词的上述比值得出该关键词的对应概率,关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率;从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据,所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发;从所述响应数据中提取文本信息,对于提取的文本信息内的各个文本条目,根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。
进一步地,所述根据各个关键词的上述比值得出该关键词的对应概率,包括根据如下公式进行计算:P(A|Ti)=P1(Ti)/[P1(Ti)+P2(Ti)];其中:P(A|Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率,P1(Ti)表示第i个关键词的第一类比值,P2(Ti)表示第i个关键词的第二类比值,i为自然数。
进一步地,所述根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率,包括根据如下公式进行计算:P(A|T1,T2,T3...Tn)=(P1×P2×P3×...×Pn)×[P1×P2×P3×...×Pn+(1-P1)×(1-P2)×(1-Pn)];其中:P(A|T1,T2,T3...Tn)表示所述文本信息内的文本条目是第一类文本条目的概率;Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率,n为自然数。
进一步地,在从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据之后,所述方法还包括:触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据;比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址,所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址;获取所述多个地址中的数据并保存。
进一步地,所述网页提交的请求信息包括通过ajax方式或通过推送方式提交的请求信息。
进一步地,所述响应数据包括JSON格式的文本数据。
进一步地,所述第一类文本条目是评论商品的文本;所述第二类文本条目是评论商品的文本以外的其他文本。
根据本发明的另一方面,提出了一种获取网络文本数据的系统。
本发明的获取网络文本数据的系统包括比值模块、概率模块、抓包模块、输出模块,其中:所述比值模块,用于:对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目,从上述文本条目中选择关键词,并且计算每个关键词的第一类比值和第二类比值,其中,所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值,所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值;所述概率模块,用于根据各个关键词的上述比值得出该关键词的对应概率,关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率;所述抓包模块,用于从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据,所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发;所述输出模块,用于从所述响应数据中提取文本信息,对于提取的文本信息内的各个文本条目,根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。
进一步地,所述概率模块还用于根据如下公式进行计算:P(A|Ti)=P1(Ti)/[P1(Ti)+P2(Ti)];其中:P(A|Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率,P1(Ti)表示第i个关键词的第一类比值,P2(Ti)表示第i个关键词的第二类比值,i为自然数。
进一步地,所述输出模块还用于根据如下公式进行计算:P(A|T1,T2,T3...Tn)=(P1×P2×P3×...×Pn)×[P1×P2×P3×...×Pn+(1-P1)×(1-P2)×(1-Pn)];其中:P(A|T1,T2,T3...Tn)表示所述文本信息内的文本条目是第一类文本条目的概率;Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率,n为自然数。
进一步地,还包括触发模块、分析模块、和获取模块,其中:触发模块,用于触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据;分析模块,用于比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址,所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址;获取模块,用于获取所述多个地址中的数据。
进一步地,所述分析模块还用于确定所述多次翻页操作时到达的末页。
根据本发明的技术方案,一方面,直接以抓包的方式获取服务器的响应数据,能够比较高效地获取动态数据;另一方面,通过自动侦辨的方式从动态数据中提取指定内容类型的文本信息,例如对于商品的评论文本,能够高效地得到需要的文本信息;又一方面,在动态数据分布在多页连续网页的情况下能够无需反复触发翻页按钮即可获得后续网页的动态内容,节省了处理时间。所有以上都有助于高效地从网页中获取指定内容类型的文本信息。
附图说明
附图用于更好地理解本发明,并不构成对本发明的不当限定。其中:
图1是根据本发明实施例的获取网络数据的系统在网络中的配置位置的示意图;
图2是根据本发明实施例的侦辨文本条目的方法的主要步骤的示意图;以及
图3是根据本发明实施例的获取网络文本数据的系统的基本结构的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的获取网络数据的系统在网络中的配置位置的示意图。如图1所示,类似于现有技术,客户端11处于本地网络12中,本地网12络与服务器13连接,客户端11经由本地网络12向服务器13发送访问请求例如HTTP协议访问请求,服务器13经由本地网络12向客户端11返回响应例如HTTP协议响应。本地网络中配置有网络转发装置121,例如网关、路由器等设备,用来在服务器13和客户端11之间进行数据转发。
为了本地网络的安全,在网络转发装置121内通常有网络监控服务。因为现有的客户端通常经由本地网络中的相关设备访问服务器,所以客户端与服务器之间的请求数据、响应数据都可以从本地网络中采用现有的“抓包”的方式获得,即从本地网络在客户端和服务器之间转发的数据中直接获取需要的数据。
因此如图1所示,本发明实施例的获取网络数据的系统10可以设置在网络转发装置121中。
网络转发装置转发的数据中包含多种类型以及功能的数据,在本实施例中选择了抓取服务器向客户端发送的响应数据,因为动态数据就包含在该响应数据中,所以通过抓取响应数据即可获得动态数据,然后可以进行数据分析,无需重新执行获取数据的相关脚本代码,有助于提高获取动态数据的效率。
网页可以采用JavaScript函数进行ajax的方式或采用推送(Post)的方式来发送请求信息以请求服务器发送指定的动态数据。服务器在收到这种请求信息后,向客户端返回动态数据的网络地址例如统一资源定位符URL,客户端即可从该URL获得包含评论信息的动态数据。
动态数据可能是文本、图片、视频、或其他格式的数据,因此抓包模块获取的网络数据也可能包含有上述各种格式的数据。但在实际应用中,可能只需获取某一种类的动态数据。
例如,在电子商务领域中,买家在评论商品时,在页面的表单中输入评论的内容然后提交到服务器,客户端在打开网页后可以看到这些评论。评论信息是一种动态数据,它能够从某一角度反映出商品的销售情况和前景,是往往需要关心的内容,而抓包模块通常按时间段抓取该时间段内的所有数据包,其中包含有各种数据,除了包含了评论文本的html文件之外,还可以有图片等文件。所以优选的方式应当是先抓包模块抓取的数据包做出筛选,保留包含中文字符的信息,从而得到多个文本条目。
对于得到的多个文本条目,如前所述,若采用人工的方式根据其内容进行筛选则效率较低。因此,在本实施例中,采用一种基于贝叶斯分类算法的侦辨文本条目的方法,该方法可以应用于识别文本条目是否为指定类型的文本条目,当然可以应用于识别文本是否为商品评论文本。以下结合图2对该方法作详细说明,图2是根据本发明实施例的侦辨文本条目的方法的主要步骤的示意图。
步骤S21:预先选取一个或多个第一类文本条目以及一个或多个第二类文本条目。
这里的第一类文本条目和第二类文本条目互为补集,例如,“评论文本”和“非评论文本”就构成补集。也就是说对于一个文本条目,它不是第一类文本条目就是第二类文本条目,二者必居其一。
本步骤是选择训练集,即选择已知类别的文本条目,根据这些已知类别的文本条目,在后续的步骤中要得出各个关键词的对应概率,关键词的对应概率是“具有该关键词的文本条目是第一类文本条目”的概率。
为了节省篇幅,以选取一个评论文本作为第一类文本,以及一个非评论文本作为第二类文本为例对图2中的各个步骤加以说明。
评论文本:“使用心得:各方面都不错,屏够大,触屏灵敏,用着舒服。不足就是耳机那里不太好,插入时好像接触不稳,得来回调整才可以;播放视频时插入及拔出耳机时视频会暂停,但是屏中并未显示暂停播放的标志,需要手动播放。不知是个别机的问题,还是手机本身是这样的?有谁遇到过这样的情况么?望可以解答下。”
非评论文本:“请问货物从北京出仓,运送到山东泰安需要多长时间?我已经等了4天了,货物追踪还是显示在送往济南双建快递。京东不是承诺1~5天到货么,请帮忙解答下,谢谢。”
步骤S22:从步骤S21中选取的文本条目中选择关键词。本步骤中的关键词的选取方式取决于指定类型的文本条目的语义特点。例如,指定的类型的文本条目是商品的评论文本,根据评论文本的语义特点,其中多含有形容词,例如“不错”、“不足”等,因此可以从文本条目中选取各种形容词作为关键词;而对于抓包模块抓取的服务器响应内容中的文本信息,其中既包含评论文本,也包含其他类型的,例如是咨询文本,而咨询文本的语义特点是包含“解答”、“请问”这类词语。另外,有些文本内既包含有评论内容,也包含咨询的问题,这种文本也可以视作评论文本,或根据实际需要而定。
本实施例中,从评论文本中选择如下关键词:解答、不错、不足。从非评论文本中选择如下关键词:解答、请问。
步骤S23:计算每个关键词的第一类比值和第二类比值。这里的第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值;第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值。
各个关键词在评论文本和非评论文本中出现的次数以及第一类比值和第二类比值如表1所示。
表1
表中的标有(A)处的0.3是根据1/(1+1+1)=0.3(近似)得到,括号中的三个1分别表示左起第1列中的三个1。右边两列的其他比值的计算方式类似。
如果选取了多个评论文本和/或非评论文本,则表1中的次数可能更多,例如选取的第2个评论文本中也有“不错”,那么表1中第2列第3行中的数字应为2。
步骤S24:根据各个关键词的上述比值得出该关键词的对应概率。如前文所述,关键词的对应概率是“具有该关键词的文本条目是第一类文本条目”的概率。采用概率学中的符号,记P(A)表示文本条目是评论文本的概率,Ti表示文本条目具有从步骤S22中选择出的所有关键词中的第i个关键词,则复合概率P(A|Ti)表示具有第i个关键词的文本条目是评论文本的概率。
根据贝叶斯定理P(X|Y)=P(Y|X)×P(X)/P(Y),将其中的X替换为A,Y替换为Ti,则有:P(A|Ti)=P(Ti|A)×P(A)/P(Ti)。记P(B)表示文本条目是非评论文本条目的概率,因为对于一个文本条目来说它不是评论条目则必定是非评论条目,也就是说A和B为互斥事件,所以有:
P(Ti)=P(A)×P(Ti|A)+P(B)×P(Ti|B)…………………………式(1)
根据式(1),有:
P(A|Ti)=P(Ti|A)×P(A)/[P(A)×P(Ti|A)+P(B)×P(Ti|B)]……式(2)
对于一条给定的文本条目,认为该文本条目是评论条目的概率为0.5,即上式中的P(A)=P(B)=0.5,于是有:
P(A|Ti)=P(Ti|A)/[P(Ti|A)+P(Ti|B)]…………………………式(2)
可以看出条件概率P(Ti|A)和P(Ti|B)分别就是上文中的第一类比值和第二类比值,记P1(Ti)表示第i个关键词的第一类比值,P2(Ti)表示第i个关键词的第二类比值,其中i为自然数,根据式(2),则有:
P(A|Ti)=P1(Ti)/[P1(Ti)+P2(Ti)]………………………………式(3)
式(3)计算的是文本条目仅包含1个关键词即第i个关键词时该文本条目是评论文本的概率。如上例,例如某一文本条目在包含“解答”的条件下是评论文本的概率,即“解答”的对应概率为:
P(是评论文本|包含“解答”)=
“解答”的第一类比值/(“解答”的第一类比值+“解答”的第二类比值)=0.3/(0.3+0.5)=0.375
同理,“不错”、“不足”和“请问”的对应概率为别如下:
P(是评论文本|包含“不错”)=0.3/0.3+0=1;
P(是评论文本|包含“不足”)=0.3/0.3+0=1;
P(是评论文本|包含“请问”)=0/0+0.5=0。
这样,对于多个关键词,可以列出一个对应表,在该对应表中,各个关键词以及该关键词的对应概率一一对应。
在得出上述对应表之后,对于给定的文本条目,就可以判断该文本条目是不是评论文本。此时可以进入步骤S25。
步骤S25:从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据。这里的网络转发装置是用于在服务器和客户端之间进行数据转发。
步骤S26:从步骤S25中获取的响应数据中提取文本信息。
步骤S27:从步骤S26中获取的文本信息中取出1条文本条目,计算该文本条目是评论文本的概率。以下具体说明。
如果出的这条文本条目中包含n(n>1)个关键词,以条件概率P(A|T1,T2,T3,...,Tn)表示文本条目包含n个关键词的情况下该文本条目是第一类文本条目的概率,则有:
P(A|T1,T2,T3...Tn)=(P1×P2×P3×...×Pn)×
[P1×P2×P3×...×Pn+(1-P1)×(1-P2)×(1-Pn)]……………………式(4)
式(4)中,Pn表示文本条目中出现的第n个关键词的对应概率,n为自然数。Pn可以通过查上面的对应表而获得。该文本条目可以是来自于抓包模块获取的文本信息中。根据式(4),就可以自动判断出一个文本条目是评论文本的概率,当这个概率大于一个预先设定的数值时,就认为该文本条目就是评论文本,从而可以将它作为评论文本保存起来。
如前例,若有一个待判断的文本条目中包含有“不足”和“请问”,则根据式(4),有:
P(是评论文本|包含“不足”和“请问”)
=(“不足”的对应概率ד请问”的对应概率/[“不足”的对应概率ד请问”的对应概率+(1-“不足”的对应概率)×(1-“请问”的对应概率)]=(0×1)/[0×1+(1-0)×(1-1)]=0
也就是说,如果一个文本条目中同时包含了“不足”和“请问”,则该文本条目是评论文本的可能性为0。这里仅为举例,如果在步骤S21中选择尽可能多的评论文本以及非评论文本,也就是说在训练集更大的情况下,对于文本条目是评论文本的判断将更加准确。
步骤S28:判断步骤S27中得出的概率是否大于预设值,若是,进入步骤S29,否则返回步骤S27,取另一条文本条目进行概率计算。
步骤S29:保存步骤S27中取出的文本条目。然后返回步骤S27,取另一条文本条目进行概率计算。
从以上说明中可以看出,按图2所示的流程可以实现自动地从服务器向客户端发送的响应数据得到评论文本,有着较高的执行效率。
在实际的网页中,经常可以看到评论文本不止一页,本实施例中,同样可自动地完成多个网页中包含的评论数据的获取,主要是通过分析网页的地址来实现,以下详细说明。
首先触发网页中的翻页按钮从而使服务器发送该网页的下一页网页的数据,然后比较服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址。这里的多个地址是服务器响应于多次翻页操作时发送的动态数据的地址。
在确定多个地址之后,就可以获取该多个地址中的数据。这些数据中包含文本信息,而在文本信息中又可以采用上文的自动侦辨评论文本的方法来得到评论文本。
以下对于确定动态数据的地址再举例加以说明。例如:翻页之前的动态数据的URL是:
http://club.360buy.com/clubservice/productcomment-570142-0-0.html
翻页之后的动态数据的URL是:
http://club.360buy.com/clubservice/productcomment-570142-0-1.html
对二者进行文本比较,发现不同之处仅在于“570142-0-0”中的末位。因此在上述URL中改变该末位数字即可得到多页翻页后的动态数据的URL。
又如:翻页之前的动态数据的URL是:
http://www.suning.com/emall/SNMoreCommentView?productId=1123906&catalogId=10051&storeId=10052
翻页之后的动态数据的URL是:
http://www.suning.com/emall/SNMemberTestMulitePage?catalogId=10051&storeId=10052&productId=1123906&langId=-7&typeFlg=all&pageNumber=2&pageSize=10&sortType=%E5%85%A8%E9%83%A8%E8%AF%84%E4%BB%B7(51)%E5%A5%BD%E8%AF%84(44)%E4%B8%AD%E8%AF%84(5)%E5%B7%AE%E8%AF%84(2)
可比较发现storeId后面的字段相同,并且在翻页之后得到的URL中识别出关键字pageNumber,该关键字可以从预存的关键字库中获得。这样就可以根据翻页之后得到的URL以及关键字得出继续向后翻页之后动态数据的URL。
从以上说明可以看出,根据网页的URL的比较结果直接确定出URL地址,该地址中包含翻页后的动态数据,继而直接从该URL中获得动态数据,无需反复触发网页中的翻页按扭,从而有助于提高动态数据的抓取效率。
图3是根据本发明实施例的获取网络文本数据的系统的基本结构的示意图。如图3所示,本发明实施例的获取网络文本数据的系统30主要包括比值模块31、概率模块32、抓包模块33、输出模块34。
比值模块31用于:对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目,从上述文本条目中选择关键词,并且计算每个关键词的第一类比值和第二类比值,其中,第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值,第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值。
概率模块32用于根据各个关键词的上述比值得出该关键词的对应概率,关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率。概率模块32可以用于根据式(3)进行计算。
抓包模块33用于从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据,该网络转发装置用于在服务器和客户端之间进行数据转发。
输出模块34用于从响应数据中提取文本信息,对于提取的文本信息内的各个文本条目,根据该文本条目中的出现的所有上述关键词以及关键词的对应概率确定该文本条目是第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目。输出模块34具体可以根据式(4)进行计算。
图3所示的系统30还可包括触发模块、分析模块、和获取模块(图中未示出)。
触发模块用于触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据;分析模块,用于比较服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址,所述多个地址是服务器响应于多次翻页操作时发送的动态数据的地址;获取模块,用于获取上述多个地址中的数据。分析模块还可用于确定多次翻页操作时到达的末页。
根据本实施例的技术方案,一方面,直接以抓包的方式获取服务器的响应数据,能够比较高效地获取动态数据;另一方面,通过自动侦辨的方式从动态数据中提取指定内容类型的文本信息,例如对于商品的评论文本,能够高效地得到需要的文本信息;又一方面,在动态数据分布在多页连续网页的情况下能够无需反复触发翻页按钮即可获得后续网页的动态内容,节省了处理时间。所有以上都有助于高效地从网页中获取指定内容类型的文本信息。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行,例如,对原始视觉内容进行色彩校正的步骤和对拍摄到的图像进行几何校正的步骤可以顺序地、并行地或者以任何顺序独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种获取网络文本数据的方法,其特征在于,包括如下步骤:
对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目,从上述文本条目中选择关键词,并且计算每个关键词的第一类比值和第二类比值,
其中,所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值,
所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值,
并且所述第一类文本条目与所述第二类文本条目互为补集;
根据各个关键词的上述比值得出该关键词的对应概率,关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率;
从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据,所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发;
从所述响应数据中提取文本信息,对于提取的文本信息内的各个文本条目,根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目;
所述根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率,包括根据如下公式进行计算:
P(A|T1,T2,T3...Tn)=
(P1×P2×P3×...×Pn)×[P1×P2×P3×...×Pn+(1-P1)×(1-P2)×(1-Pn)];
其中:P(A|T1,T2,T3...Tn)表示所述文本信息内的文本条目是第一类文本条目的概率;
Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率,n为自然数。
2.根据权利要求1所述的方法,其特征在于,所述根据各个关键词的上述比值得出该关键词的对应概率,包括根据如下公式进行计算:P(A|Ti)=P1(Ti)/[P1(Ti)+P2(Ti)];
其中:P(A|Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率,P1(Ti)表示第i个关键词的第一类比值,P2(Ti)表示第i个关键词的第二类比值,i为自然数。
3.根据权利要求1所述的方法,其特征在于,在从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据之后,所述方法还包括:
触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据;
比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址,所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址;
获取所述多个地址中的数据并保存。
4.根据权利要求3所述的方法,其特征在于,所述网页提交的请求信息包括通过ajax方式或通过推送方式提交的请求信息。
5.根据权利要求3或4所述的方法,其特征在于,所述响应数据包括JSON格式的文本数据。
6.根据权利要求3或4所述的方法,其特征在于,
所述第一类文本条目是评论商品的文本;
所述第二类文本条目是评论商品的文本以外的其他文本。
7.一种获取网络文本数据的系统,其特征在于,包括比值模块、概率模块、抓包模块、输出模块,其中:
所述比值模块,用于:
对于预先选取的一个或多个第一类文本条目以及一个或多个第二类文本条目,从上述文本条目中选择关键词,并且计算每个关键词的第一类比值和第二类比值,
其中,所述第一类比值是关键词在所有第一类文本条目中出现的次数与所有关键词在所有第一类文本条目中出现的次数之和的比值,
所述第二类比值是关键词在所有第二类文本条目中出现的次数与所有关键词在所有第二类文本条目中出现的次数之和的比值;
所述概率模块,用于根据各个关键词的上述比值得出该关键词的对应概率,关键词的对应概率是指具有该关键词的文本条目是第一类文本条目的概率;
所述抓包模块,用于从网络转发装置所转发的数据中获取服务器向客户端发送的响应数据,所述网络转发装置用于在所述服务器和所述客户端之间进行数据转发;
所述输出模块,用于从所述响应数据中提取文本信息,对于提取的文本信息内的各个文本条目,根据该文本条目中的出现的所有上述关键词以及所述概率确定该文本条目是所述第一类文本条目的概率以及在该概率大于预设值的情况下输出该文本条目;
所述输出模块还用于根据如下公式进行计算:
P(A|T1,T2,T3...Tn)=
(P1×P2×P3×...×Pn)×[P1×P2×P3×...×Pn+(1-P1)×(1-P2)×(1-Pn)];
其中:P(A|T1,T2,T3...Tn)表示所述文本信息内的文本条目是第一类文本条目的概率;
Pn表示所述文本信息内的文本条目中出现的第n个关键词的对应概率,n为自然数。
8.根据权利要求7所述的系统,其特征在于,所述概率模块还用于根据如下公式进行计算:P(A|Ti)=P1(Ti)/[P1(Ti)+P2(Ti)];
其中:P(A|Ti)表示具有第i个关键词的文本条目是第一类文本条目的概率,P1(Ti)表示第i个关键词的第一类比值,P2(Ti)表示第i个关键词的第二类比值,i为自然数。
9.根据权利要求7所述的系统,其特征在于,还包括触发模块、分析模块、和获取模块,其中:
触发模块,用于触发网页中的翻页按钮从而使所述服务器发送该网页的下一页网页的数据;
分析模块,用于比较所述服务器响应翻页之后的网页提交的请求信息而发送的动态数据的地址与所述服务器响应翻页之前的网页提交的请求信息而发送的动态数据的地址,根据比较得到的地址之间的区别确定多个地址,所述多个地址是所述服务器响应于多次翻页操作时发送的动态数据的地址;
获取模块,用于获取所述多个地址中的数据。
10.根据权利要求9所述的系统,其特征在于,所述分析模块还用于确定所述多次翻页操作时到达的末页。
CN201210137967.5A 2012-05-07 2012-05-07 获取网络文本数据的方法和系统 Active CN102810110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210137967.5A CN102810110B (zh) 2012-05-07 2012-05-07 获取网络文本数据的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210137967.5A CN102810110B (zh) 2012-05-07 2012-05-07 获取网络文本数据的方法和系统

Publications (2)

Publication Number Publication Date
CN102810110A CN102810110A (zh) 2012-12-05
CN102810110B true CN102810110B (zh) 2015-08-05

Family

ID=47233816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210137967.5A Active CN102810110B (zh) 2012-05-07 2012-05-07 获取网络文本数据的方法和系统

Country Status (1)

Country Link
CN (1) CN102810110B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN103617225B (zh) * 2013-11-25 2019-03-08 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104731824B (zh) * 2013-12-24 2018-12-18 腾讯科技(深圳)有限公司 一种显示图片的方法及装置
CN107679135A (zh) * 2017-09-22 2018-02-09 深圳市易图资讯股份有限公司 面向网络文本大数据的话题检测与跟踪方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN102279894A (zh) * 2011-09-19 2011-12-14 嘉兴亿言堂信息科技有限公司 基于语义的查找、集成和提供评论信息的方法及搜索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909A (zh) * 2006-08-10 2008-02-13 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
CN102087648A (zh) * 2009-12-03 2011-06-08 北京大学 一种新闻评论页面的爬取方法及系统
CN102279894A (zh) * 2011-09-19 2011-12-14 嘉兴亿言堂信息科技有限公司 基于语义的查找、集成和提供评论信息的方法及搜索系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
文本分类中词共现关系的研究及其应用;章舜仲;《中国优秀硕士学位论文》;20100831;第36-37页,52-53页,58-59页 *

Also Published As

Publication number Publication date
CN102810110A (zh) 2012-12-05

Similar Documents

Publication Publication Date Title
KR102003014B1 (ko) 전자 통신 스레드 내 증강된 메시지 요소의 제공
US7668942B2 (en) Generating document templates that are robust to structural variations
CN102567299B (zh) 使用文本消息与电子表格交互
US8832188B1 (en) Determining language of text fragments
US9384186B2 (en) Monitoring conversations to identify topics of interest
US10230672B2 (en) Inserting a search box into a mobile terminal dialog messaging protocol
US20090327234A1 (en) Updating answers with references in forums
US9542365B1 (en) Methods for generating e-mail message interfaces
US20130007586A1 (en) Method and system for creating and using web feed display templates
CN108369709A (zh) 基于网络的广告数据业务时延减小
CN103577595A (zh) 基于当前浏览页面的关键词推送方法及装置
US20130123020A1 (en) Dynamic playbook: experimentation platform for social networks
US20160173953A1 (en) Method, Device, Server, and Client Device for Video Processing
CN103577596A (zh) 基于当前浏览页面的关键词搜索方法及装置
CN103777980A (zh) 一种加载网站点评信息的方法和浏览器
CN103577392A (zh) 基于当前浏览页面的关键词推送方法及装置
US10095378B2 (en) Web browser toolbar
CN106850406B (zh) 一种内容分享方法及装置
US11558333B1 (en) Organizing self-replying messages
CN102810110B (zh) 获取网络文本数据的方法和系统
US20170070470A9 (en) Automatic, Interest-Based Notifications
CN108401005B (zh) 一种表情推荐方法和装置
CN106487655B (zh) 一种消息交互方法、装置及处理服务器
CN104462305A (zh) 一种数据分析方法和装置
US9256343B1 (en) Dynamically modifying an electronic article based on commentary

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant