CN104391977A - 网页关键词出现频次检测方法及装置 - Google Patents

网页关键词出现频次检测方法及装置 Download PDF

Info

Publication number
CN104391977A
CN104391977A CN201410742890.3A CN201410742890A CN104391977A CN 104391977 A CN104391977 A CN 104391977A CN 201410742890 A CN201410742890 A CN 201410742890A CN 104391977 A CN104391977 A CN 104391977A
Authority
CN
China
Prior art keywords
web page
key words
detected
page key
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410742890.3A
Other languages
English (en)
Other versions
CN104391977B (zh
Inventor
谭紫萱
杨韬
王晓群
张松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410742890.3A priority Critical patent/CN104391977B/zh
Publication of CN104391977A publication Critical patent/CN104391977A/zh
Application granted granted Critical
Publication of CN104391977B publication Critical patent/CN104391977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页关键词出现频次检测方法及装置。该网页关键词出现频次检测方法包括:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。通过本发明,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。

Description

网页关键词出现频次检测方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页关键词出现频次检测方法及装置。
背景技术
在互联网应用中,经常需要对网络关键词的出现频次进行统计,例如,对品牌词曝光量进行统计。品牌词曝光量的统计是以量化的形式实现定期检测和统计品牌词在互联网的曝光情况。随着互联网的不断发展和普及,品牌词在互联网中的曝光情况越来越能反映一个品牌在互联网中的口碑和影响力,并且已经成为品牌广告主优化品牌策划的一个重要的参考指标。
利用搜索引擎检索品牌广告主所提供的产品或服务,进而可以统计在自然搜索结果中品牌名称的曝光率,同时可以对比竞争对手的品牌曝光率。品牌名称在自然搜索结果中的曝光量统计,需要在自然搜索结果中所呈现的前N页的每一个网页中统计该网页包含的指定的品牌词的个数。
现有技术是人工利用搜索引擎手动检索品牌广告主的产品名称或者服务名称,再人工地从检索结果中点击进入每一个网页,查看品牌名称是否出现并进行计数,直到前N个页面都统计完毕,再手动计算曝光率。
由于自然搜索结果是基于海量互联网数据检索的结果,数据量大,变化频率高,因此,现有的解决方案不能大面积、快速地对自然搜索结果中品牌词的出现频率进行检测,准确性和及时性都难以保证。同时,在某些情况下需要同时统计竞争对手品牌名称的曝光频率,这也为统计人员带来了相当大的工作量。
针对相关技术中对网页关键词的出现频次进行检测时效率较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页关键词出现频次检测方法及装置,以解决对网页关键词的出现频次进行检测时效率较低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页关键词出现频次检测方法。
根据本发明的网页关键词出现频次检测方法包括:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:分别检测第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:统计第二待检测网页关键词对应的多个链接地址的个数;根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。
进一步地,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,该方法还包括:确定第三待检测网页关键词,其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
进一步地,分别获取多个链接地址对应的多个网页的网页内容包括:利用爬虫爬取技术分别获取多个链接地址对应的多个网页的网页内容。
进一步地,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址包括:确定预设参考数量,其中,预设参考数量为预先设定的获取第二待检测网页关键词对应的链接地址的数量;对第二待检测网页关键词发出访问请求,获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;按照搜索热度由强到弱的顺序,从第二待检测网页关键词对应的多个链接地址中获取数量为预设参考数量的多个链接地址。
为了实现上述目的,根据本发明的另一方面,提供了一种网页关键词出现频次检测装置。
根据本发明的网页关键词出现频次检测装置包括:第一确定单元,用于确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;第一获取单元,用于对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;第二获取单元,用于分别获取多个链接地址对应的多个网页的网页内容;第一检测单元,用于检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
进一步地,该装置还包括:第二检测单元,用于分别检测第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特征;第一统计单元,用于分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
进一步地,该装置还包括:第二统计单元,用于统计第二待检测网页关键词对应的多个链接地址的个数;计算单元,用于根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。
进一步地,该装置还包括:第二确定单元,用于确定第三待检测网页关键词,其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键词;第三检测单元,用于检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;第三获取单元,用于将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
通过本发明,采用包括以下步骤的方法:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的网页关键词出现频次检测方法的第一实施例的示意图;
图2是根据本发明的网页关键词出现频次检测方法的第二实施例的示意图;
图3是根据本发明的网页关键词出现频次检测方法的第三实施例的示意图;
图4是根据本发明的网页关键词出现频次检测装置的第一实施例的示意图;以及
图5是根据本发明的网页关键词出现频次检测装置的第二实施例的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种网页关键词出现频次检测方法。
图1是根据本发明的网页关键词出现频次检测方法的第一实施例的示意图。如图1所示,该方法包括步骤S102至步骤S108:
步骤S102,确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词。
第一待检测网页关键词属于第二待检测网页关键词是指第二待检测网页是包含第一待检测网页关键词的,如第二待检测网页为电脑,第一待检测网页关键词为某品牌电脑。当在网络上搜索第二待检测网页关键词时,在搜索结果中可能出现第一待检测网页关键词的相关信息。
以品牌广告为例进行说明。第二待检测网页关键词为产品词,比如奶粉;第一待检测网页关键词为品牌词,比如雅培。当在网络上搜索关键词“奶粉”时,在搜索页中可能会包含关键词“雅培”。
步骤S104,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址。
当对第二待检测网页关键词展开访问请求时,在搜索页中会出现对应该关键词的诸多的链接,每个链接对应的网页都是与第二待检测网页关键词相关的网页信息。
对第二待检测网页关键词发出访问请求,并获取请求结果,可以通过如下步骤实现:确定预设参考数量,其中,预设参考数量为预先设定的获取第二待检测网页关键词对应的链接地址的数量;对第二待检测网页关键词发出访问请求,获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;按照搜索热度由强到弱的顺序,从第二待检测网页关键词对应的多个链接地址中获取数量为预设参考数量的多个链接地址。
由于在大多数情况下,对应一个网页搜索关键词的网页链接数量是巨大的,因此,需要预先设定获取数量,以提高检测效率。同样地,也可以设定搜索关键词后显示的搜索页面的数量为参考数量。
步骤S106,分别获取多个链接地址对应的多个网页的网页内容。
优选地,可以利用爬虫爬取技术分别获取多个链接地址对应的多个网页的网页内容。该方式获取网页内容的效率更高、准确性更好。
步骤S108,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
由于第一网页关键词是属于第二网页关键词的,只要在网页内容中出现了一次第一网页关键词,就可以统计一次第一网页关键词被曝光的次数。需要说明的是,只要第一网页关键词在一个网页中出现了,不论其出现了几次,也不论其在当时的语境中的感情色彩如何,都认为第一网页关键词得到了曝光。通过检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,可以获知第一网页关键词被曝光的程度。
检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,还可以进行如下步骤:分别检测第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特征;分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
以品牌广告为例进行说明,在检索品牌名称出现频率时,可以对其出现时的语义进行分析,进而可以判断所曝光的品牌名称在当时语义环境中的正、负面情感倾向特征情况,用以评判品牌名称的曝光价值。表1是根据本发明的检测网页关键词情感倾向特征的数据存储表。
表1
检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数之后,还可以进行如下步骤:确定第三待检测网页关键词,其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键词;检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
通常情况下,网页关键词投放者也会比较关注与其具有竞争关系的其他网页关键词的曝光情况。这里的第三待检测网页关键词即为与第一网页关键词具有竞争关系的网页关键词。以表1为例进行说明,品牌广告主通过广告宣传的产品为雅培奶粉。在检测雅培奶粉的曝光量的同时,其竞争对象惠氏奶粉和明一奶粉的曝光量也是品牌广告主想要获知的数据。基于上述数据,品牌广告主可以相应的进行广告宣传策略的优化。
该实施例由于采用了以下步骤:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过获取多个链接地址对应的多个网页的网页内容,并检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。
图2是根据本发明的网页关键词出现频次检测方法的第二实施例的示意图,该实施例可以作为图1所示实施例的一种优选实施方式。如图2所示,该方法包括步骤S201至步骤S206:
步骤S201,确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词。
该步骤同步骤S102,这里不再赘述。
步骤S202,对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址。
该步骤同步骤S104,这里不再赘述。
步骤S203,分别获取多个链接地址对应的多个网页的网页内容。
该步骤同步骤S106,这里不再赘述。
步骤S204,检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
该步骤同步骤S108,这里不再赘述。
步骤S205,统计第二待检测网页关键词对应的多个链接地址的个数。
步骤S206,根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。
优选地,第一待检测网页关键词的出现比率为在多个网页的网页内容中出现第一待检测网页关键词的网页的个数与第二待检测网页关键词对应的多个链接地址的个数的比值。该比值代表了第一网页关键词的曝光情况的大小,该比值越大,说明第一网页关键词的曝光率越高;该比值越小,说明第一网页关键词的曝光率越低。通过对第一待检测网页关键词的出现比率的研究,可以帮助网页关键词投放者对自己的投放策略进行价值评估,从而进行关键投放策略的优化。
以品牌广告为例进行说明。表2是网页关键词出现比率(曝光率)的数据记录表。
表2
网页关键词 记录条数 雅培曝光率 惠氏曝光率 明一曝光率
奶粉 10000000 28% 10% 75%
该实施例由于采用了以下步骤:确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词;对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址;分别获取多个链接地址对应的多个网页的网页内容;检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数;统计第二待检测网页关键词对应的多个链接地址的个数;根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率,解决了网页关键词的出现比率检测效率低的问题,通过利用在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率,可以高效、准确地获知关键词的曝光情况。
图3根据本发明的网页关键词出现频次检测方法的第三实施例的示意图。该实施例是以品牌词的曝光量的检测为例进行说明,为图1所示实施例的一种优选实施方式。
首先对其中涉及的一些参数进行解释:
KeywordList:存储待检索的产品词列表,为外部输入的数据;
BrandList:存储产品词对应的品牌广告主的品牌名称及其要对比的竞争对手品牌名称列表,为外部输入的数据;
ResultCount:统计产品名称在搜索引擎检索结果指定的前N页的结果数,输出数据,以供计算曝光率使用;
URLList:记录搜索结果前N页的结果中URL地址和提取的页面关键词集合,URL对应的网页是统计品牌词曝光的目标页面;
CountList:记录每个产品词对应的每个品牌词的曝光次数,输出数据,以供计算曝光率使用;
N:搜索结果页的限定范围,前N页,默认一页10条记录;
S:存储搜索结果页对应的每个页面的关键词集合。
如图3所示,该方法包括步骤S301至步骤S316:
步骤S301,创建KeywordList、BrandList、N。
步骤S302,遍历KeywordList,读取一个产品词。
步骤S303,向搜索引擎发出访问请求,查询该产品词,下载查询页。
需要说明的是,执行过程中只需要下载该产品词对应的查询页的前N页,以提高执行效率。
步骤S304,判断查询页记录数是否为0。
步骤S305,如果查询页记录数不为0,则提取查询页的URL和URL对应页面的关键词S,存入URLList。
URLList用于记录搜索结果前N页的结果中URL地址和提取的页面关键词集合,URL对应的网页是统计品牌词曝光的目标页面,是中间数据表。表3是URLList存储表示例。
表3
字段名称 字段标识 存储内容 存储说明
目标网页地址 URL 字符串 目标网页地址
网页关键词集合 S 字符串 从目标网页提取的文本内容集合
步骤S306,遍历BrandList,为每一个品牌词创建ExposureCount=0。
步骤S307,遍历URLList,读取一条URL和对应的S。
步骤S308,判断品牌词是否在S中出现。
步骤S309,如果品牌词在S中出现,则ExposureCount=ExposureCount+1。
步骤S310,判断URLList是否遍历结束。
步骤S311,如果URLList遍历结束,则新增一条记录到CountList,存储产品词、品牌词、ExposureCount。
CountList用于记录每个产品词对应的每个品牌词的曝光次数,输出数据,以供计算曝光率使用。这里,当URLList遍历结束,说明对应该产品词的查询页的页面内容已经获取完成,并且统计出了一个品牌词的曝光次数,可以新增一条记录到CountList(该条记录是对应一个品牌词的),并可以继续进行其他品牌词曝光次数的获取。需要说明的是,所有产品词对应的不同品牌词的曝光次数都将存储于CountList中。
CountList用于记录所有产品词对应的所有品牌词的曝光次数,在计算过程中可以创建和更新,是本发明的核心计算输出数据表。表4是CountList数据表示例。
表4
如果URLList没有遍历结束,则继续遍历URLList,读取下一条URL和其对应的S。
步骤S312,判断BrandList是否遍历结束。
步骤S313,如果BrandList遍历结束,则判断KeywordList是否遍历结束。
如果BrandList没有遍历结束,则遍历BrandList,为下一个品牌词创建ExposureCount=0。
步骤S314,如果KeywordList遍历结束,则获取ResultCount。
当所有产品词包含的所有品牌词的曝光次数都统计完毕之后,需要统计每个产品词对应的URL的个数,并存储在ResultCount中,供计算每个品牌词的曝光率使用。
步骤S315,统计CountList,计算每个品牌词的曝光率。
每个品牌词的曝光率为ExposureCount与URLList中URL个数的比值。
步骤S316,如果查询页记录数为0,则创建新增记录至CountList,将该产品词的所有品牌词曝光数记为0。
该实施例主要采用了如下的步骤:读取产品词列表、品牌词列表以及指定的前N页;对每个产品词,向搜索引发起查询请求,得到前N页的搜索结果;提取前N页的搜索结果对应的URL,同时利用爬虫爬取每个URL对应网页的文本内容,并进行存储;遍历品牌词列表,检索每个品牌词在前N页的结果网页中出现的次数,得到每个品牌词的曝光次数,并存储到CountList中;重复以上步骤,至产品词查询完毕。通过利用搜索引擎爬虫模拟技术,自动的向搜索引擎发起查询请求,检索指定产品名称或者服务名称,从得到的自然搜索结果中提取指定的前N页的网页URL,再利用网站爬虫技术,提取网页中的文本信息,从中检索是否包含指定的品牌名称,最后对检索结果进行统计,得出品牌名称的曝光率,从而实现了对大批量的产品名称(或者服务名称)同时进行检索,并且利用网站爬虫技术抓取网页,能够针对多个品牌名称(即品牌广告主指定的多个竞争对手)进行曝光率的统计,这样无论对检索的产品名称(或服务名称)而言还是对待统计的品牌名称而言,都能够批量的进行,在大大提高统计效率的同时,准确性和实效性也得到了保证。
根据本发明的实施例,提供了一种网页关键词出现频次检测装置。需要说明的是,本发明实施例的网页关键词出现频次检测装置可以用于执行本发明实施例所提供的网页关键词出现频次检测方法,本发明实施例的网页关键词出现频次检测方法也可以通过本发明实施例所提供的网页关键词出现频次检测装置来执行。
图4是根据本发明的网页关键词出现频次检测装置的第一实施例的示意图。如图4所示,该装置包括:第一确定单元10、第一获取单元20、第二获取单元30和第一检测单元40。
第一确定单元10,用于确定第一待检测网页关键词和第二待检测网页关键词,其中,第一待检测网页关键词属于第二待检测网页关键词。
第一获取单元20,用于对第二待检测网页关键词发出访问请求,并获取请求结果,其中,请求结果包括第二待检测网页关键词对应的多个链接地址。
第二获取单元30,用于分别获取多个链接地址对应的多个网页的网页内容。
第一检测单元40,用于检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数。
可选地,该装置还可以包括:第二检测单元,用于分别检测第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征,其中,情感倾向特征包括正面情感倾向特征和负面情感倾向特征;第一统计单元,用于分别统计第一待检测网页关键词在多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。
可选地,该装置还可以包括:第二确定单元,用于确定第三待检测网页关键词,其中,第三待检测网页关键词属于第二待检测网页关键词,第三待检测网页关键词和第一待检测网页关键词为不同的网页关键词;第三检测单元,用于检测在多个网页的网页内容中出现第三待检测网页关键词的网页的个数;第三获取单元,用于将在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和在多个网页的网页内容中出现第三待检测网页关键词的网页的个数进行比较,并获取比较结果。
本实施例提供的网页关键词出现频次检测装置包括:第一确定单元10、第一获取单元20、第二获取单元30和第一检测单元40。通过该装置,解决了对网页关键词的出现频次进行检测时效率较低的问题,进而通过第二获取单元30获取多个链接地址对应的多个网页的网页内容,并利用第一检测单元40检测在多个网页的网页内容中出现第一待检测网页关键词的网页的个数,达到了提高网页关键词的出现频次的检测效率的效果。
图5是根据本发明的网页关键词出现频次检测装置的第二实施例的示意图,该实施例可以作为图4所示实施例的一种优选实施方式。如图5所示,该装置包括:第一确定单元10、第一获取单元20、第二获取单元30、第一检测单元40、第二统计单元50和计算单元60。其中,第一确定单元10、第一获取单元20、第二获取单元30和第一检测单元40与图3所示相同,这里不再赘述。
第二统计单元50,用于统计第二待检测网页关键词对应的多个链接地址的个数。
计算单元60,用于根据在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率。
本实施例提供的网页关键词出现频次检测装置包括:第一确定单元10、第一获取单元20、第二获取单元30、第一检测单元40、第二统计单元50和计算单元60。通过该装置,解决了网页关键词的出现比率检测效率低的问题,通过计算单元60利用在多个网页的网页内容中出现第一待检测网页关键词的网页的个数和第二待检测网页关键词对应的多个链接地址的个数计算第一待检测网页关键词的出现比率,可以高效、准确地获知关键词的曝光情况。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网页关键词出现频次检测方法,其特征在于,包括: 
确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词; 
对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址; 
分别获取所述多个链接地址对应的多个网页的网页内容;以及检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。 
2.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 
分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以及分别统计所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。 
3.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 
统计所述第二待检测网页关键词对应的多个链接地址的个数;以及根据在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。 
4.根据权利要求1所述的方法,其特征在于,检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数之后,所述方法还包括: 
确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键词; 
检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以及将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个 数和在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取比较结果。 
5.根据权利要求1所述的方法,其特征在于,分别获取所述多个链接地址对应的多个网页的网页内容包括:利用爬虫爬取技术分别获取所述多个链接地址对应的多个网页的网页内容。 
6.根据权利要求1所述的方法,其特征在于,对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址包括: 
确定预设参考数量,其中,所述预设参考数量为预先设定的获取所述第二待检测网页关键词对应的链接地址的数量; 
对所述第二待检测网页关键词发出访问请求,获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址;以及按照搜索热度由强到弱的顺序,从所述第二待检测网页关键词对应的多个链接地址中获取数量为所述预设参考数量的多个链接地址。 
7.一种网页关键词出现频次检测装置,其特征在于,包括: 
第一确定单元,用于确定第一待检测网页关键词和第二待检测网页关键词,其中,所述第一待检测网页关键词属于第二待检测网页关键词; 
第一获取单元,用于对所述第二待检测网页关键词发出访问请求,并获取请求结果,其中,所述请求结果包括所述第二待检测网页关键词对应的多个链接地址; 
第二获取单元,用于分别获取所述多个链接地址对应的多个网页的网页内容;以及第一检测单元,用于检测在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数。 
8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 
第二检测单元,用于分别检测所述第一待检测网页关键词在所述多个网页的网页内容中出现时网页内容的情感倾向特征,其中,所述情感倾向特征包括正面情感倾向特征和负面情感倾向特征;以及第一统计单元,用于分别统计所述第一待检测网页关键词在所述多个网页的 网页内容中出现时网页内容的情感倾向特征为正面情感倾向特征和负面情感倾向特征的次数。 
9.根据权利要求7所述的装置,其特征在于,所述装置还包括: 
第二统计单元,用于统计所述第二待检测网页关键词对应的多个链接地址的个数;以及计算单元,用于根据在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和所述第二待检测网页关键词对应的多个链接地址的个数计算所述第一待检测网页关键词的出现比率。 
10.根据权利要求7所述的装置,其特征在于,所述装置还包括: 
第二确定单元,用于确定第三待检测网页关键词,其中,所述第三待检测网页关键词属于所述第二待检测网页关键词,所述第三待检测网页关键词和所述第一待检测网页关键词为不同的网页关键词; 
第三检测单元,用于检测在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数;以及第三获取单元,用于将在所述多个网页的网页内容中出现所述第一待检测网页关键词的网页的个数和在所述多个网页的网页内容中出现所述第三待检测网页关键词的网页的个数进行比较,并获取比较结果。 
CN201410742890.3A 2014-12-05 2014-12-05 网页关键词出现频次检测方法及装置 Active CN104391977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410742890.3A CN104391977B (zh) 2014-12-05 2014-12-05 网页关键词出现频次检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410742890.3A CN104391977B (zh) 2014-12-05 2014-12-05 网页关键词出现频次检测方法及装置

Publications (2)

Publication Number Publication Date
CN104391977A true CN104391977A (zh) 2015-03-04
CN104391977B CN104391977B (zh) 2018-04-03

Family

ID=52609881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410742890.3A Active CN104391977B (zh) 2014-12-05 2014-12-05 网页关键词出现频次检测方法及装置

Country Status (1)

Country Link
CN (1) CN104391977B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275783A1 (en) * 2007-05-04 2008-11-06 Nhn Corporation Method and system of inspecting advertisement through keyword comparison
CN102222072A (zh) * 2010-04-19 2011-10-19 腾讯科技(深圳)有限公司 一种信息分类的方法和装置
CN102314435A (zh) * 2010-06-30 2012-01-11 腾讯科技(深圳)有限公司 搜索网页内容的方法及系统
CN103064852A (zh) * 2011-10-20 2013-04-24 阿里巴巴集团控股有限公司 网站统计信息处理方法及系统
CN103176995A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 一种信息导航的方法、装置与系统
CN103577587A (zh) * 2013-11-08 2014-02-12 南京绿色科技研究院有限公司 一种新闻主题分类方法
CN103778553A (zh) * 2012-10-26 2014-05-07 腾讯科技(深圳)有限公司 一种商品属性推荐方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275783A1 (en) * 2007-05-04 2008-11-06 Nhn Corporation Method and system of inspecting advertisement through keyword comparison
CN102222072A (zh) * 2010-04-19 2011-10-19 腾讯科技(深圳)有限公司 一种信息分类的方法和装置
CN102314435A (zh) * 2010-06-30 2012-01-11 腾讯科技(深圳)有限公司 搜索网页内容的方法及系统
CN103064852A (zh) * 2011-10-20 2013-04-24 阿里巴巴集团控股有限公司 网站统计信息处理方法及系统
CN103176995A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 一种信息导航的方法、装置与系统
CN103778553A (zh) * 2012-10-26 2014-05-07 腾讯科技(深圳)有限公司 一种商品属性推荐方法及系统
CN103577587A (zh) * 2013-11-08 2014-02-12 南京绿色科技研究院有限公司 一种新闻主题分类方法

Also Published As

Publication number Publication date
CN104391977B (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
US20090319449A1 (en) Providing context for web articles
CN100478962C (zh) 搜索网页的方法、装置及系统和建立索引数据库的装置
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN101788988B (zh) 信息抓取方法
CN102135967A (zh) 网页关键词提取方法、装置及系统
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN103177036A (zh) 一种标签自动提取方法和系统
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN103729178A (zh) 一种浏览器多标签页的处理方法及系统
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN103745380A (zh) 一种广告投放方法和装置
CN109815337B (zh) 确定文章类别的方法及装置
CN102902794A (zh) 网页分类系统及方法
CN102902790A (zh) 网页分类系统及方法
CN109388696B (zh) 删除谣言文章的方法、装置、存储介质及电子设备
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN102902792A (zh) 列表页识别系统及方法
CN108255891B (zh) 一种判别网页类型的方法及装置
CN108228802B (zh) 一种输入联想的推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Web page keyword occurrence frequency detection method and device

Effective date of registration: 20190531

Granted publication date: 20180403

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right