CN103593444B - 网络关键词识别处理方法和装置 - Google Patents

网络关键词识别处理方法和装置 Download PDF

Info

Publication number
CN103593444B
CN103593444B CN201310576492.4A CN201310576492A CN103593444B CN 103593444 B CN103593444 B CN 103593444B CN 201310576492 A CN201310576492 A CN 201310576492A CN 103593444 B CN103593444 B CN 103593444B
Authority
CN
China
Prior art keywords
keyword
value
access
people
current time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310576492.4A
Other languages
English (en)
Other versions
CN103593444A (zh
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310576492.4A priority Critical patent/CN103593444B/zh
Publication of CN103593444A publication Critical patent/CN103593444A/zh
Application granted granted Critical
Publication of CN103593444B publication Critical patent/CN103593444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络关键词识别处理方法和装置。该网络关键词识别处理方法包括:获取当前时间周期内网络中关键词带来的第一访问人次数;获取多个历史时间周期内关键词带来的第二访问人次数;计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值;以及基于比例值对关键词进行识别。通过本发明,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。

Description

网络关键词识别处理方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网络关键词识别处理方法和装置。
背景技术
站外搜索导航来源是网站的重要来源渠道之一,其中,关键词所带来的访问人次是可见性优化工作的重要参考依据。关键词质量好坏将直接或间接地影响网站广告投放及营销决策,热门关键词的识别方法则是判断关键词好坏的核心。
通常,人们认为持续带来高访问人次的关键词具有较高的质量,属于热门关键词,而持续带来低访问人次的关键词的质量也较低,属于非热门关键词,因此在相关技术中采用统计关键词在不同时期访问人次绝对数值的方法识别热门关键词。此外,考虑到热门这一概念具有时效性,即关键词在很短时期突然涌现出极高的访问人次,而在通常时间访问人次均处于较低水平,这种关键词可能伴随某个热门事件或是网站活动产生,单单通过比较访问人次的绝对数值使得对关键词的识别准确度比较低。
因此,在相关技术中也提出了一种方案,该方案识别这种热门关键词的方式是计算关键词带来访问人次的环比,通过环比比值大小进行热门关键词的识别。
发明人发现,造成识别热门关键词方法不同的重要原因在于对热门关键词的定义不同,基于访问人次绝对数值的计算方法定义热门关键词为带来访问人次数多的关键词,而基于访问人次环比的计算方法定义热门关键词为带来访问人次增长幅度大的关键词。如果定义前者为持续热门关键词(图1中A折线),后者为异动热门关键词(图1中B折线),同时定义非热门关键词为冷门关键词(图1中C折线)。无论持续热门关键词还是异动热门关键词,都对网站流量、转化率等指标很有帮助。鉴于此,本发明从实际角度出发提出了同时涵盖两种热门关键词的识别方法,并给出了严谨的思维过程和逻辑方法。
针对相关技术中对关键词的识别准确度比较低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网络关键词识别处理方法和装置,以解决相关技术中对关键词的识别准确度比较低问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网络关键词识别处理方法。该方法包括:获取当前时间周期内网络中关键词带来的第一访问人次数;获取多个历史时间周期内关键词带来的第二访问人次数;计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值;以及基于比例值对关键词进行识别。
进一步地,基于比例值对关键词进行识别包括:利用比例值和第一访问人次数得出当前时间周期的关键词访问热度值;以及根据关键词热度值对关键词进行识别。
进一步地,根据关键词热度值对关键词进行识别包括:获取多个时间周期内的关键词热度值;获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系;根据对应关系加权计算出当前时间周期内的关键词递延热度值;以及根据关键词访问热度值和关键词递延热度值得到当前时间周期的关键词热度值。
进一步地,当前时间周期的关键词访问热度值通过以下方式进行计算:r=(m*C+x*n)/(n+C);其中,C表示设定的访问人次常数,n表示预先设定的关键词访问人次数,x表示预先设定的关键词的访问人次得分,m为所有关键词的访问人次平均得分,r表示当前时间周期的关键词访问热度值。
进一步地,在基于比例值对关键词进行识别之后,网络关键词识别处理方法还包括:计算每个关键词于每段时间周期内的增幅;以及计算每个关键词在不同的时间周期之间的增幅是否具有递延性。
为了实现上述目的,根据本发明的另一方面,提供了一种网络关键词识别处理装置。该装置包括:第一获取单元,用于获取当前时间周期内网络中关键词带来的第一访问人次数;第二获取单元,用于获取多个历史时间周期内关键词带来的第二访问人次数;第一计算单元,用于计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值;以及识别单元,用于基于比例值对关键词进行识别。
进一步地,识别单元包括:计算模块,用于利用比例值和第一访问人次数得出当前时间周期的关键词访问热度值;以及识别模块,用于根据关键词热度值对关键词进行识别。
进一步地,识别模块包括:第一获取子模块,用于获取多个时间周期内的关键词热度值;第二获取子模块,用于获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系;第一计算子模块,用于根据对应关系加权计算出当前时间周期内的关键词递延热度值;以及第二计算子模块,用于根据关键词访问热度值和关键词递延热度值得到当前时间周期的关键词热度值。
进一步地,计算模块还用于通过以下方式进行计算:r=(m*C+x*n)/(n+C);其中,C表示设定的访问人次常数,n表示预先设定的关键词访问人次数,x表示预先设定的关键词的访问人次得分,m为所有关键词的访问人次平均得分,r表示当前时间周期的关键词访问热度值。
进一步地,在基于比例值对关键词进行识别之后,网络关键词识别处理装置还包括:第二计算单元,用于计算每个关键词于每段时间周期内的增幅;以及第三计算单元,用于计算每个关键词在不同的时间周期之间的增幅是否具有递延性。
通过本发明,采用获取当前时间周期内网络中关键词带来的第一访问人次数;获取多个历史时间周期内关键词带来的第二访问人次数;计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值;以及基于比例值对关键词进行识别,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的关键词分类的示意图;
图2是根据本发明第一实施例的网络关键词识别处理方法的流程图;
图3是根据本发明第二实施例的网络关键词识别处理方法的流程图;
图4是根据本发明第三实施例的网络关键词识别处理方法的流程图;
图5是根据本发明第四实施例的网络关键词识别处理方法的流程图;
图6是根据本发明第一实施例的网络关键词识别处理装置的示意图;
图7是根据本发明第二实施例的网络关键词识别处理装置的示意图;以及
图8是根据本发明第三实施例的网络关键词识别处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明的实施例,提供了一种网络关键词识别处理方法,该网络关键词识别处理方法用于识别关键词的热门程度。需要说明的是,该网络关键词识别处理方法可以运行在计算机处理设备上。
需要说明的是,关键词包括热门关键词和冷门关键词,当关键词的热度超过预定值时,关键词为热门关键词,否则当关键词的热度未超过预定值时,关键词为冷门关键词,其中,热门关键词又包括持续热门关键词和异动热门关键词。持续热门关键词是指在很长一段时间内,关键词的点击量和搜索量等都持续较大。异动热门关键词是指在很长一段时间内,关键词的点击量和搜索量在该段时间内的某个子时间段内突然变大。
图2是根据本发明第一实施例的网络关键词识别处理方法的流程图。
如图2所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取当前时间周期内网络中关键词带来的第一访问人次数。
在本发明实施例中,时间周期可以预先设定,例如,时间周期可以是一周,即,时间周期可以是7个工作日。网络中关键词可以是用户在使用互联网时访问到的关键词,其中包括用户点击、搜索的任何关键词和通过点击、搜索等操作关联到的任何关键词。具体地,可以通过网站上的脚本文件获取网络中的关键词,进而获取当前时间周期内该网络中关键词带来的第一访问人次数。
例如,假设时间周期长度为一周,并且当前时间周期为2013年的第十周,则可以通过网站上的脚本文件获取网络中的“ABC”这个关键词的第一访问人次数,其中,第一访问人次数是指“ABC”在2013年的第十周的访问总量。
进一步地,在本发明实施例中,第一访问人次数可以包括一个或者多个,其中,第一访问人次数与当前时间周期一一对应。例如,当当前时间周期为2013年的第九周时,第一访问人次数为2013年的第九周的访问总量;当当前时间周期为2013年的第十周时,第一访问人次数为2013年的第十周的访问总量。
步骤S102,获取多个历史时间周期内关键词带来的第二访问人次数。
需要说明的是,步骤S101和步骤S102的执行顺序只是本发明实施例的示意执行顺序,实际上,步骤S101和步骤S102的执行顺序可以颠倒。需要说明的是,获取多个历史时间周期内关键词带来的第二访问人次数即为获取多个历史时间周期内各个历史时间周期的关键词的访问量总和。步骤S102中的“关键词”与步骤S101中的“关键词”为同一关键词。在本发明实施例中,历史时间周期与当前时间周期为相邻的时间周期,并且历史时间周期与当前时间周期为相对的时间周期。需要说明的是,历史时间周期的个数可以预先设定,例如,多个历史周期可以是根据当前时间周期向前推算一定个数的周期时间。
例如,假设2013年的第十周为当前时间周期,则多个历史时间周期可以为2013年的第七周至第九周,获取多个历史时间周期内关键词带来的第二访问人次数即为获取2013年的第七周至第九周内关键词带来的访问量总和。
进一步地,在本发明实施例中,第二访问人次数可以包括一个或者多个。其中,第二访问人次数与多个历史时间周期一一对应。例如,当当前时间周期为2013年的第九周时,多个历史时间周期可以是2013年的第六周至第八周,相应地第二访问人次数即为2013年的第六周至第八周的访问量总和;当当前时间周期为2013年的第十周时,多个历史时间周期可以是2013年的第七周至第九周,相应地第二访问人次数为2013年的第七周至第九周的访问量总和。
步骤S103,计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值。
需要说明的是,在本发明实施例中,也可以计算第一访问人次数占第二访问人次数的比例值。在本发明实施例中,因为第一访问人次数和第二访问人次数均可以包括一个或者多个,所以相应地第一访问人次数占第一访问人次数与第二访问人次数之和的比例值也可以包括一个或者多个。
步骤S104,基于比例值对关键词进行识别。
具体地,在本发明实施例中,当比例值越大时,关键词的热度就越大,否则当比例值越小时,关键词的热度就越小,当关键词的热度超过预定值时,关键词即为热门关键词,否则,当关键词的热度未超过预定值时,关键词即为冷门关键词。需要说明的是,在本发明实施例中,优选地,还可以基于比例值和绝对值对关键词进行识别,其中,绝对值即为一个或者多个时间周期内关键词的访问量总和,其可以包括第一访问人次数和第二访问人次数。
进一步地,在本发明实施例中,由于第一访问人次数、第二访问人次数和第一访问人次数占第一访问人次数与第二访问人次数之和的比例值均可以包括一个或者多个,因此可以基于多个比例值和关键值对关键词进行识别。具体地,当多个比例值差异较小并且多个比例值均较大时,关键词的热度变化不明显并且热度较高,该关键词为持续热门关键词,而当多个比例值差异较小并且多个比例值均较小时,关键词的热度变化不明显并且热度较低,该关键词为冷门关键词,否则当多个比例值差异较大时,关键词的热度变化明显,该关键词为异动热门关键词。
通过本发明,采用获取当前时间周期内网络中关键词带来的第一访问人次数;获取多个历史时间周期内关键词带来的第二访问人次数;计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值;以及基于比例值对关键词进行识别,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
图3是根据本发明第二实施例的网络关键词识别处理方法的流程图。
如图3所示,该网络关键词识别处理方法包括如下的步骤S201至步骤S205,该实施例可以作为图2所示实施例的优选实施方式。
步骤S201至步骤S203,分别同图2所示实施例的步骤S101和步骤S103,在此不再赘述。
步骤S204,利用比例值和第一访问人次数得出当前时间周期的关键词访问热度值。
需要说明的是,在本发明实施例中,可以用得分表示比例值,即得分等于比例值。在本发明实施例中,关键词访问热度值用于量化关键词的访问热度,当前时间周期的关键词访问热度值用于量化当前时间周期的关键词的访问热度,其中,如果关键词访问热度值越大,则关键词的访问热度越高,相反,如果关键词访问热度值越小,则关键词的访问热度越低。在本发明实施例中,当前时间周期的关键词访问热度值可以通过以下公式进行计算:
r=(m*C+x*n)/(n+C)
其中,r表示当前时间周期的关键词访问热度值,m为所有关键词的访问人次平均得分,该访问人次平均得分是指所有关键词的第一访问人次数占第一访问人次数与第二访问人次数之和的比例值的平均值,C表示设定的访问人次常数,x表示预先设定的关键词的访问人次得分,该关键词的访问人次得分是指第一访问人次数占第一访问人次数与第二访问人次数之和的比例值,当比例值较大时,关键词的访问人次得分较高,否则,当比例值较小时,关键词的访问人次得分较低。n表示预先设定的关键词访问人次数,该关键词访问人次数即为第一访问人次数。
步骤S205,根据关键词热度值对关键词进行识别。
具体地,在本发明实施例中,当关键词热度值越大时,关键词的热度就越大,否则当关键词热度值越小时,关键词的热度就越小,当关键词的热度值超过预定值时,关键词即为热门关键词,否则,当关键词的热度值未超过预定值时,关键词即为冷门关键词。进一步地,在本发明实施例中,由于第一访问人次数、第二访问人次数和第一访问人次数占第二访问人次数的比例值均可以包括一个或者多个,因此可以基于多个比例值和绝对值对关键词进行识别,进而可以基于多个关键词热度值对关键词进行识别。具体地,当多个关键词热度值差异较小并且多个关键词热度值均较大时,关键词的热度变化不明显并且该关键词为持续热门关键词,当多个关键词热度值差异较小并且多个关键词热度值均较小时,关键词的热度变化不明显并且该关键词为冷门关键词,否则当多个关键词热度值差异越大时,关键词的热度变化明显,该关键词为异动热门关键词。
通过本发明,采用步骤S204至步骤S205实现了基于比例值和第一访问人次数对关键词进行识别的目的,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
图4是根据本发明第三实施例的网络关键词识别处理方法的流程图。
如图4所示,该网络关键词识别处理方法包括如下的步骤S301至步骤S309,该实施例可以作为图3所示实施例的优选实施方式。
步骤S301至步骤S304,分别同图3所示实施例的步骤S201和步骤S204,在此不再赘述。
步骤S305,获取多个时间周期内的关键词热度值。
例如,可以根据时间周期的关键词访问热度值的计算公式分别获取2013年第一周至第十周的关键词访问热度值。在本发明实施例中,可以将获取的多个时间周期内的关键词热度值存储在关键词热度值列表中。
步骤S306,获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系。
例如,当客户端要分析2013年前十周的关键词热度时,并且如果假设当前时间周期为2013年第十周,则获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系即为获取2013年第一周至第九周的键词热度值与2013年第十周的关键词热度值的对应关系;如果假设当前时间周期为2013年第九周,则获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系即为获取2013年第一周至第八周的键词热度值与2013年第九周的关键词热度值的对应关系。
步骤S307,根据对应关系加权计算出当前时间周期内的关键词递延热度值。
在本发明实施例中,当前时间周期内的关键词递延热度值由当前时间周期的前一时间周期内的关键词热度值和权重系数确定,例如,当前时间周期为2013年第十周,当前时间周期的前一时间周期为2013年第九周,具体地,可以根据牛顿冷却定律确定当前时间周期内的关键词递延热度值,即,关键词递延热度值=当前时间周期的前一时间周期内的关键词热度值*权重系数,其中,权重系数=exp(-冷却系数*间隔时间)。
步骤S308,根据关键词访问热度值和关键词递延热度值得到当前时间周期的关键词热度值。
在本发明实施例中,具体地,当前时间周期的关键词热度值=关键词访问热度值+关键词递延热度值。
通过本发明,采用步骤S306至步骤S308实现了根据关键词热度值对关键词进行识别的目的,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
图5是根据本发明第四实施例的网络关键词识别处理方法的流程图。
如图5所示,该网络关键词识别处理方法包括如下的步骤S401至步骤S406,该实施例可以作为图2所示实施例的优选实施方式。
步骤S401至步骤S404,分别同图2所示实施例的步骤S101和步骤S104,在此不再赘述。
步骤S405,计算每个关键词于每段时间周期内的增幅。
在本发明实施例中,具体地,关键词于每段时间周期内的增幅=(关键词在当前时间周期内的第一访问人次数-关键词在当前时间周期的前一时间周期内的第一访问人次数)/关键词在当前时间周期的前一时间周期内的第一访问人次数。
例如,假设2013年第一周为初始时间周期,并且假设在2013年第一周关键词“ABC”的第一访问人次数为1000次,2013年第二周关键词“ABC”的第一访问人次数为1500次,则2013年第二周关键词“ABC”的第一访问人次数较2013年第一周关键词“ABC”的第一访问人次数的增幅为(1500-1000)/1000=0.5。
步骤S406,计算每个关键词在不同的时间周期之间的增幅是否具有递延性。
在本发明实施例中,可以通过计算每个关键词在不同的时间周期之间的增幅的差值来计算每个关键词在不同的时间周期之间的增幅的递延性,其中,当上述差值未超过预设值时,则每个关键词在不同的时间周期之间的增幅具有递延性,当上述差值超过预设值时,则每个关键词在不同的时间周期之间的增幅不具有递延性。
根据本发明的实施例,提供了一种网络关键词识别处理装置,该网络关键词识别处理装置用于识别关键词的热门程度。需要说明的是,本发明实施例的网络关键词识别处理装置也可以用于执行本发明实施例的网络关键词识别处理方法,本发明实施例所提供的网络关键词识别处理方法可以通过本发明实施例的网络关键词识别处理装置来执行。
图6是根据本发明第一实施例的网络关键词识别处理装置的示意图。
如图6所示,该装置包括:第一获取单元10、第二获取单元20、第一计算单元30和识别单元40。
第一获取单元10用于获取当前时间周期内网络中关键词带来的第一访问人次数。在本发明实施例中,时间周期可以预先设定,例如,时间周期可以是一周,即,时间周期可以是7个工作日。网络中关键词可以是用户在使用互联网时访问到的关键词,其中包括用户点击、搜索的任何关键词和通过点击、搜索等操作关联到的任何关键词。具体地,可以通过网站上的脚本文件获取网络中的关键词,进而获取当前时间周期内该网络中关键词带来的第一访问人次数。
例如,假设时间周期长度为一周,并且当前时间周期为2013年的第十周,则第一获取单元10可以通过网站上的脚本文件获取网络中的“ABC”这个关键词的第一访问人次数,其中,第一访问人次数是指“ABC”在2013年的第十周的访问总量。
进一步地,在本发明实施例中,第一访问人次数可以包括一个或者多个,其中,第一访问人次数与当前时间周期一一对应。例如,当当前时间周期为2013年的第九周时,第一访问人次数为2013年的第九周的访问总量;当当前时间周期为2013年的第十周时,第一访问人次数为2013年的第十周的访问总量。
第二获取单元20用于获取多个历史时间周期内关键词带来的第二访问人次数。需要说明的是,第二获取单元20获取多个历史时间周期内关键词带来的第二访问人次数即为获取多个历史时间周期内各个历史时间周期的关键词的访问量总和。第一获取单元10获取的的“关键词”与第二获取单元20获取的“关键词”为同一关键词。在本发明实施例中,历史时间周期与当前时间周期为相邻的时间周期,并且历史时间周期与当前时间周期为相对的时间周期。需要说明的是,历史时间周期的个数可以预先设定,例如,多个历史周期可以是根据当前时间周期向前推算一定个数的周期时间。
例如,假设2013年的第十周为当前时间周期,则多个历史时间周期可以为2013年的第七周至第九周,获取多个历史时间周期内关键词带来的第二访问人次数即为获取2013年的第七周至第九周内关键词带来的访问量总和。
进一步地,在本发明实施例中,第二访问人次数可以包括一个或者多个。其中,第二访问人次数与多个历史时间周期一一对应。例如,当当前时间周期为2013年的第九周时,多个历史时间周期可以是2013年的第六周至第八周,相应地第二访问人次数即为2013年的第六周至第八周的访问量总和;当当前时间周期为2013年的第十周时,多个历史时间周期可以是2013年的第七周至第九周,相应地第二访问人次数为2013年的第七周至第九周的访问量总和。
第一计算单元30用于计算第一访问人次数占第一访问人次数与第二访问人次数之和的比例值。需要说明的是,在本发明实施例中,第一计算单元30也可以计算第一访问人次数占第二访问人次数的比例值。在本发明实施例中,因为第一访问人次数和第二访问人次数均可以包括一个或者多个,所以相应地第一访问人次数占第一访问人次数与第二访问人次数之和的比例值也可以包括一个或者多个。
识别单元40用于基于比例值对关键词进行识别。具体地,在本发明实施例中,当比例值越大时,关键词的热度就越大,否则当比例值越小时,关键词的热度就越小,当关键词的热度超过预定值时,关键词即为热门关键词,否则,当关键词的热度未超过预定值时,关键词即为冷门关键词。需要说明的是,在本发明实施例中,优选地,还可以基于比例值和绝对值对关键词进行识别,其中,绝对值即为一个或者多个时间周期内关键词的访问量总和,其可以包括第一访问人次数和第二访问人次数。
进一步地,在本发明实施例中,由于第一访问人次数、第二访问人次数和第一访问人次数占第一访问人次数与第二访问人次数之和的比例值均可以包括一个或者多个,因此可以基于多个比例值和关键值对关键词进行识别。具体地,当多个比例值差异较小并且多个比例值均较大时,关键词的热度变化不明显并且热度较高,该关键词为持续热门关键词,而当多个比例值差异较小并且多个比例值均较小时,关键词的热度变化不明显并且热度较低,该关键词为冷门关键词,否则当多个比例值差异较大时,关键词的热度变化明显,该关键词为异动热门关键词。
通过本发明,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
图7是根据本发明第二实施例的网络关键词识别处理装置的示意图。
如图7所示,该实施例可以作为图6所示实施例的优选实施方式,该网络关键词识别处理装置包括:第一获取单元10、第二获取单元20、第一计算单元30和识别单元40,其中,识别单元40包括计算模块401和识别模块402。
第一获取单元10、第二获取单元20和第一计算单元30的作用与图6所示实施例中的相同,在此不再赘述。
计算模块401用于利用比例值和第一访问人次数得出当前时间周期的关键词访问热度值。需要说明的是,在本发明实施例中,可以用得分表示比例值,即得分等于比例值。在本发明实施例中,关键词访问热度值用于量化关键词的访问热度,当前时间周期的关键词访问热度值用于量化当前时间周期的关键词的访问热度,其中,如果关键词访问热度值越大,则关键词的访问热度越高,相反,如果关键词访问热度值越小,则关键词的访问热度越低。在本发明实施例中,当前时间周期的关键词访问热度值可以通过以下公式进行计算:r=(m*C+x*n)/(n+C),其中,r表示当前时间周期的关键词访问热度值,m为所有关键词的访问人次平均得分,该访问人次平均得分是指所有关键词的第一访问人次数占第一访问人次数与第二访问人次数之和的比例值的平均值,C表示设定的访问人次常数,x表示预先设定的关键词的访问人次得分,该关键词的访问人次得分是指第一访问人次数占第一访问人次数与第二访问人次数之和的比例值,当比例值较大时,关键词的访问人次得分较高,否则,当比例值较小时,关键词的访问人次得分较低。n表示预先设定的关键词访问人次数,该关键词访问人次数即为第一访问人次数。
识别模块402用于根据关键词热度值对关键词进行识别。具体地,在本发明实施例中,当关键词热度值越大时,关键词的热度就越大,否则当关键词热度值越小时,关键词的热度就越小,当关键词的热度值超过预定值时,关键词即为热门关键词,否则,当关键词的热度值未超过预定值时,关键词即为冷门关键词。进一步地,在本发明实施例中,由于第一访问人次数、第二访问人次数和第一访问人次数占第二访问人次数的比例值均可以包括一个或者多个,因此可以基于多个比例值和绝对值对关键词进行识别,进而可以基于多个关键词热度值对关键词进行识别。具体地,当多个关键词热度值差异较小并且多个关键词热度值均较大时,关键词的热度变化不明显并且该关键词为持续热门关键词,当多个关键词热度值差异较小并且多个关键词热度值均较小时,关键词的热度变化不明显并且该关键词为冷门关键词,否则当多个关键词热度值差异越大时,关键词的热度变化明显,该关键词为异动热门关键词。
在本发明实施例中,识别模块可以包括第一获取子模块、第二获取子模块、第一计算子模块和第二计算子模块。
第一获取子模块用于获取多个时间周期内的关键词热度值。
例如,可以根据时间周期的关键词访问热度值的计算公式分别获取2013年第一周至第十周的关键词访问热度值。在本发明实施例中,可以将获取的多个时间周期内的关键词热度值存储在关键词热度值列表中。
第二获取子模块用于获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系。
例如,当客户端要分析2013年前十周的关键词热度时,并且如果假设当前时间周期为2013年第十周,则获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系即为获取2013年第一周至第九周的键词热度值与2013年第十周的关键词热度值的对应关系;如果假设当前时间周期为2013年第九周,则获取多个时间周期内的关键词热度值与当前时间周期内关键词热度值的对应关系即为获取2013年第一周至第八周的键词热度值与2013年第九周的关键词热度值的对应关系。
第一计算子模块用于根据对应关系加权计算出当前时间周期内的关键词递延热度值。在本发明实施例中,当前时间周期内的关键词递延热度值由当前时间周期的前一时间周期内的关键词热度值和权重系数确定,例如,当前时间周期为2013年第十周,当前时间周期的前一时间周期为2013年第九周,具体地,可以根据牛顿冷却定律确定当前时间周期内的关键词递延热度值,即,关键词递延热度值=当前时间周期的前一时间周期内的关键词热度值*权重系数,其中,权重系数=exp(-冷却系数*间隔时间)。
第二计算子模块用于根据关键词访问热度值和关键词递延热度值得到当前时间周期的关键词热度值。在本发明实施例中,具体地,当前时间周期的关键词热度值=关键词访问热度值+关键词递延热度值。
通过本发明,实现了根据关键词热度值对关键词进行识别的目的,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
通过本发明,实现了基于比例值和第一访问人次数对关键词进行识别的目的,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
图8是根据本发明第三实施例的网络关键词识别处理装置的示意图。
如图8所示,该实施例可以作为图6所示实施例的优选实施方式,该网络关键词识别处理装置除了包括:第一获取单元10、第二获取单元20、第一计算单元30和识别单元40之外,还包括包括第二计算单元50和第三计算单元60。
第一获取单元10、第二获取单元20、第一计算单元30和识别单元40的作用与图6所示实施例中的相同,在此不再赘述。
第二计算单元50用于计算每个关键词于每段时间周期内的增幅。在本发明实施例中,具体地,关键词于每段时间周期内的增幅=(关键词在当前时间周期内的第一访问人次数-关键词在当前时间周期的前一时间周期内的第一访问人次数)/关键词在当前时间周期的前一时间周期内的第一访问人次数。
例如,假设2013年第一周为初始时间周期,并且假设在2013年第一周关键词“ABC”的第一访问人次数为1000次,2013年第二周关键词“ABC”的第一访问人次数为1500次,则2013年第二周关键词“ABC”的第一访问人次数较2013年第一周关键词“ABC”的第一访问人次数的增幅为(1500-1000)/1000=0.5。
第三计算单元60用于计算每个关键词在不同的时间周期之间的增幅是否具有递延性。在本发明实施例中,第三计算单元60可以通过计算每个关键词在不同的时间周期之间的增幅的差值来计算每个关键词在不同的时间周期之间的增幅的递延性,其中,当上述差值未超过预设值时,则每个关键词在不同的时间周期之间的增幅具有递延性,当上述差值超过预设值时,则每个关键词在不同的时间周期之间的增幅不具有递延性。
通过本发明,解决了相关技术中对关键词的识别准确度比较低的问题,进而达到了对关键词的识别准确度比较高效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种网络关键词识别处理方法,其特征在于,包括:
获取当前时间周期内网络中关键词带来的第一访问人次数;
获取多个历史时间周期内所述关键词带来的第二访问人次数;
计算所述第一访问人次数占所述第一访问人次数与所述第二访问人次数之和的比例值;以及
基于所述比例值对所述关键词进行识别,
其中,在基于所述比例值对所述关键词进行识别之后,所述网络关键词识别处理方法还包括:
计算每个所述关键词于每段所述时间周期内的增幅;以及
计算每个所述关键词在不同的所述时间周期之间的增幅是否具有递延性。
2.根据权利要求1所述的网络关键词识别处理方法,其特征在于,基于所述比例值对所述关键词进行识别包括:
利用所述比例值和所述第一访问人次数得出所述当前时间周期的关键词访问热度值;以及
根据所述关键词热度值对所述关键词进行识别。
3.根据权利要求2所述的网络关键词识别处理方法,其特征在于,根据所述关键词热度值对所述关键词进行识别包括:
获取多个时间周期内的关键词热度值;
获取所述多个时间周期内的关键词热度值与所述当前时间周期内关键词热度值的对应关系;
根据所述对应关系加权计算出所述当前时间周期内的关键词递延热度值;以及
根据所述关键词访问热度值和所述关键词递延热度值得到所述当前时间周期的关键词热度值。
4.根据权利要求2所述的网络关键词识别处理方法,其特征在于,所述当前时间周期的关键词访问热度值通过以下方式进行计算:
r=(m*C+x*n)/(n+C);
其中,C表示设定的访问人次常数,n表示预先设定的关键词访问人次数,x表示预先设定的关键词的访问人次得分,m为所有关键词的访问人次平均得分,r表示所述当前时间周期的关键词访问热度值。
5.一种网络关键词识别处理装置,其特征在于,包括:
第一获取单元,用于获取当前时间周期内网络中关键词带来的第一访问人次数;
第二获取单元,用于获取多个历史时间周期内所述关键词带来的第二访问人次数;
第一计算单元,用于计算所述第一访问人次数占所述第一访问人次数与所述第二访问人次数之和的比例值;以及
识别单元,用于基于所述比例值对所述关键词进行识别,
在基于所述比例值对所述关键词进行识别之后,所述网络关键词识别处理装置还包括:
第二计算单元,用于计算每个所述关键词于每段所述时间周期内的增幅;以及
第三计算单元,用于计算每个所述关键词在不同的所述时间周期之间的增幅是否具有递延性。
6.根据权利要求5所述的网络关键词识别处理装置,其特征在于,所述识别单元包括:
计算模块,用于利用所述比例值和所述第一访问人次数得出所述当前时间周期的关键词访问热度值;以及
识别模块,用于根据所述关键词热度值对所述关键词进行识别。
7.根据权利要求6所述的网络关键词识别处理装置,其特征在于,所述识别模块包括:
第一获取子模块,用于获取多个时间周期内的关键词热度值;
第二获取子模块,用于获取所述多个时间周期内的关键词热度值与所述当前时间周期内关键词热度值的对应关系;
第一计算子模块,用于根据所述对应关系加权计算出所述当前时间周期内的关键词递延热度值;以及
第二计算子模块,用于根据所述关键词访问热度值和所述关键词递延热度值得到所述当前时间周期的关键词热度值。
8.根据权利要求6所述的网络关键词识别处理装置,其特征在于,所述计算模块还用于通过以下方式进行计算:
r=(m*C+x*n)/(n+C);
其中,C表示设定的访问人次常数,n表示预先设定的关键词访问人次数,x表示预先设定的关键词的访问人次得分,m为所有关键词的访问人次平均得分,r表示所述当前时间周期的关键词访问热度值。
CN201310576492.4A 2013-11-15 2013-11-15 网络关键词识别处理方法和装置 Active CN103593444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310576492.4A CN103593444B (zh) 2013-11-15 2013-11-15 网络关键词识别处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310576492.4A CN103593444B (zh) 2013-11-15 2013-11-15 网络关键词识别处理方法和装置

Publications (2)

Publication Number Publication Date
CN103593444A CN103593444A (zh) 2014-02-19
CN103593444B true CN103593444B (zh) 2017-06-06

Family

ID=50083585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310576492.4A Active CN103593444B (zh) 2013-11-15 2013-11-15 网络关键词识别处理方法和装置

Country Status (1)

Country Link
CN (1) CN103593444B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933912B (zh) * 2015-12-31 2020-07-03 北京国双科技有限公司 关键词的获取方法和装置
CN108512711B (zh) * 2017-02-24 2021-07-13 阿里巴巴(中国)有限公司 得到瞬时接口访问统计量的方法、装置和设备
CN108876424A (zh) * 2017-05-12 2018-11-23 广东原昇信息科技有限公司 一种sem关键词投放决策方法
CN109711652A (zh) * 2017-10-26 2019-05-03 厦门一品威客网络科技股份有限公司 一种创客团队潜能评分方法
CN107992478A (zh) * 2017-11-30 2018-05-04 百度在线网络技术(北京)有限公司 确定热点事件的方法和装置
CN112597280A (zh) * 2020-12-28 2021-04-02 上海朝阳永续信息技术股份有限公司 一种自动发现热点关键词和热点新闻的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101788995A (zh) * 2009-12-31 2010-07-28 成都市华为赛门铁克科技有限公司 一种热点数据识别方法及装置
CN102413197A (zh) * 2011-08-01 2012-04-11 中国科学院计算机网络信息中心 访问统计处理方法及装置
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103226550A (zh) * 2012-01-31 2013-07-31 腾讯科技(深圳)有限公司 一种基于查询输入的热点事件确定方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080255922A1 (en) * 2007-04-12 2008-10-16 Jon Feldman Preferred cost bidding for online advertising

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101788995A (zh) * 2009-12-31 2010-07-28 成都市华为赛门铁克科技有限公司 一种热点数据识别方法及装置
CN102413197A (zh) * 2011-08-01 2012-04-11 中国科学院计算机网络信息中心 访问统计处理方法及装置
CN103226550A (zh) * 2012-01-31 2013-07-31 腾讯科技(深圳)有限公司 一种基于查询输入的热点事件确定方法和系统
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法

Also Published As

Publication number Publication date
CN103593444A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
CN103593444B (zh) 网络关键词识别处理方法和装置
US11710054B2 (en) Information recommendation method, apparatus, and server based on user data in an online forum
TWI603273B (zh) Method and device for placing information search
RU2729227C2 (ru) Способ и устройство извлечения тематических предложений веб-страниц
CN100565526C (zh) 一种针对网页作弊的反作弊方法及系统
JP5693746B2 (ja) 製品情報のランク付け
CN103699669B (zh) 一种浏览器中进行消息推送的方法和一种浏览器终端
CN107590691B (zh) 一种信息发布方法及装置、存储介质、终端
TWI615723B (zh) 網路搜尋方法及設備
CN109408696A (zh) 一种用于搜索寄宿程序的方法与设备
CN106445954B (zh) 一种业务对象的展示方法和装置
CN101782909A (zh) 基于用户操作意图的搜索引擎
CN106446179B (zh) 热点话题的生成方法及装置
CN103164424A (zh) 一种时效性词的获取方法和装置
EP3358473A1 (en) Resource combination processing method, apparatus, equipment and computer storage medium
CN111538907A (zh) 一种对象推荐方法、系统及装置
CN108984735B (zh) 标签词库更新方法、装置及电子设备
CN103886056B (zh) 对搜索结果的处理方法、系统以及浏览器
CN106936778A (zh) 网站流量异常的检测方法和装置
CN104090908A (zh) 统计页面组的平均停留时间、网站内容推广的方法和装置
CN111428143A (zh) 一种商品推荐方法及系统、服务器及存储介质
CN109819002A (zh) 数据推送方法和装置、存储介质及电子装置
CN106354622A (zh) 测试网页的展示方法和装置
CN107562847A (zh) 信息处理方法及相关产品
CN109075987A (zh) 优化数字组件分析系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Network keyword recognition processing method and device

Effective date of registration: 20190531

Granted publication date: 20170606

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder