CN104462310B - 网页搜索关键词的相关性检测方法及装置 - Google Patents

网页搜索关键词的相关性检测方法及装置 Download PDF

Info

Publication number
CN104462310B
CN104462310B CN201410714574.5A CN201410714574A CN104462310B CN 104462310 B CN104462310 B CN 104462310B CN 201410714574 A CN201410714574 A CN 201410714574A CN 104462310 B CN104462310 B CN 104462310B
Authority
CN
China
Prior art keywords
url
webpage search
search keyword
webpage
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410714574.5A
Other languages
English (en)
Other versions
CN104462310A (zh
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410714574.5A priority Critical patent/CN104462310B/zh
Publication of CN104462310A publication Critical patent/CN104462310A/zh
Application granted granted Critical
Publication of CN104462310B publication Critical patent/CN104462310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页搜索关键词的相关性检测方法及装置。该网页搜索关键词的相关性检测方法包括:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词;获取统一资源定位符集合;获取第一向量,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。通过本发明,利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。

Description

网页搜索关键词的相关性检测方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种网页搜索关键词的相关性检测方法和装置。
背景技术
用户通常会抱有一定的目的和意图浏览网站。对于一个网站而言,了解用户访问的真实意图非常重要。通常,网站会根据用户浏览网站的行为轨迹构造模型,以训练分类器的方法对访问网站的用户进行分类,或是通过分析网站站内搜索词的热度来了解用户的需求。
由于进行站内搜索是用户主动寻找信息的行为,因此,在一定程度上可以描述用户的需求。用户需求可以通过对用户在网站中的站内搜索词进行聚类的方式来加以识别。传统的站内搜索词聚类方法依赖于搜索词本身,通过词语间字面上的重叠进行计算,实现方法如下:首先,对搜索关键词进行字面上的拆解(包括逐子或分词),拆解以后的搜索关键词可以表示为以词(字)为单元的序列串;然后,逐一计算每一对搜索关键词的相似度,即比较两个搜索词的词串的吻合程度,并获取二者的相似度;最后,使用聚类算法进行关键词聚类。
用户需求与站内搜索词之间应存在多对多的关系,即一种用户需求可以通过多个站内搜索词来表示,一个站内搜索词也可以表示多种不同的用户需求。现有的搜索词聚类方法仅仅通过搜索关键词字面上的吻合程度建立联系并不符合实际情况;同时,生硬地构造了一种搜索关键词间的相关关系,聚类结果可信度差,比如,“三星”和“苹果”不包含任何字面上的匹配,但是相关性应该很高,而“本田”和“本源”是完全无关的两个词,但是字面上仍然存在着相关关系;另外,现有方法需要计算每两个搜索关键词之间的相似度,因此时间复杂度为o(n2),不适用于大规模数据挖掘。
针对相关技术中网页搜索关键词之间的相关性检测不准确的问题,目前尚未提出有效的解决方案。
发明内容
针对现有的网页搜索关键词之间的相关性检测不准确的问题而提出本发明,为此,本发明的主要目的在于提供一种网页搜索关键词的相关性检测方法及装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页搜索关键词的相关性检测方法。该方法包括:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
进一步地,获取统一资源定位符集合包括:获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合,根据以下方法分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0,获取统一资源定位符集合还包括:获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合,根据以下方法分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
进一步地,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测包括:根据第一向量和第二向量获取第三向量,其中,通过以下方法确定第三向量中包含的多个元素:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为1,则确定第三向量中对应的元素为0,如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0,则确定第三向量中对应的元素为1;获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
进一步地,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,确定第三向量中包含的多个元素还包括:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为0,则确定第三向量中对应的元素为0。
进一步地,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,多个目标向量包括第一向量和第二向量,统一资源定位符集合包括多个网页搜索关键词对应的网页的统一资源定位符,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测之后,该方法还包括:确定多个网页搜索关键词分别属于不同的关键词类,其中,不同的关键词类中每个关键词类只包含一个网页搜索关键词;根据多个目标向量获取多个目标距离,其中,多个目标距离用于表示多个网页搜索关键词类中任意两个网页搜索关键词类之间的差异;获取多个目标距离中的最小值;合并最小值对应的两个网页搜索关键词类成第一目标关键词类;统计多个网页搜索关键词对应的关键词类的个数;判断关键词类的个数是否大于预设数量值;如果关键词类的个数大于预设数量值,则确定第一目标关键词类对应的向量;利用第一目标关键词类对应的向量,分别获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离;获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离中的最小值;将最小值对应的两个网页搜索关键词类合并成第二目标关键词类;如果关键词类的个数小于或者等于预设数量值,则不再进行关键词类的合并。
进一步地,在获取统一资源定位符集合之后,该方法还包括:分别统计多个统一资源定位符的出现次数;分别判断多个统一资源定位符的出现次数是否小于预设出现次数阈值;获取多个统一资源定位符中出现次数小于预设出现次数阈值的统一资源定位符;将小于预设出现次数阈值的统一资源定位符从统一资源定位符集合中清除。
进一步地,经过合并处理后的关键词类包括多个关键词类,多个关键词类包括第一关键词类和第二关键词类,分别将小于预设相关性阈值的目标相关性数值对应的目标关键词簇和网页搜索关键词确定为一个关键词类之后,该方法还包括:分别对第一关键词类和第二关键词类进行标识;统计第一数量,其中,第一数量为第一关键词类包含的网页搜索关键词的个数;统计第二数量,其中,第二数量为第二关键词类包含的网页搜索关键词的个数;比较第一数量和第二数量,得到比较结果;按照比较结果对第一关键词类和第二关键词类进行排序。
为了实现上述目的,根据本发明的另一方面,提供了一种网页搜索关键词的相关性检测装置,该装置包括:确定单元,用于确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;第一获取单元,用于获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;第二获取单元,用于获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;第三获取单元,用于获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;检测单元,用于根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
进一步地,第一获取单元包括:第一获取模块,用于获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合,根据以下模块分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:第一判断子模块,用于分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;第一确定子模块,用于在多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第二确定子模块,用于在多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0,第一获取单元还包括:第二获取模块,用于获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合,根据以下模块分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:第二判断子模块,用于分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;第三确定子模块,用于在多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第四确定子模块,用于在多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
进一步地,检测单元包括:第三获取模块,用于根据第一向量和第二向量获取第三向量,其中,通过以下子模块确定第三向量中包含的多个元素:第一确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素均为1时,确定第三向量中对应的元素为0,第二确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0时,确定第三向量中对应的元素为1;第四获取模块,用于获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;第五获取模块,用于通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
通过本发明,采用包括以下步骤的方法:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图;以及
图2是根据本发明的网页搜索关键词的相关性检测装置的实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是根据本发明的网页搜索关键词的相关性检测方法的第一实施例的示意图。如图1所示,该方法包括步骤S102至步骤S110。
步骤S102,确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
用于执行网页搜索的网页搜索关键词可以通过在网站中添加javascript代码的方式获得。通过该方式,可以记录用户在一次会话中进行的站内搜索行为,以及用户在网站内进行浏览的网页的序列信息。换言之,可获取用户的网页搜索关键词,以及用户通过网页搜索关键词访问的网页的统一资源定位符等信息。这里,我们研究两个不同的网页搜索关键词之间的相关性。
步骤S104,获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符。
统一资源定位符集合中包含第一网页搜索关键词对应的网页的所有统一资源定位符,以及第二网页搜索关键词对应的网页的所有统一资源定位符,并且,去除了第一网页搜索关键词对应的网页的所有统一资源定位符和第二网页搜索关键词对应的网页的所有统一资源定位符中重复的部分。
可以通过如下步骤获取统一资源定位符集合:获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合;获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合。需要说明的是,统一资源定位符集合中包含的统一资源定位符无重复现象。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5。则统一资源定位符集合中包含的统一资源定位符为:URL1、URL2、URL3、URL4、URL5。
步骤S106,获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。
步骤S108,获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。
优选地,根据以下方法分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符,则分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
同样地,根据以下方法分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;如果多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;如果多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符,则分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5。则第一向量为[1,1,1,0,0],第二向量为[0,0,1,1,1]。可选地,可将二者记为矩阵形式其中,矩阵的第一行对应关键词A,第二行对应关键词B,第一列对应URL1、第二列对应URL2、第三列对应URL3、第四列对应URL4、第五列对应URL5。
可选地,当存在多个网页搜索关键词时(多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词),确定第三向量中包含的多个元素还包括:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为0,则确定第三向量中对应的元素为0。
假设全部不重复的网页搜索关键词共有M个,对应不重复的统一资源定位符共有N个,可以获得一个M*N维的矩阵A{M,N},其中每一行对应一个网页搜索关键词,每一列对应一个统一资源定位符,A[i,j]表示该网页搜索关键词i的站内搜索结果对象中是否包含有该统一资源定位符j。因此矩阵A的每一行元素之和均为n(假设每个网页搜索关键词共有n个统一资源定位符返回结果)。对每个网页搜索关键词可以获得一个N维0-1向量,值为1表示该网页搜索关键词对应的该URL出现,值为0表示该网页搜索关键词对应的该URL不出现。
例如,假设第一网页搜索关键词A对应的网页的所有统一资源定位符为:URL1、URL2、URL3,第二网页搜索关键词B对应的网页的所有统一资源定位符为:URL3、URL4、URL5,第三网页搜索关键词C对应的网页的所有统一资源定位符为:URL1、URL5、URL6、URL7。则第一向量为[1,1,1,0,0,0,0],第二向量为[0,0,1,1,1,0,0],第三向量为[1,0,0,0,1,1,1]。可选地,可将三者记为矩阵形式其中,矩阵的第一行对应关键词A,第二行对应关键词B,第三行对应关键词C,第一列对应URL1、第二列对应URL2、第三列对应URL3、第四列对应URL4、第五列对应URL5、第六列对应URL6、第七列对应URL7。
步骤S110,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
优选地,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测可以通过如下步骤进行:根据第一向量和第二向量获取第三向量,其中,通过以下方法确定第三向量中包含的多个元素:如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素均为1,则确定第三向量中对应的元素为0,如果在对应相同的统一资源定位符时,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0,则确定第三向量中对应的元素为1;获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
需要说明的是,可以将第三向量中包含的多个元素的平均值视为两个搜索关键词对应的向量之间的距离,该距离越大,说明二者相关性越小,该距离越小,说明二者相关性越大。例如,若两个搜索关键词对应的10个URL均相同(即第三向量中各元素均为0),则认为这两个搜索关键词的相关性最高,反之,若两个搜索关键词对应的10个URL两两均不相同(即第三向量中各元素均为1),则认为这两个搜索关键词的相关性最小。
计算两个向量之间的距离采用亦或运算。假设对于N维向量a和向量b,对于任意位置i(每个i对应一个URL),当a[i]=b[i]时,该位置处对应的第三向量的元素为0,当a[i]≠b[i]时,该位置处对应的第三向量的元素为1。向量a与向量b之间的距离可以通过以下公式计算:
两个网页搜索关键词之间的相关性可以按照以下公式进行计算:
例如,第一网页搜索关键词A对应的第一向量为[1,1,1,0,0],第二网页搜索关键词B对应的第二向量为[0,0,1,1,1],则第三向量为[1,1,0,1,1]。则可以计算得出第一网页搜索关键词A和第二网页搜索关键词B之间的相关性对应的数值为5/4。
该实施例由于采取了以下步骤:确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词;获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符;获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系;获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系;根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
下面是根据本发明的网页搜索关键词的相关性检测方法的第二实施例。该实施例可以作为图1所示实施例的一种优选实施方式。该方法包括如下步骤:
确定用于执行网页搜索的多个网页搜索关键词,其中,多个网页搜索关键词包括第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
该步骤同步骤S102,这里不再赘述。
获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括多个网页搜索关键词对应的网页的统一资源定位符。
当用户提交站内搜索请求时,系统会记录网站服务器返回的搜索结果的统一资源定位符列表,以及返回搜索结果中统一资源定位符的排名,结果能够构成一个站内搜索的对象,可以表示为{Query,Url1,Url2,Url3,…,Urln},其中n表示网站站内搜索返回结果首页的统一资源定位符的数目。
由于在实际情况中,往往一个网页搜索关键词对应的统一资源定位符的数量巨大,且获取的向量中的大量值均为0,造成维度灾难的情况。因此,可以采取的处理方法是降维,即将大部分不能经常被查询到的统一资源定位符过滤掉。过滤的步骤包括:分别统计多个统一资源定位符的出现次数;分别判断多个统一资源定位符的出现次数是否小于预设出现次数阈值;获取多个统一资源定位符中出现次数小于预设出现次数阈值的统一资源定位符;将小于预设出现次数阈值的统一资源定位符从统一资源定位符集合中清除。具体地,在处理中,预先设定阈值k。统计各个统一资源定位符被查询到的次数。假设Kj表示第j个统一资源定位符被查询到的次数,统计上即为获取的矩阵第j列的元素之和。过滤掉全部Kj<k的统一资源定位符对应的列。
获取多个目标向量,其中,多个目标向量包含的多个元素分别为多个网页搜索关键词和多个统一资源定位符的对应关系,多个目标向量包括第一向量和第二向量。
例如,获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。该步骤同步骤S106,这里不再赘述。获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。该步骤同步骤S108,这里不再赘述。可选地,可以将多个向量合并后记为矩阵的形式。
根据多个向量对多个网页搜索关键词进行相关性检测。
例如,根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。该步骤同步骤S110,这里不再赘述。
确定多个网页搜索关键词分别属于不同的关键词类,其中,不同的关键词类中每个关键词类只包含一个网页搜索关键词。
根据多个目标向量获取多个目标距离,其中,多个目标距离用于表示多个网页搜索关键词类中任意两个网页搜索关键词类之间的差异。
获取多个目标距离中的最小值。
合并最小值对应的两个网页搜索关键词类成第一目标关键词类。
统计多个网页搜索关键词对应的关键词类的个数。
判断关键词类的个数是否大于预设数量值。
如果关键词类的个数大于预设数量值,则确定第一目标关键词类对应的向量。
利用第一目标关键词类对应的向量,分别获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离。
获取第一目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离中的最小值。
将最小值对应的两个网页搜索关键词类合并成第二目标关键词类。
如果关键词类的个数小于或者等于预设数量值,则不再进行关键词类的合并。
将最小值对应的两个网页搜索关键词合并为目标关键词类,即将最小值对应的两个网页搜索关键词合并为同一个关键词类。假设初始时,每一个关键词均属于一个关键词类,距离最接近的两个关键词类分别为A、B,则创建一个新类C,分别添加原来的类A、类B,类C中含有关键词的个数CountC等于类A、类B包含的关键词个数之和CountA+CountB。可选地,可以更新类C的类中心(根据实际策略进行取舍),计算类中各个关键词向量的统计量(如平均数),得到类向量;添加类C到类集合列表中;并从类集合列表中移除类A和类B。
获取目标关键词类和除两个网页搜索关键词类之外的多个网页搜索关键词类之间的目标距离,可选的策略有多种,包括最近邻距离(Nearest neighbor)、最远邻距离(Furthest neighbor)、重心距离(Centroid cluster)等等。其中,最近邻距离是以两个类中距离最近的两个个体之间的距离作为类间距离;最远邻距离是以两个类中距离最远的两个个体之间的距离作为类间距离;重心距离是以两类变量均值之间的距离作为类间距离。优选地,以最远邻距离作为距离计算的标度,因为该方法的合并门槛较高,被合并的类内距离更小。根据获取的关键词类间的距离值,可以获取多个目标相关性数值。
例如,有4个关键词A、B、C、D,假设各自属于一个关键词类,其对应的向量分别为:
A:[0,0,0,1,0,1];B:[0,1,1,1,0,0];C:[0,0,1,0,0,1];和D:[1,1,1,1,0,0]。因此,可以分别计算各关键词之间的目标距离,计算结果如表1所示:
表1
A B C D
A - 3 2 4
B 3 - 3 1
C 2 3 - 4
D 3 1 4 -
从表1可以看出,关键词B和关键词D之间的距离最小,因此将关键词B和关键词D进行合并,并删除关键词B和关键词D之前分别属于的类,更新关键词类的个数为3个。假设预设数量值为2,则继续计算类距离如表2所示:
表2
A C BD
A - 2 4(=max(3,4))
C 2 - 4(=max(3,4))
BD 4(=max(3,4)) 4(=max(3,4)) -
从表2可以看出,关键词A和关键词C之间的距离最小,合并关键词A和关键词C,并删除关键词A和关键词C之前分别属于的类,更新关键词类的个数为2,结束合并处理。
如果预设数量值为1,则可以继续更新类距离如表3所示:
表3
BD AC
BD - 4
AC 4 -
合并关键词BD和关键词AC,并删除关键词BD和关键词AC之前分别属于的类,更新关键词类的个数为1,结束合并处理。
可以将上述网页搜索关键词聚类的过程总结为以下步骤:1、将每个网页搜索关键词归为一类,共获得M类,每类仅包含一个网页搜索关键词,其中,类与类之间的距离就是它们各自所包含的关键词对应的向量之间的距离;2、找到相关性最大的两个类合并成一个新类(总的类数减少一个);3、重新计算新类与所有旧类之间的距离;4、重复步骤2和步骤3,直到获得的类达到预设条件为止。
通常,将大量网页搜索关键词进行聚类后,最终获取的关键词类包括多个关键词类,假设多个关键词类包括第一关键词类和第二关键词类,分别将小于预设相关性阈值的目标相关性数值对应的目标关键词簇和网页搜索关键词确定为一个关键词类之后,该方法还可以包括:分别对第一关键词类和第二关键词类进行标识;统计第一数量,其中,第一数量为第一关键词类包含的网页搜索关键词的个数;统计第二数量,其中,第二数量为第二关键词类包含的网页搜索关键词的个数;比较第一数量和第二数量,得到比较结果;按照比较结果对第一关键词类和第二关键词类进行排序。
具体地,不同的关键词类反映不同的用户需求,为对用户需求进行描述,可以对关键词类进行命名。命名方法分为基于规则的命名方法和基于统计的命名方法两种,也可以将两种方法相结合,即混合的命名方法。关键词类的命名方法包括但不限于:根据用户搜索次数或用户搜索点击次数等行为进行命名,选取排序较高的关键词作为命名等。排序是对关键词类的统计量进行排序,统计量越高的关键词类所对应的用户需求越强烈。可以采用的统计量包括但不限于:类内关键词搜索次数和、类内关键词所属的会话数量等。
该实施例根据用户搜索的返回结果对网页搜索进行向量化,从而构建出更加符合用户需求的数学模型,利用该模型能够挖掘出深层次的关键词聚合关系,从而准确地表示用户需求。例如,能够发现“违章”、“电子眼”、“电子jin”和“电子敬察”的关系。
需要说明的是,本发明实施例的网页搜索关键词的相关性检测装置可以用于执行本发明实施例所提供的网页搜索关键词的相关性检测方法,本发明实施例的网页搜索关键词的相关性检测方法也可以通过本发明实施例所提供的网页搜索关键词的相关性检测装置来执行。
图2是根据本发明的网页搜索关键词的相关性检测装置的实施例的示意图。如图2所示,该装置结构包括:确定单元10、第一获取单元20、第二获取单元30、第三获取单元40和检测单元50。
确定单元10,用于确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,第一网页搜索关键词和第二网页搜索关键词为不同的网页搜索关键词。
第一获取单元20,用于获取统一资源定位符集合,其中,统一资源定位符集合包括多个统一资源定位符,多个统一资源定位符两两不同,多个统一资源定位符包括第一网页搜索关键词对应的网页的统一资源定位符和第二网页搜索关键词对应的网页的统一资源定位符。
可选地,第一获取单元20包括:第一获取模块,用于获取第一统一资源定位符子集合,其中,第一统一资源定位符子集合为第一网页搜索关键词对应的网页的统一资源定位符的集合;第二获取模块,用于获取第二统一资源定位符子集合,其中,第二统一资源定位符子集合为第二网页搜索关键词对应的网页的统一资源定位符的集合。
可以根据以下模块分别确定第一网页搜索关键词和多个统一资源定位符的对应关系:第一判断子模块,用于分别判断多个统一资源定位符是否是第一统一资源定位符子集合中包含的统一资源定位符;第一确定子模块,用于在多个统一资源定位符是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第二确定子模块,用于在多个统一资源定位符不是第一统一资源定位符子集合中包含的统一资源定位符时,分别确定第一网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
同样地,可以根据以下模块分别确定第二网页搜索关键词和多个统一资源定位符的对应关系:第二判断子模块,用于分别判断多个统一资源定位符是否是第二统一资源定位符子集合中包含的统一资源定位符;第三确定子模块,用于在多个统一资源定位符是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为1;第四确定子模块,用于在多个统一资源定位符不是第二统一资源定位符子集合中包含的统一资源定位符时,分别确定第二网页搜索关键词和多个统一资源定位符的对应关系所对应的数值为0。
第二获取单元30,用于获取第一向量,其中,第一向量包括多个元素,第一向量的多个元素分别为第一网页搜索关键词和多个统一资源定位符的对应关系。
第三获取单元40,用于获取第二向量,其中,第二向量包括多个元素,第二向量的多个元素分别为第二网页搜索关键词和多个统一资源定位符的对应关系。
检测单元50,用于根据第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测。
可选地,检测单元50包括:第三获取模块,用于根据第一向量和第二向量获取第三向量;第四获取模块,用于获取目标距离,其中,目标距离为第三向量中包含的多个元素的平均值,用于表示第一网页搜索关键词和第二网页搜索关键词之间的差异;第五获取模块,用于通过以下式子获取第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值:S=1/A,其中,S为第一网页搜索关键词和第二网页搜索关键词的相关性对应的数值,A为目标距离。
其中,可以通过以下子模块确定第三向量中包含的多个元素:第一确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素均为1时,确定第三向量中对应的元素为0,第二确定子模块,用于在对应相同的统一资源定位符,第一向量和第二向量中对应相同的统一资源定位符的元素一个为1、另一个为0时,确定第三向量中对应的元素为1。
本实施例提供的网页搜索关键词的相关性检测装置包括:确定单元10、第一获取单元20、第二获取单元30、第三获取单元40和检测单元50。通过该装置,解决了网页搜索关键词之间的相关性检测不准确的问题,进而通过检测单元50利用第一向量和第二向量对第一网页搜索关键词和第二网页搜索关键词进行相关性检测,达到了提高检测网页搜索关键词之间的相关性的准确性的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种网页搜索关键词的相关性检测方法,其特征在于,包括:
确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词;
获取统一资源定位符集合,其中,所述统一资源定位符集合包括多个统一资源定位符,所述多个统一资源定位符两两不同,所述多个统一资源定位符包括所述第一网页搜索关键词对应的网页的统一资源定位符和所述第二网页搜索关键词对应的网页的统一资源定位符;
获取第一向量,其中,所述第一向量包括多个元素,所述第一向量的多个元素分别为所述第一网页搜索关键词和所述多个统一资源定位符的对应关系;
获取第二向量,其中,所述第二向量包括多个元素,所述第二向量的多个元素分别为所述第二网页搜索关键词和所述多个统一资源定位符的对应关系;以及
根据所述第一向量和所述第二向量对所述第一网页搜索关键词和所述第二网页搜索关键词进行相关性检测。
2.根据权利要求1所述的方法,其特征在于,
获取统一资源定位符集合包括:获取第一统一资源定位符子集合,其中,所述第一统一资源定位符子集合为所述第一网页搜索关键词对应的网页的统一资源定位符的集合,
根据以下方法分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系:分别判断所述多个统一资源定位符是否是所述第一统一资源定位符子集合中包含的统一资源定位符;如果所述多个统一资源定位符是所述第一统一资源定位符子集合中包含的统一资源定位符,则分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为1;如果所述多个统一资源定位符不是所述第一统一资源定位符子集合中包含的统一资源定位符,则分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为0,
获取统一资源定位符集合还包括:获取第二统一资源定位符子集合,其中,所述第二统一资源定位符子集合为所述第二网页搜索关键词对应的网页的统一资源定位符的集合,
根据以下方法分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系:分别判断所述多个统一资源定位符是否是所述第二统一资源定位符子集合中包含的统一资源定位符;如果所述多个统一资源定位符是所述第二统一资源定位符子集合中包含的统一资源定位符,则分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为1;如果所述多个统一资源定位符不是所述第二统一资源定位符子集合中包含的统一资源定位符,则分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为0。
3.根据权利要求2所述的方法,其特征在于,根据所述第一向量和所述第二向量对所述第一网页搜索关键词和所述第二网页搜索关键词进行相关性检测包括:
根据所述第一向量和所述第二向量获取第三向量,其中,通过以下方法确定所述第三向量中包含的多个元素:
如果在对应相同的统一资源定位符时,所述第一向量和所述第二向量中对应所述相同的统一资源定位符的元素均为1或者均为0,则确定所述第三向量中对应的元素为0,
如果在对应相同的统一资源定位符时,所述第一向量和所述第二向量中对应所述相同的统一资源定位符的元素一个为1、另一个为0,则确定所述第三向量中对应的元素为1;
获取目标距离,其中,所述目标距离为所述第三向量中包含的多个元素的平均值,用于表示所述第一网页搜索关键词和所述第二网页搜索关键词之间的差异;
通过以下式子获取所述第一网页搜索关键词和所述第二网页搜索关键词的相关性对应的数值:
S=1/A,其中,S为所述第一网页搜索关键词和所述第二网页搜索关键词的相关性对应的数值,A为所述目标距离。
4.根据权利要求1所述的方法,其特征在于,多个网页搜索关键词包括所述第一网页搜索关键词和所述第二网页搜索关键词,多个目标向量包括所述第一向量和所述第二向量,所述统一资源定位符集合包括所述多个网页搜索关键词对应的网页的统一资源定位符,根据所述第一向量和所述第二向量对所述第一网页搜索关键词和所述第二网页搜索关键词进行相关性检测之后,所述方法还包括:
确定所述多个网页搜索关键词分别属于不同的关键词类,其中,所述不同的关键词类中每个关键词类只包含一个网页搜索关键词;
根据所述多个目标向量获取多个目标距离,其中,所述多个目标距离用于表示所述多个网页搜索关键词类中任意两个网页搜索关键词类之间的差异;
获取所述多个目标距离中的最小值;
合并所述最小值对应的两个网页搜索关键词类成第一目标关键词类;
统计所述多个网页搜索关键词对应的关键词类的个数;
判断所述关键词类的个数是否大于预设数量值;
如果所述关键词类的个数大于所述预设数量值,则确定所述第一目标关键词类对应的向量;
利用所述第一目标关键词类对应的向量,分别获取所述第一目标关键词类和除所述两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离;
获取所述第一目标关键词类和除所述两个网页搜索关键词类之外的多个网页搜索关键词类对应的目标距离中的最小值;
将所述最小值对应的两个网页搜索关键词类合并成第二目标关键词类;以及
如果所述关键词类的个数小于或者等于所述预设数量值,则不再进行关键词类的合并处理。
5.根据权利要求4所述的方法,其特征在于,在获取所述统一资源定位符集合之后,所述方法还包括:
分别统计所述多个统一资源定位符的出现次数;
分别判断所述多个统一资源定位符的出现次数是否小于预设出现次数阈值;
获取所述多个统一资源定位符中出现次数小于所述预设出现次数阈值的统一资源定位符;以及
将小于所述预设出现次数阈值的统一资源定位符从所述统一资源定位符集合中清除。
6.根据权利要求4所述的方法,其特征在于,经过合并处理后的关键词类包括多个关键词类,所述多个关键词类包括第一关键词类和第二关键词类,分别将小于所述预设相关性阈值的目标相关性数值对应的目标关键词簇和网页搜索关键词确定为一个关键词类之后,所述方法还包括:
分别对所述第一关键词类和所述第二关键词类进行标识;
统计第一数量,其中,所述第一数量为所述第一关键词类包含的网页搜索关键词的个数;
统计第二数量,其中,所述第二数量为所述第二关键词类包含的网页搜索关键词的个数;
比较所述第一数量和所述第二数量,得到比较结果;以及
按照所述比较结果对所述第一关键词类和所述第二关键词类进行排序。
7.一种网页搜索关键词的相关性检测装置,其特征在于,包括:
确定单元,用于确定用于执行网页搜索的第一网页搜索关键词和第二网页搜索关键词,其中,所述第一网页搜索关键词和所述第二网页搜索关键词为不同的网页搜索关键词;
第一获取单元,用于获取统一资源定位符集合,其中,所述统一资源定位符集合包括多个统一资源定位符,所述多个统一资源定位符两两不同,所述多个统一资源定位符包括所述第一网页搜索关键词对应的网页的统一资源定位符和所述第二网页搜索关键词对应的网页的统一资源定位符;
第二获取单元,用于获取第一向量,其中,所述第一向量包括多个元素,所述第一向量的多个元素分别为所述第一网页搜索关键词和所述多个统一资源定位符的对应关系;
第三获取单元,用于获取第二向量,其中,所述第二向量包括多个元素,所述第二向量的多个元素分别为所述第二网页搜索关键词和所述多个统一资源定位符的对应关系;以及
检测单元,用于根据所述第一向量和所述第二向量对所述第一网页搜索关键词和所述第二网页搜索关键词进行相关性检测。
8.根据权利要求7所述的装置,其特征在于,
所述第一获取单元包括:第一获取模块,用于获取第一统一资源定位符子集合,其中,所述第一统一资源定位符子集合为所述第一网页搜索关键词对应的网页的统一资源定位符的集合,
根据以下模块分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系:
第一判断子模块,用于分别判断所述多个统一资源定位符是否是所述第一统一资源定位符子集合中包含的统一资源定位符;
第一确定子模块,用于在所述多个统一资源定位符是所述第一统一资源定位符子集合中包含的统一资源定位符时,分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为1;
第二确定子模块,用于在所述多个统一资源定位符不是所述第一统一资源定位符子集合中包含的统一资源定位符时,分别确定所述第一网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为0,
所述第一获取单元还包括:第二获取模块,用于获取第二统一资源定位符子集合,其中,所述第二统一资源定位符子集合为所述第二网页搜索关键词对应的网页的统一资源定位符的集合,
根据以下模块分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系:
第二判断子模块,用于分别判断所述多个统一资源定位符是否是所述第二统一资源定位符子集合中包含的统一资源定位符;
第三确定子模块,用于在所述多个统一资源定位符是所述第二统一资源定位符子集合中包含的统一资源定位符时,分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为1;
第四确定子模块,用于在所述多个统一资源定位符不是所述第二统一资源定位符子集合中包含的统一资源定位符时,分别确定所述第二网页搜索关键词和所述多个统一资源定位符的对应关系所对应的数值为0。
9.根据权利要求8所述的装置,其特征在于,所述检测单元包括:
第三获取模块,用于根据所述第一向量和所述第二向量获取第三向量,其中,通过以下子模块确定所述第三向量中包含的多个元素:
第一确定子模块,用于在对应相同的统一资源定位符,所述第一向量和所述第二向量中对应所述相同的统一资源定位符的元素均为1或者均为0时,确定所述第三向量中对应的元素为0,
第二确定子模块,用于在对应相同的统一资源定位符,所述第一向量和所述第二向量中对应所述相同的统一资源定位符的元素一个为1、另一个为0时,确定所述第三向量中对应的元素为1;
第四获取模块,用于获取目标距离,其中,所述目标距离为所述第三向量中包含的多个元素的平均值,用于表示所述第一网页搜索关键词和所述第二网页搜索关键词之间的差异;
第五获取模块,用于通过以下式子获取所述第一网页搜索关键词和所述第二网页搜索关键词的相关性对应的数值:
S=1/A,其中,S为所述第一网页搜索关键词和所述第二网页搜索关键词的相关性对应的数值,A为所述目标距离。
CN201410714574.5A 2014-11-28 2014-11-28 网页搜索关键词的相关性检测方法及装置 Active CN104462310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410714574.5A CN104462310B (zh) 2014-11-28 2014-11-28 网页搜索关键词的相关性检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410714574.5A CN104462310B (zh) 2014-11-28 2014-11-28 网页搜索关键词的相关性检测方法及装置

Publications (2)

Publication Number Publication Date
CN104462310A CN104462310A (zh) 2015-03-25
CN104462310B true CN104462310B (zh) 2018-02-02

Family

ID=52908345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410714574.5A Active CN104462310B (zh) 2014-11-28 2014-11-28 网页搜索关键词的相关性检测方法及装置

Country Status (1)

Country Link
CN (1) CN104462310B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN103514191A (zh) * 2012-06-20 2014-01-15 百度在线网络技术(北京)有限公司 用于确定目标推广信息的关键词匹配模式的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5340751B2 (ja) * 2008-04-22 2013-11-13 株式会社エヌ・ティ・ティ・ドコモ 文書処理装置および文書処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN103514191A (zh) * 2012-06-20 2014-01-15 百度在线网络技术(北京)有限公司 用于确定目标推广信息的关键词匹配模式的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Graph-based Word Clustering using a Web Search Engine;Yutaka Matsuo;《Industrial Science and Technology》;20060722;全文 *

Also Published As

Publication number Publication date
CN104462310A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
US9465872B2 (en) Segment sensitive query matching
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与系统
CN104199969B (zh) 网页数据分析方法及装置
CN106033445B (zh) 获取文章关联度数据的方法和装置
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
EP2560111A2 (en) Systems and methods for facilitating the gathering of open source intelligence
US20080134015A1 (en) Web Site Structure Analysis
CN104899273A (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN103838798B (zh) 页面分类系统及页面分类方法
CN104462385A (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
CN104391978B (zh) 用于浏览器的网页收藏处理方法及装置
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN102402619A (zh) 一种搜索方法和装置
US20120150846A1 (en) Web-Relevance Based Query Classification
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN102722503A (zh) 一种对检索结果进行排序的方法及装置
CN104408180A (zh) 内存数据的查询方法和装置
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Pavani et al. A novel web crawling method for vertical search engines
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN105224555A (zh) 一种搜索的方法、装置和系统
CN104391958B (zh) 网页搜索关键词的相关性检测方法及装置
CN103631793A (zh) 一种用于对搜索结果进行排序的方法、装置与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Detection method and device for correlation of webpage search keywords

Effective date of registration: 20190531

Granted publication date: 20180202

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.