CN101030206A - 搜索引擎关键字关联的发现和生成方法 - Google Patents
搜索引擎关键字关联的发现和生成方法 Download PDFInfo
- Publication number
- CN101030206A CN101030206A CN 200610059316 CN200610059316A CN101030206A CN 101030206 A CN101030206 A CN 101030206A CN 200610059316 CN200610059316 CN 200610059316 CN 200610059316 A CN200610059316 A CN 200610059316A CN 101030206 A CN101030206 A CN 101030206A
- Authority
- CN
- China
- Prior art keywords
- keyword
- key word
- concrete
- search
- search engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
搜索引擎关键字关联的发现和生成方法,借助该方法,搜索引擎可以依据搜索用户的搜索和浏览行为发现具体关键字的关联关键字并确定相互间从属关系,从而将与当前搜索关键字关联程度较高的其它关键字提供给搜索用户并显示相互概念上的从属关系,同时搜索引擎也可以主动搜索关联程度高的其它关键字,从而为用户提供更加准确的搜索结果。
Description
技术领域
本发明涉及一种搜索引擎关键字关联的发现和生成方法,尤其涉及一种依据搜索用户的搜索和浏览行为发现具体关键字的关联关键字并确定相互间从属关系的方法。
背景技术
目前,用户一般采用关键字查找方式利用搜索引擎在互联网上搜索知识信息。然而,一次性地提供足以代表真实搜索意向的关键字对于大多数用户是非常困难的。通常的情况是,用户首先向搜索引擎提交“大概”能代表其搜索意向的关键字,然后在返回的搜索结果清单中查找所希望的知识信息。在这个过程中,用户不断接受所查阅的知识信息的启发,重新定位更加精准的关键字并提交搜索引擎。从逻辑上分析,用户使用这种逐步逼近的搜索模式完全可以达到与其真实搜索意向完全相符合的知识信息。但是,现实的情况是,用户每提交一次关键字,搜索引擎往往返回海量的未被组织的知识信息清单,而且其中的绝大部分不为用户所需。由于剔除不相关信息的时间成本过于巨大,在定位希望的知识信息之前,用户经常中断这种逐步逼近的搜索模式。
当前出现了许多可以由搜索引擎提供的帮助用户在逐步逼近的搜索模式下缩小搜索范围的技术。这些技术大致可以分为“搜索结果分类”和“关键字启发”两种类型。
“搜索结果分类”的第一种方法为人工依据逻辑层次手动分类数据库中的知识信息。由于在构建成本上的昂贵性与构建规模和内容上的有限性,目前不再具有现实可行性。另一种方法为机器自动分类数据库中的知识信息,一般包括自动聚类和自动归类两类。自动聚类指的是由搜索引擎依据知识信息的内部或者外部特征,按照一定的要求(如类别的数量限制,同类知识信息的亲近程度等等)将相近、相似或者相同特征的知识信息聚合在一起。自动归类是指搜索引擎按照一定的分类标准或者分类参考将知识信息归类。此类方法可以有效克服人工分类在构建成本、规模和内容方面的局限性,但是由于分类模型需要人工主观构建,而且是静态的,不能适应不同用户的个性需要,也不能持续适应变化着的公众互联网搜索习惯。
“关键字启发”的一种方法为“用户意向的发现”。公开号CN1667615A的发明专利披露了其中的细节,其主要原理为,建立查询数据库,搜索用户可以审阅先前的查询,并判断一个或多个先前的查询在与该用户当前的搜索查询比较时是否能更好地代表他的查询意向。但是,在利用MMR方案向搜索用户提供与当前搜索查询相关而查询结果又尽量相异的先前查询的过程中,必须在巨大的计算量和向用户提供的知识信息量之间做出平衡。这种平衡有可能限制关键字启发的效应。
授权公告号CN1193309C的发明专利提出了“关键字启发”的另一种方法,依据搜索用户的查询行为和浏览行为决定关键字的关联建立。其主要思想为,同一个或多个用户向搜索引擎提交关键字A和关键字B,搜索引擎记录关键字A和关键字B的搜索结果中相同的知识信息的数量,同时记录用户在这些相同的知识信息中浏览的知识信息和浏览时间,分别计算搜索关联值和浏览关联值,再由搜索关联值和浏览关联值计算出关键字A和关键字B的关联值。该方法假设,如果用户向搜索引擎提交关键字A和关键字B并浏览其相同搜索结果中的知识信息,则说明关键字A和关键字B存在某种程度的关联。但是,该方法另一个假设是基本错误的,即如果关键字A和关键字B出现在搜索结果的相同知识信息中,则关键字A和关键字B存在某种程度的关联。另外,由于关键字A指向关键字B的关联值和关键字B指向关键字A的关联值是同一的,搜索引擎无法确定相互之间的从属关系,有可能为实际关联度很低的两个关键字赋予很高的关联值,为关键字启发的实际效果带来困难。
发明内容
本发明的目的在于提供一种搜索引擎关键字启发的方法,尤其提供一种依据搜索用户的搜索和浏览行为发现具体关键字的关联关键字并确定相互间从属关系的方法,以便更加精准地建立关键字之间的关联关系。
本发明是基于一种强关联假设实现的,即如果用户(同一用户或不同用户)向搜索引擎提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息,则说明关键字A和关键字B存在某种程度的关联。本发明的另一种假设为,用户(同一用户或不同用户)向搜索引擎提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息,如果通过关键字A搜索并浏览该知识信息的次数明显大于通过关键字B搜索并浏览该知识信息的次数,则说明关键字B在概念上从属于关键字A。
本发明首先需要解决的问题是,如何记录“用户(同一用户或不同用户)向搜索引擎提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息”的行为。为此,本发明构建了“互联网具体知识信息关键字匹配生成”步骤。该步骤是这样进行的:
1)搜索用户登录搜索引擎,输入具体关键字A;
2)搜索引擎在其知识信息数据库中查找具体关键字A,给出相应搜索结果的核心内容并根据设定的规则对搜索结果排序,最后整合生成结果页面;
3)搜索用户在搜索结果页面上选择具体知识信息浏览后退出;
4)搜索引擎在该具体知识信息已经匹配生成的关键字库中查找具体关键字A并按下列步骤对该具体知识信息进行关键字匹配和生成:
a)如果找到,则根据程序增加关键字A的关联指数;
b)如果没有查找到,判断该具体知识信息已经匹配生成关键字库的关键字数量是否已经达到程序设定的最大数量;如果已经达到,则根据各关键字的排序按程序删除该具体知识信息已经匹配生成关键字库中的一个关键字,然后将具体关键字A设置为新的关键字并设定关键字A的初始关联指数;如果没有达到,则按程序将具体关键字A直接设置为该具体知识信息新的关键字并设定关键字A的初始关联指数。
需要说明的是,具体知识信息匹配生成关键字库中的关键字按每个关键字的关联指数由大到小排序;如果关联指数相同,则随机排序。
依照上述步骤,完全可以解决“用户(同一用户或不同用户)向搜索引擎提交关键字A和关键字B,通过分别搜索并浏览了同一条知识信息”行为的记录问题。例如,如果某个具体知识信息匹配生成关键字库中包括关键字A和关键字B,其关联指数分别为1000和500,则说明用户(同一用户或不同用户)向搜索引擎提交关键字A,通过搜索浏览了该具体知识信息1000次;用户(同一用户或不同用户)向搜索引擎提交关键字B,通过搜索浏览了该具体知识信息500次(假设用户每浏览一次该知识信息,其匹配生成关键字库中相关关键字的关联指数增加1)。
本发明的最终目的是发现具体关键字的关联关键字并确定相互间从属关系。该目的是借助上述众多匹配生成关键字库通过“具体关键字关联生成”步骤实现的。该步骤是这样进行的:
1)搜索用户登录搜索引擎,输入具体关键字B;
2)搜索引擎在其知识信息数据库中的知识信息匹配生成关键字库中查找具体关键字B;
3)如果在某个知识信息匹配生成关键字库中查找到具体关键字B,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B关联搜索结果;
4)针对具体关键字B关联搜索结果中的每一个不同于具体关键字B的关键字C,搜索引擎在具体关键字B关联搜索结果中按下列方式进行具体关键字B与关键字C关联的生成:
a)如果在具体关键字B关联搜索结果中的某个匹配生成关键字库中查找到关键字C,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B与关键字C关联搜索结果;
b)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B的关联指数和关键字C的关联指数,按程序计算该匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数;
c)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B的综合关联指数和关键字C的综合关联指数;
d)搜索引擎根据具体关键字B的综合关联指数和关键字C的综合关联指数按照程序计算具体关键字B与关键字C综合关联基数和综合关联系数;
5)根据具体关键字B与关键字C综合关联基数和综合关联系数,搜索引擎按照程序对每一个关键字C排序。
需要说明的是,“互联网具体知识信息关键字匹配生成”步骤和“具体关键字关联生成”步骤基本上是同时进行的。如果用户(同一用户或不同用户)向搜索引擎提交具体关键字,通过搜索浏览了某个具体知识信息,则搜索引擎通过“互联网具体知识信息关键字匹配生成”步骤为该具体知识信息进行该具体关键字的匹配生成的同时,通过“具体关键字关联生成”步骤发现该具体关键字的关联关键字并确定相互间从属关系。
本发明的另一个特征是,具体知识信息匹配生成关键字库中的每个关键字的关联指数按照程序设定的时间周期依照程序设定的衰减因子减小。例如,关键字库中每个关键字的关联指数可以以24小时为周期按衰减因子1/365进行减小。将“关联指数衰减”作为本发明的一个特征的意义在于,这样可以实时地反映关键字之间的概念从属关系随时间的变化。以关键字“中文搜索引擎”为例,随着“一搜”网的关闭和“百度”提升,大多数搜索用户提交关键字“中文搜索引擎”时在意图上将更多联想“百度”,更少联想“一搜”。但是,由于过去“一搜”积累了大量与“中文搜索引擎”相关的关联指数,如果不对关联指数进行衰减,“一搜”与“中文搜索引擎”之间仍然存在很高的关联基数和关联系数,不能实在地反映大多数搜索用户搜索意图上的真实变化。
为了更好地实现关键字启发的效应,本发明的另一个特征是,按照“具体关键字关联生成”步骤中4)、5)项类似的方式,针对按照程序最终用于计算具体关键字B与关键字C综合关联基数和综合关联系数的所有匹配生成关键字库中的每一个不同于具体关键字B和关键字C的关键字D,进行具体关键字B、关键字C与关键字D关联的生成,具体步骤为:
1)如果在某个匹配生成关键字库中查找到关键字D,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B、关键字C与关键字D关联搜索结果;
2)根据具体关键字B、关键字C与关键字D关联搜索结果中每一个匹配生成关键字库中关键字C的关联指数和关键字D的关联指数,按程序计算该匹配生成关键字库中关键字C与关键字D关联基数和关联系数;
3)根据具体关键字B、关键字C与关键字D关联搜索结果中每一个匹配生成关键字库中关键字C与关键字D关联基数和关联系数以及具体关键字B与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B、关键字C的综合关联指数和关键字D的综合关联指数;
4)搜索引擎根据具体关键字B、关键字C的综合关联指数和关键字D的综合关联指数按照程序计算具体关键字B、关键字C与关键字D综合关联基数和综合关联系数;
5)根据具体关键字B、关键字C与关键字D综合关联基数和综合关联系数,搜索引擎按照程序对每一个关键字D排序。
由此生成的关键字D是与具体关键字B、关键字C同时关联的。本发明该项特征的意义在于,如果用户因为关键字启发,选择与具体关键字B关联的关键字C进行搜索,用户的意图很可能是希望通过更深度的挖掘,寻找更加符合其搜索意愿的关键字D,而且关键字D不但与关键字C关联,同时也与具体关键字B关联。
按照与上述类似的方式和目的,本发明还可以生成与三个或三个以上相互关联关键字同时关联的关键字。
本发明的最后一个特征是,在“具体关键字关联生成”步骤中,设置关联系数阀值,以便将关联系数过高或过低的干扰匹配生成关键字库过虑掉。例如,如果在某个匹配生成关键字库中具体关键字B的关联指数为1000,关键字C的关联指数为1,则有理由认为关键字C是“偶然”匹配的。在计算具体关键字B与关键字C综合关联基数和综合关联系的过程中,可以通过设置关联系数阀值将该匹配生成关键字库过虑,以免给计算结果造成干扰。
需要说明的是,“按照程序最终用于计算具体关键字B与关键字C综合关联基数和综合关联系数的所有匹配生成关键字库”在本发明中的含义为,在计算具体关键字B与关键字C综合关联基数和综合关联系数的过程中,在经过关联系数阀值过虑或其它程序设定的方式过虑后,具体关键字B与关键字C关联搜索结果中剩余的用于计算具体关键字B的综合关联指数和关键字C的综合关联指数的所有匹配生成关键字库。
具体实施方式
下面结合具体实施方式对本发明做详细说明。需要说明的是,本具体实施方式仅采用实现本发明原理的各种方法的某些方面,而本发明旨在包括所有这些方法和它们的等价方面。
依据本具体实施方式的搜索引擎关键字关联的发现和生成方法依靠“互联网具体知识信息关键字匹配生成”和“具体搜索关键字关联生成”这两个步骤来实现。具体分别说明如下:
“互联网具体知识信息关键字匹配生成”步骤:
1)搜索用户登录搜索引擎,输入具体关键字A;
2)搜索引擎在其知识信息数据库中查找具体关键字A,给出相应搜索结果的核心内容并根据设定的规则对搜索结果排序,最后整合生成结果页面;
3)搜索用户在搜索结果页面上选择具体知识信息浏览后退出;
4)搜索引擎在该具体知识信息已经匹配生成的关键字库中查找具体关键字A并按下列步骤对该具体知识信息进行关键字匹配和生成:
a)如果找到,则增加关键字A的关联指数;
b)如果没有查找到,判断该具体知识信息已经匹配生成关键字库的关键字数量是否已经达到程序设定的最大数量;如果已经达到,则根据各关键字的排序按程序删除该具体知识信息已经匹配生成关键字库中排序最后的关键字,然后将具体关键字A设置为新的关键字并设定关键字A的初始关联指数;如果没有达到,则按程序将具体关键字A直接设置为该具体知识信息新的关键字并设定关键字A的初始关联指数。
在本具体实施方式中,关键字关联指数的增加量和关键字初始关联指数均按照下列公式计算:
其中,T表示此次搜索用户浏览该具体知识信息所花费时间;S表示此次浏览行为之前所有搜索用户浏览该具体知识信息的次数;Ti表示此次浏览行为之前搜索用户第i次浏览该具体知识信息所花费时间。
另外,在本步骤中,所有匹配生成关键字库中每个关键字的关联指数以24小时为周期按衰减因子1/365进行减小。即,假如某个具体知识信息匹配生成关键字库中关键字A现在的关联指数为365,如果在24小时内该具体知识信息没有因为搜索用户提交关键字A而被搜索并浏览,则该具体知识信息匹配生成关键字库中关键字A的关联指数将在24小时后由365减少至364。需要特别指出的是,某个具体知识信息匹配生成关键字库中关键字A的关联指数的衰减不受该具体知识信息在24小时内有没有因为搜索用户提交关键字A而被搜索并浏览的影响,均以24小时为周期按衰减因子1/365进行减小。
最后,在本步骤中,具体知识信息匹配生成关键字库中的关键字按每个关键字的关联指数由大到小排序;如果关联指数相同,则随机排序。
“具体搜索关键字关联生成”步骤:
1)搜索用户登录搜索引擎,输入具体关键字B;
2)搜索引擎在其知识信息数据库中的知识信息匹配生成关键字库中查找具体关键字B;
3)如果在某个具体知识信息匹配生成关键字库中查找到具体关键字B,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B关联搜索结果;
4)针对具体关键字B关联搜索结果中的每一个不同于具体关键字B的关键字C,搜索引擎在具体关键字B关联搜索结果中按下列方式进行具体关键字B与关键字C关联的生成:
a)如果在具体关键字B关联搜索结果中的某个匹配生成关键字库中查找到关键字C,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B与关键字C关联搜索结果;
b)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B的关联指数和关键字C的关联指数,按程序计算该匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数;
c)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B的综合关联指数和关键字C的综合关联指数;
d)搜索引擎根据具体关键字B的综合关联指数和关键字C的综合关联指数按照程序计算具体关键字B与关键字C综合关联基数和综合关联系数;
5)根据具体关键字B与关键字C综合关联基数和综合关联系数,搜索引擎按照排序规则对每一个关键字C排序,即,先按综合关联系数由大到小排序,如果综合关联系数相同,则按综合关联基数由大到小排序。
在本具体实施方式中,依据具体关键字B与关键字C关联搜索结果,具体关键字B与关键字C综合关联基数和综合关联系数按照下列步骤计算:
1)计算具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B和关键字C关联系数,公式如下:
Gi=Ci/Bi
其中,Gi代表具体关键字B与关键字C关联搜索结果中第i个匹配生成关键字库中具体关键字B和关键字C关联系数;Bi代表具体关键字B与关键字C关联搜索结果中第i个匹配生成关键字库中具体关键字B的关联指数;Ci代表具体关键字B与关键字C关联搜索结果中第i个匹配生成关键字库中关键字C的关联指数;
2)设置关联系数阀值1和关联系数阀值2,如果具体关键字B与关键字C关联系数大于关联系数阀值1或者小于关联系数阀值2,则对该匹配生成关键字库不予考虑
3)计算通过关联系数阀值过虑后的具体关键字B与关键字C关联搜索结果中Gi≥1的匹配生成关键字库的数量S1和具体关键字B与关键字C关联搜索结果中Gi<1的匹配生成关键字库的数量S2;
4)按下列方式根据筛选系数a(0.5≤a≤1)进行具体关键字B与关键字C关联搜索结果中匹配生成关键字库的筛选:
如果S1/(S1+S2)大于a,则使用具体关键字B与关键字C关联搜索结果中Gi≥1的匹配生成关键字库进行下一个步骤的计算;
如果S2/(S1+S2)大于a,则使用具体关键字B与关键字C关联搜索结果中Gi<1的匹配生成关键字库进行下一个步骤的计算;
如果S1/(S1+S2)和S2/(S1+S2)均小于或等于a,则使用具体关键字B与关键字C关联搜索结果中所有的匹配生成关键字库进行下一个步骤的计算;
5)将按照上述方式筛选出的每一个匹配生成关键字库中具体关键字B的关联指数相加得出具体关键字B的综合关联指数;将按照上述方式筛选出的每一个匹配生成关键字库中关键字C的关联指数相加得出关键字C的综合关联指数;
6)具体关键字B与关键字C综合关联基数等于具体关键字B的综合关联指数;
具体关键字B与关键字C综合关联系数的计算公式为:
G=C/B
其中,G代表具体关键字B与关键字C综合关联系数;B代表具体关键字B的综合关联指数;C代表关键字C的综合关联指数。
在本具体实施方式中,如果G>1.2,则定义具体关键字B在概念上从属于关键字C;如果G<0.8,则定义关键字C在概念上从属于具体关键字B;如果0.8≤G≤1.2,则定义具体关键字B与关键字C在概念上属于无从属的关联关系。
另外,在本具体实施方式中,筛选系数a可以由用户在其数值范围内调节。如果用户不希望对匹配生成关键字库通过筛选系数a进行筛选,则可以将筛选系数a调节为数值1。
借助于本具体实施方式描述的步骤,当搜索用户提交具体关键字查询时,搜索引擎可以依据实时的计算将关联程度较高的其它关键字提供给搜索用户,同时显示这些其它关键字与当前提交的具体关键字在概念上的从属关系;搜索引擎也可以根据实时的计算结果来主动搜索关联程度高的其它关键字。
同时,借助于本具体实施方式描述的步骤,搜索引擎可以依据实时的计算反映关键字之间关联程度的变化,这种变化总体上相当于用户搜索意图的真实变化。
虽然本发明通过上述具体实施方式进行了披露,但并非用以限定本发明的内容。任何熟悉本领域的技术人员应当意识到,本发明旨在包含落入所附权利要求书精神和范围中的所有组合和变化。
Claims (9)
1.搜索引擎关键字关联的发现和生成方法,借助设置在互联网服务器上的程序软件系统实现,其特征在于该方法包括:
1)“互联网具体知识信息关键字匹配生成”步骤,在该步骤中,搜索引擎依据搜索用户的搜索和浏览行为为具体知识信息匹配生成关键字库;
2)“具体关键字关联生成”步骤,在该步骤中,根据其知识信息数据库中知识信息匹配生成关键字库,搜索引擎生成用户提交的具体关键字的关联关键字,计算该具体关键字与每个关联关键字的综合关联基数和综合关联系数并确定相互之间的从属关系。
2.如权利要求1所述的搜索引擎关键字关联的发现和生成方法,其特征在于“互联网具体知识信息关键字匹配生成”步骤包括:
1)搜索用户登录搜索引擎,输入具体关键字A;
2)搜索引擎在其知识信息数据库中查找具体关键字A,给出相应搜索结果的核心内容并根据设定的规则对搜索结果排序,最后整合生成结果页面;
3)搜索用户在搜索结果页面上选择具体知识信息浏览后退出;
4)搜索引擎在该具体知识信息已经匹配生成的关键字库中查找具体关键字A并按下列步骤对该具体知识信息进行关键字匹配和生成:
a)如果找到,则根据程序增加关键字A的关联指数;
b)如果没有查找到,判断该具体知识信息已经匹配生成关键字库的关键字数量是否已经达到程序设定的最大数量;如果已经达到,则根据各关键字的排序按程序删除该具体知识信息已经匹配生成关键字库中的一个关键字,然后将具体关键字A设置为新的关键字并设定关键字A的初始关联指数;如果没有达到,则按程序将具体关键字A直接设置为该具体知识信息新的关键字并设定关键字A的初始关联指数。
3.如权利要求2所述的搜索引擎关键字关联的发现和生成方法,其特征在于具体知识信息匹配生成关键字库中的关键字按每个关键字的关联指数由大到小排序;如果关联指数相同,则随机排序。
4.如权利要求2所述的搜索引擎关键字关联的发现和生成方法,其特征在于具体知识信息匹配生成关键字库中的每个关键字的关联指数按照程序设定的时间周期依照程序设定的衰减因子减小。
5.如权利要求1所述的搜索引擎关键字关联的发现和生成方法,其特征在于“具体关键字关联生成”步骤包括:
1)搜索用户登录搜索引擎,输入具体关键字B;
2)搜索引擎在其知识信息数据库中的知识信息匹配生成关键字库中查找具体关键字B;
3)如果在某个知识信息匹配生成关键字库中查找到具体关键字B,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B关联搜索结果;
4)针对具体关键字B关联搜索结果中的每一个不同于具体关键字B的关键字C,搜索引擎在具体关键字B关联搜索结果中按下列方式进行具体关键字B与关键字C关联的生成:
a)如果在具体关键字B关联搜索结果中的某个匹配生成关键字库中查找到关键字C,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B与关键字C关联搜索结果;
b)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B的关联指数和关键字C的关联指数,按程序计算该匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数;
c)根据具体关键字B与关键字C关联搜索结果中每一个匹配生成关键字库中具体关键字B与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B的综合关联指数和关键字C的综合关联指数;
d)搜索引擎根据具体关键字B的综合关联指数和关键字C的综合关联指数按照程序计算具体关键字B与关键字C综合关联基数和综合关联系数;
5)根据具体关键字B与关键字C综合关联基数和综合关联系数,搜索引擎按照程序对每一个关键字C排序。
6.如权利要求5所述的搜索引擎关键字关联的发现和生成方法,其特征在于设置关联系数阀值1和关联系数阀值2,以便对具体关键字B与关键字C关联系数大于关联系数阀值1或者小于关联系数阀值2的匹配生成关键字库不予考虑。
7.如权利要求5所述的搜索引擎关键字关联的发现和生成方法,其特征在于针对按照程序最终用于计算具体关键字B与关键字C综合关联基数和综合关联系数的所有匹配生成关键字库中的每一个不同于具体关键字B和关键字C的关键字D,搜索引擎按下列方式进行具体关键字B、关键字C与关键字D关联的生成:
1)如果在某个匹配生成关键字库中查找到关键字D,则将该匹配生成关键字库作为搜索结果予以保留并最终生成由众多匹配生成关键字库组成的具体关键字B、关键字C与关键字D关联搜索结果;
2)根据具体关键字B、关键字C与关键字D关联搜索结果中每一个匹配生成关键字库中关键字C的关联指数和关键字D的关联指数,按程序计算该匹配生成关键字库中关键字C与关键字D关联基数和关联系数;
3)根据具体关键字B、关键字C与关键字D关联搜索结果中每一个匹配生成关键字库中关键字C与关键字D关联基数和关联系数以及具体关键字B与关键字C关联基数和关联系数,搜索引擎按程序计算具体关键字B、关键字C的综合关联指数和关键字D的综合关联指数;
4)搜索引擎根据具体关键字B、关键字C的综合关联指数和关键字D的综合关联指数按照程序计算具体关键字B、关键字C与关键字D综合关联基数和综合关联系数;
5)根据具体关键字B、关键字C与关键字D综合关联基数和综合关联系数,搜索引擎按照程序对每一个关键字D排序。
8.如权利要求7所述的搜索引擎关键字关联的发现和生成方法,其特征在于设置关联系数阀值3和关联系数阀值4,以便对关键字C与关键字D关联系数大于关联系数阀值3或者小于关联系数阀值4的匹配生成关键字库不予考虑。
9.如权利要求7所述的搜索引擎关键字关联的发现和生成方法,其特征在于可以按照相同的原理生成与三个或三个以上相互关联关键字同时关联的关键字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610059316 CN101030206A (zh) | 2006-03-02 | 2006-03-02 | 搜索引擎关键字关联的发现和生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200610059316 CN101030206A (zh) | 2006-03-02 | 2006-03-02 | 搜索引擎关键字关联的发现和生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101030206A true CN101030206A (zh) | 2007-09-05 |
Family
ID=38715558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200610059316 Pending CN101030206A (zh) | 2006-03-02 | 2006-03-02 | 搜索引擎关键字关联的发现和生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101030206A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN102385577A (zh) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 搜索方法和系统 |
CN102567344A (zh) * | 2010-12-17 | 2012-07-11 | 中国移动通信集团公司 | 信息提供方法及装置 |
CN101620625B (zh) * | 2009-07-30 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 一种搜索关键词排序方法、装置和搜索引擎 |
CN103064977A (zh) * | 2013-01-14 | 2013-04-24 | 苏州海客科技有限公司 | 行程单两级关键字集合的建立以及搜索方法 |
CN103365870A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 搜索结果排序的方法和系统 |
CN103853808A (zh) * | 2012-11-28 | 2014-06-11 | 国际商业机器公司 | 产生搜索结果的方法和系统 |
CN104408103A (zh) * | 2014-11-19 | 2015-03-11 | 北京国双科技有限公司 | 文本内容的筛选方法及装置 |
CN112130714A (zh) * | 2019-06-25 | 2020-12-25 | 华为技术有限公司 | 可进行学习的关键词搜索方法和电子设备 |
-
2006
- 2006-03-02 CN CN 200610059316 patent/CN101030206A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101620625B (zh) * | 2009-07-30 | 2012-10-31 | 腾讯科技(深圳)有限公司 | 一种搜索关键词排序方法、装置和搜索引擎 |
CN102385585A (zh) * | 2010-08-27 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 网页数据库的建立方法、网页搜索方法以及相关装置 |
CN102385577A (zh) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | 搜索方法和系统 |
CN101984423B (zh) * | 2010-10-21 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
CN102567344B (zh) * | 2010-12-17 | 2013-09-18 | 中国移动通信集团公司 | 信息提供方法及装置 |
CN102567344A (zh) * | 2010-12-17 | 2012-07-11 | 中国移动通信集团公司 | 信息提供方法及装置 |
CN103365870A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 搜索结果排序的方法和系统 |
CN103365870B (zh) * | 2012-03-29 | 2017-12-01 | 腾讯科技(深圳)有限公司 | 搜索结果排序的方法和系统 |
CN103853808A (zh) * | 2012-11-28 | 2014-06-11 | 国际商业机器公司 | 产生搜索结果的方法和系统 |
US10108720B2 (en) | 2012-11-28 | 2018-10-23 | International Business Machines Corporation | Automatically providing relevant search results based on user behavior |
US10133823B2 (en) | 2012-11-28 | 2018-11-20 | International Business Machines Corporation | Automatically providing relevant search results based on user behavior |
CN103064977A (zh) * | 2013-01-14 | 2013-04-24 | 苏州海客科技有限公司 | 行程单两级关键字集合的建立以及搜索方法 |
CN104408103A (zh) * | 2014-11-19 | 2015-03-11 | 北京国双科技有限公司 | 文本内容的筛选方法及装置 |
CN104408103B (zh) * | 2014-11-19 | 2018-05-18 | 北京国双科技有限公司 | 文本内容的筛选方法及装置 |
CN112130714A (zh) * | 2019-06-25 | 2020-12-25 | 华为技术有限公司 | 可进行学习的关键词搜索方法和电子设备 |
CN112130714B (zh) * | 2019-06-25 | 2021-08-20 | 华为技术有限公司 | 可进行学习的关键词搜索方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101030206A (zh) | 搜索引擎关键字关联的发现和生成方法 | |
Wu et al. | Identifying link farm spam pages | |
CN1279475C (zh) | 用于在数据网络中搜索和分析信息的方法 | |
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
EP1738290B1 (en) | Partial query caching | |
US8122015B2 (en) | Multi-ranker for search | |
CN101055587A (zh) | 一种基于用户行为信息的搜索引擎检索结果重排序方法 | |
CN1894689A (zh) | 用于查询和显示搜索结果的方法、装置及软件 | |
CN1389811A (zh) | 搜索引擎的智能化搜索方法 | |
CN1517914A (zh) | 结构化文件的检索 | |
CN1755687A (zh) | 形成基于意图的聚类并由搜索引擎使用其来响应搜索请求 | |
CN102955798A (zh) | 一种基于搜索引擎的搜索方法及搜索服务器 | |
CN1882943A (zh) | 使用超单元的搜索处理的系统和方法 | |
CN101079064A (zh) | 一种网页排序方法及装置 | |
CN1858733A (zh) | 信息检索系统和检索方法 | |
CN101079033A (zh) | 一种综合搜索结果的排序系统及方法 | |
CN1533541A (zh) | 内容管理系统 | |
CN1610903A (zh) | 更新指纹数据库的方法、客户机及服务器 | |
CN103838754B (zh) | 信息搜索装置及方法 | |
CN1750002A (zh) | 提供搜索结果的方法 | |
CN1904886A (zh) | 在多个文档之间建立链接结构的方法和装置 | |
CN1906612A (zh) | 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统 | |
CN1818908A (zh) | 一种在搜索引擎中应用搜索者反馈信息的方法 | |
CN1967536A (zh) | 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法 | |
CN103902597A (zh) | 确定目标关键词所对应的搜索相关性类别的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |