CN102646103B - 检索词的聚类方法和装置 - Google Patents

检索词的聚类方法和装置 Download PDF

Info

Publication number
CN102646103B
CN102646103B CN201110043030.7A CN201110043030A CN102646103B CN 102646103 B CN102646103 B CN 102646103B CN 201110043030 A CN201110043030 A CN 201110043030A CN 102646103 B CN102646103 B CN 102646103B
Authority
CN
China
Prior art keywords
term
relevant
words
candidate search
search set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110043030.7A
Other languages
English (en)
Other versions
CN102646103A (zh
Inventor
赫南
王迪
郭阳
胡立新
王艳敏
朱建朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110043030.7A priority Critical patent/CN102646103B/zh
Priority to US14/000,083 priority patent/US20140019452A1/en
Priority to PCT/CN2012/070824 priority patent/WO2012109959A1/zh
Publication of CN102646103A publication Critical patent/CN102646103A/zh
Application granted granted Critical
Publication of CN102646103B publication Critical patent/CN102646103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了检索词的聚类方法和装置,其中,该方法包括:A,建立候选检索词集合,所述候选检索词集合包含由用户提供的检索词、以及与该用户提供的检索词相关的检索词;B,根据检索词的文本特征和/或语义特征对所述候选检索词集合中的检索词执行聚类操作。采用本发明,能够提高检索词聚类的准确度。

Description

检索词的聚类方法和装置
技术领域
本发明涉及网络搜索技术,特别涉及检索词的聚类方法和装置。
背景技术
在网络搜索技术中,用户都是通过检索词搜索到相应的结果。应用于竞价广告系统中,该检索词具体实现时可为广告商提供的广告的标识,也可称为购买词,目的是便于用户通过该检索词搜索到相应的广告。
在竞价广告系统中,为了提高广告搜索效率,提出了对竞价广告系统中由广告商提供的检索词进行聚类。其中,对检索词进行聚类,其可以抽象为对一个短文本串的集合进行聚类的过程。
目前,现有最常用的聚类方法为:针对一广告商提供的检索词,仅从目前已存在的所有广告商提供的检索词中找出字面上相似度较大的检索词,将该广告商提供的检索词和找出的检索词聚类在一起。如此,当搜索引擎用户通过一检索词检索相应的广告时,将与该检索词对应的广告,以及与该检索词聚类在一起的检索词对应的广告展示给用户。
然而,有一些检索词,尽管广告商没有提供,但其实质上与广告商提供的检索词对应的广告相关,而前述的聚类方法是仅将广告商提供的检索词进行字面相关的聚类,没有考虑到这些与广告商提供的检索词语义相关的、且目前还未被广告商提供的其他检索词,这降低了检索词聚类的准确度。
发明内容
本发明提供了检索词的聚类方法和装置,以提高检索词聚类的准确度。
本发明提供的技术方案包括:
一种检索词的聚类方法,包括:
建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;
根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
一种检索词的聚类装置,包括:
建立单元,用于建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;
聚类单元,用于根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
由以上技术方案可以看出,本发明提供的检索词的聚类方法和装置在进行检索词聚类时,并非像现有技术那样仅将用户提供的检索词进行字面关系的聚类,而是同时考虑到用户提供的检索词,以及与该用户提供的检索词相关的其他检索词,并根据检索词的文本特征和/或语义特征对用户提供的检索词,以及与该用户提供的检索词相关的其他检索词进行聚类,因而能够增加检索词聚类的准确度。
附图说明
图1为本发明实施例提供的基本流程图;
图2a为本发明实施例提供的步骤102的流程图;
图2b为本发明实施例提供的潜在聚类关系挖掘流程图;
图3a为本发明实施例提供的检索词之间的拓扑图结构第一示意图;
图3b为本发明实施例提供的检索词之间的拓扑图结构第二示意图;
图3c为本发明实施例提供的检索词之间潜在的聚类关系示意图;
图3d为本发明实施例提供的增加检索词时拓扑图结构第三示意图;
图4为本发明实施例提供的新增加检索词时的流程图;
图5为本发明实施例提供的装置的基本结构图;
图6为本发明实施例提供的装置的详细结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明在进行检索词聚类时,并非像现有技术那样仅将用户比如广告商提供的检索词进行字面关系的聚类,而是根据检索词的文本特征和/或语义特征将用户提供的检索词,以及与该检索词相关的检索词聚类,以便增加检索词聚类的准确度,下面对本发明提供的方法进行描述。
参见图1,图1为本发明实施例提供的基本流程图。如图1所示,该流程可包括以下步骤:
步骤101,建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词。
本步骤101中,与用户提供的第一检索词相关的第二检索词具体可包括:与该用户提供的第一检索词匹配的检索词,和/或,以该用户提供的第一检索词为关键词搜索的搜索结果中的检索词。
其中,与用户提供的第一检索词匹配的检索词具体可通过对该用户提供的第一检索词进行简单的字符串变换处理得到的检索词,或者根据实际经验确定出的与第一检索词经常在一起使用的检索词。比如,如果用户提供的第一检索词为咖啡壶,则根据经验可以知道咖啡壶通常与咖啡杯等经常使用,基于此,可确定与该第一检索词匹配的检索词可为咖啡杯等。
其中,以用户提供的第一检索词为关键词进行搜索所得到的搜索结果中的检索词具体可通过用户搜索串与广告检索词映射整合系统(QBM:QueryBidtermMerge)实现,其中,QBM具体实现时可为:以用户提供的第一检索词作为输入进行搜索,从搜索到的搜索结果中获取检索词,将该获取的检索词作为与该用户提供的第一检索词相关的检索词。
至此,通过步骤101即可得到候选检索词集合。需要说明的是,本实施例需要保证步骤101得到的候选检索词集合中没有重复的检索词。
步骤102,根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
本步骤102具体实现时,可根据第一检索词的文本特征和/或语义特征计算该第一检索词和所述候选检索词集合中与该第一检索词相关的第二检索词之间的相似度值,将该第一检索词和与该第一检索词具有较高相似度值的第二检索词聚类在一起。具体地,该步骤102可通过图2a所示的流程体现。
参见图2a,图2a为本发明实施例提供的步骤102的流程图。该流程示出了基本聚类关系的具体实现原理,如图2a所示,该流程可包括以下步骤:
步骤201a,根据第一检索词的文本特征和/或语义特征计算该第一检索词和其相关的每一个第二检索词之间的相似度值。
步骤202a,如果该第一检索词和第二检索词之间的相似度值大于或等于第一预设阈值,则将该第一检索词和该第二检索词聚类在一起。
通过步骤202a,能够将第一检索词和其相关的、且与该第一检索词之间的相似度值大于或等于第一预设阈值的第二检索词聚类在一起,即实现了本发明实施例的基本聚类。
优选地,为保证更加完整的聚类关系,本实施例还提供了潜在聚类关系的挖掘流程,具体可通过图2b所示的流程体现。
参见图2b,图2b为本发明实施例提供的潜在聚类关系挖掘流程图。如图2b所示,该流程可包括以下步骤:
步骤201b,从与第一检索词相关的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词。
作为本发明实施例的一种扩展,为降低潜在聚类关系挖掘的复杂度,本步骤201b还可替换为:从与第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词。
其中,本步骤201b中的第二预设阈值与步骤202a中的第一预设阈值无关,两者可相等,也可不等。
步骤202b,计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于所述第一预设阈值,则将该两个第二检索词聚类在一起。
通过步骤201b至步骤202b,能够实现潜在聚类关系的挖掘。
如此,本发明实施例将步骤202a中聚类在一起的第一检索词和第二检索词(即该第一检索词和第二检索词之间具有聚类关系),以及步骤202b中聚类在一起的第二检索词合并在一起,即可形成了本发明实施例的全量聚类结果。优选地,本实施例中,步骤202a的聚类和步骤202b的聚类均可按照类似现有的机器学习模型实现,这里并不具体限定。
为使图2所示的流程更加清楚,下面通过一个具体实施例对本发明提供的流程进行描述。
假如用户提供的第一检索词分别为b1,b3、b4和b5,其中,通过步骤101,可以得到:与b1相关的第二检索词为b2,b3和b4,与b3相关的第二检索词为b5、b6和b4,与b4相关配的第二检索词为b7、b8和b9,与b5相关的第二检索词为b3。将所有检索词通过图3a所示的图数据结构表示。参见图3a,图3a为本发明实施例提供的检索词之间的拓扑图结构第一示意图。在图3a中,将每个检索词作为节点bi(i取值为1至9),从节点bi至节点bj(j取值为1至9)的箭头,表示bi可扩展出bj,也即,与bi的相关检索词为bj。从图3a可以看出,图3a示出的拓扑图是一个有向无环图,也就是说,两个检索词之间的相关关系并非保证是双向相关,具体为:从bi可以扩展出与bi相关的检索词为检索词bj,但从检索词bj并非一定扩展出与检索词bj相关的检索词为检索词bi。
之后,基于步骤201a,则可得到:针对b1,根据b1的文本特征和/或语义特征计算b1和b2之间的相似度值w12,b1和b3之间的相似度值w13,b1和b4之间的相似度值w14;针对b3,根据b3的文本特征和/或语义特征计算b3和b4之间的相似度值w14,b3和b5之间的相似度值w35,b3和b6之间的相似度值w36;针对b4,根据b4的文本特征和/或语义特征计算b4和b7之间的相似度值w47,b4和b8之间的相似度值w48,b4和b9之间的相似度值w49;针对b5,根据b5的文本特征和/或语义特征计算b5和b3之间的相似度值w53。
之后,针对图3a中用户提供的每一个第一检索词执行步骤202a,当执行完步骤202a时,图3a即可变成图3b。参见图3b,图3b为本发明实施例提供的检索词之间的拓扑图结构第二示意图。图3b示出了相互连接的检索词之间的聚类关系,其中,实线连接的两个检索词表示该两个检索词具有的聚类关系为:两者被认为等价,可聚类在一起;虚线连接的两个检索词具有的聚类关系为:两者不等价,不可聚类在一起,后续可去掉该虚线。
由于在图3a所示的拓扑图中,与同一个第一检索词相关的各个第二检索词之间也可能具有潜在的聚类关系。这种聚类关系可能已经在步骤203找到(比如,b3和b4之间的聚类关系),也可能没有(比如,b2和b3之间的聚类关系)。为使检索词聚类更加精确,依据图2b所示的潜在聚类关系挖掘流程,可得到其中,与用户提供的相关的之间潜在的聚类关系可通过图3c中的虚线表示的潜在的聚类关系。以图3c中用户提供的第一检索词b1为例进行描述,用户提供的其他检索词原理类似。如此,根据上面图3a的描述可以知道,与b1的第二检索词为:b2、b3和b4,如此,基于步骤201b,当b2、b3和b4与b1之间的相似度值均大于或等于第二预设阈值时,本发明可以补充挖掘出3条潜在的聚类关系:b2与b3之间的聚类关系,b2与b4之间的聚类关系,以及b3与b4之间的聚类关系。其中,b3与b4之间的聚类关系已经在上述步骤202a被确定,因此,作为本发明实施例的一种扩展,本发明可省略执行确定b3与b4之间的聚类关系的操作,只需增加b2与b3之间的聚类关系和b2与b4之间的聚类关系。之后计算出b2与b3之间的相似度值,以及b2与b4之间的相似度值,判断b2与b3之间的聚类关系和b2与b4之间的聚类关系是否符合聚类的标准,具体为:基于上述步骤202b,判断该b2与b3之间的相似度值是否大于或等于第一预设阈值,如果是,则确定b2与b3之间的聚类关系为:b2和b3等价,可聚类在一起,否则,确定b2与b3之间的聚类关系为:不将b2和b3聚类在一起。同理,b2与b4之间的相似度值也是执行类似方法。
当通过上面描述验证出图3c中虚线连接的两个检索词等价,可以聚类在一起时,将该虚线变为实线;否则,保持该虚线不变,即认为虚线连接的两个检索词不等价,不可聚类在一起,后续可将该虚线去掉。之后,将最终由实线连接的所有检索词作为本发明实施例最终的聚类结果。
由于本发明实施例中,检索词之间的聚类关系通过检索词之间的实线(也称为边关系)表示,因此,本发明实施例可仅遍历边关系,这样,可以使本发明实施例的复杂度降低为O(n+e),其中n表示检索词的个数,e表示边关系的个数。
需要说明的是,作为本发明实施例的一种扩展,本发明实施例中,还可进一步挖掘图3a中与用户提供的第一检索词相关的第二检索词,以及该第二检索词在N(比如N为3)跳以内各“子孙”节点之间潜在的聚类关系,具体实现方式参见图2b所示流程,这里不再详述。
另外,在竞价广告系统中,候选检索词集合并非固定不变,其可随着时间的推移递增检索词。比如,在某一个时间点,候选检索词集合又新增加了用户提供的第一检索词,该新增加的第一检索词,相对之前的所有检索词是新出现的。对该新增加的第一检索词,也需要对其执行类似图2a和图2b所示的聚类操作,同时,将执行聚类操作后得到的结果与之前的聚类结果整合到一起。具体见图4所示的流程。
参见图4,图4为本发明实施例提供的新增加第一检索词时的流程(记为增量更新流程)图。如图4所示,该流程可包括以下步骤:
步骤401,确定与该增加的第一检索词相关的第二检索词,并将该增加的第一检索词和该确定的与该增加的第一检索词相关的第二检索词中与所述候选检索词集合中任一检索词不同的第二检索词添加到所述候选检索词集合中。
比如,候选检索词集合在执行步骤401之前存放的检索词为图3a所示的b1至b9,当执行到本步骤401时,如果新增加以下两个第一检索词:n1和n2。其中,与n1相关的第二检索词为b5和b6,与n2相关的第二检索词为b1、b2、b3、b4、b8和n3,具体可参见图3d所示。由于与n1相关的b5和b6,以及与n2相关的b1、b2、b3、b4、b8都已存放在候选检索词集合中,因此,本步骤401仅可将n1、n2,以及与n2相关的n3添加至候选检索词集合。
步骤402,根据检索词的文本特征和/或语义特征对所述候选检索词集合中新增加的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
该聚类操作与图2a所示的流程类似。下面仅以新增加的第一检索词为n1为例对本步骤402进行描述,增加的其他检索词原理类似。
则,针对n1,基于步骤401,确定出与该n1相关的第二检索词为b5和b6。如此,执行到本步骤402时,基于图2a所示的流程,则根据n1的文本特征和/或语义特征计算n1与b5之间的相似度值,以及计算n1与b6之间的相似度值,之后判断n1与b5之间的相似度值是否大于或等于第一预设阈值,如果是,则确定n1与b5等价,两者可以聚类在一起,否则,不将n1与b5聚类在一起。针对n1与b6之间的相似度值也执行同样操作。
步骤403,对候选检索词集合中与增加的第一检索词相关的第二检索词进行潜在聚类关系的挖掘。
本步骤403可采用图2b所示的流程进行潜在聚类关系的挖掘,简单描述为:从候选检索词集合中与增加的第一检索词相关的各个第二检索词,或者从与增加的第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词;计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于所述第一预设阈值,则将该两个第二检索词聚类在一起。
仍以新增加的第一检索词为检索词n1为例,由于在步骤401确定出与该n1相关的第二检索词为b5和b6,因此,执行到本步骤403时,如果b5和b6分别与n1之间的相似度值均大于第二预设阈值,则可计算b5和b6之间的相似度值,如果该计算的相似度值大于或等于第一预设阈值,则将该两个检索词b5和b6聚类在一起,否则,不将b5和b6聚类在一起。
至此,通过上述步骤401至步骤403实现了新增加的第一检索词(记为增量检索词)与原来已存在的检索词(记为旧检索词)之间的聚类关系(下文记为增量聚类结果)。该增量聚类结果与之前存在的全量聚类结果统称为本发明最终的聚类结果。
需要说明的是,本实施例中,与第一检索词相关的第二检索词并非固定不变,其也会根据用户的增删发生变化,基于此,本发明实施例提供的方法还应能够反映该变化。该变化通过定期更新候选检索词集合(记为全量更新)实现,具体实现为:在设定的全量更新时间到达时,针对所述候选检索词集合中的第一检索词,确定与该第一检索词相关的第二检索词,将该第一检索词和确定的与该第一检索词相关的第二检索词均放入一个新的候选检索词集合中,之后按照图2a和图2所示的流程对该新的候选检索词集合中的检索词进行聚类,得到全量聚类结果。这可通过表1形象描述。
假设第一天用户提供的第一检索词为:B1,该第一检索词相应的QBM扩展结果为Q1=Q(B1)中,该扩展结果主要为与该第一检索词相关的第二检索词的集合。基于图2a和图2b所示的流程对第一检索词和第二检索词进行聚类得到的聚类结果为:C1=C(Q(B1));如此,随着时间推移需要增加检索词时,参见表1:
从表1可以看出,全量更新在第i天开始,第k天结束,在第k+1(也即L)天,做全量数据与增量数据的同步操作,即,将截止到第k+1(也即L)天候选检索词集合中的所有第一检索词执行图4所示的流程。
下面对本发明实施例提供的装置进行描述。
参见图5,图5为本发明实施例提供的装置的基本结构图。如图5所示,该装置可包括:
建立单元501,用于建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;
聚类单元502,用于根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
在具体实现时,图5所示的装置具体可参见图6。
参见图6,图6为本发明实施例提供的装置的详细结构图。如图6所示,该装置可包括建立单元601和聚类单元602,其中,建立单元601和聚类单元602具有的功能分别与图5所示的建立单元501和聚类单元502类似,这里不再赘述。
优选地,如图6所示,该装置可进一步包括:
添加单元603,用于当用户增加新的第一检索词时,确定与该增加的第一检索词相关的第二检索词,并将该增加的第一检索词和该确定的与该增加的第一检索词相关的第二检索词中与所述候选检索词集合中任一检索词不同的第二检索词添加到所述候选检索词集合中;
基于此,聚类单元602还用于根据检索词的文本特征和/或语义特征对所述候选检索词集合中新增加的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
优选地,如图6所示,该装置进一步包括:
更新单元604,用于在设定的全量更新时间到达时,针对所述候选检索词集合中的第一检索词,确定与该第一检索词相关的第二检索词,将该第一检索词和确定的与该第一检索词相关的第二检索词均放入一个新的候选检索词集合中。
基于此,聚类单元602还用于根据检索词的文本特征和/或语义特征对该新的候选检索词集合中第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
具体地,聚类单元602通过以下子单元执行聚类操作:
计算子单元6021,用于根据第一检索词的文本特征和/或语义特征分别计算该第一检索词和与该第一检索词相关的各个第二检索词之间的相似度值;
聚类子单元6022,用于在第一检索词和第二检索词之间的相似度值大于或等于第一预设阈值时,将该第一检索词和该第二检索词聚类在一起。
优选地,聚类子单元6022还用于从与第一检索词相关的各个第二检索词,或者从与第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词;以及计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于所述第一预设阈值,则将该两个第二检索词聚类在一起,所述第一预设阈值与第二预设阈值无关
以上对本发明实施例提供的装置进行了描述。
由以上技术方案可以看出,本发明提供的检索词的聚类方法和装置在进行检索词聚类时,并非像现有技术那样仅将用户提供的检索词进行字面关系的聚类,而是同时考虑到用户提供的检索词,以及与该用户提供的检索词相关的其他检索词,并根据检索词的文本特征和/或语义特征对用户提供的检索词,以及与该用户提供的检索词相关的其他检索词进行聚类,这显然大大增加检索词聚类的准确度;
进一步地,本发明还挖掘出与用户提供的第一检索词相关的各个第二检索词之间的聚类关系,这相比于现有技术,可深度挖掘出检索词之间的聚类关系,使检索词的聚类更加精确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (7)

1.一种检索词的聚类方法,其特征在于,该方法包括:
建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;
根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作;其中,根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作具体包括:根据第一检索词的文本特征和/或语义特征分别计算该第一检索词和与该第一检索词相关的各个第二检索词之间的相似度值,如果第一检索词和第二检索词之间的相似度值大于或等于第一预设阈值,则将该第一检索词和该第二检索词聚类在一起;
从与第一检索词相关的各个第二检索词,或者从与第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词;计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于所述第一预设阈值,则将该两个第二检索词聚类在一起。
2.根据权利要求1所述的方法,其特征在于,当用户增加第一检索词时,该方法进一步包括:
确定与该增加的第一检索词相关的第二检索词,并将该增加的第一检索词和该确定的与该增加的第一检索词相关的第二检索词中与所述候选检索词集合中任一检索词不同的第二检索词添加到所述候选检索词集合中;
根据检索词的文本特征和/或语义特征对所述候选检索词集合中新增加的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
3.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
在设定的全量更新时间到达时,针对所述候选检索词集合中的第一检索词,确定与该第一检索词相关的第二检索词,将该第一检索词和确定的与该第一检索词相关的第二检索词均放入一个新的候选检索词集合中,根据检索词的文本特征和/或语义特征对该新的候选检索词集合中第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
4.根据权利要求1所述的方法,其特征在于,与第一检索词相关的第二检索词包括:
与第一检索词匹配的检索词,和/或,以第一检索词为关键词搜索的搜索结果中的检索词。
5.一种检索词的聚类装置,其特征在于,该装置包括:
建立单元,用于建立候选检索词集合,所述候选检索词集合包含由用户提供的第一检索词、以及与第一检索词相关的第二检索词;
聚类单元,用于根据检索词的文本特征和/或语义特征对所述候选检索词集合中的第一检索词和与该第一检索词相关的第二检索词执行聚类操作;以及,从与第一检索词相关的各个第二检索词,或者从与第一检索词聚类在一起的各个第二检索词中选取与该第一检索词之间的相似度值大于或等于第二预设阈值的第二检索词;计算该选取的任意两个第二检索词之间的相似度值,如果该计算的相似度值大于或等于第一预设阈值,则将该两个第二检索词聚类在一起;
其中,所述聚类单元通过以下子单元对第一检索词和与该第一检索词相关的第二检索词执行聚类操作:
计算子单元,用于根据第一检索词的文本特征和/或语义特征分别计算该第一检索词和与该第一检索词相关的各个第二检索词之间的相似度值;
聚类子单元,用于在第一检索词和第二检索词之间的相似度值大于或等于第一预设阈值时,将该第一检索词和该第二检索词聚类在一起。
6.根据权利要求5所述的装置,其特征在于,所述装置进一步包括:
添加单元,用于当用户增加第一检索词时,确定与该增加的第一检索词相关的第二检索词,并将该增加的第一检索词和该确定的与该增加的第一检索词相关的第二检索词中与所述候选检索词集合中任一检索词不同的第二检索词添加到所述候选检索词集合中;
所述聚类单元,还用于根据检索词的文本特征和/或语义特征对所述候选检索词集合中新增加的第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
7.根据权利要求5所述的装置,其特征在于,所述装置进一步包括:
更新单元,用于在设定的全量更新时间到达时,针对所述候选检索词集合中的第一检索词,确定与该第一检索词相关的第二检索词,将该第一检索词和确定的与该第一检索词相关的第二检索词均放入一个新的候选检索词集合中;
所述聚类单元还用于根据检索词的文本特征和/或语义特征对该新的候选检索词集合中第一检索词和与该第一检索词相关的第二检索词执行聚类操作。
CN201110043030.7A 2011-02-18 2011-02-18 检索词的聚类方法和装置 Active CN102646103B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201110043030.7A CN102646103B (zh) 2011-02-18 2011-02-18 检索词的聚类方法和装置
US14/000,083 US20140019452A1 (en) 2011-02-18 2012-02-01 Method and apparatus for clustering search terms
PCT/CN2012/070824 WO2012109959A1 (zh) 2011-02-18 2012-02-01 检索词的聚类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110043030.7A CN102646103B (zh) 2011-02-18 2011-02-18 检索词的聚类方法和装置

Publications (2)

Publication Number Publication Date
CN102646103A CN102646103A (zh) 2012-08-22
CN102646103B true CN102646103B (zh) 2016-03-16

Family

ID=46658926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110043030.7A Active CN102646103B (zh) 2011-02-18 2011-02-18 检索词的聚类方法和装置

Country Status (3)

Country Link
US (1) US20140019452A1 (zh)
CN (1) CN102646103B (zh)
WO (1) WO2012109959A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699550B (zh) * 2012-09-27 2017-12-12 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
CN103853722B (zh) * 2012-11-29 2017-09-22 腾讯科技(深圳)有限公司 一种基于检索串的关键词扩展方法、装置和系统
CN104123279B (zh) * 2013-04-24 2018-12-07 腾讯科技(深圳)有限公司 关键词的聚类方法和装置
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
CN103744889B (zh) * 2013-12-23 2019-02-22 百度在线网络技术(北京)有限公司 一种用于对问题进行聚类处理的方法与装置
CN104933081B (zh) * 2014-03-21 2018-06-29 阿里巴巴集团控股有限公司 一种搜索建议提供方法及装置
TW201619853A (zh) * 2014-11-21 2016-06-01 財團法人資訊工業策進會 檢索過濾方法及其處理裝置
CN104462272B (zh) * 2014-11-25 2018-05-04 百度在线网络技术(北京)有限公司 搜索需求分析方法和装置
CN106326259A (zh) * 2015-06-26 2017-01-11 苏宁云商集团股份有限公司 搜索引擎中商品标签的构建方法、系统及搜索方法和系统
CN106610989B (zh) * 2015-10-22 2021-06-01 北京国双科技有限公司 搜索关键词聚类方法及装置
CN106951511A (zh) * 2017-03-17 2017-07-14 福建中金在线信息科技有限公司 一种文本聚类方法及装置
US11409799B2 (en) 2017-12-13 2022-08-09 Roblox Corporation Recommendation of search suggestions
CN111259058B (zh) * 2020-01-16 2023-09-15 北京百度网讯科技有限公司 数据挖掘方法、数据挖掘装置和电子设备
CN112650907B (zh) * 2020-12-25 2023-07-14 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN115376054B (zh) * 2022-10-26 2023-03-24 浪潮电子信息产业股份有限公司 一种目标检测方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100106718A (ko) * 2009-03-24 2010-10-04 엔에이치엔(주) 연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 시스템 및 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5931907A (en) * 1996-01-23 1999-08-03 British Telecommunications Public Limited Company Software agent for comparing locally accessible keywords with meta-information and having pointers associated with distributed information
US6502091B1 (en) * 2000-02-23 2002-12-31 Hewlett-Packard Company Apparatus and method for discovering context groups and document categories by mining usage logs
ATE288108T1 (de) * 2000-08-18 2005-02-15 Exalead Suchwerkzeug und prozess zum suchen unter benutzung von kategorien und schlüsselwörtern
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법
US20030120630A1 (en) * 2001-12-20 2003-06-26 Daniel Tunkelang Method and system for similarity search and clustering
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7689585B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Reinforced clustering of multi-type data objects for search term suggestion
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US7792858B2 (en) * 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
US8799285B1 (en) * 2007-08-02 2014-08-05 Google Inc. Automatic advertising campaign structure suggestion
US7962486B2 (en) * 2008-01-10 2011-06-14 International Business Machines Corporation Method and system for discovery and modification of data cluster and synonyms
US20100094673A1 (en) * 2008-10-14 2010-04-15 Ebay Inc. Computer-implemented method and system for keyword bidding
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects
US8463783B1 (en) * 2009-07-06 2013-06-11 Google Inc. Advertisement selection data clustering
US9002857B2 (en) * 2009-08-13 2015-04-07 Charite-Universitatsmedizin Berlin Methods for searching with semantic similarity scores in one or more ontologies
US20110295678A1 (en) * 2010-05-28 2011-12-01 Google Inc. Expanding Ad Group Themes Using Aggregated Sequential Search Queries
US9830379B2 (en) * 2010-11-29 2017-11-28 Google Inc. Name disambiguation using context terms

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100106718A (ko) * 2009-03-24 2010-10-04 엔에이치엔(주) 연관 키워드에 따른 클러스터를 이용하여 검색 키워드를 분류하는 시스템 및 방법

Also Published As

Publication number Publication date
CN102646103A (zh) 2012-08-22
US20140019452A1 (en) 2014-01-16
WO2012109959A1 (zh) 2012-08-23

Similar Documents

Publication Publication Date Title
CN102646103B (zh) 检索词的聚类方法和装置
CN101364259B (zh) 多层次知识驱动的全色遥感影像的道路变化信息提取方法
CN102760134B (zh) 一种同义词的挖掘方法和装置
US20170116224A1 (en) Address Search Method and Device
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
CN101178310B (zh) 利用全数字化摄影测量技术进行输电线路勘测设计内外业一体化的方法
CN105183770A (zh) 一种基于图模型的中文集成实体链接方法
CN104216895A (zh) 一种生成poi数据的方法及装置
CN102270048B (zh) 一种名词输入的方法及系统
CN103714092A (zh) 一种地理位置的搜索方法和装置
CN101950284A (zh) 中文分词方法及系统
CN102591880A (zh) 信息提供方法及装置
CN106202294A (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN102750282B (zh) 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
CN103136262A (zh) 信息检索方法及装置
CN107992608A (zh) 一种基于关键字上下文的sparql查询语句自动生成方法
CN103712628B (zh) 导航路径描绘方法和终端
CN103020083B (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN103218452A (zh) 一种识别Hub页中有效链接的方法和装置
CN102622363A (zh) 关联词汇搜索系统及方法
CN106155998A (zh) 一种数据处理方法及装置
US9223460B2 (en) Toolbar search centered user interface model
CN102710833A (zh) 一种手机测试用例及其自动生成方法
CN105631075A (zh) 一种标准单元优化方法及系统
CN104866592A (zh) 搜索引擎中摘要的展现方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant