CN105446984A - 一种扩展词对的筛选方法及装置 - Google Patents

一种扩展词对的筛选方法及装置 Download PDF

Info

Publication number
CN105446984A
CN105446984A CN201410306347.9A CN201410306347A CN105446984A CN 105446984 A CN105446984 A CN 105446984A CN 201410306347 A CN201410306347 A CN 201410306347A CN 105446984 A CN105446984 A CN 105446984A
Authority
CN
China
Prior art keywords
query word
word
query
expansion
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410306347.9A
Other languages
English (en)
Inventor
何炜
李波
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410306347.9A priority Critical patent/CN105446984A/zh
Priority to TW103134415A priority patent/TW201601091A/zh
Priority to PCT/US2015/038365 priority patent/WO2016003930A1/en
Priority to US14/754,449 priority patent/US20150379129A1/en
Publication of CN105446984A publication Critical patent/CN105446984A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种扩展词对的筛选方法,用以解决在用户行为不够丰富的场景下,按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。方法包括:获得至少两个查询词对;从所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对;从确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。本申请还公开一种扩展词对的筛选装置。

Description

一种扩展词对的筛选方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种扩展词对的筛选方法及装置。
背景技术
目前,在至少一些网站上,广告主为了在其上推广商品,往往会“购买”一些关键词,这些被购买的关键词也称为“竞价词”(bid-word)。后续用户以竞价词或其他词作为查询词(query)对商品进行搜索时,若搜索到推广商品的信息(也称为曝光)并进行了点击,则广告扣费系统会按照与用户使用的查询词相匹配的竞价词计费标准,从广告主账户中扣取单次点击广告费。
一般地,以竞价词作为查询词而搜索到推广商品的信息的情况,被称为“精确匹配”;而以其他词作为查询词而搜索到推广商品的信息的情况,被称为“扩展匹配”。
针对扩展匹配而言,为了确定与查询词相匹配的竞价词计费标准,首先需要确定与查询词相匹配的竞价词。其中,单个竞价词以及与该单个竞价词相匹配的单个查询词构成的词对可称为“扩展词对”。特别地,扩展词对所包含的两个词都有可能是竞价词。
现有技术中,扩展词对可以是基于用户行为确定的。具体实现方式如下:
首先,针对一些查询词,判断用户是否根据该些查询词中的每个查询词,分别实现了对于同一商品信息执行特定行为,其中,这里所说的特定行为一般为搜索行为、点击行为、下单行为(电子商务网站特有)或反馈行为(比如用户发表对于商品的评价)等;
若判断结果为是,则根据竞价词数据库,确定由该些查询词中的查询词两两组合而成的查询词对中,是否分别存在竞价词;
最后,从存在竞价词的查询词对中,选取包含的各查询词在特定时间段内被单个用户均用作搜索依据的次数不小于规定次数阈值的查询词对,作为扩展词对。其中,被单个用户均作为搜索依据的次数称为“共现次数”。
上述扩展词对确定方式存在的缺陷在于,在用户行为不够丰富的场景下,满足包含的各查询词在特定时间段内的共现次数不小于规定次数阈值的查询词对数量较小,进而导致确定出的扩展词对的数量较小,有可能不能满足实际需求。
发明内容
本申请实施例提供一种扩展词对的筛选方法,用以解决在用户行为不够丰富的场景下,按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。
本申请实施例还提供一种扩展词对的筛选装置,用以解决在用户行为不够丰富的场景下,按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。
本申请实施例采用下述技术方案:
一种扩展词对的筛选方法,包括:获得至少两个查询词对;其中,每个查询词对包含至少一个作为竞价词的查询词;从所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对;从确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
一种扩展词对的筛选装置,包括:获得单元,用于获得至少两个查询词对;其中,每个查询词对包含至少一个作为竞价词的查询词;第一确定单元,用于从获得单元获得的所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对;选取单元,用于从第一确定单元确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
由于可以根据设置的扩展词对必要条件,从包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对中,选取出作为扩展词对的查询词,从而即便是在用户行为不够丰富,因而导致包含的各查询词在特定时间段内的共现次数不小于规定次数阈值的查询词对数量较小的场景下,也可以得到较多的扩展词对,解决在该场景下按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种扩展词对的筛选方法的具体流程示意图;
图2为本申请实施例提供的另一种扩展词对的筛选方法的具体流程示意图;
图3为本申请实施例提供的一种扩展词对的筛选装置的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
为了解决在用户行为不够丰富的场景下,按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题,本申请实施例提供一种扩展词对的筛选方法。该方法的具体流程示意图如图1所示,包括如下步骤:
步骤11,获得至少两个查询词对。
其中,每个查询词对包含至少一个作为竞价词的查询词。
步骤12,从通过执行步骤11而获得的所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对。
这里所说的特定时间段可以是一个或多个session,也可以是规定的其他时间段(比如最近三个月),等等。特别地,在一种特定的实施方式中,该至少两个查询词对来自于不同用户session。比如,获得的至少两个查询词对中,至少包括:在特定时间段内被第一用户用作搜索依据的第一查询词对,以及在特定时间段内被第二用户用作搜索依据的第二查询词对。
其中,session是指单个用户终端在特定状态下与通信对端(往往是网站服务器)进行的通信所持续的时间长度,通常是指从用户终端登录到网站至退出网站所经过的时间长度。
当获得的所述至少两个查询词对来自于不同用户session时,步骤12的具体实现过程可以包括下述子步骤:
针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内被单个用户用作搜索依据的次数;并
针对所述至少两个查询词对中的、在特定时间段内被至少两个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内分别被各个用户用作搜索依据的次数总和;
然后,根据针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对所确定出的次数,以及确定出的各次数总和,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对。
本申请实施例中,对于包含的各查询词在特定时间段内的共现次数大于或等于第一次数阈值的查询词对可以认为是高置信度词对,可以直接将这些查询词对作为扩展词对。对于包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对可以认为是低置信度词对,可以作进一步的挖掘,详述如下。
步骤13,从通过执行步骤12而确定出的查询词对(即低置信度词对)中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
采用本申请实施例提供的上述方法,由于可以根据设置的扩展词对必要条件,从包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对中,选取出作为扩展词对的查询词,从而即便是在用户行为不够丰富,进而导致包含的各查询词在特定时间段内的共现次数不小于规定次数阈值的查询词对数量较小的场景下,也可以得到较多的扩展词对,解决在该场景下按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。当然,在一些实施方式中,也可以进一步结合用户行为对扩展词进行挖掘。
本申请实施例中,具体可以但不限于采用下述几种方式实现步骤13,以下具体介绍这几种方式。
第一种方式:
根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
第一种方式中,扩展词对必要条件可以包括:包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值。
第二种方式:
根据通过执行步骤12而确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
这里所说的“查询词单元”是指对查询词进行分词处理而得到的词单元。比如,对“挪威进口的三文鱼”这一查询词进行分词处理,可以得到词单元“挪威”、“进口”和“三文鱼”。本申请实施例中,可以采用现有技术中的分词技术实现对查询词的分词处理。
第二种方式中,扩展词对必要条件可以包括:满足查询词单元重合条件。
其中,查询词单元重合条件的含义在于:
若假设单个查询词对包含第一查询词和第二查询词,则查询词单元重合条件包括:第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。即第一查询词和第二查询词在语义上是有一定的相关性的。
第三种方式:
根据通过执行步骤12而确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
其中,若假设单个查询词对包含第一查询词和第二查询词,则第一查询词和第二查询词之间的提升度lift(Q1,Q2)的计算公式如下式[1]所示:
lift ( Q 1 , Q 2 ) = P ( Q 1 , Q 2 ) P ( Q 1 ) P ( Q 2 ) - - - [ 1 ]
公式[1]中,P(Q1,Q2)的计算方式如式[2]所示:
P ( Q 1 , Q 2 ) = n N - - - [ 2 ]
公式[2]中,n为第一查询词和第二查询词在特定时间段内被特定用户均用作搜索依据的总次数;N为:通过执行步骤12而确定出各查询词对分别包含的查询词在特定时间段内被特定用户均用作搜索依据的总次数。其中,这里所说的“特定用户”为在特定时间段内以通过执行步骤12而确定出查询词作为搜索依据的用户。
基于公式[2],比如针对包含第一查询词“A”和第二查询词“B”的查询词对而言,若假设通过执行步骤12而确定出的查询词对为{A、B}以及{B、C},且假设特定用户包含第一用户、第二用户和第三用户,那么,当第一用户和第二用户在特定时间段内都使用“A”和“B”查询过商品,而第一用户、第二用户和第三用户在该特定时间段内都使用过“B”和“C”查询过商品时,可以确定:“A”和“B”在特定时间段内被特定用户均用作搜索依据的总次数为2,“B”和“C”在特定时间段内被特定用户均用作搜索依据的总次数为3,则有n=2,N=2+3=5。从而根据公式[2],可以计算出与{A、B}对应的P(Q1,Q2)=2/5=0.4。
公式[1]中,P(Q1)的计算方式如式[3]所示:
P ( Q 1 ) = m M - - - [ 3 ]
其中,m为第一查询词在特定时间段内被特定用户用作搜索依据的总次数;M为通过执行步骤12而确定出的各查询词对分别包含的查询词在特定时间段内被特定用户用作搜索依据的次数之和。
基于公式[3],比如仍然假设通过执行步骤12而确定出的查询词对为{A、B}以及{B、C},且假设特定用户包含第一用户、第二用户和第三用户,那么,若第一用户和第二用户在特定时间段内都使用“A”查询过商品,且“A”的使用总次数为5,则有m=5。若第一用户、第二用户和第三用户在该特定时间段内使用“B”查询过商品的次数分别为1、1和4;使用“C”查询过商品的次数分别为1、1和3,则有M=m+1+1+4+1+1+3=16。从而根据公式[3],可以计算出与A对应的P(Q1)=5/16=0.3125。
公式[1]中,P(Q2)的计算方式如式[4]所示:
P ( Q 2 ) = l L - - - [ 4 ]
其中,l为第二查询词在特定时间段内被特定用户用作搜索依据的总次数;L为通过执行步骤12而确定出各查询词对分别包含的查询词在特定时间段内被特定用户用作搜索依据的次数之和。
基于公式[4],比如仍然假设通过执行步骤12而确定出的查询词对为{A、B}以及{B、C},且假设特定用户包含第一用户、第二用户和第三用户,那么,若第一用户和第二用户在特定时间段内都使用“B”查询过商品,且“B”的使用总次数为6,则有l=6。若第一用户、第二用户和第三用户在该特定时间段内使用“A”查询过商品的次数总和为5;使用“C”查询过商品的次数总和也为5,则有L=l+5+5=16。从而根据公式[4],可以计算出与B对应的P(Q2)=6/16=0.375。
针对查询词对{A、B}而言,在计算出P(Q1)=0.3125、P(Q2)=0.375、P(Q1,Q2)=0.4的基础上,可以进一步根据公式[1],计算出A和B之间的提升度lift(Q1,Q2)=0.4/(0.3125×0.375)≈3.4。
在一种实施方式中,若确定出的提升度的值大于提升度阈值,则可以确定相应的查询词对符合扩展词对必要条件,从而进一步确认该查询词对可以作为扩展词对。
举例而言,若提升度阈值为1,则当针对查询词对{A、B}确定出的提升度lift(Q1,Q2)≈3.4时,可以确定查询词对{A、B}可以作为扩展词对。
第四种方式:
根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,以及所述确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
第四种方式中,扩展词对必要条件可以包括:包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值,且满足前文所述的查询词单元重合条件。
第五种方式:
根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,以及所述确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
第五种方式中,扩展词对必要条件可以包括:包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值,且包含的查询词之间的提升度的值大于提升度阈值。
第六种方式:
根据通过执行步骤12而确定出的查询词对分别包含的各查询词的查询词单元的重合度,以及所述确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
第六种方式中,扩展词对必要条件可以包括:满足前文所述的查询词单元重合条件,且包含的查询词之间的提升度的值大于提升度阈值。
第七种方式:
根据通过执行步骤12而确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数、所述确定出的查询词对分别包含的各查询词的查询词单元的重合度,以及所述确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
第七种方式中,扩展词对必要条件可以包括:包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;且满足查询词单元重合条件;且包含的查询词之间的提升度的值大于提升度阈值。
需要说明的是,由于根据提升度选取查询词对的过程一般会耗费较多的计算资源,因此,在以上述次数、重合度以及提升度作为查询词对选取依据的情况下,可以先以上述次数作为查询词对选取依据,从通过执行步骤12而确定出的查询词对中选取查询词对(为便于描述,后文将此处选取出的查询词对简称为“第一部分查询词对”);然后,再以上述重合度作为查询词对选取依据,从第一部分查询词对中进一步选取查询词对(为便于描述,后文将此处选取出的查询词对简称为“第二部分查询词对”);最后,以上述提升度作为查询词对选取依据,从第二部分查询词对中选取查询词对(为便于描述,后文将此处选取出的查询词对简称为“第三部分查询词对”)。其中,第一部分查询词对满足:包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;第二部分查询词对满足查询词单元重合条件;第三部分查询词对满足:包含的查询词之间的提升度的值大于提升度阈值。
采用上述选取方式,可以使得根据提升度选取查询词对时,只需要针对第二部分查询词对执行计算提升度的操作。由于第二部分查询词对的总数量往往小于(且一般是远小于)通过执行步骤12而确定出的查询词对的总数量,从而相比于先以提升度为依据选取查询词对的方式相比,采用上述选取方式可以达到节省计算资源的目的。
可选的,在第七种方式中,也可以依次以上述重合度、上述次数和上述提升度作为查询词对选取依据。
本申请实施例中,以上述次数还是上述重合度作为查询词对的第一个选取依据,可以视具体场景而定。一般地,若存在X<Y,则可以确定以上述次数作为查询词对的第一个选取依据;否则,则确定以上述重合度作为查询词对的第一个选取依据。其中,X为以上述次数作为查询词对的选取依据,从通过执行步骤12而确定出的查询词对中选取出的查询词对的数量;Y为以上述重合度作为查询词对选取依据,从通过执行步骤12而确定出的查询词对中选取出的查询词对的数量。
进一步地,本申请实施例还提供另一种扩展词对的筛选方法,具体实现流程示意图如图2所示,包括如下步骤:
步骤21,确定多个用户分别在最近三个月内的各session所使用过的查询词,并按照下述格式,分别保存每个用户在不同session中使用过的查询词:
<sessionID,时间,查询词1,查询词2,查询词3,……>
其中,“sessionID”为session的标识,其唯一表示一个session;“时间”一般是指session的起始时刻和终止时刻;查询词1、查询词2和查询词3均为同一用户在sessionID所表示的单个session中使用过的查询词。
为便于描述,后文将按照具备上述格式的单条记录称为“session数据”。
步骤22,分别对每个session数据所包含的查询词进行两两组合,从而得到分别对应于各session数据的、由查询词对构成的查询词对集合。
本申请实施例中,查询词对的格式可以如下:
<查询词1,查询词2>
步骤23,根据竞价词数据库中的竞价词,对查询词对集合中的查询词对进行过滤,过滤掉包含的查询词均不是竞价词的查询词对。
为便于描述,后文将由过滤掉包含的查询词均不是竞价词的查询词对后剩余的查询词构成的集合,称为“过滤后的查询词对集合”。不同的过滤后的查询词对集合对应不同的session数据。
步骤24,统计各个“过滤后的查询词对集合”中的每对查询词分别在所述最近三个月内的各session内的共现次数的总和,并根据统计结果,生成具备下述格式的各条统计记录:
<查询词1,查询词2,最近三个月内在不同session中共现次数的总和为6次>
步骤25,根据扩展词对数据库,对通过执行步骤24而得到的所有统计记录进行过滤,从中过滤掉包含的查询词对与扩展词对数据库中的扩展词对相同的统计记录,得到剩余的统计记录。
步骤26,根据剩余的统计记录,确定统计记录中的所述共现次数的总和小于2次的查询词对为“低置信度查询词对”,确定所述共现次数的总和不小于2次的查询词对为“高置信度查询词对”。
步骤27,针对低置信度查询词对,按照三个规则对其进行筛选,从中挑选出满足一定相关性要求的查询词对。
其中,这三个规则分别为:
规则一:如果低置信度查询词对包含的任一查询词在所述最近三个月内的各session内被用户作为搜索依据的次数为1,则可以确定该低置信度查询词对包含的查询词是偶然共现,从而判定该低置信度查询词对不满足相关性要求。
规则二:如果低置信度查询词对包含的两个查询词的查询词单元没有发生重合,则该低置信度查询词对包含的两个查询词在文法上不相关,从而判定该低置信度查询词对不满足相关性要求。
规则三:如果低置信度查询词对包含的两个查询词之间的提升度小于提升度阈值,则可以确定该低置信度查询词对包含的查询词是偶然共现,从而判定该低置信度查询词对不满足相关性要求。
步骤28,将通过执行步骤27而挑选出的查询词对,以及通过执行步骤26而确定出的高置信度查询词对,均确定为扩展词对。从而可以根据该些扩展词对,对扩展词数据库进行更新。
采用本申请实施例提供的该方法,由于可以按照上述三个规则,从低置信度查询词对中确定出扩展词对,从而即便是在用户行为不够丰富,因而导致高置信度查询词对数量较小的场景下,也可以实现从低置信度查询词对中确定出扩展词对,从而最终得到较多的扩展词对,解决在该场景下按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。
为了解决在用户行为不够丰富的场景下,按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题,本申请实施例还提供一种扩展词对的筛选装置,该装置的具体结构示意图如图3所示,包括获得单元31、第一确定单元32和选取单元33。以下介绍该些单元的功能:
获得单元31,用于获得至少两个查询词对。其中,每个查询词对包含至少一个作为竞价词的查询词。
第一确定单元32,用于从获得单元31获得的至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对。
选取单元33,用于从第一确定单元32确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
实施例中,选取单元33可以采用实施例中所述的7种方式之一,实现对扩展词对的选取,此处不再赘述。
可选的,本申请实施例提供的该装置还可以进一步第二确定单元。该单元用于将获得单元31获得的所述至少两个查询词对中的、包含的各查询词在特定时间段内的共现次数不小于第一次数阈值的查询词对,确定为扩展词对。
可选的,获得单元31获得的所述至少两个查询词对中,至少包括在特定时间段内被第一用户用作搜索依据的第一查询词对,以及在特定时间段内被第二用户用作搜索依据的第二查询词对。
可选的,第一确定单元用于:
针对获得单元31获得的所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内被单个用户用作搜索依据的次数;并针对获得单元31获得的所述至少两个查询词对中的、在特定时间段内被至少两个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内分别被各个用户用作搜索依据的次数总和;根据针对获得单元31获得的所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对所确定出的次数,以及确定出的各次数总和,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对。
采用本申请实施例提供的该装置,由于可以根据设置的扩展词对必要条件,从包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对中,选取出作为扩展词对的查询词,从而即便是在用户行为不够丰富,因而导致包含的各查询词在特定时间段内的共现次数不小于规定次数阈值的查询词对数量较小的场景下,也可以得到较多的扩展词对,解决在该场景下按照现有的扩展词对确定方式能够确定出的扩展词对的数量较小的问题。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (28)

1.一种扩展词对的筛选方法,其特征在于,包括:
获得至少两个查询词对;其中,每个查询词对包含至少一个作为竞价词的查询词;
从所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对;
从确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
2.如权利要求1所述的方法,其特征在于,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
3.如权利要求2所述的方法,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值。
4.如权利要求2所述的方法,其特征在于,根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,以及确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
5.如权利要求4所述的方法,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;且
满足查询词单元重合条件;
其中,单个查询词对包含第一查询词和第二查询词;
所述查询词单元重合条件包括:第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。
6.如权利要求4所述的方法,其特征在于,根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,以及所述重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数、所述重合度,以及确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
7.如权利要求6所述的方法,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;且
满足查询词单元重合条件;且
包含的查询词之间的提升度的值大于提升度阈值;
其中,单个查询词对包含第一查询词和第二查询词;
所述查询词单元重合条件包括:第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。
8.如权利要求2所述的方法,其特征在于,根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据所述次数,确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
9.如权利要求1所述的方法,其特征在于,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
10.如权利要求9所述的方法,其特征在于,根据确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据所述重合度,以及确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
11.如权利要求1所述的方法,其特征在于,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对,包括:
根据确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
12.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述至少两个查询词对中的、包含的各查询词在特定时间段内的共现次数不小于第一次数阈值的查询词对,确定为扩展词对。
13.如权利要求1所述的方法,其特征在于,所述至少两个查询词对中,至少包括在特定时间段内被第一用户用作搜索依据的第一查询词对,以及在特定时间段内被第二用户用作搜索依据的第二查询词对。
14.如权利要求13所述的方法,其特征在于,从所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对,包括:
针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内被单个用户用作搜索依据的次数;并
针对所述至少两个查询词对中的、在特定时间段内被至少两个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内分别被各个用户用作搜索依据的次数总和;
根据针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对所确定出的次数,以及确定出的各次数总和,确定所述共现次数小于第一次数阈值的查询词对。
15.一种扩展词对的筛选装置,其特征在于,包括:
获得单元,用于获得至少两个查询词对;其中,每个查询词对包含至少一个作为竞价词的查询词;
第一确定单元,用于从获得单元获得的所述至少两个查询词对中,确定包含的各查询词在特定时间段内的共现次数小于第一次数阈值的查询词对;
选取单元,用于从第一确定单元确定出的查询词对中,选取符合设置的扩展词对必要条件的查询词对作为扩展词对。
16.如权利要求15所述的装置,其特征在于:
所述选取单元,用于根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
17.如权利要求16所述的装置,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值。
18.如权利要求16所述的装置,其特征在于:
所述选取单元,用于根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数,以及确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
19.如权利要求18所述的装置,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;且
满足查询词单元重合条件;
其中,单个查询词对包含第一查询词和第二查询词;
所述查询词单元重合条件包括:第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。
20.如权利要求18所述的装置,其特征在于:
所述选取单元,用于根据确定出的查询词对包含的各查询词在特定时间段内分别被不同用户用作搜索依据的次数、所述重合度,以及确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
21.如权利要求20所述的装置,其特征在于,所述扩展词对必要条件包括:
包含的各查询词在特定时间段内被不同用户分别用作搜索依据的次数均大于第二次数阈值;且
满足查询词单元重合条件;且
包含的查询词之间的提升度的值大于提升度阈值;
其中,单个查询词对包含第一查询词和第二查询词;
所述查询词单元重合条件包括:第一查询词的查询词单元中,至少有一个查询词单元与第二查询词的查询词单元相同。
22.如权利要求16所述的装置,其特征在于:
所述选取单元,用于根据所述次数,确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
23.如权利要求15所述的装置,其特征在于:
所述选取单元,用于根据确定出的查询词对分别包含的各查询词的查询词单元的重合度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
24.如权利要求23所述的装置,其特征在于:
所述选取单元,用于根据所述重合度,以及确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
25.如权利要求15所述的装置,其特征在于:
所述选取单元,用于根据确定出的查询词对分别包含的各查询词之间的提升度,从确定出的查询词对中,选取符合扩展词对必要条件的查询词对作为扩展词对。
26.如权利要求15所述的装置,其特征在于,所述装置还包括:
第二确定单元,用于将所述至少两个查询词对中的、包含的各查询词在特定时间段内的共现次数不小于第一次数阈值的查询词对,确定为扩展词对。
27.如权利要求15所述的装置,其特征在于,所述至少两个查询词对中,至少包括在特定时间段内被第一用户用作搜索依据的第一查询词对,以及在特定时间段内被第二用户用作搜索依据的第二查询词对。
28.如权利要求27所述的装置,其特征在于,第一确定单元用于:
针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内被单个用户用作搜索依据的次数;并
针对所述至少两个查询词对中的、在特定时间段内被至少两个用户用作搜索依据的各查询词对分别执行:确定该查询词对在特定时间段内分别被各个用户用作搜索依据的次数总和;
根据针对所述至少两个查询词对中的、在特定时间段内仅被单个用户用作搜索依据的各查询词对所确定出的次数,以及确定出的各次数总和,确定所述共现次数小于第一次数阈值的查询词对。
CN201410306347.9A 2014-06-30 2014-06-30 一种扩展词对的筛选方法及装置 Pending CN105446984A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410306347.9A CN105446984A (zh) 2014-06-30 2014-06-30 一种扩展词对的筛选方法及装置
TW103134415A TW201601091A (zh) 2014-06-30 2014-10-02 擴展詞對的篩選方法及裝置
PCT/US2015/038365 WO2016003930A1 (en) 2014-06-30 2015-06-29 Method and apparatus of selecting expansion term pairs
US14/754,449 US20150379129A1 (en) 2014-06-30 2015-06-29 Method and apparatus of selecting expansion term pairs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410306347.9A CN105446984A (zh) 2014-06-30 2014-06-30 一种扩展词对的筛选方法及装置

Publications (1)

Publication Number Publication Date
CN105446984A true CN105446984A (zh) 2016-03-30

Family

ID=54930780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410306347.9A Pending CN105446984A (zh) 2014-06-30 2014-06-30 一种扩展词对的筛选方法及装置

Country Status (4)

Country Link
US (1) US20150379129A1 (zh)
CN (1) CN105446984A (zh)
TW (1) TW201601091A (zh)
WO (1) WO2016003930A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684072A (zh) * 2004-04-15 2005-10-19 微软公司 对多意义查询的相关术语提议
US20120296927A1 (en) * 2011-05-17 2012-11-22 Yahoo! Inc. System and method for contextualizing query instructions using user's recent search history
CN102880614A (zh) * 2011-07-15 2013-01-16 阿里巴巴集团控股有限公司 数据搜索方法及设备
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统
CN103279486A (zh) * 2013-04-24 2013-09-04 百度在线网络技术(北京)有限公司 一种提供相关搜索的方法和装置
CN103365904A (zh) * 2012-04-05 2013-10-23 阿里巴巴集团控股有限公司 一种广告信息搜索方法和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US7792858B2 (en) * 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8463806B2 (en) * 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US20110295678A1 (en) * 2010-05-28 2011-12-01 Google Inc. Expanding Ad Group Themes Using Aggregated Sequential Search Queries
US9916589B2 (en) * 2012-03-09 2018-03-13 Exponential Interactive, Inc. Advertisement selection using multivariate behavioral model
US9015812B2 (en) * 2012-05-22 2015-04-21 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Transparent control of access invoking real-time analysis of the query history
US20160239490A1 (en) * 2013-02-08 2016-08-18 Google Inc. Using Alternate Words As an Indication of Word Sense
US20160078364A1 (en) * 2014-09-17 2016-03-17 Microsoft Corporation Computer-Implemented Identification of Related Items

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1684072A (zh) * 2004-04-15 2005-10-19 微软公司 对多意义查询的相关术语提议
US20120296927A1 (en) * 2011-05-17 2012-11-22 Yahoo! Inc. System and method for contextualizing query instructions using user's recent search history
CN102880614A (zh) * 2011-07-15 2013-01-16 阿里巴巴集团控股有限公司 数据搜索方法及设备
CN103365904A (zh) * 2012-04-05 2013-10-23 阿里巴巴集团控股有限公司 一种广告信息搜索方法和系统
CN103279486A (zh) * 2013-04-24 2013-09-04 百度在线网络技术(北京)有限公司 一种提供相关搜索的方法和装置
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Also Published As

Publication number Publication date
WO2016003930A1 (en) 2016-01-07
US20150379129A1 (en) 2015-12-31
TW201601091A (zh) 2016-01-01

Similar Documents

Publication Publication Date Title
CN103678708B (zh) 一种识别预设地址的方法及装置
CN104598439B (zh) 信息对象的标题修正方法及装置和推送信息对象的方法
CN109829096A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN105335409A (zh) 一种目标用户的确定方法、设备和网络服务器
CN106657192B (zh) 一种用于呈现服务调用信息的方法与设备
CN105005582A (zh) 多媒体信息的推荐方法及装置
CN105096152A (zh) 一种基于商品热度的操作执行方法及装置
CN109408522A (zh) 一种用户特征数据的更新方法和装置
CN105391594A (zh) 识别特征账号的方法及装置
CN109710224A (zh) 页面处理方法、装置、设备及存储介质
CN106202126A (zh) 一种用于物流监控的数据分析方法和装置
CN105989457A (zh) 一种信息查询方法及装置
CN104572932A (zh) 一种兴趣标签的确定方法及装置
CN109408643B (zh) 基金相似度计算方法、系统、计算机设备和存储介质
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
CN106528066B (zh) 一种业务流程运行方法及装置
CN106341497A (zh) 数字id生成方法及装置
CN107194280B (zh) 模型建立方法及装置
CN104573132A (zh) 歌曲查找方法及装置
CN105446984A (zh) 一种扩展词对的筛选方法及装置
CN106202523A (zh) 网页编辑方法及装置
CN109102303A (zh) 风险检测方法和相关装置
CN110555151A (zh) 搜索词确定方法、装置、电子设备及存储介质
CN105635821A (zh) 一种视频过滤方法及装置
CN113703753B (zh) 用于产品开发的方法、装置和产品开发系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160330