发明内容
本申请所要解决的技术问题是提供一种基于查询词的检索方法,用以提高检索效率。
相应的,本申请还提供了一种基于查询词的检索装置,用以保证上述方法在实际中的应用。
为了解决上述问题,本申请公开了一种基于查询词的检索方法,包括:
接收提交的查询词;
判断所述查询词是否存在于第一特征数据库中,其中所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
若是,则按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回。
优选地,所述方法还包括:
若所述查询词不存在于所述第一特征数据库中,从第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据,其中,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系;
其中,所述第二特征数据库通过如下方式生成:
获取预设时间段内的一个或多个查询词;
获取目标网页数据;
分别计算所述一个或多个关键词与目标网页数据的相关性;
依据所述相关性建立关键词和产品数据的对应关系;
从所述关键词和目标网页数据的对应关系中去除所述具有指定特征的关键词和目标网页数据的对应关系,将剩下的关键词和目标网页数据的对应关系作为具有非指定特征的关键词和目标网页数据的对应关系保存为第二特征数据库。
优选地,所述方法还包括:
若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,在所述返回的目标网页数据被点击时,获取与所述目标网页数据对应的具有指定特征的关键词,建立所述具有非指定特征的关键词与具有指定特征的关键词的关联关系。
优选地,所述方法还包括:
若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,将所述查询词作为候选的具有指定特征的关键词。
优选地,所述查询词包括提交的查询词以及依据所述提交的查询词生成的扩展查询词。
本申请还公开了一种基于查询词的检索装置,包括:
查询词接收模块,用于接收提交的查询词;
判断模块,用于判断所述查询词是否存在于第一特征数据库中,其中所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;若是,则执行返回模块;
返回模块,用于按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回。
优选地,所述装置还包括:
查找模块,用于在所述查询词不存在于所述第一特征数据库中时,从第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据,其中,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系;
其中,所述第二特征数据库通过如下方式生成:
获取预设时间段内的一个或多个查询词;
获取目标网页数据;
分别计算所述一个或多个关键词与目标网页数据的相关性;
依据所述相关性建立关键词和产品数据的对应关系;
从所述关键词和目标网页数据的对应关系中去除所述具有指定特征的关键词和目标网页数据的对应关系,将剩下的关键词和目标网页数据的对应关系作为具有非指定特征的关键词和目标网页数据的对应关系保存为第二特征数据库。
优选地,所述装置还包括:
关联关系建立模块,用于若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,在所述返回的目标网页数据被点击时,获取与所述目标网页数据对应的具有指定特征的关键词,建立所述具有非指定特征的关键词与具有指定特征的关键词的关联关系。
优选地,所述装置还包括:
候选关键词指定模块,用于在所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词时,将所述查询词作为候选的具有指定特征的关键词。
优选地,所述查询词包括提交的查询词以及依据所述提交的查询词生成的扩展查询词。
与现有技术相比,本申请具有以下优点:
第一,本申请通过搜集一段时间内的具有指定特征的关键词,线下计算所述具有指定特征的关键词与对应的目标网页数据的关联关系,并存储于第一特征数据库中。这样当接收到用户提交的查询词时,只需要在所述第一特征数据库中查找所述查询词,若查找成功则返回匹配的目标网页数据,从而提高基于查询词的检索效率。
第二,本申请同时在线下预置第二特征数据库,存储有收集来的具有非指定特征的关键词与对应的目标网页数据,当所述用户提交的查询词不能在所述第一特征数据库中找到时,在所述第二特征数据库中查找所述查询词,这样在提高检索效率的同时,也提高了检索的准确率。
第三,本申请可以将命中所述第二特征数据库的查询词作为候选的具有指定特征的关键词并推荐给用户,从而提高第一特征数据库中目标网页数据的覆盖率,进一步提高检索的效率。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,通过获取一段时间内的关键词和目标网页数据,并对其进行相关性计算得到优质绑定关系集合,从所述优质绑定关系集合中过滤掉具有指定特征的关键词与目标网页数据的关系对,获得的是具有非指定特征的关键词与目标网页数据的虚绑定集合,当用户提交的查询词命中所述虚绑定集合时,给出符合用户查询意图的目标网页数据。
参照图1,示出了一种基于查询词的检索方法实施例1的步骤流程图,具体可以包括以下步骤:
步骤101,接收提交的查询词;
步骤102,判断所述查询词是否存在于第一特征数据库中,其中所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
步骤103,若是,则按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回。
在本申请实施例中,通过搜集一段时间内的查询词,线下计算所述查询词与对应的目标网页数据的关联关系,并存储于第一特征数据库中。这样当接收到用户提交的查询词时,只需要在所述第一特征数据库中查找所述查询词,若查找成功则返回匹配的目标网页数据,从而避免现有技术中线上查询效率低的问题。
参照图2,示出了一种基于查询词的检索方法实施例2的步骤流程图,具体可以包括以下步骤:
步骤201,预置第一特征数据库,所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
其中,所述指定特征的关键词为与目标网页数据之间具有某种对应关系的的关键词,例如,可以是在历史查询记录中,统计利用某一关键词进行查询,获得的搜索结果中用户点击频率最高的目标网页数据,然后将该关键词作为指定的特征关键词,并建立该指定的特征关键词与用户点击频率最高的目标网页数据之间的对应关系。或者可以是为了提高搜索效率而人为设定某一关键词与某一目标网页数据具有特定对应关系,则将该关键词作为指定特征的关键词。
步骤202,接收提交的查询词;
在实际应用中,所述查询词可以是单独的词条,也可以是其他粒度的语义单元,比如使用主题模型中的topic作为基本的语义单元。
在具体实现中,所述查询词可以包括提交的查询词以及依据所述提交的查询词生成的扩展查询词。在本申请实施例的一种优选实施例中,所述扩展关键词,可以采用如下步骤获取:
1),将在预设时间段内采集的一个或多个关键词改写成其他形式,生成扩展词;
在实际中,可以采用各种改写方式对查询词进行改写,查询词改写可以包括去除冗余词、同义词替换、去除次要属性等等,比如用户提交的查询词为“I want to buy black tea”,去除冗余词后变成“blacktea”;又如,“laptop display”同义词替换后变成“laptop screen”;或者,“8g red mp3”去除次要信息后变为“red mp3”或者“8g mp3”。
2),将命中的扩展词编成字典;
实际上,可以采用键值对(key-value)的形式存储所述扩展词与查询词的关系。
为了使本领域技术人员能更好地理解本申请实施例,以下通过一个具体实例说明所述生成提交的查询词对应的扩展关键词的过程:
线下流程:日志中记录的一条用户查询“2013fashion usb sdcard”,可以将其改写为“usb sd card”、“sd card”、“sd memorycard”的等价形式,并将原词与这三个词的对应关系写入到字典中。
线上流程:有用户输入“2013fashion usb sd card”,在没有找到直接匹配的广告的情况下,扩展匹配引擎查找改写词字典,发现用户输入的原词有“usb sd card”、“sd card”、“sd memory card”三个同义词形式,于是广告引擎使用这三个词来在广告数据库中查找,再返回命中的广告产品。
步骤203,判断所述查询词是否存在于所述第一特征数据库中;若是,则执行步骤204;若否,则执行步骤205;
其中,判断所述查询词是否存在于所述第一特征数据库中的方法包括:判断所述查询词与第一特征数据库中的指定特征关键词是否匹配,若匹配,则认为所说查询词存在于所述第一特征数据库中。
步骤204,按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回;
步骤205,预置第二特征数据库,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系,从所述第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据;
参考图3所示的第二特征数据库生成步骤流程图,在本申请实施例的一种优选实施例中,所述第二特征数据库生成的步骤可以包括:
步骤S1,获取预设时间段内的一个或多个关键词;
应用于本申请实施例,可以从日志系统中采集预设时间段内的一个或多个关键词,生成关键词集合。
步骤S2,获得目标网页数据;
步骤S3,分别计算所述一个或多个关键词与目标网页数据的相关性;
具体而言,相关性是指一个目标网页数据能满足一个关键词所代表的用户查询意图的程度;或者两个不同的关键词所代表的用户查询意图的相似程度。其中,用户查询意图可以包括用户对于目标网页数据的种类,功用,形状颜色等外观品质,以及容量质地等内在品质的要求。比如用户输入的查询词为“red case for iphone”,其中case表明产品种类,red表示外观,for iphone表示功用,查询词的每一个部分都表示了一种明确的用户查询意图。
在本申请实施例中,设置有相关性计算模块计算关键词集合与目标网页数据的相关性,并设置有质量模块保证关键词和目标网页数据之间的相关性达到可用的标准。作为本实施例的一种优选示例,所述关键词和目标网页数据的相关性si可以采用如下方式计算:
其中,wi为关键词对应的权重,ri是按照原有相关性计算策略计算出来的相关性得分,0≤ri≤1。
需要说明的是,所述关键词和目标网页数据的相关性计算方法仅是本申请实施例的一种示例,实际上本申请实施例对于关键词和目标网页数据之间相关性的计算方式并无特定要求,本领域技术人员采用常用的各种算法均是可以的,本申请对此无需加以限制。
步骤S4,依据所述相关性建立关键词和目标网页数据的对应关系;
具体而言,所有的关键词和目标网页数据的对应关系可以组成能够满足任何一个关键词的所有目标网页数据的优质绑定关系集合。
步骤S5,从所述关键词和目标网页数据的对应关系中去除具有指定特征的关键词和目标网页数据的对应关系,将剩下的关键词和目标网页数据的对应关系作为具有非指定特征的关键词和目标网页数据的对应关系保存为第二特征数据库。
在具体实现中,接收用户线上提交的查询词,在所述第一特征数据库中查找所述提交的查询词,若查找不成功,说明所述提交的查询词为没有目标网页数据匹配的查询词,则从所述第二特征数据库中查找所述提交的查询词并返回与所述提交的查询词相关的目标网页数据;若在所述第一特征数据库中查到所述提交的查询词,则返回与所述提交的查询词相关的目标网页数据。通过线下预置第一特征数据库和/或第二特征数据库来对查询词进行检索查询,从而提高了检索的效率。
另外,本申请实施例对输入的没有目标网页数据匹配的查询词可以直接给出符合用户查询意图的匹配的目标网页数据,理论上只受限于查询词和目标网页数据的相关性计算,可以穷举各查询词所能满足的目标网页数据,保证用户查询意图在搜索结果中得到最完整的体现。
参照图4,示出了一种基于查询词的检索方法实施例3的步骤流程图,在本实施例中,以电子商务网站的基于查询词的检索为例进行说明,具体可以包括以下步骤:
步骤301,预置第一特征数据库,所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
具体而言,在电商网站中,所述目标网页数据可以为商品数据,所述具有指定特征的关键词可以为与商品数据(或称广告商品)对应的竞价词,所述竞价词是指广告商品展示的广告被点击后,网站对广告用户(为产品购买广告的用户)进行计费所依据的词,一个广告商品可以对应一个或多个竞价词。
在具体实现中,广告用户在制定推广计划的时候,会为某些商品产品选择一些竞价词,同时系统生成所述竞价词与广告商品的关系(竞价词-广告商品的关系),所述“竞价词-广告商品”的关系保存在第一特征数据库,在本申请实施例中,所述第一特征数据库也可以称为广告商品数据库。
步骤302,接收提交的查询词;
步骤303,判断所述查询词是否存在于所述第一特征数据库中;若是,则执行步骤304,若否,则执行步骤305;
步骤304,按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回;
步骤305,预置第二特征数据库,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系,从所述第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据;
具体而言,与所述具有指定特征的关键词相应,所述具有非指定特征的关键词可以为没有竞价词对应的查询词。
在本申请实施例的一种优选实施例中,所述第二特征数据库生成的步骤可以包括:
(1)获取预设时间段内的一个或多个关键词;
应用于本申请实施例,可以从日志系统中采集预设时间段内的一个或多个关键词,生成关键词集合。
(2)获得目标网页数据;
(3)分别计算所述一个或多个关键词与目标网页数据的相关性;
(4)依据所述相关性建立关键词和目标网页数据的对应关系;
具体而言,所有的关键词和商品数据的对应关系可以组成能够满足任何一个关键词的所有商品数据的优质绑定关系集合。
(5)从所述关键词和目标网页数据的对应关系中去除具有指定特征的关键词和目标网页数据的对应关系,将剩下的关键词和目标网页数据的对应关系作为具有非指定特征的关键词和目标网页数据的对应关系保存为第二特征数据库。
应用于本申请实施例,所述具有指定特征的关键词和商品数据的对应关系为竞价词-广告商品的关系,从所述优质绑定关系集合去除掉广告商品对应的“竞价词-广告商品”关系对,得到的是具有非指定特征的关键词和商品数据的对应关系,即得到没有竞价词对应,但是能够满足用户查询意图的绑定关系,所有所述绑定关系的集合可以称之为虚绑定集合。
在所述虚绑定集合中,可以将组成虚绑定集合的绑定关系按照用户预算、预估点击率(ectr)等因素进行择优和排序,或者根据其他不同应用场景选择最佳子集保存为虚绑定字典(字典是一个存放成对数据的小型数据库)。
步骤306,若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,在所述返回的目标网页数据被点击时,获取与所述目标网页数据对应的具有指定特征的关键词,建立所述具有非指定特征的关键词与具有指定特征的关键词的关联关系。
在本申请实施例中,若所述查询词不存在于所述第一特征数据库中而存在于所述第二特征数据库中时,在所述第二特征数据库中获取与所述查询词匹配的商品数据并返回,在所述商品数据被点击时,获取所述商品数据对应的具有指定特征的关键词(竞价词),建立所述竞价词与所述查询词的关联关系。作为本实施例的一种优选示例,所述竞价词与所述查询词的关联关系可以用于当点击所述查询词对应的商品数据时,对所述查询词按照所述竞价词进行计费。当然,所述竞价词与所述查询词的关联关系也可以用于其它方面,本申请实施例对此无需加以限制。
为了使本领域技术人员能更好地理解本申请,下面通过一个具体实例加以说明:
1.假设广告产品库中有一个产品P的标题为“red/blue/white mp3case”,广告用户为这个产品选择的竞价词为“red mp3case”;
2.从日志系统中,抽取出3个曾经出现过的查询词query,分别为Q1=“red mp3case”、Q2=“blue mp3case”、Q3=“mp3case”;
3.通过相关性计算,得到优质绑定关系:P-Q1、P-Q2、P-Q3;
4.因为P-Q1为用户已经购买的绑定关系,所以过滤之后得到的优质虚绑定有:P-Q2和P-Q3;
5.在线上场景中,假设有用户输入了查询“blue mp3case”,这个查询命中了P-Q2这个虚绑定关系对,所以直接呈现P这个产品给用户;
6.如果本次浏览中用户点击了P产品,那么从用户的购买词中选择一个和Q2相关性最近的扣费词,本例中即为Q1;
7.总结为:用户输入查询Q2,命中了P产品,最终按照Q1扣费。
参照图5,示出了一种基于查询词的检索方法实施例4的步骤流程图,具体可以包括以下步骤:
步骤401,预置第一特征数据库,所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
步骤402,接收提交的查询词;
步骤403,判断所述查询词是否存在于所述第一特征数据库中;若是,则执行步骤404,若否,则执行步骤405;
步骤404,按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回;
步骤405,预置第二特征数据库,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系,若所述查询词不存在于所述第一特征数据库中,从所述第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据;;
步骤406,若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,将所述查询词作为候选的具有指定特征的关键词。
在本申请实施例中,命中所述第二特征数据库的查询词意味着和所述目标网页数据本质上具有良好意图匹配,可以将其作为候选的具有指定特征的关键词并推荐给用户,从而提高第一特征数据库中目标网页数据的覆盖率,进一步提高检索的效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
参照图6,示出了一种基于查询词的检索装置实施例的结构框图,具体可以包括以下模块:
查询词接收模块501,用于接收提交的查询词;
其中,所述查询词包括提交的查询词以及依据所述提交的查询词生成的扩展查询词。
判断模块502,用于判断所述查询词是否存在于第一特征数据库中,其中所述第一特征数据库包括具有指定特征的关键词与对应目标网页数据的关联关系;
返回模块503,用于在所述查询词是否存在于所述第一特征数据库中时,按照所述具有指定特征的关键词与对应目标网页数据的关联关系获取与所述查询词匹配的目标网页数据并返回。
优选地,所述装置还包括:
查找模块,用于在所述查询词不存在于所述第一特征数据库中时,从第二特征数据库中查找所述查询词,并返回与所述查询词匹配的目标网页数据,其中,所述第二特征数据库包括具有非指定特征的关键词与对应目标网页数据的关联关系;
其中,所述第二特征数据库通过如下方式生成:
获取预设时间段内的一个或多个查询词;
获取目标网页数据;
分别计算所述一个或多个关键词与目标网页数据的相关性;
依据所述相关性建立关键词和产品数据的对应关系;
从所述关键词和目标网页数据的对应关系中去除所述具有指定特征的关键词和目标网页数据的对应关系,将剩下的关键词和目标网页数据的对应关系作为具有非指定特征的关键词和目标网页数据的对应关系保存为第二特征数据库。
优选地,所述装置还包括:
关联关系建立模块,用于若所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词,在所述返回的目标网页数据被点击时,获取与所述目标网页数据对应的具有指定特征的关键词,建立所述具有非指定特征的关键词与具有指定特征的关键词的关联关系。
优选地,所述装置还包括:
候选关键词指定模块,用于在所述第二特征数据库中存在与所述查询词相同的具有非指定特征的关键词时,将所述查询词作为候选的具有指定特征的关键词。
由于所述图5的装置实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述方法实施例中的相关说明,在此就不赘述了。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种基于查询词的检索方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。