CN111428123A - 查询方法和装置 - Google Patents

查询方法和装置 Download PDF

Info

Publication number
CN111428123A
CN111428123A CN201910019672.XA CN201910019672A CN111428123A CN 111428123 A CN111428123 A CN 111428123A CN 201910019672 A CN201910019672 A CN 201910019672A CN 111428123 A CN111428123 A CN 111428123A
Authority
CN
China
Prior art keywords
query information
category
category prediction
primary
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910019672.XA
Other languages
English (en)
Inventor
陈漠沙
仇伟
陆雷
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910019672.XA priority Critical patent/CN111428123A/zh
Publication of CN111428123A publication Critical patent/CN111428123A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种查询方法和装置。其中,所述查询方法,包括:获取查询信息,依据查询信息获取一次类目预测结果;获取查询信息中的中心词;根据所述中心词进行类目预测,获得二次类目预测结果;根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。通过本发明实施例,可以提升确定查询信息对应的类目的准确性。

Description

查询方法和装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种查询方法和装置。
背景技术
通常在根据用户输入的查询信息进行搜索的过程中,存在着获取的搜索结果不准确或搜索结果过多的问题。为了解决这一问题,可以对用户输入的查询信息所属的类目进行预测,以使用户能够更加快速地找到需要的搜索结果。
但是,现有技术中对用户输入的查询信息进行类目预测的预测结果中包括不相关的类目,导致确定的类目准确性低。
发明内容
有鉴于此,本发明实施例提供一种查询方案,以解决上述问题。
根据本发明实施例的第一方面,提供了一种查询方法,包括:获取查询信息,依据查询信息获取一次类目预测结果;获取查询信息中的中心词;根据所述中心词进行类目预测,获得二次类目预测结果;根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
根据本发明实施例的第二方面,提供了一种查询装置,包括:一次类目预测模型,用于获取查询信息,依据查询信息获取一次类目预测结果;中心词获取模块,用于获取查询信息中的中心词;二次类目预测模块,用于根据所述中心词进行类目预测,获得二次类目预测结果;类目调整模块,用于根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
根据本发明实施例提供的查询方案,依据获取的查询信息获取一次类目预测结果,利用所述查询信息中的中心词获取二次类目预测结果,根据所述二次类目预测结果调整所述一次类目预测结果中的多个候选类目的排序,使得根据调整后的所述一次类目预测结果确定查询信息所属的类目时,可以避免所属的类目中包含不相关类目,从而提升确定出的类目的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例一的一种查询方法的步骤流程图;
图2为根据本发明实施例二的一种查询方法的步骤流程图;
图3为根据本发明实施例三的一种查询装置的结构框图;
图4为根据本发明实施例四的一种查询装置的结构框图;
图5为根据本发明实施例五的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例一的一种查询方法的步骤流程图。
本实施例的查询方法包括以下步骤:
步骤S100:获取查询信息,依据查询信息获取一次类目预测结果。
所述查询信息可以是基于用户输入的数据确定的,用于描述待查询对象的信息。例如,“伊利牛奶”、“100克装的老酸奶”、“男士潮牌运动鞋”等等。
通过类目预测可以针对查询信息,预测出所述查询信息所属的类目或者类目集合。
类目可以是食品类、图书类、音像类、电器类等。每个类目下可以包括一个或多个(两个或两个以上)子类目,如食品类下包括进口食品类、休闲食品类、生鲜食品类;电器类包括手机类、大家电、小家电等。进一步地,子类目下还可以包括下一级子类目,如,生鲜食品类下还可以包括奶制品、鲜奶、纯牛奶等。
例如,查询信息为“伊利牛奶”,其一次类目预测结果中包括多个候选类目,分别为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“蛋奶”、“酸奶”、“奶茶”、“高钙奶”、“奶粉”、“儿童奶”等。
本领域技术人员可以采用任何适当的方式依据所述查询信息获取所述一次类目预测结果,本实施例对此不作限定。
步骤S102:获取查询信息中的中心词。
所述中心词用于指示查询信息中被修饰的成分。例如,查询信息为“伊利牛奶”,中心词为“牛奶”,查询信息为“100克装老酸奶”,中心词为“酸奶”,查询信息为“男士潮牌运动鞋”,中心词为“运动鞋”,等等。
本领域技术人员可以采用任何适当的方式从所述查询信息中获取所述中心词,例如,人工标注获取中心词,或者通过预设的中心词提取规则提取中心词,本实施例对此不作限定。
步骤S104:根据所述中心词对所述查询信息进行类目预测,获得二次类目预测结果。
所述二次类目预测结果可以采用任何适当的方式进行类目预测获得,本实施例对此不作限定。其中,获取一次类目预测结果和二次类目预测结果所采用的类目预测方法可以相同,也可以不同。
例如,查询信息为“伊利牛奶”,其中心词为“牛奶”,获取的二次类目预测结果为:“牛奶”、“国产鲜牛奶”、“进口鲜牛奶”、“高钙奶”、“低温奶”等。
需要说明的是,本实施例中的“一次”和“二次”仅用于区分,以便于说明,并不限定先后顺序。
步骤S106:根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
本领域技术人员可以采用任何适当的方式调整所述查询信息的一次类目预测结果中多个候选类目的排序。
例如,在一具体实现中,通过删除一次类目预测结果中未出现在二次类目预测结果中的候选类目来调整其排序。
又例如,在另一具体实现中,步骤S106包括:确定所述一次类目预测结果中与所述二次类目预测结果重合的候选类目,将所述重合的候选类目移动到未重合的候选类目之前,且保持所述重合的候选类目间的先后顺序不变。
所述重合的候选类目可以是在所述一次类目预测结果和所述二次类目预测结果中均出现的类目。
仍以所述查询信息为“伊利牛奶”为例,其所述一次类目预测结果为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“蛋奶”、“酸奶”、“奶茶”、“高钙奶”、“奶粉”、“儿童奶”。
其所述二次类目预测结果为:“牛奶”、“国产鲜牛奶”、“进口鲜牛奶”、“高钙奶”、“低温奶”等。
所述重合的候选类目包括:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“高钙奶”。未重合的候选类目包括:如“蛋奶”、“酸奶”、“奶茶”、“奶粉”、“儿童奶”等。
在进行排序调整时,将所述重合的候选类目全部调整到所述未重合的候选类目之前,由于在本例中只有“高钙奶”位于所述未重合的候选类目之后,因此,只将“高钙奶”移动到“蛋奶”之前,即可使所述重合的候选类目位于所述未重合的候选类目之前,且保持所述重合的候选类目之间的先后顺序不变。
调整后的多个候选类目的排序为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“高钙奶”、“蛋奶”、“酸奶”、“奶茶”、“奶粉”、“儿童奶”。
在确定所述查询信息所属的类目时,可以从调整后所述一次类目预测结果的多个候选类目中选取排序前M个候选类目作为所述查询信息所属的类目。M为正整数。
通过本实施例,依据获取的查询信息获取一次类目预测结果,利用所述查询信息中的中心词获取二次类目预测结果,根据所述二次类目预测结果调整所述一次类目预测结果中的多个候选类目的排序,使得根据调整后的所述一次类目预测结果确定查询信息所属的类目时,可以避免所属的类目中包含不相关类目,从而提升确定出的类目的准确性。
本实施例的查询方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
参照图2,示出了根据本发明实施例二的一种查询方法的步骤流程图。
本实施例的查询方法包括以下步骤:
步骤S200:获取查询信息,依据查询信息获取一次类目预测结果。
所述查询信息可以是基于用户输入的数据确定的,用于描述待搜索对象的信息。例如,“伊利牛奶”、“100克装的老酸奶”、“男士潮牌运动鞋”等等。
在第一种可行方式中,步骤S200具体为:获取查询信息,将所述查询信息中的关键词输入到用于类目预测的一次预测深度学习模型中,获取所述一次预测深度学习模型输出的所述一次类目预测结果。
其中,所述查询信息的关键词可以是通过对所述查询信息进行分词操作获得的词。
对所述查询信息进行分词可以采用任何适当的方式,例如,采用基于隐马尔可夫模型(Hidden Markov Model)的分词算法或者基于条件随机场模型(Conditional RandomField)的分词算法。
针对分词结果,还可以根据需要对其进行去停用词处理,以去除所述查询信息中“地”、“的”等停用词。
在本实施例中,可以在对查询信息进行分词操作之后,执行去停用词操作,去除分词结果中的停用词,并获得所述查询信息中的所述关键词。
当然,在其他实施例中,也可以采用其他适当的方式确定所述查询信息中的关键词,本实施例对此不作限定。
一次预测深度学习模型可以是任何适当的模型,例如为一次预测卷积神经网络模型或者一次预测循环神经网络模型等。在使用一次预测深度学习模型进行类目预测,将查询信息中的关键词输入到一次预测深度学习模型中,该一次预测深度学习模型输出一次类目预测结果,其中包括多个依序排列的候选类目。
在第二种可行方式中,步骤S200具体为:根据所述查询信息的关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
其中,查询信息中的关键词可以采用任何适当的方式获取。例如,采用与前述第一种可行方式中相同的方式获取关键词。又例如,采用与前述第一种可行方式中不同的方式获取关键词,如人工标注获取关键词。
对于本领域技术人员而言,其可以根据需要,选择适当的方式来根据所述查询信息的关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
另外需要说明的是,本领域技术人员可以根据需要,将前述第一种可行方式和第二种可行方式结合,获取所述一次类目预测结果。
结合使用时具体为:使用根据用户历史行为数据训练一次预测深度学习模型。由于一次预测深度学习模型是使用用户历史行为数据训练的,因此,在将关键词输入到其中,使用其进行类目预测时根据了用户历史行为数据。
下面以该一次预测深度学习模型为一次预测卷积神经网络模型为例,对其训练过程说明如下:
从用户历史行为数据中提取出的样本查询信息及对应的样本类目数据,如,样本查询信息A为伊利牛奶,对应的样本类目数据A为国产鲜牛奶,样本查询信息B为香蕉,对应的样本类目数据B为水果等。所述用户历史行为数据可以是某一应用中主搜索和推荐搜索对应的设定时间段内的用户的点击、收藏和/或购买行为数据。
通过下述步骤A~D训练一次预测卷积神经网络模型。
步骤A:将所述训练样本中文本形式的样本查询信息转换为矩阵形式的样本查询信息。例如,从所述样本查询信息中获取关键词,使用word2vec算法,将获取的所述样本查询信息的各关键词转换为K维词向量。K为正整数。根据各关键词的词向量生成所述样本查询信息的第一矩阵。设所述样本查询信息中包括N个关键词,则所述样本查询信息对应的所述第一矩阵为N*K维矩阵。N为正整数。
步骤B:将所述第一矩阵作为输入,输入到待训练的一次预测卷积神经网络模型中。所述一次预测卷积神经网络模型中的卷积层采用多个窗口大小不同的1维过滤器(Filter),对输入的所述第一矩阵进行特征提取,得到第二矩阵。在本实施例中,采用的过滤器的窗口大小分别为2,3和4,每个窗口大小下分别采用f个过滤器。相应地,所述卷积层输出第二矩阵,所述第二矩阵的维度为N*3f。
步骤C:将所述卷积层输出的所述第二矩阵输入到池化层中,利用所述池化层对所述第二矩阵进行池化处理,得到第一向量。例如,对所述第二矩阵的每一列进行最大池化(max pooling),得到池化后长度为3f的第一向量。
步骤D:将所述第一向量输入到全连接层和输出层。所述第一向量经过全连接层后根据所述输出层的输出结果和所述样本类目数据计算softmax函数,根据softmax函数计算结果调整所述一次预测卷积神经网络模型中的权重值,并返回步骤A重复训练,直至满足训练终止条件,得到所述一次预测卷积神经网络模型。
之后,将关键词的词向量输入到所述一次预测卷积神经网络模型中,使用其进行类目预测,并获得所述一次类目预测结果。具体例如,计算各所述关键词的词向量,将各所述关键词的词向量拼接为与所述查询信息对应的第三矩阵。将所述第三矩阵输入到一次预测卷积神经网络模型中,并获得其输出的根据置信度由高到低排序的多个候选类目,所述多个候选类目构成所述一次类目预测结果。
以查询信息为“伊利牛奶”为例,通过所述一次预测卷积神经网络模型进行类目预测获得的所述一次类目预测结果中包括多个所述候选类目为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“蛋奶”、“酸奶”、“奶茶”、“高钙奶”、“奶粉”、“儿童奶”等。
在使用所述一次预测卷积神经网络模型进行类目预测时,由于所述一次预测卷积神经网络模型的训练样本是根据用户的历史行为数据确定的,使得利用所述一次预测卷积神经网络模型预测出来的类目与用户历史行为具有相关性,是用户更容易购买、点击或收藏的类目,根据这些类目进行商品推荐时,可以提升点击率、转化率和购买率等。
但是,在获得的一次类目预测结果中,存在着“酸奶”和“奶茶”等与查询信息相关性不高的候选类目。这是由于提取训练样本根据的用户的历史行为数据中可能包括一些误操作的行为数据(例如,用户输入的查询信息为“伊利牛奶”但是误点击了奶茶产品),或者由于用户输入的查询信息本身不规范(例如,用户在希望搜索奶茶产品时输入的查询信息中包含不相关的关键词,如输入“伊利香飘飘奶茶”),导致根据用户历史行为数据训练的所述一次预测卷积神经网络模型在根据关键词进行类目预测时,受到关键词中包含的中心词之外的词的影响,预测出一些相关性不高的类目,使得据此确定出的所述查询信息所属的类目中包括相关性不高的类目,降低了类目预测的准确度。
例如:用户如果搜索了和“伊利”相关的关键词(比如“伊利香飘飘奶茶”),且点击了类目属于“奶茶”的商品,那么训练完成的所述一次预测卷积神经网络模型会建立“伊利”和“奶茶”关联,导致后续用户输入的所述查询信息中包括“伊利”时,预测出的类目中会包括“奶茶”这一相关度不高的类目,使得类目准确性不好。
为了在一定程度上解决前述的问题,在本申请中,在根据所述关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果时,可以对所述关键词进行处理,使得根据处理后的关键词对所述查询信息进行类目预测获得的所述一次类目预测结果更好。
例如,根据所述查询信息的关键词,确定所述关键词中与所述中心词相同的第一关键词和与所述中心词不同的第二关键词;分别对所述关键词中的所述第一关键词和所述第二关键词的原始词向量进行加权处理,所述第一关键词的权重大于所述第二关键词的权重;根据加权后的所述第一关键词的词向量和所述第二关键词的词向量以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
具体地,若所述查询信息的关键词包括“伊利”和“牛奶”,其中,“牛奶”为与所述中心词相同的所述第一关键词,“伊利”为与所述中心词不同的所述第二关键词。设伊利对应的原始词向量为K维的词向量A,表示为:[a1,a2,……,ak],牛奶对应的原始词向量为K维的词向量B,表示为:[b1,b2,……,bk]。
加权处理后的伊利的词向量A’表示为[a1*β1,a2*β1,……,ak*β1],加权处理后的牛奶的词向量B’表示为[b1*β2,b2*β2,……,bk*β2],且β2大于β1。β1和β2的具体取值可以根据需要确定,例如,β1的值可以是1,β2的值可以是1.1、1.3、1.4等。
需要说明的是,所述关键词中可以仅包括所述第一关键词或仅包括所述第二关键词,也可以同时包括所述第一关键词和所述第二关键词,且所述第一关键词和所述第二关键词的数量可以是一个或多个。
在进行类目预测时,利用加权处理后的所述第一关键词的词向量和所述第二关键词的词向量形成所述查询信息的第三矩阵,并将所述第三矩阵输入到所述一次预测卷积神经网络模型中,获得一次类目预测结果。
由于,在确定所述查询信息所属的类目时,所述查询信息中的中心词对所述查询信息所属的类目起主要作用,通过这种为不同的关键词设置不同权重的方式可以在获取所述一次类目预测结果时,增大所述第一关键词的权重值,使其对所述一次类目预测结果的影响增大,进而可以提升一次类目预测结果的准确性,而且可以避免非中心词的第二关键词对类目预测的干扰。
步骤S202:获取查询信息中的中心词。
如实施例一中所述,所述中心词可以是“伊利牛奶”中的“牛奶”,“100克装老酸奶”中的“酸奶”,“男士潮牌运动鞋”中的“运动鞋”等。
在本申请一具体实现中,可以采用用于中心词提取的中心词提取模型,从所述查询信息中提取出所述中心词。中心词提取模型可以是采用查询信息和对应的中心词训练的深度学习模型,如,训练的卷积神经网络模型、训练的循环神经网络模型等等。
例如,查询信息为“伊利牛奶”,将查询信息输入到中心词提取模型中,对“伊利牛奶”进行提取的所述提取结果为“牛奶”,可以直接将所述提取结果确定为所述中心词。
当然,根据需要,还可以对所述提取结果进行分词、去停用词等处理后获得所述中心词。
步骤S204:根据所述中心词对所述查询信息进行类目预测,获得二次类目预测结果。
在本申请的一具体实现中,获得所述二次类目预测结果的方式为:根据所述中心词,利用二次预测深度学习模型对所述查询信息进行类目预测,并获得所述二次类目预测结果。
所述二次预测深度学习模型可以是与所述一次预测深度学习模型相同的深度学习模型或者不同的模型。
在本实施例中,为了保证预测出的类目与用户历史行为的相关性,所述二次预测深度学习模型是与所述一次预测深度学习模型相同的神经网络模型。
具体的进行二次类目预测的过程例如:将所述中心词输入到用于类目预测的二次预测深度学习模型中,获取所述二次预测深度学习模型输出的所述二次类目预测结果。输出的所述二次类目预测结果包括至少一个参考类目。
在本实施例中,由于所述二次预测深度学习模型与所述一次预测深度学习模型是同一模型,因此,获得的所述二次类目预测结果中的所述参考类目保留了与用户历史行为的相关性,换而言之,参考类目是用户更容易点击、收藏和购买的类目;而且由于进行类目预测时仅使用了所述中心词,避免了所述查询信息中所述中心词之外的所述第二关键词对类目预测结果的干扰,保证所述参考类目的准确性。
需要说明的是,步骤S202~S204可以在步骤S200之前、之后或与步骤S200并行执行。
若步骤S202~S204在步骤S200之后或并行执行,则若S200需要在使用一次预测卷积神经网络模型进行类目预测时调整关键词的权重,则可以单独获取中心词,以使用中心词确定所有关键词中的第一关键词和第二关键词。
在本实施例中,通过下述步骤S206~S208实现根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序以确定所述查询信息对应的类目。
当然,在其他实施例中,可以采用除步骤S206~S208之外的方式实现所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序以确定所述查询信息对应的类目,本实施例对此不作限定。
步骤S206:获得所述一次类目预测结果中与所述二次类目预测结果重合的所述候选类目。
其中,获得重合的候选类目的方式可以是:将某个所述候选类目与所述二次类目预测结果中的所述参考类目进行比对确定是否存在一致的所述参考类目,若所述二次类目预测结果中包括与其一致的所述参考类目,则确定所述候选类目为重合的候选类目;反之,所述候选类目为不重合的候选类目。
当然,在其他实施例中,可以采用其他方式获得重合的候选类目,本实施例对此不作限定。
例如,所述查询信息为“伊利牛奶”,所述一次类目预测结果中包括的所述候选类目为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“蛋奶”、“酸奶”、“奶茶”、“高钙奶”、“奶粉”、“儿童奶”等。
所述二次类目预测结果中包括的所述参考类目为:“牛奶”、“国产鲜牛奶”、“进口鲜牛奶”、“高钙奶”、“低温奶”等。
其中所述重合的候选类目为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”和“高钙奶”。
所述未重合的候选类目为:“蛋奶”、“酸奶”、“奶茶”、“奶粉”、“儿童奶”。
步骤S208:将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
在确定所述重合的候选类目后,一种可行的调整所述一次类目预测结果中的所述重合的候选类目的排序位置的方式为:将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
例如,将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目,包括:将所述重合的所述候选类目与所述未重合的所述候选类目设置不同的排序标志;根据所述排序标志,将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
所述重合的候选类目的排序标志可以设置为第一标志,将所述未重合的候选类目的排序标志可以设置为第二标志。之后,根据所述排序标志,调整所述一次类目预测结果中所述多个候选类目的排序,再根据调整后的所述候选类目的顺序,选取前M个所述候选类目确定为该查询信息对应的类目。其中,M为正整数。
一种具体实现过程例如:
通过foreach cate in flag:flag[cate]=0语句,将所有所述候选类目的所述排序标志的值置0,以初始化各所述候选类目的排序标志。其中,cate指示当前候选类目,flag[cate]指示所述当前候选类目的排序标志。
通过foreach cate in R:if cate in RC:flag[cate]=1;rerank_result.add(cate)语句,将所述重合的候选类目的排序标志的值置为1,以将其排序标志设置为第一标志。其中,R指示的是所述一次类目预测结果中的所述候选类目组成的集合,RC指示的是所述二次类目预测结果中的所述参考类目组成的集合。
通过foreach cate in R:if flag[cate]==0语句,将所述未重合的候选类目的排序标志的值置为0,以将其排序标志设置为第二标志。
最后通过rerank_result.add(cate)return rerank_result语句返回重排序后的结果。
排序调整后的一次类目预测结果为:“国产鲜牛奶”、“进口鲜牛奶”、“牛奶”、“高钙奶”、“蛋奶”、“酸奶”、“奶茶”、“奶粉”、“儿童奶”。
在确定所述查询信息对应的类目时,从调整后的一次类目预测结果中,选取前M个所述候选类目,作为所述查询信息对应的类目。
由于获得二次类目预测结果的二次预测深度学习模型与一次预测深度学习模型是根据用户历史行为数据训练出的模型,因此,从调整顺序后的候选类目中选取前M个候选类目作为所述查询信息所属的类目时,既保留了预测出的类目与用户行为的相关性,又可以避免根据关键词进行预测时,预测结果受第二关键词和用户历史行为数据中一些误操作数据的影响,导致预测出的结果中与所述查询信息相关性低的候选类目排序靠前,使得最终确定的类目准确性不足的问题。
通过本实施例,使用查询方法查询确定查询信息所属的类目时,利用所述查询信息中的中心词对所述查询信息进行二次类目预测,根据所述二次类目预测结果调整所述一次类目预测结果中的多个候选类目的排序,将所述一次类目预测结果中与所述查询信息相关性高的所述重合的候选类目的排序提前,使得根据调整后的所述一次类目预测结果确定的查询信息所属的类目时,避免所属的类目中包含不相关类目,从而提升确定的类目的准确性。同时,由于所述一次类目预测结果和所述二次类目预测结果中包含的类目均与用户历史行为具有相关性,故而使得确定的查询信息所属的类目也与用户历史行为具有相关性,所属的类目是用户比较容易点击、收藏和购买的类目,可以提升购买率、点击率等。
本实施例的查询方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三
参照图3,示出了根据本发明实施例三的一种查询装置的结构框图。
本实施例的查询装置包括:一次类目预测模型300,用于获取查询信息,依据查询信息获取一次类目预测结果;中心词获取模块302,用于获取查询信息中的中心词;二次类目预测模块304,用于根据所述中心词进行类目预测,获得二次类目预测结果;类目调整模块306,用于根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
通过本实施例,依据获取的查询信息获取一次类目预测结果,利用所述查询信息中的中心词获取二次类目预测结果,根据所述二次类目预测结果调整所述一次类目预测结果中的多个候选类目的排序,使得根据调整后的所述一次类目预测结果确定查询信息所属的类目时,可以避免所属的类目中包含不相关类目,从而提升确定出的类目的准确性。
实施例四
参照图4,示出了根据本发明实施例四的一种查询装置的结构框图。
本实施例的查询装置包括:一次类目预测模型400,用于获取查询信息,依据查询信息获取一次类目预测结果;中心词获取模块402,用于获取查询信息中的中心词,所述中心词包括所述查询信息的主题词;二次类目预测模块404,用于根据所述中心词进行类目预测,获得二次类目预测结果;类目调整模块406,用于根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
可选地,所述类目调整模块406包括:重合类目获取模块4061,用于获得所述一次类目预测结果中与所述二次类目预测结果重合的所述候选类目;顺序调整模块4062,用于将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
可选地,所述顺序调整模块4062包括:标志设置模块4062a,用于将所述重合的所述候选类目与所述未重合的所述候选类目设置不同的排序标志;移动模块4062b,用于根据所述排序标志,将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
在一种实施方式中,一次类目预测模型400用于根据所述查询信息的关键词以及对应所述查询信息的用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
可选地,所述一次类目预测模型400包括:关键词确定模块4001,用于根据所述查询信息的关键词,确定所述关键词中与所述中心词相同的第一关键词和与所述中心词不同的第二关键词;权重调整模块4002,用于分别对所述关键词中的第一关键词和第二关键词的原始词向量进行加权处理,所述第一关键词的权重大于所述第二关键词的权重;结果获得模块4003,用于根据加权后的所述第一关键词的词向量和所述第二关键词的词向量以及对应所述查询信息的用户历史行为数据对所述查询信息进行类目预测,获得所述一次预测结果。
在另一种实施方式中,所述一次类目预测模块400用于获取查询信息,将所述查询信息中的关键词输入到用于类目预测的一次预测深度学习模型中,获取所述一次预测深度学习模型输出的所述一次类目预测结果;和/或,所述二次类目预测模块404具体用于将所述中心词输入到用于类目预测的二次预测深度学习模型中,获取所述二次预测深度学习模型输出的所述二次类目预测结果。
本实施例的查询装置用于实现前述多个方法实施例中相应的查询方法,并具有相应方法实施例的有益效果,在此不再赘述。
实施例五
参照图5,示出了根据本发明实施例六的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它电子设备如终端设备或服务器进行通信。
处理器502,用于执行程序510,具体可以执行上述对查询信息进行类目确定的方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(Appl icationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:获取查询信息,依据查询信息获取一次类目预测结果,获取查询信息中的中心词;根据所述中心词进行类目预测,获得二次类目预测结果;根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
在一种可选的实施方式中,程序510还用于使得处理器502在根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目时,获得所述一次类目预测结果中与所述二次类目预测结果重合的所述候选类目;将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
在一种可选的实施方式中,程序510还用于使得处理器502在将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目时,将所述重合的所述候选类目与所述未重合的所述候选类目设置不同的排序标志;根据所述排序标志,将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
在一种可选的实施方式中,程序510还用于使得处理器502在获取查询信息,依据查询信息获取一次类目预测结果时,根据所述查询信息的关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
在一种可选的实施方式中,程序510还用于使得处理器502在根据所述查询信息的关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果时,根据所述查询信息的关键词,确定所述关键词中与所述中心词相同的第一关键词和与所述中心词不同的第二关键词;分别对所述关键词中的第一关键词和第二关键词的原始词向量进行加权处理,所述第一关键词的权重大于所述第二关键词的权重;根据加权后的所述第一关键词的词向量和所述第二关键词的词向量以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
在一种可选的实施方式中,程序510还用于使得处理器502在获取查询信息,依据查询信息获取一次类目预测结果时,获取查询信息,将所述查询信息中的关键词输入到用于类目预测的一次预测深度学习模型中,获取所述一次预测深度学习模型输出的所述一次类目预测结果;和/或,在根据所述中心词进行类目预测,获得二次类目预测结果时,将所述中心词输入到用于类目预测的二次预测深度学习模型中,获取所述二次预测深度学习模型输出的所述二次类目预测结果。
程序510中各步骤的具体实现可以参见上述查询方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,依据获取的查询信息获取一次类目预测结果,利用所述查询信息中的中心词获取二次类目预测结果,根据所述二次类目预测结果调整所述一次类目预测结果中的多个候选类目的排序,使得根据调整后的所述一次类目预测结果确定查询信息所属的类目时,可以避免所属的类目中包含不相关类目,从而提升确定出的类目的准确性。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的查询方法。此外,当通用计算机访问用于实现在此示出的查询方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的查询方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (12)

1.一种查询方法,其特征在于,包括:
获取查询信息,依据查询信息获取一次类目预测结果;
获取查询信息中的中心词;
根据所述中心词进行类目预测,获得二次类目预测结果;
根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
2.根据权利要求1所述的方法,其特征在于:
获得所述一次类目预测结果中与所述二次类目预测结果重合的所述候选类目;
将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
3.根据权利要求2所述的方法,其特征在于:
将所述重合的所述候选类目与所述未重合的所述候选类目设置不同的排序标志;
根据所述排序标志,将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
4.根据权利要求1所述的方法,其特征在于:
根据所述查询信息的关键词以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
5.根据权利要求4所述的方法,其特征在于:
根据所述查询信息的关键词,确定所述关键词中与所述中心词相同的第一关键词和与所述中心词不同的第二关键词;
分别对所述关键词中的第一关键词和第二关键词的原始词向量进行加权处理,所述第一关键词的权重大于所述第二关键词的权重;
根据加权后的所述第一关键词的词向量和所述第二关键词的词向量以及用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
6.根据权利要求1所述的方法,其特征在于:
获取查询信息,将所述查询信息中的关键词输入到用于类目预测的一次预测深度学习模型中,获取所述一次预测深度学习模型输出的所述一次类目预测结果;
或者,
将所述中心词输入到用于类目预测的二次预测深度学习模型中,获取所述二次预测深度学习模型输出的所述二次类目预测结果。
7.一种查询装置,其特征在于,包括:
一次类目预测模型,用于获取查询信息,依据查询信息获取一次类目预测结果;
中心词获取模块,用于获取查询信息中的中心词;
二次类目预测模块,用于根据所述中心词进行类目预测,获得二次类目预测结果;
类目调整模块,用于根据所述二次类目预测结果,调整所述查询信息的一次类目预测结果中的多个候选类目的排序,以确定所述查询信息对应的类目。
8.根据权利要求7所述的装置,其特征在于,所述类目调整模块包括:
重合类目获取模块,用于获得所述一次类目预测结果中与所述二次类目预测结果重合的所述候选类目;
顺序调整模块,用于将所述重合的所述候选类目按照其在所述一次类目预测结果中的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
9.根据权利要求8所述的装置,其特征在于,所述顺序调整模块包括:
标志设置模块,用于将所述重合的所述候选类目与所述未重合的所述候选类目设置不同的排序标志;
移动模块,用于根据所述排序标志,将所述重合的所述候选类目按照其在所述一次类目预测结果的先后顺序移动至未重合的所述候选类目的前端,以确定所述查询信息对应的类目。
10.根据权利要求7所述的装置,其特征在于,所述一次类目预测模块具体用于根据所述查询信息的关键词以及对应所述查询信息的用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
11.根据权利要求10所述的装置,其特征在于,所述一次类目预测模块包括:
关键词确定模块,用于根据所述查询信息的关键词,确定所述关键词中与所述中心词相同的第一关键词和与所述中心词不同的第二关键词;
权重调整模块,用于分别对所述关键词中的第一关键词和第二关键词的原始词向量进行加权处理,所述第一关键词的权重大于所述第二关键词的权重;
结果获得模块,用于根据加权后的所述第一关键词的词向量和所述第二关键词的词向量以及对应所述查询信息的用户历史行为数据对所述查询信息进行类目预测,获得所述一次类目预测结果。
12.根据权利要求7所述的装置,其特征在于:
所述一次类目预测模块具体用于获取查询信息,将所述查询信息中的关键词输入到用于类目预测的一次预测深度学习模型中,获取所述一次预测深度学习模型输出的所述一次类目预测结果;
或者,
所述二次类目预测模块具体用于将所述中心词输入到用于类目预测的二次预测深度学习模型中,获取所述二次预测深度学习模型输出的所述二次类目预测结果。
CN201910019672.XA 2019-01-09 2019-01-09 查询方法和装置 Pending CN111428123A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910019672.XA CN111428123A (zh) 2019-01-09 2019-01-09 查询方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910019672.XA CN111428123A (zh) 2019-01-09 2019-01-09 查询方法和装置

Publications (1)

Publication Number Publication Date
CN111428123A true CN111428123A (zh) 2020-07-17

Family

ID=71546052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910019672.XA Pending CN111428123A (zh) 2019-01-09 2019-01-09 查询方法和装置

Country Status (1)

Country Link
CN (1) CN111428123A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080628A (zh) * 2022-06-01 2022-09-20 阿里巴巴(中国)有限公司 查询处理方法、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
JP2006318398A (ja) * 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
CN102236663A (zh) * 2010-04-30 2011-11-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
CN103870507A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种基于类目的搜索方法和装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741012A (zh) * 2004-08-23 2006-03-01 富士施乐株式会社 文本检索装置及方法
JP2006318398A (ja) * 2005-05-16 2006-11-24 Nippon Telegr & Teleph Corp <Ntt> ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
CN102236663A (zh) * 2010-04-30 2011-11-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
CN103870507A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种基于类目的搜索方法和装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李方涛;张显;孙建树;朱小燕;: "一种新的层次化结构问题分类器", vol. 22, no. 01, pages 93 - 98 *
王建文: "数字化图书与数字图书馆应用研究", 31 July 2005, 北京工业大学出版社, pages: 68 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080628A (zh) * 2022-06-01 2022-09-20 阿里巴巴(中国)有限公司 查询处理方法、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US20210191509A1 (en) Information recommendation method, device and storage medium
CN110825957B (zh) 基于深度学习的信息推荐方法、装置、设备及存储介质
CN106815252B (zh) 一种搜索方法和设备
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN112612957B (zh) 兴趣点的推荐方法、兴趣点推荐模型的训练方法、装置
CN111400507B (zh) 实体匹配方法及其装置
CN108334533A (zh) 关键词提取方法和装置、存储介质及电子装置
CN105740268B (zh) 一种信息推送方法和装置
US20110231399A1 (en) Clustering Method and System
CN110349568A (zh) 语音检索方法、装置、计算机设备及存储介质
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
WO2011037603A1 (en) Searching for information based on generic attributes of the query
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN104978356B (zh) 一种同义词的识别方法及装置
CN109241243B (zh) 候选文档排序方法及装置
CN107832338B (zh) 一种识别核心产品词的方法和系统
CN110196904A (zh) 一种获取推荐信息的方法、装置及计算机可读存储介质
CN112559879A (zh) 兴趣模型训练方法、兴趣点推荐方法、装置和设备
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN106708829B (zh) 一种数据推荐方法及推荐系统
CN115827956A (zh) 一种数据信息检索方法、装置、电子设备及存储介质
CN111428123A (zh) 查询方法和装置
CN113792209A (zh) 搜索词生成方法、系统及计算机可读存储介质
CN113343095A (zh) 一种模型训练以及信息推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717