CN108446378A - 基于用户搜索的方法、系统及计算机存储介质 - Google Patents

基于用户搜索的方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN108446378A
CN108446378A CN201810219513.XA CN201810219513A CN108446378A CN 108446378 A CN108446378 A CN 108446378A CN 201810219513 A CN201810219513 A CN 201810219513A CN 108446378 A CN108446378 A CN 108446378A
Authority
CN
China
Prior art keywords
commodity
search key
correspondence
title
leading question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810219513.XA
Other languages
English (en)
Other versions
CN108446378B (zh
Inventor
王畔
刘楠
汤盛宇
蒲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Mitu Network Technology Group Co ltd
Original Assignee
Honeybud (beijing) Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honeybud (beijing) Network Technology Co Ltd filed Critical Honeybud (beijing) Network Technology Co Ltd
Priority to CN201810219513.XA priority Critical patent/CN108446378B/zh
Publication of CN108446378A publication Critical patent/CN108446378A/zh
Application granted granted Critical
Publication of CN108446378B publication Critical patent/CN108446378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于用户搜索的方法、系统及计算机存储介质,所述方法包括:获取检索关键词与引导语之间的对应关系;获取用户输入的第一检索关键词,所述第一检索关键词为所述检索关键词之一;根据所述对应关系,确定与所述第一检索关键词对应的第一引导语;呈现所述第一引导语。由此可见,本发明实施例能够基于用户输入的检索关键词,呈现对应的引导语,这样推送的个性化的引导语能够将用户引导至相关社区知识,从而能够帮助用户更好地利用社区来获取相关知识,并进一步更利于用户挑选合适的商品。

Description

基于用户搜索的方法、系统及计算机存储介质
技术领域
本发明涉及信息检索领域,更具体地涉及一种基于用户搜索的方法、系统及计算机存储介质。
背景技术
用户在进行信息检索时,例如在电商搜索系统中进行搜索时,用户的查询词通常较短,文本特征稀疏,因此如何准确地进行识别是当前具有挑战性的问题之一。
发明内容
本发明提供了一种基于用户搜索的方法、系统及计算机存储介质,能够根据用户输入的搜索关键词,呈现对应的引导语。
根据本发明的一方面,提供了一种基于用户搜索的方法,所述方法包括:
获取检索关键词与引导语之间的对应关系;
获取用户输入的第一检索关键词,所述第一检索关键词为所述检索关键词之一;
根据所述对应关系,确定与所述第一检索关键词对应的第一引导语;
呈现所述第一引导语。
在本发明的一种实现方式中,还包括:
获取所述用户对所述第一引导语的操作;
根据所述操作执行对应的动作;
其中,所述操作为关闭操作,则所述动作为关闭所述第一引导语;所述操作为选择操作,则所述动作为跳转至与所述第一引导语相关联的社区页面。
在本发明的一种实现方式中,在所述获取检索关键词与引导语之间的对应关系之前,还包括通过以下方式构建所述对应关系:
获取所述检索关键词与商品分类之间的第一对应关系;
获取所述引导语与所述商品分类之间的第二对应关系;
根据所述第一对应关系和所述第二对应关系构建所述检索关键词与所述引导语之间的所述对应关系。
在本发明的一种实现方式中,所述检索关键词与商品分类之间的第一对应关系的构建包括:
获取N个历史检索关键词;
针对其中第i个历史检索关键词:
向搜索引擎发送请求,得到与所述第i个历史检索关键词对应的n个
搜索结果;
根据预设的置信阈值,选取所述n个搜索结果中的n1个搜索结果,其
中,n1小于或等于n;
使用预先训练好的卷积神经网络,得到所述n1个搜索结果一一对应的
n1个商品分类;
确定所述n1个商品分类中数量最多的商品分类的个数m,其中,m
小于或等于n1;
若m/n大于预设值w,则将所述数量最多的商品分类确定为与所述第
i个历史检索关键词对应的商品分类;
其中,m、n、n1、N和i均为正整数,i的取值范围为1至N,0<w<1。
在本发明的一种实现方式中,通过以下方式训练得到所述卷积神经网络:
构建训练数据集,所述训练数据集中包括商品标题及对应的商品分类;
将所述商品标题作为所述待训练的卷积神经网络的输入,并基于所述卷积神经网络的输出与所述对应的商品分类进行训练,直至收敛。
在本发明的一种实现方式中,所述商品标题为通过以下方式进行嵌入化矩阵表示的商品标题:
根据所述训练数据集中所有商品标题生成字典文件;
根据所述字典文件将每个商品标题进行数值化表示;
根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示。
在本发明的一种实现方式中,所述根据所述训练数据集中所有商品标题生成字典文件,包括:
统计所述训练数据集中所有商品标题中的每个字符出现的次数;
过滤出现次数小于预设次数的字符,并将剩余字符按出现次数进行顺序编号;
将所述顺序编号后的字符确定为所述字典文件。
在本发明的一种实现方式中,所述根据所述字典文件将每个商品标题进行数值化表示,包括:
将所述每个商品标题中的字符替换为所述字典文件中对应的编号,其中,若所述商品标题中的第一字符在所述字典文件中不存在,则将所述第一字符替换为0;
将所述替换后的商品标题进行截断或补足,以使得截断或补足后的商品标题的长度等于预设长度。
在本发明的一种实现方式中,所述预设长度等于所有替换后的商品标题的长度的均值。
在本发明的一种实现方式中,所述根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示,包括:
查出与所述数值化表示的商品标题中的每个编码对应的所述随机初始化的词嵌入矩阵中的嵌入向量;
将所有编码对应的嵌入向量组合成矩阵,作为所述嵌入化矩阵表示的商品标题。
在本发明的一种实现方式中,所述获取所述引导语与所述商品分类之间的第二对应关系包括:
从历史运营中获取所述第二对应关系。
在本发明的一种实现方式中,所述获取所述引导语与所述商品分类之间的第二对应关系还包括:
从社区运营中获取所述第二对应关系。
根据本发明的另一方面,提供了一种基于用户搜索的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方面及各个示例所述的方法的步骤。
根据本发明的再一方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方面及各个示例所述的方法的步骤。
由此可见,本发明实施例能够基于用户输入的检索关键词,呈现对应的引导语,这样推送的个性化的引导语能够将用户引导至相关社区知识,从而能够帮助用户更好地利用社区来获取相关知识,并进一步更利于用户挑选合适的商品。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明实施例的利用训练好的卷积神经网络进行预测的一个示意图;
图2是本发明实施例的基于用户搜索的方法的一个示意性流程图;
图3是本发明实施例的基于用户搜索的系统的一个示意性框图;
图4是本发明实施例的基于用户搜索的系统的另一个示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例提供了一种基于卷积神经网络(Convolutional Neural Network,CNN)来识别用户的搜索意图的方法。下面首先对该卷积神经网络进行阐述。
卷积神经网络是一种前馈神经网络,一般包括多个卷积层。本发明实施例中的CNN的输入为商品标题,输出为商品分类。该CNN可以称为商品标题分类模型,并且可以通过训练得到该CNN。
用于训练该CNN的训练数据集可以是站内已有的数据,即站内的商品标题及对应的商品分类。可理解,一般地,站内商品的分类会有多个层级,本发明实施例中可以选择其中的某一个层级的商品分类作为用于训练的数据集中的商品标题对应的商品分类。示例性地,训练数据集中所有的商品分类可以构成一个商品分类集合,该集合中的元素的数量可以处于一个预设范围内,反过来可以根据该预设范围来确定选择哪一个层级的商品分类作为训练数据集中的商品分类。这样,集合中的元素的数量不会太多也不会太少,若太多会造成该CNN训练的复杂度过高,导致CNN的预测结果不准确;若太少会造成该CNN对商品分类过少,使得可用性不强。
其中,该对应的商品分类可以用序号表示。例如,训练数据集中商品标题A的商品分类为34,商品标题B的商品分类为45,等等。
作为另一种表示,训练数据集中包括大量的商品标题,如几千或几万或更多的数量,且每个商品标题均具有标签信息,标签信息是以序号形式表示的对应的商品分类。
可以统计训练数据集中所有的商品标题中的各种字符(可以包括中文汉字、英文字母以及其它字符)出现的次数;过滤出现次数小于预设次数的字符,并将剩余字符按出现次数进行顺序编号;将所述顺序编号后的字符确定为所述字典文件。例如,预设次数可以为2,也就是说可以将频率少于两次的字符过滤,并对剩余字符按出现的次数进行顺序编号,生成字典文件。该字典文件中包括出现次数大于预设次数(例如2)的所有字符,且该字典文件中的每个字符均具有唯一的编号。可以将该字典文件的大小表示为D,即该字典文件中包括D个字符,其中,D为正整数,且一般地D的值的量级可以是104或106或更大或更小,本发明对此不限定。可理解,本发明实施例中按照字符而非按词组进行编号,能够减小对切词的依赖性,使得后续训练更精准。
根据该字典文件,将商品标题按照其字符替换为对应的编号。若商品标题中的某个字符在字典文件中不存在(如因其出现的次数小于预设次数),可以将该字典文件中不存在的字符表示为0。这样,该训练数据集中的所有商品标题都已经数值化。可理解,不同的商品标题可以具有不同的长度。
为了便于在训练神经网络时的一致性,可以进一步统一商品标题的长度。具体地,可以将数值化后的商品标题进行截断或补足,以使得截断或补足后的商品标题的长度等于预设长度。作为一例,可以将训练数据集中所有商品标题的长度的均值作为该统一的长度(即预设长度)。具体地,可以统计数值化后的所有商品标题的长度,并确定他们的平均长度为L。随后将该训练数据集中所有数值化后的所有商品标题的长度都修改为L。具体地,可以将原先长度大于L的商品标题做截断处理,即假设某数值化的商品标题长度大于L,可以将第L位之后的数值丢弃。可以将原先长度小于L的商品标题补齐至L位,即假设某数值化的商品标题长度为x(<L),则可以将第x+1位至第L位用0补齐。
如此,训练数据集中包括长度均为L的数值化的商品标题,且包括对应的以序号形式表示的商品分类。
作为一种实现方式,还可以进一步将长度为L的数值化的商品标题进行嵌入化矩阵表示。具体地,可以通过随机初始化确定维度为D×S的词嵌入矩阵(表示为E)。其中,D可以大于L或者等于L。对于每个长度为L的数值化的商品标题,可以通过数值化的编码查出与每个编码对应的词嵌入矩阵E中的长度为S的嵌入向量,将L个编码对应的L个嵌入向量组合成维度为L×S的矩阵X,即为该商品标题的嵌入化表示。
如此,可以进一步将长度为L的数值化的商品标题进行嵌入化矩阵表示。也就是说,训练数据集中可以包括嵌入化矩阵表示的商品标题,且包括对应的标签信息,该标签信息为以序号形式表示的商品分类。
进一步地,可以基于该包括嵌入化矩阵表示的商品标题以及序号形式表示的商品分类的训练数据集,对上述的CNN进行训练,以得到收敛的CNN。示例性地,该CNN可以包括输入层、卷积层、池化层、全连接层(fully connectedlayer,FC)和输出层。
其中,可以将嵌入化矩阵表示的商品标题输入至该输入层,也就是说,将维度为L×S的嵌入化矩阵表示的商品标题输入。
其中,卷积层可以包括两个或更多个卷积核(如256个),卷积层的输出可以为特定维度的特征图(如L×256的特征图)。示例性地,假设该卷积层包括128个宽度为5的一维卷积核以及128个宽度为2的一维卷积核。每个卷积核可以进行步长为1的卷积运算,不同宽度的卷积核分别负责提取不同范围大小的局部特征。具体地,在做卷积运算时,需要对输入矩阵做相应的零填充以使得输出特征图的长度和输入矩阵的长度(即L)相等。这样,在卷积运算后,可以得到两个L×128的特征图,随后将两个特征图进行拼接后即可以组成L×256的特征图。也就是说,该卷积层的输入是维度为L×S的嵌入化矩阵表示的商品标题,该卷积层的输出是维度为L×256的特征图。
其中,池化层可以用于降低特征图的维度。具体地,可以通过最大池化运算将卷积层输出的L×256的特征图转换为256维的向量。这样,池化运算降低了特征图的维度,提高了网络的泛化能力。
其中,全连接层的节点与池化层的节点两两连接。并且可以加入dropout机制,即在训练时随机舍弃50%的全连接层节点进行训练。而在后续的预测时可以使用全部的全连接层节点进行计算,对全连接层的输出使用分段线性函数(ReLU)进行激活,ReLU的计算公式为f(x)=max(0,x),其中x是上一层的输出,f(x)为激活层的输出。
其中,输出层可以包括softmax分类层。具体地,将全连接层的输出接入softmax分类层,计算出对应每个类别的概率值,softmax的计算公式可以表示为:示例性地,可以将所得到的概率值最大的那个分类确定为该网络的输出分类。
这样,便可以通过随机梯度下降算法(如Adam随机梯度下降算法)更新CNN网络各层参数,得到训练好的CNN。
具体地,在训练时,可以根据训练数据集中以序号形式表示的商品分类以及网络输出的分类构建交叉熵损失(cross-entropy cost),并进一步根据该交叉熵损失的收敛判断CNN的收敛。当连续多次迭代(如几百次或上千次迭代)所得到的交叉熵损失两两之差的绝对值小于某误差值(如10-5),则可以确定交叉熵损失已经收敛,即得到了训练好的CNN。
进一步,在训练完成之后,可以导出该CNN的模型参数和计算图。
示例性地,可以将该训练好的CNN表示为M,并可以使用M预测任一商品标题所对应的商品分类。作为一例,参照图1,假设待预测的商品标题为“冬季新款男童羊羔毛保暖外套”,首先可以得到该商品标题的嵌入化矩阵表示。该过程可以参见前述训练时得到嵌入化矩阵表示的商品标题的相关描述,这里不再赘述。进一步地,可以将该嵌入化矩阵表示的商品标题输入至训练好的卷积神经网络M,并将所输出的概率值最大的分类确定为与该商品标题所对应的商品分类,如图1所确定的商品分类为“宝宝服饰”。
“检索关键词-商品分类”对应关系
然而由于用户对商品标题一般是未知的,用户在进行检索时,用户输入的检索关键词与实际需求的商品标题可能会有较大的差别,因此可以在上述CNN的基础上,构建检索关键词与商品分类之间的对应关系。
可以获取该站内用户的历史检索关键词;向搜索引擎发请求,获取与每个历史检索关键词相关的多个商品标题。根据上述训练好的CNN,得到所述多个商品标题的多个商品分类。进一步,将所述多个商品分类中数量最多的商品分类确定为与历史检索关键词具有对应关系的商品分类。
其中,可以获取当前时刻之前一段时间内的历史检索关键词,例如获取前3个月或前6个月内的历史检索关键词。假设历史检索关键词的集合可以表示为Qu,其大小为N,即该集合中包括N个元素。示例性地,可以将N个历史检索关键词表示为q1,q2,...,qN。可以基于每一个历史检索关键词向搜索引擎发请求,示例性地可以向全网其他电商的搜索引擎发请求,从而获取与每一个历史检索关键词相关的多个商品标题。具体地,可以抓取搜索引擎中默认的排名靠前的n个(即top n)搜索结果,从而每一个历史检索关键词均能得到n个商品标题。假设qi对应的搜索结果表示为uqi,其中,uqi由n个商品标题构成,表示为uqi={tqi1,tqi2,...,tqin}。随后,可以使用上述训练好的CNN,得到每个商品标题所对应的商品分类。即基于uqi得到的商品分类可以表示为sqi={sqi1,sqi2,...,sqin}。统计sqi中相同的元素的数量,确定数量最多的元素,假设为sqij,则确定qi与sqij之间具有对应关系。类似地,便可以确定每个历史检索关键词所对应的商品分类,即建立N个“历史检索关键词-商品分类”之间的对应关系。
也就是说,可以获取N个历史检索关键词。针对其中第i个历史检索关键词(i=1,2,...,N):通过向全网其他电商的搜索引擎发请求,获取与第i个历史检索关键词相关的n个搜索结果(即n个商品标题);使用上述训练好的CNN,得到n个商品标题所一一对应的n个商品分类;统计n个商品分类所构成的组合中数量最多的商品分类;并建立第i个历史检索关键词与该数量最多的商品分类之间的对应关系。如此,便可以建立N个“历史检索关键词-商品分类”之间的对应关系。
可选地,作为一种实现方式,可以考虑置信阈值得到“历史检索关键词-商品分类”之间的对应关系。针对每一个历史检索关键词,可以确定n个搜索结果中满足置信阈值的搜索集合。进而可以使用上述训练好的CNN,得到该搜索集合中每个商品标题所对应的商品分类。随后,统计所得到的商品分类中每一种商品分类的数量,并建立该历史检索关键词与数量最多(假设为m个)的商品分类之间的对应关系。作为一例,还可以对得到的N个“历史检索关键词-商品分类”之间的对应关系进行过滤,具体地将m/n≤w的过滤掉,而保留满足m/n>w的“历史检索关键词-商品分类”之间的对应关系。其中,w为预设值,且0<w<1。
也就是说,可以获取N个历史检索关键词。针对其中第i个历史检索关键词(i=1,2,...,N):通过向全网其他电商的搜索引擎发请求,获取与第i个历史检索关键词相关的n个搜索结果(即n个商品标题);根据预先设置的置信阈值μ得到可信搜索结果(可以假设为n1个,且n1≤n)。使用上述训练好的CNN,得到n1个商品标题所一一对应的n1个商品分类;统计n1个商品分类所构成的组合中数量最多的商品分类,假设为m个;若m/n>w,则建立第i个历史检索关键词与该数量最多的商品分类之间的对应关系。如此,便可以建立多个“历史检索关键词-商品分类”之间的对应关系。
其中,预设的参数包括:从搜索引擎获取的搜索结果的数量n、置信阈值μ以及用于过滤对应关系的参数w。这三个参数的取值可以影响最终query需求分类识别的准确率和召回率。
由此可见,本发明实施例可以获取用户的N个历史检索关键词,并在上述训练好的CNN的基础上,得到N1个“历史检索关键词-商品分类”对应关系,其中,N1≤N,且N1/N可以被称为召回率。
作为一例,可以假设n=10,μ=0.5,w=0.5。可以获取用户在6个月之内的历史检索关键词,如为100万个。采用以上描述的过程,假设得到40万个“历史检索关键词-商品分类”对应关系,也就是说召回率为40万/100万=40%。可以对此进行人工抽取并进行评估,得到准确率,例如为93%。然而因为一般电商搜索的关键词会存在严重的头部效应,搜索量位于前10000的关键词可能会占据约90%的搜索量,而位于10000之外的剩余关键词几乎是无价值的,因此40%的召回率在实际中是完全足够的。
“引导语-商品分类”对应关系
可以基于历史运营活动,构建引导语与商品分类之间的对应关系。可理解,通常电商网站的运营历史中会有大量的活动,每个活动都有自己的引导语。其中,引导语也可以称为标语(slogan)或其他,本发明对此不限定。例如,在某次历史运营中,曾开展以“驱蚊”分类商品为主题的促销活动,且运营配置了“赶走痱子不做痒宝宝”的运营引导语。也就是说,该次历史运营中,构建了“赶走痱子不做痒宝宝”这一引导语与“驱蚊”这一商品分类之间的对应关系。由此可见,通过统计历史运营中的大量活动,便可以获取多个对应关系(引导语与商品分类之间的对应关系)。
进一步地,可以对所得到的引导语与商品分类之间的对应关系进行过滤,以得到过滤后的引导语与商品分类之间的对应关系。具体地,进行过滤的规则可以包括:去除杂质,人工规则挑选,考虑历史转换率、历史销售额、历史点击率等多个维度特征信息的择优策略,等等。如此便可以筛选出优质的“引导语-商品分类”对应关系。
可选地,作为一种实现方式,可以基于历史运营并结合社区运营,来构建引导语与商品分类之间的对应关系。具体地,可以在社区运营中配置与商品分类对应的社区引导语。可选地,作为一种实现方法,可以由运营人员人工地构建引导语与商品分类之间的对应关系。由于电商的商品分类是有限的,尤其是针对中小电商来说,因此即使是人工配置,该工作量也是可控的,不会消耗过长的时间,也不会给操作人员带来太大的工作量。
假设引导语的数量为S,则可以构建S个引导语-商品分类对应关系。其中,一个引导语可以对应一个或更多个商品分类。
“检索关键词-引导语”对应关系
基于上述得到的“检索关键词-商品分类”对应关系以及“引导语-商品分类”对应关系,可以构建“检索关键词-引导语”对应关系。
具体地,假设检索关键词Q1对应的商品分类为M1,且引导语S1所对应的商品分类包括M1,则可以构建检索关键词Q1与引导语S1之间的对应关系。可理解,若存在多个引导语所对应的商品分类均包括M1,则可以构建检索关键词Q1与多个引导语之间的对应关系。
这样,基于本说明书中的上述描述,可以预先构建“检索关键词-引导语”对应关系。进一步地,在用户进行商品搜索时,可以根据该对应关系识别用户的搜索意图,本发明实施例的基于用户搜索的方法可以如图2所示,包括:
S110,获取检索关键词与引导语之间的对应关系。
具体地,在S110中获取上述预先构建的“检索关键词-引导语”对应关系。
S120,获取用户输入的第一检索关键词,所述第一检索关键词为所述检索关键词之一。
当用户想要搜索商品时,可以在搜索栏输入第一检索关键词。
S130,根据所述对应关系,确定与所述第一检索关键词对应的第一引导语。
S140,呈现所述第一引导语。
可选地,与第一检索关键词所对应的第一引导语的数量可以为一个或更多个。若为多个,则在S140中可以同时呈现多个第一引导语,或者可以依次呈现多个第一引导语,或者可以采用其他方式呈现多个第一引导语,本发明对此不限定。
示例性地,在S120之后,还可以呈现与第一检索关键词所相关的商品等。示例性地,可以在显示屏的第一区域呈现第一引导语,在显示屏的第二区域呈现相关的商品等。作为一例,第一区域可以位于搜索栏的下方,第二区域可以位于第一区域的下方。
示例性地,在S140之后,还可以包括:获取所述用户对所述第一引导语的操作;根据所述操作执行对应的动作。其中,所述操作为关闭操作,则所述动作为关闭所述第一引导语;所述操作为选择操作,则所述动作为跳转至与所述第一引导语相关联的社区页面。
例如,所呈现的第一引导语的第一位置处(如右上角)可以包括关闭按钮(如“×”),用户可以通过点击该关闭按钮实现关闭操作。例如,用户可以通过点击所呈现的第一引导语(第一位置之外的其他位置)实现选择操作。其中,与第一引导语相关联的社区页面可以是第一引导语的社区知识落地页,这样,用户可以从社区获取第一引导语的更多更详尽的介绍。
由此可见,本发明实施例能够基于用户输入的检索关键词,呈现对应的引导语,这样推送的个性化的引导语能够将用户引导至相关社区知识,从而能够帮助用户更好地利用社区来获取相关知识,并进一步更利于用户挑选合适的商品。
并且,通过该方法不仅能够增加为用户服务的多样性,提升了用户的体验,而且还能够为社区带来更多流量,对社区体系建设具有重要的价值。
可理解,若获取用户输入的第二检索关键词,且第二检索关键词不属于S110中的检索关键词之一,则无法根据对应关系确定与第二检索关键词所对应的第二引导语。此时,可以按照常规检索方式呈现检索结果,即呈现与第二检索关键词所相关的商品等。
图3是本发明实施例的基于用户搜索的系统的一个示意性框图。图3所示的系统30可以包括:获取模块310、确定模块320和呈现模块330。
获取模块310可以用于获取检索关键词与引导语之间的对应关系;
获取模块310还可以用于获取用户输入的第一检索关键词,所述第一检索关键词为所述检索关键词之一;
确定模块320可以用于根据所述对应关系,确定与所述第一检索关键词对应的第一引导语;
呈现模块330可以用于呈现所述第一引导语。
示例性地,该系统30还可以包括执行模块。获取模块310还可以用于获取所述用户对所述第一引导语的操作,且执行模块可以用于根据所述操作执行对应的动作。其中,所述操作为关闭操作,则所述动作为关闭所述第一引导语;所述操作为选择操作,则所述动作为跳转至与所述第一引导语相关联的社区页面;相应地,呈现模块330可以呈现该社区页面。
示例性地,还可以包括构建模块,用于构建获取模块310所获取的对应关系。该构建模块可以具体用于:获取所述检索关键词与商品分类之间的第一对应关系;获取所述引导语与所述商品分类之间的第二对应关系;根据所述第一对应关系和所述第二对应关系构建所述检索关键词与所述引导语之间的所述对应关系。
示例性地,构建模块还可以用于构建检索关键词与商品分类之间的第一对应关系。具体地:获取N个历史检索关键词;针对其中第i个历史检索关键词:向搜索引擎发送请求,得到与所述第i个历史检索关键词对应的n个搜索结果;根据预设的置信阈值,选取所述n个搜索结果中的n1个搜索结果,其中,n1小于或等于n;使用预先训练好的卷积神经网络,得到所述n1个搜索结果一一对应的n1个商品分类;确定所述n1个商品分类中数量最多的商品分类的个数m,其中,m小于或等于n1;若m/n大于预设值w,则将所述数量最多的商品分类确定为与所述第i个历史检索关键词对应的商品分类;其中,m、n、n1、N和i均为正整数,i的取值范围为1至N,0<w<1。
示例性地,该系统30还可以包括训练模块,用于通过以下方式训练得到所述卷积神经网络:构建训练数据集,所述训练数据集中包括商品标题及对应的商品分类;将所述商品标题作为所述待训练的卷积神经网络的输入,并基于所述卷积神经网络的输出与所述对应的商品分类进行训练,直至收敛。
在训练模块训练所使用的训练数据集中,所述商品标题为通过以下方式进行嵌入化矩阵表示的商品标题:根据所述训练数据集中所有商品标题生成字典文件;根据所述字典文件将每个商品标题进行数值化表示;根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示。
其中,所述根据所述训练数据集中所有商品标题生成字典文件,包括:统计所述训练数据集中所有商品标题中的每个字符出现的次数;过滤出现次数小于预设次数的字符,并将剩余字符按出现次数进行顺序编号;将所述顺序编号后的字符确定为所述字典文件。
其中,所述根据所述字典文件将每个商品标题进行数值化表示,包括:将所述每个商品标题中的字符替换为所述字典文件中对应的编号,其中,若所述商品标题中的第一字符在所述字典文件中不存在,则将所述第一字符替换为0;将所述替换后的商品标题进行截断或补足,以使得截断或补足后的商品标题的长度等于预设长度。
作为一种实现方式,所述预设长度等于所有替换后的商品标题的长度的均值。
其中,所述根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示,包括:查出与所述数值化表示的商品标题中的每个编码对应的所述随机初始化的词嵌入矩阵中的嵌入向量;将所有编码对应的嵌入向量组合成矩阵,作为所述嵌入化矩阵表示的商品标题。
示例性地,获取模块310可以具体用于:从历史运营中获取所述第二对应关系。
示例性地,获取模块310还可以具体用于:从社区运营中获取所述第二对应关系。
图3所示的系统30能够实现前述图2所示的基于用户搜索的方法,为避免重复,这里不再赘述。
另外,本发明实施例还提供了另一种基于用户搜索的系统,如图4所示,图4所示的系统可以包括存储器420、处理器410及存储在所述存储器420上且在所述处理器410上运行的计算机程序430,处理器410执行所述计算机程序430时实现前述图2所示的基于用户搜索的方法的步骤。
示例性地,本发明实施例的图3或图4中所示的系统可以包括电商网站的服务器,该服务器可以是集中式的,或者可以是分布式的,或者可以是基于云的,本发明对此不限定。
另外,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述图2所示的基于用户搜索的方法的步骤。例如,该计算机存储介质为计算机可读存储介质。
由此可见,本发明实施例能够基于用户输入的检索关键词,呈现对应的引导语,这样推送的个性化的引导语能够将用户引导至相关社区知识,从而能够帮助用户更好地利用社区来获取相关知识,并进一步更利于用户挑选合适的商品。
并且,通过该方法不仅能够增加为用户服务的多样性,提升了用户的体验,而且还能够为社区带来更多流量,对社区体系建设具有重要的价值。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(Digital Signal Processing,DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种基于用户搜索的方法,其特征在于,所述方法包括:
获取检索关键词与引导语之间的对应关系;
获取用户输入的第一检索关键词,所述第一检索关键词为所述检索关键词之一;
根据所述对应关系,确定与所述第一检索关键词对应的第一引导语;
呈现所述第一引导语。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述用户对所述第一引导语的操作;
根据所述操作执行对应的动作;
其中,所述操作为关闭操作,则所述动作为关闭所述第一引导语;所述操作为选择操作,则所述动作为跳转至与所述第一引导语相关联的社区页面。
3.根据权利要求1所述的方法,其特征在于,在所述获取检索关键词与引导语之间的对应关系之前,还包括通过以下方式构建所述对应关系:
获取所述检索关键词与商品分类之间的第一对应关系;
获取所述引导语与所述商品分类之间的第二对应关系;
根据所述第一对应关系和所述第二对应关系构建所述检索关键词与所述引导语之间的所述对应关系。
4.根据权利要求3所述的方法,其特征在于,所述检索关键词与商品分类之间的第一对应关系的构建包括:
获取N个历史检索关键词;
针对其中第i个历史检索关键词:
向搜索引擎发送请求,得到与所述第i个历史检索关键词对应的n个搜索结果;
根据预设的置信阈值,选取所述n个搜索结果中的n1个搜索结果,其中,n1小于或等于n;
使用预先训练好的卷积神经网络,得到所述n1个搜索结果一一对应的n1个商品分类;
确定所述n1个商品分类中数量最多的商品分类的个数m,其中,m小于或等于n1;
若m/n大于预设值w,则将所述数量最多的商品分类确定为与所述第i个历史检索关键词对应的商品分类;
其中,m、n、n1、N和i均为正整数,i的取值范围为1至N,0<w<1。
5.根据权利要求4所述的方法,其特征在于,通过以下方式训练得到所述卷积神经网络:
构建训练数据集,所述训练数据集中包括商品标题及对应的商品分类;
将所述商品标题作为所述待训练的卷积神经网络的输入,并基于所述卷积神经网络的输出与所述对应的商品分类进行训练,直至收敛。
6.根据权利要求5所述的方法,其特征在于,所述商品标题为通过以下方式进行嵌入化矩阵表示的商品标题:
根据所述训练数据集中所有商品标题生成字典文件;
根据所述字典文件将每个商品标题进行数值化表示;
根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示。
7.根据权利要求6所述的方法,其特征在于,所述根据所述训练数据集中所有商品标题生成字典文件,包括:
统计所述训练数据集中所有商品标题中的每个字符出现的次数;
过滤出现次数小于预设次数的字符,并将剩余字符按出现次数进行顺序编号;
将所述顺序编号后的字符确定为所述字典文件。
8.根据权利要求7所述的方法,其特征在于,所述根据所述字典文件将每个商品标题进行数值化表示,包括:
将所述每个商品标题中的字符替换为所述字典文件中对应的编号,其中,若所述商品标题中的第一字符在所述字典文件中不存在,则将所述第一字符替换为0;
将所述替换后的商品标题进行截断或补足,以使得截断或补足后的商品标题的长度等于预设长度。
9.根据权利要求8所述的方法,其特征在于,所述预设长度等于所有替换后的商品标题的长度的均值。
10.根据权利要求8所述的方法,其特征在于,所述根据随机初始化的词嵌入矩阵,将所述数值化表示的商品标题进行嵌入化矩阵表示,包括:
查出与所述数值化表示的商品标题中的每个编码对应的所述随机初始化的词嵌入矩阵中的嵌入向量;
将所有编码对应的嵌入向量组合成矩阵,作为所述嵌入化矩阵表示的商品标题。
11.根据权利要求3所述的方法,其特征在于,所述获取所述引导语与所述商品分类之间的第二对应关系包括:
从历史运营中获取所述第二对应关系。
12.根据权利要求11所述的方法,其特征在于,所述获取所述引导语与所述商品分类之间的第二对应关系还包括:
从社区运营中获取所述第二对应关系。
13.一种基于用户搜索的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
14.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述方法的步骤。
CN201810219513.XA 2018-03-16 2018-03-16 基于用户搜索的方法、系统及计算机存储介质 Active CN108446378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810219513.XA CN108446378B (zh) 2018-03-16 2018-03-16 基于用户搜索的方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810219513.XA CN108446378B (zh) 2018-03-16 2018-03-16 基于用户搜索的方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN108446378A true CN108446378A (zh) 2018-08-24
CN108446378B CN108446378B (zh) 2022-04-12

Family

ID=63195677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810219513.XA Active CN108446378B (zh) 2018-03-16 2018-03-16 基于用户搜索的方法、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN108446378B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871483A (zh) * 2019-01-22 2019-06-11 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN112445968A (zh) * 2019-09-03 2021-03-05 百度(中国)有限公司 信息推送方法、装置、设备及计算机可读存储介质
CN112990425A (zh) * 2019-12-18 2021-06-18 中国移动通信集团浙江有限公司 5g网络切片的自动分类方法、其装置、电子设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909688A (zh) * 2017-03-07 2017-06-30 广州优视网络科技有限公司 一种基于输入搜索词来推荐搜索词的方法和装置
CN106920147A (zh) * 2017-02-28 2017-07-04 华中科技大学 一种基于词向量数据驱动的商品智能推荐方法
CN107066558A (zh) * 2017-03-28 2017-08-18 北京百度网讯科技有限公司 基于人工智能的引导项推荐方法及装置、设备与可读介质
US20170270159A1 (en) * 2013-03-14 2017-09-21 Google Inc. Determining query results in response to natural language queries
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN107346334A (zh) * 2017-06-27 2017-11-14 珠海市魅族科技有限公司 信息搜索方法及装置、计算机装置及计算机可读存储介质
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270159A1 (en) * 2013-03-14 2017-09-21 Google Inc. Determining query results in response to natural language queries
CN107341152A (zh) * 2016-04-28 2017-11-10 阿里巴巴集团控股有限公司 一种参数输入的方法及装置
CN106920147A (zh) * 2017-02-28 2017-07-04 华中科技大学 一种基于词向量数据驱动的商品智能推荐方法
CN106909688A (zh) * 2017-03-07 2017-06-30 广州优视网络科技有限公司 一种基于输入搜索词来推荐搜索词的方法和装置
CN107066558A (zh) * 2017-03-28 2017-08-18 北京百度网讯科技有限公司 基于人工智能的引导项推荐方法及装置、设备与可读介质
CN107346334A (zh) * 2017-06-27 2017-11-14 珠海市魅族科技有限公司 信息搜索方法及装置、计算机装置及计算机可读存储介质
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871483A (zh) * 2019-01-22 2019-06-11 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN109871483B (zh) * 2019-01-22 2020-10-23 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN112445968A (zh) * 2019-09-03 2021-03-05 百度(中国)有限公司 信息推送方法、装置、设备及计算机可读存储介质
CN112445968B (zh) * 2019-09-03 2023-04-21 百度(中国)有限公司 信息推送方法、装置、设备及计算机可读存储介质
CN112990425A (zh) * 2019-12-18 2021-06-18 中国移动通信集团浙江有限公司 5g网络切片的自动分类方法、其装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN108446378B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110956272B (zh) 实现数据处理的方法和系统
CN110309427A (zh) 一种对象推荐方法、装置及存储介质
WO2021042826A1 (zh) 一种视频播放完整度预测方法及装置
CN107578292B (zh) 一种用户画像构建系统
CN108073568A (zh) 关键词提取方法和装置
CN107111608A (zh) 从语言输入数据自动生成n‑元和概念关系
CN108647205A (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN111723292B (zh) 基于图神经网络的推荐方法、系统、电子设备及存储介质
CN109992763A (zh) 语言标注处理方法、系统、电子设备及计算机可读介质
CN107608862A (zh) 监控告警方法、监控告警装置及计算机可读存储介质
JP2002092305A (ja) スコア算出方法及びスコア提供方法
CN110222171A (zh) 一种分类模型应用、分类模型训练方法及装置
CN108446378A (zh) 基于用户搜索的方法、系统及计算机存储介质
CN110390052A (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
US11257100B2 (en) Product optimization crawler and monitor
CN108776678A (zh) 基于移动端NoSQL数据库的索引创建方法及装置
Pourjavad et al. Evaluating manufacturing systems by fuzzy ANP: a case study
CN109885776A (zh) 开源社区pr评审者可解释推荐模型
CN109784407A (zh) 确定表字段的类型的方法和装置
CN113627160B (zh) 文本纠错方法、装置、电子设备及存储介质
CN113837802B (zh) 一种时序过程与手机缺陷特征深度融合的二手手机价格预测方法
CN114519073A (zh) 一种基于图谱关系挖掘的产品配置推荐方法及系统
JP6328135B2 (ja) インタラクティブ検索フォーム用の推奨エンジン
CN106227661B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 311100 rooms 809 and 810, building 8, Xixi bafangcheng, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Mitu network technology (Group) Co.,Ltd.

Address before: Room 1606, 16th floor, building 1, yard 16, Taiyanggong Middle Road, Chaoyang District, Beijing 100020

Patentee before: MIYA BAOBEI (BEIJING) NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right