CN113792209B - 搜索词生成方法、系统及计算机可读存储介质 - Google Patents
搜索词生成方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113792209B CN113792209B CN202110928529.XA CN202110928529A CN113792209B CN 113792209 B CN113792209 B CN 113792209B CN 202110928529 A CN202110928529 A CN 202110928529A CN 113792209 B CN113792209 B CN 113792209B
- Authority
- CN
- China
- Prior art keywords
- commodity
- search
- words
- word
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000007711 solidification Methods 0.000 description 7
- 230000008023 solidification Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索词生成方法、系统及计算机可读存储介质,方法包括:获取商品信息以及用户历史搜索词信息;基于商品信息、用户历史搜索词信息以及预设模型构造搜索词;对搜索词进行排序获得搜索词列表;基于商品信息和用户历史搜索词信息构造搜索词,避免仅依赖用户有限的历史搜索数据构造搜索词而无法实现搜索的多样性与新颖性,有效提高转化率。
Description
技术领域
本发明涉及计算机领域,具体涉及一种搜索词生成方法、系统及计算机可读存储介质。
背景技术
suggest是现代搜索引擎最突出的功能之一,是用户在搜索和形成查询的第一个交互服务。用户在输入框中输入一个新的字符,搜索引擎能够提供匹配用户前缀的suggest候选列表,并且向用户展示靠前的候选项,查询前缀往往简短而且模棱两可。
传统的suggest采用的模型主要依靠匹配候选者过去的流行度进行排名。但是,某些查询的受欢迎程度可能会因不同的受众特征和用户而异。例如,尽管“连衣裙”和“篮球鞋”在总体上具有相同的流行度,并且都是显示前缀l的合法搜索词,但前者在年轻女性用户中明显更受欢迎,而后者则更可能由男性发生。但对于电商来说,需要一个个性化suggest的功能模块,它能够高效的引导用户完成购买。
目前的suggest搜索词的生成主要依赖用户历史搜索,但只有用户输入某一个搜索词且有成单,该搜索词才会被收入到suggest搜索词中,用户搜索的历史数据是有限的,这样的采集方式无法准确挖掘到商品的潜在卖点,因此无法引导用户购买潜在热卖的商品,并且仅依赖用户的搜索数据,无法实现搜索的多样性与新颖性。
发明内容
本发明目的是:提供一种搜索词生成方法、系统及计算机可读存储介质。
本发明的技术方案是:第一方面,本发明提供一种搜索词生成方法,所述方法包括:
获取商品信息以及用户历史搜索词信息;
基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词;
对所述搜索词进行排序获得搜索词列表。
在一种较佳的实施方式中,所述预设模型为基于N-gram语言模型和知识图谱构建的预设模型。
在一种较佳的实施方式中,所述基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词包括:
基于所述商品信息和所述用户历史搜索词信息获取商品实体与商品属性;
基于所述预设模型与所述商品实体和所述商品属性构造搜索词。
在一种较佳的实施方式中,所述基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词之后,所述方法还包括:
基于预先构建的前缀树保存所述搜索词。
在一种较佳的实施方式中,所述方法还包括:
获取用户实时输入的搜索词;
基于所述用户实时输入的搜索词从所述前缀树中召回前缀匹配的候选词;
判断所述候选词是否有误;
若是,则对所述候选词纠错获得建议搜索词;
若否,则保存所述候选词作为建议搜索词;
所述对所述搜索词进行排序获得搜索词列表包括:
对所述建议搜索词进行排序获得建议搜索词列表。
在一种较佳的实施方式中,所述对所述搜索词进行排序获得搜索词列表包括:
获取所述搜索词的嵌入特征;
基于所述搜索词的嵌入特征构建排序模型;
基于所述排序模型对所述搜索词进行排序获得搜索词列表。
在一种较佳的实施方式中,所述获取商品信息和用户历史搜索词信息包括:
获取数据库中的商品数据;
从所述商品数据中抽取商品实体与商品属性,所述商品信息至少包括所述商品实体与所述商品属性;
获取预设埋点传输的用户输入词数据;
基于所述用户输入词数据获得所述用户历史搜索词信息。
在一种较佳的实施方式中,所述从所述商品数据中抽取商品实体与商品属性之前,所述方法还包括:
对所述商品数据进行分词处理。
第二方面,本发明提供一种搜索词生成系统,所述系统包括:
获取模块,用于获取商品信息以及用户历史搜索词信息;
构造模块,用于基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词;
排序模块,用于对所述搜索词进行排序获得搜索词列表。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
与现有技术相比,本发明的优点是:提供一种搜索词生成方法、系统及计算机可读存储介质,方法包括:获取商品信息以及用户历史搜索词信息;基于商品信息、用户历史搜索词信息以及预设模型构造搜索词;对搜索词进行排序获得搜索词列表;基于商品信息和用户历史搜索词信息构造搜索词,避免仅依赖用户有限的历史搜索数据构造搜索词而无法实现搜索的多样性与新颖性,有效提高转化率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明实施例1所提供的搜索词生成方法的流程图;
图2为本发明实施例2所提供的搜索词生成系统的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如背景技术所述,目前的建议候选词的生成主要依赖用户的搜索历史,当用户输入某一个搜索词并且有成单,该搜索词才会被收入到建议候选词中。这样的采集方式无法采集到的除了搜索场景外其他场景用户的行为数据,无法准确挖掘到商品的潜在卖点,因此无法引导用户购买潜在热卖的商品。有很多在档期中卖得很好的商品,在搜索中销售的却卖得很少,究其原因,有可能是建议的搜索词没有挖掘到档期中热卖的商品及其卖点。另外,仅依赖用户的搜索数据,无法实现搜索的多样性与新颖性。用户搜索的历史数据是有限的,分析用户的搜索数据发现用户的搜索词主要是一些头部的商品词以及卖点词,很多有效的卖点词用户并没有输入,这些卖点词需要在建议阶段引导用户点击以提高转化率。
为解决上述问题,本发明提供一种搜索词生成方法、系统及计算机可读存储介质,基于商品信息和用户历史搜索词生成搜索词,所生成的建议搜索词更准确,能够准确挖掘到商品的潜在卖点引导用户购买潜在热卖的商品。
实施例1:本实施例提供一种搜索词生成方法,该方法包括:
S1、获取商品信息以及用户历史搜索词信息。
在一种较佳的实施方式中,本步骤包括:
S11、获取商品信息和用户历史搜索词。优选的,本步骤包括:
S111、获取数据库中的商品数据。具体的,获取数据库中在售商品信息,商品数据中至少包括商品名称和商品描述信息。
S112、从商品数据中抽取商品实体与商品属性,商品信息至少包括商品实体与商品属性。
商品实体指具有唯一指向性的商品名称或商品编码。目前商品的商品实体与商品属性没有现成的字段可以使用,同时商品数据中的商品名称、商品描述和商品属性等依赖于人工维护,而且商品数据中仍然存在一些脏数据。于本实施例中,通过Bi-LSTM+CRF等NER(命名实体识别)模型自动识别抽取商品数据中有用的商品实体与商品属性。NER模型训练需要大量的人工标注样本,而且人工标注样本中标注的商品实体与商品属性需要结合运营人员的经验标注,为解决此问题,本实施例中预先构建物品词、品牌词、属性词等词典,通过模板匹配的方法,抽取出商品的物品词、品牌词和属性词。基于词典匹配的数据,再标注一定量的样本,使用标注的样本训练一个深度的NER模型,从而可以自动高效的抽取有效的商品实体与商品属性。
在一种较佳的实施方式中,在从商品数据中抽取商品实体与商品属性之前,本步骤还包括:
对商品数据进行分词处理。
具体的,分词词典的准备性与完备性对于分词质量有很大的关系,但是随着时间的变化,新的词语是不断增加的,仅仅依赖运营人员添加是很难填充所有的新词,因此需要设计一个新词挖掘的模型,不断丰富搜索的词典。于本实施例中,使用spark计算所有搜索词的凝固度与自由度,凝固度表示词与词能够结合在一起的程度,该分数越高表示两个词结合在一起的概率越高。自由度表示词语单独存在的程度,该分数越高表示该词单独存在的概率越高。再为出现频数、凝固程度和自由度各设定一个阈值,只需要提取出所有满足阈值要求的候选词即为单个分词,去除历史的分词词典就可以得到新词。
电商场景中,用户搜索的词与候选的搜索词都是比较短的词语,而且存在很多意思相同但是表述不一样的词语,那么直接结算词语的文本距离不能有效的计算词语之间的距离。本实施例中使用NLP中embedding相关的技术,使用Word2Vec模型,训练得到所有词语的embedding,然后叠加得到所有搜索词的embedding,这样可以在高纬度直接计算文本间的相似度。
在另一种较佳的实施方式中,在从商品数据中抽取商品实体与商品属性之前,本步骤还包括:
进行模板匹配。
具体的,动态规划的分词算法将所有的语料切词,然后使用模板匹配的方式找到所有的实体与属性。由于这种方式会用到分词算法,而分词算法的质量和词典的准确性和丰富度有关,因此添加一个新词发现模型,该模型主要计算词语的凝固度、自由度和频次。凝固度的定义为其中p(x)为文本片段x在整个语料中出现的概率。可以想到,凝固度最大的片段是“饕餮”、“忐忑”之类的词,这些词的每一个字几乎总会和另一字同时出现,从不在其他场合使用。但是只考虑凝固度无法将“上辈子”等词语,因为如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。因此还需要计算词语的自由度,自由度的定义文本片段的左右信息熵。为了抽取分词的片段,可以使用n-gram方法获取所有潜在的词,再为出现频数、凝固度和自由度各设定一个阈值,最后可以提取出所有满足阈值要求的候选的搜索词。
S113、获取预设埋点传输的用户输入词数据。优选的,用户输入词数据包括用户点击和输入的搜索词。
S114、基于用户输入词数据获得用户历史搜索词。
从埋点的数据中直接抽取用户输入词数据,通过对用户输入词数据的分析获取用户的选择倾向,能够更准确地对用户进行建议。
S2、基于商品信息、用户历史搜索词信息以及预设模型构造搜索词。
在一种较佳的实施方式中,所述预设模型为基于N-gram语言模型和知识图谱构建的预设模型。
在一种较佳的实施方式中,本步骤包括:
S21、基于商品信息和用户历史搜索词信息获取商品实体与商品属性。
S22、基于预设模型与商品实体和商品属性构造搜索词。
在完成商品实体与商品属性抽取后,将所有的商品实体&商品实体的组合以及商品实体与&商品属性的组合作为所有潜在的搜索词。为了能够解决个性化冷启动的问题,还需要为每一个潜在的搜索词添加基础分。每个潜在搜索词的权重w由基础语料中商品实体与商品实体之间最大的距离定义w=log(1/d),最终潜在搜索词的权重是叠加语料中所有的权重w的和。
优选的,于本实施例中,采用N-gram language model构建所有可能的搜索词。
在一种较佳的实施方式中,在步骤S2之后,该方法还包括:
S2A、基于预先构建的前缀树保存搜索词。
为了实现前缀匹配的功能,本实施例使用前缀树这种数据结构保存步骤S2构造的所有可能的搜索词。
更具体的,由于通常线上的服务使用C++编写,如果将前缀树的存储放到线上服务器中,那么在模型加载的时候需要耗费大量的时间,同时需要占用大量的内存,显然随着数据量的增加,线上系统的稳定性会下降。未解决此问题,本实施例中采用在线下使用spark完成前缀树的构建,输出hash表的结构,最终将数据推送到VDE中。线上服务器直接调用VDE访问候选的建议搜索词,这样既节省了内存的占用,也减少了线上处理的耗时。前缀树基于所有潜在搜索词构建。
由于原先展示的候选词没有对用户输入的词做纠错处理。例如用户想搜索“波司登羽绒服”,但手误输入“泼司登”的时候,会建议出“泼司登羽绒服”搜索词,用户如未注意点击了该建议的搜索词,那么将获得错误的商品信息。如果在建议阶段不做纠错处理,那么搜索召回环节会直接使用带有错别字的搜索词去召回,这样可能会召回错误的商品。为解决此问题,在一种较佳的实施方式中,该方法还包括:
S2B、对用户实时输入的搜索词进行纠错处理,具体包括:
S2B1、获取用户实时输入的搜索词。
分析用户搜索数据发现,用户在进行搜索的时候常常会由于误触或者其他原因,会输入一些特殊的标点甚至是表情包。如果将这些字符直接用于搜索,可能会导致商品搜索无结果或者是搜索的商品有误。为了解决这一问题,本实施例中在处理用户输入的时候,添加去除特殊字的操作。
S2B2、基于用户实时输入的搜索词从前缀树中召回前缀匹配的候选词。
具体的,在用户在输入框中输入的过程中,输入框下方展示的建议搜索词没有按照用户输入的逻辑展示潜在的搜索词。例如:当用户输入“连衣裙”的时候,合理的输入逻辑是接下来用户会输入的连衣裙的品牌或者是连衣裙的属性。如果出现“红色女连衣裙”,违背了用户正常的思维逻辑,需要用户再转变原有的输入逻辑。于本实施例中,前缀树保存了所有可能的搜索词,当用户输入不同的词时,从前缀树中召回前缀匹配的候选词。
更具体的,遍历得到所有可能的搜索输入,包括中文短语、汉语拼音、英文单次和中文+拼音的组合,然后对于所有可能的搜索输入,从前缀树中召回所有匹配的候选词,并且基于潜在搜索词的基础分倒排。VDE能够方便快捷的查询到key-value格式的数据,将制作好的key-value数据定时推到VDE中。通过获取用户的输入,从VDE中直接读取存好的召回候选词。
S2B3、判断所述候选词是否有误,若是,则进入步骤S2B4,若否,则进入步骤S2B5。
S2B4、对候选词纠错获得建议搜索词。
S2B5、保存候选词作为建议搜索词。
所述对所述搜索词进行排序获得搜索词列表包括:
对所述建议搜索词进行排序获得建议搜索词列表。
当用户在搜索时输入错别字的时候,建议列表页仍然能够展示正确的候选词,从而提高商品的转化率以及提升用户的购买体验。
S3、对所述搜索词进行排序获得搜索词列表。
在一种较佳的实施方式中,本步骤包括:
S31、获取搜索词的嵌入特征。具体的,搜索词的嵌入特征包括用户历史搜索特征、用户画像特征和用户*搜索词统计特征。
S32、基于搜索词的嵌入特征构建排序模型。
具体的,使用用户历史搜索特征、用户画像特征和用户*搜索词统计特征等构建模型。优选的,采用Learn-to-rank模型或基于DSSM的改进模型,由于很多信息可以用来确定输入和文档的相关性,而且互联中有大量的搜索日志,因此将用户的点击行为日志作为训练数据,使用机器学习方法训练一个排序模型。
Learn-to-rank模型是一个监督模型,因此需要标注训练样本。训练样本标注有人工标注和从搜索日志自动标注两种方法。由于人工标注掺杂了人为因素的干扰,无法反馈用户搜索时的真实意图,而且工标注的方法代价较高。搜索日志记录了用户的搜索行为和相应的点击行为,用户点击行为实际上隐含了query-suggest对的相关性,可以作为判断query-suggest对的相关程度的依据。因此本实施例优选采用直接从搜索日志数据自动标注的方法。在当前的建议场景中,用户输入某一个query,会给用户展示n个候选的建议词。一种简单的方法是将用户点击的词排在最前面,其他的词语按照原有的循序排在点击的词语后面。但是真实场景中,用户可能误触某个词语。为了去除这种噪声,微软提出有效点击的概念,用户点击的词语且点击后浏览时长大于30ms的才作为有效的点击。训练一个机器学习模型,还需要从训练样本中提取出有效的特征。具体用到特征如表1所示。
研究表明,用户点击的建议候选词与用户的年龄、性别和所在区域有关。结合公司的业务解释,不同年龄段关注的商品以及商品属性大概率是不一样的,年轻用户可能偏好甜美可爱风的服装,中年用户可能更偏好成熟稳重的服装;不同性别的用户关注的商品也是不一样的,同样输入“l”,女性用户关注的可能是“Lancome”或者是“连衣裙”,而男性用户关注的可能是“Lining”或者是“篮球鞋”;不同区域受到当地气候的影响,关注的商品也是不一样的,同样是输入“y”,南方用户可能关注的是“运动鞋”,北方用户可能关注的是“羽绒服”。本实施中对用户年龄段做分桶处理,1-10岁的用户为1,11-20岁的用户为2,21-30岁的用户为3,31-40岁的而用户为4,41-50的用户为5,50岁以上的用户为6,年龄特征缺失的用户设置为0。区域特征包括了用户所属的仓库以及所在的省份,省份特征取省份编码的前3位进行,省份特征缺失的用户设置为0。为了描述不同用户对与候选词的偏好程度,可以统计相同社会属性下的统计特征。结合搜索场景,可以统计不同时间窗口候选建议词的点击率、转化率、频次、uv金额等统计特征。
用户在建议阶段点击的词语与历史搜索和用户点击的商品有关。例如,用户在最近搜索过“羽绒服”,当用户输入“y”的时候,用户更倾向于点击“羽绒服”,而不是点击“羽毛球”。用户历史搜索过“衬衫条纹”,当用户输入“羽绒服”的时候,用户更加倾向于点击“羽绒服条纹”,而不是点击“羽绒服波点”。因此可以计算用户历史搜索的词语与候选搜索词的语义距离。
表1
为了计算文本之间的语义距离,一种简单的方法是使用one-hot编码文本。假设词典中不同词的数量为N,每个词可以和从0到N-1的连续整数一一对应。这些与词对应的整数叫作词的索引。假设一个词的索引为i,创建一个全0的长为N的向量以得到该词的one-hot向量表示,并将其第i位设成1。这样一来,每个词就表示成了一个长度为N的向量,可以直接被神经网络使用。虽然one-hot词向量构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot词向量无法准确表达不同词之间的相似度,如常使用的余弦相似度。由于任何两个不同词的one-hot向量的余弦相似度都为0,多个不同词之间的相似度难以通过one-hot向量准确地体现出来。word2vec工具的提出正是为了解决上面这个问题。它将每个词表示成一个定长的向量,并使得这些向量能较好地表达不同词之间的相似和类比关系。因此本实施例优选word2vec工具提取出文本的embedding特征。训练embedding的步骤是,首先从用户搜索行为日志中抽取每个用户单个session点击浏览过的商品,按照时间顺序拼接所有的商品构建一条训练样本。然后使用分词模块将拼接好的样本分词。最后使用spark的word2ved工具可以训练得到每个词语的embedding,可以使用加权求和的方式,通过搜索词分词短语的embedding得到搜索词的embedding。得到embedding以后,可以通过余弦相似度计算词语之间语义的相似度。
S33、基于排序模型对搜索词进行排序获得搜索词列表。
具体的,排序模型会对于每一个候选词打分,最终依据得分高低倒排。
本实施例提供的搜索词生成方法、系统及计算机可读存储介质,方法包括:获取商品信息以及用户历史搜索词信息;基于商品信息、用户历史搜索词信息以及预设模型构造搜索词;对搜索词进行排序获得搜索词列表;基于商品信息和用户历史搜索词信息构造搜索词,避免仅依赖用户有限的历史搜索数据构造搜索词而无法实现搜索的多样性与新颖性,有效提高转化率。
实施例2:本实施例提供一种搜索词生成系统,该系统包括:
获取模块21,用于获取商品信息以及用户历史搜索词信息。
构造模块22,用于基于商品信息、用户历史搜索词信息以及预设模型构造搜索词。
排序模块23,用于对搜索词进行排序获得搜索词列表。
在一种较佳的实施方式中,构造模块22包括:
第一获取单元221,用于基于商品信息和用户搜索数据获取商品实体与商品属性;
构造单元222,用于基于所述预设模型与所述商品实体和所述商品属性构造搜索词。
在一种较佳的实施方式中,该系统还包括:
保存模块24,用于基于预先构建的前缀树保存所述搜索词。
在一种较佳的实施方式中,该系统还包括:
纠错模块25,具体包括:
第二获取单元251,用于获取用户实时输入的搜索词;
召回单元252,用于基于用户实时输入的搜索词从前缀树中召回前缀匹配的候选词;
判断单元253,用于判断候选词是否有误;
纠错单元254,用于在判断单元253判断候选词有误时对候选词纠错获得建议搜索词;
保存单元255,用于在判断单元253判断候选词无误时保存候选词作为建议搜索词。
在一种较佳的实施方式中,排序模块23包括:
第三获取单元231,用于获取搜索词的嵌入特征;
构建单元232,用于基于搜索词的嵌入特征构建排序模型;
排序单元233,用于基于所述排序模型对搜索词进行排序获得搜索词列表。
在一种较佳的实施方式中,获取模块21包括:
第四获取单元211,用于获取数据库中的商品数据;
抽取单元212,用于从商品数据中抽取商品实体与商品属性,商品信息至少包括商品实体与商品属性;
第五获取单元213,用于获取预设埋点传输的用户输入词数据;
第六获取单元214,用于基于用户输入词数据获得用户历史搜索词信息。
在一种较佳的实施方式中,获取模块21还包括:
分词单元215,用于在抽取单元212从商品数据中抽取商品实体与商品属性之前对商品数据进行分词处理。
需要说明的是:上述实施例提供的搜索词生成系统在进行搜索词建议时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的搜索词生成系统与实施例1提供的搜索词生成方法的实施例属于同一构思,即该系统是基于该方法的,其具体实现过程详见方法实施例,这里不再赘述。
实施例3:本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1中任一项所述的方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种搜索词生成方法,其特征在于,所述方法包括:
获取商品信息以及用户历史搜索词信息,包括:
获取数据库中的商品数据,所述商品数据至少包括在售商品的商品名称和商品描述信息;
从所述商品数据中抽取商品实体与商品属性,包括:
基于模板匹配和预先构建的物品词、品牌词和属性词词典抽取出商品的物品词、品牌词和属性词;
基于抽取出的所述商品的物品词、品牌词和属性词标注目标数量样本以训练出深度NER模型;
基于所述深度NER模型从所述商品数据中抽取商品实体与商品属性;
获取预设埋点传输的用户输入词数据;
基于所述用户输入词数据获得所述用户历史搜索词信息;
基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词,包括:
将所有的商品实体与商品实体的组合以及商品实体与商品属性的组合作为所有潜在的搜索词;
为每个搜索词添加权重,每个潜在搜索词的权重w由基础语料中商品实体与商品实体之间最大的距离定义w=l og(1/d),最终潜在搜索词的权重是叠加语料中所有的权重w的和;所述预设模型为基于N-gram语言模型和知识图谱构建的预设模型;
对所述搜索词进行排序获得搜索词列表。
2.根据权利要求1所述的搜索词生成方法,其特征在于,所述基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词包括:
基于所述商品信息和所述用户历史搜索词信息获取商品实体与商品属性;
基于所述预设模型与所述商品实体和所述商品属性构造搜索词。
3.根据权利要求1或2所述的搜索词生成方法,其特征在于,所述基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词之后,所述方法还包括:
基于预先构建的前缀树保存所述搜索词。
4.根据权利要求3所述的搜索词生成方法,其特征在于,所述方法还包括:
获取用户实时输入的搜索词;
基于所述用户实时输入的搜索词从所述前缀树中召回前缀匹配的候选词;
判断所述候选词是否有误;
若是,则对所述候选词纠错获得建议搜索词;
若否,则保存所述候选词作为建议搜索词;
所述对所述搜索词进行排序获得搜索词列表包括:
对所述建议搜索词进行排序获得建议搜索词列表。
5.根据权利要求1所述的搜索词生成方法,其特征在于,所述对所述搜索词进行排序获得搜索词列表包括:
获取所述搜索词的嵌入特征,所述搜索词的嵌入特征包括用户历史搜索特征、用户画像特征和用户*搜索词统计特征;
基于所述搜索词的嵌入特征构建排序模型;
基于所述排序模型对所述搜索词进行排序获得搜索词列表。
6.根据权利要求1所述的搜索词生成方法,其特征在于,所述从所述商品数据中抽取商品实体与商品属性之前,所述方法还包括:
对所述商品数据进行分词处理。
7.一种搜索词生成系统,其特征在于,所述系统包括:
获取模块,用于获取商品信息以及用户历史搜索词信息,包括:
第四获取单元,用于获取数据库中的商品数据,所述商品数据至少包括在售商品的商品名称和商品描述信息;所述第四获取单元还用于:从所述商品数据中抽取商品实体与商品属性,具体用于:
基于模板匹配和预先构建的物品词、品牌词和属性词词典抽取出商品的物品词、品牌词和属性词;
基于抽取出的所述商品的物品词、品牌词和属性词标注目标数量样本以训练出深度NER模型;
基于所述深度NER模型从所述商品数据中抽取商品实体与商品属性;
第五获取单元,用于获取预设埋点传输的用户输入词数据;
第六获取单元,用于基于所述用户输入词数据获得所述用户历史搜索词信息;
构造模块,用于基于所述商品信息、所述用户历史搜索词信息以及预设模型构造搜索词,具体用于:
将所有的商品实体与商品实体的组合以及商品实体与商品属性的组合作为所有潜在的搜索词;每个潜在搜索词的权重w由基础语料中商品实体与商品实体之间最大的距离定义w=l og(1/d),最终潜在搜索词的权重是叠加语料中所有的权重w的和;所述预设模型为基于N-gram语言模型和知识图谱构建的预设模型;
排序模块,用于基于所述搜索词的权重对所述搜索词进行排序获得搜索词列表。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928529.XA CN113792209B (zh) | 2021-08-13 | 2021-08-13 | 搜索词生成方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928529.XA CN113792209B (zh) | 2021-08-13 | 2021-08-13 | 搜索词生成方法、系统及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792209A CN113792209A (zh) | 2021-12-14 |
CN113792209B true CN113792209B (zh) | 2024-02-02 |
Family
ID=79181619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110928529.XA Active CN113792209B (zh) | 2021-08-13 | 2021-08-13 | 搜索词生成方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792209B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897576B (zh) * | 2022-05-05 | 2024-04-19 | 深圳市极客智能科技有限公司 | 基于数据分析的商品推送方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914566A (zh) * | 2014-04-22 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 搜索结果的展现方法和装置 |
CN104166707A (zh) * | 2014-08-08 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和搜索推荐装置 |
CN105956149A (zh) * | 2016-05-12 | 2016-09-21 | 北京奇艺世纪科技有限公司 | 默认搜索词的推荐方法和装置 |
CN106095912A (zh) * | 2016-06-08 | 2016-11-09 | 北京百度网讯科技有限公司 | 用于生成扩展查询词的方法和装置 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及系统 |
CN111597449A (zh) * | 2020-05-20 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 用于搜索的候选词构建方法、装置、电子设备及可读介质 |
-
2021
- 2021-08-13 CN CN202110928529.XA patent/CN113792209B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103914566A (zh) * | 2014-04-22 | 2014-07-09 | 百度在线网络技术(北京)有限公司 | 搜索结果的展现方法和装置 |
CN104166707A (zh) * | 2014-08-08 | 2014-11-26 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和搜索推荐装置 |
CN105956149A (zh) * | 2016-05-12 | 2016-09-21 | 北京奇艺世纪科技有限公司 | 默认搜索词的推荐方法和装置 |
CN106095912A (zh) * | 2016-06-08 | 2016-11-09 | 北京百度网讯科技有限公司 | 用于生成扩展查询词的方法和装置 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及系统 |
CN106649760A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的提问型搜索词搜索方法及装置 |
CN111597449A (zh) * | 2020-05-20 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 用于搜索的候选词构建方法、装置、电子设备及可读介质 |
Non-Patent Citations (2)
Title |
---|
Hybrid collaborative filtering methods for recommending search terms to clinicians;Zhiyun Ren 等;《Journal of Biomedical Informatics》;1-11 * |
基于云计算的电商商品查询推荐系统设计与实现;郑锴;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-807 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792209A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
US8190556B2 (en) | Intellegent data search engine | |
EP3301591A1 (en) | System and method for identifying related queries for languages with multiple writing systems | |
US8478704B2 (en) | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components | |
US20110078127A1 (en) | Searching for information based on generic attributes of the query | |
CN102663022B (zh) | 一种基于url的分类识别方法 | |
CN103838789A (zh) | 一种文本相似度计算方法 | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐系统及方法 | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN105468649B (zh) | 一种待展示对象匹配的判断方法及其装置 | |
US20110238491A1 (en) | Suggesting keyword expansions for advertisement selection | |
CN107330057B (zh) | 一种ElasticSearch搜索相关度算法优化方法及系统 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
TWI674511B (zh) | 商品資訊顯示系統、商品資訊顯示方法、及程式產品 | |
CN111506831A (zh) | 一种协同过滤的推荐模块、方法、电子设备及存储介质 | |
CN104715063A (zh) | 搜索排序方法和装置 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN107766229B (zh) | 一种利用蜕变测试评价商品搜索系统正确性的方法 | |
CN113792209B (zh) | 搜索词生成方法、系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |