CN105989125A - 对无结果词进行标签识别的搜索方法和系统 - Google Patents

对无结果词进行标签识别的搜索方法和系统 Download PDF

Info

Publication number
CN105989125A
CN105989125A CN201510082637.4A CN201510082637A CN105989125A CN 105989125 A CN105989125 A CN 105989125A CN 201510082637 A CN201510082637 A CN 201510082637A CN 105989125 A CN105989125 A CN 105989125A
Authority
CN
China
Prior art keywords
word
result
high frequency
category
substitute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510082637.4A
Other languages
English (en)
Other versions
CN105989125B (zh
Inventor
贾洪园
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Commerce Group Co Ltd
Original Assignee
Suning Commerce Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Commerce Group Co Ltd filed Critical Suning Commerce Group Co Ltd
Priority to CN201510082637.4A priority Critical patent/CN105989125B/zh
Publication of CN105989125A publication Critical patent/CN105989125A/zh
Application granted granted Critical
Publication of CN105989125B publication Critical patent/CN105989125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对无结果词进行标签识别的搜索方法和系统,从用户搜索词出发,分析用户真正的搜索意图,通过外网相关数据的爬取,再对爬取结果进行数据挖掘提取出与该词相关度较高的关键词即高频词,同时结合常用语料库对高频词进行归类。本发明扩大了关联数据的爬取范围,克服了普通无结果处理方法中主要局限于对站内搜索数据及用户行为的挖掘,容易出现处理失败的缺陷。

Description

对无结果词进行标签识别的搜索方法和系统
技术领域
本发明属于互联网电子商务领域,涉及互联网电子商务中商品搜索发生无结果返回时的二次搜索场景,尤其涉及一种对无结果词进行标签识别并生成替换搜索词的搜索方法和系统。
背景技术
目前搜索技术对搜索词的处理仅存在分词、同义词处理、纠错、减词等模块,对于正常检索无结果的关键词,采用纠错处理及减词搜索,增加搜索二次召回,但还存在较多的用户关注度较高的搜索词无法被纠错或减词所消化,即该关键词经纠错处理和减词搜索处理后,最终还是无搜索结果返回。
用户关注度较高的搜索词(如日搜索次数大于20次以上的搜索词)主要为包含品牌、品类、属性信息的不操作商品词,这里的不操作商品词指电子商务网站因缺货、未采购入货、国家政策规定禁卖等原因不销售的商品词条。对不操作商品词进行搜索时,通过纠错处理及减词搜索效果不够理想,在前台页面展示上仍跳转到搜索无结果页,故需要对此类关键词作品牌、品类及属性信息的扩展和识别,增加搜索结果的再次召回,提高搜索的单品转化率。
发明内容
技术问题:本发明提供一种提高搜索检全率,结果更精准,搜索结果更接近用户真正意图的对无结果词进行标签识别的搜索方法。本发明同时提供一种实现上述方法的对无结果词进行标签识别的搜索系统。
技术方案:本发明的对无结果词进行标签识别的搜索方法,包括以下步骤:
(1)对于无结果词,基于外网数据的爬取和分词切分,提取出高频词并对其进行标注;
(2)在标注的高频词基础上生成替换词;
(3)对无结果词进行扩展,如得到的扩展词中包括替换词,则进一步,
对该替换词进行前台搜索,如果有检索结果,则将前台搜索的结果作为最终搜索结果输出。
本发明搜索方法的优选方案中,步骤(1)具体包括:对无结果词进行外网数据的爬取,对爬取后的文档进行分词切分,并从切分结果中提取出高频词;
用商品库中记录的品牌、品类、属性信息对高频词进行词性标注。
本发明搜索方法的优选方案中,替换词的生成方法为:
从被标注为品牌的高频词中取计算得分最高的记录,从被标注为品类的高频词中取计算得分最高的记录,从标注为属性的高频词中取计算得分最高的多条记录;然后将所取的三部分高频词拼接,即为替换词。
本发明搜索方法的优选方案中,对无结果词进行扩展包括:
对属于纯品牌词的无结果词,扩展出该品牌的多个类似或相近的语义和表达形式;
对属于纯品类词的无结果词,扩展出该品类的多种类似或相近的语义和表达形式;
对属于品牌+品类词的无结果词,分别在该品牌/品类基础上扩展此品牌/品类的多种类似或相近的语义和表达形式;
对属于纯型号词的无结果词,根据该型号所属品牌或分类,扩展为以下三种之一:品类词、品牌词、品牌+品类词。
本发明搜索方法的优选方案中,所述的对无结果词进行扩展还包括:对属于品类+属性词的无结果词,分别将品类词和属性词扩展为该词的多种类似或相近的语义和表达形式。
本发明的对无结果词进行标签识别的搜索系统,包括:
高频词处理单元,用以生成高频词并对其进行标注;
替换词生成单元,用以在标注的高频词的基础上生成替换词;
商品库,用于存储记录商品的的品牌、品类、属性信息;
前台应用层,用以实时接收替换词,对替换词进行搜索,并将检索结果反馈给校验单元;
校验单元,用以对生成的替换词进行校验,并根据校验结果输出搜索结果。
本发明搜索系统的优选方案中,高频词处理单元包括:
爬取模块,用以对无结果词进行外网数据的爬取;
分词切分模块,用以对爬取后获得的文档进行分词切分;
高频词提取模块,用以从分词切分后的结果中提取出高频词;
词性识别模型,用以根据商品库中记录的品牌、品类、属性信息对高频词进行词性标注。
本发明搜索系统的优选方案中,校验单元包括扩展模块和判定模块,所述扩展模块用以对无结果词进行扩展,获得扩展词;所述判定模块在扩展词中包括替换词,同时前台应用层反馈该替换词有搜素结果时,判定通过校验,并将前台应用层的搜索结果作为最终搜索结果。
本发明搜索系统的优选方案中,判定模块还包括:将已包括在扩展词中的替换词发送给前台应用层;
所述前台应用层仅对上述判定模块发送过来的替换词进行检索。本发明通过对搜索无结果词识别,并对其进行品牌品类及属性的扩展,寻找相应的替换搜索词,同时采用替换搜索词作为此无结果词的二次召回对象,返回其搜索结果,提高搜索检全率。
有益效果:本发明与现有技术相比,具有以下优点:
扩大了关联数据的爬取范围,克服了普通无结果处理方法中主要局限于对站内搜索数据及用户行为的挖掘,容易出现处理失败的缺陷。
本发明方法中用商品库的品牌词、品类词、属性词及相互关联的关系,对提取出的高频词进行归类,同时借助品类品牌属性的关系,判断各个高频词是否有关联及其关联性,使得输出的结果更精准。
本发明中的替换词生成方法,不仅从词本身包含的内容,还挖掘用户在搜索该词返回的相关内容,更接近用户真正的搜索意图。
附图说明
图1是本发明方法的处理流程图。
图2是本发明中的前端展示调用流程图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
现有对无结果词的处理方法有纠错及减词两种,其中纠错,主要以无结果词为核心,从字形、字音两方面对原词进行相似词扩展,并根据原词与相似词之前的相似度得分,获取与原词相似度较高的相似词作为替换词。减词,则是对无结果词进行分词处理后的结果进行取舍,保留有结果的部分作为原词的替换词。
本发明方法的系统模块数据流程如图1所示,首先对经纠错处理和减词搜索后仍无结果的搜索词(即无结果词)进行外网数据的爬取,对爬取后的文档进行分词切分并提取出高频词,其中品牌和品类均提取出现频率最高的那个词作为高频词(可以为空),属性则提取出现频率最高的1至3个词作为高频词(最多为3个,可以不足3个)。结合现有的商品库中的数据(即商品库中记录的品牌、品类、属性信息)对高频词进行词性标注,即将高频词与商品库中的品牌、品类和属性词进行匹配,生成相应的匹配结果;
然后按照生成规则,在词性标注后得到的匹配结果基础上生成替换词,如果根据生成规则无法得到替换词,则结束本方法流程并输出“结果为空”,如果得到了替换词,则进入后续的校验环节;
最后对替换词进行后台校验和前台搜索校验,如两种校验方式均获通过,则将前台搜索校验的结果作为最终输出的搜索结果,否则结束本方法流程并输出结果为空:
后台校验,即在后台对无结果词进行扩展,如替换词落入得到的扩展词中,则为通过校验,否则为没有通过;
前台搜索校验,即由前台对替换词进行检索,如果有检索结果,则校验通过,否则校验没有通过。
本发明方法主要是从用户搜索词出发,分析用户真正的搜索意图,通过外网相关数据(指与该关键词相关的网页信息、用户点评信息等)的爬取,再对爬取结果进行数据挖掘提取出与该词相关度较高的关键词即高频词(相关度的判断,主要考虑提取出的关键词在爬取结果中的出现频次,以及与原词是否在完整语句中同时出现两方面),同时结合常用语料库(包含商品品牌、商品分类、商品属性数据)对高频词进行归类。
本发明方法中应用商品库的收集和整理数据,用到了全网(包含应用本方法的网上商城的站内站外)的品牌词、品类词(即分类词)、属性词和他们之间的相互关联关系(即某品类下,如冰箱分类包含某几个品牌-海尔/美菱/西门子等,同时包含哪些属性-对开门/变频/恒温等)。该商品库能帮助对提取出的高频词进行归类,同时借助品类品牌属性的关系,判断各个高频词是否有关联及其关联性,使得输出的结果更精准。例如:原词“52nx255a”,算法输出高频词有:“夏普、电视、液晶、日本、进口、大金”,根据商品库对高频词进行词义标注及其之间的关联关系进行识别,最终输出为“夏普-品牌,电视-品类,液晶、进口-属性”。
本发明的实施例中,以无结果词“tcl 48f 3700”为例,具体包括以下步骤:
(1)首先利用爬虫对无结果词“tcl 48f 3700” 进行外网数据的爬取,获取与该结果词相关的文档信息(如:文档1、文档2、文档3…);
然后对爬取的结果进行分词切分,对爬取到的网页数据处理方法中用到的分词词典,不仅仅包括常用词典内容,还包含品牌词、品类词及属性词。然后从切分的结果中提取出高频词;如:切分结果有—tcl、电视、省电、大促、液晶、网络,对切分后的各个单元,统计各自的tf(term frequency,关键词在每篇文档中出现的频率)及df(document frequency,出现过关键词的文档在整个文档集的占比)。其中tf为该单元在网页中出现的次数,若超过3次则记3次,df为某词在多少个文档出现过(1~30),最大为30,并对各个单元进行高频计算(各个单元的频次=tf/df),并保留top30作为高频词,所以最终提取的高频词<=30个,则其中提取的高频词有—tcl、电视、液晶。
接下来根据商品库中的数据(即商品库中记录的品牌、品类、属性信息),对上述提取的高频词进行词性标注。如:tcl-品牌,电视-品类,液晶-属性。本发明增加了语料库,辅助对高频词的词性以及高频词之间的关系进行标注。
(2)结合高频词及其标注结果,生成替换词。如:tcl液晶电视。
替换词具体的生成方法为:高频词提取的结果最多可为30个,故其标注后的结果最多也可是30个标注记录。这样就存在多个被标注为品牌的高频词和多个被标注为品类的高频词。
对于被标注为品牌的高频词进行筛选,取高频计算得分最高的那条记录。同样标注为品类的高频词也取高频计算得分最高的那条记录。标注为属性的高频词,取高频计算得分的多条(例如top5条)记录。
直接对这三部分抽取的结果进行拼接,生成一个含有品牌词(含标注)、品类词和属性(含标注)的高频词组合,即为替换词。
同时替换词必须满足以下生成规则:
1)品牌、品类均最多只能有一个输出(但可以没有输出),属性可以有多个输出(但可以没有输出);
2)替换词中包含的品牌、品类和属性均必须是商品库中已有的信息;
3)如果替换词是品类-品牌组合词,以及品类-属性组合词,则其必须是商品库中已有的组合词。
(3)首先根据扩展规则,在后台对无结果词进行扩展,生成扩展词。如tcl扩展为:tcl液晶电视。然后对替换词进行后台校验(即图1中所示的“扩展词校验”):检查得到的扩展词是否包含了已生成的替换词。
同时进行前台搜索校验:前台应用层实时获取替换词,并对其是否存在搜索结果进行校验(即图1中所示的“前台搜索校验”),有结果的在前台进行展示,无结果的不在前台展示。
在本发明方法的一种优选实施例中,上述步骤(3)仅将通过后台校验的替换词提交给前台应用层进行前台搜索校验,这样可以降低搜索工作量,进一步提高搜索效率和准确度。
本发明方法中,按照以下方式对无结果词进行扩展,得到扩展词:
1)对于无结果词为纯品牌词的,在该无结果词基础上扩展出该品牌的多个类似或相近的语义和表达形式,例如海尔扩展为haier,但此处的扩展要同时满足以下条件:
a、若该品牌只包含一个品类,则需要将该纯品牌词扩展为品牌+品类的组合词,例如:诺基亚扩展为诺基亚手机;若该品牌有多个品类,则对该纯品牌词不做品类上的扩展,例如:对于“三星”的扩展就不需要扩展品类。
b、若该品牌为不操作商品词,则转换成此品牌主打的操作品类词。
例如:吉安特——山地车、自行车
口口福——坚果
2)对于无结果词为纯品类词的,在该无结果词基础上扩展出该品类的多种类似或相近的语义和表达形式,但此处的扩展要同时满足以下条件:
a、若该品类只包含一个品牌,则需要将该纯品类词扩展为品牌+品类的组合词;若该品类涉及多个品牌,则品牌不要扩展;例如微波炉如果只包括格兰仕一个品牌,则扩展为格兰仕+微波炉,如果还包括其他品牌,则对该纯品类词不做品牌上的扩展。
b、若该品类为不操作商品词,则转换成此品类的相关品类(替代品类或上一层大品类)
例如:冷暖扇——空调扇、空调、电风扇
3)对于无结果词为品牌+品类词的,则对品牌和品类分别按如下方式扩展:
对品牌词:在该品牌基础上扩展此品牌的多种类似或相近的语义和表达形式;
对品类词:在该品类基础上扩展此品类的多种类似或相近的语义和表达形式。
对上述扩展后的品牌+品类词,若其中有不操作词,则结合现有的商品库进行取舍(即舍弃该不操作词),例如:扩展后为格力空调,而格力为不操作词,则调整为空调;又例如:扩展后为台铃电动车,而该商城不销售台铃品牌的电动车,但卖其他品牌的电动车(即台铃为不操作词),则调整为电动车。
4)对于无结果词为纯型号词的,则通过识别出该型号(属性)所属品牌/分类,得到扩展词为以下三种之一:品类词、品牌词、品牌+品类词,其中对于商品库中存在品牌+品类对应关系的,才扩展出品牌+品类词。
上述商品库中存在品牌+品类对应关系是指:网上商城销售该型号所属的品类且该品类可卖的商品,也包含与该型号一致的品牌。例如:夏普电视某款型号,该型号在网上商城上不卖,出现无结果,但该型号对应的电视这个品类,在网上商城上是可销售的,同时网上商城可销售的电视中也包含夏普这个品牌。此时则应扩展出“夏普电视”这种品牌+品类词的组合。
如果网上商城可销售的电视中,不卖夏普这个品牌,则应只扩展出“电视”这个品类词,如同格力空调型号的这个例子。
在本发明方法的优选实施例中,上述对无结果词进行扩展的环节还可以包括对无结果词为品类+属性词的扩展,即分别将其中的品类词和属性词扩展为该词的多种类似或相近的语义和表达形式,然后将扩展后的品类+属性词组合作为扩展词。
本发明方法的优选实施例中,还可以提供对算法的自学习功能,在整个流程中增加修正结果的反馈环节,算法可根据反馈的结果,检查分词词典和语料库,从而提高算法输出的准确性,其中“反馈“的内容为:从扩展词和替换词的差异上,可以看出生成的替换词所欠缺的内容,将其所欠缺的这些内容作为更新补充内容输入商品库,对商品库中已有信息进行补充完善,从而提升对后续无结果词进行标签识别和搜索的成功率和准确度。比如“口口福”,生成替换词为“坚果”,而扩展的结果为“口口福坚果”。在两者的对比中,会发现,生成的替换词中缺少了“口口福”这个品牌,故需作相应的反馈,对商品库中的品牌数据进行补充。
本发明方法的优选实施例中,还可以包括前端应用对用户搜索场景的识别及获取后端存储数据启动二次召回的内容,基本流程为:
1、当用户输入的搜索词无返回数据时,则对搜索词进行智能纠错处理,如果能正常返回搜索结果,则直接输出搜索结果,无需调用二次召回流程;若用户搜索词经过智能纠错处理后,不能正常返回搜索结果,则发起对该搜索词的二次召回;
2、按照上述对无结果词进行标签识别和搜索的方法和流程,进行搜索词的二次召回,其中生成的替换词作为该搜索词二次召回的输入。
本发明的对无结果词进行标签识别的搜索系统包括:
高频词处理单元,用以生成高频词并对其进行标注;
替换词生成单元,用以在标注的高频词的基础上生成替换词;
商品库,用于存储记录商品的的品牌、品类、属性信息;
前台应用层,用以实时接收替换词,对替换词进行搜索,并将有无检索结果反馈给校验单元;
校验单元,用以对生成的替换词进行校验,并根据校验结果输出搜索结果。
本发明搜索系统的实施例中,高频词处理单元包括:
爬取模块,用以对无结果词进行外网数据的爬取;
分词切分模块,用以对爬取后获得的文档进行分词切分并提取出高频词;
词性识别模型,用以根据商品库中记录的品牌、品类、属性信息对高频词进行标注。
本发明搜索系统的实施例中,校验单元包括扩展模块和校验判定模块,所述扩展模块用以对无结果词进行扩展,获得扩展词;所述校验判定模块在扩展词中包括替换词,同时前台应用层反馈该替换词有搜素结果时,判定通过校验,并将前台应用层的搜索结果作为最终搜索结果。
本发明搜索系统的优选实施例中,校验判定模块还将已包括在扩展词中的替换词发送给前台应用层,所述前台应用层仅对上述校验判定模块发送过来的扩展词进行检索。
本发明搜索系统的优选实施例中扩展模块包括:
用以对属于纯品牌词的无结果词进行扩展的纯品牌词子模块;
用以对属于纯品类词的无结果词进行扩展的品类词词子模块;
用以对属于品牌+品类词的无结果词进行扩展的品牌+品类词子模块;
用以对属于纯型号词的无结果词进行扩展的纯型号词子模块。
本发明搜索系统的另一种优选实施例中,扩展模块还包括:用以对属于品类+属性词的无结果词进行扩展的品类+属性词子模块。
下面通过举例说明本发明搜索系统的工作过程:
该系统包括:爬取模块——对无结果词进行外网数据的爬取,返回与该无结果词相关的文档。爬取模块经过网站爬虫工具获取与该词相关的文档资料(如:文档1、文档2、文档3…),并返回给分词切分模块。
分词切分模块,对返回的文档数据进行切分。分词切分模块使用公开分词算法(IK分词器)对文档资料进行切分,生成多个词条(如:京东、价格、型号、全网、底价、tcl、冰箱、双门、冰箱、变频……)后。
对分词结果进行词频统计,提取出高频词:对切分后的结果进行tf和df计算,并计算总得分(=tf/df),如京东2*3,价格3*4,型号1*4,全网1*2,底价2*2,tcl8*9,冰箱9*9,双门6*9,变频8*8;获取top30作为高频词,如tcl、冰箱、双门、变频。
词性识别模型,用以词性标注:根据商品库(提前准备好的品牌、品类、属性信息等数据)对高频词的进行词性标注,可标为品牌、品类和属性中其中一类,如:tcl:品牌、冰箱:分类、双门:属性。
替换词生成单元,用以生成替换词,品牌和品类各最多只能是1个,属性最多5个。取top1的品牌词(如tcl)、top1品类词(如:冰箱),属性词(如:双门、变频)。
扩展模块,对无结果词进行扩展,输出不同的扩展结果,如扩展出结果为tcl冰箱。
对生成的替换词与扩展结果进行校验,校验通过的作为最终输出。
对于用户搜索无结果词“tcl bcd-155ksa9”,首先,爬取模块经过网站爬虫工具获取与该词相关的文档资料(如:文档1、文档2、文档3…),并返回给分词切分模块;分词切分模块使用公开分词算法(IK分词器)对文档资料进行切分,生成多个词条(如:京东、价格、型号、全网、底价、tcl、冰箱、双门、冰箱、变频……)后,提取出高频词;词性识别模型根据商品库(提前准备好的品牌、品类、属性信息等数据)对各个高频词条进行词性标注,即将上一步切分处理中生成的词条与商品库中的品牌、品类和属性词进行匹配,并将生成的匹配结果作为高频词标注结果输出(如:tcl:品牌、冰箱:分类、双门:属性)。
扩展模块分别采用纯品牌词子模块、品类词词子模块、品牌+品类词子模块和纯型号词子模块对无结果词进行扩展,获得扩展词;校验判定模块在扩展词中包括替换词,同时前台应用层反馈该替换词有搜素结果时,判定通过校验,并将前台应用层的搜索结果作为最终搜索结果。
另外,本发明的优选实施例中,校验单元也记录着替换词生成的结果和前台应用层反馈的结果,并通过校验的替换词反馈给商品库进行信息的补充更新。例如“tcl bcd-155ksa9”新发现存在“变频”的属性,则会修正最终生成的结果,修正后的结果定期反馈给商品库,完善其所使用的商品库数据,方便其他无结果词的替换词扩展。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (9)

1.一种对无结果词进行标签识别的搜索方法,其特征在于,该方法包括以下步骤:
(1)对于无结果词,基于外网数据的爬取和分词切分,提取出高频词并对其进行标注;
(2)在标注的高频词基础上生成替换词;
(3)对无结果词进行扩展,如得到的扩展词中包括替换词,则进一步,
对该替换词进行前台搜索,如果有检索结果,则将前台搜索的结果作为最终搜索结果输出。
2.根据权利要求1所述的对无结果词进行标签识别的搜索方法,其特征在于,所述步骤(1)具体包括:对无结果词进行外网数据的爬取,对爬取后的文档进行分词切分,并从切分结果中提取出高频词;
用商品库中记录的品牌、品类、属性信息对高频词进行词性标注。
3.根据权利要求2所述的对无结果词进行标签识别的搜索方法,其特征在于,所述替换词的生成方法为:
从被标注为品牌的高频词中取计算得分最高的记录,从被标注为品类的高频词中取计算得分最高的记录,从标注为属性的高频词中取计算得分最高的多条记录;然后将所取的三部分高频词拼接,即为替换词。
4.根据权利要求1、2或3所述的对无结果词进行标签识别的搜索方法,其特征在于,所述的对无结果词进行扩展包括:
对属于纯品牌词的无结果词,扩展出该品牌的多个类似或相近的语义和表达形式;
对属于纯品类词的无结果词,扩展出该品类的多种类似或相近的语义和表达形式;
对属于品牌+品类词的无结果词,分别在该品牌/品类基础上扩展此品牌/品类的多种类似或相近的语义和表达形式;
对属于纯型号词的无结果词,根据该型号所属品牌或分类,扩展为以下三种之一:品类词、品牌词、品牌+品类词。
5.根据权利要求4所述的对无结果词进行标签识别的搜索方法,其特征在于,所述的对无结果词进行扩展还包括:对属于品类+属性词的无结果词,分别将品类词和属性词扩展为该词的多种类似或相近的语义和表达形式。
6.一种对无结果词进行标签识别的搜索系统,其特征在于,该系统包括:
高频词处理单元,用以生成高频词并对其进行标注;
替换词生成单元,用以在标注的高频词的基础上生成替换词;
商品库,用于存储记录商品的的品牌、品类、属性信息;
前台应用层,用以实时接收替换词,对替换词进行搜索,并将检索结果反馈给校验单元;
校验单元,用以对生成的替换词进行校验,并根据校验结果输出搜索结果。
7.根据权利要求6所述的对无结果词进行标签识别的搜索系统,其特征在于,所述高频词处理单元包括:
爬取模块,用以对无结果词进行外网数据的爬取;
分词切分模块,用以对爬取后获得的文档进行分词切分;
高频词提取模块,用以从分词切分后的结果中提取出高频词;
词性识别模型,用以根据商品库中记录的品牌、品类、属性信息对高频词进行词性标注。
8.根据权利要求6所述的对无结果词进行标签识别的搜索系统,其特征在于,所述校验单元包括扩展模块和判定模块,所述扩展模块用以对无结果词进行扩展,获得扩展词;所述判定模块在扩展词中包括替换词,同时前台应用层反馈该替换词有搜素结果时,判定通过校验,并将前台应用层的搜索结果作为最终搜索结果。
9.根据权利要求8所述的对无结果词进行标签识别的搜索系统,其特征在于,所述判定模块还包括:将已包括在扩展词中的替换词发送给前台应用层;
所述前台应用层仅对上述判定模块发送过来的替换词进行检索。
CN201510082637.4A 2015-02-16 2015-02-16 对无结果词进行标签识别的搜索方法和系统 Active CN105989125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510082637.4A CN105989125B (zh) 2015-02-16 2015-02-16 对无结果词进行标签识别的搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510082637.4A CN105989125B (zh) 2015-02-16 2015-02-16 对无结果词进行标签识别的搜索方法和系统

Publications (2)

Publication Number Publication Date
CN105989125A true CN105989125A (zh) 2016-10-05
CN105989125B CN105989125B (zh) 2019-08-16

Family

ID=57041425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510082637.4A Active CN105989125B (zh) 2015-02-16 2015-02-16 对无结果词进行标签识别的搜索方法和系统

Country Status (1)

Country Link
CN (1) CN105989125B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280106A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 搜索关键词的处理方法、装置及移动终端
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111400577A (zh) * 2018-12-14 2020-07-10 阿里巴巴集团控股有限公司 一种搜索召回方法及装置
CN112131461A (zh) * 2020-09-09 2020-12-25 重庆易宠科技有限公司 一种商品搜索方法、系统、终端及计算机可读存储介质
CN112532489A (zh) * 2020-12-01 2021-03-19 深圳万物安全科技有限公司 物联网设备识别方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206672A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 商品搜索无结果智能处理系统及方法
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206672A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 商品搜索无结果智能处理系统及方法
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN103914444A (zh) * 2012-12-29 2014-07-09 高德软件有限公司 一种纠错方法及其装置
CN103886094A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 电子商务搜索引擎纠错扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯一帆: "比较购物引擎系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280106A (zh) * 2017-03-08 2018-07-13 广州市动景计算机科技有限公司 搜索关键词的处理方法、装置及移动终端
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN111400577A (zh) * 2018-12-14 2020-07-10 阿里巴巴集团控股有限公司 一种搜索召回方法及装置
CN111400577B (zh) * 2018-12-14 2023-06-30 阿里巴巴集团控股有限公司 一种搜索召回方法及装置
CN110705274A (zh) * 2019-09-06 2020-01-17 电子科技大学 基于实时学习的融合型词义嵌入方法
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN112131461A (zh) * 2020-09-09 2020-12-25 重庆易宠科技有限公司 一种商品搜索方法、系统、终端及计算机可读存储介质
CN112532489A (zh) * 2020-12-01 2021-03-19 深圳万物安全科技有限公司 物联网设备识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN105989125B (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN105989125A (zh) 对无结果词进行标签识别的搜索方法和系统
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN100514337C (zh) 关键词的联想信息生成系统和生成方法
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN106909663B (zh) 基于标签用户品牌偏好行为预测方法及其装置
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
US20090327249A1 (en) Intellegent Data Search Engine
CN104899322A (zh) 搜索引擎及其实现方法
CN104750795A (zh) 一种智能语义检索系统和方法
US20140180934A1 (en) Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
KR20080114764A (ko) 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법
CN102722498A (zh) 搜索引擎及其实现方法
CN105824833A (zh) 基于用户行为反馈的关键词推荐方法和系统
CN103177036A (zh) 一种标签自动提取方法和系统
CN109446410A (zh) 知识点推送方法、装置及计算机可读存储介质
CN102722499A (zh) 搜索引擎及其实现方法
CN111475725A (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN102737021A (zh) 搜索引擎及其实现方法
CN115375380B (zh) 一种基于属性分类的业务数据处理方法和处理装置
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN112650858A (zh) 应急协助信息的获取方法、装置、计算机设备及介质
Xia et al. The unified collocation framework for opinion mining
Shnarch et al. GRASP: Rich patterns for argumentation mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210042 Nanjing Province, Xuanwu District, Jiangsu Suning Avenue, Suning headquarters, No. 1

Applicant after: SUNING.COM Co.,Ltd.

Address before: 210042 Nanjing Province, Xuanwu District, Jiangsu Suning Avenue, Suning headquarters, No. 1

Applicant before: SUNING COMMERCE GROUP Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 210000, 1-5 story, Jinshan building, 8 Shanxi Road, Nanjing, Jiangsu.

Patentee after: SUNING.COM Co.,Ltd.

Address before: 210042 Nanjing Province, Xuanwu District, Jiangsu Suning Avenue, Suning headquarters, No. 1

Patentee before: SUNING.COM Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A search method and system for label recognition of non result words

Effective date of registration: 20231220

Granted publication date: 20190816

Pledgee: Bank of China Limited Nanjing Gulou Branch

Pledgor: SUNING.COM Co.,Ltd.

Registration number: Y2023980071946

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190816

Pledgee: Bank of China Limited Nanjing Gulou Branch

Pledgor: SUNING.COM Co.,Ltd.

Registration number: Y2023980071946