CN101770498A - 分步搜索法 - Google Patents

分步搜索法 Download PDF

Info

Publication number
CN101770498A
CN101770498A CN200910003436A CN200910003436A CN101770498A CN 101770498 A CN101770498 A CN 101770498A CN 200910003436 A CN200910003436 A CN 200910003436A CN 200910003436 A CN200910003436 A CN 200910003436A CN 101770498 A CN101770498 A CN 101770498A
Authority
CN
China
Prior art keywords
keyword
information category
classification
user
searching method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910003436A
Other languages
English (en)
Inventor
李铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200910003436A priority Critical patent/CN101770498A/zh
Publication of CN101770498A publication Critical patent/CN101770498A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种智能分类的搜索方法,主要可以应用于电子商务网站的商品自动智能分类,或者应用于电子商务网站的广告智能匹配。本发明首先建立一个词库,词库中的每一个关键词对应一个类别,并且每个对应都有一个相应的赋值。然后,对于用户输入的关键词,用词库中的关键词去匹配用户的输入关键词,如果用户的输入中包含某一个已经存在于词库中的关键词,那么就给这个关键词对应的类别赋值,最后,赋值得分最高的类别即为用户最有可能要找的类别。

Description

分步搜索法
一、技术领域
本技术涉及搜索引擎技术。
二、背景技术
现有搜索技术存在一些缺陷。
例如用户在某网上商城输入“手机耳机”,在现有技术下,只要商品名称里面包含了“手机”或者“耳机”这两个关键词,就会被列在搜索结果里面(详见:http://search.360buy.com/Search?keyword=手机耳机)。
这个搜索处理方法存在两个问题:
第一,这其中的很多搜索结果都不是用户需要的,例如手机架、耳机架、手机、普通耳机等等,因为这位用户实际上要找的商品是“手机耳机”。这无疑增加了用户查找商品的难度和时间。
第二,搜索结果只是列出9件符合用户需要的“手机耳机”,实际上,在这个商城里面共有27件符合条件的商品。也就是说,还有18件商品是用户希望找的,但是没有被搜索出来。(详见:http://www.360buy.com/products/652-830-862-0-0-0-0-0-0-0-1-1-1.html)
另外搜索“笔记本电池”“摩托罗拉手机”等等时也会遇到同样的问题。在国内几乎所有b2c网站上面,都和京东商城相似,除了淘宝网。
与京东商城比较,在淘宝网的搜索结果要好一些,因为淘宝网上面的商品数量庞大,并且卖家针对搜索关键词做了搜索优化的原因,使得这两个问题不是很明显。但是,在淘宝网上搜索“ibm笔记本”“摩托罗拉手机”等部分关键词的时候也会遇到同样的问题。
分步搜索法可以解决以上问题,并且使得“一句话搜索”成为可能。
三、发明内容
分步搜索法,分为3步:抽取关键词、判断类别、在结果类别中搜索。
第一步是根据词库抽取关键词。关键词主要被分为两类:类别关键词和筛选关键词。
第二步是判断类别,它主要是根据抽取到的关键词,给关键词所对应的类别赋值,并找出得分最高的类别。
第三步是根据筛选关键词在第二步中找到的类别中搜索符合需要的信息。
四、具体实施方式
下面以搜索关键词“诺基亚立体声手机耳机”为例,来说明分步搜索法的原理及功能。
首先第一步,是在“诺基亚立体声手机耳机”中,根据关键词词库抽取关键词:
诺基亚、立体声、手机、耳机、手机耳机。
相关的关键词词库如下表:
类别名称   首要类别关键词(5分)   次要类别关键词(2分)   次要类别关键词(2分)   筛选关键词(2分)   筛选关键词(2分)
  手机   手机   电话   诺基亚   老人
  手机耳机   手机耳机   手机   耳机   诺基亚   立体声
第二步,分析判断用户所要找的类别,分析过程如下:
对抽取到的5个关键词,逐个地进行分析:
诺基亚:给“手机”类别加2分;给“手机耳机”类别加2分;
立体声:给“手机”类别加0分;给“手机耳机”类别加2分;
手机:给“手机”类别加5分;给“手机耳机”类别加2分;
耳机:给“手机”类别加0分;给“手机耳机”类别加2分;
手机耳机:给“手机”类别加0分;给“手机耳机”类别加5分;
求和后,“手机”类别总得分为2+5=7分;“手机耳机”类别得分为2+2+2+5=13分
“手机耳机”的得分远比“手机”高,所以系统判断出这位用户要找的商品类别是“手机耳机”。(在其他例子中,得分最高的类别如果比得分第二多的类别高出2分以上,那么就可以判断这个得分最高的是用户所要找的类别;如果最高分类别只比第二名高出1分,则同时显示最高分类别和第二高分类别,让用户选择。)
第三步,在手机耳机类别下的所有商品的商品属性描述中,搜索筛选关键词“诺基亚”和“立体声”。商品属性中同时包含“诺基亚”和“立体声”的商品排在最前面;只包含其中一个关键词的排序次之。
这样,所有符合条件的商品就都可以被快速地找到,并且用户不想要的东西也不会出现在搜索结果里了。同时,用户用一句话来搜索他要找的东西的时候,就可以方便地找到,例如“老人用的诺基亚手机”。另外,除了商品检索之外,分步搜索法也可以应用到其他领域,例如用来识别用户是搜索“商品”、“图片”、“网页”、“音乐”、“招聘”、“机票”还是“新闻”等等。

Claims (5)

1.一种识别用户意图的分步搜索法,其特征是包含以下步骤:
(a)建立关键词词库。
(b)对用户提交的关键词或者短语进行分析,并且根据步骤(a)中所述关键词词库,提取其中和步骤(a)中所述关键词词库中的关键词完全匹配的关键词。
(c)对步骤(b)提取的关键词进行分析,根据关键词对应的信息类别和相应的赋值的累计值的高低,来判断用户要找的信息类别。
(d)在步骤(c)中识别出的信息类别中进一步搜索。
2.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词词库中的每一个关键词都对应一个或者多个信息类别,同时每一个对应都存在一个赋值。
3.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词词库中的所有关键词分为类别关键词和筛选关键词;类别关键词只被用来识别判断信息类别,筛选关键词不仅被用来判断信息类别,同时也被用来在识别出的信息类别中进一步检索。
4.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词对应的信息类别和相应的赋值的累计值是指,如果在步骤(b)中提取的某一个关键词A对应某一信息类别B,那么就给予信息类别B相应的赋值;如果多个关键词对应信息类别B,那么信息类别B的累计值就是这多个关键词对应信息类别B的赋值的总和。
5.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:累计值最高的信息类别是用户最可能要找的信息类别。
CN200910003436A 2009-01-05 2009-01-05 分步搜索法 Pending CN101770498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910003436A CN101770498A (zh) 2009-01-05 2009-01-05 分步搜索法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910003436A CN101770498A (zh) 2009-01-05 2009-01-05 分步搜索法

Publications (1)

Publication Number Publication Date
CN101770498A true CN101770498A (zh) 2010-07-07

Family

ID=42503362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910003436A Pending CN101770498A (zh) 2009-01-05 2009-01-05 分步搜索法

Country Status (1)

Country Link
CN (1) CN101770498A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102999521A (zh) * 2011-09-15 2013-03-27 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103106220A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN103176995A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 一种信息导航的方法、装置与系统
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
CN103995830A (zh) * 2014-04-17 2014-08-20 广东明创软件科技有限公司 基于输入法的快速切换应用程序的方法及其移动终端
CN105138680A (zh) * 2015-09-14 2015-12-09 郑州悉知信息科技股份有限公司 关键词分类方法、装置及产品搜索方法、装置
CN105843877A (zh) * 2016-03-21 2016-08-10 郑州悉知信息科技股份有限公司 一种页面搜索方法及装置
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN108287919A (zh) * 2018-02-13 2018-07-17 广东欧珀移动通信有限公司 网页应用的访问方法、装置、存储介质及电子设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102999521A (zh) * 2011-09-15 2013-03-27 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN102999521B (zh) * 2011-09-15 2016-06-15 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置
CN103106220A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN103106220B (zh) * 2011-11-15 2016-08-03 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
CN103176995A (zh) * 2011-12-21 2013-06-26 阿里巴巴集团控股有限公司 一种信息导航的方法、装置与系统
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
CN103995830B (zh) * 2014-04-17 2017-09-29 广东欧珀移动通信有限公司 基于输入法的快速切换应用程序的方法及其移动终端
CN103995830A (zh) * 2014-04-17 2014-08-20 广东明创软件科技有限公司 基于输入法的快速切换应用程序的方法及其移动终端
CN105138680A (zh) * 2015-09-14 2015-12-09 郑州悉知信息科技股份有限公司 关键词分类方法、装置及产品搜索方法、装置
CN106708901A (zh) * 2015-11-17 2017-05-24 北京国双科技有限公司 网站内搜索词的聚类方法及装置
CN105843877A (zh) * 2016-03-21 2016-08-10 郑州悉知信息科技股份有限公司 一种页面搜索方法及装置
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN108287919A (zh) * 2018-02-13 2018-07-17 广东欧珀移动通信有限公司 网页应用的访问方法、装置、存储介质及电子设备
CN108287919B (zh) * 2018-02-13 2020-05-12 Oppo广东移动通信有限公司 网页应用的访问方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN101770498A (zh) 分步搜索法
JP5575902B2 (ja) クエリのセマンティックパターンに基づく情報検索
KR101700585B1 (ko) 온라인 제품 검색 방법 및 시스템
US20130282709A1 (en) Method and system for query suggestion
EP2778959B1 (en) Information processing device, information processing method, and information processing program
US11836778B2 (en) Product and content association
US20120284598A1 (en) Handheld Electronic Device and Method for Accessing Bookmark
CN106296368A (zh) 一种车型推荐系统和方法
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN104077286A (zh) 商品信息的搜索方法及系统
US20230114265A1 (en) Method and system for filtering content
US11093529B2 (en) Method for displaying landmark data
CN104751354A (zh) 一种广告人群筛选方法
CN105677810A (zh) 一种基于关键词分析的网络购物产品搜索系统
CN103426089B (zh) 商品导购系统及方法
CN108052601B (zh) 数据库建立方法、装置及终端
US20130232139A1 (en) Electronic device and method for generating recommendation content
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
CN104731918A (zh) 一种语音搜索方法及装置
WO2017049760A1 (zh) 一种搜索结果的处理方法、装置、设备及计算机存储介质
WO2014194440A1 (en) Method and system for providing content with user interface
CN105279262A (zh) 一种基于云计算的数据处理方法、系统及服务器
CN104376034A (zh) 信息处理设备,信息处理方法和程序
CN101149745A (zh) 一种呈现提示信息的方法、装置及系统
US20200065864A1 (en) System and method for determining emotionally compatible content and application thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100707