CN101770498A - 分步搜索法 - Google Patents
分步搜索法 Download PDFInfo
- Publication number
- CN101770498A CN101770498A CN200910003436A CN200910003436A CN101770498A CN 101770498 A CN101770498 A CN 101770498A CN 200910003436 A CN200910003436 A CN 200910003436A CN 200910003436 A CN200910003436 A CN 200910003436A CN 101770498 A CN101770498 A CN 101770498A
- Authority
- CN
- China
- Prior art keywords
- keyword
- information category
- classification
- user
- searching method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种智能分类的搜索方法,主要可以应用于电子商务网站的商品自动智能分类,或者应用于电子商务网站的广告智能匹配。本发明首先建立一个词库,词库中的每一个关键词对应一个类别,并且每个对应都有一个相应的赋值。然后,对于用户输入的关键词,用词库中的关键词去匹配用户的输入关键词,如果用户的输入中包含某一个已经存在于词库中的关键词,那么就给这个关键词对应的类别赋值,最后,赋值得分最高的类别即为用户最有可能要找的类别。
Description
一、技术领域
本技术涉及搜索引擎技术。
二、背景技术
现有搜索技术存在一些缺陷。
例如用户在某网上商城输入“手机耳机”,在现有技术下,只要商品名称里面包含了“手机”或者“耳机”这两个关键词,就会被列在搜索结果里面(详见:http://search.360buy.com/Search?keyword=手机耳机)。
这个搜索处理方法存在两个问题:
第一,这其中的很多搜索结果都不是用户需要的,例如手机架、耳机架、手机、普通耳机等等,因为这位用户实际上要找的商品是“手机耳机”。这无疑增加了用户查找商品的难度和时间。
第二,搜索结果只是列出9件符合用户需要的“手机耳机”,实际上,在这个商城里面共有27件符合条件的商品。也就是说,还有18件商品是用户希望找的,但是没有被搜索出来。(详见:http://www.360buy.com/products/652-830-862-0-0-0-0-0-0-0-1-1-1.html)
另外搜索“笔记本电池”“摩托罗拉手机”等等时也会遇到同样的问题。在国内几乎所有b2c网站上面,都和京东商城相似,除了淘宝网。
与京东商城比较,在淘宝网的搜索结果要好一些,因为淘宝网上面的商品数量庞大,并且卖家针对搜索关键词做了搜索优化的原因,使得这两个问题不是很明显。但是,在淘宝网上搜索“ibm笔记本”“摩托罗拉手机”等部分关键词的时候也会遇到同样的问题。
分步搜索法可以解决以上问题,并且使得“一句话搜索”成为可能。
三、发明内容
分步搜索法,分为3步:抽取关键词、判断类别、在结果类别中搜索。
第一步是根据词库抽取关键词。关键词主要被分为两类:类别关键词和筛选关键词。
第二步是判断类别,它主要是根据抽取到的关键词,给关键词所对应的类别赋值,并找出得分最高的类别。
第三步是根据筛选关键词在第二步中找到的类别中搜索符合需要的信息。
四、具体实施方式
下面以搜索关键词“诺基亚立体声手机耳机”为例,来说明分步搜索法的原理及功能。
首先第一步,是在“诺基亚立体声手机耳机”中,根据关键词词库抽取关键词:
诺基亚、立体声、手机、耳机、手机耳机。
相关的关键词词库如下表:
类别名称 | 首要类别关键词(5分) | 次要类别关键词(2分) | 次要类别关键词(2分) | 筛选关键词(2分) | 筛选关键词(2分) |
手机 | 手机 | 电话 | 诺基亚 | 老人 | |
手机耳机 | 手机耳机 | 手机 | 耳机 | 诺基亚 | 立体声 |
第二步,分析判断用户所要找的类别,分析过程如下:
对抽取到的5个关键词,逐个地进行分析:
诺基亚:给“手机”类别加2分;给“手机耳机”类别加2分;
立体声:给“手机”类别加0分;给“手机耳机”类别加2分;
手机:给“手机”类别加5分;给“手机耳机”类别加2分;
耳机:给“手机”类别加0分;给“手机耳机”类别加2分;
手机耳机:给“手机”类别加0分;给“手机耳机”类别加5分;
求和后,“手机”类别总得分为2+5=7分;“手机耳机”类别得分为2+2+2+5=13分
“手机耳机”的得分远比“手机”高,所以系统判断出这位用户要找的商品类别是“手机耳机”。(在其他例子中,得分最高的类别如果比得分第二多的类别高出2分以上,那么就可以判断这个得分最高的是用户所要找的类别;如果最高分类别只比第二名高出1分,则同时显示最高分类别和第二高分类别,让用户选择。)
第三步,在手机耳机类别下的所有商品的商品属性描述中,搜索筛选关键词“诺基亚”和“立体声”。商品属性中同时包含“诺基亚”和“立体声”的商品排在最前面;只包含其中一个关键词的排序次之。
这样,所有符合条件的商品就都可以被快速地找到,并且用户不想要的东西也不会出现在搜索结果里了。同时,用户用一句话来搜索他要找的东西的时候,就可以方便地找到,例如“老人用的诺基亚手机”。另外,除了商品检索之外,分步搜索法也可以应用到其他领域,例如用来识别用户是搜索“商品”、“图片”、“网页”、“音乐”、“招聘”、“机票”还是“新闻”等等。
Claims (5)
1.一种识别用户意图的分步搜索法,其特征是包含以下步骤:
(a)建立关键词词库。
(b)对用户提交的关键词或者短语进行分析,并且根据步骤(a)中所述关键词词库,提取其中和步骤(a)中所述关键词词库中的关键词完全匹配的关键词。
(c)对步骤(b)提取的关键词进行分析,根据关键词对应的信息类别和相应的赋值的累计值的高低,来判断用户要找的信息类别。
(d)在步骤(c)中识别出的信息类别中进一步搜索。
2.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词词库中的每一个关键词都对应一个或者多个信息类别,同时每一个对应都存在一个赋值。
3.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词词库中的所有关键词分为类别关键词和筛选关键词;类别关键词只被用来识别判断信息类别,筛选关键词不仅被用来判断信息类别,同时也被用来在识别出的信息类别中进一步检索。
4.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:所述关键词对应的信息类别和相应的赋值的累计值是指,如果在步骤(b)中提取的某一个关键词A对应某一信息类别B,那么就给予信息类别B相应的赋值;如果多个关键词对应信息类别B,那么信息类别B的累计值就是这多个关键词对应信息类别B的赋值的总和。
5.如权利要求书1所述的一种识别用户意图的分步搜索法,其特征在于:累计值最高的信息类别是用户最可能要找的信息类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910003436A CN101770498A (zh) | 2009-01-05 | 2009-01-05 | 分步搜索法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910003436A CN101770498A (zh) | 2009-01-05 | 2009-01-05 | 分步搜索法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101770498A true CN101770498A (zh) | 2010-07-07 |
Family
ID=42503362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910003436A Pending CN101770498A (zh) | 2009-01-05 | 2009-01-05 | 分步搜索法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101770498A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073707A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 用于实时识别短文本类别信息的方法、装置及计算机设备 |
CN102999521A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种识别搜索需求的方法和装置 |
CN103106220A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN103176995A (zh) * | 2011-12-21 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种信息导航的方法、装置与系统 |
CN103970761A (zh) * | 2013-01-28 | 2014-08-06 | 阿里巴巴集团控股有限公司 | 一种商品数据搜索方法及装置 |
CN103995830A (zh) * | 2014-04-17 | 2014-08-20 | 广东明创软件科技有限公司 | 基于输入法的快速切换应用程序的方法及其移动终端 |
CN105138680A (zh) * | 2015-09-14 | 2015-12-09 | 郑州悉知信息科技股份有限公司 | 关键词分类方法、装置及产品搜索方法、装置 |
CN105843877A (zh) * | 2016-03-21 | 2016-08-10 | 郑州悉知信息科技股份有限公司 | 一种页面搜索方法及装置 |
CN106708901A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 网站内搜索词的聚类方法及装置 |
CN106897262A (zh) * | 2016-12-09 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置以及处理方法和装置 |
CN108287919A (zh) * | 2018-02-13 | 2018-07-17 | 广东欧珀移动通信有限公司 | 网页应用的访问方法、装置、存储介质及电子设备 |
-
2009
- 2009-01-05 CN CN200910003436A patent/CN101770498A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073707A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 用于实时识别短文本类别信息的方法、装置及计算机设备 |
CN102999521A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种识别搜索需求的方法和装置 |
CN102999521B (zh) * | 2011-09-15 | 2016-06-15 | 北京百度网讯科技有限公司 | 一种识别搜索需求的方法和装置 |
CN103106220A (zh) * | 2011-11-15 | 2013-05-15 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN103106220B (zh) * | 2011-11-15 | 2016-08-03 | 阿里巴巴集团控股有限公司 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
CN103176995A (zh) * | 2011-12-21 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种信息导航的方法、装置与系统 |
CN103970761A (zh) * | 2013-01-28 | 2014-08-06 | 阿里巴巴集团控股有限公司 | 一种商品数据搜索方法及装置 |
CN103995830B (zh) * | 2014-04-17 | 2017-09-29 | 广东欧珀移动通信有限公司 | 基于输入法的快速切换应用程序的方法及其移动终端 |
CN103995830A (zh) * | 2014-04-17 | 2014-08-20 | 广东明创软件科技有限公司 | 基于输入法的快速切换应用程序的方法及其移动终端 |
CN105138680A (zh) * | 2015-09-14 | 2015-12-09 | 郑州悉知信息科技股份有限公司 | 关键词分类方法、装置及产品搜索方法、装置 |
CN106708901A (zh) * | 2015-11-17 | 2017-05-24 | 北京国双科技有限公司 | 网站内搜索词的聚类方法及装置 |
CN105843877A (zh) * | 2016-03-21 | 2016-08-10 | 郑州悉知信息科技股份有限公司 | 一种页面搜索方法及装置 |
CN106897262A (zh) * | 2016-12-09 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置以及处理方法和装置 |
CN108287919A (zh) * | 2018-02-13 | 2018-07-17 | 广东欧珀移动通信有限公司 | 网页应用的访问方法、装置、存储介质及电子设备 |
CN108287919B (zh) * | 2018-02-13 | 2020-05-12 | Oppo广东移动通信有限公司 | 网页应用的访问方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101770498A (zh) | 分步搜索法 | |
JP5575902B2 (ja) | クエリのセマンティックパターンに基づく情報検索 | |
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
US20130282709A1 (en) | Method and system for query suggestion | |
EP2778959B1 (en) | Information processing device, information processing method, and information processing program | |
US11836778B2 (en) | Product and content association | |
US20120284598A1 (en) | Handheld Electronic Device and Method for Accessing Bookmark | |
CN106296368A (zh) | 一种车型推荐系统和方法 | |
TWI549004B (zh) | Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database | |
CN104077286A (zh) | 商品信息的搜索方法及系统 | |
US20230114265A1 (en) | Method and system for filtering content | |
US11093529B2 (en) | Method for displaying landmark data | |
CN104751354A (zh) | 一种广告人群筛选方法 | |
CN105677810A (zh) | 一种基于关键词分析的网络购物产品搜索系统 | |
CN103426089B (zh) | 商品导购系统及方法 | |
CN108052601B (zh) | 数据库建立方法、装置及终端 | |
US20130232139A1 (en) | Electronic device and method for generating recommendation content | |
TWI507902B (zh) | A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium | |
CN104731918A (zh) | 一种语音搜索方法及装置 | |
WO2017049760A1 (zh) | 一种搜索结果的处理方法、装置、设备及计算机存储介质 | |
WO2014194440A1 (en) | Method and system for providing content with user interface | |
CN105279262A (zh) | 一种基于云计算的数据处理方法、系统及服务器 | |
CN104376034A (zh) | 信息处理设备,信息处理方法和程序 | |
CN101149745A (zh) | 一种呈现提示信息的方法、装置及系统 | |
US20200065864A1 (en) | System and method for determining emotionally compatible content and application thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20100707 |