CN101814080B - 一种实现信息搜索的方法及系统 - Google Patents

一种实现信息搜索的方法及系统 Download PDF

Info

Publication number
CN101814080B
CN101814080B CN 201010001638 CN201010001638A CN101814080B CN 101814080 B CN101814080 B CN 101814080B CN 201010001638 CN201010001638 CN 201010001638 CN 201010001638 A CN201010001638 A CN 201010001638A CN 101814080 B CN101814080 B CN 101814080B
Authority
CN
China
Prior art keywords
information
word
user
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201010001638
Other languages
English (en)
Other versions
CN101814080A (zh
Inventor
吴泳铭
梅坚
余斯恒
王磊
张立中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN 201010001638 priority Critical patent/CN101814080B/zh
Publication of CN101814080A publication Critical patent/CN101814080A/zh
Priority to HK11101332.2A priority patent/HK1147325A1/xx
Application granted granted Critical
Publication of CN101814080B publication Critical patent/CN101814080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现信息搜索的方法及装置,用以解决现有技术中存在的用户搜索信息时,需要根据用户输入信息进行多次搜索,还需要将搜索后获得的信息进行相关性分析才能提供给用户,不仅操作繁琐,而且查找效率低下的问题。该方法包括:在搜索信息时,对用户输入的搜索关键词进行分词处理,并对分词处理后获得的词进行排序,获得一个新词;利用所述新词的相关信息与已建立的信息库中的词的相关信息进行匹配,并将匹配成功的信息库中的词的相关信息所关联的信息提供给用户。

Description

一种实现信息搜索的方法及系统
本申请是对申请日为2006年9月5日、申请号为200610127662.0、申请名称为“一种实现信息搜索的方法及系统”的专利申请的分案申请。
技术领域
本发明涉及计算机及通信技术领域,尤其涉及一种实现信息搜索的方法及系统。
背景技术
随着网络技术的发展,当用户希望从众多网络信息中获得到自己关心的信息时,用户只需要登录搜索系统,输入自己关心的信息的关键词,搜索系统将根据用户输入的关键词检索出关联的信息反馈给用户。
在搜索系统中预先记录了发布信息的用户提供的信息,并建立了与该信息对应的索引文件,当接收到用户的搜索请求后,系统将自动根据用户输入的关键词查询索引文件,并将查找到的与关键词匹配的索引文件对应的信息发送给用户。
参阅图1所示,现有技术中对发布信息的用户提供的信息的处理过程如下:
步骤101、当发布信息的用户输入信息及该信息对应的关键词后,记录用户输入的信息和关键词。
步骤102、将记录的关键词进行分词处理。
步骤103、分别对分词处理后生成的每一个词建立一个索引,并将每一个索引关联到用户输入的信息上。
参阅图2所示,现有技术中对用户搜索信息的处理过程如下:
步骤201、当用户输入查询信息的关键词后,对该关键词进行分词处理。
步骤202、根据分词处理后的每一个词对应的索引分别查询到匹配的信息。
步骤203、将查询到的信息中的相同信息进行合并。
步骤204、分析经过合并的信息与用户输入关键词的相关度,并根据相关度将所述信息进行排序后提供给用户。
采用现有技术的方法,根据用户输入的关键词进行查找后,将查找到的结果进行合并,并将合并后的结果与用户输入的关键词进行相关性分析找出最相关的结果提供给用户。例如:当用户输入查询关键词“北京鲜花”后,系统进行分词处理,生成“北京”和“鲜花”两个词,然后根据“鲜花”对应的索引找出所有包含“鲜花”的信息,再根据“北京”对应的索引找出所有包含“北京”的信息,将查找到的信息中包含的相同信息进行合并,并找出合并后的信息中同时包含这两个词的信息,最后对该信息进行相关性判断,获得最相关的结果提供给用户。
采用上述方法,发布信息的用户输入的关键字是“北京鲜花”,搜索信息的用户输入的是“鲜花北京”或“北京的鲜花”,则用户发布的信息可能不会被提供给搜索信息的用户,搜索信息的结果和时间与输入关键词的顺序有关;当用户所输入的查询词包含多个词时,需要进行多次查询,并对查询到的多个结果进行合并,还需要将合并结果进行相关性分析才能将分析得到的结果提供给用户,不仅处理繁琐,而且查找效率低下。
发明内容
本发明提供一种处理用户搜索的方法及系统,用以解决现有技术中存在的用户搜索信息时,需要根据用户输入的多个关键词分别进行搜索,还需要将搜索后获得的信息进行合并及进行相关性分析后才能提供给用户,以及搜索信息的时间和搜索结果依赖于用户输入的关键词的顺序,不仅操作繁琐,而且查找效率低下的问题。
本发明提供以下技术方案:
一种实现信息搜索的方法,包括如下步骤:
接收发布信息的用户输入的信息及对应的关键词;
对关键词进行分词处理,并对应于分词处理后获得的每一个词分别生成一个哈希Hash代码,根据所述Hash代码将所述各词进行排序获得一个新的词,并在信息库中建立该词的相关信息与所述用户输入的信息之间的关联关系;以及
在搜索信息时,对用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。
其中,所述词的相关信息为该词本身;或者,所述词的相关信息为能够唯一标识该词的索引。
其中,按照各词的Hash代码值的大小将所述各词由小到大进行排列获得一个新的词。
进一步,对排序后获得的新词生成一个Hash代码,并将该Hash代码作为该词的索引。
在信息库中建立词的索引与信息的关联关系时,先判断是否已存在相同的索引,并且在存在相同的索引时,直接将信息关联所述索引。
一种提供用户搜索的系统,包括:
信息处理装置,用于接收发布信息的用户输入的信息及对应的关键词,对关键词进行分词处理,并对应于分词处理后获得的每一个词分别生成一个哈希Hash代码,根据所述Hash代码将所述各词进行排序获得一个新的词,并在信息库中建立该词的相关信息与所述用户输入的信息之间的关联关系;
信息搜索装置,用于在搜索信息时,对用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与信息库中词的相关信息进行匹配,将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。
本发明有益效果如下:
采用本发明的方法,对发布信息的用户输入的对应该信息的关键词进行分词处理获得一个新的词,并建立该词的相关信息与所述用户发布的信息的关联关系,当搜索信息时,对用户输入的关键词进行分词处理只生成一个词,根据该词进行搜索,并将查找到的与该词匹配的词关联的信息提供给用户,采用这种方式,即使用户输入多个关键词进行搜索,也只需要搜索一次;同时,不仅不需要区分输入的关键词的先后顺序,对于搜索后获得的信息不需要进行相关性分析即可提供给用户,还能保证提供给用户的信息与用户输入的关键词的匹配度,不仅简化了对用户搜索时的繁琐处理,同时提高了搜索效率。当对分词处理后获得的新的词建立索引,利用索引进行搜索可进一步提高搜索效率。
附图说明
图1为现有技术中对发布信息的用户提供的信息进行处理的示意图;
图2为现有技术中用户搜索信息时的处理示意图;
图3为本发明实施例的系统结构示意图;
图4为本发明实施例一中对用户发布的信息进行处理的流程图;
图5为本发明实施例一中用户搜索信息的处理流程图;
图6为本发明实施例二中对用户发布的信息进行处理的流程图;
图7为本发明实施例二中用户搜索信息的处理流程图。
具体实施方式
为了解决现有技术中存在的用户搜索信息时不仅操作繁琐,而且查找效率低下的问题,在本实施例中根据发布信息的用户输入的关键词进行分词处理获得一个新的词,并在信息库中建立该词的相关信息与用户输入的信息之间的关联关系。当用户搜索信息时,根据该用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。所述词的相关信息可以是词本身,或者为词的索引。
参阅图3所示,本实施例中的系统包括:信息处理装置310、信息库320和信息搜索装置330。其中,信息处理装置310包括接收单元3101和处理单元3102;信息搜索装置330包括搜索单元3301和输出单元3302。
信息处理装置310中的接收单元3101用于接收发布信息的用户输入的信息及该信息的关键词,并将所述信息及关键词传送给处理单元3102,以及将所述信息传送到信息库320;处理单元3102用于对用户输入信息的关键词进行分词处理获得一个新的词,以及在信息库320中建立该词与所述用户输入的信息之间的关联关系;或者,进一步对获得的所述新词建立索引,并在信息库320中建立该索引与所述用户输入的信息之间的关联关系。信息库320用于存储发布信息的用户发布的信息以及该信息的关联信息。信息搜索装置330中的搜索单元3301用于对搜索信息的用户输入的关键词进行分词处理获得一个新的词,并利用该词或该词的索引在信息库320中进行匹配,将信息库320中匹配成功的所述词或词的索引所关联的信息传送给输出单元3302;输出单元3302用于将搜索到的匹配信息提供给搜索信息的用户。
以下通过实施例对采用不同方式实现用户搜索信息进行说明。
实施例一:
参阅图4所示,本实施例中对用户发布的信息的处理过程如下:
步骤401、发布信息的用户输入信息以及对应于该信息的关键词。
步骤402、对用户输入的关键词进行分词处理,然后采用Hash算法计算经过分词处理后获得的每个词的Hash代码。
步骤403、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词,在信息库中记录该词,并对应该词记录用户发布的信息。
参阅图5所示,本实施例中对用户搜索信息的处理过程如下:
步骤501、当搜索信息的用户输入搜索关键词时,对用户输入的关键词进行分词处理。
步骤502、将分词处理后获得的每个词采用Hash算法计算得到对应的Hash代码。
步骤503、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。
步骤504、在信息库中查找该词,并在查找到该词后,将对应该词记录的用户发布的信息提供给搜索信息的用户。
采用以上实施例中的方式,当用户输入查询关键词后,对关键词进行分词处理只生成一个新词,并根据该词进行搜索,搜索次数与用户输入关键词的方式无关。例如:当用户输入“北京鲜花”、“鲜花北京”和“北京的鲜花”中的任一项查询信息时,对“北京鲜花”进行分词处理,得到“北京”和“鲜花”两个词,对“鲜花北京”进行分词处理时去除没有实际意义的空格后得到“鲜花”和“北京”两个词,对“北京的鲜花”进行分词处理时去除“的”后,同样得到“北京”和“鲜花”两个词。采用现有的方法,需要分别根据每一个词进行查询,而采用本发明的方法时,对“北京”和“鲜花”分别计算出对应的Hash代码后,可根据各词对应的Hash代码将各词排序后生成一个新词,如“北京”被转换为1,“鲜花”被转换成3,根据Hash代码值由小到大排序后生成新词“北京鲜花”,根据该新词进行查询,只需要查询一次,并且查询后获得的信息可直接提供给用户,简化了查询处理,提高了查询效率。
实施例二:
参阅图6所示,本实施例中对用户发布的信息的处理过程如下:
步骤601、发布信息的用户输入信息以及对应于该信息的关键词。
步骤602、对用户输入的关键词进行分词处理,然后采用Hash算法计算经过分词处理后获得的每个词的Hash代码。
步骤603、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。
步骤604、对所述新词采用Hash算法计算出一个Hash代码,将该代码作为该词的索引,并将该索引存储到信息库中,对应该索引记录发布信息的用户输入的信息。
参阅图7所示,本实施例中对用户搜索信息的处理过程如下:
步骤701、当搜索信息的用户输入搜索关键词时,对用户输入的关键词进行分词处理。
步骤702、将分词处理后获得的每个词采用Hash算法计算得到对应的Hash代码。
步骤703、根据各Hash代码将分词处理后获得的每个词进行排序生成一个新词。
步骤704、对所述新词采用Hash算法计算出一个Hash代码,将该代码作为该词的索引,并利用该索引在信息库中进行搜索,将搜索到的对应该索引的用户发布的信息提供给搜索信息的用户。
本实施例中,采用Hash算法,对所述新词生成一个Hash代码,并将该代码作为所述新词的索引,并利用该索引进行搜索,进一步提高了搜索的效率。
应用本发明,无论搜索信息的用户输入多少个词,都只需要进行1次查询,不仅不需要区分输入的关键词的先后顺序,对于搜索后获得的信息不需要进行相关性分析即可提供给用户,还能保证提供给用户的信息与用户输入的关键词的匹配度,不仅简化了对用户搜索时的繁琐处理,同时还提高了搜索效率,而且对于相同的搜索信息量,系统响应时间都是固定的。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种实现信息搜索的方法,其特征在于,包括如下步骤:
接收发布信息的用户输入的信息及对应的关键词;
对关键词进行分词处理,并对应于分词处理后获得的每一个词分别生成一个哈希Hash代码,根据所述Hash代码将所述各词进行排序获得一个新的词,并在信息库中建立该词的相关信息与所述用户输入的信息之间的关联关系;以及
在搜索信息时,对用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与所述信息库中词的相关信息进行匹配,并将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。
2.如权利要求1所述的方法,其特征在于,所述词的相关信息为该词本身;或者,所述词的相关信息为能够唯一标识该词的索引。
3.如权利要求1所述的方法,其特征在于,按照各词的Hash代码值的大小将所述各词由小到大进行排列获得一个新的词。
4.如权利要求3所述的方法,其特征在于,对排序后获得的新词生成一个Hash代码,并将该Hash代码作为该词的索引。
5.如权利要求2至4任一项所述的方法,其特征在于,在信息库中建立词的索引与信息的关联关系时,先判断是否已存在相同的索引,并且在存在相同的索引时,直接将信息关联所述索引。
6.一种提供用户搜索的系统,其特征在于,包括:
信息处理装置,用于接收发布信息的用户输入的信息及对应的关键词,对关键词进行分词处理,并对应于分词处理后获得的每一个词分别生成一个哈希Hash代码,根据所述Hash代码将所述各词进行排序获得一个新的词,并在信息库中建立该词的相关信息与所述用户输入的信息之间的关联关系;
信息搜索装置,用于在搜索信息时,对用户输入的关键词进行分词处理获得一个新的词,利用该词的相关信息与信息库中词的相关信息进行匹配,将信息库中匹配成功的所述词的相关信息所关联的信息提供给用户。
CN 201010001638 2006-09-05 2006-09-05 一种实现信息搜索的方法及系统 Active CN101814080B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 201010001638 CN101814080B (zh) 2006-09-05 2006-09-05 一种实现信息搜索的方法及系统
HK11101332.2A HK1147325A1 (en) 2006-09-05 2011-02-11 Method for implementing information search and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010001638 CN101814080B (zh) 2006-09-05 2006-09-05 一种实现信息搜索的方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2006101276620A Division CN101140573B (zh) 2006-09-05 2006-09-05 一种实现信息搜索的方法及系统

Publications (2)

Publication Number Publication Date
CN101814080A CN101814080A (zh) 2010-08-25
CN101814080B true CN101814080B (zh) 2013-02-13

Family

ID=42621336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010001638 Active CN101814080B (zh) 2006-09-05 2006-09-05 一种实现信息搜索的方法及系统

Country Status (2)

Country Link
CN (1) CN101814080B (zh)
HK (1) HK1147325A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986309A (zh) * 2010-11-16 2011-03-16 无敌科技(西安)有限公司 查询题库的方法及装置
CN103164447B (zh) * 2011-12-14 2016-03-30 阿里巴巴集团控股有限公司 一种搜索目标信息的方法及装置
CN103810213B (zh) * 2012-11-14 2017-09-12 腾讯科技(深圳)有限公司 一种搜索方法和系统
CN109492081B (zh) * 2018-10-30 2022-05-27 上海智臻智能网络科技股份有限公司 文本信息搜索和信息交互方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1462003A (zh) * 2002-05-28 2003-12-17 百度在线网络技术(北京)有限公司 一种利用搜索引擎发布信息并按竞价排名的方法
CN1595401A (zh) * 2004-07-05 2005-03-16 朱龙安 一种专业化搜索引擎数据搜集方法
CN1609848A (zh) * 2003-10-23 2005-04-27 肖宁 预先定义关键词的电子文档搜索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1335574A (zh) * 2001-09-05 2002-02-13 罗笑南 智能语义搜索方法
CN1462003A (zh) * 2002-05-28 2003-12-17 百度在线网络技术(北京)有限公司 一种利用搜索引擎发布信息并按竞价排名的方法
CN1609848A (zh) * 2003-10-23 2005-04-27 肖宁 预先定义关键词的电子文档搜索方法
CN1595401A (zh) * 2004-07-05 2005-03-16 朱龙安 一种专业化搜索引擎数据搜集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2005-50239A 2005.02.24

Also Published As

Publication number Publication date
HK1147325A1 (en) 2011-08-05
CN101814080A (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
CN101140573B (zh) 一种实现信息搜索的方法及系统
CN101119326B (zh) 一种即时通信会话记录的管理方法及装置
CN102043833B (zh) 一种基于查询词进行搜索的方法和搜索装置
JP5721627B2 (ja) データベースストレージスペースを節約するための方法及びシステム
CN102402605B (zh) 用于搜索引擎索引的混合分布模型
TWI524193B (zh) 用於搜尋結果之語義目錄的電腦可讀取媒體及電腦實現方法
CN104199965B (zh) 一种语义信息检索方法
US10467307B1 (en) Grouping of item data using seed expansion
CN103218373B (zh) 一种相关搜索系统、方法及装置
CN102999625A (zh) 一种检索请求语义扩展方法
CN103279486B (zh) 一种提供相关搜索的方法和装置
CN101149758A (zh) 搜索系统及搜索方法
WO2009003328A1 (fr) Système et procédé de requête de données
CN107807957A (zh) 实体库生成方法及装置
CN101814080B (zh) 一种实现信息搜索的方法及系统
CN106202440B (zh) 数据处理方法、装置及设备
CN102915381A (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN103226601B (zh) 一种图片搜索的方法和装置
KR101341816B1 (ko) 유사검색어 추출 시스템 및 방법
CN110413882B (zh) 信息推送方法、装置及设备
CN102890690A (zh) 目标信息搜索方法和装置
CN108255955B (zh) 一种数据处理方法及装置
CN103646034A (zh) 一种基于内容可信的Web搜索引擎系统及搜索方法
CN115982205A (zh) 一种海量多元数据智能归集系统及归集方法
CN110895563A (zh) 一种文本检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1147325

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1147325

Country of ref document: HK