CN101763441B - 一种以动态目录方式组织检索结果的技术 - Google Patents
一种以动态目录方式组织检索结果的技术 Download PDFInfo
- Publication number
- CN101763441B CN101763441B CN 201010300250 CN201010300250A CN101763441B CN 101763441 B CN101763441 B CN 101763441B CN 201010300250 CN201010300250 CN 201010300250 CN 201010300250 A CN201010300250 A CN 201010300250A CN 101763441 B CN101763441 B CN 101763441B
- Authority
- CN
- China
- Prior art keywords
- keyword
- catalogue
- search results
- cluster
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明揭示了一种新的适用于网络学术资源搜索的结果动态重组技术,属于信息管理技术领域。该技术包括关键词提取、关键词聚类、以及基于关键词的动态目录生成等。该技术能提高用户利用搜索结果的质量和效率,为用户提供目录概括、智能联想、知识拓展、内容发现等超值的搜索体验。
Description
技术领域
本发明揭示了一种以动态目录对检索结果进行动态组织的新技术,属于信息管理的技术范畴,可应用于网络学术资源搜索结果的高度概括展示,更好的内容发现,帮助网络学术资源的用户更准确的定位信息,更准确的表达其检索需求。在学科上属于现代图书馆学、情报学范畴。
背景技术
网络学术资源就是以网络为载体的科技文献,或互联网上和学术有关的数字化资源。网络学术资源数量巨大,种类繁多,学科覆盖面广,并且具有一定的学术价值和科技情报价值,是传统学术资源,例如学术期刊的重要补充。
用户在使用网络学术搜索引擎时,和使用其他搜索引擎一样,面临着搜索结果大量冗余,无法逐页浏览搜索结果,但是又担心遗漏有价值的信息。特别当用户无法准确描述其查询需求时,搜索返回的数据包含更多的不相关的信息,从而导致用户筛选出有用信息的代价更高。另一方面,学习型用户总希望搜素结果能给自己带来超值的享受,比如具有目录概括、智能联想、知识拓展、内容发现等功能。现有的搜索技术还不能完全解决这些问题。
本发明揭示了一种新技术,属于信息管理的技术范畴,能够用关键词目录对搜索结果进行动态组织,使得成百上千的搜索结果被概括为二十个关键词;该关键词在搜索结果中出现频率较高并且有实际意义,不同关键词间相似度较少或关键词间冗余度较低。将该关键词目录呈现在检索结果列表的最前面,让用户无需翻页就能迅速了解整个搜索结果的主要内容;该技术也有可能揭示用户需要经过多次翻页才能找到的信息,从而更好的支持资源发现;动态目录中的关键词相当于查询条件的细化或联想,用户可通过点击目录中的细化关键词更准确的信息定位。
发明内容
本发明揭示了一种用关键词目录动态组织检索索结果的新技术,属于信息管理的技术范畴。本发明的具体内容如下:
1.从搜索结果中提取关键词
从排在前面的1000篇搜索结果中提取不超过1000个关键词,作为目录候选关键词。
为了从每个搜索结果中提取关键词,需要预先对每个网络学术资源进行关键词标注。
2.关键词聚类
用K均值(K=20)对关键词进行聚类。关键词和聚类均值均表示成结果列表:每个关键词的列表由包含该关键词的搜索结果组成;类的均值列表由包含属于该聚类的任一关键词的搜索结果组成。
3.计算关键词及类均值间距离
由于关键词和类均值表示成了两个列表,两者的距离就是定义在这两个列表上的一个函数,其定义为:
Distance(list1,list2)=1/list1和list2交集的大小。其中list1和list2是两个结果列表。
4.更新类均值
当某个关键词聚到某类后,把包含该关键词的结果列表追加到该类中心的结果列表。
5.为聚类选择代表关键词
聚类算法结束后,得到20个聚类,每个聚类包含了一个或多个关键词。如果一个聚类只有一个关键词,该关键词就是聚类的代表关键词;否则从属于该聚类的关键词中选择出现在搜索结果中次数最多的关键词作为其代表关键词。
6.呈现关键词目录给用户
在检索结果列表页面中,首先将关键词目录呈现给用户,然后才一一排列检索结果。
7.用户利用该关键词目录
用户点击动态目录中的关键词后,将以该关键词为条件提交一次新的查询请求。
本方案的优点
本发明揭示了一种用关键词目录动态组织检索结果的新技术。该技术把大量的搜索结果提炼成若干关键词,以关键词为点,对搜索结果进行目录化组织,大大提高了用户以搜索方式利用网络学术资源的效率。
1、基于关键词的动态目录高度概括了大量冗余的检索结果,用户无需翻页就能迅速了解整个搜索结果的概况。
2、基于关键词的动态目录技术比较全面揭示搜索结果中的要点,使用户能立即了解要点内容。
3、动态目录中的关键词包含了比原始查询更精确或更广泛的信息,允许用户点击目录中的关键词提交新的查询。
4、本方案具有动态循环、变化提高的特点,符合人们认识自然、学习知识的基本规律,但同时又保留了用户选择传统搜索结果浏览方式的权利,体现了面向用户的设计理念。
具体实施方案
第一步,对每个网络学术资源进行关键词标引。
第二步,当用户输入查询词进行信息检索时,取前1000个搜索结果,从中提出频率高的前1000个关键词(用噪音列表,去掉没有意义的高频词)。
第三步,对1000个关键词聚类。用K-均值对1000个关键词聚类,得到20个类,一个类叫做一个目录。
关键词和聚类均值均表示成结果列表:每个关键词的列表由包含该关键词的搜索结果组成;类的均值列表由包含属于该聚类的任一关键词的搜索结果组成。
关键词和类均值的距离定义为:
Distance(list1,list2)=1/list1和list2交集的大小。其中list1和list2分别是关键词和类均值对应的结果列表。
第四步,为每个目录选择一个关键词。如果该聚类包含多个关键词,则选择频次最高的作为目录标题。
第五步,把每个目录的代表关键词展示在本次搜索结果列表的最前面。
第六步,用户可从该关键词目录中进一步挑选符合自己意图的关键词,点击进入下一次的搜索,并重复如上第二至五步,得到新的关键词目录。此过程表现出基于关键词目录动态变化的特质。
附图说明
附图是一种用关键词目录动态组织检索结果的新技术的原理示意图。
Claims (2)
1.一种以动态目录方式组织检索结果的方法,其特征在于包括步骤:
第一步,对每个网络学术资源进行关键词标引;
第二步,当用户输入查询词进行信息检索时,提取出现在前的1000个搜索结果,从所述搜索结果中提取不超过1000个的出现频率高的关键词,作为目录候选关键词;
第三步,用K=20的K-均值,对所述目录候选关键词聚类,得到20个聚类,一个聚类叫做一个目录;其中,目录候选关键词和聚类均值均表示成结果列表:每个目录候选关键词的列表由包含该关键词的搜索结果组成;每个聚类的均值列表由包含属于该聚类的任一关键词的搜索结果组成;将目录候选关键词和聚类均值的距离定义为:Distance(list1,list2)=1/list1和list2交集的大小,其中list1和list2分别是目录候选关键词和聚类均值对应的结果列表;
第四步,为每个目录选择一个代表关键词作为目录标题,如果该聚类包含多个关键词,则选择频次最高的作为目录标题;
第五步,把每个目录的代表关键词展示在本次搜索结果列表的最前面,形成一个关键词目录;
第六步,用户从所述关键词目录中进一步挑选符合自己意图的关键词,点击进入下一次的搜索,并重复如上第二至五步,得到新的关键词目录。
2.根据权利要求1所述的以动态目录方式组织检索结果的方法,其特征在于,在步骤2还包括利用噪音列表,从提取的不超过1000个关键词中去掉没有意义的高频词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010300250 CN101763441B (zh) | 2010-01-13 | 2010-01-13 | 一种以动态目录方式组织检索结果的技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010300250 CN101763441B (zh) | 2010-01-13 | 2010-01-13 | 一种以动态目录方式组织检索结果的技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101763441A CN101763441A (zh) | 2010-06-30 |
CN101763441B true CN101763441B (zh) | 2013-04-03 |
Family
ID=42494604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010300250 Active CN101763441B (zh) | 2010-01-13 | 2010-01-13 | 一种以动态目录方式组织检索结果的技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101763441B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217016B (zh) * | 2014-09-22 | 2018-02-02 | 北京国双科技有限公司 | 网页搜索关键词统计方法及装置 |
CN106202572B (zh) * | 2016-08-18 | 2020-03-06 | 广州视睿电子科技有限公司 | 电子书目录显示方法及装置 |
CN111949619B (zh) * | 2020-07-21 | 2024-04-26 | 苏州元核云技术有限公司 | 动态目录生成方法、系统、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
-
2010
- 2010-01-13 CN CN 201010300250 patent/CN101763441B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364239A (zh) * | 2008-10-13 | 2009-02-11 | 中国科学院计算技术研究所 | 一种分类目录自动构建方法及相关系统 |
CN101458708A (zh) * | 2008-12-05 | 2009-06-17 | 北京大学 | 检索结果聚类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101763441A (zh) | 2010-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8554854B2 (en) | Systems and methods for identifying terms relevant to web pages using social network messages | |
US9424351B2 (en) | Hybrid-distribution model for search engine indexes | |
Ma et al. | Efficiently finding web services using a clustering semantic approach | |
CN101295319B (zh) | 一种扩展查询的方法、装置及搜索引擎系统 | |
US20070162448A1 (en) | Adaptive hierarchy structure ranking algorithm | |
CN101604324B (zh) | 一种基于元搜索的视频服务网站的搜索方法及系统 | |
US20100094877A1 (en) | System and method for distributed index searching of electronic content | |
CN102163228B (zh) | 用于确定资源候选项的排序结果的方法、装置及设备 | |
Sugiyama et al. | Refinement of TF-IDF schemes for web pages using their hyperlinked neighboring pages | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
Wang et al. | Mining subtopics from text fragments for a web query | |
CN105095209A (zh) | 文档聚类方法及装置、网络设备 | |
Li | Research on technology, algorithm and application of web mining | |
CN101763441B (zh) | 一种以动态目录方式组织检索结果的技术 | |
CN103761286A (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN108509449B (zh) | 一种信息处理的方法及服务器 | |
CN103559269B (zh) | 一种面向移动新闻订阅的知识推荐方法 | |
Duhan et al. | A novel approach for organizing web search results using ranking and clustering | |
Deshmukh et al. | A literature survey on latent semantic indexing | |
Hassanpour et al. | An adaptive meta-search engine considering the user’s field of interest | |
Zhao et al. | A search result ranking algorithm based on web pages and tags clustering | |
Shekhar et al. | A WEBIR crawling framework for retrieving highly relevant web documents: evaluation based on rank aggregation and result merging algorithms | |
Liu et al. | A query suggestion method based on random walk and topic concepts | |
CN110334269B (zh) | 一种信息检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB02 | Change of applicant information |
Address after: 100190 16G, 89 East Zhongguancun Road, Beijing, Haidian District Applicant after: Beijing Zhongjia Hiway Science & Technology Co., Ltd. Address before: 100190 16G, 89 East Zhongguancun Road, Beijing, Haidian District Applicant before: Beijing Zhongjiaguodao Technology Co., Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |