CN103559270A - 一种词条的存储和管理方法 - Google Patents

一种词条的存储和管理方法 Download PDF

Info

Publication number
CN103559270A
CN103559270A CN201310540625.2A CN201310540625A CN103559270A CN 103559270 A CN103559270 A CN 103559270A CN 201310540625 A CN201310540625 A CN 201310540625A CN 103559270 A CN103559270 A CN 103559270A
Authority
CN
China
Prior art keywords
entry
search
keyword
search results
results pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310540625.2A
Other languages
English (en)
Inventor
高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201310540625.2A priority Critical patent/CN103559270A/zh
Publication of CN103559270A publication Critical patent/CN103559270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种词条的存储和管理方法,该方法包括:I、用户创建搜索结果页对应的词条;II、提交上线申请;III、审核人员检查词条;IV、搜索结果页对应词条上线并存储于缓存;V、用户读取缓存词条,定位搜索结果页。该方法通过对第三代搜索引擎的词条(包括主词、同义词、分义标注、SRP_ID等)的有效管理、分析及存储,满足高效的搜索检索页(SRP)的需求,实现数据读取更新的高效化和快速化。

Description

一种词条的存储和管理方法
技术领域
本发明涉及一种计算机领域的管理方法,具体讲涉及一种词条的存储和管理方法。
背景技术
互联网提供了即时丰富的人与人沟通参与/娱乐的平台信息,深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,使这本百科全书有了目录和索引。不论想从互联网中寻找什么内容,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。
搜索引擎是对计算机科学与技术的极大发展,将理论研究和工程开发完美结合,创造了非凡的用户体验和文化。以Google为代表的传统搜索引擎,在用户输入一个查询词时,返回和此查询词相关的网页摘要,并尽可能将用户需要的结果排在了前面。但搜索引擎毕竟不会“猜心术”,对于一个词,用户会有不同的需求,如对于“绿茶”,可能是茶文化、健康知识、电影介绍、化妆品或者其他。大多数用户并不能够通过一两个词,精确表达自己所想要的内容,搜索引擎也无能为力只有返回大量的结果供用户选择。这就产生了一个很大的问题,但结果量巨大到无限大的时候,就等于没有结果,如何解决这一问题,一些学者指出第三代搜索引擎的应该具备互动式搜索、分类导航、查询精确、更新速度快等特点。
而随着互联网时代的发展,每天都有各种各样重要新闻、网站的更新,如何实现快速高效的查询,如何实现精确的词条到网站搜索结果页(SRP,Search Result Page)的跳转是目前第三代搜索引擎需要克服的重点问题之一。
发明内容
为了克服上述现有技术的不足,本发明提供本发明提供了一种词条的存储管理方法。该方法通过对第三代搜索引擎的词条(包括主词、同义词、分义标注、SRP_ID等)的有效管理、分析及存储,满足高效的搜索检索页(SRP)的需求,实现数据读取更新的高效化和快速化。
实现上述目的所采用的解决方案为:
一种词条的存储和管理方法,其改进之处在于:所述方法包括:I、创建搜索结果页对应的词条;
II、提交上线申请;
III、审核人员检查词条;
IV、搜索结果页对应词条上线并存储于缓存;
V、读取缓存词条,定位搜索结果页。
进一步的,所述步骤I包括以下步骤:用户根据搜索结果页确定所述创建搜索结果页对应的词条;所述搜索结果页对应的词条提交上线。
进一步的,所述词条包括关键词、分义标注、搜索结果页的SRPID。
进一步的,所述关键词包括主词和同义词,所述主词和同义词中的任一对应唯一搜索结果页。
进一步的,所述步骤II包括以下步骤:S201、提交搜索结果页及其对应词条;
S202、在已有的词库中查找是否存在相同主词,存在则进入步骤S203,否则提交上线;
S203、判断是否存在与所述主词同义的词,若存在则建立同义词;否则进入步骤S204;
S204、建立主词的分义标注,根据所述关键词对应的多个所述搜索结果页的SRPID,创建消歧义页面,消除不同条目拥有相同名称一词多义所引起的歧义,供用户选择;
S205、提交上线。
进一步的,所述步骤III包括:审核人员接收所述搜索结果页及其对应的词条,判断是否合格,合格则添加并存储于缓存的对应关键词区,不合格则修改或删除。
进一步的,所述添加包括,在缓存中的词条区中,根据词条的关键词查找词条表,判断词条是否存在,不存在则创建词条,更新词条表。
所述修改包括,在缓存中的词条表区中,根据词条的关键词查找词条表,遍历出需要修改的词条,修改词条中的信息,更新词条表。
所述删除包括,在缓存中的词条区中,根据词条的关键词查找词条表,遍历出需要删除的词条,删除所述词条,更新词条表。
进一步的,所述更新包括,删除缓存中的词条表,添加新的词条表。
进一步的,存储所述词条的信息的词条表,包括词条长度、主词、主词ID、分类ID、分类长度、搜索检索页的SRPID、分义标注、分义标注长度;
根据所述关键词搜索词条表获得所述搜索检索页的SRPID,根据所述搜索结果页的SRPID获得对应的搜索检索页。
进一步的,所述关键词与其对应的词条基于hash算法存储于缓存中,所述关键词为键,所述词条为值;
所述搜索检索页的SRPID与其对应的搜索检索页基于hash算法存储于缓存中,所述搜索检索页的SRPID为键,所述搜索检索页为值。
与现有技术相比,本发明具有以下有益效果:
(1)本发明的方法中关键词查找词条表和SRPID查找SRP都是使用hash结构实现,时间复杂度为O(1),提高检索速度,实现数据读取更显得高效化和快速化。
(2)本发明的方法的完全基于内存操作,检索内容高效,具有查询精确、更新速度快的特点。
(3)本发明的方法将上线的搜索结果页及其对应的词条存储于缓存中,减少了读取数据库的时间步骤,从而提高了速度和效率。
(4)本发明的方法以关键词为基准,查询词条表,进而获得搜索结果页;将词条表设计为包括主词、分义标注及搜索结果页的SRPID,且词条表基于缓的List实现,通过上述设计方法较小数据读取更新的复杂度,提高关键词分析的针对性;同时,通过关键词(包括主词和同义词)的检索提高了用户的检索效率,更直观客观的显示结果。
(5)本发明的方法实现了在产生结果搜索页的同时产生对于的关键词,实现网站内容快速高效的查询,实现精确的词条到网站搜索结果页的跳转。
附图说明
图1为词条存储的管理流程图;
图2为添加词条的流程图;
图3为修改词条的流程图;
图4为删除词条的流程图;
图5为关键词与词条表对应关系图;
图6为SRPID与显示页对应关系图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
如图1所示,图1为词条存储的管理流程图;词条的存储和管理方法包括:创建词条,提交上线申请,审查人员审核词条是否合格,合格则将词条存储于缓存中并将词条做上线处理。具体包括以下步骤:
步骤一、用户创建搜索结果页及其对应的词条。
词条为主词、同义词、分义标注、SRP_ID等封装的组合。
SRP为搜索结果页(Search Result Page);SRPID为搜索结果页的ID。
主词为一个SRP的一个主要关键词,是一对一关系。同义词,当一个主词存在多种意思是,同样意思主词为一个关键词,和主词是多对一关系。
关键词为主词和同义词的统称,关键词包括主词及其同义词,主词及其同义词中的任意一个对应一个且唯一的搜索结果页。
分义标注:当多个SRP存在一个同义词的时候,为了便于区别而设置的,和主词是一对一关系。
当一个关键词对应多个搜索结果页的SRPID时,创建消歧义页面,供用户选择需要。
用户创建搜索结果页及其对应的词条具体包括以下步骤:
S101、用户创建搜索结果页,根据所述搜索结果页确定对应的词条;
S102、将词条在已有的词库中查找是否存在相同的主词;
S103、若词库存在则判断该主词是否含义相同,相同则建立同义词,否则建立主词的分义标注,根据所述关键词对应的多个所述搜索结果页的SRPID创建消歧义页面,即当一个关键词出现在多个页面时生产消歧义页,消除不同条目拥有相同名称、一词多义所引起的歧义,供用户选择;提交上线;
S104、若词库中不存在,则提交上线。
关键词与其对应的词条表基于hash算法存储于缓存中,关键词为键,词条表为值;所述词条表包括主词、分义标注和搜索检索页的ID;搜索检索页的SRPID与其对应的搜索检索页基于hash算法存储于缓存中,所述搜索检索页的ID为键,所述搜索检索页为值。如图5、6所示。
词条表基于缓存的List的实现,包括词长度、主词、随机数长度(RandomLen)、随机数(Random)、主词ID、SRPID、分类ID、分类长度、分类、频道个数、频道数组Channels、分义标注长度、分义标注、图片地址长度、图片地址。
步骤二、提交上线申请。具体包括:
S201、提交搜索结果页及其对应词条;
S202、在已有的词库中查找是否存在相同主词,存在则进入步骤S203,否则提交上线;
S203、判断所述主词是否含义相同,若相同则建立同义词;否则进入步骤S204;
S204、建立主词的分义标注,根据所述关键词对应的多个所述搜索结果页的SRPID时,创建消歧义页面,消除不同条目拥有相同名称一词多义所引起的歧义,供用户选择;
S205、提交上线。
步骤三、审核人员检查词条。具体包括以下:
审核人员接收所述搜索结果页及其对应的词条,判断是否合格,合格则添加并存储,不合格则修改或删除;
添加词条如图2所示,包括,在缓存中的词条区中,根据词条的关键词查找词条表,判断词条是否存在,不存在则创建词条,更新词条表;所述更新包括,删除缓存中的词条表,添加新的词条表。
修改词条如图3所示,包括,在缓存中的词条区中,根据词条的关键词查找词条表,遍历出需要修改的词条,修改词条中的信息,更新词条表;所述更新包括,删除缓存中的词条表,添加新的词条表。
删除词条如图4所以,包括,在缓存中的词条区中,根据词条的关键词查找词条表,遍历出需要删除的词条,删除所述词条,更新词条表;所述更新包括,删除缓存中的词条表,添加新的词条表。
步骤四、搜索结果页及其对应词条上线并存储于缓存。
当用户搜索一个关键词,如果词条表只有一条记录,则直接跳到SRP显示页面.如果词条表存在多条记录的,则跳转到消歧义页面,页面则显示词条表所有的信息。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (10)

1.一种词条的存储和管理方法,其特征在于:所述方法包括:I、创建搜索结果页对应的词条;
II、提交上线申请;
III、审核人员检查词条;
IV、搜索结果页对应词条上线并存储于缓存;
V、读取缓存词条,定位搜索结果页。
2.如权利要求1所述的一种词条的存储和管理方法,其特征在于:所述步骤I包括以下步骤:用户根据搜索结果页确定所述创建搜索结果页对应的词条;所述搜索结果页对应的词条提交上线。
3.如权利要求2所述的一种词条的存储和管理方法,其特征在于:所述词条包括关键词、分义标注、搜索结果页的SRPID。
4.如权利要求3所述的一种词条的存储和管理方法,其特征在于:所述关键词包括主词和同义词,所述主词和同义词中的任一对应唯一搜索结果页。
5.如权利要求1所述的一种词条的存储和管理方法,其特征在于:所述步骤II包括以下步骤:S201、提交搜索结果页及其对应词条;
S202、在已有的词库中查找是否存在相同主词,存在则进入步骤S203,否则提交上线;
S203、判断是否存在与所述主词同义的词,若存在则建立同义词;否则进入步骤S204;
S204、建立主词的分义标注,根据所述关键词对应的多个所述搜索结果页的SRPID,创建消歧义页面,消除不同条目拥有相同名称一词多义所引起的歧义,供用户选择;
S205、提交上线。
6.如权利要求1所述的一种词条的存储和管理方法,其特征在于:所述步骤III包括:审核人员接收所述搜索结果页及其对应的词条,判断是否合格,合格则添加并存储于缓存的对应关键词区,不合格则修改或删除。
7.如权利要求6所述的一种词条的管理存储方法,其特征在于:所述添加包括,在缓存中的词条区中,根据词条的关键词查找词条表,判断词条是否存在,不存在则创建词条,更新词条表。
所述修改包括,在缓存中的词条表区中,根据词条的关键词查找词条表,遍历出需要修改的词条,修改词条中的信息,更新词条表。
所述删除包括,在缓存中的词条区中,根据词条的关键词查找词条表,遍历出需要删除的词条,删除所述词条,更新词条表。
8.如权利要求7任一所述的一种词条的存储和管理方法,其特征在于:所述更新包括,删除缓存中的词条表,添加新的词条表。
9.如权利要求7所述的一种词条的存储和管理方法,其特征在于:存储所述词条的信息的词条表,包括词条长度、主词、主词ID、分类ID、分类长度、搜索检索页的SRPID、分义标注、分义标注长度;
根据所述关键词搜索词条表获得所述搜索检索页的SRPID,根据所述搜索结果页的SRPID获得对应的搜索检索页。
10.如权利要求4所述的一种词条的存储和管理方法,其特征在于:所述关键词与其对应的词条基于hash算法存储于缓存中,所述关键词为键,所述词条为值;
所述搜索检索页的SRPID与其对应的搜索检索页基于hash算法存储于缓存中,所述搜索检索页的SRPID为键,所述搜索检索页为值。
CN201310540625.2A 2013-11-04 2013-11-04 一种词条的存储和管理方法 Pending CN103559270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310540625.2A CN103559270A (zh) 2013-11-04 2013-11-04 一种词条的存储和管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310540625.2A CN103559270A (zh) 2013-11-04 2013-11-04 一种词条的存储和管理方法

Publications (1)

Publication Number Publication Date
CN103559270A true CN103559270A (zh) 2014-02-05

Family

ID=50013516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310540625.2A Pending CN103559270A (zh) 2013-11-04 2013-11-04 一种词条的存储和管理方法

Country Status (1)

Country Link
CN (1) CN103559270A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589863A (zh) * 2014-10-22 2016-05-18 腾讯科技(深圳)有限公司 一种搜索方法及数据处理方法、装置及系统
CN107730021A (zh) * 2016-08-10 2018-02-23 中国移动通信集团湖北有限公司 一种业务指标优化方法和装置
CN109145297A (zh) * 2018-08-13 2019-01-04 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hash存储的网络词汇语义分析方法和系统
CN111241099A (zh) * 2020-01-09 2020-06-05 佛山科学技术学院 一种工业大数据存储方法及装置
CN111258993A (zh) * 2020-01-09 2020-06-09 佛山科学技术学院 一种工业大数据的异常数据过滤方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790332A (zh) * 2005-12-28 2006-06-21 刘文印 一种问题答案的阅读浏览显示方法及其系统
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
US20130117716A1 (en) * 2011-11-07 2013-05-09 Google Inc. Function Extension for Browsers or Documents
CN103150362A (zh) * 2013-02-28 2013-06-12 北京奇虎科技有限公司 一种视频搜索方法及系统
CN103218443A (zh) * 2013-04-22 2013-07-24 中山大学 一种面向博客网页的网页检索系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790332A (zh) * 2005-12-28 2006-06-21 刘文印 一种问题答案的阅读浏览显示方法及其系统
CN102314457A (zh) * 2010-06-30 2012-01-11 百度在线网络技术(北京)有限公司 信息自动审核方法与系统
US20130117716A1 (en) * 2011-11-07 2013-05-09 Google Inc. Function Extension for Browsers or Documents
CN103150362A (zh) * 2013-02-28 2013-06-12 北京奇虎科技有限公司 一种视频搜索方法及系统
CN103218443A (zh) * 2013-04-22 2013-07-24 中山大学 一种面向博客网页的网页检索系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589863A (zh) * 2014-10-22 2016-05-18 腾讯科技(深圳)有限公司 一种搜索方法及数据处理方法、装置及系统
CN105589863B (zh) * 2014-10-22 2020-07-14 腾讯科技(深圳)有限公司 一种搜索方法及数据处理方法、装置及系统
CN107730021A (zh) * 2016-08-10 2018-02-23 中国移动通信集团湖北有限公司 一种业务指标优化方法和装置
CN109145297A (zh) * 2018-08-13 2019-01-04 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hash存储的网络词汇语义分析方法和系统
CN109145297B (zh) * 2018-08-13 2022-06-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于hash存储的网络词汇语义分析方法和系统
CN111241099A (zh) * 2020-01-09 2020-06-05 佛山科学技术学院 一种工业大数据存储方法及装置
CN111258993A (zh) * 2020-01-09 2020-06-09 佛山科学技术学院 一种工业大数据的异常数据过滤方法及装置

Similar Documents

Publication Publication Date Title
US9454599B2 (en) Automatic definition of entity collections
US8626781B2 (en) Priority hash index
CN107038207A (zh) 一种数据查询方法、数据处理方法及装置
US8977625B2 (en) Inference indexing
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN103123650B (zh) 一种基于整数映射的xml数据库全文索引方法
KR20160033666A (ko) 검색 시스템을 위한 써드 파티 검색 애플리케이션들
CN103559270A (zh) 一种词条的存储和管理方法
CN103607496A (zh) 一种推断手机用户兴趣爱好的方法、装置及手机终端
CN105320754A (zh) 一种数据搜索系统及方法
Xiao et al. Finding news-topic oriented influential twitter users based on topic related hashtag community detection
Shi et al. Research on SEO strategies of university journal websites
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
US20150100605A1 (en) Determining collection membership in a data graph
Magdy et al. Towards a microblogs data management system
CN107273443B (zh) 一种基于大数据模型元数据的混合索引方法
CN105787029A (zh) 一种基于solr的关键字词识别办法
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search
Lopez-Veyna et al. KESOSD: keyword search over structured data
Cha et al. Topic model based approach for improved indexing in content based document retrieval
CN104301182A (zh) 一种慢速网站访问异常信息的查询方法及装置
Laddha et al. Semantic tourism information retrieval interface
Zhong et al. A Design of the Inverted Index Based on Web Document Comprehending.
Batra et al. Content based hidden web ranking algorithm (CHWRA)
Yan et al. RDF knowledge graph keyword type search using frequent patterns

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170412

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: Beijing Zhongsou Network Technology Co,Ltd

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication