CN107506473A - 一种基于云计算的大数据检索方法 - Google Patents
一种基于云计算的大数据检索方法 Download PDFInfo
- Publication number
- CN107506473A CN107506473A CN201710792577.4A CN201710792577A CN107506473A CN 107506473 A CN107506473 A CN 107506473A CN 201710792577 A CN201710792577 A CN 201710792577A CN 107506473 A CN107506473 A CN 107506473A
- Authority
- CN
- China
- Prior art keywords
- content
- subject
- data
- keyword
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
Abstract
本发明公开了一种基于云计算的大数据检索方法,涉及数据处理技术领域。该方法包括:将云存储系统中的内容数据映射到对应的内容索引中,并从映射到内容索引中的内容数据中提取主题数据,将主题数据映射到对应的主题索引中;当完成新内容数据和新主题数据索引时,对各内容索引和主题索引分别进行重合度检测,当检测重合度为预设重合度时,对内容索引和主题索引进行合并重新整合;构建完整索引空间;根据关键字对主题索引进行主题检索;根据关键字对内容索引进行内容检索。本发明在云存储系统中建立主题索引和内容索引的两级索引,检索时根据需要选择通过主题索引进行检索还是通过内容索引进行检索,提高了检索效率,并增加了检索灵活性。
Description
技术领域
本发明涉及数据处理技术领域,更具体的涉及一种基于云计算的大数据检索方法。
背景技术
云计算系统能够提供海量存储、可靠服务,日益受到重视,在云基础设施中,由成千上万台互相连接在一起的计算机构成提供服务的“云”,大量的用户可以同时共享这块“云”,并根据自己的实际需求对所需资源进行剪裁。在云计算网络科技技术水平飞跃发展的同时,为了避免有用的数据信息流失,就需要建立相应的数据库作为载体来存储这些数据,但由于数据库时间与空间的复杂性过高,因此,除了要考虑网络传播时的安全性外,还要考虑数据的查询延时。
现有技术中,由于网络大数据的时空复杂性,传统的关键字检索效率底下,且检索结果仍然包括大量旁杂信息,检索质量不高;新存入的数据不能被及时地检索到,必须等到后台的批处理任务完成扫描才可被检索,实时性差。
综上所述,现有技术中,存在大数据检索效率低、检索质量不高和实时性差的问题。
发明内容
本发明实施例提供一种基于云计算的大数据检索方法,用以解决现有技术中存在大数据检索效率低、检索质量不高和实时性差的问题。
本发明实施例提供一种基于云计算的大数据检索方法,包括:
在云存储系统中开辟内容索引和主题索引管理空间,按照等量有序原则设定内容索引和主题索引管理空间范围;
将云存储系统中的内容数据映射到对应的内容索引中,并从映射到内容索引中的内容数据中提取主题数据,将主题数据映射到对应的主题索引中;
当有新内容数据存入云存储系统时,从新内容数据中提取新主题数据,将新内容数据和新主题数据分别映射到空闲的内容索引和主题索引中;
当完成新内容数据和新主题数据的内容索引和主题索引时,对各内容索引和主题索引分别进行重合度检测,当检测重合度为预设重合度时,对内容索引和主题索引进行合并重新整合;
将各内容索引、各主题索引、以及各内容索引与对应的主题索引进行关联,构成完整的索引空间;
根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据;其中,按照“关键字+<Z1>”的格式进行一级主题检索,关键字相关度为70%~100%为一级主题检索结果;按照“关键字+<Z2>”的格式进行二级主题检索,关键字相关度为30%~100%为二级主题检索结果;按照“关键字+<Z3>”的格式进行三级主题检索,关键字相关度为1%~100%为三级主题检索结果;
根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据;其中,按照“关键字+<N1>”的格式进行一级内容检索,关键字相关度为90%~100%为一级内容检索结果;按照“关键字+<N2>”的格式进行二级内容检索,关键字相关度为80%~100%为二级内容检索结果;按照“关键字+<N3>”的格式进行三级内容检索,关键字相关度为60%~100%为三级内容检索结果;按照“关键字+<N4>”的格式进行四级内容检索,关键字相关度为40%~100%为四级内容检索结果;按照“关键字+<N5>”的格式进行五级内容检索,关键字相关度为1%~100%为五级内容检索结果。
较佳地,所述主题索引按照主题与内容相关度划分为三级索引。
较佳地,所述根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据,包括:检索出的主题数据和内容数据按照关键字与主题数据相关度进行排序。
较佳地,所述根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据,包括:检索出的主题数据和内容数据按照关键字与内容数据相关度进行排序。
较佳地,本发明实施例提供的一种基于云计算的大数据检索方法,还包括:对内容索引和主题索引进行修改、增加和删除。
本发明实施例中,提供一种基于云计算的大数据检索方法,与现有技术相比,其有益效果如下:
本发明在云存储系统中建立主题索引和内容索引的两级索引,检索时根据需要选择通过主题索引进行检索还是通过内容索引进行检索,提高了检索效率,并增加了检索灵活性;通过将各内容索引、各主题索引、以及各内容索引与对应的主题索引进行关联,构成完整的索引空间,检索时可以实现有效的交叉检索,检索全面,提高了检索准确度。
本发明通过对新数据实时建立索引和实时对各索引按照重合度进行合并,从而使得检索实时性增强,检索结果可靠性高。
本发明通过建立三级主题检索和五级内容检索,根据需要进行检索,使得检索结果针对性强,提高了检索质量,同时进一步提高了检索效率。
附图说明
图1为本发明实施例提供的一种基于云计算的大数据检索方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于云计算的大数据检索方法流程图。如图1所示,该方法包括:
步骤S1,在云存储系统中开辟内容索引和主题索引管理空间,按照等量有序原则设定内容索引和主题索引管理空间范围。
步骤S2,将云存储系统中的内容数据映射到对应的内容索引中,并从映射到内容索引中的内容数据中提取主题数据,将主题数据映射到对应的主题索引中。
步骤S3,当有新内容数据存入云存储系统时,从新内容数据中提取新主题数据,将新内容数据和新主题数据分别映射到空闲的内容索引和主题索引中。
步骤S4,当完成新内容数据和新主题数据的内容索引和主题索引时,对各内容索引和主题索引分别进行重合度检测,当检测重合度为预设重合度时,对内容索引和主题索引进行合并重新整合。
步骤S5,将各内容索引、各主题索引、以及各内容索引与对应的主题索引进行关联,构成完整的索引空间。
上述步骤S1~S5为索引空间结构的建立,较佳地,主题索引按照主题与内容相关度划分为三级索引。
需要说明的是,本发明通过对新数据实时建立索引和实时对各索引按照重合度进行合并,从而使得检索实时性增强,检索结果可靠性高。
步骤S6,根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据;其中,按照“关键字+<Z1>”的格式进行一级主题检索,关键字相关度为70%~100%为一级主题检索结果;按照“关键字+<Z2>”的格式进行二级主题检索,关键字相关度为30%~100%为二级主题检索结果;按照“关键字+<Z3>”的格式进行三级主题检索,关键字相关度为1%~100%为三级主题检索结果。
较佳地,步骤S6中,根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据,包括:检索出的主题数据和内容数据按照关键字与主题数据相关度进行排序。
步骤S7,根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据;其中,按照“关键字+<N1>”的格式进行一级内容检索,关键字相关度为90%~100%为一级内容检索结果;按照“关键字+<N2>”的格式进行二级内容检索,关键字相关度为80%~100%为二级内容检索结果;按照“关键字+<N3>”的格式进行三级内容检索,关键字相关度为60%~100%为三级内容检索结果;按照“关键字+<N4>”的格式进行四级内容检索,关键字相关度为40%~100%为四级内容检索结果;按照“关键字+<N5>”的格式进行五级内容检索,关键字相关度为1%~100%为五级内容检索结果。
较佳地,步骤S7中,根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据,包括:检索出的主题数据和内容数据按照关键字与内容数据相关度进行排序。
上述步骤S6~S7为根据索引进行检索。
需要说明的是,本发明通过建立三级主题检索和五级内容检索,根据需要进行检索,使得检索结果针对性强,提高了检索质量,同时进一步提高了检索效率。
较佳地,本发明实施例提供的一种基于云计算的大数据检索方法,还包括:对内容索引和主题索引进行修改、增加和删除。
上述步骤为索引的管理维护。
综上所述,本发明在云存储系统中建立主题索引和内容索引的两级索引,检索时根据需要选择通过主题索引进行检索还是通过内容索引进行检索,提高了检索效率,并增加了检索灵活性;通过将各内容索引、各主题索引、以及各内容索引与对应的主题索引进行关联,构成完整的索引空间,检索时可以实现有效的交叉检索,检索全面,提高了检索准确度。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (5)
1.一种基于云计算的大数据检索方法,其特征在于,包括:
在云存储系统中开辟内容索引和主题索引管理空间,按照等量有序原则设定内容索引和主题索引管理空间范围;
将云存储系统中的内容数据映射到对应的内容索引中,并从映射到内容索引中的内容数据中提取主题数据,将主题数据映射到对应的主题索引中;
当有新内容数据存入云存储系统时,从新内容数据中提取新主题数据,将新内容数据和新主题数据分别映射到空闲的内容索引和主题索引中;
当完成新内容数据和新主题数据的内容索引和主题索引时,对各内容索引和主题索引分别进行重合度检测,当检测重合度为预设重合度时,对内容索引和主题索引进行合并重新整合;
将各内容索引、各主题索引、以及各内容索引与对应的主题索引进行关联,构成完整的索引空间;
根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据;其中,按照“关键字+<Z1>”的格式进行一级主题检索,关键字相关度为70%~100%为一级主题检索结果;按照“关键字+<Z2>”的格式进行二级主题检索,关键字相关度为30%~100%为二级主题检索结果;按照“关键字+<Z3>”的格式进行三级主题检索,关键字相关度为1%~100%为三级主题检索结果;
根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据;其中,按照“关键字+<N1>”的格式进行一级内容检索,关键字相关度为90%~100%为一级内容检索结果;按照“关键字+<N2>”的格式进行二级内容检索,关键字相关度为80%~100%为二级内容检索结果;按照“关键字+<N3>”的格式进行三级内容检索,关键字相关度为60%~100%为三级内容检索结果;按照“关键字+<N4>”的格式进行四级内容检索,关键字相关度为40%~100%为四级内容检索结果;按照“关键字+<N5>”的格式进行五级内容检索,关键字相关度为1%~100%为五级内容检索结果。
2.如权利要求1所述的基于云计算的大数据检索方法,其特征在于,所述主题索引按照主题与内容相关度划分为三级索引。
3.如权利要求1所述的基于云计算的大数据检索方法,其特征在于,所述根据关键字对主题索引进行主题检索,检索出以主题相关度为主的主题数据和对应的内容数据,包括:检索出的主题数据和内容数据按照关键字与主题数据相关度进行排序。
4.如权利要求1所述的基于云计算的大数据检索方法,其特征在于,所述根据关键字对内容索引进行内容检索,检索出以内容相关度为主的内容数据和对应主题的数据,包括:检索出的主题数据和内容数据按照关键字与内容数据相关度进行排序。
5.如权利要求1所述的基于云计算的大数据检索方法,其特征在于,还包括:对内容索引和主题索引进行修改、增加和删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710792577.4A CN107506473B (zh) | 2017-09-05 | 2017-09-05 | 一种基于云计算的大数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710792577.4A CN107506473B (zh) | 2017-09-05 | 2017-09-05 | 一种基于云计算的大数据检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107506473A true CN107506473A (zh) | 2017-12-22 |
CN107506473B CN107506473B (zh) | 2020-10-27 |
Family
ID=60695657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710792577.4A Active CN107506473B (zh) | 2017-09-05 | 2017-09-05 | 一种基于云计算的大数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107506473B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874348A (zh) * | 2019-11-13 | 2020-03-10 | 哈尔滨工业大学 | 一种混合云环境下隐私的差异化数据检索方法 |
CN112785400A (zh) * | 2021-01-12 | 2021-05-11 | 四川天行健穗金科技有限公司 | 一种用于去财税数据的智能检索方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030088715A1 (en) * | 2001-10-19 | 2003-05-08 | Microsoft Corporation | System for keyword based searching over relational databases |
CN101840412A (zh) * | 2010-03-01 | 2010-09-22 | 中国联合网络通信集团有限公司 | 医疗信息的存储方法、获取方法及设备、系统 |
CN102081660A (zh) * | 2011-01-13 | 2011-06-01 | 西北工业大学 | 基于语义相关的xml文档关键字检索排序方法 |
CN102819569A (zh) * | 2012-07-18 | 2012-12-12 | 中国科学院软件研究所 | 一种分布交互式仿真系统中的数据匹配方法 |
CN103823799A (zh) * | 2012-11-16 | 2014-05-28 | 镇江诺尼基智能技术有限公司 | 新一代行业知识全文检索方法 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN104252487A (zh) * | 2013-06-28 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 一种用于生成词条信息的方法和装置 |
CN105205158A (zh) * | 2015-09-29 | 2015-12-30 | 成都四象联创科技有限公司 | 基于云计算的大数据检索方法 |
CN105279241A (zh) * | 2015-09-29 | 2016-01-27 | 成都四象联创科技有限公司 | 基于云计算的大数据处理方法 |
US20160171391A1 (en) * | 2010-12-06 | 2016-06-16 | The Research Foundation For The State University Of New York | Knowledge discovery from citation networks |
-
2017
- 2017-09-05 CN CN201710792577.4A patent/CN107506473B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030088715A1 (en) * | 2001-10-19 | 2003-05-08 | Microsoft Corporation | System for keyword based searching over relational databases |
CN101840412A (zh) * | 2010-03-01 | 2010-09-22 | 中国联合网络通信集团有限公司 | 医疗信息的存储方法、获取方法及设备、系统 |
US20160171391A1 (en) * | 2010-12-06 | 2016-06-16 | The Research Foundation For The State University Of New York | Knowledge discovery from citation networks |
CN102081660A (zh) * | 2011-01-13 | 2011-06-01 | 西北工业大学 | 基于语义相关的xml文档关键字检索排序方法 |
CN102819569A (zh) * | 2012-07-18 | 2012-12-12 | 中国科学院软件研究所 | 一种分布交互式仿真系统中的数据匹配方法 |
CN103823799A (zh) * | 2012-11-16 | 2014-05-28 | 镇江诺尼基智能技术有限公司 | 新一代行业知识全文检索方法 |
CN104252487A (zh) * | 2013-06-28 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 一种用于生成词条信息的方法和装置 |
CN103838833A (zh) * | 2014-02-24 | 2014-06-04 | 华中师范大学 | 基于相关词语语义分析的全文检索系统 |
CN105205158A (zh) * | 2015-09-29 | 2015-12-30 | 成都四象联创科技有限公司 | 基于云计算的大数据检索方法 |
CN105279241A (zh) * | 2015-09-29 | 2016-01-27 | 成都四象联创科技有限公司 | 基于云计算的大数据处理方法 |
Non-Patent Citations (1)
Title |
---|
贾西平: "一种基于主题的文档检索系统体系结构", 《PROCEEDINGS OF 2010 THE 3RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND INDUSTRIAL APPLICATION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874348A (zh) * | 2019-11-13 | 2020-03-10 | 哈尔滨工业大学 | 一种混合云环境下隐私的差异化数据检索方法 |
CN112785400A (zh) * | 2021-01-12 | 2021-05-11 | 四川天行健穗金科技有限公司 | 一种用于去财税数据的智能检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107506473B (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750681B (zh) | 一种海量数据的处理方法及装置 | |
CN104462084B (zh) | 基于多个查询提供搜索细化建议 | |
CN105989076A (zh) | 一种数据统计方法以及装置 | |
CN108197226A (zh) | Mptc账户状态树以及mptc区块链快速检索方法 | |
CN108255958A (zh) | 数据查询方法、装置和存储介质 | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
CN107682466A (zh) | Ip地址的地域信息搜索方法及其装置 | |
CN108509437A (zh) | 一种ElasticSearch查询加速方法 | |
WO2023078120A1 (zh) | 图数据的查询 | |
CN107451208A (zh) | 一种数据搜索方法与装置 | |
CN110674247A (zh) | 弹幕信息的拦截方法、装置、存储介质及设备 | |
CN102378407B (zh) | 一种物联网中的对象名字解析系统及其解析方法 | |
CN107506473A (zh) | 一种基于云计算的大数据检索方法 | |
CN104636368A (zh) | 数据检索方法、装置及服务器 | |
US20130054640A1 (en) | Considering document endorsements when processing queries | |
CN103793401B (zh) | 建立多个数据库表的共享索引的方法及装置 | |
CN114265957A (zh) | 基于图数据库的多种数据源联合查询方法及系统 | |
CN107016135B (zh) | 一种资源环境的正反双向动态平衡搜索策略 | |
CN108173899B (zh) | 区块链的信息处理方法及装置 | |
KR20120042462A (ko) | 특정판례를 중심으로 히스토리 정보를 동일화면에 제공을 위한 시스템 및 방법 | |
CN106170012A (zh) | 一种面向云渲染的分布式文件系统及构建和访问方法 | |
CN113495945A (zh) | 一种文本搜索方法、装置及存储介质 | |
CN103902687B (zh) | 一种搜索结果的生成方法及装置 | |
CN103020300B (zh) | 一种信息检索方法和设备 | |
CN110263108A (zh) | 一种基于道路网的关键词Skyline模糊查询方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210514 Address after: 518000 area I, 4th floor, junxiangda office building, No. 9, West junxiangda, Zhongshan Garden Road, Nantou street, Nanshan District, Shenzhen City, Guangdong Province Patentee after: Shenzhen Luxi Internet Industry Co.,Ltd. Address before: 451191 No.1 Wenchang Road, Longhu Town, Xinzheng City, Zhengzhou City, Henan Province Patentee before: ZHENGZHOU SHENGDA University OF ECONOMICS BUSINESS & MANAGEMENT |