CN106611012A - 一种大数据环境下异构数据实时检索方法 - Google Patents
一种大数据环境下异构数据实时检索方法 Download PDFInfo
- Publication number
- CN106611012A CN106611012A CN201510704836.4A CN201510704836A CN106611012A CN 106611012 A CN106611012 A CN 106611012A CN 201510704836 A CN201510704836 A CN 201510704836A CN 106611012 A CN106611012 A CN 106611012A
- Authority
- CN
- China
- Prior art keywords
- word
- data
- textrank
- carried out
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据环境下异构数据实时检索方法,通过搭建海量数据索引云服务,实现索引存储负载的均衡化;通过优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。
Description
技术领域
本发明涉及一种大数据环境下异构数据实时检索方法,主要应用领域包括平安城市、智慧交通、智慧城市等多个领域,不局限于特定的应用场景,适用范围广阔。
背景技术
随着信息化技术应用日益普及,信息化系统呈现逐年上升的趋势,为此这些信息化系统产生的数据也将越来越广泛。尤其随着平安城市、智慧城市等新兴平台的诞生,对数据整合和数据快速响应提出了更高的要求。传统模式下检索技术实现方式,应用场景比较单一,对数据源环境也提出了较为苛刻要求,数据检索的结果集(或者是索引库)存储模式不够灵活,不利于解决数据持续增长带来的检索膨胀问题。如何在海量数据中快速响应用户检索要求,即用户的实时响应;如何在海量数据的范围内,在满足检索效率的同时,提高检索内容的准确性,即提高用户检索内容的准确性,是目前面临的技术难题。
发明内容
本发明的目的在于提供一种大数据环境下异构数据实时检索方法,立足解决现有技术存在的问题,在完善现有技术应用同时,也针对具体的应用场景进行检索机制的优化。通过运行机制的创新,调度控制算法的优化,及特征词算法的优化,实现其目的。
本发明的技术方案如下:
一种大数据环境下异构数据实时检索方法,其特征在于,包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化;搜索请求开始后,根据总控制台指令,分别向各个shard分片进行搜索;获取各自检索的记录;汇集各分片初始结果集;对初始结果集进行排序,按照预置条件要求,返回符合条件的记录;通过上一阶段获取的信息,进行字段值选择;并行执行任务,去各个shard获取字段值信息;汇总各个shard的字段值信息;收集各分片的最终结果;合并结果,统一返回;
步骤2:优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权 重值作为textrank每个词输入,进行下一步的计算。
本发明在实际应用场景中取得了良好的反馈,成功解决大数据环境下异构数据高效检索的问题,能够兼容不同数据源,实现各类数据的统一接入,并与其建立规范的同步机制。通过结合索引云服务和优化算法实施,实现快速检索同时也提高检索的准确性。根据本发明的实验室数据,通过建立5shard索引分片集群,检索结果平均提升了近3倍,准确性也得到了提升。
附图说明
图1为本发明总体架构图;
图2为索引服务集群执行示意图。
具体实施方式
图1为本发明总体架构图。本发明在综合分析目前的成熟的技术架构基础上,采用了扩展性技术架构,能够为未来的数据的增长提供预留空间。
图2为索引服务集群执行示意图,具体的技术实现方案主要包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化。
图2中详细执行过程大体说明如下:
A箭头表示搜索请求开始
B表示根据总控制台指令,分别向各个shard分片进行搜索。
C表示获取各自检索的记录
D汇集各分片初始结果集。
E对初始结果集进行排序,按照预置条件要求,返回符合条件的记录。
F通过上一阶段(E)获取的信息,进行字段值选择。
G并行执行任务,去各个shard获取字段值信息。
H汇总各个shard的字段值信息。
I收集各分片的最终结果。
J合并结果,统一返回。
步骤2:优化异构数据(文档、数据表、音频等数据)内容解析算法;使其解析更准确。
在运用textrank考虑到了在图2中每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词。因此在进行taxtrank提取关键词之前,我们先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。具体计算方法如下公式:
W(Vi)表示当前顶点的权重,在对于总体文档的关键字提取的技术中我们还是选取比较常用的TFIDF的方法进行每个词的权重的计算,但在计文档权重过程中,TFIDF的数值比较小,一旦输入textrank中进行迭代,会影响实验的效果,所以在这里我们将TFIDF值进行归一化的处理后,输入textrank中进行权值计算。归一化公式如下:
通过采用改进后的算法进行解析工作,整体数据的特征词提取准确性得到极大提高。
Claims (1)
1.一种大数据环境下异构数据实时检索方法,其特征在于,包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化;搜索请求开始后,根据总控制台指令,分别向各个shard分片进行搜索;获取各自检索的记录;汇集各分片初始结果集;对初始结果集进行排序,按照预置条件要求,返回符合条件的记录;通过上一阶段获取的信息,进行字段值选择;并行执行任务,去各个shard获取字段值信息;汇总各个shard的字段值信息;收集各分片的最终结果;合并结果,统一返回;
步骤2:优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510704836.4A CN106611012A (zh) | 2015-10-27 | 2015-10-27 | 一种大数据环境下异构数据实时检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510704836.4A CN106611012A (zh) | 2015-10-27 | 2015-10-27 | 一种大数据环境下异构数据实时检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106611012A true CN106611012A (zh) | 2017-05-03 |
Family
ID=58614108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510704836.4A Pending CN106611012A (zh) | 2015-10-27 | 2015-10-27 | 一种大数据环境下异构数据实时检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106611012A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073616A (zh) * | 2016-11-14 | 2018-05-25 | 北京航天长峰科技工业集团有限公司 | 一种基于大数据技术的海量文档关键词快速检索方法 |
CN108921734A (zh) * | 2018-07-18 | 2018-11-30 | 北京航空航天大学 | 一个基于多源异构数据的房地产信息可视化系统 |
CN111553156A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN113993166A (zh) * | 2021-11-03 | 2022-01-28 | 嘉兴国电通新能源科技有限公司 | 一种面向异构d2d网络的小基站抖动避免负载均衡方法 |
-
2015
- 2015-10-27 CN CN201510704836.4A patent/CN106611012A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073616A (zh) * | 2016-11-14 | 2018-05-25 | 北京航天长峰科技工业集团有限公司 | 一种基于大数据技术的海量文档关键词快速检索方法 |
CN108921734A (zh) * | 2018-07-18 | 2018-11-30 | 北京航空航天大学 | 一个基于多源异构数据的房地产信息可视化系统 |
CN111553156A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN111553156B (zh) * | 2020-05-25 | 2023-08-04 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法、装置及设备 |
CN113993166A (zh) * | 2021-11-03 | 2022-01-28 | 嘉兴国电通新能源科技有限公司 | 一种面向异构d2d网络的小基站抖动避免负载均衡方法 |
CN113993166B (zh) * | 2021-11-03 | 2023-08-04 | 嘉兴国电通新能源科技有限公司 | 一种面向异构d2d网络的小基站抖动避免负载均衡方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
Lee et al. | SQL-to-NoSQL schema denormalization and migration: a study on content management systems | |
CN103064664A (zh) | 一种基于性能预估的Hadoop参数自动优化方法和系统 | |
CN106611012A (zh) | 一种大数据环境下异构数据实时检索方法 | |
CN103870505A (zh) | 一种查询词推荐方法和查询词推荐系统 | |
CN103577416A (zh) | 扩展查询方法及系统 | |
CN102968987A (zh) | 一种语音识别方法及系统 | |
CN107291770B (zh) | 一种分布式系统中海量数据的查询方法及装置 | |
CN107943952A (zh) | 一种基于Spark框架进行全文检索的实现方法 | |
CN104391748A (zh) | 一种mapreduce计算过程优化方法 | |
CN104142968A (zh) | 一种基于solr技术的分布式搜索方法及系统 | |
CN111444094B (zh) | 一种测试数据的生成方法和系统 | |
WO2020211466A1 (zh) | 一种非冗余基因集聚类方法、系统及电子设备 | |
CN113505190B (zh) | 地址信息修正方法、装置、计算机设备和存储介质 | |
CN104731891A (zh) | 一种etl中海量数据抽取的方法 | |
JP2014048741A (ja) | データ検索プログラム、データベース装置および情報処理システム | |
CN114139040A (zh) | 一种数据存储及查询方法、装置、设备及可读存储介质 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN105512270A (zh) | 一种确定相关对象的方法和装置 | |
CN105824976A (zh) | 一种优化分词库的方法和装置 | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
CN108073616A (zh) | 一种基于大数据技术的海量文档关键词快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |
|
WD01 | Invention patent application deemed withdrawn after publication |