CN106611012A - 一种大数据环境下异构数据实时检索方法 - Google Patents

一种大数据环境下异构数据实时检索方法 Download PDF

Info

Publication number
CN106611012A
CN106611012A CN201510704836.4A CN201510704836A CN106611012A CN 106611012 A CN106611012 A CN 106611012A CN 201510704836 A CN201510704836 A CN 201510704836A CN 106611012 A CN106611012 A CN 106611012A
Authority
CN
China
Prior art keywords
word
data
textrank
carried out
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510704836.4A
Other languages
English (en)
Inventor
陈瑞
蓝飞翔
张宏
左浩雷
蒋志鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN201510704836.4A priority Critical patent/CN106611012A/zh
Publication of CN106611012A publication Critical patent/CN106611012A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据环境下异构数据实时检索方法,通过搭建海量数据索引云服务,实现索引存储负载的均衡化;通过优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。

Description

一种大数据环境下异构数据实时检索方法
技术领域
本发明涉及一种大数据环境下异构数据实时检索方法,主要应用领域包括平安城市、智慧交通、智慧城市等多个领域,不局限于特定的应用场景,适用范围广阔。
背景技术
随着信息化技术应用日益普及,信息化系统呈现逐年上升的趋势,为此这些信息化系统产生的数据也将越来越广泛。尤其随着平安城市、智慧城市等新兴平台的诞生,对数据整合和数据快速响应提出了更高的要求。传统模式下检索技术实现方式,应用场景比较单一,对数据源环境也提出了较为苛刻要求,数据检索的结果集(或者是索引库)存储模式不够灵活,不利于解决数据持续增长带来的检索膨胀问题。如何在海量数据中快速响应用户检索要求,即用户的实时响应;如何在海量数据的范围内,在满足检索效率的同时,提高检索内容的准确性,即提高用户检索内容的准确性,是目前面临的技术难题。
发明内容
本发明的目的在于提供一种大数据环境下异构数据实时检索方法,立足解决现有技术存在的问题,在完善现有技术应用同时,也针对具体的应用场景进行检索机制的优化。通过运行机制的创新,调度控制算法的优化,及特征词算法的优化,实现其目的。
本发明的技术方案如下:
一种大数据环境下异构数据实时检索方法,其特征在于,包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化;搜索请求开始后,根据总控制台指令,分别向各个shard分片进行搜索;获取各自检索的记录;汇集各分片初始结果集;对初始结果集进行排序,按照预置条件要求,返回符合条件的记录;通过上一阶段获取的信息,进行字段值选择;并行执行任务,去各个shard获取字段值信息;汇总各个shard的字段值信息;收集各分片的最终结果;合并结果,统一返回;
步骤2:优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权 重值作为textrank每个词输入,进行下一步的计算。
本发明在实际应用场景中取得了良好的反馈,成功解决大数据环境下异构数据高效检索的问题,能够兼容不同数据源,实现各类数据的统一接入,并与其建立规范的同步机制。通过结合索引云服务和优化算法实施,实现快速检索同时也提高检索的准确性。根据本发明的实验室数据,通过建立5shard索引分片集群,检索结果平均提升了近3倍,准确性也得到了提升。
附图说明
图1为本发明总体架构图;
图2为索引服务集群执行示意图。
具体实施方式
图1为本发明总体架构图。本发明在综合分析目前的成熟的技术架构基础上,采用了扩展性技术架构,能够为未来的数据的增长提供预留空间。
图2为索引服务集群执行示意图,具体的技术实现方案主要包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化。
图2中详细执行过程大体说明如下:
A箭头表示搜索请求开始
B表示根据总控制台指令,分别向各个shard分片进行搜索。
C表示获取各自检索的记录
D汇集各分片初始结果集。
E对初始结果集进行排序,按照预置条件要求,返回符合条件的记录。
F通过上一阶段(E)获取的信息,进行字段值选择。
G并行执行任务,去各个shard获取字段值信息。
H汇总各个shard的字段值信息。
I收集各分片的最终结果。
J合并结果,统一返回。
步骤2:优化异构数据(文档、数据表、音频等数据)内容解析算法;使其解析更准确。
在运用textrank考虑到了在图2中每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词。因此在进行taxtrank提取关键词之前,我们先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。具体计算方法如下公式:
W(Vi)表示当前顶点的权重,在对于总体文档的关键字提取的技术中我们还是选取比较常用的TFIDF的方法进行每个词的权重的计算,但在计文档权重过程中,TFIDF的数值比较小,一旦输入textrank中进行迭代,会影响实验的效果,所以在这里我们将TFIDF值进行归一化的处理后,输入textrank中进行权值计算。归一化公式如下:
通过采用改进后的算法进行解析工作,整体数据的特征词提取准确性得到极大提高。

Claims (1)

1.一种大数据环境下异构数据实时检索方法,其特征在于,包括以下步骤:
步骤1:搭建海量数据索引云服务,实现索引存储负载的均衡化;搜索请求开始后,根据总控制台指令,分别向各个shard分片进行搜索;获取各自检索的记录;汇集各分片初始结果集;对初始结果集进行排序,按照预置条件要求,返回符合条件的记录;通过上一阶段获取的信息,进行字段值选择;并行执行任务,去各个shard获取字段值信息;汇总各个shard的字段值信息;收集各分片的最终结果;合并结果,统一返回;
步骤2:优化异构数据内容解析算法,使其解析更准确;在运用textrank时考虑到每一个顶点即词的权重,再进行下一步的投票以及迭代的操作来获取文章的特征词;在进行taxtrank提取关键词之前,先对数据集中的文档进行每个词的权重计算,之后将这个词的权重值作为textrank每个词输入,进行下一步的计算。
CN201510704836.4A 2015-10-27 2015-10-27 一种大数据环境下异构数据实时检索方法 Pending CN106611012A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510704836.4A CN106611012A (zh) 2015-10-27 2015-10-27 一种大数据环境下异构数据实时检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510704836.4A CN106611012A (zh) 2015-10-27 2015-10-27 一种大数据环境下异构数据实时检索方法

Publications (1)

Publication Number Publication Date
CN106611012A true CN106611012A (zh) 2017-05-03

Family

ID=58614108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510704836.4A Pending CN106611012A (zh) 2015-10-27 2015-10-27 一种大数据环境下异构数据实时检索方法

Country Status (1)

Country Link
CN (1) CN106611012A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073616A (zh) * 2016-11-14 2018-05-25 北京航天长峰科技工业集团有限公司 一种基于大数据技术的海量文档关键词快速检索方法
CN108921734A (zh) * 2018-07-18 2018-11-30 北京航空航天大学 一个基于多源异构数据的房地产信息可视化系统
CN111553156A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN113993166A (zh) * 2021-11-03 2022-01-28 嘉兴国电通新能源科技有限公司 一种面向异构d2d网络的小基站抖动避免负载均衡方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073616A (zh) * 2016-11-14 2018-05-25 北京航天长峰科技工业集团有限公司 一种基于大数据技术的海量文档关键词快速检索方法
CN108921734A (zh) * 2018-07-18 2018-11-30 北京航空航天大学 一个基于多源异构数据的房地产信息可视化系统
CN111553156A (zh) * 2020-05-25 2020-08-18 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN111553156B (zh) * 2020-05-25 2023-08-04 支付宝(杭州)信息技术有限公司 一种关键词提取方法、装置及设备
CN113993166A (zh) * 2021-11-03 2022-01-28 嘉兴国电通新能源科技有限公司 一种面向异构d2d网络的小基站抖动避免负载均衡方法
CN113993166B (zh) * 2021-11-03 2023-08-04 嘉兴国电通新能源科技有限公司 一种面向异构d2d网络的小基站抖动避免负载均衡方法

Similar Documents

Publication Publication Date Title
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
Lee et al. SQL-to-NoSQL schema denormalization and migration: a study on content management systems
CN103064664A (zh) 一种基于性能预估的Hadoop参数自动优化方法和系统
CN106611012A (zh) 一种大数据环境下异构数据实时检索方法
CN103870505A (zh) 一种查询词推荐方法和查询词推荐系统
CN103577416A (zh) 扩展查询方法及系统
CN102968987A (zh) 一种语音识别方法及系统
CN107291770B (zh) 一种分布式系统中海量数据的查询方法及装置
CN107943952A (zh) 一种基于Spark框架进行全文检索的实现方法
CN104391748A (zh) 一种mapreduce计算过程优化方法
CN104142968A (zh) 一种基于solr技术的分布式搜索方法及系统
CN111444094B (zh) 一种测试数据的生成方法和系统
WO2020211466A1 (zh) 一种非冗余基因集聚类方法、系统及电子设备
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质
CN104731891A (zh) 一种etl中海量数据抽取的方法
JP2014048741A (ja) データ検索プログラム、データベース装置および情報処理システム
CN114139040A (zh) 一种数据存储及查询方法、装置、设备及可读存储介质
CN111046059B (zh) 基于分布式数据库集群的低效sql语句分析方法及系统
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN110874366A (zh) 数据处理、查询方法和装置
CN105512270A (zh) 一种确定相关对象的方法和装置
CN105824976A (zh) 一种优化分词库的方法和装置
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN108073616A (zh) 一种基于大数据技术的海量文档关键词快速检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170503

WD01 Invention patent application deemed withdrawn after publication