CN113377771A - 一种数据探索方法、系统、设备及存储介质 - Google Patents
一种数据探索方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN113377771A CN113377771A CN202110634162.0A CN202110634162A CN113377771A CN 113377771 A CN113377771 A CN 113377771A CN 202110634162 A CN202110634162 A CN 202110634162A CN 113377771 A CN113377771 A CN 113377771A
- Authority
- CN
- China
- Prior art keywords
- data
- preprocessed
- search
- retrieval
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000012800 visualization Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 14
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000282813 Aepyceros melampus Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000001556 precipitation Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据探索方法、系统、设备及存储介质,涉及计算机技术领域。所述方法包括:获取检索请求,得到预处理检索词;判断所述预处理检索词是否有效;在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;将所述集群数据和所述推荐数据可视化处理,得到探索结果。本发明通过对获取检索请求进行分析,能够得到预处理检索词,从而展开分析,能够快速实现探索结果的可视化显示。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据探索方法、系统、设备及存储介质。
背景技术
随着大数据和智能时代的来临,银行业迫切需要打造数据核心竞争力,不断推进金融大数据的建设。然而,目前银行数字化驱动的建设依旧存在重重困难,特别是技术与业务之间的壁垒,技术人员缺乏对于业务的理解,而业务人员无法直接理解和充分利用技术,从业务需求沟通到技术实现的周期长、成本高,无法及时、有效地面对瞬息万变的市场情况。如何有效地将大数据能力浅显易懂地赋能到一线业务人员,让数据为业务助力,驱动个性化的数据探索成为了目前亟待解决的问题。
现有技术下,商业智能分析工具更加注重是异构数据源的连接、数据处理及可视化分析的一体化。在金融大数据这一较新的领域,对于银行各分行来说,地域的隔离性导致经验互享存在一定的延迟,这也导致了可能在经济发达地区的分行在数据驱动和数据分析方面做得比较好,而经济落后地区的分行往往无从下手,缺少数据探索调研和分享途径,且现有的商业智能分析工具无法满足集学习、调研及分析一站式的数据探索需要。
发明内容
本发明目的在于,提供一种数据探索方法,以解决现有的检索系统检索困难的问题。
为实现上述目的,本发明实施例提供一种数据探索方法,包括:
获取检索请求,得到预处理检索词;
判断所述预处理检索词是否有效;
在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
将所述集群数据和所述推荐数据可视化处理,得到探索结果。
优选地,所述在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据,包括:
根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
优选地,所述数据探索方法,还包括:利用所述全文搜索引擎的聚合功能对所述命中内容进行分类,并统计不同类型下的命中内容数量。
优选地,所述数据探索方法,还包括:根据所述集群数据获取全文详情。
优选地,所述根据所述集群数据获取全文详情,包括:利用分布式多用户能力的全文搜索引擎返回命中内容,从关系型数据库管理系统中获取全文详情。
优选地,所述数据探索方法,还包括:根据所述预处理检索词将所述全文详情中对应的关键词高亮处理。
本发明实施例还提供一种数据探索系统,包括:
获取模块,用于获取检索请求,得到预处理检索词;
判断模块,用于判断所述预处理检索词是否有效;
筛选模块,用于在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
推荐模块,用于在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
结果显示模块,用于将所述集群数据和所述推荐数据可视化处理,得到探索结果。
优选地,所述筛选模块,还用于根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
本发明实施例还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的数据探索方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一实施例所述的数据探索方法。
与现有技术相比,本发明具有以下有益效果:
本发明公开的一种数据探索方法,包括:获取检索请求,得到预处理检索词;判断所述预处理检索词是否有效;在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;将所述集群数据和所述推荐数据可视化处理,得到探索结果。本发明通过对获取检索请求进行分析,能够得到预处理检索词,从而展开分析,能够快速实现探索结果的可视化显示。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的数据探索方法的流程示意图;
图2是本发明某一实施例提供的金融大数据系统的结构示意图;
图3是本发明某一实施例提供的数据探索系统的结构示意图;
图4是本发明某一实施例提供的计算机终端设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供数据探索方法的流程示意图。在本实施例中,数据探索方法,包括以下步骤:
S110,获取检索请求,得到预处理检索词;
S120,判断所述预处理检索词是否有效;
S130,在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
S140,在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
S150,将所述集群数据和所述推荐数据可视化处理,得到探索结果。
在本发明实施例中,步骤S130,在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据,包括:根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
在本发明实施例中,数据探索方法,还包括:利用所述全文搜索引擎的聚合功能对所述命中内容进行分类,并统计不同类型下的命中内容数量。
在本发明实施例中,数据探索方法,还包括:根据所述集群数据获取全文详情。
在本发明实施例中,所述根据所述集群数据获取全文详情,包括:利用分布式多用户能力的全文搜索引擎返回命中内容,从关系型数据库管理系统中获取全文详情。
在本发明实施例中,数据探索方法,还包括:根据所述预处理检索词将所述全文详情中对应的关键词高亮处理。
在某一具体实施例中,数据探索方法应用于银行行业的金融大数据系统,如图2所示。
其中,Hadoop集群和存储层:Hadoop集群包括FI集群(Fusion Insight,华为云)及CDH集群(Cloudera Distribution Hadoop,Cloudera公司发布的Hadoop版本),两者均基于Hadoop技术架构、能够对大量数据进行分布式的计算和存储。存储层中的Redis及Mysql实现了应用层面的数据缓存及持久化存储。ES(Elastic Search)是基于Lucene的索引服务器,提供了分布式多用户能力的全文检索引擎。
中间层,主要包括检索组件、查询组件及系统管理模块等。检索组件核心功能为数据同步及推荐算法,数据同步模块采用定时同步+实时推送的方式,将报告、报表、指标及基础表的数据字典加入到ES集群中。推荐算法则根据资源的收藏量、阅读数及评分对检索结果进行排序。查询组件核心功能为Impala及Hive查询,实现了对Hadoop集群数据的数据探查。系统管理模块则包含了基础的用户管理、角色管理、权限管理等。
应用层,按照“从了解、查找到学习”一站式的数据探索方式,提供了数据目录、检索引擎、数据分析及交互中心服务。用户可以通过“业务目录”、“数据排行”了解到行内大数据的数据情况。“检索引擎”则提供数据分析报告、报表、指标、基础表海量数据资料的即席查找功能,报告类数据详情页面包含报告标题、作者及机构、正文和评论;报表类数据详情页面包含报表名称、摘要、报表使用到的数据表,并根据权限判定当前用户是否可以直接访问报表明细;指标类数据详情页面包含指标的业务属性、技术属性、应用场景描述及指标数据质量;基础表类数据详情页包含表的业务属性、技术属性、表字段信息、表数据质量及血缘关系相关信息。“数据分析服务”则包含了集群数据探查、数据处理及可视化分析。“交互中心”提供报告发布、报表分享及讨论交流的功能。
数据探索的方法:在数据调研阶段,主要围绕“检索引擎”功能,引擎同时提供了报告、报表、指标、基础表的资源检索,可通过筛选资源类别过滤检索结果。用户在数据调研时,一是可以通过检索报告和报表借鉴相关经验,调研其他部门是否有进行过相关场景的数据分析,二是围绕着数据分析场景检索相关的指标和基础表,并创建例如“某某场景数据分析”的收藏标签,将所需资源进行归类梳理,为后续的场景分析做准备。在数据准备阶段,用户可以通过“综合查询”对集群中的数据进行HQL查询。同时,平台封装了简单的查询语句以便于进行快速的数据预览。当明确使用的数据后,可以直接将所需的数据一键式导入至BI工具中。在数据分析阶段,支持进行数据自助分析,包括表字段加工,表关联,数据聚合等的数据处理。数据可视化主要指图表制作及仪表盘制作,支持拖拉拽式操作,交互效果包括图表联动及多层钻取。在知识沉淀阶段,报表分享包括平台内分享,还支持URL式外链分享及邮件分享,终端支持电脑端及移动端。报告发布后支持在平台内的分享及邮件分享。后台“数据同步”模块将采用定时同步+实时推送的方式,将相应新增的数据知识加入到ES集群中,完成知识沉淀的闭环。
检索引擎技术,将不同资源的数据内容导入ElasticSearch的索引中,借助ElasticSearch能力实现近实时的全文检索功能。用户输入检索关键词,从ElasticSearch中检出命中内容;用户查看详情时,则利用ElasticSearch返回内容去mysql中获取详情信息;全文检索会借助ElasticSearch的聚合功能对每条信息进行分类,并且统计出每个分类下命中的信息条数;全文检索结果中,命中的检索关键词会高亮显示。
全文检索使用三个索引别名bd_explore_analysis(分析报告索引)、bd_explore_metadata(表数据资源索引)、bd_explore_dictionary(数据字典索引)。规则如下:每天全量更新索引,新索引以“索引别名_日期”格式命名,旧索引保留三天时间;ES数据同步完成后,将ES的索引别名与新建索引关联、并去掉与旧索引的关联关系。
数据同步方案如下:
全量同步(doSyncFull):每天早上7点会启动调度任务将所需的数据全量同步到ES相应索引中。全量同步任务将以跑批的形式进行。增量同步(doSyncIncrement):增量同步使用定时任务处理,每天的08:00-20:00的10分钟会进行一次增量同步,增量同步同步最近10分钟新增数据。具体包括:
1)增量同步任务设置同步开始时间,全量同步任务不设置同步开始时间;
2)每个批次最多从mysql中取1000条数据进行同步;
3)将mysql中取出的数据,进行适当处理,转换成es索引中需要的格式。如设置同步时间戳(lastFullSyncTime),将参与检索的字段拼接成一个字段(queryString),设置数据是否重复(showGlobal字段为1表示重复);
4)调用es接口,将经过加工的数据进行批量操作;es中存在则进行更新操作,es不存在则插入;
5)判断当前批次处理的数据量,如果为0表示同步作业完成;否则进入下一批次处理。
减量同步(删除过期文档,doSyncDelete):全量同步后,会进行ES过期文档删除工作(使用lastFullSyncTime及指定索引来删除过期文档)。减量同步任务将以跑批的形式进行。具体包括:
1)按照偏移量,每批从es索引(bd_explore_tables、bd_explore_dictionary、bd_explore_analysis)中查询1000条数据;
2)如果文档的lastFullSyncTime小于当前日期,表明该文档已过期;
3)如果文档过期就添加到待删除队列;没有过期则不做任务处理;
4)调用es接口对队列中的文档进行批量删除,清空队列;
5)检索步骤1筛选出的待处理数据量。如果为0表明减量同步结束;如果不为0进入下一个批次。
数据探索的连贯性可以通过平台的各功能进行支撑,包括调研阶段、数据准备、数据分析及知识沉淀,一站式的用户体验可以提高用户的分析效率;
检索引擎不但提供集群数据的指标及数据表的数据字典,同时报告及报表能够定时同步至引擎中以供检索,此方式为自动方式,不但节省人力资源,同时可以节省线以往单一的线下咨询收集资料带来的时间成本。
将数据分析报告、报表、指标、基础表作为数据资源,提供给业务进行检索,业务可以进行个性化的数据场景调研,收集具有参考价值的报告、报表,或者利用平台提供的基于Hadoop集群Hive及Impala引擎的数据查看服务,及拖拉拽式的自助分析服务,开发个性化的可视化报表,从而提供了一站式的数据探索的服务平台。检索引擎不但提供集群数据的指标及数据表的数据字典,同时报告及报表能够定时同步至引擎中以供检索,用户可以在查看数据字典的同时,通过Hive及Impala引擎的数据查询服务对数据进行预览和预分析。
请参阅图3,图3是本发明某一实施例提供的数据探索系统的结构示意图。在本实施例中,数据探索系统包括:
获取模块210,用于获取检索请求,得到预处理检索词;
判断模块220,用于判断所述预处理检索词是否有效;
筛选模块230,用于在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
推荐模块240,用于在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
结果显示模块250,用于将所述集群数据和所述推荐数据可视化处理,得到探索结果。
在本发明实施例中,筛选模块230,还用于根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
关于数据探索系统的具体限定可以参见上文中对于数据探索方法的限定,在此不再赘述。上述数据探索系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参阅图4,本发明实施例提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的数据探索方法。
处理器用于控制该计算机终端设备的整体操作,以完成上述的数据探索方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(Application Specific 1ntegrated Circuit,简称AS1C)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据探索方法,并达到如上述方法一致的技术效果。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的数据探索方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的数据探索方法,并达到如上述方法一致的技术效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种数据探索方法,其特征在于,包括:
获取检索请求,得到预处理检索词;
判断所述预处理检索词是否有效;
在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
将所述集群数据和所述推荐数据可视化处理,得到探索结果。
2.根据权利要求1所述的数据探索方法,其特征在于,所述在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据,包括:
根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
3.根据权利要求2所述的数据探索方法,其特征在于,还包括:利用所述全文搜索引擎的聚合功能对所述命中内容进行分类,并统计不同类型下的命中内容数量。
4.根据权利要求1所述的数据探索方法,其特征在于,还包括:根据所述集群数据获取全文详情。
5.根据权利要求4所述的数据探索方法,其特征在于,所述根据所述集群数据获取全文详情,包括:利用分布式多用户能力的全文搜索引擎返回命中内容,从关系型数据库管理系统中获取全文详情。
6.根据权利要求4所述的数据探索方法,其特征在于,还包括:根据所述预处理检索词将所述全文详情中对应的关键词高亮处理。
7.一种数据探索系统,其特征在于,包括:
获取模块,用于获取检索请求,得到预处理检索词;
判断模块,用于判断所述预处理检索词是否有效;
筛选模块,用于在所述预处理检索词有效时,根据所述预处理检索词对历史检索资源进行筛选,得到集群数据;
推荐模块,用于在所述预处理检索词无效时,生成检索词无效信息,并根据所述预处理检索词构建推荐数据;
结果显示模块,用于将所述集群数据和所述推荐数据可视化处理,得到探索结果。
8.根据权利要求7所述的数据探索系统,其特征在于,所述筛选模块,还用于根据所述预处理检索词,从分布式多用户能力的全文搜索引擎中检出命中内容,得到集群数据。
9.一种计算机终端设备,其特征在于,包括:
一个或多个处理器;
存储器,与所述处理器耦接,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6任一项所述的数据探索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据探索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634162.0A CN113377771A (zh) | 2021-06-07 | 2021-06-07 | 一种数据探索方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110634162.0A CN113377771A (zh) | 2021-06-07 | 2021-06-07 | 一种数据探索方法、系统、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113377771A true CN113377771A (zh) | 2021-09-10 |
Family
ID=77576228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110634162.0A Pending CN113377771A (zh) | 2021-06-07 | 2021-06-07 | 一种数据探索方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508369A (zh) * | 2018-10-31 | 2019-03-22 | 大连今晨科技有限公司 | 专利检索系统 |
CN110188100A (zh) * | 2019-05-17 | 2019-08-30 | 中国银行股份有限公司 | 数据处理方法、装置及计算机存储介质 |
CN111382226A (zh) * | 2018-12-29 | 2020-07-07 | 北京神州泰岳软件股份有限公司 | 一种数据库查询检索方法、装置和电子设备 |
-
2021
- 2021-06-07 CN CN202110634162.0A patent/CN113377771A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508369A (zh) * | 2018-10-31 | 2019-03-22 | 大连今晨科技有限公司 | 专利检索系统 |
CN111382226A (zh) * | 2018-12-29 | 2020-07-07 | 北京神州泰岳软件股份有限公司 | 一种数据库查询检索方法、装置和电子设备 |
CN110188100A (zh) * | 2019-05-17 | 2019-08-30 | 中国银行股份有限公司 | 数据处理方法、装置及计算机存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9977827B2 (en) | System and methods of automatic query generation | |
US9069853B2 (en) | System and method of goal-oriented searching | |
US10182025B2 (en) | Systems and methods for a search-based email client | |
US8176440B2 (en) | System and method of presenting search results | |
US7831601B2 (en) | Method for automatically searching for documents related to calendar and email entries | |
US8103653B2 (en) | System for locating documents a user has previously accessed | |
US8122028B2 (en) | System for remotely searching a local user index | |
US7634461B2 (en) | System and method for enhancing keyword relevance by user's interest on the search result documents | |
US20080243787A1 (en) | System and method of presenting search results | |
US20080243785A1 (en) | System and methods of searching data sources | |
US9454601B2 (en) | System and method for providing graphical representations of search results in multiple related histograms | |
US8909616B2 (en) | Information-retrieval systems, methods, and software with content relevancy enhancements | |
US20080243799A1 (en) | System and method of generating a set of search results | |
US20090228476A1 (en) | Systems, methods, and software for creating and implementing an intellectual property relationship warehouse and monitor | |
US20080228574A1 (en) | System And Method For Conveying Content Changes Over A Network | |
US9043413B2 (en) | System and method for extracting, collecting, enriching and ranking of email objects | |
US20090094210A1 (en) | Intelligently sorted search results | |
CN102117303A (zh) | 一种专利数据分析方法和系统 | |
KR20160053933A (ko) | 스마트 검색 정제 기법 | |
KR20100112512A (ko) | 검색 장치 및 검색 방법 | |
CN107025261B (zh) | 主题网络语料库 | |
CN113377771A (zh) | 一种数据探索方法、系统、设备及存储介质 | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
CN113051460A (zh) | 基于Elasticsearch的数据检索方法、系统、电子设备及存储介质 | |
CA2764319A1 (en) | Advanced features, service and displays of legal and regulatory information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |