CN114969325A - 一种多要素城市地质大数据存储管理和挖掘分析系统 - Google Patents
一种多要素城市地质大数据存储管理和挖掘分析系统 Download PDFInfo
- Publication number
- CN114969325A CN114969325A CN202210425246.8A CN202210425246A CN114969325A CN 114969325 A CN114969325 A CN 114969325A CN 202210425246 A CN202210425246 A CN 202210425246A CN 114969325 A CN114969325 A CN 114969325A
- Authority
- CN
- China
- Prior art keywords
- big data
- urban
- urban geological
- geological big
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013500 data storage Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000005065 mining Methods 0.000 title claims abstract description 21
- 238000007726 management method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000007418 data mining Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 239000011365 complex material Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种多要素城市地质大数据存储管理和挖掘分析系统,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息等,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。本发明解决了现有技术对多要素城市地质大数据管理和挖掘分析困难的问题。
Description
技术领域
本发明涉及的是地质数据领域,特别涉及一种多要素城市地质大数据存储管理和挖掘分析系统。
背景技术
研究地质大数据,就是对收集来的数据进行处理整合后提取同类信息进行比较分析。在大数据背景下,对于地质状况、地球物理、地球化学、地形地貌、矿产资源等重要的地质数据,必须以大数据技术为基础,以产业发展为导向,以应用和服务为主线,合理利用地球表面的数字地质数据,最终达到挖掘地质信息资源,构建地质大数据平台的目的。
由于地质空间大数据一般是基于矢量坐标的属性表达,主要来源是对地观测时形成的各类原始资料。人类目前对地质空间的认知远未达到精细化水平,探测手段尚未达到全息透明程度,地质空间分布与变异或许是人类的长久性课题。对地质空间的观测与研究主要是围绕着地质地理、地球物理、地球化学及遥感信息等多源地学数据分析而展开的,地质空间数据属于海量多源地学数据集合,有关地质空间数据融合、建模与预测构成了地质空间大数据分析的主要内容。地质空间大数据是借助于各种测量技术手段获取的有关自然地质客体全部属性的集合,反映了地质空间混成叠加场的多源特性。与传统人文社科大数据最大区别在于:地质空间大数据具有客观的自然属性,由于地质空间大数据是对地质客体目标的多维表达,地质大数据之间具有某种共性或互操作性,能够协同反映地质体的物质属性。一般情况下,每一种类型的地质大数据均与大地坐标系相对应,属于平面直角坐标系下的映射。与狭义地理空间相比,地质空间具有更加复杂的物质混成和叠加特性,其信息具有复杂性、异构性、周期性及广延性等特点,这些信息综合构成了地学大数据处理分析的复杂系统。
目前,地质大数据的研究,主要集中在地质大数据存储管理、分析处理、挖掘应用等几个方面。地质大数据存储组织的研究相对薄弱,需结合云GIS架构的特点探索新型地质大数据存储管理的需求;地质大数据分析处理是数据挖掘与应用的基础,当前大多采用主流的Hadoop和Spark大数据平台来实现并行化算法;同时,大数据挖掘与人工智能是当今数字地质科学发展的跨越性、交叉性趋势,基于神经网络的机器学习与深度学习方法在地质变量研究中的前景十分广阔。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种多要素城市地质大数据存储管理和挖掘分析系统。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种多要素城市地质大数据存储管理和挖掘分析系统,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:
城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;
城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;
城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息等,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。
进一步地,城市地质大数据存储单元包括矢量数据储存子单元、栅格数据储存子单元、二三维数据储存子单元、流式数据储存子单元和非结构化数据子单元,实现分别对矢量数据储、栅格数据、二三维数据、流式数据和非结构化数据进行储存。
进一步地,城市地质大数据计算单元,分布式计算框架采用Spark分布式就算框架,基于Spark分布式计算框架提出基于GEORDI的城市地质大数据高性能计算方法,实现对各类多源地质数据的统一处理与分析。
进一步地,Spark运行流程为:
构建Spark application的运行环境,启动Spark Context;
Spark Context向Standalone、Mesos、Yarn资源管理器申请运行Executor资源,并启动Standalone executorbackend用来汇报资源使用情况;
Executor向Spark Context申请Task。Task采用了数据本地性和推测执行的优化机制;
Sparkcontext将应用程序分发给Executor;
Sparkcontext构建成DAG图分解成Stage、每个Stage包含多个Task构成Taskset,并将Taskset发送给Task Scheduler,最后有TaslScheduler将Task发送给Executor运行;
Executor执行Task任务,运行完释放所有资源。
进一步地,城市地质大数据挖掘单元文本聚类的具体流程为:对城市地质大数据文本进行收集,对收集文本进行预处理,对文本特征进行提取,建立文本表示模型,对文本相似度进行计算,基于向量空间的文本进行聚类,对文本聚类质量进行评价。
进一步地,对收集文本进行预处理,具体方法至少包括:基于统计的分词方法,基于字符串匹配的分词方法和基于理解的分词方法。
进一步地,对文本特征进行提取,具体方法至少包括:词频-逆向文档频率、互信息、信息增益、x2统计方法。
进一步地,建立文本表示模型,文本表示模型至少包括:向量空间模型、布尔模型和概率模型。
进一步地,对文本相似度进行计算,方法为距离度量和相似度度量。
进一步地,基于向量空间的文本进行聚类,具体包括:首先对文本进行向量化处理,然后对语义空间进行降维,最后对文本进行聚类。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开的一种多要素城市地质大数据存储管理和挖掘分析系统,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息等,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。本发明解决了现有技术对多要素城市地质大数据管理和挖掘分析困难的问题。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种多要素城市地质大数据存储管理和挖掘分析系统的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的问题,本发明实施例提供一种多要素城市地质大数据存储管理和挖掘分析系统。
实施例1
本实施例公开了一种多要素城市地质大数据存储管理和挖掘分析系统,如图1,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:
城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;
在本实施例中,城市地质大数据存储单元包括矢量数据储存子单元、栅格数据储存子单元、二三维数据储存子单元、流式数据储存子单元和非结构化数据子单元,实现分别对矢量数据储、栅格数据、二三维数据、流式数据和非结构化数据进行储存。
城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;在本实施例中,城市地质大数据计算单元,分布式计算框架采用Spark分布式就算框架,基于Spark分布式计算框架提出基于GEORDI的城市地质大数据高性能计算方法,实现对各类多源地质数据的统一处理与分析。
具体的,Spark运行流程为:
构建Spark application的运行环境,启动Spark Context;
Spark Context向Standalone、Mesos、Yarn资源管理器申请运行Executor资源,并启动Standalone executorbackend用来汇报资源使用情况;
Executor向Spark Context申请Task。Task采用了数据本地性和推测执行的优化机制;
Sparkcontext将应用程序分发给Executor;
Sparkcontext构建成DAG图分解成Stage、每个Stage包含多个Task构成Taskset,并将Taskset发送给Task Scheduler,最后有TaslScheduler将Task发送给Executor运行;
Executor执行Task任务,运行完释放所有资源。
城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息等,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。
在本实施例中,城市地质大数据挖掘单元文本聚类的具体流程为:对城市地质大数据文本进行收集,对收集文本进行预处理,对文本特征进行提取,建立文本表示模型,对文本相似度进行计算,基于向量空间的文本进行聚类,对文本聚类质量进行评价。具体的,对收集文本进行预处理,具体方法至少包括:基于统计的分词方法,基于字符串匹配的分词方法和基于理解的分词方法。对文本特征进行提取,具体方法至少包括:词频-逆向文档频率、互信息、信息增益、x2统计方法。建立文本表示模型,文本表示模型至少包括:向量空间模型、布尔模型和概率模型。对文本相似度进行计算,方法为距离度量和相似度度量。基于向量空间的文本进行聚类,具体包括:首先对文本进行向量化处理,然后对语义空间进行降维,最后对文本进行聚类。
本实施例公开的一种多要素城市地质大数据存储管理和挖掘分析系统,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息等,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。本发明解决了现有技术对多要素城市地质大数据管理和挖掘分析困难的问题。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (10)
1.一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,包括:城市地质大数据存储单元、城市地质大数据计算单元和城市地质大数据挖掘单元,其中:
城市地质大数据存储单元,用于根据城市地质大数据不同类型,采用不同方式分别进行储存管理;
城市地质大数据计算单元,用于采用分布式计算框架实现城市地质大数据的并行计算和分析处理;
城市地质大数据挖掘单元,用于利用自然语言处理技术,对城市地质大数据文本进行聚类;通过文本聚类的方法根据用户的操作,如用户信息、文本信息,对用户进行分类。按照不同用户的不同兴趣进行分类,根据兴趣类别向用户提供类似的信息和服务。
2.如权利要求1所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,城市地质大数据存储单元包括矢量数据储存子单元、栅格数据储存子单元、二三维数据储存子单元、流式数据储存子单元和非结构化数据子单元,实现分别对矢量数据储、栅格数据、二三维数据、流式数据和非结构化数据进行储存。
3.如权利要求1所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,城市地质大数据计算单元,分布式计算框架采用Spark分布式就算框架,基于Spark分布式计算框架提出基于GEORDI的城市地质大数据高性能计算方法,实现对各类多源地质数据的统一处理与分析。
4.如权利要求3所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,Spark运行流程为:
构建Spark application的运行环境,启动Spark Context;
Spark Context向Standalone、Mesos、Yarn资源管理器申请运行Executor资源,并启动Standalone executorbackend用来汇报资源使用情况;
Executor向Spark Context申请Task。Task采用了数据本地性和推测执行的优化机制;
Sparkcontext将应用程序分发给Executor;
Sparkcontext构建成DAG图分解成Stage、每个Stage包含多个Task构成Taskset,并将Taskset发送给Task Scheduler,最后有TaslScheduler将Task发送给Executor运行;
Executor执行Task任务,运行完释放所有资源。
5.如权利要求1所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,城市地质大数据挖掘单元文本聚类的具体流程为:对城市地质大数据文本进行收集,对收集文本进行预处理,对文本特征进行提取,建立文本表示模型,对文本相似度进行计算,基于向量空间的文本进行聚类,对文本聚类质量进行评价。
6.如权利要求5所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,对收集文本进行预处理,具体方法至少包括:基于统计的分词方法,基于字符串匹配的分词方法和基于理解的分词方法。
7.如权利要求5所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,对文本特征进行提取,具体方法至少包括:词频-逆向文档频率、互信息、信息增益、x2统计方法。
8.如权利要求5所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,建立文本表示模型,文本表示模型至少包括:向量空间模型、布尔模型和概率模型。
9.如权利要求5所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,对文本相似度进行计算,方法为距离度量和相似度度量。
10.如权利要求5所述的一种多要素城市地质大数据存储管理和挖掘分析系统,其特征在于,基于向量空间的文本进行聚类,具体包括:首先对文本进行向量化处理,然后对语义空间进行降维,最后对文本进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210425246.8A CN114969325A (zh) | 2022-04-21 | 2022-04-21 | 一种多要素城市地质大数据存储管理和挖掘分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210425246.8A CN114969325A (zh) | 2022-04-21 | 2022-04-21 | 一种多要素城市地质大数据存储管理和挖掘分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969325A true CN114969325A (zh) | 2022-08-30 |
Family
ID=82978799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210425246.8A Pending CN114969325A (zh) | 2022-04-21 | 2022-04-21 | 一种多要素城市地质大数据存储管理和挖掘分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969325A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633140A (zh) * | 2024-01-25 | 2024-03-01 | 中化地质矿山总局山东地质勘查院 | 一种基于大数据云计算技术的城市地质调查方法 |
-
2022
- 2022-04-21 CN CN202210425246.8A patent/CN114969325A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633140A (zh) * | 2024-01-25 | 2024-03-01 | 中化地质矿山总局山东地质勘查院 | 一种基于大数据云计算技术的城市地质调查方法 |
CN117633140B (zh) * | 2024-01-25 | 2024-04-16 | 中化地质矿山总局山东地质勘查院 | 一种基于大数据云计算技术的城市地质调查方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | A review of earth artificial intelligence | |
CN107229708B (zh) | 一种个性化出行服务大数据应用系统及方法 | |
Li et al. | Geospatial big data handling theory and methods: A review and research challenges | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN104820708B (zh) | 一种基于云计算平台的大数据聚类方法和装置 | |
CN106133756A (zh) | 用于过滤、分割并且识别无约束环境中的对象的系统 | |
CN104809244B (zh) | 一种大数据环境下的数据挖掘方法和装置 | |
CN109740471B (zh) | 基于联合潜在语义嵌入的遥感图像描述方法 | |
CN110851488A (zh) | 基于多源多模态数据融合分析处理方法及平台 | |
Saabith et al. | Popular python libraries and their application domains | |
CN111797833A (zh) | 一种面向遥感语义分割的自动化机器学习方法及系统 | |
Kang et al. | Streaming progressive TIN densification filter for airborne LiDAR point clouds using multi-core architectures | |
CN114969325A (zh) | 一种多要素城市地质大数据存储管理和挖掘分析系统 | |
Böhm et al. | The IQmulus urban showcase: Automatic tree classification and identification in huge mobile mapping point clouds | |
Huang et al. | A multivariable optical remote sensing image feature discretization method applied to marine vessel targets recognition | |
CN116721713B (zh) | 一种面向化学结构式识别的数据集构建方法和装置 | |
CN111950646A (zh) | 电磁图像的层次化知识模型构建方法及目标识别方法 | |
Hamidzadeh et al. | Clustering data stream with uncertainty using belief function theory and fading function | |
Yi et al. | An Effective Approach for determining Rock Discontinuity sets using a modified Whale optimization Algorithm | |
Fox et al. | Contributions to high-performance big data computing | |
Johnson et al. | On experimenting large dataset for visualization using distributed learning and tree plotting techniques | |
Beckstein et al. | Contributions to High-Performance big data computing | |
Green | Big Data in Archaeology | |
Ryabinin et al. | Ontology-driven data mining platform for fuzzy classification of mental maps | |
CN109033396A (zh) | 一种城市数据可视化系统及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |