CN113515600B - 一种基于元数据的空间分析自动计算方法 - Google Patents

一种基于元数据的空间分析自动计算方法 Download PDF

Info

Publication number
CN113515600B
CN113515600B CN202111067082.8A CN202111067082A CN113515600B CN 113515600 B CN113515600 B CN 113515600B CN 202111067082 A CN202111067082 A CN 202111067082A CN 113515600 B CN113515600 B CN 113515600B
Authority
CN
China
Prior art keywords
service
data
analysis
metadata
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111067082.8A
Other languages
English (en)
Other versions
CN113515600A (zh
Inventor
冯建亮
李俊
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speed China Technology Co Ltd
Original Assignee
Speed Space Time Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speed Space Time Information Technology Co Ltd filed Critical Speed Space Time Information Technology Co Ltd
Priority to CN202111067082.8A priority Critical patent/CN113515600B/zh
Publication of CN113515600A publication Critical patent/CN113515600A/zh
Application granted granted Critical
Publication of CN113515600B publication Critical patent/CN113515600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据的空间分析自动计算方法,步骤为:S1:构建要素及分析元数据库;S2:根据行政区划名称、基础要素名称以及分析功能构建词典库;S3:输入查询文本,对查询文本进行分词提取和分词解析,将一连串的字符根据一定的规律分解成一个个独立的、可识别的字符,获得多个关键词的分词结果;S4:基于其中一个分词结果进行逐级匹配,获得匹配后的该分词结果的服务,记为FS;S5:基于剩余的分词结果以及服务匹配得到要素数据,记为FD;S6:结合FS与FD进行分析计算,即将选中的要素数据的相应字段值作为分析功能的输入参数进行计算,取得最终的计算结果,并输出计算结果。

Description

一种基于元数据的空间分析自动计算方法
技术领域
本发明涉及测绘地理信息技术领域,具体涉及一种基于元数据的空间分析自动计算方法。
背景技术
随着城市大数据的建设,现有的数据中心汇集了大量的地理空间数据,数据类别繁多,数据量庞大,对于这些丰富的数据资源,如何有效地利用,成为一个重要的问题。对于专业的算法设计人员,可以通过数据挖掘算法来从各类数据中挖掘提炼出有价值的信息,而对于一般的普通用户,则依赖于相应的信息系统所支持的资源开放接口,由于数据量庞大,且相关的空间分析方法有一定的使用门槛,这在一定程度上限制了普通用户对地理空间数据的有效使用。目前常用的方式是数据平台以文件的方式提供数据资源的下载,或者以网络服务的方式提供数据资源的接入,同时,平台提供相应的空间分析的功能,可以以平台工具的形式,或者以网络服务的方式。综合来看,还没有一种能够根据用户的需求自动获取要素并计算的方法,针对这个问题,本发明设计了一种基于元数据的空间分析自动计算方法。
空间信息服务的出现有效地促进了地理空间信息的共享和互操作,利用网络技术将地理空间数据获取、处理和应用功能发布成服务,供用户调用,可极大地促进地理空间信息的共享和互操作。目前常用的方式有以下两种。
(1)资源服务化。平台将数据资源和分析功能作为不同的服务单独发布出来供用户调用,并提供对应的资源服务目录,用户根据应用需求在目录中选择相应的数据和分析服务,然后再通过代码的方式来调用。
(2)图形建模法。平台提供在线的分析模型构建的功能,在使用过程中,首先通过手动建模,以图形拉拽的方式创建分析模型,设置输入与输出数据,然后再运行分析模型,得到分析结果。
资源服务化方法开放出来的是数据服务和分析服务的网络服务接口,这种接口不能直接获取到数据和分析功能,在应用过程中需要用户具备相应开发能力,能够调用开放的网络服务来解析得到数据资源,然后可作为输入参数应用到空间分析中,这种方式主要是面向专业的研发人员,给普通用户的使用带来不便。图形建模法相比于资源服务化方法,以图形化方式给用户提供了操作界面,使得用户直接可以在平台中自行组合数据资源和分析功能,完成分析模型的创建及计算。但同时这种方式也存在一些问题,即用户需要了解要素数据的结构以及分析方法的输入和输出参数,以及平台建模工具的使用方法,具有一定的学习成本。
发明内容
本发明主要解决的问题是提供一种基于元数据的空间分析自动计算方法,在使用过程中用户通过在搜索框输入要分析计算得到的结果,计算机通过自然语言分词方法对输入的文本进行分词解析,将文本分解为时间、区域、要素、分析功能等相关信息,然后根据分析功能自动匹配空间分析服务,根据时间、区域、要素信息,同时结合匹配到的分析服务,自动匹配得到要素数据,最后将获取到的要素数据与分析服务组合进行分析计算得出结果。
为了解决上述技术问题,本发明采用的技术方案是:该基于元数据的空间分析自动计算方法,具体包括以下步骤:
S1:构建要素及分析元数据库;
S2:根据行政区划名称、基础要素名称以及分析功能构建词典库;
S3:输入查询文本,对查询文本进行分词提取和分词解析,将一连串的字符根据规律分解成一个个独立的、可识别的字符,获得多个关键词的分词结果;
S4:基于其中一个分词结果进行逐级匹配,获得匹配后的该分词结果的服务,记为FS;
S5:基于剩余的分词结果以及服务匹配得到要素数据,记为FD;
S6:结合FS与FD进行分析计算,即将选中的要素数据的相应字段值作为分析功能的输入参数进行计算,取得最终的计算结果,并输出计算结果。
采用上述技术方案,在使用过程中用户通过在搜索框输入要分析计算得到的结果,系统通过自然语言分词方法对输入的文本进行分词解析,将文本分解为时间、区域、要素、分析功能等相关信息,然后根据分析功能自动匹配空间分析服务,根据时间、区域、要素信息,同时结合匹配到的分析服务,自动匹配得到要素数据,最后将获取到的要素数据与分析服务组合进行分析计算得出结果。
作为本发明的优选技术方案,所述步骤S1中的要素及分析元数据库包括要素元数据和服务元数据,所述要素元数据包括存储地址、采集时间、区域名称、数据地理空间范围、地理空间参考信息、数据来源、字段说明和地理空间数据类别;所述服务元数据包括服务地址、参数个数、参数名、参数类型、参数说明、输出类型、功能描述和服务类别;所述步骤S1具体步骤为:
S11:根据要素数据元数据结构记录各个要素数据的元数据,并存储于数据库中;
S12:根据服务元数据结构记录各个分析服务的元数据,并存储于数据库中。
元数据(Metadata)是描述数据的数据,是对数据进行描述、解释、定位并使其更方便检索、使用或管理的数据。元数据是数据的共享、交换、分析和使用的基础。本技术方案中,对系统中的要素以及分析功能设计相应的元数据存储结构。
作为本发明的优选技术方案,所述步骤S3中的所述查询文本的内容包括区域、时间、要素和分析方法,采用词典分词方法对查询文本进行提取,然后基于该词典库进行分词解析,获得多个关键词的分词结果;对输入的查询文本进行分词提取的结果分为两类,一类是区域、时间、要素,这三项用于匹配要素数据,另一类是分析方法,用于匹配分析功能。分词的目的是通过区域以及要素准确定位到所需要的数据信息,通过分析相关的关键词查询到所需要的分析功能,为空间分析的自动计算提供必要的数据信息以及分析功能信息。由于中文是由一个个汉字组成,不同于英文,没有便于切分汉字之间的分隔符。目前常用的分词方法是词典分词和机器学习分词。词典分词可控性好、分词速度快,但是对未登录词语无法正确切分。机器学习模型CRF(conditional random field)能够很好地解决未登录词问题,但训练CRF需要人工设计很多特征,且需要花费很多时间来验证特征的有效性。基于深度学习的自然语言处理算法逐渐兴起之后,在序列标注任务上使得模型能够自动的抽取特征成为可能,大大减少了人工设计特征的工作量。虽然基于模型的分词能够很好的解决未登录词的问题,但是其可控性没有词典分词好,对于一个未解决的新词模型,词典分词可以快速的人工添加新词到词典解决问题。而对于模型而言可能就需要添加很多相关训练语料,这些训练语料往往是比较难获取或者获取成本很大。考虑到文本内容主要涉及区域、时间、要素、分析方法三个部分,其所包含的内容均比较固定,较少出现改动,因此采用词典分词方法。根据对目标区域内的行政区划名称、基础要素名称、时间以及分析方法构建词典库,然后基于该词典库进行分词解析。对输入文本的分词提取结果可分为两类,一类是区域、时间、要素,这三项主要用来匹配要素数据,另一类是分析方法,这一类主要是用来匹配分析功能。
作为本发明的优选技术方案,所述步骤S4的具体步骤为:首先对分析服务进行匹配,采用分级匹配的方式对平台中的分析服务进行逐级匹配;在服务元数据中,用于参加文本匹配的有服务类别信息、服务名称以及功能描述,其中将服务类别信息记为ST,将服务名称记为SN,将服务功能描述记为SF,分词所得的分析相关文本记为QT,服务分级匹配即将QT逐级与ST,SN,SF进行匹配,假设分析服务分类一共有N级,匹配的具体过程为:
S41:取一级分类中各服务类别的描述文本,记为集合ST1;
S42:分别计算QT与集合ST1中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT1
S43:取类别MaxT1下的二级分类中各服务类别的描述文本,记为集合ST2;
S44:分别计算QT与集合ST2中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT2
S45:重复步骤S43~S44,直到当前级别为N-1级,将该级别中文本相似度最大的类别记为MaxTN-1
S46:对类别MaxTN-1中的各个服务的服务名称SN和功能描述SF分别与QT计算文本相似度,根据公式SIM=Wsn*SIMsn+Wsf*SIMsf进行综合加权求和,其中Wsn是SN与QT文本相似度的权重值,Wsf是SF与QT文本相似度的权重值,并且Wsn+Wsf=1;将综合文本相似度最大的服务作为最终选定的服务。
作为本发明的优选技术方案,所述步骤S42和步骤S44中的文本相似度的计算采用向量夹角余弦进行计算,公式为:
Figure GDA0003344715340000051
其中,a,b分别为代表两个待匹配文本的向量,n为向量的维度,xi,yi为a,b向量中的分量,i表示向量中的第i个分量。
作为本发明的优选技术方案,所述步骤S5中的具体步骤为:
S51:在数据匹配中确定区域和时间后,将区域和时间作为筛选条件,基于要素元数据从数据库中筛选出符合条件的数据集合作为待匹配数据集,记为TD;
S52:组合P向量和Q向量,Q=(要素信息,参数类型,参数说明),P=(要素说明,字段类型,字段含义);计算Q向量与TD中每个要素对应的P向量的余弦夹角,采用向量夹角余弦法计算P与Q之间的相似度,取最大的相似度数值对应的要素数据作为匹配结果,记为FD。
作为本发明的优选技术方案,所述要素元数据中的所述存储地址中记录了要素在数据库中的存储位置,根据该地址可以获取到数据内容;所述采集时间用于记录数据获取的时间;所述区域名称为数据所在区域的名称;所述数据地理空间范围用于记录要素覆盖区域的经度方向和纬度方向的最大最小值;所述地理空间参考信息用于标识数据的坐标系参考;所述数据来源记录数据提供方信息;所述字段说明用于记录数据中各个字段名称以及相应的说明信息;所述地理空间数据类别用于表示在数据所属的类别;所述地理空间数据类别分为基础时空数据、公共专题数据、空间规划数据、物联网数据和互联网数据五个大类,每个大类中又分为若干个子类,每个类别有相应的类别标识码,根据类别标识码去检索数据可以缩小数据的检索范围。
作为本发明的优选技术方案,所述服务元数据用于记录调用该服务时所需要的信息,其中所述服务地址用于记录调用的访问地址;所述参数个数用于记录调用该功能服务所传参数的数量;所述参数名用于记录调用该功能服务传参数的名称;所述参数类型用于记录服务调用中各个参数的类型;所述参数说明描述了该参数代表的含义;所述输出类型用于记录服务分析输出结果的类型;所述功能描述,用于对服务功能的简要介绍;所述服务类别用于记录该服务的类别标识码;所述服务类别是对空间分析功能的类别划分,分为空间几何分析和空间统计分析两大类,其中所述空间几何分析包括:相交分析、路径分析、量算分析、邻域分析,所述空间统计分析包括平均值计算、最大值计算、最小值计算、标准差计算、空间插值。
作为本发明的优选技术方案,为了实现数据查询的自动匹配,根据要素元数据的结构对要素作形式化描述,将其抽象为一个六元组D={T,C,A,P,E,F},其中:T表示数据采集时间;C表示地理空间数据类别;A表示数据所在区域名称;P表示数据的地理空间参考信息;E表示数据地理空间范围;F={F1,F2,...,Fm}表示数据的字段说明,其中Fi都是形如Fi(xi)的变量,xi是数据的字段名,Fi是数据的字段说明。
作为本发明的优选技术方案,为了实现分析服务的自动匹配,根据服务元数据结构对服务作形式化描述,将其抽象为一个五元组S={N,C,D,I,O},其中:N表示服务的服务名称;C表示服务的类别,是对服务功能的类别标识;D表示服务的描述信息,是对服务功能的文本描述;I={I1,I2,...,Im}表示服务的输入集合,其中Ii都是形如Ii(xi)的变量,xi是服务的输入参数,Ii是服务的输入参数类型;O={O1,O2,...,Om}表示服务的输出集合,其中Oi都是形如Oi(yi)的变量,yi是服务的输出参数,Oi是服务的输出参数类型。
与现有技术相比,本发明中提出的方法无需手动获取地理要素数据,筛选提取要素的属性信息,再查找空间分析服务进行分析计算,直接可以实现空间分析结果的一键即时查询,实时计算。相比于目前通用的方式,本发明中提出的方法针对空间分析自动计算所需要的参考信息设计要素元数据结构,并设计元数据的形式化描述方法;设计分析功能服务的元数据结构,并设计元数据的形式化描述方法;设计了功能与数据的自动分级匹配方法;设计了空间分析自动计算的具体流程;具有以下优点:
(1)简化了空间分析计算操作流程,将数据的获取和处理交由后台程序自动完成,降低了用户的使用门槛,使得一般用户,即不具备专业知识的用户也能够快速获取到相关的空间分析结果,提高数据资源的利用率,进一步发挥数据的实际使用价值;
(2)简化了数据管理中的相关操作,对于一般的统计信息,比如行政区划面积、道路长度等基础的统计信息,通常需要预先计算好存储在数据库中,并且在数据更新过程中,相关的属性信息也需要同步更新,采用本发明中方法,则无需预先计算及同步更新;
(3)节省了数据库存储空间,由于无需预先存储要素通过空间分析计算得出的结果,避免了相关属性值的存储,可缩减要素存储所占的物理空间。
附图说明
图1为本发明基于元数据的空间分析自动计算方法的流程图;
图2为本发明基于元数据的空间分析自动计算方法的要素元数据结构图;
图3为本发明基于元数据的空间分析自动计算方法的服务元数据结构图。
具体实施方式
下面将结合本发明的实施例图中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
实施例:如图1所示,该基于元数据的空间分析自动计算方法,具体包括以下步骤:
S1:构建要素及分析元数据库;
所述步骤S1中的要素及分析元数据库包括要素元数据和服务元数据,所述要素元数据包括存储地址、采集时间、区域名称、数据地理空间范围、地理空间参考信息、数据来源、字段说明和地理空间数据类别;所述服务元数据包括服务地址、参数个数、参数名、参数类型、参数说明、输出类型、功能描述和服务类别;所述步骤S1具体步骤为:
S11:根据要素数据元数据结构记录各个要素数据的元数据,并存储于数据库中;
S12:根据服务元数据结构记录各个分析服务的元数据,并存储于数据库中;
元数据(Metadata)是描述数据的数据,是对数据进行描述、解释、定位并使其更方便检索、使用或管理的数据。元数据是数据的共享、交换、分析和使用的基础;本技术方案中,对系统中的要素以及分析功能设计相应的元数据存储结构;
如图2所示,所述要素元数据中的所述存储地址中记录了要素在数据库中的存储位置,根据该地址可以获取到数据内容;所述采集时间用于记录数据获取的时间;所述区域名称为数据所在区域的名称;所述数据地理空间范围用于记录要素覆盖区域的经度方向和纬度方向的最大最小值;所述地理空间参考信息用于标识数据的坐标系参考;所述数据来源记录数据提供方信息;所述字段说明用于记录数据中各个字段名称以及相应的说明信息;所述地理空间数据类别用于表示在数据所属的类别;所述地理空间数据类别分为基础时空数据、公共专题数据、空间规划数据、物联网数据和互联网数据五个大类,每个大类中又分为若干个子类,每个类别有相应的类别标识码,根据类别标识码去检索数据可以缩小数据的检索范围;
如图3所示,所述服务元数据用于记录调用该服务时所需要的信息,其中所述服务地址用于记录调用的访问地址;所述参数个数用于记录调用该功能服务所传参数的数量;所述参数名用于记录调用该功能服务传参数的名称;所述参数类型用于记录服务调用中各个参数的类型;所述参数说明描述了该参数代表的含义;所述输出类型用于记录服务分析输出结果的类型;所述功能描述,用于对服务功能的简要介绍;所述服务类别用于记录该服务的类别标识码;所述服务类别是对空间分析功能的类别划分,分为空间几何分析和空间统计分析两大类,其中所述空间几何分析包括:相交分析、路径分析、量算分析、邻域分析,所述空间统计分析包括平均值计算、最大值计算、最小值计算、标准差计算、空间插值;
为了实现数据查询的自动匹配,根据要素元数据的结构对要素作形式化描述,将其抽象为一个六元组D={T,C,A,P,E,F},其中:T表示数据采集时间;C表示地理空间数据类别;A表示数据所在区域名称;P表示数据的地理空间参考信息;E表示数据地理空间范围;F={F1,F2,...,Fm}表示数据的字段说明,其中Fi都是形如Fi(xi)的变量,xi是数据的字段名,Fi是数据的字段说明;为了实现分析服务的自动匹配,根据服务元数据结构对服务作形式化描述,将其抽象为一个五元组S={N,C,D,I,O},其中:N表示服务的服务名称;C表示服务的类别,是对服务功能的类别标识;D表示服务的描述信息,是对服务功能的文本描述;I={I1,I2,...,Im}表示服务的输入集合,其中Ii都是形如Ii(xi)的变量,xi是服务的输入参数,Ii是服务的输入参数类型;O={O1,O2,...,Om}表示服务的输出集合,其中Oi都是形如Oi(yi)的变量,yi是服务的输出参数,Oi是服务的输出参数类型;
S2:根据行政区划名称、基础要素名称以及分析功能构建词典库;
S3:输入查询文本,对查询文本进行分词提取和分词解析,将一连串的字符根据规律分解成一个个独立的、可识别的字符,获得多个关键词的分词结果;所述步骤S3中的所述查询文本的内容包括区域、时间、要素和分析方法,采用词典分词方法对查询文本进行提取,然后基于该词典库进行分词解析,获得多个关键词的分词结果;对输入的查询文本进行分词提取的结果分为两类,一类是区域、时间、要素,这三项用于匹配要素数据,另一类是分析方法,用于匹配分析功能;分词的目的是通过区域以及要素准确定位到所需要的数据信息,通过分析相关的关键词查询到所需要的分析功能,为空间分析的自动计算提供必要的数据信息以及分析功能信息。由于中文是由一个个汉字组成,不同于英文,没有便于切分汉字之间的分隔符。目前常用的分词方法是词典分词和机器学习分词。词典分词可控性好、分词速度快,但是对未登录词语无法正确切分。机器学习模型CRF(conditional randomfield)能够很好地解决未登录词问题,但训练CRF需要人工设计很多特征,且需要花费很多时间来验证特征的有效性。基于深度学习的自然语言处理算法逐渐兴起之后,在序列标注任务上使得模型能够自动的抽取特征成为可能,大大减少了人工设计特征的工作量。虽然基于模型的分词能够很好的解决未登录词的问题,但是其可控性没有词典分词好,对于一个未解决的新词模型,词典分词可以快速的人工添加新词到词典解决问题;而对于模型而言可能就需要添加很多相关训练语料,这些训练语料往往是比较难获取或者获取成本很大。考虑到文本内容主要涉及区域、时间、要素、分析方法三个部分,其所包含的内容均比较固定,较少出现改动,因此采用词典分词方法;根据对目标区域内的行政区划名称、基础要素名称、时间以及分析方法构建词典库,然后基于该词典库进行分词解析。对输入文本的分词提取结果可分为两类,一类是区域、时间、要素,这三项主要用来匹配要素数据,另一类是分析方法,这一类主要是用来匹配分析功能;
S4:基于其中一个分词结果进行逐级匹配,获得匹配后的该分词结果的服务,记为FS;
首先对分析服务进行匹配,采用分级匹配的方式对平台中的分析服务进行逐级匹配;在服务元数据中,用于参加文本匹配的有服务类别信息、服务名称以及功能描述,其中将服务类别信息记为ST,将服务名称记为SN,将服务功能描述记为SF,分词所得的分析相关文本记为QT,服务分级匹配即将QT逐级与ST,SN,SF进行匹配,假设分析服务分类一共有N级,匹配的具体过程为:
S41:取一级分类中各服务类别的描述文本,记为集合ST1;
S42:分别计算QT与集合ST1中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT1
S43:取类别MaxT1下的二级分类中各服务类别的描述文本,记为集合ST2;
S44:分别计算QT与集合ST2中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT2
S45:重复步骤S43~S44,直到当前级别为N-1级,将该级别中文本相似度最大的类别记为MaxTN-1
S46:对类别MaxTN-1中的各个服务的服务名称SN和功能描述SF分别与QT计算文本相似度,根据公式SIM=Wsn*SIMsn+Wsf*SIMsf进行综合加权求和,其中Wsn是SN与QT文本相似度的权重值,Wsf是SF与QT文本相似度的权重值,并且Wsn+Wsf=1;将综合文本相似度最大的服务作为最终选定的服务;
所述步骤S42和步骤S44中的文本相似度的计算采用向量夹角余弦进行计算,公式为:
Figure GDA0003344715340000101
其中,a,b分别为代表两个待匹配文本的向量,n为向量的维度,xi,yi为a,b向量中的分量,i表示向量中的第i个分量;
S5:基于剩余的分词结果以及服务匹配得到要素数据,记为FD;
所述步骤S5中的具体步骤为:
S51:在数据匹配中确定区域和时间后,将区域和时间作为筛选条件,基于要素元数据从数据库中筛选出符合条件的数据集合作为待匹配数据集,记为TD;
S52:组合P向量和Q向量,Q=(要素信息,参数类型,参数说明),P=(要素说明,字段类型,字段含义);计算Q向量与TD中每个要素对应的P向量的余弦夹角,采用向量夹角余弦法计算P与Q之间的相似度,取最大的相似度数值对应的要素数据作为匹配结果,记为FD;
S6:结合FS与FD进行分析计算,即将选中的要素数据的相应字段值作为分析功能的输入参数进行计算,取得最终的计算结果,并输出计算结果。
采用上述方法,以“江苏省2020年河流长度”为例,说明该方法的实施过程。主要分为以下几个步骤:
S1:构建要素及分析元数据库;
S11:根据要素数据元数据结构记录各个要素数据的元数据,并存储于数据库中;
S12:根据服务元数据结构记录各个分析服务的元数据,并存储于数据库中;
S2:对江苏省内的行政区划名称、基础要素名称以及分析功能构建词典库;
S3:对查询文本进行分词提取,得到“江苏省”“2020年”“河流”“长度”等结果;
S4:基于分词结果“长度”进行逐级匹配,最终匹配得到长度计算的服务,记为FS;该步骤中,文本相似度的计算采用向量夹角余弦进行计算,公式如下:
Figure GDA0003344715340000111
其中,a,b分别为代表两个待匹配文本的向量,n为向量的维度,xi,yi为a,b向量中的分量,i表示向量中的第i个分量。
S41:将“长度”(以下记为QT)与功能分类中一级分类的各类别描述文本进行语义相似度计算,根据相似度的最大值定位到“空间分析”类别中,记为MaxT1;
S42:将QT与MaxT1类别下各子类中的描述文本进行语义相似度计算,根据相似度的最大值定位到“量算分析”类别中,记为MaxT2
S43:将MaxT2中各子类服务的服务名称(SN)和功能描述(SF)分别与QT计算文本相似度,根据公式SIM=Wsn*SIMsn+Wsf*SIMsf进行加权求和,选取最大数值对应的服务,即“长度计算”,记为最终选定的空间分析功能,记为SA。
S5:基于“江苏省”“2020年”“河流”以及服务S匹配得到要素数据,记为FD;
S51:根据区域、时间信息作为过滤条件在数据库筛选待匹配数据集,记为TD;
S52:组合P、Q向量,Q=(要素信息,参数类型,参数说明),P=(要素说明,字段类型,字段含义),计算Q与TD中每个要素对应的P向量的余弦夹角,基于该值选取最大相似度对应的数据,记为FD;
S6:结合FS与FD计算河流长度,并输出计算结果。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于元数据的空间分析自动计算方法,其特征在于,具体包括以下步骤:
S1:构建要素及分析元数据库;
S2:根据行政区划名称、基础要素名称以及分析功能构建词典库;
S3:输入查询文本,对查询文本进行分词提取和分词解析,将一连串的字符根据规律分解成一个个独立的、可识别的字符,获得多个关键词的分词结果;
S4:基于其中一个分词结果进行逐级匹配,获得匹配后的该分词结果的服务,记为FS;
S5:基于剩余的分词结果以及服务匹配得到要素数据,记为FD;
S6:结合FS与FD进行分析计算,即将选中的要素数据的相应字段值作为分析功能的输入参数进行计算,取得最终的计算结果,并输出计算结果;
所述步骤S1中的要素及分析元数据库包括要素元数据和服务元数据,所述要素元数据包括存储地址、采集时间、区域名称、数据地理空间范围、地理空间参考信息、数据来源、字段说明和地理空间数据类别;所述服务元数据包括服务地址、参数个数、参数名、参数类型、参数说明、输出类型、功能描述和服务类别;
所述步骤S1具体步骤为:
S11:根据要素数据元数据结构记录各个要素数据的元数据,并存储于数据库中;
S12:根据服务元数据结构记录各个分析服务的元数据,并存储于数据库中;
所述步骤S3中的所述查询文本的内容包括区域、时间、要素和分析方法,采用词典分词方法对查询文本进行提取,然后基于该词典库进行分词解析,获得多个关键词的分词结果;对输入的查询文本进行分词提取的结果分为两类,一类是区域、时间、要素,这三项用于匹配要素数据,另一类是分析方法,用于匹配分析功能。
2.根据权利要求1所述的基于元数据的空间分析自动计算方法,其特征在于,所述步骤S4的具体步骤为:首先对分析服务进行匹配,采用分级匹配的方式对平台中的分析服务进行逐级匹配;在服务元数据中,用于参加文本匹配的有服务类别信息、服务名称以及功能描述,其中将服务类别信息记为ST,将服务名称记为SN,将服务功能描述记为SF,分词所得的分析相关文本记为QT,服务分级匹配即将QT逐级与ST,SN,SF进行匹配,假设分析服务分类一共有N级,匹配的具体过程为:
S41:取一级分类中各服务类别的描述文本,记为集合ST1;
S42:分别计算QT与集合ST1中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT1
S43:取类别MaxT1下的二级分类中各服务类别的描述文本,记为集合ST2;
S44:分别计算QT与集合ST2中各元素的文本相似度,记录所得文本相似度中最大值对应的类别MaxT2
S45:重复步骤S43~S44,直到当前级别为N-1级,将该级别中文本相似度最大的类别记为MaxTN-1
S46:对类别MaxTN-1中的各个服务的服务名称SN和功能描述SF分别与QT计算文本相似度,根据公式SIM=Wsn*SIMsn+Wsf*SIMsf进行综合加权求和,其中Wsn是SN与QT文本相似度的权重值,Wsf是SF与QT文本相似度的权重值,并且Wsn+Wsf=1;将综合文本相似度最大的服务作为最终选定的服务。
3.根据权利要求2所述的基于元数据的空间分析自动计算方法,其特征在于,所述步骤S42和步骤S44中的文本相似度的计算采用向量夹角余弦进行计算,公式为:
Figure FDA0003344715330000021
其中,a,b分别为代表两个待匹配文本的向量,n为向量的维度,xi,yi为a,b向量中的分量,i表示向量中的第i个分量。
4.根据权利要求2所述的基于元数据的空间分析自动计算方法,其特征在于,所述步骤S5中的具体步骤为:
S51:在数据匹配中确定区域和时间后,将区域和时间作为筛选条件,基于要素元数据从数据库中筛选出符合条件的数据集合作为待匹配数据集,记为TD;
S52:组合P向量和Q向量,Q=(要素信息,参数类型,参数说明),P=(要素说明,字段类型,字段含义);计算Q向量与TD中每个要素对应的P向量的余弦夹角,采用向量夹角余弦法计算P与Q之间的相似度,取最大的相似度数值对应的要素数据作为匹配结果,记为FD。
5.根据权利要求4所述的基于元数据的空间分析自动计算方法,其特征在于,所述要素元数据中的所述存储地址中记录了要素在数据库中的存储位置,根据该地址可以获取到数据内容;所述采集时间用于记录数据获取的时间;所述区域名称为数据所在区域的名称;所述数据地理空间范围用于记录要素覆盖区域的经度方向和纬度方向的最大最小值;所述地理空间参考信息用于标识数据的坐标系参考;所述数据来源记录数据提供方信息;所述字段说明用于记录数据中各个字段名称以及相应的说明信息;所述地理空间数据类别用于表示在数据所属的类别;所述地理空间数据类别分为基础时空数据、公共专题数据、空间规划数据、物联网数据和互联网数据五个大类,每个大类中又分为若干个子类,每个类别有相应的类别标识码,根据类别标识码去检索数据可以缩小数据的检索范围。
6.根据权利要求5所述的基于元数据的空间分析自动计算方法,其特征在于,所述服务元数据用于记录调用该服务时所需要的信息,其中所述服务地址用于记录调用的访问地址;所述参数个数用于记录调用该功能服务所传参数的数量;所述参数名用于记录调用该功能服务传参数的名称;所述参数类型用于记录服务调用中各个参数的类型;所述参数说明描述了该参数代表的含义;所述输出类型用于记录服务分析输出结果的类型;所述功能描述,用于对服务功能的简要介绍;所述服务类别用于记录该服务的类别标识码;所述服务类别是对空间分析功能的类别划分,分为空间几何分析和空间统计分析两大类,其中所述空间几何分析包括:相交分析、路径分析、量算分析、邻域分析,所述空间统计分析包括平均值计算、最大值计算、最小值计算、标准差计算、空间插值。
7.根据权利要求5所述的基于元数据的空间分析自动计算方法,其特征在于,为了实现数据查询的自动匹配,根据要素元数据的结构对要素作形式化描述,将其抽象为一个六元组D={T,C,A,P,E,F},其中:T表示数据采集时间;C表示地理空间数据类别;A表示数据所在区域名称;P表示数据的地理空间参考信息;E表示数据地理空间范围;F={F1,F2,...,Fm}表示数据的字段说明,其中Fi都是形如Fi(xi)的变量,xi是数据的字段名,Fi是数据的字段说明。
8.根据权利要求5所述的基于元数据的空间分析自动计算方法,其特征在于,为了实现分析服务的自动匹配,根据服务元数据结构对服务作形式化描述,将其抽象为一个五元组S={N,C,D,I,O},其中:N表示服务的服务名称;C表示服务的类别,是对服务功能的类别标识;D表示服务的描述信息,是对服务功能的文本描述;I={I1,I2,...,Im}表示服务的输入集合,其中Ii都是形如Ii(xi)的变量,xi是服务的输入参数,Ii是服务的输入参数类型;O={O1,O2,...,Om}表示服务的输出集合,其中Oi都是形如Oi(yi)的变量,yi是服务的输出参数,Oi是服务的输出参数类型。
CN202111067082.8A 2021-09-13 2021-09-13 一种基于元数据的空间分析自动计算方法 Active CN113515600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067082.8A CN113515600B (zh) 2021-09-13 2021-09-13 一种基于元数据的空间分析自动计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067082.8A CN113515600B (zh) 2021-09-13 2021-09-13 一种基于元数据的空间分析自动计算方法

Publications (2)

Publication Number Publication Date
CN113515600A CN113515600A (zh) 2021-10-19
CN113515600B true CN113515600B (zh) 2021-12-31

Family

ID=78063289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067082.8A Active CN113515600B (zh) 2021-09-13 2021-09-13 一种基于元数据的空间分析自动计算方法

Country Status (1)

Country Link
CN (1) CN113515600B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003956B (zh) * 2021-11-03 2022-10-25 江苏天汇空间信息研究院有限公司 应用大数据分析的空间数据分析调度系统及方法
CN115577060B (zh) * 2022-09-27 2023-05-16 清华大学 一种基于das的高效字段计算表达方法、装置、介质及产品
CN115880120B (zh) * 2023-02-24 2023-05-16 江西微博科技有限公司 一种在线政务服务系统及服务方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997785B2 (en) * 2019-09-26 2021-05-04 Vgis Inc. System and method for collecting geospatial object data with mediated reality
CN113032372B (zh) * 2021-05-24 2021-09-28 南京北斗创新应用科技研究院有限公司 一种基于ClickHouse数据库的空间大数据管理方法

Also Published As

Publication number Publication date
CN113515600A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN113515600B (zh) 一种基于元数据的空间分析自动计算方法
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN108027814B (zh) 停用词识别方法与装置
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN110008474B (zh) 一种关键短语确定方法、装置、设备及存储介质
CN112199512B (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质
CN107193915A (zh) 一种企业信息分类方法及装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN111078835A (zh) 简历评估方法、装置、计算机设备及存储介质
CN109285024B (zh) 在线特征确定方法、装置、电子设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN117151429B (zh) 一种基于知识图谱的政务服务流程编排方法及装置
CN118227106A (zh) 代码补全方法、装置、电子设备和介质
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116776881A (zh) 一种基于主动学习的领域实体识别系统及识别方法
CN115859932A (zh) 一种日志模板提取方法、装置、电子设备及存储介质
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
CN114547231A (zh) 一种数据溯源的方法和系统
CN110930189A (zh) 基于用户行为的个性化营销方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Patentee after: Speed Technology Co.,Ltd.

Address before: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Patentee before: SPEED TIME AND SPACE INFORMATION TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder