CN111680122B - 空间数据主动推荐方法、装置、存储介质及计算机设备 - Google Patents

空间数据主动推荐方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN111680122B
CN111680122B CN202010418623.6A CN202010418623A CN111680122B CN 111680122 B CN111680122 B CN 111680122B CN 202010418623 A CN202010418623 A CN 202010418623A CN 111680122 B CN111680122 B CN 111680122B
Authority
CN
China
Prior art keywords
spatial data
information
literature
spatial
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010418623.6A
Other languages
English (en)
Other versions
CN111680122A (zh
Inventor
刘万增
翟曦
尹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL GEOMATICS CENTER OF CHINA
Beijing University of Civil Engineering and Architecture
Original Assignee
NATIONAL GEOMATICS CENTER OF CHINA
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL GEOMATICS CENTER OF CHINA, Beijing University of Civil Engineering and Architecture filed Critical NATIONAL GEOMATICS CENTER OF CHINA
Priority to CN202010418623.6A priority Critical patent/CN111680122B/zh
Publication of CN111680122A publication Critical patent/CN111680122A/zh
Application granted granted Critical
Publication of CN111680122B publication Critical patent/CN111680122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种空间数据主动推荐方法、装置、存储介质及计算机设备,涉及空间数据技术领域,主要目的在于能够通过对文献信息进行空间数据特征提取,并建立所述空间数据与所述文献信息之间的关联关系,通过预设的空间数据推荐插件将所述空间数据在文献信息展示页面进行显示,从而使科研工作者在检索文献信息的过程中可以快速获取相关的空间数据,提高科研工作效率,节约时间以及人力资源。所述方法包括:根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。本发明适用于空间数据的主动推荐。

Description

空间数据主动推荐方法、装置、存储介质及计算机设备
技术领域
本发明涉及空间数据技术领域,特别是涉及一种空间数据主动推荐方法、装置、存储介质及计算机设备。
背景技术
随着科学技术快速发展及矢量地图、航空影像、卫星遥感影像等空间大数据的到来,空间数据越来越多应用于农业评估、生态保护和国防建设等重要科研领域,在整个科研过程中起到越来越重要的作用。对于科研人员来讲,传统的科技文献、专著等学术资源已经无法满足日常的科研需求,空间数据资源正在逐渐成为他们需求的重点。目前,互联网知识服务平台仍旧以提供传统科技文献方式为主,科研工作者需要自己分析文献中相关的特征信息,再使用这些信息在互联网上进行数据查询、检索、申请、下载等操作,并且往往会出现“查不到”、“查不准”、“查不全”等情况,浪费大量的时间和人力资源,降低了科研工作的效率。
发明内容
有鉴于此,本发明提供一种空间数据主动推荐方法、装置、存储介质及计算机设备,主要目的在于能够通过对文献信息进行空间数据特征提取,并建立所述空间数据与所述文献信息之间的关联关系,通过预设空间数据推荐插件将所述空间数据在文献信息展示页面进行显示,从而使科研工作者在检索文献信息过程中可以快速获取相关的空间数据,提高科研工作效率,节约时间以及人力资源。
依据本发明一个方面,提供了一种空间数据主动推荐的方法,包括:
根据读取的文献信息提取空间数据;
建立所述空间数据与所述文献信息之间的的映射关系;
通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
可选地,所述空间数据包括研究区数据和空间数据类型,所述根据读取的文献信息提取空间数据,包括:
在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据;
根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型。
进一步地,所述在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据,包括:
利用HanLP自然语言处理包对所述文献信息中的地名信息进行分词和标注处理;
根据所述处理后的地名信息,以及预先创建的地名信息数据库进行匹配,得到所述地名信息归属的行政区划信息以及对应的地理坐标信息;
根据所述行政区划信息,消除所述地名信息中存在的geo/non-geo歧义和/或geo/geo歧义。
可选地,所述方法还包括:
根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及关联规则挖掘算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
可选地,所述建立所述空间数据与所述文献信息之间的的映射关系,包括:
根据所述空间数据以及所述文献信息建立空间数据库,所述空间数据库保存有所述空间数据与所述文献信息之间的映射关系。
可选地,所述通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面,包括:
基于webGIS在所述页面中以地图为底图对所述空间数据进行可视化展示。
可选地,所述方法还包括:
根据获取的样本文献信息、所述样本文献信息对应的空间数据标注集以及预设的条件随机场模型进行训练,以确定所述空间数据识别模型。
依据本发明第二方面,提供了一种空间数据主动推荐装置,包括:
读取单元,用于根据读取的文献信息提取空间数据;
建立单元,用于建立所述空间数据与所述文献信息之间的的映射关系;
嵌入单元,用于通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
可选地,所述读取单元包括:
提取模块,用于在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据;
识别模块,用于根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型。
进一步地,所述提取模块具体用于利用HanLP自然语言处理包对所述文献信息中的地名信息进行分词和标注处理;根据所述处理后的地名信息,以及预先创建的地名信息数据库进行匹配,得到所述地名信息归属的行政区划信息以及对应的地理坐标信息;根据所述行政区划信息,消除所述地名信息中存在的geo/non-geo歧义和/或geo/geo歧义。
可选地,所述装置还包括:
修正单元,用于根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及关联规则挖掘算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
可选地,所述建立单元具体用于根据所述空间数据以及所述文献信息建立空间数据库,所述空间数据库保存有所述空间数据与所述文献信息之间的映射关系。
可选地,所述嵌入单元具体用于基于webGIS在所述页面中以地图为底图对所述空间数据进行可视化展示。
可选地,所述装置还包括:
训练单元,用于根据获取的样本文献信息、所述样本文献信息对应的空间数据标注集以及预设的条件随机场模型进行训练,以确定所述空间数据识别模型。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
依据本发明第四方面,提供了一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下步骤:根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
本发明提供一种空间数据主动推荐方法、装置、存储介质及计算机设备,与现有技术提供传统科技文献方式为主,科研工作者需要自己分析文献中相关的特征信息,再使用这些信息在互联网上进行数据查询、检索、申请、下载等操作相比,本发明能够通过根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。从而使科研工作者在检索文献过程中可以快速获取相关的空间数据,提高科研工作效率,节约时间以及人力资源。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种空间数据主动推荐方法流程图;
图2示出了本发明实施例提供的一种文献信息与空间数据关联的技术路线图;
图3示出了本发明实施例提供的一种研究区数据提取方法的技术路线图;
图4示出了本发明实施例提供的一种空间数据推荐插件的接入处理流程图;
图5示出了本发明实施例提供的一种空间数据嵌入文献信息展示页面的示意图;
图6示出了本发明实施例提供的另一种空间数据主动嵌入文献信息展示页面的示意图;
图7示出了本发明实施例提供的一种链式序列的条件随机场模型结构图;
图8示出了本发明实施例提供的一种基于条件随机场和空间数据命名实体识别流程图;
图9示出了本发明实施例提供的一种空间数据主动推荐装置结构示意图;
图10示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,互联网知识服务平台仍旧以提供传统科技文献方式为主,科研工作者需要自己分析文献中相关的特征信息,再使用这些信息在互联网上进行数据查询、检索、申请、下载等操作,并且往往会出现“查不到”、“查不准”、“查不全”等情况,浪费大量的时间和人力资源,降低了科研工作的效率。
为了解决上述问题,本发明实施例提供了一种空间数据主动推荐方法,如图1所示,所述方法包括:
101、根据读取的文献信息提取空间数据。
其中,所述文献信息具体可以包括能抽取出研究区、空间数据类型的所有文献文本,具体如期刊论文、会议论文、专利、报告等。具体地,对所述读取的文献文本进行解析,并从解析得到的文献信息中提取出空间数据。所述空间数据具体可以包括水准点、矢量地图数据等。
102、建立所述空间数据与所述文献信息之间的的映射关系。
具体地,根据读取的文献信息提取空间数据,所述空间数据中携带有与文献信息对应的标识信息,可以根据所述标识信息建立所述空间数据与所述文献信息之间的映射关系,所述文献信息、空间数据以及所述空间数据与所述文献信息之间的映射关系可以保存在本地指定的数据结构中,以便于快速进行空间数据的查找和提取,进而提高科研工作效率。
103、通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
其中,所述预设的空间数据推荐插件可以用于将所述空间数据嵌入对应的文献信息,当科研工作人员检索文献信息时,自动调用所述插件,将所述文献信息对应的空间数据嵌入文献信息的展示页面。在现有技术中,由于文献信息没有与其关联的空间数据进行关联,导致科研工作者在线查询、检索文献信息的过程中无法快速获取相关的空间数据,其根本原因是文献信息与空间数据之间存在数据孤岛问题,因此,本发明实施例中通过预设空间数据推荐插件,将所述空间数据嵌入对应的文献信息展示页面,可以将文献信息与空间数据之间建立联系,共同为科研工作提供参考依据,提供高质量的集成信息服务,以便于科技工作者快速获取空间数据,提高科研工作的效率。
进一步的,为了更好的说明上述空间数据主动推荐方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
在本发明的一个可选实施例,所述步骤101具体可以包括:在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据;根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型。
对于本发明实施例,所述在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据;根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型的技术路线可以如图2所示。所述在读取的文献信息中提取研究区数据的具体过程可以包括地理命名实体识别,即在地理信息相关专业文献中识别地名信息,并将所述地名信息转化为结构化空间数据,所述结构化空间数据可以为结构化GIS数据。具体地,通过在自然语言处理(Natural Language Processing,NLP)的基础上,借助构建的地名本体,通过地理解析和地理编码,将中国县级以上行政区划地名从文献中标识出来,并映射到地球表面能够使用多边形等几何类型表达的某处空间,从而给所述地名分配地理坐标及地理语义。所述地理命名实体识别具体可以包括自然语言处理、地名本体关系库生成、地理解析、地名消歧和地理实体识别等过程,其技术路线可以如图3所示。
需要说明的是,对地理信息相关专业文献摘要,首先进行中文分词等自然语言处理,随后借助地名本体关系库完成地理解析,最后根据地名本体和歧义消除算法,完成地理编码,其中地理解析和地理编码是整个过程中最重要的两个步骤。具体地,所述地理解析可以为在自然语言处理的基础上,从文献摘要中识别地名的过程;所述地理编码可以为通过地名与地理位置之间的映射,为识别出来的地名指定地理坐标的过程。所述地理命名实体识别可以利用HanLP自然语言处理包提供的各种资源及自然语言处理方法,包含语料收集、中文分词、语义标注等。具体实现过程可以包括:
1)自然语言处理
所述自然语言处理的主要任务是对输入的文献中摘要文本进行预处理,包括中文分词、中文词性标注和中文断句。中文文本使用的语言是汉语,汉语在形式上与英语的最大区别在于构成句子的词之间没有明确的分隔符,句子之间由标点符号分隔,一个句子就是一个连续的汉字字符串。因此分词是地理命名实体识别的起点和基础。可以利用HanLP来完成中文分词,同时完成词性的标注。
2)地名本体关系库生成
地名本体关系库可以包括地名领域知识库。具体地,中国县级以上行政区划(包括县级)分为省级、地级和县级三大类。其中,省级行政区划分为:省、直辖市、自治区和特别行政区。地级行政区划分为:自治州、地区、盟和地级市。县级行政区划分为:县级市、县、自治县、旗、自治旗、特区、林区和市辖区。地名本体关系库可以以此为基础构成中国行政区划地名领域知识库,所述地名本体关系库可以为中文地名识别与歧义消除两个步骤的知识来源。
3)地理编码
所述地理编码过程可以通过自然语言处理是文献摘要进行分词和词性标注,通过对词性标注进行地名识别,对获取的地名结合地名本体关系库进行匹配,获取到每一个地名的行政区划归属。
4)地名消歧
中文地名广泛存在着两种类型的歧义:geo/non-geo歧义和geo/geo歧义。当一个地名有非地理含义的时候,就产生了geo/non-geo歧义。通俗地说,geo/non-geo歧义是由于地名与普通名词相同引起的。geo/geo歧义主要是由多个地理位置使用同一个地名,即同名异地产生的。对于同一地名可能有多个行政区划归属,按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其它高层级的行政区划归属进行消歧。
对于本发明实施例,所述根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型具体可以包括空间数据命名实体识别,即在地理信息相关专业文献中找到遥感影像、地形图、矢量图等特定类型的名称。其中,所述空间数据命名实体识别的主要技术方法可以分为:基于规则和词典的方法、基于统计的方法以及二者混合的方法等。所述预先训练的空间数据识别模型可以基于机器学习模型,具体可以包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。其中条件随机场是一种优秀的统计机器学习方法,它在序列标注和分割方面有着出色的表现,条件随机场方法已经被应用于自然语言处理的各个领域,如:分词、词性标注、命名实体识别。本发明实施例以条件随机场方法为例,具体地,所述条件随机场(CRF)是给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布。如图7所示,条件随机场是对于给定的输入序列X,通过事先统计得到的模型参数,预测指定的输出随机变量组合Y的条件概率无向图模型,且这些输出随机变量之间通过指示依赖关系的无向边所连接。根据预设的条件随机场模型以及训练语料进行训练得到空间数据推荐模型,输入标注后的测试语料可以获得空间数据类型。
另外,由于基于统计的方法对语料库的依赖比较大,而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。自然语言处理并不完全是一个随机过程,单独使用基于统计的方法进行空间数据命名实体识别会使状态搜索空间非常庞大,难以达到理想的识别准确率和召回率,因此,可通过预设算法进行二次识别,以对错误识别结果进行修正,以提高空间数据命名实体识别召回率。
在本发明的另一个可选实施例,为了得到准确性更高的空间数据类型结果,所述方法还包括:根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及关联规则挖掘算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
其中,所述关联规则挖掘算法具体可以采用Apriori算法。由于仅使用CRF模型并不能完全准确识别出所有的空间数据命名实体,原因是由于数据稀疏或者特征不明显,例如,文献信息中出现的“航片数据”就无法被识别,其实它是“航空影像地图”的指代缩写,但由于训练中并没有出现这样的情况,所以在测试中“航片数据”并未被当成“航空影像”进行识别,此时可以通过对未识别样本进行二次识别,来提高空间数据类型的识别效果。针对以上的未识别情况,通过预设算法对空间数据命名实体识别结果修正。具体过程可以包括:首先构造空间数据命名简称字典,比如“正射”、“航片”、“高程”等,以及前后搭配词(ConjWord),比如“基于”、“使用”、“的”等。然后定义候选带召回含空间数据命名实体的字串:WfSLOCWh,其中SLOC=S1S2…Sn表示候选地名,Si表示候选空间数据命名实体中的单词,Wh表示空间数据命名实体的后搭配词,Wh表示地名的后搭配词,首先从需要进行修正的句子中找到上述样式的标记(token),然后利用如下算法判断SLOC:
其中,空间数据命名实体缩写(SingleLoc)、空间数据命名实体后缀(LOC-E)、∈表示“属于”,&&表示“和”。当判断为真时,则可以判定所述单词为地理命名。例如,上述的“基于”和“的”分别是航片数据的前后搭配词,而“航片”是“航空影像”的缩写,“数据”是实体后缀,然后通过前后搭配词确定空间数据命名实体的边界,最后识别“航片数据”为“航空影像”空间数据命名实体。
在本发明的又一个可选实施例,所述步骤102具体可以包括:根据所述空间数据以及所述文献信息建立空间数据库,所述空间数据库保存有所述空间数据与所述文献信息之间的映射关系。
对于本发明实施例,可以根据所述空间数据以及所述文献信息在本地建立空间数据库,所述空间数据库可以用于保存所述空间数据、所述文献信息以及所述空间数据与文献信息之间的映射关系。所述空间数据可以通过携带的标识信息与所述文献建立关联路径,通过所述标识信息可以快速根据文献信息匹配对应的空间数据,从而提高科研工作人员的工作效率。
在本发明的再一个可选实施例,所述步骤103具体可以包括:基于网络地理信息技术在所述页面中以地图为底图对所述空间数据进行可视化展示。
其中,所述网络地理信息技术具体可以为webGIS技术。对于本发明实施例,在文献信息的展示页面中嵌入基于webGIS技术开发的空间数据推荐插件。具体地,可以提供文献类通用详情页展示模板,供其它系统调用展示,通用详情展示模板接收传入的摘要信息,通过数据标准化、空间信息抽取、空间化处理,提取出摘要信息中包含的研究区、测绘成果目录类型,利用通用详情展示模板进行知识的空间化展示和测绘成果目录的关联展示,并提供测绘成果目录的下载链接。具体处理流程可以包括接入参数、数据标准化、空间信息抽取模型、空间化处理以及数据应用,如图4所示。所述基于webGIS在所述页面中以地图为底图对所述空间数据进行可视化展示的具体应用展示可以如图5和图6所示。
在具体应用场景中,其它系统可以通过URL传参,请求展示页面,通过后端系列算法,返回通用详情展示页,并可以通过IFrame方式将所述返回页面嵌入自身系统中。具体的接入参数可以包括文章标题(title)、文章摘要(abstracts)、出版单位(company)以及相关作者(author)等。
在本发明的再一个可选实施例,为了获取空间数据识别模型,以便于对空间数据进行识别,所述方法还包括:根据获取的样本文献信息、所述样本文献信息对应的空间数据标注集以及预设的条件随机场模型进行训练,以确定所述空间数据识别模型。所述空间数据识别模型的训练过程可以包括:1)首先从1995年~2017年地图学与地理信息系统学科期刊文献摘要中随机选择50000句训练语句和1000句不重叠测试语料;将训练语料进行标注转换后,利用CRF模型对转换后的语料进行训练,生成模型参数;2)利用开源HanLP分词软件对测试语料进行分词和词性标注,并利用上一步得到的CRF模型进行地理命名实体的识别,将词形和词性标注序列转换为本文定义的标注集序列。具体如图8所示。
在具体应用场景中,为了训练空间数据标注集,还可以构建空间数据命名词典以及定义条件随机场模型训练所需的标准集。所述空间数据命名词典可以更加充分的使用现有的资源为空间数据命名实体识别服务。构建词典的数据源主要基于《测绘科学叙词表》和《地理科学叙词表》获得。两本叙词表共包含有约300个空间数据命名实体,其中每个空间数据命名实体都与很多同义词关联。可以使用word2vec工具对300万篇文献摘要进行词向量计算,获得每个命名实体的同义词。最终空间数据命名词典共包含有2500个数据类型项。另外,定义条件随机场模型的训练所需要的标准集,可以用于实现与全国地理信息资源目录服务系统关联,标注类型与目录服务系统数据类型相同,共包括遥感影像、模拟地形图、数字正射影像等10类,具体如下表所示:
标注 含义
S 水准点
J 三角点
N GNSS
L 矢量地图数据
G 数字高程模型
F 分幅正射影像
H 航空影像
W 卫星影像
D 数字栅格地图
X 模拟地形图
需要说明的是,本发明实施例中的空间数据不仅限于上表中的10类数据,只要推荐的数据具有空间属性,能够在地图进行可视化展示即可。
本发明提供一种空间数据主动推荐方法,与现有技术提供传统科技文献方式为主,科研工作者需要自己分析文献中相关的特征信息,再使用这些信息在互联网上进行数据查询、检索、申请、下载等操作相比,本发明能够通过根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。从而使科研工作者在检索文献过程中可以快速获取相关的空间数据,提高科研工作效率,节约时间以及人力资源。
进一步地,作为图1的具体实现,本发明实施例提供了一种空间数据主动推荐装置,如图9所示,所述装置包括:读取单元21、建立单元22和嵌入单元23。
所述读取单元21,可以用于根据读取的文献信息提取空间数据;
所述建立单元22,可以用于建立所述空间数据与所述文献信息之间的的映射关系;
所述嵌入单元23,可以用于通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
所述读取单元21包括:
提取模块211,可以用于在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据;
识别模块212,可以用于根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型。
所述提取模块211具体可以用于利用HanLP自然语言处理包对所述文献信息中的地名信息进行分词和标注处理;根据所述处理后的地名信息,以及预先创建的地名信息数据库进行匹配,得到所述地名信息归属的行政区划信息以及对应的地理坐标信息;根据所述行政区划信息,消除所述地名信息中存在的geo/non-geo歧义和/或geo/geo歧义。
对于本发明实施例,所述装置还包括:
修正单元24,可以用于根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及Apriori算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
所述建立单元22具体可以用于根据所述空间数据以及所述文献信息建立空间数据库,所述空间数据库保存有所述空间数据与所述文献信息之间的映射关系。
所述嵌入单元23具体可以用于基于webGIS在所述页面中以地图为底图对所述空间数据进行可视化展示。
对于本发明实施例,所述装置还可以包括:
训练单元25,可以用于根据获取的样本文献信息、所述样本文献信息对应的空间数据标注集以及预设的条件随机场模型进行训练,以确定所述空间数据识别模型。
需要说明的是,本发明实施例提供的一种空间数据主动推荐装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
基于上述如图1所示方法和如图9所示装置的实施例,本发明实施例还提供了一种计算机设备,如图10所示,处理器(processor)31、通信接口(Communications Interface)32、存储器(memory)33、以及通信总线34。其中:处理器31、通信接口32、以及存储器33通过通信总线34完成相互间的通信。通信接口32,用于与其它设备比如用户端或其它服务器等的网元通信。处理器31,用于执行程序,具体可以执行上述空间数据主动推荐方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器31可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器33,用于存放程序。存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器31执行以下操作:根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。
通过本发明的技术方案,能够根据读取的文献信息提取空间数据;建立所述空间数据与所述文献信息之间的的映射关系;通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面。从而能够使科研工作者在检索文献过程中可以快速获取相关的空间数据,提高科研工作效率,节约时间以及人力资源。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (9)

1.一种空间数据主动推荐方法,其特征在于,包括:
根据读取的文献信息提取空间数据;
建立所述空间数据与所述文献信息之间的的映射关系;
通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面;
所述空间数据包括空间数据类型;所述根据读取的文献信息提取空间数据,包括:
根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型;
所述识别空间数据类型之后,所述方法还包括:
根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及关联规则挖掘算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
2.根据权利要求1所述的方法,其特征在于,所述空间数据还包括研究区数据,所述根据读取的文献信息提取空间数据,还包括:
在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据。
3.根据权利要求2所述的方法,其特征在于,所述在读取的文献信息中提取研究区数据,并将所述研究区数据转化为结构化空间数据,包括:
利用HanLP自然语言处理包对所述文献信息中的地名信息进行分词和标注处理;
根据所述处理后的地名信息,以及预先创建的地名信息数据库进行匹配,得到所述地名信息归属的行政区划信息以及对应的地理坐标信息;
根据所述行政区划信息,消除所述地名信息中存在的geo/non-geo歧义和/或geo/geo歧义。
4.根据权利要求1所述的方法,其特征在于,所述建立所述空间数据与所述文献信息之间的的映射关系,包括:
根据所述空间数据以及所述文献信息建立空间数据库,所述空间数据库保存有所述空间数据与所述文献信息之间的映射关系。
5.根据权利要求1所述的方法,其特征在于,所述通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面,包括:
基于网络地理信息技术在所述页面中以地图为底图对所述空间数据进行可视化展示。
6.根据权利要求1所述的方法,其特征在于,根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型之前,所述方法还包括:
根据获取的样本文献信息、所述样本文献信息对应的空间数据标注集以及预设的条件随机场模型进行训练,以确定所述空间数据识别模型。
7.一种空间数据主动推荐装置,其特征在于,包括:
读取单元,用于根据读取的文献信息提取空间数据;
建立单元,用于建立所述空间数据与所述文献信息之间的的映射关系;
嵌入单元,用于通过预设的空间数据推荐插件将所述空间数据嵌入对应的文献信息展示页面;
所述空间数据包括空间数据类型;所述读取单元包括:
识别模块,用于根据预先训练的空间数据识别模型以及所述文献信息,识别空间数据类型;
所述装置还包括:
修正单元,用于根据预先构造的空间数据简称字典、空间数据类型对应的搭配词信息以及关联规则挖掘算法对所述空间数据类型的识别结果进行统计分析,以得到修正后的空间数据类型。
8.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-6中任一项所述的空间数据主动推荐方法对应的操作。
9.一种计算机设备,包括处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的空间数据主动推荐对应的操作。
CN202010418623.6A 2020-05-18 2020-05-18 空间数据主动推荐方法、装置、存储介质及计算机设备 Active CN111680122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418623.6A CN111680122B (zh) 2020-05-18 2020-05-18 空间数据主动推荐方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418623.6A CN111680122B (zh) 2020-05-18 2020-05-18 空间数据主动推荐方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111680122A CN111680122A (zh) 2020-09-18
CN111680122B true CN111680122B (zh) 2023-04-07

Family

ID=72434082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418623.6A Active CN111680122B (zh) 2020-05-18 2020-05-18 空间数据主动推荐方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111680122B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528368B (zh) * 2021-11-12 2023-08-25 南京师范大学 基于预训练语言模型与文本特征融合的空间关系抽取方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958185B2 (en) * 2000-09-18 2011-06-07 Bentley Systems, Inc. Spatial data enabled engineering, construction, and operations computer-aided design (CAD) project system, method and computer program product
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104054075A (zh) * 2011-12-06 2014-09-17 派赛普申合伙公司 文本挖掘、分析和输出系统
CN109726298A (zh) * 2019-01-08 2019-05-07 上海市研发公共服务平台管理中心 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN109726246A (zh) * 2018-12-13 2019-05-07 贵州电网有限责任公司 一种基于数据挖掘和可视化的电网事故关联原因回溯方法
CN110059147A (zh) * 2019-04-21 2019-07-26 黎慧斌 基于空间大数据进行知识挖掘的地图可视化系统及方法
CN110795520A (zh) * 2019-10-30 2020-02-14 河南省有色金属地质矿产局第七地质大队 一种数字化地质资料包目录与文件关联关系自动识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9645224B2 (en) * 2014-03-19 2017-05-09 Sap Se Processing of geo-spatial athletics sensor data
CN105117965A (zh) * 2015-09-22 2015-12-02 中国科学院上海高等研究院 一种历史文化信息数据的管理方法、管理系统、及服务端
CN107562451A (zh) * 2017-07-24 2018-01-09 华中师范大学 一种基于WebGIS的地方志文献可视化方法
CN109871424B (zh) * 2019-02-28 2021-05-04 中国科学院地理科学与资源研究所 一种中文学术研究热点区域信息自动提取和地图制作方法
CN110457681A (zh) * 2019-07-11 2019-11-15 中国地质大学(武汉) 一种基于深度学习的无监督地质实体提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958185B2 (en) * 2000-09-18 2011-06-07 Bentley Systems, Inc. Spatial data enabled engineering, construction, and operations computer-aided design (CAD) project system, method and computer program product
CN104054075A (zh) * 2011-12-06 2014-09-17 派赛普申合伙公司 文本挖掘、分析和输出系统
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN109726246A (zh) * 2018-12-13 2019-05-07 贵州电网有限责任公司 一种基于数据挖掘和可视化的电网事故关联原因回溯方法
CN109726298A (zh) * 2019-01-08 2019-05-07 上海市研发公共服务平台管理中心 适用于科技文献的知识图谱构建方法、系统、终端及介质
CN110059147A (zh) * 2019-04-21 2019-07-26 黎慧斌 基于空间大数据进行知识挖掘的地图可视化系统及方法
CN110795520A (zh) * 2019-10-30 2020-02-14 河南省有色金属地质矿产局第七地质大队 一种数字化地质资料包目录与文件关联关系自动识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Sanyuan Niu 等.A BIM-GIS Integrated Web-based Visualization System for Low Energy Building Design.《Procedia Engineering》.2015,第121卷2184-2192. *
张临炜.基于WebGIS的遥感大数据信息管理与可视化分析.《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》.2020,(第05期),C028-17. *
陆辰妮 等.支持空间数据的跨媒介电子文档研究.《测绘科学》.2019,第44卷(第3期),159-164. *

Also Published As

Publication number Publication date
CN111680122A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN108388559B (zh) 地理空间应用下的命名实体识别方法及系统、计算机程序
CN110377560B (zh) 一种简历信息的结构化方法及装置
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN110781670B (zh) 基于百科知识库和词向量的中文地名语义消歧方法
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN111209411B (zh) 一种文档分析的方法及装置
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN107844493B (zh) 一种文件关联方法及系统
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN102831131A (zh) 构建标注网页语料库的方法及装置
CN111680122B (zh) 空间数据主动推荐方法、装置、存储介质及计算机设备
Pasley et al. Geo-tagging for imprecise regions of different sizes
CN110362656A (zh) 一种语义要素提取方法及装置
CN110008312A (zh) 一种文档写作助手实现方法、系统及电子设备
CN112989811A (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
US20090182759A1 (en) Extracting entities from a web page
CN112069824A (zh) 基于上下文概率和引证的地域识别方法、装置及介质
Shi et al. Thematic data extraction from Web for GIS and applications
CN111966899A (zh) 搜索排序方法、系统及计算机可读存储介质
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统
Yuan Extracting spatial relations from document for geographic information retrieval
CN114003812A (zh) 地址匹配方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant