CN111666370A - 面向多源异构航天数据的语义索引方法和装置 - Google Patents
面向多源异构航天数据的语义索引方法和装置 Download PDFInfo
- Publication number
- CN111666370A CN111666370A CN202010734051.2A CN202010734051A CN111666370A CN 111666370 A CN111666370 A CN 111666370A CN 202010734051 A CN202010734051 A CN 202010734051A CN 111666370 A CN111666370 A CN 111666370A
- Authority
- CN
- China
- Prior art keywords
- index
- space
- data
- time
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种面向多源异构航天数据的语义索引方法和装置。所述方法包括:获取多源异构航天数据;根据时间与空间数据,建立时间索引和空间索引,获取航天资源数据的元数据和本体属性的词向量,根据词向量,将元数据与本体属性进行关联,根据关联的结果,构建拓展索引,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据头实体词向量和属性词向量,将元数据与面向应用本体进行关联,根据关联结果,构建主题索引,在检索时,根据建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。采用本方法满足个性化的检索需求,提高检索效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种面向多源异构航天数据的语义云索引方法和装置。
背景技术
由于航天对地观测任务目的不同,因此观测产生的数据(本发明称航天信息资源)种类不同,如有的是照片格式数据,有的是地理测绘信息数据,并且描述航天信息资源的元数据格式和内容也不同。针对这样的多源异构航天信息资源,用户在面向某些应用需要使用航天信息资源时,往往需要通过检索获得满足条件的全部种类航天信息资源,而不是逐一对每种航天信息资源进行检索,因此要对各种类航天信息资源构建统一索引。另外,用户在检索时是基于应用的查询,所涉及的属性字段可能原始航天信息资源里没有显式的提供,需要从相关描述信息中构建面向应用的索引。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决多源异构航天数据索引困难的面向多源异构航天数据的语义索引方法和装置。
一种面向多源异构航天数据的语义索引方法,所述方法包括:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
在其中一个实施例中,还包括:提取时间与空间数据的时间值和空间值;根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将所述空间值插入所述时间段对应的R树,构成空间索引。
在其中一个实施例中,还包括:根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;将所述空间值插入所述新增R树中。
在其中一个实施例中,还包括:对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天资源数据的元数据的应用主题本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;根据所述词向量,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,还包括:根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,还包括:提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据所述可关联属性列表和所述非关联属性列表建立主题索引。
在其中一个实施例中,还包括:在检索时,获取检索条件;根据所述检索条件、时间索引和空间索引,得到时间与空间数据检索结果;根据所述检索条件和拓展索引,得到资源本体检索结果;根据所述检索条件和主题索引,得到应用主题本体检索结果;取所述时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
一种面向多源异构航天数据的语义索引装置,所述装置包括:
数据获取模块,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
上述面向多源异构航天数据的语义索引方法和装置,针对时间和空间数据,建立时间索引和空间索引,时间索引为数组或链表;空间索引为链接至数组或链表中各个单元的R树,从而实现对时间和空间数据的索引,对于其他航天资源数据,无法直接通过时间索引和空间索引直接检索,通过语意识别的方式,将航天资源数据的元数据映射至航天信息资源本体,从而根据映射关系,建立拓展索引以检索拓展信息,对于面向应用主题的数据,同样采用语意识别的方式,将航天资源数据的元数据映射至应用主题本体,从而建立主题索引,以进行主题检索。通过上述方式,在进行检索时,可以从多个角度检索,而不局限于关键词,从而提高检索的效率。
附图说明
图1为一个实施例中面向多源异构航天数据的语义云索引方法的流程示意图;
图2为一个实施例中时间索引和空间索引的示意性结构图;
图3为一个实施例中面向多源异构航天数据的语义云索引装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种面向多源异构航天数据的语义索引方法,包括以下步骤:
步骤102,获取多源异构航天数据。
多源异构航天数据包括:时间与空间数据和航天资源数据;时间与空间数据指的是包含时间值和空间值的数据,航天资源数据指的是除时间与空间数据之外的数据。这部分数据的特点是可以通过航天信息资源本体会对航天信息资源中共性的属性做出统一描述和规范,以及存在涉及到相关应用的描述信息。
步骤104,根据时间与空间数据,建立时间索引和空间索引。
时间索引为数组或链表,如图2所示,空间索引为链接至数组或链表中各个单元的R树。
由于时间的连续性,可以将数组或者链表分成多个时间段,该时间段内的数据链接至一个R树,R树中存储空间值,从而在检索时,通过时间与空间数据的时间值,可以检索到对应的时间段,通过空间值,可以检索到在R树中对应的位置。
步骤106,获取航天资源数据的元数据和本体属性的词向量,根据词向量,将元数据与本体属性进行关联,根据关联的结果,构建拓展索引。
元数据指的是航天资源数据的本身,元数据包含描述信息。
本体属性指的是航天信息资源本体的属性,本体有多个,每个本体均被本体属性描述。
可以采用语意识别的方式获取元数据和本体属性的词向量,通过词向量,可以确定元数据与本体属性的关联程度,从而将元数据与本体进行关联,通过关联,就可以建立拓展索引。
值得说明的是,语意识别以及处理,可以在云端执行,从而在本地无需关注本体与元数据的映射,提高索引建立的效率。
步骤108,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据头实体词向量和所述属性词向量,将元数据与面向应用本体进行关联,根据关联结果,构建主题索引。
不同的应用产生主题的数据,可以构建不同的主题本体,通过提取元数据描述信息的三元组,可以获取头实体的头实体词向量和应用主题本体的属性词向量,从而将元数据与应用主题本体进行关联,构建主题索引。
本步骤的三元组提取和词向量训练也可以在云端执行。
步骤110,在检索时,根据建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
检索时,可以进行个性化检索,通过取交集,得到检索结果。
上述面向多源异构航天数据的语义索引方法中,针对时间和空间数据,建立时间索引和空间索引,时间索引为数组或链表;空间索引为链接至数组或链表中各个单元的R树,从而实现对时间和空间数据的索引,对于其他航天资源数据,无法直接通过时间索引和空间索引直接检索,通过语意识别的方式,将航天资源数据的元数据映射至航天信息资源本体,从而根据映射关系,建立拓展索引以检索拓展信息,对于面向应用主题的数据,同样采用语意识别的方式,将航天资源数据的元数据映射至应用主题本体,从而建立主题索引,以进行主题检索。通过上述方式,在进行检索时,可以从多个角度检索,而不局限于关键词,从而提高检索的效率。
在其中一个实施例中,提取时间与空间数据的时间值和空间值;根据时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将空间值插入所述时间段对应的R树,构成空间索引。
在另一个实施例中,根据时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在时间数组或时间链表建立时间值对应的新增时间段以及新增时间段对应的新增R树;将空间值插入所述新增R树中。
具体的,将时间索引和空间索引统称为骨架索引s-Index,时间索引由数组或链表实现,其中每个元素索引相等时间段t,每个元素链接到一个R树的根结点,该R树索引的是该时间段内对应的空间数据,R树的叶子结点中的元素链接对应的时间与空间数据。
骨架索引的构架过程具体如下:
在其中一个实施例中,对航天资源数据的元数据和本体属性进行分词处理;本体属性是航天资源数据的元数据的应用主题本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到航天资源数据的元数据和本体属性的词向量;根据词向量,将元数据与本体属性进行关联。
在另一个实施例中,根据航天资源数据的元数据的词向量与本体属性的词向量的距离,将元数据与本体属性进行关联。
具体的,将元数据与本体属性进行关联的步骤如下:
在关联之后,需要进行索引,具体步骤如下:
在其中一个实施例中,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当头实体词向量和属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据可关联属性列表和非关联属性列表建立主题索引。
具体的,将三元组和应用主题本体进行关联的步骤如下:
构建主题索引的步骤包括:
通过上述方式,可以构建三种索引,分别为骨架索引、拓展索引和主题索引。
具体在检索时,获取检索条件;根据检索条件、时间索引和空间索引,得到时间与空间数据检索结果;根据检索条件和拓展索引,得到资源本体检索结果;根据检索条件和主题索引,得到应用主题本体检索结果;取时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
具体的,检索过程如下:
综上所述,本发明设计了3种索引类型:骨架索引、扩展索引和主题索引,分别用于索引航天信息资源共性属性、航天信息资源个性属性和应用主题属性。从信息输入输出角度看,输入为:
输出为:
1)以时间和空间信息构建的骨架索引s-Index,骨架索引只有1套。
4)基于多源异构航天大数据语义云索引的检索过程。
通过上述技术手段,本发明主要解决了如下两个技术问题:
1、航天信息资源多源异构,针对用户检索时统一检索的需求,如何建立能够统领各类航天信息资源的索引。目前很多发明都是依靠模板映射,这在实际中对用户造成较大压力,本发明强调如何能够自动进行映射匹配从而建立统一索引。
2、针对用户面向某一主题的应用,如何能够提供给用户超越当前航天信息资源属性字段的检索能力,换言之,用户在针对某一应用A时,不关心航天信息资源的字段,而是面向应用A的属性字段,这如何利用航天信息资源进行建立面向应用主题的索引。
应该理解的是,虽然图1和3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种面向多源异构航天数据的语义索引装置,包括:数据获取模块902、索引构建模块904和检索模块906,其中:
数据获取模块902,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块904,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块906,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
在其中一个实施例中,索引构建模块904还用于提取时间与空间数据的时间值和空间值;根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将所述空间值插入所述时间段对应的R树,构成空间索引。
在其中一个实施例中,索引构建模块904还用于根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;将所述空间值插入所述新增R树中。
在其中一个实施例中,索引构建模块904还用于对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天信息资源本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;根据所述词向量,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,索引构建模块904还用于根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,索引构建模块904还用于提取所述航天资源数据的元数据的描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据所述可关联属性列表和所述非关联属性列表建立主题索引。
在其中一个实施例中,检索模块906还用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
关于面向多源异构航天数据的语义索引装置的具体限定可以参见上文中对于面向多源异构航天数据的语义索引方法的限定,在此不再赘述。上述面向多源异构航天数据的语义索引装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向多源异构航天数据的语义索引方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,仅仅是与本申请方案相关的部分结构的框图,并 不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可 以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件 布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种面向多源异构航天数据的语义索引方法,其特征在于,所述方法包括:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据时间与空间数据,建立时间索引和空间索引,包括:
提取时间与空间数据的时间值和空间值;
根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;
将所述空间值插入所述时间段对应的R树,构成空间索引。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;
将所述空间值插入所述新增R树中。
4.根据权利要求1所述的方法,其特征在于,获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,包括:
对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天信息资源本体的属性;
利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;
根据所述词向量,将所述元数据与所述本体属性进行关联。
5.根据权利要求4所述的方法,其特征在于,根据所述词向量,将所述元数据与所述本体属性进行关联,包括:
根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
6.根据权利要求1所述的方法,其特征在于,提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引,包括:
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;
当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;
根据所述可关联属性列表和所述非关联属性列表建立主题索引。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果,包括:
在检索时,获取检索条件;
根据所述检索条件、时间索引和空间索引,得到时间与空间数据检索结果;
根据所述检索条件和拓展索引,得到资源本体检索结果;
根据所述检索条件和主题索引,得到应用主题本体检索结果;
取所述时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
8.一种面向多源异构航天数据的语义索引装置,其特征在于,所述装置包括:
数据获取模块,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010734051.2A CN111666370B (zh) | 2020-07-28 | 2020-07-28 | 面向多源异构航天数据的语义索引方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010734051.2A CN111666370B (zh) | 2020-07-28 | 2020-07-28 | 面向多源异构航天数据的语义索引方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666370A true CN111666370A (zh) | 2020-09-15 |
CN111666370B CN111666370B (zh) | 2022-04-22 |
Family
ID=72393031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010734051.2A Active CN111666370B (zh) | 2020-07-28 | 2020-07-28 | 面向多源异构航天数据的语义索引方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666370B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100525A (zh) * | 2020-11-02 | 2020-12-18 | 中国人民解放军国防科技大学 | 多源异构航天信息资源存储方法、检索方法和装置 |
CN112800056A (zh) * | 2021-01-21 | 2021-05-14 | 北京博阳世通信息技术有限公司 | 基于多粒度时空数据的多层索引构建方法 |
CN112883125A (zh) * | 2021-04-28 | 2021-06-01 | 北京奇岱松科技有限公司 | 一种实体数据处理方法、装置、设备和存储介质 |
CN112925875A (zh) * | 2021-03-25 | 2021-06-08 | 华南师范大学 | 一种开放数据集的数据关联方法及系统 |
CN113535788A (zh) * | 2021-07-12 | 2021-10-22 | 中国海洋大学 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
CN114528454A (zh) * | 2022-02-18 | 2022-05-24 | 中国自然资源航空物探遥感中心 | 航磁测量数据的检索提取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1858737A (zh) * | 2006-01-25 | 2006-11-08 | 华为技术有限公司 | 一种数据搜索的方法和系统 |
WO2010089248A1 (en) * | 2009-02-03 | 2010-08-12 | International Business Machines Corporation | Method and system for semantic searching |
CN102298631A (zh) * | 2011-08-31 | 2011-12-28 | 江苏大学 | 一种新型元数据管理系统和一种元数据属性混合索引方法 |
CN104391952A (zh) * | 2014-11-28 | 2015-03-04 | 公安部第三研究所 | 实现文件系统索引建立的方法及实现文件系统查询的方法 |
CN105718597A (zh) * | 2016-03-04 | 2016-06-29 | 北京邮电大学 | 一种数据检索方法及系统 |
-
2020
- 2020-07-28 CN CN202010734051.2A patent/CN111666370B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1858737A (zh) * | 2006-01-25 | 2006-11-08 | 华为技术有限公司 | 一种数据搜索的方法和系统 |
WO2010089248A1 (en) * | 2009-02-03 | 2010-08-12 | International Business Machines Corporation | Method and system for semantic searching |
CN102298631A (zh) * | 2011-08-31 | 2011-12-28 | 江苏大学 | 一种新型元数据管理系统和一种元数据属性混合索引方法 |
CN104391952A (zh) * | 2014-11-28 | 2015-03-04 | 公安部第三研究所 | 实现文件系统索引建立的方法及实现文件系统查询的方法 |
CN105718597A (zh) * | 2016-03-04 | 2016-06-29 | 北京邮电大学 | 一种数据检索方法及系统 |
Non-Patent Citations (2)
Title |
---|
CHENG GUO等: ""Spatio-temporal indexes for events in public opinion system"", 《2017 4TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS》 * |
张翀: ""基于语义的航天信息元数据多维索引的研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100525A (zh) * | 2020-11-02 | 2020-12-18 | 中国人民解放军国防科技大学 | 多源异构航天信息资源存储方法、检索方法和装置 |
CN112800056A (zh) * | 2021-01-21 | 2021-05-14 | 北京博阳世通信息技术有限公司 | 基于多粒度时空数据的多层索引构建方法 |
CN112800056B (zh) * | 2021-01-21 | 2024-03-08 | 北京博阳世通信息技术有限公司 | 基于多粒度时空数据的多层索引构建方法 |
CN112925875A (zh) * | 2021-03-25 | 2021-06-08 | 华南师范大学 | 一种开放数据集的数据关联方法及系统 |
CN112925875B (zh) * | 2021-03-25 | 2023-08-18 | 华南师范大学 | 一种开放数据集的数据关联方法及系统 |
CN112883125A (zh) * | 2021-04-28 | 2021-06-01 | 北京奇岱松科技有限公司 | 一种实体数据处理方法、装置、设备和存储介质 |
CN113535788A (zh) * | 2021-07-12 | 2021-10-22 | 中国海洋大学 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
CN113535788B (zh) * | 2021-07-12 | 2024-03-05 | 中国海洋大学 | 一种面向海洋环境数据的检索方法、系统、设备及介质 |
CN114528454A (zh) * | 2022-02-18 | 2022-05-24 | 中国自然资源航空物探遥感中心 | 航磁测量数据的检索提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111666370B (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666370B (zh) | 面向多源异构航天数据的语义索引方法和装置 | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
CN107590214B (zh) | 搜索关键词的推荐方法、装置及电子设备 | |
CN110457431A (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
CN110738577B (zh) | 社区发现方法、装置、计算机设备和存储介质 | |
CN111460090A (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN108986910A (zh) | 线上问答方法、装置、计算机设备和存储介质 | |
CN111325030A (zh) | 文本标签构建方法、装置、计算机设备和存储介质 | |
CN111737981A (zh) | 词汇纠错方法、装置、计算机设备及存储介质 | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN111611801A (zh) | 一种识别文本地域属性的方法、装置、服务器及存储介质 | |
CN112035614A (zh) | 测试集生成方法、装置、计算机设备和存储介质 | |
CN111444313B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
CN109213775B (zh) | 搜索方法、装置、计算机设备和存储介质 | |
CN112699195B (zh) | 地理空间数据处理方法、装置、计算机设备及存储介质 | |
CN109086386B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN115905608A (zh) | 图像特征获取方法、装置、计算机设备、存储介质 | |
CN111401055B (zh) | 从金融资讯提取脉络信息的方法和装置 | |
CN114281884A (zh) | 知识图谱的主题知识子模型提取方法 | |
CN114661887A (zh) | 一种跨领域数据推荐方法、装置、计算机设备及介质 | |
CN114329016A (zh) | 图片标签生成方法和文字配图方法 | |
CN114003685A (zh) | 分词位置索引构建方法及其装置、文档检索方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |