CN111666370A - 面向多源异构航天数据的语义索引方法和装置 - Google Patents

面向多源异构航天数据的语义索引方法和装置 Download PDF

Info

Publication number
CN111666370A
CN111666370A CN202010734051.2A CN202010734051A CN111666370A CN 111666370 A CN111666370 A CN 111666370A CN 202010734051 A CN202010734051 A CN 202010734051A CN 111666370 A CN111666370 A CN 111666370A
Authority
CN
China
Prior art keywords
index
space
data
time
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010734051.2A
Other languages
English (en)
Other versions
CN111666370B (zh
Inventor
张翀
何春辉
葛斌
刘威
肖建锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010734051.2A priority Critical patent/CN111666370B/zh
Publication of CN111666370A publication Critical patent/CN111666370A/zh
Application granted granted Critical
Publication of CN111666370B publication Critical patent/CN111666370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种面向多源异构航天数据的语义索引方法和装置。所述方法包括:获取多源异构航天数据;根据时间与空间数据,建立时间索引和空间索引,获取航天资源数据的元数据和本体属性的词向量,根据词向量,将元数据与本体属性进行关联,根据关联的结果,构建拓展索引,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据头实体词向量和属性词向量,将元数据与面向应用本体进行关联,根据关联结果,构建主题索引,在检索时,根据建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。采用本方法满足个性化的检索需求,提高检索效率。

Description

面向多源异构航天数据的语义索引方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种面向多源异构航天数据的语义云索引方法和装置。
背景技术
由于航天对地观测任务目的不同,因此观测产生的数据(本发明称航天信息资源)种类不同,如有的是照片格式数据,有的是地理测绘信息数据,并且描述航天信息资源的元数据格式和内容也不同。针对这样的多源异构航天信息资源,用户在面向某些应用需要使用航天信息资源时,往往需要通过检索获得满足条件的全部种类航天信息资源,而不是逐一对每种航天信息资源进行检索,因此要对各种类航天信息资源构建统一索引。另外,用户在检索时是基于应用的查询,所涉及的属性字段可能原始航天信息资源里没有显式的提供,需要从相关描述信息中构建面向应用的索引。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决多源异构航天数据索引困难的面向多源异构航天数据的语义索引方法和装置。
一种面向多源异构航天数据的语义索引方法,所述方法包括:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
在其中一个实施例中,还包括:提取时间与空间数据的时间值和空间值;根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将所述空间值插入所述时间段对应的R树,构成空间索引。
在其中一个实施例中,还包括:根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;将所述空间值插入所述新增R树中。
在其中一个实施例中,还包括:对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天资源数据的元数据的应用主题本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;根据所述词向量,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,还包括:根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,还包括:提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据所述可关联属性列表和所述非关联属性列表建立主题索引。
在其中一个实施例中,还包括:在检索时,获取检索条件;根据所述检索条件、时间索引和空间索引,得到时间与空间数据检索结果;根据所述检索条件和拓展索引,得到资源本体检索结果;根据所述检索条件和主题索引,得到应用主题本体检索结果;取所述时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
一种面向多源异构航天数据的语义索引装置,所述装置包括:
数据获取模块,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
上述面向多源异构航天数据的语义索引方法和装置,针对时间和空间数据,建立时间索引和空间索引,时间索引为数组或链表;空间索引为链接至数组或链表中各个单元的R树,从而实现对时间和空间数据的索引,对于其他航天资源数据,无法直接通过时间索引和空间索引直接检索,通过语意识别的方式,将航天资源数据的元数据映射至航天信息资源本体,从而根据映射关系,建立拓展索引以检索拓展信息,对于面向应用主题的数据,同样采用语意识别的方式,将航天资源数据的元数据映射至应用主题本体,从而建立主题索引,以进行主题检索。通过上述方式,在进行检索时,可以从多个角度检索,而不局限于关键词,从而提高检索的效率。
附图说明
图1为一个实施例中面向多源异构航天数据的语义云索引方法的流程示意图;
图2为一个实施例中时间索引和空间索引的示意性结构图;
图3为一个实施例中面向多源异构航天数据的语义云索引装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种面向多源异构航天数据的语义索引方法,包括以下步骤:
步骤102,获取多源异构航天数据。
多源异构航天数据包括:时间与空间数据和航天资源数据;时间与空间数据指的是包含时间值和空间值的数据,航天资源数据指的是除时间与空间数据之外的数据。这部分数据的特点是可以通过航天信息资源本体会对航天信息资源中共性的属性做出统一描述和规范,以及存在涉及到相关应用的描述信息。
步骤104,根据时间与空间数据,建立时间索引和空间索引。
时间索引为数组或链表,如图2所示,空间索引为链接至数组或链表中各个单元的R树。
由于时间的连续性,可以将数组或者链表分成多个时间段,该时间段内的数据链接至一个R树,R树中存储空间值,从而在检索时,通过时间与空间数据的时间值,可以检索到对应的时间段,通过空间值,可以检索到在R树中对应的位置。
步骤106,获取航天资源数据的元数据和本体属性的词向量,根据词向量,将元数据与本体属性进行关联,根据关联的结果,构建拓展索引。
元数据指的是航天资源数据的本身,元数据包含描述信息。
本体属性指的是航天信息资源本体的属性,本体有多个,每个本体均被本体属性描述。
可以采用语意识别的方式获取元数据和本体属性的词向量,通过词向量,可以确定元数据与本体属性的关联程度,从而将元数据与本体进行关联,通过关联,就可以建立拓展索引。
值得说明的是,语意识别以及处理,可以在云端执行,从而在本地无需关注本体与元数据的映射,提高索引建立的效率。
步骤108,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据头实体词向量和所述属性词向量,将元数据与面向应用本体进行关联,根据关联结果,构建主题索引。
不同的应用产生主题的数据,可以构建不同的主题本体,通过提取元数据描述信息的三元组,可以获取头实体的头实体词向量和应用主题本体的属性词向量,从而将元数据与应用主题本体进行关联,构建主题索引。
本步骤的三元组提取和词向量训练也可以在云端执行。
步骤110,在检索时,根据建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
检索时,可以进行个性化检索,通过取交集,得到检索结果。
上述面向多源异构航天数据的语义索引方法中,针对时间和空间数据,建立时间索引和空间索引,时间索引为数组或链表;空间索引为链接至数组或链表中各个单元的R树,从而实现对时间和空间数据的索引,对于其他航天资源数据,无法直接通过时间索引和空间索引直接检索,通过语意识别的方式,将航天资源数据的元数据映射至航天信息资源本体,从而根据映射关系,建立拓展索引以检索拓展信息,对于面向应用主题的数据,同样采用语意识别的方式,将航天资源数据的元数据映射至应用主题本体,从而建立主题索引,以进行主题检索。通过上述方式,在进行检索时,可以从多个角度检索,而不局限于关键词,从而提高检索的效率。
在其中一个实施例中,提取时间与空间数据的时间值和空间值;根据时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将空间值插入所述时间段对应的R树,构成空间索引。
在另一个实施例中,根据时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在时间数组或时间链表建立时间值对应的新增时间段以及新增时间段对应的新增R树;将空间值插入所述新增R树中。
具体的,将时间索引和空间索引统称为骨架索引s-Index,时间索引由数组或链表实现,其中每个元素索引相等时间段t,每个元素链接到一个R树的根结点,该R树索引的是该时间段内对应的空间数据,R树的叶子结点中的元素链接对应的时间与空间数据。
骨架索引的构架过程具体如下:
S302:取出下一个时间与空间数据
Figure 579373DEST_PATH_IMAGE001
,将
Figure 293251DEST_PATH_IMAGE001
的时间值
Figure 338567DEST_PATH_IMAGE002
和空间值
Figure 264935DEST_PATH_IMAGE003
提取;
S304:依据
Figure 610465DEST_PATH_IMAGE004
查找s-Index的时间数组对应的时间段,若无,转入S306,若有,转入S308;
S306:创建对应的时间段元素te,并在te下根据
Figure 698507DEST_PATH_IMAGE005
创建包含第一个元素
Figure 496699DEST_PATH_IMAGE006
的R树,返回S302;
S308:设查到的时间段元素为te,向te链接的R树中根据
Figure 961178DEST_PATH_IMAGE007
值插入
Figure 161215DEST_PATH_IMAGE008
,返回S302。
在其中一个实施例中,对航天资源数据的元数据和本体属性进行分词处理;本体属性是航天资源数据的元数据的应用主题本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到航天资源数据的元数据和本体属性的词向量;根据词向量,将元数据与本体属性进行关联。
在另一个实施例中,根据航天资源数据的元数据的词向量与本体属性的词向量的距离,将元数据与本体属性进行关联。
具体的,将元数据与本体属性进行关联的步骤如下:
S402:将航天信息资源本体中的本体属性名
Figure 420159DEST_PATH_IMAGE009
和本体属性描述
Figure 708576DEST_PATH_IMAGE010
,以及元数据
Figure 711167DEST_PATH_IMAGE011
中的属性
Figure 765711DEST_PATH_IMAGE012
输入词向量模型word2vec模型中训练;
本体属性描述
Figure 461134DEST_PATH_IMAGE013
需要进行分词处理。
S404:word2vec将
Figure 968339DEST_PATH_IMAGE014
Figure 774621DEST_PATH_IMAGE015
在同一空间进行训练后,使得
Figure 683671DEST_PATH_IMAGE016
Figure 549996DEST_PATH_IMAGE017
中的
Figure 810076DEST_PATH_IMAGE018
都形成词向量;
S406:针对每个航天信息资源种类
Figure 154470DEST_PATH_IMAGE019
下的每个
Figure 183606DEST_PATH_IMAGE020
,计算与
Figure 220832DEST_PATH_IMAGE021
中的每个与
Figure 702629DEST_PATH_IMAGE022
值类型一致的
Figure 850713DEST_PATH_IMAGE023
词向量的距离
Figure 468776DEST_PATH_IMAGE024
Figure 942483DEST_PATH_IMAGE025
,越小越相似);
S408:挑选最小的距离值
Figure 645997DEST_PATH_IMAGE026
,若
Figure 597772DEST_PATH_IMAGE027
小于等于阈值
Figure 335921DEST_PATH_IMAGE028
,将
Figure 714950DEST_PATH_IMAGE029
关联到
Figure 171339DEST_PATH_IMAGE030
对应的
Figure 661226DEST_PATH_IMAGE031
在关联之后,需要进行索引,具体步骤如下:
S502:针对每个
Figure 256811DEST_PATH_IMAGE032
,检验其每个
Figure 806741DEST_PATH_IMAGE033
是否有关联到
Figure 750427DEST_PATH_IMAGE034
,若有关联转入S504,否则转入S506;
S504:设关联的
Figure 44005DEST_PATH_IMAGE034
Figure 756746DEST_PATH_IMAGE035
,根据
Figure 211998DEST_PATH_IMAGE036
对应的值
Figure 377400DEST_PATH_IMAGE037
,将
Figure 474669DEST_PATH_IMAGE038
插入
Figure 41917DEST_PATH_IMAGE039
对应的索引(
Figure 668070DEST_PATH_IMAGE039
为数值型建立B+树索引,
Figure 586347DEST_PATH_IMAGE039
为文本型建立倒排索引),返回S502;
S506:根据
Figure 221728DEST_PATH_IMAGE040
对应的值
Figure 643482DEST_PATH_IMAGE041
,将
Figure 706116DEST_PATH_IMAGE042
插入其所在种类
Figure 580531DEST_PATH_IMAGE043
的属性
Figure 285182DEST_PATH_IMAGE044
对应的索引(
Figure 827022DEST_PATH_IMAGE045
为数值型建立B+树索引,
Figure 60557DEST_PATH_IMAGE045
为文本型建立倒排索引),返回S502。
在其中一个实施例中,提取航天资源数据中元数据描述信息的三元组,获取三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当头实体词向量和属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据可关联属性列表和非关联属性列表建立主题索引。
具体的,将三元组和应用主题本体进行关联的步骤如下:
S602:将元数据
Figure 687847DEST_PATH_IMAGE046
的值
Figure 665031DEST_PATH_IMAGE047
中描述类信息进行三元组抽取,得到三元组
Figure 795798DEST_PATH_IMAGE048
S604:将应用主题本体
Figure 465814DEST_PATH_IMAGE049
中的本体属性名称
Figure 314821DEST_PATH_IMAGE050
和本体属性描述
Figure 98625DEST_PATH_IMAGE051
,以及所提取的三元组中的头实体
Figure 349477DEST_PATH_IMAGE052
输入word2vec模型中训练,其中本体属性描述
Figure 924815DEST_PATH_IMAGE053
要进行分词;
S606:word2vec将
Figure 526698DEST_PATH_IMAGE054
Figure 845684DEST_PATH_IMAGE055
在同一空间进行训练后,使得
Figure 216622DEST_PATH_IMAGE056
Figure 962861DEST_PATH_IMAGE057
都形成词向量;
S608:针对每个
Figure 786461DEST_PATH_IMAGE058
,计算与
Figure 174717DEST_PATH_IMAGE059
中的每个与
Figure 134583DEST_PATH_IMAGE060
值类型一致的
Figure 51723DEST_PATH_IMAGE061
词向量的距离
Figure 628198DEST_PATH_IMAGE062
Figure 288986DEST_PATH_IMAGE063
,越小越相似);
S610:挑选最小的距离值
Figure 103359DEST_PATH_IMAGE064
,若
Figure 722559DEST_PATH_IMAGE065
小于等于阈值
Figure 255171DEST_PATH_IMAGE066
,转入S6,否则转入S7;
S612:将
Figure 985230DEST_PATH_IMAGE067
关联到
Figure 654109DEST_PATH_IMAGE068
对应的
Figure 444210DEST_PATH_IMAGE069
,并将
Figure 464119DEST_PATH_IMAGE070
加入到可关联属性列表
Figure 466710DEST_PATH_IMAGE071
S614:将
Figure 521254DEST_PATH_IMAGE072
加入到非关联属性列表
Figure 196169DEST_PATH_IMAGE073
构建主题索引的步骤包括:
S702:针对每个
Figure 703374DEST_PATH_IMAGE074
,将
Figure 509656DEST_PATH_IMAGE074
Figure 684285DEST_PATH_IMAGE075
中描述类信息进行三元组抽取,得到
Figure 285031DEST_PATH_IMAGE076
S704:检验每个
Figure 279532DEST_PATH_IMAGE077
,若在
Figure 889505DEST_PATH_IMAGE078
中(即可关联),转入S706,若在
Figure 653061DEST_PATH_IMAGE079
中(即不关联),转入S704,否则转入S708,检验完毕后转入S702;
S706:设关联的
Figure 690287DEST_PATH_IMAGE080
Figure 172084DEST_PATH_IMAGE081
,根据
Figure 320169DEST_PATH_IMAGE082
对应的值
Figure 203811DEST_PATH_IMAGE083
,将
Figure 411939DEST_PATH_IMAGE084
插入
Figure 115453DEST_PATH_IMAGE085
对应的索引(
Figure 67228DEST_PATH_IMAGE086
为数值型建立B+树索引,
Figure 70956DEST_PATH_IMAGE087
为文本型建立倒排索引),返回S704;
S708:再次进行关联,确定
Figure 184406DEST_PATH_IMAGE088
是否可关联后转入S704。
通过上述方式,可以构建三种索引,分别为骨架索引、拓展索引和主题索引。
具体在检索时,获取检索条件;根据检索条件、时间索引和空间索引,得到时间与空间数据检索结果;根据检索条件和拓展索引,得到资源本体检索结果;根据检索条件和主题索引,得到应用主题本体检索结果;取时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
具体的,检索过程如下:
S802:针对用户提交的时间和空间检索条件,利用骨架索引s-Index过滤时间条件后定位到相关的R树,再利用R树过滤空间条件,得到结果
Figure 375216DEST_PATH_IMAGE089
S804:针对用户提交的面向
Figure 130682DEST_PATH_IMAGE090
的检索条件,利用关联到
Figure 723337DEST_PATH_IMAGE091
的拓展索引e-index进行检索,得到结果
Figure 538847DEST_PATH_IMAGE092
S806:针对用户提交的面向航天信息资源本体且没有与
Figure 216953DEST_PATH_IMAGE093
关联的属性检索条件,利用非关联到
Figure 513460DEST_PATH_IMAGE094
的拓展索引e-index进行检索,得到结果
Figure 960622DEST_PATH_IMAGE095
S808:针对用户提交的面向
Figure 947033DEST_PATH_IMAGE096
的检索条件,利用主题索引t-index进行检索,得到结果
Figure 112435DEST_PATH_IMAGE097
S810:进行
Figure 209704DEST_PATH_IMAGE098
,得到的结果即为最后检索结果。
综上所述,本发明设计了3种索引类型:骨架索引、扩展索引和主题索引,分别用于索引航天信息资源共性属性、航天信息资源个性属性和应用主题属性。从信息输入输出角度看,输入为:
1)航天信息资源元数据(描述信息)集合
Figure 511372DEST_PATH_IMAGE099
,其中
Figure 668684DEST_PATH_IMAGE100
,其中
Figure 321382DEST_PATH_IMAGE101
代表航天信息资源种类,
Figure 956763DEST_PATH_IMAGE102
代表此元数据
Figure 378517DEST_PATH_IMAGE103
所描述的航天信息资源的存储路径,
Figure 706730DEST_PATH_IMAGE104
代表属性,
Figure 581145DEST_PATH_IMAGE105
代表值,
Figure 20217DEST_PATH_IMAGE105
既可以是单值也可以是多值,既可以是数值型数据也可以是文本型数据。
2)航天信息资源本体
Figure 562057DEST_PATH_IMAGE106
,其中
Figure 795592DEST_PATH_IMAGE107
是属性名,
Figure 422882DEST_PATH_IMAGE108
是对应属性的描述。
3)应用主题本体
Figure 134486DEST_PATH_IMAGE109
,其中
Figure 530833DEST_PATH_IMAGE110
代表应用主题本体的类名,
Figure 200848DEST_PATH_IMAGE111
是相应类的属性名,
Figure 49856DEST_PATH_IMAGE112
是对应属性的描述。
输出为:
1)以时间和空间信息构建的骨架索引s-Index,骨架索引只有1套。
2)除时间和空间外的关联
Figure 565151DEST_PATH_IMAGE113
属性和未关联
Figure 81583DEST_PATH_IMAGE113
属性的信息构建成的扩展索引e-Index,扩展索引具有多套。
3)面向
Figure 656921DEST_PATH_IMAGE114
类应用关联
Figure 261733DEST_PATH_IMAGE115
属性的信息构建成的主题索引t-Index,主题索引也有多套。
4)基于多源异构航天大数据语义云索引的检索过程。
通过上述技术手段,本发明主要解决了如下两个技术问题:
1、航天信息资源多源异构,针对用户检索时统一检索的需求,如何建立能够统领各类航天信息资源的索引。目前很多发明都是依靠模板映射,这在实际中对用户造成较大压力,本发明强调如何能够自动进行映射匹配从而建立统一索引。
2、针对用户面向某一主题的应用,如何能够提供给用户超越当前航天信息资源属性字段的检索能力,换言之,用户在针对某一应用A时,不关心航天信息资源的字段,而是面向应用A的属性字段,这如何利用航天信息资源进行建立面向应用主题的索引。
应该理解的是,虽然图1和3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种面向多源异构航天数据的语义索引装置,包括:数据获取模块902、索引构建模块904和检索模块906,其中:
数据获取模块902,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块904,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块906,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
在其中一个实施例中,索引构建模块904还用于提取时间与空间数据的时间值和空间值;根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;将所述空间值插入所述时间段对应的R树,构成空间索引。
在其中一个实施例中,索引构建模块904还用于根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;将所述空间值插入所述新增R树中。
在其中一个实施例中,索引构建模块904还用于对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天信息资源本体的本体属性;利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;根据所述词向量,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,索引构建模块904还用于根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
在其中一个实施例中,索引构建模块904还用于提取所述航天资源数据的元数据的描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;根据所述可关联属性列表和所述非关联属性列表建立主题索引。
在其中一个实施例中,检索模块906还用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
关于面向多源异构航天数据的语义索引装置的具体限定可以参见上文中对于面向多源异构航天数据的语义索引方法的限定,在此不再赘述。上述面向多源异构航天数据的语义索引装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面向多源异构航天数据的语义索引方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,仅仅是与本申请方案相关的部分结构的框图,并 不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可 以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件 布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种面向多源异构航天数据的语义索引方法,其特征在于,所述方法包括:
获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;
获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据时间与空间数据,建立时间索引和空间索引,包括:
提取时间与空间数据的时间值和空间值;
根据所述时间值查询预先设置的时间数组或时间链表对应的时间段,构成时间索引;
将所述空间值插入所述时间段对应的R树,构成空间索引。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述时间值查询预先设置的时间数组或时间链表,未查询到对应的时间段时,在所述时间数组或时间链表建立所述时间值对应的新增时间段以及所述新增时间段对应的新增R树;
将所述空间值插入所述新增R树中。
4.根据权利要求1所述的方法,其特征在于,获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,包括:
对所述航天资源数据的元数据和本体属性进行分词处理;所述本体属性是航天信息资源本体的属性;
利用词向量模型在同一空间下训练得到分词处理结果,得到所述航天资源数据的元数据和本体属性的词向量;
根据所述词向量,将所述元数据与所述本体属性进行关联。
5.根据权利要求4所述的方法,其特征在于,根据所述词向量,将所述元数据与所述本体属性进行关联,包括:
根据所述航天资源数据的元数据的词向量与所述本体属性的词向量的距离,将所述元数据与所述本体属性进行关联。
6.根据权利要求1所述的方法,其特征在于,提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引,包括:
提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量;
当所述头实体词向量和所述属性词向量的距离小于阈值时,将三元组加入应用主题本体对应的可关联属性列表;否则,将三元组加入非关联属性列表;
根据所述可关联属性列表和所述非关联属性列表建立主题索引。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果,包括:
在检索时,获取检索条件;
根据所述检索条件、时间索引和空间索引,得到时间与空间数据检索结果;
根据所述检索条件和拓展索引,得到资源本体检索结果;
根据所述检索条件和主题索引,得到应用主题本体检索结果;
取所述时间与空间数据检索结果、资源本体检索结果以及应用主题本体检索结果的交集,得到数据检索结果。
8.一种面向多源异构航天数据的语义索引装置,其特征在于,所述装置包括:
数据获取模块,用于获取多源异构航天数据;所述多源异构航天数据包括:时间与空间数据和航天资源数据;
索引构建模块,用于根据时间与空间数据,建立时间索引和空间索引;其中,所述时间索引为数组或链表;所述空间索引为链接至所述数组或链表中各个单元的R树;获取所述航天资源数据的元数据和本体属性的词向量,根据所述词向量,将所述元数据与所述本体属性进行关联,根据关联的结果,构建拓展索引;提取所述航天资源数据中元数据描述信息的三元组,获取所述三元组的头实体词向量,以及获取预先设置的面向应用主题本体的属性词向量,根据所述头实体词向量和所述属性词向量,将所述元数据与所述面向应用本体进行关联,根据关联结果,构建主题索引;
检索模块,用于在检索时,根据所述建立时间索引、空间索引、拓展索引以及主题索引的结果取交集,得到数据检索结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010734051.2A 2020-07-28 2020-07-28 面向多源异构航天数据的语义索引方法和装置 Active CN111666370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010734051.2A CN111666370B (zh) 2020-07-28 2020-07-28 面向多源异构航天数据的语义索引方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010734051.2A CN111666370B (zh) 2020-07-28 2020-07-28 面向多源异构航天数据的语义索引方法和装置

Publications (2)

Publication Number Publication Date
CN111666370A true CN111666370A (zh) 2020-09-15
CN111666370B CN111666370B (zh) 2022-04-22

Family

ID=72393031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010734051.2A Active CN111666370B (zh) 2020-07-28 2020-07-28 面向多源异构航天数据的语义索引方法和装置

Country Status (1)

Country Link
CN (1) CN111666370B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100525A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 多源异构航天信息资源存储方法、检索方法和装置
CN112800056A (zh) * 2021-01-21 2021-05-14 北京博阳世通信息技术有限公司 基于多粒度时空数据的多层索引构建方法
CN112883125A (zh) * 2021-04-28 2021-06-01 北京奇岱松科技有限公司 一种实体数据处理方法、装置、设备和存储介质
CN112925875A (zh) * 2021-03-25 2021-06-08 华南师范大学 一种开放数据集的数据关联方法及系统
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN114528454A (zh) * 2022-02-18 2022-05-24 中国自然资源航空物探遥感中心 航磁测量数据的检索提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1858737A (zh) * 2006-01-25 2006-11-08 华为技术有限公司 一种数据搜索的方法和系统
WO2010089248A1 (en) * 2009-02-03 2010-08-12 International Business Machines Corporation Method and system for semantic searching
CN102298631A (zh) * 2011-08-31 2011-12-28 江苏大学 一种新型元数据管理系统和一种元数据属性混合索引方法
CN104391952A (zh) * 2014-11-28 2015-03-04 公安部第三研究所 实现文件系统索引建立的方法及实现文件系统查询的方法
CN105718597A (zh) * 2016-03-04 2016-06-29 北京邮电大学 一种数据检索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1858737A (zh) * 2006-01-25 2006-11-08 华为技术有限公司 一种数据搜索的方法和系统
WO2010089248A1 (en) * 2009-02-03 2010-08-12 International Business Machines Corporation Method and system for semantic searching
CN102298631A (zh) * 2011-08-31 2011-12-28 江苏大学 一种新型元数据管理系统和一种元数据属性混合索引方法
CN104391952A (zh) * 2014-11-28 2015-03-04 公安部第三研究所 实现文件系统索引建立的方法及实现文件系统查询的方法
CN105718597A (zh) * 2016-03-04 2016-06-29 北京邮电大学 一种数据检索方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG GUO等: ""Spatio-temporal indexes for events in public opinion system"", 《2017 4TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS》 *
张翀: ""基于语义的航天信息元数据多维索引的研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100525A (zh) * 2020-11-02 2020-12-18 中国人民解放军国防科技大学 多源异构航天信息资源存储方法、检索方法和装置
CN112800056A (zh) * 2021-01-21 2021-05-14 北京博阳世通信息技术有限公司 基于多粒度时空数据的多层索引构建方法
CN112800056B (zh) * 2021-01-21 2024-03-08 北京博阳世通信息技术有限公司 基于多粒度时空数据的多层索引构建方法
CN112925875A (zh) * 2021-03-25 2021-06-08 华南师范大学 一种开放数据集的数据关联方法及系统
CN112925875B (zh) * 2021-03-25 2023-08-18 华南师范大学 一种开放数据集的数据关联方法及系统
CN112883125A (zh) * 2021-04-28 2021-06-01 北京奇岱松科技有限公司 一种实体数据处理方法、装置、设备和存储介质
CN113535788A (zh) * 2021-07-12 2021-10-22 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN113535788B (zh) * 2021-07-12 2024-03-05 中国海洋大学 一种面向海洋环境数据的检索方法、系统、设备及介质
CN114528454A (zh) * 2022-02-18 2022-05-24 中国自然资源航空物探遥感中心 航磁测量数据的检索提取方法

Also Published As

Publication number Publication date
CN111666370B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN111666370B (zh) 面向多源异构航天数据的语义索引方法和装置
CN110704743B (zh) 一种基于知识图谱的语义搜索方法及装置
CN107590214B (zh) 搜索关键词的推荐方法、装置及电子设备
CN110457431A (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN111177405A (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
CN110738577B (zh) 社区发现方法、装置、计算机设备和存储介质
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN108986910A (zh) 线上问答方法、装置、计算机设备和存储介质
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN111737981A (zh) 词汇纠错方法、装置、计算机设备及存储介质
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
CN111611801A (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN112035614A (zh) 测试集生成方法、装置、计算机设备和存储介质
CN111444313B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
CN112699195B (zh) 地理空间数据处理方法、装置、计算机设备及存储介质
CN109086386B (zh) 数据处理方法、装置、计算机设备和存储介质
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN115905608A (zh) 图像特征获取方法、装置、计算机设备、存储介质
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN114281884A (zh) 知识图谱的主题知识子模型提取方法
CN114661887A (zh) 一种跨领域数据推荐方法、装置、计算机设备及介质
CN114329016A (zh) 图片标签生成方法和文字配图方法
CN114003685A (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant