CN113297395A - 时空多模态混合数据处理方法、关联方法与索引方法 - Google Patents

时空多模态混合数据处理方法、关联方法与索引方法 Download PDF

Info

Publication number
CN113297395A
CN113297395A CN202110770050.8A CN202110770050A CN113297395A CN 113297395 A CN113297395 A CN 113297395A CN 202110770050 A CN202110770050 A CN 202110770050A CN 113297395 A CN113297395 A CN 113297395A
Authority
CN
China
Prior art keywords
time
entity
list
text
spatiotemporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110770050.8A
Other languages
English (en)
Other versions
CN113297395B (zh
Inventor
张翀
葛斌
何春辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110770050.8A priority Critical patent/CN113297395B/zh
Publication of CN113297395A publication Critical patent/CN113297395A/zh
Application granted granted Critical
Publication of CN113297395B publication Critical patent/CN113297395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种时空多模态混合数据处理方法、关联方法与索引方法。所述方法包括:获取时空多模态混合数据;确认知识图谱的知识图谱描述信息;确认非结构化文本的文本描述信息;确认关系数据库记录的记录描述信息;当时空多模态混合数据分别为知识图谱、非结构化文本以及关系数据库记录时,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行设计时空属性。采用本方法能够实现对时空多模态混合数据的统一设计处理。

Description

时空多模态混合数据处理方法、关联方法与索引方法
技术领域
本申请涉及时空数据处理技术领域,特别是涉及一种时空多模态混合数据处理方法、关联方法与索引方法。
背景技术
随着信息获取与处理手段的多样化发展,来自不同源头、不同模态的数据不断被积累,这些数据都是从业务、描述、知识等不同方面对客观对象的刻画,在进行决策分析时都需要进行参考,时空多模态混合数据包括时间、空间、知识图谱、非结构化文本以及关系数据库记录的数据,如何面向这5种模态数据进行统一组织与快速、智能化的查询是数据分析的重要前提手段。
然而,常规的数据组织与处理技术中,无法直接应用于时空多模态混合数据,并且常规的数据处理要么就是单纯的知识图谱+文本类数据,要么就是数据库记录的数据+文本类数据,没有进行统筹规划管理,从而导致数据管理和检索效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种时空多模态混合数据处理方法、关联方法与索引方法。
一种时空多模态混合数据处理方法,所述方法包括:
获取时空多模态混合数据;所述时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系;
确认所述知识图谱的知识图谱描述信息;所述知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系;
确认非结构化文本的文本描述信息;所述文本描述信息包括:文本内容、地理坐标集合以及时间集合;
确认关系数据库记录的记录描述信息;所述记录描述信息包括:记录、地理坐标以及主题时间;
当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱;
当时空多模态混合数据为非结构化文本时,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,根据所述文本内容、地理坐标集合以及时间集合,得到时空文本;
当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本。
在其中一个实施例中,还包括:当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;
若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;
对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到地点类实体对应的地理坐标,若实体类型为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定产生时间。
在其中一个实施例中,还包括:利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体;
若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
在其中一个实施例中,还包括:获取关系数据库记录中字段名称列表和元组记录列表;
提取所述元组记录列表中的元组记录,将所述元组记录的值与所述字段名称列表的属性一一对应,构建key-value键值对;
遍历所述key-value键值对中的k值,采用自然语言处理方式识别所述k值,若所述k值表示地点类名词,则取出所述k值对应的v值,利用v值查询地理位置表,得到v值对应的地理坐标;
若所述k值表示时间类名词,则取出所述k值对应的v值,将v值作为主题时间;
若所述k值不是地点类名词和时间类名词,则利用自然语言处理方式识别对应的v值,若v值为地点类实体,则查询地理位置表,得到地理坐标,若v值为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则推理得到显式时间,根据显式时间确定主题时间。
一种时空多模态混合数据关联方法,所述方法包括:
采用上述时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本;
根据所述时空知识图谱、所述时空文本和所述时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本;
从所述时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表;
利用关键词提取算法从所述时空文本样本中提取关键词,根据关键词构建关键词列表;
从所述时空记录文本中每个字段对应的值进行提取,得到表名称列表;
构建所述关键词列表至所述名称列表的第一映射,以及所述表名称列表到所述名称列表的第二映射;
根据所述第一映射、所述关键词列表对应的词向量以及所述名称列表对应的词向量,训练得到第一映射模型;根据所述第二映射、所述表名称列表对应的词向量以及所述名称列表对应的词向量,训练得到第二映射模型;
获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入所述第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系;
获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入所述第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
在其中一个实施例中,利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
在其中一个实施例中,还包括:将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储;将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。
一种时空多模态混合数据索引方法,所述方法包括:
采用上述时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联;
根据所述时空知识图谱的中心实体条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式;所述第一索引数据形式包括:第一索引标识;
根据所述时空文本中每一条文本和对应的所述关键词列表,构建每一条文本的第二索引数据形式;所述第二索引数据形式包括:第二索引标识;
根据所述时空记录文本中每一条记录和所述表名称列表,构建每一条记录的第三索引数据形式;所述第三索引数据形式包括:第三索引标识;
将所述第一索引数据形式、所述第二索引数据形式以及所述第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段;其中每个时间段中点的数量相同;
将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引;所述四叉树中每个层级对应的子空间中的词以哈希表形式存储;
获取检索条件;所述检索条件包括:时间范围、查询关键词列表以及查询空间范围;
根据所述时间范围获取候选时间段列表,根据所述时间段列表和所述查询空间范围,查询所述四叉树,当所述查询空间范围与所述四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点;
从所述目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
在其中一个实施例中,根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系,得到关联第一索引标识;根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。
在其中一个实施例中,根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系,得到关联第二索引标识和关联第三索引标识;根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表;根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。
上述时空多模态混合数据处理方法、关联方法与索引方法,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行时空属性的设计,即针对知识图谱仅是对中心实体才设计时空属性;针对非结构化文本,由于其可提取的时空属性较多,因此设计了多值时空属性;针对关系数据库记录的数据,设计了每个记录的时空属性,这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。
附图说明
图1为一个实施例中时空多模态混合数据处理方法的示意性流程图;
图2为一个实施例中时空多模态混合数据关联方法的流程示意图;
图3为一个实施例中关联关系的示意图;
图4为一个实施例中时空多模态混合数据索引方法的流程示意图;
图5为一个实施例中四叉树索引的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种时空多模态混合数据处理方法,包括以下步骤:
步骤102,获取时空多模态混合数据。
时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系。
步骤104,确认知识图谱的知识图谱描述信息。
知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系。
具体的,针对具有时空特性的知识图谱
Figure 610790DEST_PATH_IMAGE001
,可表示为
Figure 308357DEST_PATH_IMAGE002
Figure 619253DEST_PATH_IMAGE003
,其中
Figure 545620DEST_PATH_IMAGE004
为中心实体,是
Figure 156730DEST_PATH_IMAGE005
中的一种核心事实的描述,
Figure 261083DEST_PATH_IMAGE006
为辅助实体,是对
Figure 262538DEST_PATH_IMAGE007
进行描述的实体,
Figure 992596DEST_PATH_IMAGE008
描述
Figure 192633DEST_PATH_IMAGE009
的地理坐标,
Figure 763161DEST_PATH_IMAGE010
描述
Figure 251911DEST_PATH_IMAGE011
的发生或产生时间,
Figure 785661DEST_PATH_IMAGE012
为2个
Figure 43467DEST_PATH_IMAGE013
之间的关系,
Figure 4469DEST_PATH_IMAGE014
Figure 42832DEST_PATH_IMAGE015
Figure 52377DEST_PATH_IMAGE016
之间的关系。
步骤106,确认非结构化文本的文本描述信息。
文本描述信息包括:文本内容、地理坐标集合以及时间集合。
具体的,针对具有时空特性的非结构化文本
Figure 977739DEST_PATH_IMAGE017
,可表示为
Figure 109643DEST_PATH_IMAGE018
,其中
Figure 572985DEST_PATH_IMAGE019
是文本内容,
Figure 448537DEST_PATH_IMAGE020
Figure 477673DEST_PATH_IMAGE021
中蕴含的地理坐标集合,
Figure 983741DEST_PATH_IMAGE022
Figure 245964DEST_PATH_IMAGE023
中蕴含的时间集合。
步骤108,确认关系数据库记录的记录描述信息。
记录描述信息包括:记录、地理坐标以及主题时间。
具体的,针对具有时空特性的关系数据库表的记录
Figure 659627DEST_PATH_IMAGE024
,可表示为
Figure 808849DEST_PATH_IMAGE025
,其中
Figure 33288DEST_PATH_IMAGE026
是一条记录,具体为
Figure 2381DEST_PATH_IMAGE027
Figure 157419DEST_PATH_IMAGE028
为字段,
Figure 426726DEST_PATH_IMAGE029
Figure 71334DEST_PATH_IMAGE030
对应的值,
Figure 730986DEST_PATH_IMAGE031
Figure 1299DEST_PATH_IMAGE032
蕴含或指向某个主题的地理坐标,
Figure 797217DEST_PATH_IMAGE033
Figure 612726DEST_PATH_IMAGE032
蕴含或指向某个主题的时间。
步骤110,当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱。
步骤112,当时空多模态混合数据为非结构化文本时,利用自然语言处理对非结构化文本进行处理,得到地点类实体和时间类实体,根据地点类实体得到地理坐标集合以及根据时间类实体得到时间集合,根据文本内容、地理坐标集合以及时间集合,得到时空文本。
步骤114,当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据字段名称列表的属性和元组记录列表中的值,构建键值对,采用语义识别的方式识别键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本。
上述时空多模态混合数据处理方法中,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行时空属性的设计,即针对知识图谱仅是对中心实体才设计时空属性;针对非结构化文本,由于其可提取的时空属性较多,因此设计了多值时空属性;针对关系数据库记录的数据,设计了每个记录的时空属性,这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。
具体的,当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,若实体类型为时间类实体,则判断时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定产生时间。
在其中一个实施例中,利用自然语言处理对非结构化文本进行处理,得到地点类实体和时间类实体;若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
具体的,以下以具体的一个处理过程进行说明。
给定的知识图谱中一般不会显式的具有
Figure 821990DEST_PATH_IMAGE034
的描述特征,因此需要通过构建方法表示为上述特征。设给定知识图谱
Figure 381148DEST_PATH_IMAGE035
Figure 297151DEST_PATH_IMAGE036
为实体集合,
Figure 768715DEST_PATH_IMAGE037
为实体间关系集合,预先提供的核心主题词列表为
Figure 465275DEST_PATH_IMAGE038
S1:针对
Figure 765807DEST_PATH_IMAGE039
中的每个实体
Figure 598633DEST_PATH_IMAGE040
,检查
Figure 755945DEST_PATH_IMAGE040
是否被包含在
Figure 877485DEST_PATH_IMAGE038
中;
S11:若
Figure 27713DEST_PATH_IMAGE040
Figure 715046DEST_PATH_IMAGE041
中,将
Figure 246521DEST_PATH_IMAGE040
的类型更新为
Figure 652095DEST_PATH_IMAGE042
S12:否则,将
Figure 356746DEST_PATH_IMAGE040
的类型更新为
Figure 101848DEST_PATH_IMAGE043
S2:针对
Figure 351695DEST_PATH_IMAGE044
中的每个关系
Figure 244564DEST_PATH_IMAGE045
,检查
Figure 487327DEST_PATH_IMAGE045
连接的2个实体类型;
S21:若
Figure 883673DEST_PATH_IMAGE045
连接的实体类型均为
Figure 756951DEST_PATH_IMAGE046
,将
Figure 386385DEST_PATH_IMAGE047
的类型更新为
Figure 167259DEST_PATH_IMAGE048
S22:若
Figure 886953DEST_PATH_IMAGE047
连接的实体类型为
Figure 727870DEST_PATH_IMAGE049
Figure 595332DEST_PATH_IMAGE050
,将
Figure 383159DEST_PATH_IMAGE047
的类型更新为
Figure 504830DEST_PATH_IMAGE051
S23:若
Figure 782228DEST_PATH_IMAGE047
连接的实体类型均为
Figure 809090DEST_PATH_IMAGE052
,不对
Figure 462925DEST_PATH_IMAGE047
做出更新;
S3:针对
Figure 891632DEST_PATH_IMAGE053
中的每个中心实体
Figure 74352DEST_PATH_IMAGE054
,遍历与其相连的辅助实体
Figure 165674DEST_PATH_IMAGE055
,利用自然语言处理中实体识别算法对
Figure 295304DEST_PATH_IMAGE055
进行分析;
S31:若解析出
Figure 375255DEST_PATH_IMAGE055
为地点类实体
Figure 260034DEST_PATH_IMAGE056
,将
Figure 261488DEST_PATH_IMAGE056
查询地理位置表,求出
Figure 257126DEST_PATH_IMAGE056
对应的地理坐标
Figure 394847DEST_PATH_IMAGE057
,即为该
Figure 935681DEST_PATH_IMAGE058
的地理坐标
Figure 486748DEST_PATH_IMAGE059
S32:若解析出
Figure 958180DEST_PATH_IMAGE055
为时间类实体,则判断;
S321:若为显式时间,则直接定义为该
Figure 12724DEST_PATH_IMAGE060
的时间
Figure 239306DEST_PATH_IMAGE061
S322:否则,结合上下文利用时间推理算法,得出显式时间
Figure 949773DEST_PATH_IMAGE061
,作为该
Figure 536481DEST_PATH_IMAGE062
的时间
Figure 711110DEST_PATH_IMAGE061
S33:若为其他情况,对
Figure 780697DEST_PATH_IMAGE055
不处理。
给定的非结构化文本中是没有显式的时空值的,需要通过构建方法进行构建,设给定的非结构化文本是
Figure 306357DEST_PATH_IMAGE063
S1:利用自然语言处理中实体识别算法对
Figure 119592DEST_PATH_IMAGE063
进行处理;
S2:针对每一个识别出来的地点类实体
Figure 148728DEST_PATH_IMAGE064
,将
Figure 202266DEST_PATH_IMAGE064
查询地理位置表,求出
Figure 152904DEST_PATH_IMAGE064
对应的地理坐标
Figure 832147DEST_PATH_IMAGE065
,将
Figure 919052DEST_PATH_IMAGE065
加入集合
Figure 392758DEST_PATH_IMAGE066
S3:针对每一个识别出来的时间类实体
Figure 627431DEST_PATH_IMAGE067
,则判断;
S31:若
Figure 782469DEST_PATH_IMAGE067
为显式时间,则直接将
Figure 35464DEST_PATH_IMAGE067
加入集合
Figure 680072DEST_PATH_IMAGE068
S32:否则,结合上下文利用时间推理算法,得出
Figure 339724DEST_PATH_IMAGE069
的显式时间
Figure 360769DEST_PATH_IMAGE070
,将
Figure 219004DEST_PATH_IMAGE070
加入集合
Figure 237775DEST_PATH_IMAGE071
设给定的关系数据库表为
Figure 932193DEST_PATH_IMAGE072
S1:获取
Figure 491350DEST_PATH_IMAGE072
的字段名称列表
Figure 204091DEST_PATH_IMAGE073
S2:取出一条元组记录
Figure 393764DEST_PATH_IMAGE074
S3:将
Figure 90325DEST_PATH_IMAGE075
Figure 436862DEST_PATH_IMAGE074
中的属性和值一一对应,构建key-value键值对,形成
Figure 207371DEST_PATH_IMAGE076
S4:遍历
Figure 630262DEST_PATH_IMAGE077
中的
Figure 751802DEST_PATH_IMAGE078
,利用自然语言处理中语义方法识别
Figure 387183DEST_PATH_IMAGE078
,并判断;
S41:若
Figure 340095DEST_PATH_IMAGE078
的语义表示地点、位置等意思,取出
Figure 871571DEST_PATH_IMAGE078
对应的
Figure 762298DEST_PATH_IMAGE079
,将
Figure 732528DEST_PATH_IMAGE079
查询地理位置表,求出
Figure 477630DEST_PATH_IMAGE079
对应的地理坐标
Figure 242324DEST_PATH_IMAGE080
,将
Figure 869614DEST_PATH_IMAGE080
作为
Figure 50060DEST_PATH_IMAGE081
的地理坐标;
S42:若
Figure 226832DEST_PATH_IMAGE082
的语义表示时间、时刻等意思,取出
Figure 896848DEST_PATH_IMAGE082
对应的
Figure 214696DEST_PATH_IMAGE083
,将
Figure 261150DEST_PATH_IMAGE083
作为
Figure 980844DEST_PATH_IMAGE084
的时间
Figure 87340DEST_PATH_IMAGE085
S43:若识别不出
Figure 439956DEST_PATH_IMAGE082
的语义为时间和空间等内容,则遍历所有的
Figure 227783DEST_PATH_IMAGE083
值,利用自然语言处理中实体识别算法对
Figure 864301DEST_PATH_IMAGE086
进行处理;
S431:针对
Figure 79381DEST_PATH_IMAGE086
识别出来的地点类实体
Figure 902981DEST_PATH_IMAGE087
,将
Figure 556816DEST_PATH_IMAGE087
查询地理位置表,求出
Figure 985523DEST_PATH_IMAGE087
对应的地理坐标
Figure 683090DEST_PATH_IMAGE088
,将
Figure 462827DEST_PATH_IMAGE088
作为
Figure 389195DEST_PATH_IMAGE089
的地理坐标;
S432:针对
Figure 734725DEST_PATH_IMAGE090
识别出来的时间类实体
Figure 557188DEST_PATH_IMAGE091
,则判断;
S4321:若
Figure 355380DEST_PATH_IMAGE091
为显式时间,则直接将
Figure 836171DEST_PATH_IMAGE091
作为
Figure 239470DEST_PATH_IMAGE092
的时间
Figure 295151DEST_PATH_IMAGE093
S4322:否则,利用时间推理算法,得出
Figure 518322DEST_PATH_IMAGE094
的显式时间
Figure 52071DEST_PATH_IMAGE093
,将
Figure 372194DEST_PATH_IMAGE093
作为
Figure 270880DEST_PATH_IMAGE095
的时间
Figure 292932DEST_PATH_IMAGE093
上述具体实施例中,知识图谱、非结构化文本和关系数据库的记录面向时空特性的结构。该方法可以针对原始数据中无显式时空信息的特点,从已知数据中通过时空语义分析的途径解析出时空属性。与以往方法相比,本方法不需要用户对原始数据提出具备时空属性的要求,可以自动化的完成时空属性的提取,这在较大程度上提升了方法的易用性和适用性。
在其中一个实施例中,如图2所示,提供一种时空多模态混合数据关联方法的示意性流程图,包括:
步骤202,采用时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本。
步骤204,根据时空知识图谱、时空文本和时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本。
步骤206,从时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表。
步骤208,利用关键词提取算法从时空文本样本中提取关键词,根据关键词构建关键词列表。
步骤210,从时空记录文本中每个字段对应的值进行提取,得到表名称列表。
步骤212,构建关键词列表至所述名称列表的第一映射,以及表名称列表到名称列表的第二映射。
步骤214,根据第一映射、关键词列表对应的词向量以及名称列表对应的词向量,训练得到第一映射模型;根据第二映射、表名称列表对应的词向量以及名称列表对应的词向量,训练得到第二映射模型。
步骤216,获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系。
步骤218,获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
上述时空多模态混合数据关联方法中,采用了机器学习的办法让非结构化文本和关系数据库记录都关联到知识图谱的中心实体上,这种利用训练模型自动关联的方法大大降低了人工处理数据的成本。之前没有方法阐述过如何将知识图谱、非结构化文本和关系数据库记录这3者如何关联,本发明将这3者都统一到中心实体的维度,围绕中心实体关联,方便后续的检索。
在其中一个实施例中,利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
在其中一个实施例中,将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储,将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储
具体的,如图3所示,时空多模态混合数据的知识图谱、非结构化文本和关系数据库记录的数据往往是对同一事物的描述,即具有内在的关联性,因此可利用此关联性将3者组织起来,从而为建立索引提供基础,其中,图中ID指的是关系数据库记录对应表的序号,field1-3分别指的是不同的属性,value指的是不同序号属性对应的值,值得说明的是value在数据库技术中是专业名词,例如:valueField : "value",表示如何获取Field属性对应value值。
S1:获取知识图谱、非结构化文本和关系数据库记录的样本数据,分别表示为
Figure 630372DEST_PATH_IMAGE096
Figure 742685DEST_PATH_IMAGE097
以及
Figure 140168DEST_PATH_IMAGE098
S2:针对
Figure 337931DEST_PATH_IMAGE099
的每个中心实体,将中心实体所连接的全部辅助实体名称进行提取,这些名称构成一个名称列表
Figure 213483DEST_PATH_IMAGE100
S3:针对每个
Figure 258931DEST_PATH_IMAGE101
,利用自然语言处理的关键词提取算法,将
Figure 499419DEST_PATH_IMAGE102
Figure 512374DEST_PATH_IMAGE103
提取关键词,构成非结构化文本的名称列表
Figure 926038DEST_PATH_IMAGE104
S4:针对每个记录
Figure 12943DEST_PATH_IMAGE105
,将其字段对应的值全部提取,这些值构成记录的名称列表
Figure 486650DEST_PATH_IMAGE106
S5:领域专家进行2项人工映射,即非结构化文本的名称列表
Figure 705010DEST_PATH_IMAGE107
到知识图谱名称列表
Figure 125627DEST_PATH_IMAGE108
的映射,记录的名称列表
Figure 129355DEST_PATH_IMAGE109
到知识图谱名称列表
Figure 773963DEST_PATH_IMAGE110
的映射;
S6:利用预训练语言模型BERT(https://arxiv.org/abs/1810.04805)将
Figure 433615DEST_PATH_IMAGE111
Figure 189081DEST_PATH_IMAGE112
Figure 63627DEST_PATH_IMAGE113
分别转化成词向量,利用这些词向量和对应的映射关系,结合自回归模型训练,分别形成非结构化文本到知识图谱中心实体的映射模型
Figure 82399DEST_PATH_IMAGE114
和数据库记录数据到知识图谱中心实体的映射模型
Figure 26084DEST_PATH_IMAGE115
S7:针对知识图谱、非结构化文本的全量数据,首先分别构建各自的名称列表,再构建词向量,利用
Figure 585242DEST_PATH_IMAGE116
模型识别非结构化文本到知识图谱中心实体的映射关系,并将非结构化文本的存储位置标识与对应的中心实体存储标识的对应关系进行存储,即形成
Figure 501245DEST_PATH_IMAGE117
S8:针对知识图谱、关系数据库记录的全量数据,首先分别构建各自的名称列表,再构建词向量,利用
Figure 753235DEST_PATH_IMAGE118
模型识别数据库记录到知识图谱中心实体的映射关系,并将数据库记录的存储位置标识与对应的中心实体存储标识的对应关系进行存储,即形成
Figure 456921DEST_PATH_IMAGE119
在其中一个实施例中,如图4所示,提出一种时空多模态混合数据索引方法的流程示意图,包括:
步骤402,采用时空多模态混合数据关联方法对时空知识图谱、时空文本和时空记录文本进行关联。
步骤404,根据时空知识图谱中中心实体的条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式。
第一索引数据形式包括:第一索引标识。
步骤406,根据时空文本中每一条文本和对应的关键词列表,构建每一条文本的第二索引数据形式。
第二索引数据形式包括:第二索引标识。
根据时空记录文本中每一条记录和表名称列表,构建每一条记录的第三索引数据形式。
第三索引数据形式包括:第三索引标识。
步骤408,将第一索引数据形式、第二索引数据形式以及第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段。
每个时间段中点的数量相同。
步骤410,将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引。
四叉树中每个层级对应的子空间中的词以哈希表形式存储。
步骤412,获取检索条件。
检索条件包括:时间范围、查询关键词列表以及查询空间范围。
步骤414,根据时间范围获取候选时间段列表,根据时间段列表和查询空间范围,查询四叉树,当查询空间范围与四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点。
步骤416,从目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
上述时空多模态混合数据索引方法中,基于高效快速检索的目标,在时间维上并没有平均切分时间段,而是考虑平均切分时间所对应的空间坐标数据,这样的考虑可以在检索时提高剪枝率,加快查找速度。在索引空间数据时,考虑使用四叉树进行索引,四叉树具有构建速度快的特点,因此整个索引不但查找速度快,构建速度也很快。在构建空间索引同时,还使用了哈希表的技术来过滤查询的关键词,哈希表查询速度快,构建速度也快,这让索引具备了在保证高效查找前提下的多种条件查询能力。之前的方法大多利用R树构建索引,这在索引构建时会降低构建效率。
在其中一个实施例中,根据第二索引标识、第三索引标识、第一关联关系以及所述的第二关联关系,得到关联第一索引标识,根据关联第一索引标识和第一索引标识列表去重后得到修正第一索引标识列表。
在其中一个实施例中,根据修正第一索引标识列表、第一关联关系以及的第二关联关系,得到关联第二索引标识和关联第三索引标识;根据关联第二索引标识和第二索引标识列表去重后得到修正第二索引标识列表;根据关联第三索引标识和第三索引标识列表去重后得到修正第三索引标识列表。
具体的,基于构建的索引将时间、空间和关键词分别进行比较剪枝,可以快速定位到满足查询目标的数据,然后再利用关联的数据就可以快速高效的实现关联查询,将涉及到查询条件的全部结果以关联的形式进行展现。之前的关联查询方法是直接在查询时计算关联性,这会降低查询效率。
具体的,结合上述处理方法和关联方法,具体步骤如下:
S1:将给定的知识图谱表示为按照中心实体为条目的数据,即知识图谱变为一个个
Figure 554190DEST_PATH_IMAGE120
,然后转换为提交给索引的数据形式
Figure 324700DEST_PATH_IMAGE121
,其中
Figure 482012DEST_PATH_IMAGE122
为该中心实体的存储标识;
S2:将给定的每个非结构化文档表示为一个
Figure 400289DEST_PATH_IMAGE123
,即文本内容、地理坐标集合、时间集合,然后将其转换为提交给索引的数据形式
Figure 51982DEST_PATH_IMAGE124
Figure 942577DEST_PATH_IMAGE125
,其中
Figure 536370DEST_PATH_IMAGE126
为该非结构化文本的存储标识,
Figure 676364DEST_PATH_IMAGE127
为该文本的关键词列表;
S3:将给定的每个关系数据记录表示为一个
Figure 318698DEST_PATH_IMAGE128
,即键值对集合、地理坐标和时间,然后将其转换为提交给索引的数据形式
Figure 860538DEST_PATH_IMAGE129
Figure 874499DEST_PATH_IMAGE130
,其中
Figure 705052DEST_PATH_IMAGE131
为该记录存储标识,
Figure 213393DEST_PATH_IMAGE132
为该记录所有值构成的词列表;
S4:将
Figure 78581DEST_PATH_IMAGE133
Figure 748597DEST_PATH_IMAGE134
Figure 863184DEST_PATH_IMAGE135
Figure 112899DEST_PATH_IMAGE136
进行时间维度汇总;
S5:沿着时间维度按照将空间坐标点数量等分为
Figure 380064DEST_PATH_IMAGE137
份的目标把时间维度切分为
Figure 486560DEST_PATH_IMAGE137
段,即每一段时间对应的空间坐标点数量是一致的,每一个时间段用
Figure 26126DEST_PATH_IMAGE138
表示;
S6:将每一时间段
Figure 876270DEST_PATH_IMAGE139
下对应的空间坐标点利用Quad树(四叉树)构建空间索引,即
Figure 450471DEST_PATH_IMAGE140
S7:在
Figure 462289DEST_PATH_IMAGE141
每一层级的每一个子空间(即四叉空间)中,将此子空间所包含的全部词构建哈希表
Figure 66315DEST_PATH_IMAGE142
,即
Figure 392254DEST_PATH_IMAGE142
存在于
Figure 883278DEST_PATH_IMAGE143
的结点中,可检查每个词是否以哈希形式存在此表中,具体如图5所示,其中显示了
Figure 331577DEST_PATH_IMAGE144
的具体结构。
具体的,在进行检索时,具体如下:
针对给定的查询条件
Figure 845735DEST_PATH_IMAGE145
,即
Figure 37682DEST_PATH_IMAGE146
为查询的空间范围,
Figure 133945DEST_PATH_IMAGE147
为查询的时间范围,
Figure 690828DEST_PATH_IMAGE148
为查询的关键词列表,返回满足此查询条件且关联在一起的知识图谱、非结构化文本和关系数据库记录。
S1:将时间查询条件
Figure 754599DEST_PATH_IMAGE149
与每一个时间段
Figure 484658DEST_PATH_IMAGE139
求交集,将交集不为空的时间段保留,形成候选时间段列表
Figure 887957DEST_PATH_IMAGE150
S2:针对每个在
Figure 412480DEST_PATH_IMAGE150
中的时间段
Figure 212814DEST_PATH_IMAGE151
,依据
Figure 949826DEST_PATH_IMAGE152
条件查询
Figure 4370DEST_PATH_IMAGE153
对应的四叉树索引
Figure 965372DEST_PATH_IMAGE154
,并且在四叉树的逐层结点查找时,除了将结点的空间范围与
Figure 941419DEST_PATH_IMAGE155
比较是否空间相交外,还要将该结点中的
Figure 13280DEST_PATH_IMAGE156
Figure 938642DEST_PATH_IMAGE157
中的全部词进行比较,即只有满足空间交集不为空且
Figure 273808DEST_PATH_IMAGE157
全部词都在
Figure 533888DEST_PATH_IMAGE158
中的结点,才能查找其子结点,否则剪枝;
S3:按照S2中的逐层递归,直到递归到叶子结点停止;
S4:将满足查询条件的叶子结点中的
Figure 409440DEST_PATH_IMAGE159
Figure 376259DEST_PATH_IMAGE160
Figure 944644DEST_PATH_IMAGE161
进行提取,分别形成结果列表
Figure 629703DEST_PATH_IMAGE162
Figure 292634DEST_PATH_IMAGE163
Figure 441856DEST_PATH_IMAGE164
S5:将
Figure 118825DEST_PATH_IMAGE165
Figure 87918DEST_PATH_IMAGE166
中的存储标识分别查询3.5节中的
Figure 570852DEST_PATH_IMAGE167
Figure 512263DEST_PATH_IMAGE168
,获得对应的
Figure 173183DEST_PATH_IMAGE169
,再将查询得到的
Figure 832834DEST_PATH_IMAGE169
Figure 588301DEST_PATH_IMAGE170
合并去重,形成
Figure 712115DEST_PATH_IMAGE171
S6:将
Figure 465307DEST_PATH_IMAGE171
中的每一个标识
Figure 408992DEST_PATH_IMAGE172
分别查询3.5节中的
Figure 482996DEST_PATH_IMAGE173
Figure 399000DEST_PATH_IMAGE174
,得到对应的
Figure 650989DEST_PATH_IMAGE175
Figure 816392DEST_PATH_IMAGE176
(结果存在多个),构建结果结构组合
Figure 116923DEST_PATH_IMAGE177
应该理解的是,虽然图1、2和4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、2和4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的相关技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种时空多模态混合数据处理方法,其特征在于,所述方法包括:
获取时空多模态混合数据;所述时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系;
确认所述知识图谱的知识图谱描述信息;所述知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系;
确认非结构化文本的文本描述信息;所述文本描述信息包括:文本内容、地理坐标集合以及时间集合;
确认关系数据库记录的记录描述信息;所述记录描述信息包括:记录、地理坐标以及主题时间;
当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱;
当时空多模态混合数据为非结构化文本时,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,根据所述文本内容、地理坐标集合以及时间集合,得到时空文本;
当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本。
2.根据权利要求1所述的方法,其特征在于,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,包括:
当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;
若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;
对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到地点类实体对应的地理坐标,若实体类型为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则推理得到显式时间,根据显式时间确定产生时间。
3.根据权利要求1所述的方法,其特征在于,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,包括:
利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体;
若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
4.根据权利要求1所述的方法,其特征在于,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,包括:
获取关系数据库记录中字段名称列表和元组记录列表;
提取所述元组记录列表中的元组记录,将所述元组记录的值与所述字段名称列表的属性一一对应,构建key-value键值对;
遍历所述key-value键值对中的k值,采用自然语言处理方式识别所述k值,若所述k值表示地点类名词,则取出所述k值对应的v值,利用v值查询地理位置表,得到v值对应的地理坐标;
若所述k值表示时间类名词,则取出所述k值对应的v值,将v值作为主题时间;
若所述k值不是地点类名词和时间类名词,则利用自然语言处理方式识别对应的v值,若v值为地点类实体,则查询地理位置表,得到地理坐标,若v值为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定主题时间。
5.一种时空多模态混合数据关联方法,其特征在于,所述方法包括:
采用权利要求1至4任一项所述时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本;
根据所述时空知识图谱、所述时空文本和所述时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本;
从所述时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表;
利用关键词提取算法从所述时空文本样本中提取关键词,根据关键词构建关键词列表;
从所述时空记录文本中每个字段对应的值进行提取,得到表名称列表;
构建所述关键词列表至所述名称列表的第一映射,以及所述表名称列表到所述名称列表的第二映射;
根据所述第一映射、所述关键词列表对应的词向量以及所述名称列表对应的词向量,训练得到第一映射模型;根据所述第二映射、所述表名称列表对应的词向量以及所述名称列表对应的词向量,训练得到第二映射模型;
获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入所述第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系;
获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入所述第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
6.根据权利要求5所述的方法,其特征在于,得到词向量的步骤,包括:
利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
7.根据权利要求5所述的方法,其特征在于,在得到待关联的时空知识图谱和时空文本的第一关联关系之后,所述方法还包括:
将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储;
在得到待关联的时空知识图谱和时空记录文本的第二关联关系之后,所述方法还包括:
将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。
8.一种时空多模态混合数据索引方法,其特征在于,所述方法包括:
采用权利要求5-7任一项所述的时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联;
根据所述时空知识图谱的中心实体条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式;所述第一索引数据形式包括:第一索引标识;
根据所述时空文本中每一条文本和对应的所述关键词列表,构建每一条文本的第二索引数据形式;所述第二索引数据形式包括:第二索引标识;
根据所述时空记录文本中每一条记录和所述表名称列表,构建每一条记录的第三索引数据形式;所述第三索引数据形式包括:第三索引标识;
将所述第一索引数据形式、所述第二索引数据形式以及所述第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段;其中每个时间段中点的数量相同;
将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引;所述四叉树中每个层级对应的子空间中的词以哈希表形式存储;
获取检索条件;所述检索条件包括:时间范围、查询关键词列表以及查询空间范围;
根据所述时间范围获取候选时间段列表,根据所述时间段列表和所述查询空间范围,查询所述四叉树,当所述查询空间范围与所述四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点;
从所述目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系,得到关联第一索引标识;
根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系,得到关联第二索引标识和关联第三索引标识;
根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表;
根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。
CN202110770050.8A 2021-07-08 2021-07-08 时空多模态混合数据处理方法、关联方法与索引方法 Active CN113297395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110770050.8A CN113297395B (zh) 2021-07-08 2021-07-08 时空多模态混合数据处理方法、关联方法与索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110770050.8A CN113297395B (zh) 2021-07-08 2021-07-08 时空多模态混合数据处理方法、关联方法与索引方法

Publications (2)

Publication Number Publication Date
CN113297395A true CN113297395A (zh) 2021-08-24
CN113297395B CN113297395B (zh) 2021-09-24

Family

ID=77330593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110770050.8A Active CN113297395B (zh) 2021-07-08 2021-07-08 时空多模态混合数据处理方法、关联方法与索引方法

Country Status (1)

Country Link
CN (1) CN113297395B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704565A (zh) * 2021-10-28 2021-11-26 浙江大学 基于全局区间误差的学习型时空索引方法、装置及介质
CN115454993A (zh) * 2022-07-27 2022-12-09 北京优诺信创科技有限公司 一种具备时空信息的空间电磁环境特征数据处理方法
CN117033366A (zh) * 2023-10-09 2023-11-10 航天宏图信息技术股份有限公司 基于知识图谱的泛在时空数据交叉验证方法及装置
CN117332091A (zh) * 2023-08-29 2024-01-02 泰瑞数创科技(北京)股份有限公司 一种基于语义关系的地理实体时空知识图谱构建方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
US20180039894A1 (en) * 2016-08-08 2018-02-08 International Business Machines Corporation Expressive Temporal Predictions Over Semantically Driven Time Windows
CN108345596A (zh) * 2017-01-22 2018-07-31 分众(中国)信息技术有限公司 楼宇信息融合服务平台
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
US20190179878A1 (en) * 2017-12-12 2019-06-13 Google Llc Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content
US20190220752A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, server, and storage medium for incorporating structured entity
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110647662A (zh) * 2019-08-03 2020-01-03 电子科技大学 一种基于语义的多模态时空数据关联方法
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN110990585A (zh) * 2019-11-29 2020-04-10 上海勘察设计研究院(集团)有限公司 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN111611410A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 基于多层网络空间知识表示的知识处理方法和装置
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法
CN112732939A (zh) * 2021-01-15 2021-04-30 中国科学院空天信息创新研究院 基于GraphDB的时空知识图谱构建方法、装置、介质及设备
CN112905807A (zh) * 2021-03-25 2021-06-04 北京邮电大学 一种多源时空知识融合方法
US20210201168A1 (en) * 2020-09-15 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and Apparatus for Outputting Information, Device and Storage Medium
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
US20180039894A1 (en) * 2016-08-08 2018-02-08 International Business Machines Corporation Expressive Temporal Predictions Over Semantically Driven Time Windows
CN108345596A (zh) * 2017-01-22 2018-07-31 分众(中国)信息技术有限公司 楼宇信息融合服务平台
US20190220752A1 (en) * 2017-12-08 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, server, and storage medium for incorporating structured entity
US20190179878A1 (en) * 2017-12-12 2019-06-13 Google Llc Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content
CN109284394A (zh) * 2018-09-12 2019-01-29 青岛大学 一种从多源数据集成视角构建企业知识图谱的方法
CN110197280A (zh) * 2019-05-20 2019-09-03 中国银行股份有限公司 一种知识图谱构建方法、装置及系统
CN110489395A (zh) * 2019-07-27 2019-11-22 西南电子技术研究所(中国电子科技集团公司第十研究所) 自动获取多源异构数据知识的方法
CN110647662A (zh) * 2019-08-03 2020-01-03 电子科技大学 一种基于语义的多模态时空数据关联方法
CN110807100A (zh) * 2019-10-30 2020-02-18 安阳师范学院 一种基于多模态数据的甲骨学知识图谱构建方法及系统
CN110990585A (zh) * 2019-11-29 2020-04-10 上海勘察设计研究院(集团)有限公司 构建行业知识图谱的多源数据和时间序列处理方法及装置
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111611410A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 基于多层网络空间知识表示的知识处理方法和装置
US20210201168A1 (en) * 2020-09-15 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and Apparatus for Outputting Information, Device and Storage Medium
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法
CN112732939A (zh) * 2021-01-15 2021-04-30 中国科学院空天信息创新研究院 基于GraphDB的时空知识图谱构建方法、装置、介质及设备
CN112905807A (zh) * 2021-03-25 2021-06-04 北京邮电大学 一种多源时空知识融合方法
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DANDAN QIN ET.AL: ""Construction of Knowledge Graph of Multi-Source Heterogeneous Distribution Network Systems"", 《5TH INTERNATIONAL CONFERENCE ON MECHANICAL, CONTROL AND COMPUTER ENGINEERING (ICMCCE)》 *
张翀 等: ""面向时空特性的地理信息元数据组织方法"", 《计算机应用》 *
杨玉基 等: ""一种准确而高效的领域知识图谱构建方法"", 《软件学报》 *
王曙: ""自然语言驱动的地理知识图谱构建方法研究"", 《中国优秀博硕士学位论文全文数据库(博士) 基础科学辑》 *
蒋秉川 等: ""多源异构数据的大规模地理知识图谱构建"", 《测绘学报》 *
高嘉良 等: ""基于通用知识库的地理实体开放关系过滤方法"", 《地球信息科学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704565A (zh) * 2021-10-28 2021-11-26 浙江大学 基于全局区间误差的学习型时空索引方法、装置及介质
CN113704565B (zh) * 2021-10-28 2022-02-18 浙江大学 基于全局区间误差的学习型时空索引方法、装置及介质
CN115454993A (zh) * 2022-07-27 2022-12-09 北京优诺信创科技有限公司 一种具备时空信息的空间电磁环境特征数据处理方法
CN117332091A (zh) * 2023-08-29 2024-01-02 泰瑞数创科技(北京)股份有限公司 一种基于语义关系的地理实体时空知识图谱构建方法
CN117332091B (zh) * 2023-08-29 2024-03-29 泰瑞数创科技(北京)股份有限公司 一种基于语义关系的地理实体时空知识图谱构建方法
CN117033366A (zh) * 2023-10-09 2023-11-10 航天宏图信息技术股份有限公司 基于知识图谱的泛在时空数据交叉验证方法及装置
CN117033366B (zh) * 2023-10-09 2023-12-29 航天宏图信息技术股份有限公司 基于知识图谱的泛在时空数据交叉验证方法及装置

Also Published As

Publication number Publication date
CN113297395B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN113297395B (zh) 时空多模态混合数据处理方法、关联方法与索引方法
CN106095932B (zh) 百科知识问句识别方法及装置
CN108563773B (zh) 基于知识图谱的法律条文精准搜索排序方法
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
Schallehn et al. Efficient similarity-based operations for data integration
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN106156271A (zh) 基于分布式存储的关联信息索引系统及其建立与使用方法
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN111475625A (zh) 基于知识图谱的新闻稿件生成方法及系统
CN105335510A (zh) 文本数据高效搜索方法
CN105160046A (zh) 基于文本的数据检索方法
Omri et al. Towards an efficient big data indexing approach under an uncertain environment
CN105677740A (zh) 基于实体的文本数据与xml文档的匹配方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN116414872B (zh) 基于自然语言识别及知识图谱的数据搜索方法和系统
CN109460467B (zh) 一种网络信息分类体系构建方法
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
Ribeiro et al. Entity Identification in XML Documents.
CN115599892B (zh) 面向社交网络数据的语义搜索方法
Fotsoh et al. Retrieval of complex named entities on the web: proposals for similarity computation
CN112163077B (zh) 一种面向领域问答的知识图谱构建方法
Liu et al. Linking graph entities with multiplicity and provenance
Benali-Sougui et al. Flexible SQLf query based on fuzzy linguistic summaries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant