CN113297395B

CN113297395B - 时空多模态混合数据处理方法、关联方法与索引方法

Info

Publication number: CN113297395B
Application number: CN202110770050.8A
Authority: CN
Inventors: 张翀; 葛斌; 何春辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-24
Anticipated expiration: 2041-07-08
Also published as: CN113297395A

Abstract

本申请涉及一种时空多模态混合数据处理方法、关联方法与索引方法。所述方法包括：获取时空多模态混合数据；确认知识图谱的知识图谱描述信息；确认非结构化文本的文本描述信息；确认关系数据库记录的记录描述信息；当时空多模态混合数据分别为知识图谱、非结构化文本以及关系数据库记录时，针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点，形成具备将原始数据中具有时间和空间的属性提炼出来的能力，并且针对这3种不同类型的数据进行设计时空属性。采用本方法能够实现对时空多模态混合数据的统一设计处理。

Description

时空多模态混合数据处理方法、关联方法与索引方法

技术领域

本申请涉及时空数据处理技术领域，特别是涉及一种时空多模态混合数据处理方法、关联方法与索引方法。

背景技术

随着信息获取与处理手段的多样化发展，来自不同源头、不同模态的数据不断被积累，这些数据都是从业务、描述、知识等不同方面对客观对象的刻画，在进行决策分析时都需要进行参考，时空多模态混合数据包括时间、空间、知识图谱、非结构化文本以及关系数据库记录的数据，如何面向这5种模态数据进行统一组织与快速、智能化的查询是数据分析的重要前提手段。

然而，常规的数据组织与处理技术中，无法直接应用于时空多模态混合数据，并且常规的数据处理要么就是单纯的知识图谱+文本类数据，要么就是数据库记录的数据+文本类数据，没有进行统筹规划管理，从而导致数据管理和检索效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种时空多模态混合数据处理方法、关联方法与索引方法。

一种时空多模态混合数据处理方法，所述方法包括：

获取时空多模态混合数据；所述时空多模态混合数据包括：知识图谱、非结构化文本以及关系数据库记录；所述知识图谱中包括：时空数据对应的实体和关系；

确认所述知识图谱的知识图谱描述信息；所述知识图谱描述信息包括：中心实体、辅助实体、地理坐标、产生时间以及节点关系；

确认非结构化文本的文本描述信息；所述文本描述信息包括：文本内容、地理坐标集合以及时间集合；

确认关系数据库记录的记录描述信息；所述记录描述信息包括：记录、地理坐标以及主题时间；

当时空多模态混合数据为知识图谱时，根据预先设置的核心主题词列表，判断节点的类型为中心实体或辅助实体，根据两个相连节点的类型，确定节点关系的类型，以及针对每一个中心实体，利用自然语言处理所述中心实体连接的辅助实体，确定中心实体对应的产生时间和地理坐标，根据中心实体、辅助实体、地理坐标、产生时间以及节点关系，得到时空知识图谱；

当时空多模态混合数据为非结构化文本时，利用自然语言处理对所述非结构化文本进行处理，得到地点类实体和时间类实体，根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合，根据所述文本内容、地理坐标集合以及时间集合，得到时空文本；

当时空多模态混合数据为关系数据库记录时，获取关系数据库记录中字段名称列表和元组记录列表，根据所述字段名称列表的属性和所述元组记录列表中的值，构建键值对，采用语义识别的方式识别所述键值对，得到地理坐标以及主题时间，根据记录、地理坐标以及主题时间，得到时空记录文本。

在其中一个实施例中，还包括：当节点在预先设置的核心主题词列表中，则将该节点确定为中心实体，当节点不在预先设置的核心主题词列表中，则将该节点确定为辅助实体；

若两个相连节点的节点类型均为中心实体，则确定节点关系为中心关系；若两个相连节点的一个为中心实体，另一个是辅助实体，则确定节点关系为辅助关系；

对每个中心实体相连的辅助实体进行自然语言处理，得到辅助实体对应的实体类型，若实体类型为地点类实体，则查询地理位置表，得到地点类实体对应的地理坐标，若实体类型为时间类实体，则判断所述时间类实体是显式时间或隐式时间，若是隐式时间则通过推理得到显式时间，根据显式时间确定产生时间。

在其中一个实施例中，还包括：利用自然语言处理对所述非结构化文本进行处理，得到地点类实体和时间类实体；

若为地点类实体，则查询地理位置表，得到该实体对应的地理坐标，根据地理坐标确定地理坐标集合，若为时间类实体，则判断所述时间类实体是显式时间或隐式时间，若是隐式时间则通过推理得到显式时间，根据显式时间确定时间集合。

在其中一个实施例中，还包括：获取关系数据库记录中字段名称列表和元组记录列表；

提取所述元组记录列表中的元组记录，将所述元组记录的值与所述字段名称列表的属性一一对应，构建key-value键值对；

遍历所述key-value键值对中的k值，采用自然语言处理方式识别所述k值，若所述k值表示地点类名词，则取出所述k值对应的v值，利用v值查询地理位置表，得到v值对应的地理坐标；

若所述k值表示时间类名词，则取出所述k值对应的v值，将v值作为主题时间；

若所述k值不是地点类名词和时间类名词，则利用自然语言处理方式识别对应的v值，若v值为地点类实体，则查询地理位置表，得到地理坐标，若v值为时间类实体，则判断所述时间类实体是显式时间或隐式时间，若是隐式时间则推理得到显式时间，根据显式时间确定主题时间。

一种时空多模态混合数据关联方法，所述方法包括：

采用上述时空多模态混合数据处理方法，得到时空知识图谱、时空文本和时空记录文本；

根据所述时空知识图谱、所述时空文本和所述时空记录文本，构建时空知识图谱样本、时空文本样本和时空记录文本样本；

从所述时空知识图谱样本中提取每个中心实体对应辅助实体的名称，得到名称列表；

利用关键词提取算法从所述时空文本样本中提取关键词，根据关键词构建关键词列表；

从所述时空记录文本中每个字段对应的值进行提取，得到表名称列表；

构建所述关键词列表至所述名称列表的第一映射，以及所述表名称列表到所述名称列表的第二映射；

根据所述第一映射、所述关键词列表对应的词向量以及所述名称列表对应的词向量，训练得到第一映射模型；根据所述第二映射、所述表名称列表对应的词向量以及所述名称列表对应的词向量，训练得到第二映射模型；

获取待关联的时空知识图谱和时空文本，根据待关联的时空知识图谱和时空文本，依次提取得到待关联的名称列表和关键词列表，将待关联的名称列表和关键词列表对应的词向量输入所述第一映射模型，得到待关联的时空知识图谱和时空文本的第一关联关系；

获取待关联的时空知识图谱和时空记录文本，根据待关联的时空知识图谱和时空记录文本，依次提取得到待关联的名称列表和表名称列表，将待关联的名称列表和表名称列表对应的词向量输入所述第二映射模型，得到待关联的时空知识图谱和时空记录文本的第二关联关系。

在其中一个实施例中，利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。

在其中一个实施例中，还包括：将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储；将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。

一种时空多模态混合数据索引方法，所述方法包括：

采用上述时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联；

根据所述时空知识图谱的中心实体条目，以及每个中心实体连接的辅助实体，构建每个中心实体的第一索引数据形式；所述第一索引数据形式包括：第一索引标识；

根据所述时空文本中每一条文本和对应的所述关键词列表，构建每一条文本的第二索引数据形式；所述第二索引数据形式包括：第二索引标识；

根据所述时空记录文本中每一条记录和所述表名称列表，构建每一条记录的第三索引数据形式；所述第三索引数据形式包括：第三索引标识；

将所述第一索引数据形式、所述第二索引数据形式以及所述第三索引数据形式进行时间维度对齐，并且沿着时间维度将时间划分为S个时间段；其中每个时间段中点的数量相同；

将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引；所述四叉树中每个层级对应的子空间中的词以哈希表形式存储；

获取检索条件；所述检索条件包括：时间范围、查询关键词列表以及查询空间范围；

根据所述时间范围获取候选时间段列表，根据所述时间段列表和所述查询空间范围，查询所述四叉树，当所述查询空间范围与所述四叉树中结点空间相交，且查询关键词列表中的词全部在相交结点的哈希表中，则输出目标子结点；

从所述目标子结点中提取第一索引标识、第二索引标识以及第三索引标识，得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。

在其中一个实施例中，根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系，得到关联第一索引标识；根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。

在其中一个实施例中，根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系，得到关联第二索引标识和关联第三索引标识；根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表；根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。

上述时空多模态混合数据处理方法、关联方法与索引方法，针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点，形成具备将原始数据中具有时间和空间的属性提炼出来的能力，并且针对这3种不同类型的数据进行时空属性的设计，即针对知识图谱仅是对中心实体才设计时空属性；针对非结构化文本，由于其可提取的时空属性较多，因此设计了多值时空属性；针对关系数据库记录的数据，设计了每个记录的时空属性，这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。

附图说明

图1为一个实施例中时空多模态混合数据处理方法的示意性流程图；

图2为一个实施例中时空多模态混合数据关联方法的流程示意图；

图3为一个实施例中关联关系的示意图；

图4为一个实施例中时空多模态混合数据索引方法的流程示意图；

图5为一个实施例中四叉树索引的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种时空多模态混合数据处理方法，包括以下步骤：

步骤102，获取时空多模态混合数据。

时空多模态混合数据包括：知识图谱、非结构化文本以及关系数据库记录；所述知识图谱中包括：时空数据对应的实体和关系。

步骤104，确认知识图谱的知识图谱描述信息。

知识图谱描述信息包括：中心实体、辅助实体、地理坐标、产生时间以及节点关系。

具体的，针对具有时空特性的知识图谱

，可表示为

，其中

为中心实体，是

中的一种核心事实的描述，

为辅助实体，是对

进行描述的实体，

描述

的地理坐标，

描述

的发生或产生时间，

为2个

之间的关系，

为

和

之间的关系。

步骤106，确认非结构化文本的文本描述信息。

文本描述信息包括：文本内容、地理坐标集合以及时间集合。

具体的，针对具有时空特性的非结构化文本

，可表示为

，其中

是文本内容，

是

中蕴含的地理坐标集合，

是

中蕴含的时间集合。

步骤108，确认关系数据库记录的记录描述信息。

记录描述信息包括：记录、地理坐标以及主题时间。

具体的，针对具有时空特性的关系数据库表的记录

，可表示为

，其中

是一条记录，具体为

，

为字段，

为

对应的值，

是

蕴含或指向某个主题的地理坐标，

是

蕴含或指向某个主题的时间。

步骤110，当时空多模态混合数据为知识图谱时，根据预先设置的核心主题词列表，判断节点的类型为中心实体或辅助实体，根据两个相连节点的类型，确定节点关系的类型，以及针对每一个中心实体，利用自然语言处理中心实体连接的辅助实体，确定中心实体对应的产生时间和地理坐标，根据中心实体、辅助实体、地理坐标、产生时间以及节点关系，得到时空知识图谱。

步骤112，当时空多模态混合数据为非结构化文本时，利用自然语言处理对非结构化文本进行处理，得到地点类实体和时间类实体，根据地点类实体得到地理坐标集合以及根据时间类实体得到时间集合，根据文本内容、地理坐标集合以及时间集合，得到时空文本。

步骤114，当时空多模态混合数据为关系数据库记录时，获取关系数据库记录中字段名称列表和元组记录列表，根据字段名称列表的属性和元组记录列表中的值，构建键值对，采用语义识别的方式识别键值对，得到地理坐标以及主题时间，根据记录、地理坐标以及主题时间，得到时空记录文本。

上述时空多模态混合数据处理方法中，针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点，形成具备将原始数据中具有时间和空间的属性提炼出来的能力，并且针对这3种不同类型的数据进行时空属性的设计，即针对知识图谱仅是对中心实体才设计时空属性；针对非结构化文本，由于其可提取的时空属性较多，因此设计了多值时空属性；针对关系数据库记录的数据，设计了每个记录的时空属性，这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。

具体的，当节点在预先设置的核心主题词列表中，则将该节点确定为中心实体，当节点不在预先设置的核心主题词列表中，则将该节点确定为辅助实体；若两个相连节点的节点类型均为中心实体，则确定节点关系为中心关系；若两个相连节点的一个为中心实体，另一个是辅助实体，则确定节点关系为辅助关系；对每个中心实体相连的辅助实体进行自然语言处理，得到辅助实体对应的实体类型，若实体类型为地点类实体，则查询地理位置表，得到该实体对应的地理坐标，若实体类型为时间类实体，则判断时间类实体是显式时间或隐式时间，若是隐式时间则通过推理得到显式时间，根据显式时间确定产生时间。

在其中一个实施例中，利用自然语言处理对非结构化文本进行处理，得到地点类实体和时间类实体；若为地点类实体，则查询地理位置表，得到该实体对应的地理坐标，根据地理坐标确定地理坐标集合，若为时间类实体，则判断时间类实体是显式时间或隐式时间，若是隐式时间则通过推理得到显式时间，根据显式时间确定时间集合。

具体的，以下以具体的一个处理过程进行说明。

给定的知识图谱中一般不会显式的具有

的描述特征，因此需要通过构建方法表示为上述特征。设给定知识图谱

，

为实体集合，

为实体间关系集合，预先提供的核心主题词列表为

。

S1：针对

中的每个实体

，检查

是否被包含在

中；

S11：若

在

中，将

的类型更新为

；

S12：否则，将

的类型更新为

；

S2：针对

中的每个关系

，检查

连接的2个实体类型；

S21：若

连接的实体类型均为

，将

的类型更新为

；

S22：若

连接的实体类型为

和

，将

的类型更新为

；

S23：若

连接的实体类型均为

，不对

做出更新；

S3：针对

中的每个中心实体

，遍历与其相连的辅助实体

，利用自然语言处理中实体识别算法对

进行分析；

S31：若解析出

为地点类实体

，将

查询地理位置表，求出

对应的地理坐标

，即为该

的地理坐标

；

S32：若解析出

为时间类实体，则判断；

S321：若为显式时间，则直接定义为该

的时间

；

S322：否则，结合上下文利用时间推理算法，得出显式时间

，作为该

的时间

；

S33：若为其他情况，对

不处理。

给定的非结构化文本中是没有显式的时空值的，需要通过构建方法进行构建，设给定的非结构化文本是

。

S1：利用自然语言处理中实体识别算法对

进行处理；

S2：针对每一个识别出来的地点类实体

，将

查询地理位置表，求出

对应的地理坐标

，将

加入集合

；

S3：针对每一个识别出来的时间类实体

，则判断；

S31：若

为显式时间，则直接将

加入集合

；

S32：否则，结合上下文利用时间推理算法，得出

的显式时间

，将

加入集合

。

设给定的关系数据库表为

；

S1：获取

的字段名称列表

；

S2：取出一条元组记录

；

S3：将

与

中的属性和值一一对应，构建key-value键值对，形成

；

S4：遍历

中的

，利用自然语言处理中语义方法识别

，并判断；

S41：若

的语义表示地点、位置等意思，取出

对应的

，将

查询地理位置表，求出

对应的地理坐标

，将

作为

的地理坐标；

S42：若

的语义表示时间、时刻等意思，取出

对应的

，将

作为

的时间

；

S43：若识别不出

的语义为时间和空间等内容，则遍历所有的

值，利用自然语言处理中实体识别算法对

进行处理；

S431：针对

识别出来的地点类实体

，将

查询地理位置表，求出

对应的地理坐标

，将

作为

的地理坐标；

S432：针对

识别出来的时间类实体

，则判断；

S4321：若

为显式时间，则直接将

作为

的时间

；

S4322：否则，利用时间推理算法，得出

的显式时间

，将

作为

的时间

。

上述具体实施例中，知识图谱、非结构化文本和关系数据库的记录面向时空特性的结构。该方法可以针对原始数据中无显式时空信息的特点，从已知数据中通过时空语义分析的途径解析出时空属性。与以往方法相比，本方法不需要用户对原始数据提出具备时空属性的要求，可以自动化的完成时空属性的提取，这在较大程度上提升了方法的易用性和适用性。

在其中一个实施例中，如图2所示，提供一种时空多模态混合数据关联方法的示意性流程图，包括：

步骤202，采用时空多模态混合数据处理方法，得到时空知识图谱、时空文本和时空记录文本。

步骤204，根据时空知识图谱、时空文本和时空记录文本，构建时空知识图谱样本、时空文本样本和时空记录文本样本。

步骤206，从时空知识图谱样本中提取每个中心实体对应辅助实体的名称，得到名称列表。

步骤208，利用关键词提取算法从时空文本样本中提取关键词，根据关键词构建关键词列表。

步骤210，从时空记录文本中每个字段对应的值进行提取，得到表名称列表。

步骤212，构建关键词列表至所述名称列表的第一映射，以及表名称列表到名称列表的第二映射。

步骤214，根据第一映射、关键词列表对应的词向量以及名称列表对应的词向量，训练得到第一映射模型；根据第二映射、表名称列表对应的词向量以及名称列表对应的词向量，训练得到第二映射模型。

步骤216，获取待关联的时空知识图谱和时空文本，根据待关联的时空知识图谱和时空文本，依次提取得到待关联的名称列表和关键词列表，将待关联的名称列表和关键词列表对应的词向量输入第一映射模型，得到待关联的时空知识图谱和时空文本的第一关联关系。

步骤218，获取待关联的时空知识图谱和时空记录文本，根据待关联的时空知识图谱和时空记录文本，依次提取得到待关联的名称列表和表名称列表，将待关联的名称列表和表名称列表对应的词向量输入第二映射模型，得到待关联的时空知识图谱和时空记录文本的第二关联关系。

上述时空多模态混合数据关联方法中，采用了机器学习的办法让非结构化文本和关系数据库记录都关联到知识图谱的中心实体上，这种利用训练模型自动关联的方法大大降低了人工处理数据的成本。之前没有方法阐述过如何将知识图谱、非结构化文本和关系数据库记录这3者如何关联，本发明将这3者都统一到中心实体的维度，围绕中心实体关联，方便后续的检索。

在其中一个实施例中，将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储，将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储

具体的，如图3所示，时空多模态混合数据的知识图谱、非结构化文本和关系数据库记录的数据往往是对同一事物的描述，即具有内在的关联性，因此可利用此关联性将3者组织起来，从而为建立索引提供基础，其中，图中ID指的是关系数据库记录对应表的序号，field1-3分别指的是不同的属性，value指的是不同序号属性对应的值，值得说明的是value在数据库技术中是专业名词，例如：valueField : "value"，表示如何获取Field属性对应value值。

S1：获取知识图谱、非结构化文本和关系数据库记录的样本数据，分别表示为

，

以及

；

S2：针对

的每个中心实体，将中心实体所连接的全部辅助实体名称进行提取，这些名称构成一个名称列表

；

S3：针对每个

，利用自然语言处理的关键词提取算法，将

的

提取关键词，构成非结构化文本的名称列表

；

S4：针对每个记录

，将其字段对应的值全部提取，这些值构成记录的名称列表

；

S5：领域专家进行2项人工映射，即非结构化文本的名称列表

到知识图谱名称列表

的映射，记录的名称列表

到知识图谱名称列表

的映射；

S6：利用预训练语言模型BERT（https://arxiv.org/abs/1810.04805）将

，

和

分别转化成词向量，利用这些词向量和对应的映射关系，结合自回归模型训练，分别形成非结构化文本到知识图谱中心实体的映射模型

和数据库记录数据到知识图谱中心实体的映射模型

；

S7：针对知识图谱、非结构化文本的全量数据，首先分别构建各自的名称列表，再构建词向量，利用

模型识别非结构化文本到知识图谱中心实体的映射关系，并将非结构化文本的存储位置标识与对应的中心实体存储标识的对应关系进行存储，即形成

；

S8：针对知识图谱、关系数据库记录的全量数据，首先分别构建各自的名称列表，再构建词向量，利用

模型识别数据库记录到知识图谱中心实体的映射关系，并将数据库记录的存储位置标识与对应的中心实体存储标识的对应关系进行存储，即形成

。

在其中一个实施例中，如图4所示，提出一种时空多模态混合数据索引方法的流程示意图，包括：

步骤402，采用时空多模态混合数据关联方法对时空知识图谱、时空文本和时空记录文本进行关联。

步骤404，根据时空知识图谱中中心实体的条目，以及每个中心实体连接的辅助实体，构建每个中心实体的第一索引数据形式。

第一索引数据形式包括：第一索引标识。

步骤406，根据时空文本中每一条文本和对应的关键词列表，构建每一条文本的第二索引数据形式。

第二索引数据形式包括：第二索引标识。

根据时空记录文本中每一条记录和表名称列表，构建每一条记录的第三索引数据形式。

第三索引数据形式包括：第三索引标识。

步骤408，将第一索引数据形式、第二索引数据形式以及第三索引数据形式进行时间维度对齐，并且沿着时间维度将时间划分为S个时间段。

每个时间段中点的数量相同。

步骤410，将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引。

四叉树中每个层级对应的子空间中的词以哈希表形式存储。

步骤412，获取检索条件。

检索条件包括：时间范围、查询关键词列表以及查询空间范围。

步骤414，根据时间范围获取候选时间段列表，根据时间段列表和查询空间范围，查询四叉树，当查询空间范围与四叉树中结点空间相交，且查询关键词列表中的词全部在相交结点的哈希表中，则输出目标子结点。

步骤416，从目标子结点中提取第一索引标识、第二索引标识以及第三索引标识，得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。

上述时空多模态混合数据索引方法中，基于高效快速检索的目标，在时间维上并没有平均切分时间段，而是考虑平均切分时间所对应的空间坐标数据，这样的考虑可以在检索时提高剪枝率，加快查找速度。在索引空间数据时，考虑使用四叉树进行索引，四叉树具有构建速度快的特点，因此整个索引不但查找速度快，构建速度也很快。在构建空间索引同时，还使用了哈希表的技术来过滤查询的关键词，哈希表查询速度快，构建速度也快，这让索引具备了在保证高效查找前提下的多种条件查询能力。之前的方法大多利用R树构建索引，这在索引构建时会降低构建效率。

在其中一个实施例中，根据第二索引标识、第三索引标识、第一关联关系以及所述的第二关联关系，得到关联第一索引标识，根据关联第一索引标识和第一索引标识列表去重后得到修正第一索引标识列表。

在其中一个实施例中，根据修正第一索引标识列表、第一关联关系以及的第二关联关系，得到关联第二索引标识和关联第三索引标识；根据关联第二索引标识和第二索引标识列表去重后得到修正第二索引标识列表；根据关联第三索引标识和第三索引标识列表去重后得到修正第三索引标识列表。

具体的，基于构建的索引将时间、空间和关键词分别进行比较剪枝，可以快速定位到满足查询目标的数据，然后再利用关联的数据就可以快速高效的实现关联查询，将涉及到查询条件的全部结果以关联的形式进行展现。之前的关联查询方法是直接在查询时计算关联性，这会降低查询效率。

具体的，结合上述处理方法和关联方法，具体步骤如下：

S1：将给定的知识图谱表示为按照中心实体为条目的数据，即知识图谱变为一个个

，然后转换为提交给索引的数据形式

，其中

为该中心实体的存储标识；

S2：将给定的每个非结构化文档表示为一个

，即文本内容、地理坐标集合、时间集合，然后将其转换为提交给索引的数据形式

，其中

为该非结构化文本的存储标识，

为该文本的关键词列表；

S3：将给定的每个关系数据记录表示为一个

，即键值对集合、地理坐标和时间，然后将其转换为提交给索引的数据形式

，其中

为该记录存储标识，

为该记录所有值构成的词列表；

S4：将

，

和

进行时间维度汇总；

S5：沿着时间维度按照将空间坐标点数量等分为

份的目标把时间维度切分为

段，即每一段时间对应的空间坐标点数量是一致的，每一个时间段用

表示；

S6：将每一时间段

下对应的空间坐标点利用Quad树（四叉树）构建空间索引，即

；

S7：在

每一层级的每一个子空间（即四叉空间）中，将此子空间所包含的全部词构建哈希表

，即

存在于

的结点中，可检查每个词是否以哈希形式存在此表中，具体如图5所示，其中显示了

的具体结构。

具体的，在进行检索时，具体如下：

针对给定的查询条件

，即

为查询的空间范围，

为查询的时间范围，

为查询的关键词列表，返回满足此查询条件且关联在一起的知识图谱、非结构化文本和关系数据库记录。

S1：将时间查询条件

与每一个时间段

求交集，将交集不为空的时间段保留，形成候选时间段列表

；

S2：针对每个在

中的时间段

，依据

条件查询

对应的四叉树索引

，并且在四叉树的逐层结点查找时，除了将结点的空间范围与

比较是否空间相交外，还要将该结点中的

与

中的全部词进行比较，即只有满足空间交集不为空且

全部词都在

中的结点，才能查找其子结点，否则剪枝；

S3：按照S2中的逐层递归，直到递归到叶子结点停止；

S4：将满足查询条件的叶子结点中的

、

和

进行提取，分别形成结果列表

，

和

；

S5：将

和

中的存储标识分别查询3.5节中的

和

，获得对应的

，再将查询得到的

与

合并去重，形成

；

S6：将

中的每一个标识

分别查询3.5节中的

和

，得到对应的

和

（结果存在多个），构建结果结构组合

。

应该理解的是，虽然图1、2和4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、2和4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的相关技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种时空多模态混合数据处理方法，其特征在于，所述方法包括：

当时空多模态混合数据为关系数据库记录时，获取关系数据库记录中字段名称列表和元组记录列表，根据所述字段名称列表的属性和所述元组记录列表中的值，构建键值对，采用语义识别的方式识别所述键值对，得到地理坐标以及主题时间，根据记录、地理坐标以及主题时间，得到时空记录文本；

根据预先设置的核心主题词列表，判断节点的类型为中心实体或辅助实体，根据两个相连节点的类型，确定节点关系的类型，以及针对每一个中心实体，利用自然语言处理所述中心实体连接的辅助实体，确定中心实体对应的产生时间和地理坐标，包括：

当节点在预先设置的核心主题词列表中，则将该节点确定为中心实体，当节点不在预先设置的核心主题词列表中，则将该节点确定为辅助实体；

对每个中心实体相连的辅助实体进行自然语言处理，得到辅助实体对应的实体类型，若实体类型为地点类实体，则查询地理位置表，得到地点类实体对应的地理坐标，若实体类型为时间类实体，则判断所述时间类实体是显式时间或隐式时间，若是隐式时间则推理得到显式时间，根据显式时间确定产生时间。

2.根据权利要求1所述的方法，其特征在于，利用自然语言处理对所述非结构化文本进行处理，得到地点类实体和时间类实体，根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合，包括：

利用自然语言处理对所述非结构化文本进行处理，得到地点类实体和时间类实体；

3.根据权利要求1所述的方法，其特征在于，获取关系数据库记录中字段名称列表和元组记录列表，根据所述字段名称列表的属性和所述元组记录列表中的值，构建键值对，采用语义识别的方式识别所述键值对，得到地理坐标以及主题时间，包括：

获取关系数据库记录中字段名称列表和元组记录列表；

若所述k值不是地点类名词和时间类名词，则利用自然语言处理方式识别对应的v值，若v值为地点类实体，则查询地理位置表，得到地理坐标，若v值为时间类实体，则判断所述时间类实体是显式时间或隐式时间，若是隐式时间则通过推理得到显式时间，根据显式时间确定主题时间。

4.一种时空多模态混合数据关联方法，其特征在于，所述方法包括：

采用权利要求1至3任一项所述时空多模态混合数据处理方法，得到时空知识图谱、时空文本和时空记录文本；

5.根据权利要求4所述的方法，其特征在于，得到词向量的步骤，包括：

利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。

6.根据权利要求4所述的方法，其特征在于，在得到待关联的时空知识图谱和时空文本的第一关联关系之后，所述方法还包括：

将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储；

在得到待关联的时空知识图谱和时空记录文本的第二关联关系之后，所述方法还包括：

将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。

7.一种时空多模态混合数据索引方法，其特征在于，所述方法包括：

采用权利要求4-6任一项所述的时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系，得到关联第一索引标识；

根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系，得到关联第二索引标识和关联第三索引标识；

根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表；

根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。