CN113297395B - 时空多模态混合数据处理方法、关联方法与索引方法 - Google Patents
时空多模态混合数据处理方法、关联方法与索引方法 Download PDFInfo
- Publication number
- CN113297395B CN113297395B CN202110770050.8A CN202110770050A CN113297395B CN 113297395 B CN113297395 B CN 113297395B CN 202110770050 A CN202110770050 A CN 202110770050A CN 113297395 B CN113297395 B CN 113297395B
- Authority
- CN
- China
- Prior art keywords
- time
- entity
- list
- text
- spatiotemporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种时空多模态混合数据处理方法、关联方法与索引方法。所述方法包括:获取时空多模态混合数据;确认知识图谱的知识图谱描述信息;确认非结构化文本的文本描述信息;确认关系数据库记录的记录描述信息;当时空多模态混合数据分别为知识图谱、非结构化文本以及关系数据库记录时,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行设计时空属性。采用本方法能够实现对时空多模态混合数据的统一设计处理。
Description
技术领域
本申请涉及时空数据处理技术领域,特别是涉及一种时空多模态混合数据处理方法、关联方法与索引方法。
背景技术
随着信息获取与处理手段的多样化发展,来自不同源头、不同模态的数据不断被积累,这些数据都是从业务、描述、知识等不同方面对客观对象的刻画,在进行决策分析时都需要进行参考,时空多模态混合数据包括时间、空间、知识图谱、非结构化文本以及关系数据库记录的数据,如何面向这5种模态数据进行统一组织与快速、智能化的查询是数据分析的重要前提手段。
然而,常规的数据组织与处理技术中,无法直接应用于时空多模态混合数据,并且常规的数据处理要么就是单纯的知识图谱+文本类数据,要么就是数据库记录的数据+文本类数据,没有进行统筹规划管理,从而导致数据管理和检索效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种时空多模态混合数据处理方法、关联方法与索引方法。
一种时空多模态混合数据处理方法,所述方法包括:
获取时空多模态混合数据;所述时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系;
确认所述知识图谱的知识图谱描述信息;所述知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系;
确认非结构化文本的文本描述信息;所述文本描述信息包括:文本内容、地理坐标集合以及时间集合;
确认关系数据库记录的记录描述信息;所述记录描述信息包括:记录、地理坐标以及主题时间;
当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱;
当时空多模态混合数据为非结构化文本时,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,根据所述文本内容、地理坐标集合以及时间集合,得到时空文本;
当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本。
在其中一个实施例中,还包括:当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;
若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;
对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到地点类实体对应的地理坐标,若实体类型为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定产生时间。
在其中一个实施例中,还包括:利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体;
若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
在其中一个实施例中,还包括:获取关系数据库记录中字段名称列表和元组记录列表;
提取所述元组记录列表中的元组记录,将所述元组记录的值与所述字段名称列表的属性一一对应,构建key-value键值对;
遍历所述key-value键值对中的k值,采用自然语言处理方式识别所述k值,若所述k值表示地点类名词,则取出所述k值对应的v值,利用v值查询地理位置表,得到v值对应的地理坐标;
若所述k值表示时间类名词,则取出所述k值对应的v值,将v值作为主题时间;
若所述k值不是地点类名词和时间类名词,则利用自然语言处理方式识别对应的v值,若v值为地点类实体,则查询地理位置表,得到地理坐标,若v值为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则推理得到显式时间,根据显式时间确定主题时间。
一种时空多模态混合数据关联方法,所述方法包括:
采用上述时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本;
根据所述时空知识图谱、所述时空文本和所述时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本;
从所述时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表;
利用关键词提取算法从所述时空文本样本中提取关键词,根据关键词构建关键词列表;
从所述时空记录文本中每个字段对应的值进行提取,得到表名称列表;
构建所述关键词列表至所述名称列表的第一映射,以及所述表名称列表到所述名称列表的第二映射;
根据所述第一映射、所述关键词列表对应的词向量以及所述名称列表对应的词向量,训练得到第一映射模型;根据所述第二映射、所述表名称列表对应的词向量以及所述名称列表对应的词向量,训练得到第二映射模型;
获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入所述第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系;
获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入所述第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
在其中一个实施例中,利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
在其中一个实施例中,还包括:将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储;将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。
一种时空多模态混合数据索引方法,所述方法包括:
采用上述时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联;
根据所述时空知识图谱的中心实体条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式;所述第一索引数据形式包括:第一索引标识;
根据所述时空文本中每一条文本和对应的所述关键词列表,构建每一条文本的第二索引数据形式;所述第二索引数据形式包括:第二索引标识;
根据所述时空记录文本中每一条记录和所述表名称列表,构建每一条记录的第三索引数据形式;所述第三索引数据形式包括:第三索引标识;
将所述第一索引数据形式、所述第二索引数据形式以及所述第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段;其中每个时间段中点的数量相同;
将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引;所述四叉树中每个层级对应的子空间中的词以哈希表形式存储;
获取检索条件;所述检索条件包括:时间范围、查询关键词列表以及查询空间范围;
根据所述时间范围获取候选时间段列表,根据所述时间段列表和所述查询空间范围,查询所述四叉树,当所述查询空间范围与所述四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点;
从所述目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
在其中一个实施例中,根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系,得到关联第一索引标识;根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。
在其中一个实施例中,根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系,得到关联第二索引标识和关联第三索引标识;根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表;根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。
上述时空多模态混合数据处理方法、关联方法与索引方法,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行时空属性的设计,即针对知识图谱仅是对中心实体才设计时空属性;针对非结构化文本,由于其可提取的时空属性较多,因此设计了多值时空属性;针对关系数据库记录的数据,设计了每个记录的时空属性,这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。
附图说明
图1为一个实施例中时空多模态混合数据处理方法的示意性流程图;
图2为一个实施例中时空多模态混合数据关联方法的流程示意图;
图3为一个实施例中关联关系的示意图;
图4为一个实施例中时空多模态混合数据索引方法的流程示意图;
图5为一个实施例中四叉树索引的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种时空多模态混合数据处理方法,包括以下步骤:
步骤102,获取时空多模态混合数据。
时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系。
步骤104,确认知识图谱的知识图谱描述信息。
知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系。
步骤106,确认非结构化文本的文本描述信息。
文本描述信息包括:文本内容、地理坐标集合以及时间集合。
步骤108,确认关系数据库记录的记录描述信息。
记录描述信息包括:记录、地理坐标以及主题时间。
步骤110,当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱。
步骤112,当时空多模态混合数据为非结构化文本时,利用自然语言处理对非结构化文本进行处理,得到地点类实体和时间类实体,根据地点类实体得到地理坐标集合以及根据时间类实体得到时间集合,根据文本内容、地理坐标集合以及时间集合,得到时空文本。
步骤114,当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据字段名称列表的属性和元组记录列表中的值,构建键值对,采用语义识别的方式识别键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本。
上述时空多模态混合数据处理方法中,针对具有时空特性知识图谱、非结构化文本和关系数据库中记录的数据以时空特点,形成具备将原始数据中具有时间和空间的属性提炼出来的能力,并且针对这3种不同类型的数据进行时空属性的设计,即针对知识图谱仅是对中心实体才设计时空属性;针对非结构化文本,由于其可提取的时空属性较多,因此设计了多值时空属性;针对关系数据库记录的数据,设计了每个记录的时空属性,这些时空属性的描述为后续构建时空特性的混合关联数据提供了条件。
具体的,当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,若实体类型为时间类实体,则判断时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定产生时间。
在其中一个实施例中,利用自然语言处理对非结构化文本进行处理,得到地点类实体和时间类实体;若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
具体的,以下以具体的一个处理过程进行说明。
上述具体实施例中,知识图谱、非结构化文本和关系数据库的记录面向时空特性的结构。该方法可以针对原始数据中无显式时空信息的特点,从已知数据中通过时空语义分析的途径解析出时空属性。与以往方法相比,本方法不需要用户对原始数据提出具备时空属性的要求,可以自动化的完成时空属性的提取,这在较大程度上提升了方法的易用性和适用性。
在其中一个实施例中,如图2所示,提供一种时空多模态混合数据关联方法的示意性流程图,包括:
步骤202,采用时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本。
步骤204,根据时空知识图谱、时空文本和时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本。
步骤206,从时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表。
步骤208,利用关键词提取算法从时空文本样本中提取关键词,根据关键词构建关键词列表。
步骤210,从时空记录文本中每个字段对应的值进行提取,得到表名称列表。
步骤212,构建关键词列表至所述名称列表的第一映射,以及表名称列表到名称列表的第二映射。
步骤214,根据第一映射、关键词列表对应的词向量以及名称列表对应的词向量,训练得到第一映射模型;根据第二映射、表名称列表对应的词向量以及名称列表对应的词向量,训练得到第二映射模型。
步骤216,获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系。
步骤218,获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
上述时空多模态混合数据关联方法中,采用了机器学习的办法让非结构化文本和关系数据库记录都关联到知识图谱的中心实体上,这种利用训练模型自动关联的方法大大降低了人工处理数据的成本。之前没有方法阐述过如何将知识图谱、非结构化文本和关系数据库记录这3者如何关联,本发明将这3者都统一到中心实体的维度,围绕中心实体关联,方便后续的检索。
在其中一个实施例中,利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
在其中一个实施例中,将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储,将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储
具体的,如图3所示,时空多模态混合数据的知识图谱、非结构化文本和关系数据库记录的数据往往是对同一事物的描述,即具有内在的关联性,因此可利用此关联性将3者组织起来,从而为建立索引提供基础,其中,图中ID指的是关系数据库记录对应表的序号,field1-3分别指的是不同的属性,value指的是不同序号属性对应的值,值得说明的是value在数据库技术中是专业名词,例如:valueField : "value",表示如何获取Field属性对应value值。
S6:利用预训练语言模型BERT(https://arxiv.org/abs/1810.04805)将,和分别转化成词向量,利用这些词向量和对应的映射关系,结合自回归模型训练,分别形成非结构化文本到知识图谱中心实体的映射模型和数据库记录数据到知识图谱中心实体的映射模型;
S7:针对知识图谱、非结构化文本的全量数据,首先分别构建各自的名称列表,再构建词向量,利用模型识别非结构化文本到知识图谱中心实体的映射关系,并将非结构化文本的存储位置标识与对应的中心实体存储标识的对应关系进行存储,即形成;
S8:针对知识图谱、关系数据库记录的全量数据,首先分别构建各自的名称列表,再构建词向量,利用模型识别数据库记录到知识图谱中心实体的映射关系,并将数据库记录的存储位置标识与对应的中心实体存储标识的对应关系进行存储,即形成。
在其中一个实施例中,如图4所示,提出一种时空多模态混合数据索引方法的流程示意图,包括:
步骤402,采用时空多模态混合数据关联方法对时空知识图谱、时空文本和时空记录文本进行关联。
步骤404,根据时空知识图谱中中心实体的条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式。
第一索引数据形式包括:第一索引标识。
步骤406,根据时空文本中每一条文本和对应的关键词列表,构建每一条文本的第二索引数据形式。
第二索引数据形式包括:第二索引标识。
根据时空记录文本中每一条记录和表名称列表,构建每一条记录的第三索引数据形式。
第三索引数据形式包括:第三索引标识。
步骤408,将第一索引数据形式、第二索引数据形式以及第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段。
每个时间段中点的数量相同。
步骤410,将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引。
四叉树中每个层级对应的子空间中的词以哈希表形式存储。
步骤412,获取检索条件。
检索条件包括:时间范围、查询关键词列表以及查询空间范围。
步骤414,根据时间范围获取候选时间段列表,根据时间段列表和查询空间范围,查询四叉树,当查询空间范围与四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点。
步骤416,从目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
上述时空多模态混合数据索引方法中,基于高效快速检索的目标,在时间维上并没有平均切分时间段,而是考虑平均切分时间所对应的空间坐标数据,这样的考虑可以在检索时提高剪枝率,加快查找速度。在索引空间数据时,考虑使用四叉树进行索引,四叉树具有构建速度快的特点,因此整个索引不但查找速度快,构建速度也很快。在构建空间索引同时,还使用了哈希表的技术来过滤查询的关键词,哈希表查询速度快,构建速度也快,这让索引具备了在保证高效查找前提下的多种条件查询能力。之前的方法大多利用R树构建索引,这在索引构建时会降低构建效率。
在其中一个实施例中,根据第二索引标识、第三索引标识、第一关联关系以及所述的第二关联关系,得到关联第一索引标识,根据关联第一索引标识和第一索引标识列表去重后得到修正第一索引标识列表。
在其中一个实施例中,根据修正第一索引标识列表、第一关联关系以及的第二关联关系,得到关联第二索引标识和关联第三索引标识;根据关联第二索引标识和第二索引标识列表去重后得到修正第二索引标识列表;根据关联第三索引标识和第三索引标识列表去重后得到修正第三索引标识列表。
具体的,基于构建的索引将时间、空间和关键词分别进行比较剪枝,可以快速定位到满足查询目标的数据,然后再利用关联的数据就可以快速高效的实现关联查询,将涉及到查询条件的全部结果以关联的形式进行展现。之前的关联查询方法是直接在查询时计算关联性,这会降低查询效率。
具体的,结合上述处理方法和关联方法,具体步骤如下:
具体的,在进行检索时,具体如下:
S2:针对每个在中的时间段,依据条件查询对应的四叉树索引,并且在四叉树的逐层结点查找时,除了将结点的空间范围与比较是否空间相交外,还要将该结点中的与中的全部词进行比较,即只有满足空间交集不为空且全部词都在中的结点,才能查找其子结点,否则剪枝;
S3:按照S2中的逐层递归,直到递归到叶子结点停止;
应该理解的是,虽然图1、2和4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、2和4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的相关技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种时空多模态混合数据处理方法,其特征在于,所述方法包括:
获取时空多模态混合数据;所述时空多模态混合数据包括:知识图谱、非结构化文本以及关系数据库记录;所述知识图谱中包括:时空数据对应的实体和关系;
确认所述知识图谱的知识图谱描述信息;所述知识图谱描述信息包括:中心实体、辅助实体、地理坐标、产生时间以及节点关系;
确认非结构化文本的文本描述信息;所述文本描述信息包括:文本内容、地理坐标集合以及时间集合;
确认关系数据库记录的记录描述信息;所述记录描述信息包括:记录、地理坐标以及主题时间;
当时空多模态混合数据为知识图谱时,根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,根据中心实体、辅助实体、地理坐标、产生时间以及节点关系,得到时空知识图谱;
当时空多模态混合数据为非结构化文本时,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,根据所述文本内容、地理坐标集合以及时间集合,得到时空文本;
当时空多模态混合数据为关系数据库记录时,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,根据记录、地理坐标以及主题时间,得到时空记录文本;
根据预先设置的核心主题词列表,判断节点的类型为中心实体或辅助实体,根据两个相连节点的类型,确定节点关系的类型,以及针对每一个中心实体,利用自然语言处理所述中心实体连接的辅助实体,确定中心实体对应的产生时间和地理坐标,包括:
当节点在预先设置的核心主题词列表中,则将该节点确定为中心实体,当节点不在预先设置的核心主题词列表中,则将该节点确定为辅助实体;
若两个相连节点的节点类型均为中心实体,则确定节点关系为中心关系;若两个相连节点的一个为中心实体,另一个是辅助实体,则确定节点关系为辅助关系;
对每个中心实体相连的辅助实体进行自然语言处理,得到辅助实体对应的实体类型,若实体类型为地点类实体,则查询地理位置表,得到地点类实体对应的地理坐标,若实体类型为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则推理得到显式时间,根据显式时间确定产生时间。
2.根据权利要求1所述的方法,其特征在于,利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体,根据所述地点类实体得到地理坐标集合以及根据所述时间类实体得到时间集合,包括:
利用自然语言处理对所述非结构化文本进行处理,得到地点类实体和时间类实体;
若为地点类实体,则查询地理位置表,得到该实体对应的地理坐标,根据地理坐标确定地理坐标集合,若为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定时间集合。
3.根据权利要求1所述的方法,其特征在于,获取关系数据库记录中字段名称列表和元组记录列表,根据所述字段名称列表的属性和所述元组记录列表中的值,构建键值对,采用语义识别的方式识别所述键值对,得到地理坐标以及主题时间,包括:
获取关系数据库记录中字段名称列表和元组记录列表;
提取所述元组记录列表中的元组记录,将所述元组记录的值与所述字段名称列表的属性一一对应,构建key-value键值对;
遍历所述key-value键值对中的k值,采用自然语言处理方式识别所述k值,若所述k值表示地点类名词,则取出所述k值对应的v值,利用v值查询地理位置表,得到v值对应的地理坐标;
若所述k值表示时间类名词,则取出所述k值对应的v值,将v值作为主题时间;
若所述k值不是地点类名词和时间类名词,则利用自然语言处理方式识别对应的v值,若v值为地点类实体,则查询地理位置表,得到地理坐标,若v值为时间类实体,则判断所述时间类实体是显式时间或隐式时间,若是隐式时间则通过推理得到显式时间,根据显式时间确定主题时间。
4.一种时空多模态混合数据关联方法,其特征在于,所述方法包括:
采用权利要求1至3任一项所述时空多模态混合数据处理方法,得到时空知识图谱、时空文本和时空记录文本;
根据所述时空知识图谱、所述时空文本和所述时空记录文本,构建时空知识图谱样本、时空文本样本和时空记录文本样本;
从所述时空知识图谱样本中提取每个中心实体对应辅助实体的名称,得到名称列表;
利用关键词提取算法从所述时空文本样本中提取关键词,根据关键词构建关键词列表;
从所述时空记录文本中每个字段对应的值进行提取,得到表名称列表;
构建所述关键词列表至所述名称列表的第一映射,以及所述表名称列表到所述名称列表的第二映射;
根据所述第一映射、所述关键词列表对应的词向量以及所述名称列表对应的词向量,训练得到第一映射模型;根据所述第二映射、所述表名称列表对应的词向量以及所述名称列表对应的词向量,训练得到第二映射模型;
获取待关联的时空知识图谱和时空文本,根据待关联的时空知识图谱和时空文本,依次提取得到待关联的名称列表和关键词列表,将待关联的名称列表和关键词列表对应的词向量输入所述第一映射模型,得到待关联的时空知识图谱和时空文本的第一关联关系;
获取待关联的时空知识图谱和时空记录文本,根据待关联的时空知识图谱和时空记录文本,依次提取得到待关联的名称列表和表名称列表,将待关联的名称列表和表名称列表对应的词向量输入所述第二映射模型,得到待关联的时空知识图谱和时空记录文本的第二关联关系。
5.根据权利要求4所述的方法,其特征在于,得到词向量的步骤,包括:
利用预训练语言模型将关键词列表、名称列表以及表名称列表分别转化为词向量。
6.根据权利要求4所述的方法,其特征在于,在得到待关联的时空知识图谱和时空文本的第一关联关系之后,所述方法还包括:
将时空文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储;
在得到待关联的时空知识图谱和时空记录文本的第二关联关系之后,所述方法还包括:
将时空记录文本的存储位置标识与时空知识图谱中对应中心实体的存储位置标识的对应关系进行存储。
7.一种时空多模态混合数据索引方法,其特征在于,所述方法包括:
采用权利要求4-6任一项所述的时空多模态混合数据关联方法对所述时空知识图谱、所述时空文本和所述时空记录文本进行关联;
根据所述时空知识图谱的中心实体条目,以及每个中心实体连接的辅助实体,构建每个中心实体的第一索引数据形式;所述第一索引数据形式包括:第一索引标识;
根据所述时空文本中每一条文本和对应的所述关键词列表,构建每一条文本的第二索引数据形式;所述第二索引数据形式包括:第二索引标识;
根据所述时空记录文本中每一条记录和所述表名称列表,构建每一条记录的第三索引数据形式;所述第三索引数据形式包括:第三索引标识;
将所述第一索引数据形式、所述第二索引数据形式以及所述第三索引数据形式进行时间维度对齐,并且沿着时间维度将时间划分为S个时间段;其中每个时间段中点的数量相同;
将每一个时间段中的点对应的空间坐标利用四叉树构建空间索引;所述四叉树中每个层级对应的子空间中的词以哈希表形式存储;
获取检索条件;所述检索条件包括:时间范围、查询关键词列表以及查询空间范围;
根据所述时间范围获取候选时间段列表,根据所述时间段列表和所述查询空间范围,查询所述四叉树,当所述查询空间范围与所述四叉树中结点空间相交,且查询关键词列表中的词全部在相交结点的哈希表中,则输出目标子结点;
从所述目标子结点中提取第一索引标识、第二索引标识以及第三索引标识,得到第一索引标识列表、第二索引标识列表以及第三索引标识列表。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述第二索引标识、所述第三索引标识、所述第一关联关系以及所述的第二关联关系,得到关联第一索引标识;
根据所述关联第一索引标识和所述第一索引标识列表去重后得到修正第一索引标识列表。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述修正第一索引标识列表、所述第一关联关系以及所述的第二关联关系,得到关联第二索引标识和关联第三索引标识;
根据所述关联第二索引标识和所述第二索引标识列表去重后得到修正第二索引标识列表;
根据所述关联第三索引标识和所述第三索引标识列表去重后得到修正第三索引标识列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770050.8A CN113297395B (zh) | 2021-07-08 | 2021-07-08 | 时空多模态混合数据处理方法、关联方法与索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770050.8A CN113297395B (zh) | 2021-07-08 | 2021-07-08 | 时空多模态混合数据处理方法、关联方法与索引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297395A CN113297395A (zh) | 2021-08-24 |
CN113297395B true CN113297395B (zh) | 2021-09-24 |
Family
ID=77330593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110770050.8A Active CN113297395B (zh) | 2021-07-08 | 2021-07-08 | 时空多模态混合数据处理方法、关联方法与索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297395B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704565B (zh) * | 2021-10-28 | 2022-02-18 | 浙江大学 | 基于全局区间误差的学习型时空索引方法、装置及介质 |
CN115454993A (zh) * | 2022-07-27 | 2022-12-09 | 北京优诺信创科技有限公司 | 一种具备时空信息的空间电磁环境特征数据处理方法 |
CN117332091B (zh) * | 2023-08-29 | 2024-03-29 | 泰瑞数创科技(北京)股份有限公司 | 一种基于语义关系的地理实体时空知识图谱构建方法 |
CN117033366B (zh) * | 2023-10-09 | 2023-12-29 | 航天宏图信息技术股份有限公司 | 基于知识图谱的泛在时空数据交叉验证方法及装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
US10795937B2 (en) * | 2016-08-08 | 2020-10-06 | International Business Machines Corporation | Expressive temporal predictions over semantically driven time windows |
CN108345596A (zh) * | 2017-01-22 | 2018-07-31 | 分众(中国)信息技术有限公司 | 楼宇信息融合服务平台 |
CN108038183B (zh) * | 2017-12-08 | 2020-11-24 | 北京百度网讯科技有限公司 | 结构化实体收录方法、装置、服务器和存储介质 |
US20190179878A1 (en) * | 2017-12-12 | 2019-06-13 | Google Llc | Generating organization-specific tags for communications from various sources of an organization using an expanded knowledge graph for organization-specific content |
CN109284394A (zh) * | 2018-09-12 | 2019-01-29 | 青岛大学 | 一种从多源数据集成视角构建企业知识图谱的方法 |
CN110197280B (zh) * | 2019-05-20 | 2021-08-06 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110489395B (zh) * | 2019-07-27 | 2022-07-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110647662B (zh) * | 2019-08-03 | 2022-10-14 | 电子科技大学 | 一种基于语义的多模态时空数据关联方法 |
CN110807100A (zh) * | 2019-10-30 | 2020-02-18 | 安阳师范学院 | 一种基于多模态数据的甲骨学知识图谱构建方法及系统 |
CN110990585B (zh) * | 2019-11-29 | 2024-01-30 | 上海勘察设计研究院(集团)股份有限公司 | 构建行业知识图谱的多源数据和时间序列处理方法及装置 |
CN111666313B (zh) * | 2020-05-25 | 2023-02-07 | 中科星图股份有限公司 | 基于多源异构遥感数据关联构建及多用户数据匹配方法 |
CN111611410B (zh) * | 2020-06-23 | 2024-01-12 | 中国人民解放军国防科技大学 | 基于多层网络空间知识表示的知识处理方法和装置 |
CN112100288B (zh) * | 2020-09-15 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN112256888A (zh) * | 2020-10-30 | 2021-01-22 | 南京师范大学 | 地理知识获取方法 |
CN112732939B (zh) * | 2021-01-15 | 2022-11-29 | 中国科学院空天信息创新研究院 | 基于GraphDB的时空知识图谱构建方法、装置、介质及设备 |
CN112905807B (zh) * | 2021-03-25 | 2022-07-08 | 北京邮电大学 | 一种多源时空知识融合方法 |
CN113065000B (zh) * | 2021-03-29 | 2021-10-22 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
-
2021
- 2021-07-08 CN CN202110770050.8A patent/CN113297395B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113297395A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297395B (zh) | 时空多模态混合数据处理方法、关联方法与索引方法 | |
US20210081376A1 (en) | Construction method, device, computing device, and storage medium for constructing patent knowledge database | |
CN106095932B (zh) | 百科知识问句识别方法及装置 | |
De Carvalho et al. | A genetic programming approach to record deduplication | |
CN112163077B (zh) | 一种面向领域问答的知识图谱构建方法 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN114218400A (zh) | 基于语义的数据湖查询系统及方法 | |
CN116431837B (zh) | 基于大型语言模型和图网络模型的文档检索方法和装置 | |
CN113254630B (zh) | 一种面向全球综合观测成果的领域知识图谱推荐方法 | |
CN111475625A (zh) | 基于知识图谱的新闻稿件生成方法及系统 | |
CN106156271A (zh) | 基于分布式存储的关联信息索引系统及其建立与使用方法 | |
CN105335510A (zh) | 文本数据高效搜索方法 | |
CN113851219A (zh) | 一种基于多模态知识图谱的智能导诊方法 | |
CN105160046A (zh) | 基于文本的数据检索方法 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
Omri et al. | Towards an efficient big data indexing approach under an uncertain environment | |
CN105677740A (zh) | 基于实体的文本数据与xml文档的匹配方法 | |
CN112800179B (zh) | 关联数据库查询方法、装置、存储介质及电子设备 | |
CN116414872B (zh) | 基于自然语言识别及知识图谱的数据搜索方法和系统 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
CN113127650A (zh) | 一种基于图数据库的技术图谱构建方法和系统 | |
Ribeiro et al. | StreamPref: a query language for temporal conditional preferences on data streams | |
Shahzad et al. | Automated Generation of Graphs from Relational Sources to Optimise Queries for Collaborative Filtering | |
Ribeiro et al. | Entity Identification in XML Documents. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |