CN113821702A

CN113821702A - 一种城市多维空间多元异构信息数据处理方法

Info

Publication number: CN113821702A
Application number: CN202111402235.XA
Authority: CN
Inventors: 丁阳; 施晓东; 王春龙; 乐意; 韩东; 李东; 孙镱诚; 李大明; 李白思雨; 陆中祥; 潘洪涛; 张思远
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2021-12-21

Abstract

本发明公开一种城市多维空间多元异构信息数据处理方法，面向城市多维空间信息的实体属性、时空、因果、认知等要素的关联技术实现，目的在于对城市多维空间信息关联关系构建。包括以下步骤：1、面向城市多维信息实体属性内容，挖掘信息基于属性间关系；2、面向城市多维信息时间空间内容，挖掘信息基于时空间关系；3、以任务/主题为牵引，挖掘信息基于任务主题关系；4、基于城市多元跨模态异构信息，挖掘基于多模态异构关系；5、对每类关系进行聚合，形成城市多维空间信息全局知识图谱。本发明的步骤简单，便于操作，针对城市多维空间数据进行快速建模，提升城市关联关系构建效率与维度，支撑城市数字化领域应用。

Description

一种城市多维空间多元异构信息数据处理方法

技术领域

本发明涉及一种信息数据处理方法，特别是一种城市多维空间多元异构信息数据处理方法。

背景技术

近年来，随着智慧城市建设的不断深入，数字城市、城市规划等行业对于高质量的城市多维数据需求日益增加。城市所包含的地理环境、基础设施、社会舆论、民心士气等信息种类及其数据关系网络，已成为城市管理、国防安全、建筑规划、轨道交通等许多应用场景的核心数据需求。

城市多维物理空间上的城市环境实体具有信息量大，范围广等特点，覆盖物理、实体、应用等多个视角，每个视角下又包含多个维度，多维空间信息交融耦合是城市数据的显著特征。用户在实时掌握全域信息的同时，还需要针对特定任务，灵活分析并建立多维城市空间实体信息间的关联，构建贯穿物理域、社会域、认知域等应用维度的信息关联应用空间。

为提升城市多维空间数据质量，更好地支撑城市多应用场景（军事、民用），需针对要素繁多，覆盖物理、实体、应用等多个视角的城市多维空间信息，从统一概念视角，对其多维空间结构内涵、要素组成和领域划分进行明晰；从统一表达视角，对其多维空间信息的结构化描述进行规范，并分析多维空间信息之间的关联关系，支撑对城市多维数据及其数据间关联约束的统一认知。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种城市多维空间多元异构信息数据处理方法。

为了解决上述技术问题，本发明公开了一种城市多维空间多元异构信息数据处理方法。本发明采取的技术方案，包括以下步骤：

步骤1，建立面向实体属性的关联，从多元异构信息中提取实体以及<实体，属性，取值>的三元组描述集合，依据属性和取值计算实体之间的相关性，计算多元异构信息的相关性；

步骤2，建立面向时空的关联，对于多源异构信息，发掘满足时间和空间维度约束的信息；

步骤3，建立面向任务主题的关联，从多元异构信息中提取实体以及<任务，城市多维空间数据，取值>的三元组描述集合，挖掘城市多维空间信息关联关系；

步骤4，建立跨模态异构信息的关联，使用多模态结合方法提取图像、视频和文本的非结构化数据特征，挖掘非格式异构数据之间的关联；

步骤5，构建城市多维信息图谱，对上述四种关联关系进行聚合，对于局部关系研究对象共指消解，形成全局统一的知识图谱，完成多维空间多元信息事实映射关联。

本发明中，步骤1包括：

步骤1-1，实体分类，将人工标注类别的城市多维信息条目分为训练集和测试集，从中提取特征，利用词包表示方法，基于词典的建模方法表示特征的分类，并构造特征向量，使用线性分类器从训练集的特征向量中学习得到分类模型，应用该分类模型分析条目的实体类别，并计算分类方法的性能；

步骤1-2，关联关系识别；将多元异构信息中的实体转换为<实体，属性，取值>的统一表示方式后，通过设定属性和取值来发掘满足特定实体约束条件的关联信息。

本发明中，步骤2包括：

步骤2-1，时空特征抽取，对于文本、影像和视频城市多维空间信息，从元数据的一部分中获得时空信息；

步骤2-2，时空转换，进行时空转换的语义处理；时间的语义处理为时间信息的归一化，即将文本中的相对时间及时间省略现象表示为统一的、显式的表达形式；空间语义处理包括空间标准化和地名消歧；空间标准化包括将同一地名的不同拼写形式和不同用字进行规范化处理以及坐标转换；地名消歧为地名分配唯一的地理位置；

步骤2-3，时间序列相似度关联，建立同一实体按时间序列即不同时期信息间的关联关系，区分时间点和时间段两种基本时态，通过实体时间序列相似度计算，发现不同实体间时间点之间的相等，时间段之间的先于、重合、包含和承接的关联关系；

步骤2-4，空间拓扑相似度关联，通过对城市实体空间位置分析，区分点、线和区域即面的三种基本空间形态，通过空间线群目标相似度计算，发现空间点之间的相等与线之间的相交，区域之间的相离、相邻、相交和重合关联关系。

本发明中，所述步骤2-4中拓扑相似度定义为：

Sim_topo=1－｜H₂-H₁｜／max（H₂，H₁），

其中，H₁、H₂为两个线群目标拓扑权值，Sim_topo即为两个空间线群目标之间的拓扑相似度，即对线群目标拓扑权值的统计平均；

本发明中，所述步骤2-4中拓扑相似度定义算式中：

；

；H₁、H₂为两个线群目标拓扑权值，

、

为目标的拓扑权值，n、m为群目标的数量。

本发明中，步骤3包括：

步骤3-1，建立任务-城市多维空间数据规则模板，基于各种类型的任务在筹划、实施和评估的不同阶段对异构信息的不同需求，人工建立任务信息需求规则模板，在对任务各个阶段需要的信息进行需求分析后，对信息从来源、时效、关键词和类型的维度进行模板分析，生成形式化的信息描述；

步骤3-2，建立城市多维空间数据任务映射模型，任务城市多维空间数据模板建立后，首先统计历史数据；其次对于所有数据，提取其来源、格式和时效性属性，表示成从数据特征到任务类型和阶段的映射；最后通过加权多标记学习的方法改进K近邻算法（K-Nearest Neighbor，KNN），生成城市多维空间数据-任务规则模型。

本发明中，步骤3-2中通过加权多标记学习的方法改进K近邻算法，具体步骤如下：

步骤3-2-1，取样，根据取样方法对训练数据均匀取样，设当前处理的是第t个记录

，u是产生的一个随机数

，若

，则把第

个记录替换成第t个记录；

步骤3-2-2，加权，对于类标集合L中的每一个类，计算正例和负例的概率P（pos）和P（neg）。对每个类，根据

求出相应的权重w；

步骤3-2-3，求得每个类的先验概率

；

其中：

表示样例是否属于l类，i=1时属于类，反之不属于。

步骤3-2-4，运用基于K近邻算法改进的一种多标签分类算法进行分类；

其中：P为分类的先验概率；

表示样例是否属于类

，

=1时属于类，反之不属于；

表示对于样例t，在t的k个近邻中，有

个含有类标

；

表示属于类

的样例t的近邻数目。

步骤3-2-5，对未知样本进行分类，得到分类结果。

本发明中，步骤4包括：

步骤4-1，非结构化数据语义特征提取，基于文本声像影像的关联标注信息，对文本、声像和影像信息实现不同的特征提取方法，提取最具语义的特征；

步骤4-2，映射关系学习，基于标注信息，通过多模态技术以及深度学习等映射学习算法学习映射关系；

步骤4-3，相关性计算，在共享子空间中采用不同的相关性度量方法，计算相关性。

本发明中，步骤5中包括知识对齐，采用多元异构信息知识融合方法，将知识表示和抽取阶段获取的多个抽取图谱映射都统一在语义空间向量中，基于语义相似度计算实现实体和关系的融合，从而将这些知识有机融合起来。

本发明中，步骤5中还包括知识冲突监测，即对发生在对不同知识来源信息进行合并修正；包括数字上的冲突、集合上的冲突和事实语义冲突；运用信源可信度判别方法，给定一个语义实例，其表示集合包括

，其中O表示真实世界的一个对象，I表示对这个对象的描述，

表示对O对象的描述合集，对合集进行遍历，识别对象描述冲突，然后针对冲突对象，依据每一个提供描述对象信源的可信度P，获取并解除冲突对象。

有益效果：为城市多维空间信息提供了高效准确的关联关系构建方法。在关联关系构建方法中，增加了时空、文本实体信息抽取，敦实了城市多维空间信息挖掘分析之数据质量；开展了特定实体、时空、任务、语义、情境等多维信息关联技术研究，支撑数据优势向信息优势再向知识优势的转变。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明实施例的一种城市多维空间多元异构信息数据处理方法的流程图。

具体实施方式

为提升城市多维空间数据质量，更好地支撑城市多应用场景（军事、民用），根据本发明实施例的一个方面，提供了一种城市多维空间多元异构信息数据处理方法，图1示出该算法的一种可选的流程图，包括以下步骤：

步骤1，面向实体属性的关联。从多元异构信息中提取实体以及<实体，属性，取值>的三元组描述集合，然后依据属性和取值计算实体之间的相关性，进而计算出多元异构信息的相关性。

步骤2，面向时空的关联。对于多源异构信息，发掘满足时间、空间维度约束的信息。

步骤3，面向任务主题的关联。从多元异构信息中提取实体以及<任务，城市多维空间数据，取值>的三元组描述集合，挖掘城市多维空间信息关联关系。

步骤4，跨模态异构信息的关联。使用多模态结合的方法提取图像、视频、文本等等非结构化数据特征，并结合数据特征挖掘非格式异构数据之间的关联。

步骤5，城市多维信息图谱构建。对每类关系进行聚合，并对于大量分散的局部关系研究对象共指消解技术，形成全局统一的知识图谱。

步骤1，包括：

步骤1-1，实体分类。将人工标注类别的城市多维信息条目分为训练集和测试集，从中提取各种特征，利用词包表示方法（基于词典的建模方法），表示特征的分类，并构造相应的特征向量，然后使用线性分类器从训练集的特征向量中学习得到分类模型，最后将该分类模型应用到测试集的特征向量上，分析条目的实体类别，并计算分类方法的性能。

步骤1-2，关联关系识别。在步骤1-1的基础上，将多元异构信息中的实体转换为<实体，属性，取值>的统一表示方式后，可以通过设定属性和取值来发掘满足特定实体约束条件的关联信息。

步骤2，包括：

步骤2-1，时空特征抽取。对数据库结构化数据，通过使用记录中的某几列（例如经度、纬度）来获取时空信息；对于文本、影像、视频等非结构化信息，可从元数据的一部分从源端或文件中获得时空信息。

步骤2-2，时空转换。在步骤2-1基础上，需要进行时空转换的语义处理。时间的语义处理主要指时间信息的归一化，即将文本中的相对时间、时间省略现象等表示为统一的、显式的表达形式；空间语义处理包括空间标准化和地名消歧。空间标准化指将同一地名的不同拼写形式和不同用字进行规范化处理，以及坐标转换。而地名消歧指为地名分配唯一的地理位置，一般采用地名词典和启发式搜索方法，例如火奴鲁鲁又名檀香山。

步骤2-3，时间序列相似度关联。建立同一实体按时间序列即不同时期信息间的关联关系，比如城市同一建筑当前与历史信息间的关联关系；区分时间点和时间段两种基本时态，通过实体时间序列相似度计算，发现不同实体间时间点之间的相等，时间段之间的先于、重合、包含、承接等关联关系。

步骤2-4，空间拓扑相似度关联。通过对城市实体空间位置分析，区分点、线和区域（面）三种基本空间形态，通过空间线群目标相似度计算，发现空间点之间的相等、线之间的相交，区域之间的相离、相邻、相交和重合等关联关系。

拓扑相似度可定义为：

Sim_topo=1－｜H₂-H₁｜／max（H₂，H₁）

其中，

；

，

即为两个空间线群目标之间的拓扑相似度，实际上是对线群目标拓扑权值的统计平均，

、

为目标的拓扑权值，n、m为群众目标的数量，H₁、H₂为两个线群目标拓扑权值，所以相似度

实际上是对线群目标拓扑权值的统计平均。

步骤3，包括：

步骤3-1，“任务-城市多维空间数据规则模板”建立。基于各种类型的任务在筹划、实施、评估等不同阶段对异构信息的不同需求，人工建立任务-信息需求规则模板。在对任务各个阶段需要的信息进行需求分析后，对信息从来源、时效、关键词、类型等几个维度进行模板分析，生成形式化的信息描述。

步骤3-2，“城市多维空间数据-任务映射模型”建立。任务-城市多维空间数据模板建立后，首先，统计历史数据；然后，对于所有数据，提取其来源、格式、时效性等属性，表示成从数据特征到任务类型和阶段的映射；最后，可以通过加权多标记学习的方法改进K近邻算法（K-Nearest Neighbor，KNN），生成城市多维空间数据-任务规则模型。

算法具体步骤如下：

a）根据取样方法对训练数据均匀取样。设当前处理的是第t个记录

，u是产生的一个随机数

，若

，则把第

个记录替换成第t个记录。

b）对于类标集合L中的每一个类，计算正例和负例的概率P（pos）和P（neg）。对每个类，根据

求出相应的权重w。

c）求得每个类的先验概率

。

d）运用基于K近邻算法（K-Nearest Neighbor，KNN）改进的一种多标签分类算法进行分类。

其中：P为分类的先验概率；

表示样例是否属于类

，

=1时属于类，反之不属于；

表示对于样例t，在t的k个近邻中，有

个含有类标

；

表示属于类

的样例t的近邻数目。

e）对未知样本进行分类，得到分类结果。

步骤4，包括：

步骤4-1，非结构化数据语义特征提取。基于文本-声像-影像的关联标注信息，对文本、声像、影像等信息实现不同的特征提取方法，提取最具语义的特征。

步骤4-2，映射关系学习。基于标注信息，通过多模态技术以及深度学习等映射学习算法，学习映射关系，使得在该模型下，不同模态之间，具有相同标号的样本所提取特征之间的相关性尽量地大，具有不同标号的样本所提取特征之间的相关性尽量地小。

步骤4-3，相关性计算。在共享子空间中，尝试不同的相关性度量方法，计算相关性。

步骤5，包括：

步骤5-1，知识对齐。采用多元异构信息知识融合方法，将知识表示和抽取阶段获取的多个抽取图谱映射都统一在语义空间向量中，基于语义相似度计算实现实体、关系的融合，从而将这些知识有机融合起来。例如，在知识库1中有三元组[辽宁舰，隶属，中国海军]，在知识库2中有三元组[辽宁号，隶属，中国海军]，在将这两个知识库合并消解，将“辽宁舰”与“辽宁号”匹配，两个三元组合并为一个三元组；

步骤5-2，知识冲突监测，即对发生在对不同知识来源信息进行合并修正。包括数字上的冲突、集合上的冲突、事实语义冲突等等。运用信源可信度判别方法，给定一个语义实例，其表示集合包括（

），其中O表示真实世界的一个对象，I表示对这个对象的描述，

本发明提供了一种城市多维空间多元异构信息数据处理方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。