CN110647662B

CN110647662B - 一种基于语义的多模态时空数据关联方法

Info

Publication number: CN110647662B
Application number: CN201910714336.7A
Authority: CN
Inventors: 周艳; 杨清清; 蒋璠
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-03
Filing date: 2019-08-03
Publication date: 2022-10-14
Anticipated expiration: 2039-08-03
Also published as: CN110647662A

Abstract

本发明公开了一种基于语义的多模态时空数据关联方法，属于地理空间信息系统技术领域。本发明利用所构建的本体模型对数据进行特征‑语义映射和概念化的语义表达，有效的对多模态时空数据的复杂语义信息进行统一格式的描述，解决了计算机难以理解数据语义内容信息的问题；同时，基于时空数据的本体语义表达，通过时间、空间和数据内容包含的对象三个因素建立时空数据之间的时间关联、空间关联和内容对象语义关联，有效的进行了多模态时空数据间的关联。本发明方法主要用于多模态时空数据的跨模态检索，为用户提供准确、全面的数据挂链关联处理结果，进而提升跨模态检索性能。

Description

一种基于语义的多模态时空数据关联方法

技术领域

本发明属于地理空间信息系统技术领域，特别是涉及一种基于语义的多模态时空数据关联模型。

背景技术

随着互联网技术的快速发展，时空数据的内容日益丰富、来源越来越广泛、存储格式多样化，不同数据间往往互相联系，针对海量时空数据关联查询的研究越来越重要。时空数据是具有时空特征、类型多样、模态复杂的混合数据，包括地理视频、影像、矢量地图、轨迹数据和定位数据等等，这些数据不仅包含丰富的时间、空间和语义信息，同时具有多维、多尺度、多时态特点以及多模态特性，其中多模态特性使得同一时空对象可能具有多种不同形态的数据描述，不同模态数据之间具有低层特征异构、高层语义相关的特点。如何深入地分析不同模态的时空数据之间存在的联系，在不同模态的时空数据之间建立关联，是实现对同一事件不同模态的时空数据进行跨模态检索的关键。

近年来，跨模态检索中针对数据关联的研究在计算机科学、图书情报学等领域得到高度关注，主要方法可以总结为四个方面：

(1)通过监督或无监督哈希学习方法学习不同模态数据潜在语义的共同哈希码来建立语义关联，经典的方法有聚集矩阵分解哈希(CMFH)和监督矩阵分解哈希(SMFH)，这些方法在下列文献中论述：Kumar Shaishav,Udupa Raghavendra.Learning hash functionsfor cross-view similarity search//Proceedings of the International JointConference on Artificial Intelligence.Barcelona,Spain,2011:1360-1365.Zhen Yi,Yeung Dit-Yan.Co-regularized hashing for multi modal data//Proceedings of TheThirtieth Annual Conference on Neural Information ProcessingSystems.Barcelona,Spain,2012:1753–1760.Shen Xiaobo,Shen Fumin,Sun Quansen,etal.Semi-paired discrete hashing:learning latent hash codes for semi-pairedcross-view retrieval.IEEE Transactions on cybernetics,2017,47(12):4275-4288.

(2)利用深度学习的特征抽取能力，在底层提取有效表示，在高层建立不同模态数据的语义关联，经典的方法有正则化深层神经网络(RE-DNN)和深度典型相关分析(DCCA)，这些方法在下列文献中有论述：WANG C,YANG H,MEINEL C.Deep semantic mapping forcross modal retrieval[C].in International Conference on Tools with ArtificialIntelligence,Vietrisul Mare,Italy,2015:234-241.ANDREW V,ARORA R,BILMES J,etal.Deep canonical correlation analysis[C].in International Conference onMachine Learning,Atlanta,USA.2013:1247-1255.

(3)利用不同模态样本对的成对共生信息学习投影矩阵，将不同模态的特征投影到一个共同潜在子空间，然后在该子空间中度量不同模态的相似性，建立模态间的关联，经典的方法有典型相关分析(CCA)和语义相关匹配(SCM)，这些方法在下列文献中有论述：HOTELLING H.Relations between two sets of variates[J].Biometrika,1936(28):21-377.Shao J,Wang L,Zhao Z,et al.Deep canonical correlation analysis withprogressive and hypergraph learning for cross-modal retrieval[J].Neurocomputing,2016,214:618-628.Rasiwasia N,Pereira J C,Coviello E,et al.Anew approach to cross-modal multimedia retrieval[C].International Conferenceon Multimedia,2010:251-260.

(4)运用本体理论通过构建数据知识图谱来关联异构媒体数据，包括采用共现分析方法构建基于不同信息源的知识图谱和多模态本体构建知识图谱解决方案等，这些方法在下列文献中有论述：张洋,谢卓力.基于多源网络学术信息聚合的知识图谱构建研究[J].图书情报工作,2014,58(22):84-94.FANG Q,XU C,SANG J,et al.Folksonomy-basedvisual ontology construction and its applications[J].IEEE Transactions onMultimedia,2016,18(4):702-713.

上述数据语义关联方法主要针对普通文本、图像和视频数据等，仅考虑了数据内容特征，无法完全适用于具有时间、空间和丰富内容语义的多模态时空数据。本体能有效的对数据语义信息进行表述和建模，而利用本体构建跨媒体知识图谱方面的研究才刚刚开始，针对多模态时空数据建立语义关联的本体模型研究甚少。

发明内容

本发明的发明目的在于：通过建立不同模态时空数据之间的关联模型，针对多模态时空数据的时间、空间和内容语义特征，充分利用本体的资源描述获取规范化语义表达的特点，提出一种基于语义的多模态时空数据处理方案，提升关联处理的准确性；进而提升利用得到的关联结果进行相关处理时的处理性能，例如检索处理的检索性能(检索准确性、全面性)。

本发明的基于语义的多模态时空数据关联方法，包括下列步骤：

步骤一：构建多模态时空数据语义表达本体模型：

所述多模态时空数据语义表达本体模型通过多个类(概念)层次组织每个数据的基础性信息；所述基础性信息包括时间、空间、元数据和内容对象；

具体的，本发明的多模态时空数据语义表达本体模型包括四层，各层分别为：

第一层基于时空数据的类型设置三个类，包括框架数据类、轨迹数据类和流数据类；

第二层基于时空数据的基本信息和内容语义信息，设置四个类，包括：时间类、空间类和元数据类，以及内容对象类(时空数据的数据内容所包含兑现固定语义信息)；其中，时间类、空间类和元数据类为框架数据类、轨迹数据类和流数据类的子类，即第一层的三个类的子类均包括时间类、空间类和元数据类；

优选的，时间类的数据属性包括：时间点和时间范围(开始时间和结束时间)；空间类的数据属性包括：覆盖区域名称、位置坐标和范围坐标；元数据类的数据属性包括：数据名称、数据大小和数据存储信息；内容对象类的数据属性包括：对象名称、对象特征和对象识别符；

第三层用于定义所述内容对象类的枚举型子类，设置三个类，包括：对象类、行为类和事件类；

第四层用于定义所述对象类的子类，设置两个类，包括：静态对象类和动态对象类；

步骤二，基于所构建的多模态时空数据语义表达本体模型进行时空数据特征-语义映射：以多模态时空数据语义表达本体模型为映射规则，以时空数据为单位构建实例，抽取数据时间、空间和内容对象的信息，进行关键词语义标注，输出多模态时空数据格式统一的规范化语义描述本体并保存；

步骤三，分别从时间、空间和内容对象三个方面的属性语义进行计算建立关联：

时间关联：基于不同时空数据的时间属性信息，判断时间点和时间范围的包含和相交关系，建立数据间的时间关联；

空间关联：基于不同时空数据的空间属性信息，判断位置和覆盖范围的包含和相交关系，建立数据间的空间关联；

内容对象语义关联：基于不同时空数据内容包含的对象的属性信息，包括对象名称、特征和行为等属性信息计算属性信息语义关键词的相似度，通过阈值判断建立数据间的内容对象语义关联。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明为了寻求一种有效的多模态时空数据语义关联处理方案，提出了一种对客观数据对象抽象定义得到的多模态时空数据语义表达本体模型，利用本体模型对数据进行特征-语义映射和概念化的语义表达，有效的对多模态时空数据的复杂语义信息进行统一格式的描述，解决了计算机难以理解数据语义内容信息的问题；同时，基于时空数据的本体语义表达，通过时间、空间和数据内容包含的对象三个因素建立时空数据之间的时间关联、空间关联和内容对象语义关联，有效的进行了多模态时空数据间的关联。

附图说明

图1本发明的总体处理过程示意图；

图2本发明的多模态时空数据语义表达本体模型框架图；

图3本发明的基于本体模型的时空数据特征-语义映射流程图；

图4本发明的多模态时空数据语义关联模型示意图；

图5本发明的语义关联建立流程图；

图6本发明的时间关联状态图；

图7本发明的区域空间关系图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

本发明针对多模态时空数据的时间、空间和内容语义特征，通过充分利用本体的资源描述获取规范化语义表达的特点，提出一种基于语义的多模态时空数据关联模型，基于该多模态时空数据关联模型实现对地理空间数据(时空数据)的关联处理。

本发明的基于语义的多模态时空数据关联模型，包括三个部分：多模态时空数据语义表达本体模型，时空数据特征-语义映射模块，多模态时空数据语义关联模型；

其中，多模态时空数据语义表达本体模型是对不同模态的时空数据信息进行规范化语义描述的一种格式，使计算机能够有效的理解数据包含的语义信息，待描述的语义信息包括时间信息、空间信息、元数据信息和内容对象信息，其中时间信息包括数据本身和其数据内容所包含的对象的时间点或时间范围信息，比如图片的拍摄时间、地理视频的拍摄时间范围和文本数据的获取时间等都是数据本身的时间信息(即数据的采集时间信息)，而这些数据记录的人、车或事件等是数据内容所包含的对象，这些对象同样具有自己的时间信息；空间信息包括数据本身及其包含的对象的位置坐标、覆盖区域或范围信息，比如地理视频数据本身具有摄像头的位置坐标和拍摄覆盖区域信息(即采集数据的采集装置的空间信息，包括采集装置的位置和采集覆盖区域)，其对象包括人、车和建筑物等具有自己的位置坐标信息；元数据信息包括数据的名称、大小和编号信息，内容对象信息包括数据包含的对象的名称、特征、行为和事件语义信息；

时空数据特征-语义映射模块是按照提出的语义表达模型对不同模态的每一个数据基础信息和特征进行规范化语义表达和描述，将异构的多模态数据信息和特征映射到统一格式的语义空间以便建立关联；

多模态时空数据语义关联模型是利用数据映射获取的语义信息从语义空间通过分析、判断建立不同模态时空数据模态间和模态内的关联，包括基于时间的关联、基于空间的关联和基于数据内容包含的对象语义的关联。

参见图1，本发明为了实现对时空数据的关联处理，首先构建多模态时空数据语义表达本体模型；然后读取时空数据以所构建的本体模型为规则对每一个数据进行特征-语义映射实现语义的规范化表达；最后基于映射获得的所有时空数据本体描述信息，从时间、空间和内容对象三个方面的语义信息判断和计算数据本体实例间的相关性或相似度来建立多模态时空数据间的关联，完成数据的关联组织，以支持时空数据的跨模态检索。即基于所获得的关联结果进行时空数据的跨模态检索处理，从关联结果中获取与检索需求相匹配的检索结果。

本发明的具体实现步骤如下：

步骤1，定义一种基于本体的多模态时空数据语义表达本体模型(Spatio-temporal Data Ontology represent tation model)，利用本体树结构分层规范化语义描述时空数据的时间、空间、元数据和内容对象信息，其本体模型框架如图2所示，包括类(概念)、对象属性(对象关系)和数据属性的定义：

其中，本体模型类定义：基于时空数据的类型，将本体模型第一层定义为框架数据类“FrameworkdataClass”、轨迹数据类“TrajectorydataClass”和流数据类“StreamdataClass”；基于时空数据的基本信息和内容语义信息，第二层定义时间类“TimeClass”、空间类“GeoClass”和元数据类“MatedataClass”为框架数据类、轨迹数据类和流数据的子类，同时将数据内容所包含对象的语义信息定义为内容对象类“ContentObjectClass”为流数据类的子类；第三层定义内容对象类的枚举型子类包括对象类“ObjectSubClass”、行为类“ActionSubClass”和事件类“EventSubClass”；第四层定义对象类的子类包括静态对象类“StaticSubClass”和动态对象类“DynamicSubClss”；

本体模型对象属性定义：包括定义时空数据与类之间构成整体与部分的关系“hasPart”(具有部分)，定义类与子类关系“hasSubClass”(具有子类)，定义实例中类与数据属性关系“hasDataProperty”(具有数据属性)，时间类、空间类、对象类和行为类分别与事件类具有语义描述关系“Semantic Description”，具体定义为“isTimeOf”(时间描述)、“isGeoOf”(空间描述)、“isObjectOf”(对象描述)和“isActionOf”(行为描述)；

本体模型数据属性定义：基于时间类定义数据属性包括时间点“TimePoint”和时间范围“TimeRange”，时间范围表示为开始时间和结束时间；基于空间类定义数据属性包括覆盖区域名称“DataArea”、位置坐标“DataLocation”和范围坐标对“DataRange”；基于元数据类定义数据属性包括数据名称“DataName”、数据大小“DataSize”和数据存储编号“DataNumber”；基于对象类定义数据属性包括对象名称“ObjectName”、对象特征“ObjectFeature”和对象编号“ObjectNumber”，同时对象类、行为类和事件类为枚举类，定义语义关键词进行表达。

步骤2，基于图1所示的本体模型框架，分别从类、对象属性和数据属性三个方面对模型进行构建，获取构建的模型本体文件进行保存，即以文件的形式保存所构建的本体模型；

步骤3，将时空数据存储到数据库中，利用计算机结合人工语义标注实现数据的半自动特征-语义映射和规范化表达，其映射流程如图3所示，具体步骤有：

步骤3.1，读取保存的模型本体文件，同时从数据库中依次读取时空数据时，按照模型定义创建一个数据实例并命名；

步骤3.2，判断该数据实例类型，标注第一层类为框架数据类、轨迹数据类和流数据类中的一种，如果属于流数据类则标注该实例的第二层类包括时间类、空间类、元数据类和内容对象类的概念以及内容对象类下的所有的子类，即第三层和第四层所有类的概念，反之只标注该实例第二层的时间类、空间类和元数据类的概念；

步骤3.3，对数据实例所有标注的类添加数据属性，并进行语义标注，其中内容对象类型下所有子类的数据属性需要结合人工半自动进行关键词语义标注，其余类的数据属性直接读取数据库获取信息进行语义标注；

步骤3.4，读取下一个数据，重复步骤3.1到步骤3.4直到所有数据映射完。

步骤3.5，导出语义标注完成的数据实例本体描述文件并保存到数据库中；

步骤4，为获取的数据实例本体描述文件互相之间建立时间关联、空间关联和内容对象语义关联，完成对多模态时空数据的关联组织，其语义关联模型如图4所示，每个节点表示一个数据对象本体，不同节点利用无向边表示关联状态，最后形成一个关联网，建立关联的流程图如图5所示，具体步骤包括：

步骤4.1，定义一个数据实例集合X，X[i]和X[j]表示集合X的两个待关联的数据实例，其中i≠j，定义时空数据关联状态矩阵C：

其中，c_ij表示X[i]和X[j]之间的关联状态，c_ij为一个三维关联状态向量，s_ij、t_ij和g_ij分别表示实例X[i]和X[j]之间的内容对象语义关联状态、时间关联状态和空间关联状态，并初始化i＝1，j＝2，且C为null；

步骤4.2，读取X[i]和X[j]的本体描述文件，判断X[i]和X[j]的第一层是否均属于流数据类，如果否，跳到步骤4.3，否则针对X[i]和X[j]的内容对象类对其所有数据属性的关键词进行相似度的计算，用集合P(X[i])和P(X[j])分别表示X[i]和X[j]的内容对象类的所有数据属性：

P(X[i])＝P(O_X[i])∪P(A_X[i])∪P(E_X[i])

P(X[j])＝P(O_X[j])∪P(A_X[j])∪P(E_X[j])

其中针对X[i]：P(O_X[i])＝{p_X[i],1,p_X[i],2,p_X[i],3}表示对象类属性类型集合，P(A_X[i])＝{p_X[i],4}表示动作类属性类集合，P(E_X[i])＝{p_X[i],5}表示事件类属性类型集合，p_X[i],1、p_X[i],2和p_X[i],3分别表示静态对象、动态对象和对象特征的具体属性值集合，p_X[i],4表示对象动作的具体属性值集合，p_X[i],5表示时间描述的具体属性值集合，即p_X[i],k＝{keyword₁,keyword₂,...,keyword_n}，即具体属性值集合为包括n个具体属性值(keyword₁,keyword₂,...,keyword_n)的集合，其中k＝1,2,3,4,5，实例X[j]与X[i]同理，则相似度计算总公式为：

其中，ω_k表示实例的具体属性值之间的相似度的权重，预设值，本具体实施方式中，其取值根据样本数据测试确定，当然，权重ω_k也可以采用其它惯用方式确定。

本具体实施方式中，结合RODRIGUEZ等(RODRIGUEA M A,EGENHOFER MJ.Comparing geospatial entity classes:An asymmetric and context-dependentsimilarity measure[J].International Journal of Geographical InformationScience,2004,18(3):229-256.)提出的计算模型，每一类语义关键词的相似度计算公式为：

其中，λ表示值为0到1的权重值，预设值，本具体实施方式中，由样本数据测试确定，然后判断相似度值是否达到(大于或等于)预置阈值，满足则建立基于数据内容对象语义的关联同时记录当前关联状态c_ij.s_ij和c_ji.s_ji，反之无内容对象语义关联；p_X[i],k,p_X[j],k分别表示数据实例X[i]和X[j]的第k类语义关键词，涉及的语义类别通常包括：静态对象、动态对象、对象特征、对象动作和时间描述。

步骤4.3，读取X[i]和X[j]的时间类属性，将时间信息转换为时间戳开始时间T_start和结束时间T_end来表示，其中时间点满足T_start＝T_end，时间范围满足T_start<T_end，基于JPED时间模型(James F.Allen,Maintaining Knowledge about Temporal Intervals,Communications of the ACM,1983，26(11):832-843.)中定义的时间关系，将时间关联定义为图6所示的13种关联状态，其中“before”和“after”、“meets”和“met_by”、“during”和“includes”、“starts”和“started_by”、“finishes”和“finished_by”、“overlaps”和“overlaped_by”为相反的关联状态，“equal”的相反关联状态为其自身，如果X[i]和X[j]的时间信息满足13种关联状态中的任意一种，则建立时间关联，记录当前关联状态c_ij.t_ij，根据时间属性的时序性特点，t_ij和t_ji具有相反的关联状态，据此记录c_ji.t_ji的关联状态，反之无时间关联；

步骤4.4，读取X[i]和X[j]的空间属性，为便于判断空间关联，数据实例的空间属性由其最小外接矩形近似表示，基于Randell等(David A.Randell,Zhan Cui,and AnthonyG.Cohn,A Spatial Logic Based on Regions and Connection,Principles ofKnowledge Representation and Reasoning:Proceedings of the 3rd InternationalConference,1992，165-176.)定义的区域空间关系(如图7所示)来表示空间关联状态，其中a和b表示两个区域空间，将图7中空间关系依次定义为“PO”、“EC”、“EQ”、“DC”、“TPP”、“TPP-1”、“NTPP”和“NTPP-1”这8种空间关联状态，其中“TPP”和“TPP-1”、“NTPP”和“NTPP-1”为相反的关联状态，定义“PO”、“EC”、“EQ”和“DC”的相反关联状态为其自身，如果X[i]和X[j]的空间类信息满足上述8种关系中的任意一种，则建立空间关联，记录当前关联状态c_ij.g_ij，根据空间属性的相对性特点，g_ij和g_ji具有相反的关联状态，据此记录c_ji.g_ji的关联状态，反之无空间关联；

步骤4.5，判断j是否小于数据实例集合X的集合长度，如果小于则执行j＝j+1，并重复步骤4.1到步骤4.5，反之直接执行步骤4.6；

步骤4.6，判断i是否小于数据实例集合X的集合长度，如果小于则先执行i＝i+1，再执行j＝i+1，并重复步骤4.1到步骤4.5；

步骤4.7，保存关联状态矩阵C，结束。

本发明的时空数据关联方法主要应用于多模态时空数据的跨模态检索，即通过提出的语义关联模型对复杂多模态时空数据建立有效关联，以此获取的关联信息为高效的跨模态检索奠定了基础。以城市立体化公共安全监测系统为例，城市公共安全诊断、发现和预警过程中，往往需要对公共安全敏感事件或对象进行跨模态检索，通过本发明提出的关联模型建立监测系统获取的复杂时空数据之间的时间、空间和语义关联，从而得到数据间的关联信息；然后针对感兴趣事件或对象进行时间和空间约束下的关键词匹配，利用获取的关联信息快速检索到与事件或对象相关的不同模态数据，为用户提供准确、全面的数据以支持城市公共安全的准确、快速诊断与及时发现和预警。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于语义的多模态时空数据关联方法，其特征在于，包括下列步骤：

步骤一：构建多模态时空数据语义表达本体模型：

所述多模态时空数据语义表达本体模型通过多个类层次组织每个数据的基础性信息；所述基础性信息包括时间、空间、元数据和内容对象；

所述多模态时空数据语义表达本体模型包括四层，各层分别为：

第一层设置三个类，包括框架数据类、轨迹数据类和流数据类；

第二层设置四个类，包括：时间类、空间类和元数据类，以及内容对象类；

其中，时间类、空间类和元数据类为框架数据类、轨迹数据类和流数据类的子类；

内容对象语义关联：基于不同时空数据内容包含的对象的属性信息，包括对象名称、特征和行为属性信息计算属性信息语义关键词的相似度，通过阈值判断建立数据间的内容对象语义关联；

其中，进行时空数据特征-语义映射具体为：

读取待处理的时空数据并基于其类型，标注多模态时空数据语义表达本体模型的第一层的具体类；

若属于流数据类则标注多模态时空数据语义表达本体模型的第二至第四层的所有类；

否则只标注多模态时空数据语义表达本体模型的第二层的时间类、空间类和元数据类；

对所标注的类添加各类预设的数据属性，并进行语义标注，从而得到当前待处理的时空数据对应的数据实例的本体描述文件并保存。

2.如权利要求1所述的方法，其特征在于，时间类、空间类、元数据类和内容对象类的数据属性具体为：

时间类的数据属性包括：时间点和时间范围；

空间类的数据属性包括：覆盖区域名称、位置坐标和范围坐标；

元数据类的数据属性包括：数据名称、数据大小和数据存储信息；

内容对象类的数据属性包括：对象名称、对象特征和对象识别符。

3.如权利要求1所述的方法，其特征在于，步骤三具体为：

(3a)对关于多个待处理的时空数据的数据实例构成的数据实例集合X，遍历数据实例集合X中的任意两个待关联的数据实例X[i]和X[j]，基于各自的本体描述文件，判断本体描述文件的第一层是否均属于流数据类，若是，则执行步骤(3b)；否则执行步骤(3c)；

(3b)基于内容对象类的数据属性计算数据实例X[i]和X[j]之间的语义相似度；并判断语义相似度是否大于或等于预设的阈值，若是，则判定数据实例X[i]和X[j]之间存在内容对象关联并记录；否则直接执行步骤(3c)；

(3c)基于时间类的数据属性判断数据实例X[i]和X[j]之间的时间类数据属性是否与预置的多种时间关联状态中的任意一种相匹配，若是，则判定数据实例X[i]和X[j]之间存在时间关联并记录；

基于空间类的数据属性判断数据实例X[i]和X[j]之间的空间类数据属性是否与预置的多种空间关联状态中的任意一种相匹配，若是，则判定数据实例X[i]和X[j]之间存在空间关联并记录。

4.如权利要求3所述的方法，其特征在于，计算数据实例X[i]和X[j]之间的语义相似度具体为：

分别计算内容对象类的数据属性的每一类语义关键词的相似度Sim(p_X[i],k,p_X[j],k)，其中k表示语义关键词的类别区分符，p_X[i],k,p_X[j],k分别表示数据实例X[i]和X[j]的第k类语义关键词；

再基于每一类语义关键词的预置权重，对所有类语义关键词的相似度进行加权求和，得到实例X[i]和X[j]之间的语义相似度；其中，所有类语义关键词的权重之和为1；

每一类语义关键词的相似度Sim(p_X[i],k,p_X[j],k)具体为：

其中λ表示值为0到1的权重值。