CN111708745A

CN111708745A - 一种跨媒体数据共享表示方法及用户行为分析方法、系统

Info

Publication number: CN111708745A
Application number: CN202010562482.5A
Authority: CN
Inventors: 贾全烨; 闫龙川; 高德荃; 赵子岩; 黄震
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Shandong Electric Power Co Ltd; Global Energy Interconnection Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Shandong Electric Power Co Ltd; Global Energy Interconnection Research Institute
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-09-25
Anticipated expiration: 2040-06-18
Also published as: CN111708745B

Abstract

本发明提供了一种跨媒体数据共享表示方法及用户行为分析方法、系统，该跨媒体数据共享表示方法包括：获取跨媒体数据，跨媒体数据包括图像和文本两种类型的媒体数据；使用多模式深度置信网络对跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示；使用堆叠式自动编码器对跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；将每种媒体类型对应的媒体间独立表示和媒体内独立表示进行分层组合，得到跨媒体数据的共享表示。通过保留媒体间数据的关联信息，并学习跨媒体相关性来获得共享表示，可以捕获复杂的跨媒体相关性，使得该共享表示方法能够适用于复杂跨媒体数据的场景。

Description

一种跨媒体数据共享表示方法及用户行为分析方法、系统

技术领域

本发明涉及跨媒体数据处理技术领域，具体涉及一种跨媒体数据共享表示方法及用户行为分析方法、系统。

背景技术

随着互联网的飞速发展，互联网上各种类型的数据(包括图像，文本，语音和视频等)大量爆炸。人们通过使用聚类、分类和关联规则等机器学习方法来分析这些数据，发现隐藏信息，从而得到有价值的知识。多种类型数据间常常存在关联信息，因此，在对多种类型数据即跨媒体数据进行分析时就需要对跨媒体数据进行处理以得到不同媒体数据之间的相关性。

目前，传统的跨媒体处理方法主要依靠公共空间学习，但这类方法大部分基于线性投影，无法完全对跨媒体数据的内在相关性建模。受到深度神经网络在单媒体检索和图像分类等分类中的启发，深度神经网络已被应用于跨媒体检索，用于将跨媒体数据转换为共享表示，进而衡量跨媒体数据的相似性。利用深度神经网络进行跨媒体数据共享表示的方法主要分为两个学习阶段，第一个阶段是为每种媒体类型生成单独的表示形式。然而，现有的方法仅对媒体内信息建模，却忽略媒体间的相关性，而跨媒体数据的处理着重于不同媒体类型之间的相关性，而中间媒体表示提供重要的信息，应予以保留。第二阶段是通过学习跨媒体相关性来获得共享表示，并且现有方法是通过浅层网络结构来学习共享表示，然而，浅层网络结构无法捕获复杂的跨媒体的相关性。

发明内容

有鉴于此，本发明实施例提供了一种跨媒体数据共享表示方法、系统，以克服现有技术中的跨媒体数据共享表示方法采用浅层网络结构无法捕获复杂的跨媒体的相关性，从而难以适用于挖掘复杂跨媒体关联的问题。

本发明实施例提供了一种跨媒体数据共享表示方法，包括：获取跨媒体数据，所述跨媒体数据包括图像和文本两种类型的媒体数据；使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示；使用堆叠式自动编码器对所述跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示。

可选地，所述使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示，包括：通过两个完全相同的双层深度置信网络分别对每种媒体类型进行建模，所述双层深度置信网络由高斯受限玻尔兹曼机和软副本模型构成，其中，高斯受限玻尔兹曼机用于对图像特征的分布进行建模，软副本模型用于对文本特征的分布进行建模；使用受限玻尔兹曼机设置在所述两个双层深度置信网络的顶部，对两种媒体类型的数据联合分布进行建模，得到每种媒体类型对应的媒体间独立表示。

可选地，利用最小化重构误差对所述堆叠式自动编码器进行训练，得到每种媒体类型对应的媒体内独立表示。

可选地，将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示，包括：使用联合受限玻尔兹曼机将每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行结合，得到每种媒体类型的联合层中间表示；使用多个堆叠的双峰自动编码对每种媒体类型的联合层中间表示进行跨媒体相关性的学习，得到所述跨媒体数据的共享表示。

本发明实施例还提供了一种用户行为分析方法，包括：获取用户发送的待分析数据，所述待分析数据为用户采用本发明另一实施例提供的跨媒体数据共享表示方法对包含用户行为的跨媒体数据进行处理，得到的共享表示数据；采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果。

可选地，所述采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果，包括：步骤S201：计算所述待分析数据中各个数据点对应的密度值，根据所述密度值的排序结果标记离群点，并根据所述密度值对剔除离群点后的所述待分析数据进行分簇，并确定每一簇的初始中心点；步骤S202：计算所述待分析数据中每个数据点到所有初始中心点的欧式距离，并将该数据点划入欧式距离最小的初始中心点所在的簇中，形成分簇结果；步骤S203：对剔除离群点后的所述待分析数据添加拉普拉斯噪声，并根据添加拉普拉斯噪声后的待分析数据重新计算所述分簇结果中的每一簇对应的中心点，得到更新后的中心点；步骤S204：计算分簇结果中的每一簇对应的权重，根据所述权重及所述待分析数据中各数据点与各更新后的中心点的相对距离，重新进行聚类划分，并返回上述步骤S203，直至分簇结果满足预设收敛条件。

可选地，所述密度值通过如下公式计算：

其中，density(x)表示待分析数据中数据点x对应的密度值，n表示待分析数据中数据点的个数，dist²(x,y_i)表示，数据点x与数据点y_i之间的欧式距离的平方值，i和n均为正整数。

可选地，所述相对距离通过如下公式计算：

其中，reldist²(x,c_i)表示数据点x与中心点c_i之间的相对距离。w_i表示第i个簇的权重，dim表示待分析数据的维度，x_j表示数据点x的第j维度，c_ij表示第i个簇的中心点c_i的第j维度，i和j均为正整数。

可选地，所述权重通过如下公式计算：

其中，w_i表示第i个簇的权重，c_i表示第i个簇的中心点，n_i表示第i个簇除去离群点之后的个数，x_j表示该簇的非离群点的数据点，i、n_i、j均为正整数。

本发明实施例还提供了一种跨媒体数据共享表示系统，包括：获取模块，用于获取跨媒体数据，所述跨媒体数据包括图像和文本两种类型的媒体数据；第一处理模块，用于使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示；第二处理模块，用于使用堆叠式自动编码器对所述跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；第三处理模块，用于将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示。

本发明实施例还提供了一种用户行为分析系统，包括：接收模块，用于获取用户发送的待分析数据，所述待分析数据为用户采用本发明另一实施例提供的跨媒体数据共享表示系统对包含用户行为的跨媒体数据进行处理，得到的共享表示数据；分析模块，用于采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果。

本发明实施例还提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例提供的跨媒体数据共享表示方法或者，执行本发明实施例提供的用户行为分析方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行本发明实施例提供的跨媒体数据共享表示方法或者，执行本发明实施例提供的用户行为分析方法。

本发明技术方案，具有如下优点：

本发明实施例提供了一种跨媒体数据共享表示方法、系统，通过使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示，从而保留了媒体间数据的关联信息，然后使用堆叠式自动编码器对所述跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示。从而通过学习跨媒体相关性来获得共享表示，通过构建深层网络的方式可以捕获复杂的跨媒体相关性，使得该共享表示方法能够适用于复杂跨媒体数据的场景。

本发明实施例提供了一种用户行为分析方法、系统，通过利用包含复杂的跨媒体相关性的待分析数据进行用户行为分析，由于保留了媒体间数据的关联信息，有利于提高用户分析结果的准确性，并且通过利用基于离群点检测的差分隐私K－means算法进行用户行为分析，在保障用户隐私数据的基础上，进一步提高了用户分析结果的可用性和准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的构建的跨媒体多重深度网络模型的示意图；

图2为本发明实施例中的跨媒体数据共享表示方法的流程图；

图3为本发明实施例中的用户行为分析方法的流程图；

图4为本发明实施例中的跨媒体数据共享表示系统的结构示意图；

图5为本发明实施例中的用户行为分析系统的结构示意图；

图6为本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种跨媒体数据共享表示方法，该方法是通过建立跨媒体多重深度网络模型，来实现跨媒体数据的共享表示，整个多重深度网络模型可以分为两个学习阶段：在第一个学习阶段，通过使用多模式深度置信网络对每种媒体类型的媒体间独立表示进行建模，并使用堆叠式自动编码器对每种媒体类型的媒体内独立表示进行建模。在第二个学习阶段，使用包括联合受限玻尔兹曼机和双峰自动编码器的两级网络来获得跨媒体数据每种媒体类型的最终共享表示，本发明实施例所构建的跨媒体多重深度网络模型的示意图如图1所示。

下面对本发明实施例提供的跨媒体数据共享表示方法中所利用的的重要组成部分做具体介绍。

A.多模式深度置信网络

多模式深度置信网络已被广泛用于学习多模式数据的共享表示。该网络使用单独的两层深度置信网络对每种媒体类型的数据进行建模，并使用图像和文本特征作为输入。

B.堆叠式自动编码器

堆叠式自动编码器是一个神经网络，由多层自动编码器组成，需要较少的训练数据先验知识。堆叠式自动编码器有几种自动编码器，它们以自底向上和逐层的方式进行训练。底部自动编码器使用原始媒体功能作为输入，高层自动编码器使用从底部自动编码器生成的输出。在预训练阶段依次对所有这些自动编码器进行训练，然后根据预训练模型对整个神经网络进行微调。堆叠式自动编码器可以获取高级语义表示形式，并将用于在跨媒体数据共享表示方法的第一阶段进行媒体内表示学习。

C.受限玻尔兹曼机

受限玻尔兹曼机是一个个两层的神经网络，上面一层神经元组成隐藏层，用h向量隐藏层神经元的值。下面一层的神经元组成可见层，用v向量表示可见层神经元的值。隐藏层和可见层之间是全连接的，隐藏层神经元之间是独立的，可见层神经元之间也是独立的。受限玻尔兹曼机不区分前向和反向，可见层的状态可以作用于隐藏层，而隐藏层的状态也可以作用于可见层。常用的受限玻尔兹曼机一般是二值的，即不管是隐藏层还是可见层，神经元的取值只为0或者1。

D.双峰自动编码器

双峰自动编码器是一个深层的自动编码器网络，将多种多媒体类型作为输入，并具有中间层来生成共享表示。该网络旨在重构图像和文本等两种媒体类型，从而最大程度地减少输入功能与重构表示之间的重构误差。双峰自动编码器可以有效地学习不同媒体类型之间的高阶相关性，并保留每种媒体类型内的重建信息，这对于在跨媒体数据共享表示方法的第二阶段共享表示学习有很大作用。

如图2所示，该跨媒体数据共享表示方法包括：

步骤S1：获取跨媒体数据，跨媒体数据包括图像和文本两种类型的媒体数据。在实际应用中，该跨媒体数据为用户具有标记的多媒体内容的数据集D＝{D⁽ⁱ⁾,D^(t)}。该数据集由m+n个具有两种媒体类型(即图像和文本)的媒体对象组成。这里

表示图像数据，并且

表示文本数据。

是第p个图像数据，

是第q个文本数据，分别标记

和

其中，d⁽ⁱ⁾，d^(t)表示图像和文本特征的尺寸。

步骤S2：使用多模式深度置信网络对跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示。

具体地，上述的步骤S2具体包括：在通过两个完全相同的双层深度置信网络分别对每种媒体类型进行建模，双层深度置信网络由高斯受限玻尔兹曼机和软副本模型构成，其中，高斯受限玻尔兹曼机用于对图像特征

的分布进行建模，软副本模型用于对文本特征

的分布进行建模；然后，为了捕获媒体间的相关性，使用受限玻尔兹曼机设置在两个双层深度置信网络的顶部，对两种媒体类型的数据联合分布进行建模，得到每种媒体类型对应的媒体间独立表示，其输出应表示为

和

分别用作图像类型和文本类型的媒体间独立表示。

步骤S3：使用堆叠式自动编码器对跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示。在实际应用中，可以通过分开培训每种媒体类型的堆叠式自动编码器。输入特征X⁽ⁱ⁾和X^(t)与多模式深度置信网络相同，而

和

是X⁽ⁱ⁾和X^(t)的重构。通过最小化目标函数，可以分别训练由h层自动编码器组成的图像和文本数据的堆叠式自动编码器，在本发明实施例中，通过利用最小化重构误差对堆叠式自动编码器进行训练，得到每种媒体类型对应的媒体内独立表示。通过最小化重构误差，我们可以将潜在特征作为图像内的媒体内独立表示

和文本内的媒体内独立表示

从而可以保留每种媒体类型的原始特征并获得高级语义表示。

步骤S4：将每种媒体类型对应的媒体间独立表示和媒体内独立表示进行分层组合，得到跨媒体数据的共享表示。

具体地，在一实施例中，通过上述的步骤S3，已经为每种媒体类型获得多个互补的独立表示形式

和

在第一个学习阶段就同时捕获了媒体间和媒体内信息。为了获得共享表示，上述的步骤S4通过将上述单独的表示进行分层组合，利用更深的两级网络来实现，可以分为媒体间级别和媒体内级别。

在网络的第一层，使用联合受限玻尔兹曼机将每种媒体类型对应的媒体间独立表示和媒体内独立表示进行结合，得到每种媒体类型的联合层中间表示。从而联合模拟了从一种媒体的多模式深度置信网络和堆叠式自动编码器捕获的表示形式上的分布。将这些联合分布收集为每种媒体类型的联合层中间表示，分别表示为图像的Y⁽ⁱ⁾和文本的Y^(t)，并将它们用作网络中下一层的输入。

在网络的第二层，需要学习不同媒体类型的共享表示。通过使用多个堆叠的双峰自动编码对每种媒体类型的联合层中间表示进行跨媒体相关性的学习，得到跨媒体数据的共享表示。具体地，通过使用几种双峰自动编码器，可以对联合层的跨媒体相关性以及顶层的重建信息进行建模。为了训练网络，采用一种新的堆叠学习方法。该方法具有n个(可以动态调整)双峰自动编码器，其学习方法按照自下而上的方法训练的，并且还添加其他标签信息。这里使用中间表示Y⁽ⁱ⁾和Y^(t)作为底部双峰自动编码器的输入，并将其输出

和

作为输入，进而传播到更高的网络，再获得

和

这输出，并同时将尺寸减小到输入的一半，直到得到

和

作为最终的共享表示。学习过程中要堆叠的网络数量n可以根据验证集进行调整。

本发明实施例通过n个堆叠的双峰自动编码器获得最终的共享表示。相比较只有一个双峰自动编码器，该机制具有更好的学习能力，因此可以联合建模补充的媒体间和媒体内信息以挖掘复杂的跨媒体关联。

通过执行上述步骤，本发明实施例提供的跨媒体数据共享表示方法，通过使用多模式深度置信网络对跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示，保留了媒体间数据的关联信息，通过学习跨媒体相关性来获得共享表示，通过构建深层网络的方式可以捕获复杂的跨媒体相关性，使得该共享表示方法能够适用于复杂跨媒体数据的场景。通过分层学习来利用丰富的跨媒体相关性。本发明实施例提供的跨媒体数据共享表示方法在第一学习阶段，跨媒体多重深度网络共同学习每种媒体类型的两种互补的独立表示，而不是仅对先前工作进行媒体内的独立表示。并且着重于不同媒体类型之间的相关性，而中间媒体表示提供重要的信息，应予以保留。在第二学习阶段，由于每种媒体类型都有两个互补的独立表示，因此我们在一个更深的两级网络中将这些独立表示进行分层组合，以便可以共同建模媒体间和媒体内信息，以生成共享表示。

本发明实施例还提供了一种用户行为分析方法，该方法通过改进传统的差分隐私K－means算法的的不足，提出一种新的基于离群点检测的差分隐私K－means算法，并利用该改进后的算法进行用户行为分析，下面对现有技术中的相关内容进行介绍。

1)K－means算法

作为基于划分的聚类方法中的经典算法之一，K－means有构造简洁以及效率高等优点，目前很多聚类算法都在以K－means算法为基础进行改进和扩展。它的主要思想是，每一次迭代要遍历所有的点，利用距离计算把距离相近的点合为一个簇，直到达到最优结果，迭代结束。然而，数据在进行聚类的过程中，攻击者可能会攻击用户的隐私信息，其中攻击模型主要有以下两种：

A.基于中心点的攻击

在K－means算法的每次迭代过程中，如果攻击者己知数据点与中心点的距离，可能会导致数据点的属性值泄露，即隐私信息泄露。

B.基于背景知识的攻击

攻击者可能会根据K－means算法最终发布的聚类中心点结合背景知识来进行隐私攻击。

K－means算法具有算法结构简单、效率高以及可伸缩性好等优点，处理中小型数据集时很为方便，但与此同时，该算法对初值的选择较为敏感，尤其是当数据集规模较大时，若初值选择偏差较大，执行几次算法所得到的结果可能会不同，并且聚类结果可用性也会下降。

2)差分隐私保护机制

该机制能够在不改变数据整体特性的前提下对单个数据进行保护。举例来说，有这样一个数据集D，它包含了用户Alice的隐私数据，为了保护Alice的隐私，数据管理者选择为数据添加随机噪声并将Alice的数据删除，然后攻击者若对此数据集进行查询，输出结果将会为f(D)，同样的，对原始数据集进行相同的查询，输出结果也是f(D)，因为前后两次查询结果并未发生改变，所以Alice的隐私信息得到了差分隐私机制的保护。换句话来说，这就好像有两个只相差一条数据记录的数据集，这里的一条数据记录即为Alice的隐私数据，攻击者对这两个数据集进行查询，那么得到的两个查询结果相同的概率比值几乎为1，所以无法分辨出不同，这时Alice的隐私数据便得到了保护。差分隐私机制具体的定义如下。

定义1设有随机函数K,r为函数K所有可能的输出所构成的集合，Pr{}表示某一事件的披露风险。对于任意2个相邻数据集D₁和D₂(至多相差一个数据)，若其满足以下公式(1)，则称函数K提供ε－差分隐私保护，具体如公式(1)所示。

Pr{K(D₁)＝r}≤e^ε·Pr{K(D₂)＝r} (1)

其中，Pr{}表示某一事件的披露风险，K表示随机函数，D₁和D₂表示两个相邻的数据集，r表示随机函数K所有可能的输出所构成的集合，ε表示差分隐私保护。

定义表明随机函数K达到隐私保护目的的方式为通过对输出结果进行随机化操作，且操作结果的概率是独立的。如前面Alice的例子，其隐私数据的存在与否，对数据的查询输出结果并不会造成太大的影响，也就是说输出结果的概率分布不会因此而产生的很大的变化，而这种变化的程度在差分隐私中通常用隐私保护预算ε来进行估计，作为衡量隐私保护的重要参数，ε值越低，代表两个数据集在应用差分隐私机制之后，查询后的输出结果也就越相似，因此即使攻击者拥有一些背景知识，其推断出用户隐私信息的概率也会非常小，对用户隐私信息的保护水平也就越高。

拉普拉斯机制主要针对数值型的数据进行差分隐私保护，即通过向查询结果中加入服从Laplace分布的随机噪声来实现ε差分隐私保护，直观的说，差分隐私机制就是引入随机函数的不确定性来掩盖单个个体数据的参与，事实上，我们就是将这种直觉形式化为对函数的敏感性定义一个上限，这个上限就是我们必须对查询输出结果中进行扰乱的隐私代价大小。详细内容参见现有技术中的相关描述，在此不再进行赘述。

3)传统的差分隐私K－means算法的两个不足之处

一方面，K－means算法对于初始点的选择便较为敏感。如果初始点选择准确，那么聚类结果便会相应准确一些，若随机选择到的初始点不够准确，那么聚类结果的可用性便会降低。并且传统的差分隐私K－means算法是通过直接为中心点添加噪声，这增大了初始点的不确定性，且每次迭代后重新计算的中心点也因为添加噪声会偏离真实的中心点，最终使得聚类结果的可用性降低。

另一方面，数据集中通常会有一些离群点，这里的离群点指的是那些偏离数据集较多的数据点，相比于K－means算法，传统的差分隐私K－means算法对于数据集中的离群点更为敏感，离群点的个数越多，聚类结果的可用性会变得越低。

基于上述现有技术中传统的差分隐私K－means算法所存在的问题，本发明实施例还提供了一种用户行为分析方法，如图3所示，该方法包括：

步骤S101：获取用户发送的待分析数据，待分析数据为用户本发明另一实施例提供的跨媒体数据共享表示方法对包含用户行为的跨媒体数据进行处理，得到的共享表示数据。

步骤S102：采用基于离群点检测的差分隐私K－means算法对待分析数据进行用户行为分析，得到分析结果。

具体地，上述步骤S102，具体包括如下步骤：

步骤S201：计算待分析数据中各个数据点对应的密度值，根据密度值的排序结果标记离群点，并根据密度值对剔除离群点后的待分析数据进行分簇，并确定每一簇的初始中心点。

步骤S202：计算待分析数据中每个数据点到所有初始中心点的欧式距离，并将该数据点划入欧式距离最小的初始中心点所在的簇中，形成分簇结果。

步骤S203：对剔除离群点后的待分析数据添加拉普拉斯噪声，并根据添加拉普拉斯噪声后的待分析数据重新计算分簇结果中的每一簇对应的中心点，得到更新后的中心点。

步骤S204：计算分簇结果中的每一簇对应的权重，根据权重及待分析数据中各数据点与各更新后的中心点的相对距离，重新进行聚类划分，并返回上述步骤S203，直至分簇结果满足预设收敛条件。

具体地，本发明实施例中，所提出的上述基于离群点检测的差分隐私K－means算法，目的是实现将差分隐私机制应用在K－means算法中，解决其中的隐私泄露问题，同时保证聚类结果的可用性。其核心内容主要在于针对K－means算法的特性，利用差分隐私机制为每次迭代后的中心点添加拉普拉斯噪声，使得攻击者获取到的中心点信息不正确，从而无法进行正确数据点的判断。再者，因为噪声的添加导致聚类结果的可用性下降，所以我们从数据集中存在离群点的角度考虑，利用计算每个数据点密度的方式来确定离群点参数，从而标记到数据集中的部分离群点，另一方面采用分段的方式得到初始聚类中心点，再在迭代的过程中加入权重使得距离计算更加精确，从而提升聚类结果的可用性。下面将详细介绍上述基于离群点检测的差分隐私K－means算法。

首先，关于算法的改进具体包括如下几个方面：

1.改进初始点的选择方式。现有算法的聚类中心由于噪声的原因使得每次重新计算后的中心点都偏离正确中心点较多。如果可以改善初始中心点的选择方式，使得初始中心点接近正确的聚类中心点，那么聚类结果的准确度将会将大大增强。

2.离群点的监测。每个数据集中会有或多或少的离群点，这会影响聚类结果。如果可以检测并标记到这些离群点，则聚类结果的准确度将会提高，在选择初始点时剔除离群点的影响，也会提高初始中心点的精准度。因此，在寻找初始点的过程中，使用矩阵将每个数据点到其他所有数据点的距离平方存储起来，数据点的个数和距离平方和的比值即为该点的密度值，计算方式如公式(2)所示。

从上述计算方式可以看出，密度值越大，该点的四周就越紧凑。但是在聚类过程中，有一些离群点会影响中心点的计算。因此，我们将所有数据点的密度值从大到小排序，根据排序结果标记离群点，并剔除。至于剔除离群点的具体的个数，可以按照预设的离群点参数r进行剔除。如果r＝0.9，那么数据点的数量是(n*0.9)，其余的(n*0.1)点被认为是离群点并且标记它们。在随后的迭代过程中，我们仍然将其划分为簇，但在计算中心点时不会列为计算对象。

3.使用相对距离计算方式。原算法采用欧氏距离计算方法计算聚类过程中两点之间的距离，然而在每次迭代中，不同簇的相似性可能不同。因此，根据簇内相似度的大小给出相应的权重，在计算距离时加入权重，迭代过程会更为准确。由于聚类的相似性可以通过方差的大小来衡量，方差很大，说明簇的相似性相对较小；相反，方差很小，簇的相似度就会相对较大。当一个簇中的相似度较大时，那么给数据点与簇中心之间的欧氏距离赋予较大的权重，相似度较小时给出较小的权重，所以权重被定义为方差的倒数。但是，使用方差来检查所有数据点的变化容易受到离群点的影响。因此，在实际应用中，为了消除离群点的影响，在计算方差时，我们选择从数据集中剔除离群点，即将聚类中的数据点与聚类中心之间的距离从小到大排序，以预设的离群点参数r＝0.9为例，根据排序结果采用前90％的点来计算方差。所以方差更精确，可以更好地显示聚类的分散程度。方差的计算如公式(3)所示：

其中，

表示第i个簇的方差，c_i表示第i个簇的中心点，n_i表示第i个簇除去离群点之后的个数，x_j表示该簇的非离群点的数据点，i、n_i、j均为正整数。

根据方差，我们可以得到这个簇的权重，具体如公式(4)所示：

其中，w_i表示第i个簇的权重，

表示第i个簇的方差，i为正整数。

因此，相对距离计算公式如下公式(5)所示：

综上，本发明实施例所利用的离群点检测的差分隐私K－means算法可以分为以下两个阶段：

1.选择初始中心点。具体包括如下步骤：

①遍历数据集中所有数据点，并计算从每个数据点到其他数据点的距离平方值；

②根据上述公式(2)计算各数据点的密度值；

③将所有密度值从大到小排序；

④根据预设的离群点参数r，将排序队列末尾的n*(1-r)个数据点标记为离群点；

⑤将离群点剔除后，按密度值排序将所有数据点随机分为k个簇，然后将每个簇的中心作为初始中心点。

2.聚类。具体包括如下步骤：

⑥计算数据集中每个数据点与每个初始中心点的欧式距离，并将其分为最近的初始中心点，将数据集划分为k个簇，形成初始分类；

⑦重新计算各个簇中心点，在计算过程中首先去除各个簇中预先标出的离群点，并为数据点总和sum及数据点总数num分别加上噪声Lap(b)，所以最终更新簇的中心点为(sum+Lap(b))/(num+Lap(b))；

⑧根据上述公式(3)及公式(4)计算每个簇的权重，利用上述公式(5)重新遍历所有数据点，进行聚类划分；

⑨重复步骤⑦和⑧直到收敛函数收敛。

由此可见，本发明实施例根据基于离群点检测的差分隐私K-means算法，迭代中聚类中心点添加噪声后是(sum+Lap(b)/num+Lap(b))。分母的敏感度为1，分子的敏感度由数据集的维度dim决定。添加或删除dim维数据集的一个点，每个属性的敏感度变化为1，分子的灵敏度为dim，整个查询序列的敏感度为(dim+1)。且不同的数据集在聚类算法中有不同的迭代次数，并且已知有两种设置隐私预算ε的方法如下；

若是己知迭代次数N，则根据定义，每次迭代的隐私保护预算是ε/N，每次所添加噪声的大小为Lap((dim+1)*ε/N)；

若是迭代次数N未知，则可以在迭代过程中连续调整参数ε的值。

根据己有的经验，初始中心点的选择会在很大程度上决定聚类结果的准确度，因此前期迭代对聚类结果的准确度影响很大，远大于后期。因此，在实际应用中，可以选择在聚类过程中逐渐增加参数ε。例如：第一次迭代的隐私保护预算是ε/2，所添加噪声为Lap(2(dim+1)/ε)，然后下一次迭代的隐私保护预算就是以ε/4，保持这样的设置直到收敛函数收敛，迭代结束。

通过执行上述步骤，本发明实施例提供的用户行为分析方法，通过利用包含复杂的跨媒体相关性的待分析数据进行用户行为分析，由于保留了媒体间数据的关联信息，有利于提高用户分析结果的准确性，并且通过利用基于离群点检测的差分隐私K-means算法进行用户行为分析，在保障用户隐私数据的基础上，进一步提高了用户分析结果的可用性和准确性。

本发明实施例还提供了一种跨媒体数据共享表示系统，如图4所示，该跨媒体数据共享表示系统包括：

获取模块1，用于获取跨媒体数据，跨媒体数据包括图像和文本两种类型的媒体数据；

第一处理模块2，用于使用多模式深度置信网络对跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示。详细内容参见上述方法实施例中步骤S1的相关描述，在此不再进行赘述。

第二处理模块3，用于使用堆叠式自动编码器对跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示。详细内容参见上述方法实施例中步骤S2的相关描述，在此不再进行赘述。

第三处理模块4，用于将每种媒体类型对应的媒体间独立表示和媒体内独立表示进行分层组合，得到跨媒体数据的共享表示。详细内容参见上述方法实施例中步骤S3的相关描述，在此不再进行赘述。

通过上述各个组成部分的协同合作，本发明实施例提供的跨媒体数据共享表示系统，通过使用多模式深度置信网络对跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示，保留了媒体间数据的关联信息，通过学习跨媒体相关性来获得共享表示，通过构建深层网络的方式可以捕获复杂的跨媒体相关性，使得该共享表示方法能够适用于复杂跨媒体数据的场景。通过分层学习来利用丰富的跨媒体相关性。在第一学习阶段，跨媒体多重深度网络共同学习每种媒体类型的两种互补的独立表示，而不是仅对先前工作进行媒体内的独立表示。并且着重于不同媒体类型之间的相关性，而中间媒体表示提供重要的信息，应予以保留。在第二学习阶段，由于每种媒体类型都有两个互补的独立表示，因此我们在一个更深的两级网络中将这些独立表示进行分层组合，以便可以共同建模媒体间和媒体内信息，以生成共享表示。

本发明实施例还提供了一种用户行为分析系统，如图5所示，该用户行为分析系统包括：

接收模块101，用于获取用户发送的待分析数据，待分析数据为用户采用本发明另一实施例提供的跨媒体数据共享表示系统对包含用户行为的跨媒体数据进行处理，得到的共享表示数据。详细内容参见上述方法实施例中步骤S101的相关描述，在此不再进行赘述。

分析模块102，用于采用基于离群点检测的差分隐私K－means算法对待分析数据进行用户行为分析，得到分析结果。详细内容参见上述方法实施例中步骤S102的相关描述，在此不再进行赘述。

通过上述各部分的协同合作，本发明实施例提供的用户行为分析系统通过利用包含复杂的跨媒体相关性的待分析数据进行用户行为分析，由于保留了媒体间数据的关联信息，有利于提高用户分析结果的准确性，并且通过利用基于离群点检测的差分隐私K－means算法进行用户行为分析，在保障用户隐私数据的基础上，进一步提高了用户分析结果的可用性和准确性。

根据本发明实施例还提供了一种电子设备，如图6所示，该电子设备可以包括处理器901和存储器902，其中处理器901和存储器902可以通过总线或者其他方式连接，图6中以通过总线连接为例。

处理器901可以为中央处理器(Central Processing Unit，CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器901所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器902中，当被处理器901执行时，执行上述方法实施例中的方法。

上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种跨媒体数据共享表示方法，其特征在于，包括：

获取跨媒体数据，所述跨媒体数据包括图像和文本两种类型的媒体数据；

使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示；

使用堆叠式自动编码器对所述跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；

将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示。

2.根据权利要求1所述的跨媒体数据共享表示方法，其特征在于，

所述使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示，包括：

通过两个完全相同的双层深度置信网络分别对每种媒体类型进行建模，所述双层深度置信网络由高斯受限玻尔兹曼机和软副本模型构成，其中，高斯受限玻尔兹曼机用于对图像特征的分布进行建模，软副本模型用于对文本特征的分布进行建模；

使用受限玻尔兹曼机设置在所述两个双层深度置信网络的顶部，对两种媒体类型的数据联合分布进行建模，得到每种媒体类型对应的媒体间独立表示。

3.根据权利要求1所述的跨媒体数据共享表示方法，其特征在于，利用最小化重构误差对所述堆叠式自动编码器进行训练，得到每种媒体类型对应的媒体内独立表示。

4.根据权利要求1所述的跨媒体数据共享表示方法，其特征在于，将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示，包括：

使用联合受限玻尔兹曼机将每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行结合，得到每种媒体类型的联合层中间表示；

使用多个堆叠的双峰自动编码对每种媒体类型的联合层中间表示进行跨媒体相关性的学习，得到所述跨媒体数据的共享表示。

5.一种用户行为分析方法，包括：

获取用户发送的待分析数据，所述待分析数据为用户采用如权利要求1－4任一项所述的跨媒体数据共享表示方法对包含用户行为的跨媒体数据进行处理，得到的共享表示数据；

采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果。

6.根据权利要求5所述的用户行为分析方法，其特征在于，所述采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果，包括：

步骤S201：计算所述待分析数据中各个数据点对应的密度值，根据所述密度值的排序结果标记离群点，并根据所述密度值对剔除离群点后的所述待分析数据进行分簇，并确定每一簇的初始中心点；

步骤S202：计算所述待分析数据中每个数据点到所有初始中心点的欧式距离，并将该数据点划入欧式距离最小的初始中心点所在的簇中，形成分簇结果；

步骤S203：对剔除离群点后的所述待分析数据添加拉普拉斯噪声，并根据添加拉普拉斯噪声后的待分析数据重新计算所述分簇结果中的每一簇对应的中心点，得到更新后的中心点；

步骤S204：计算分簇结果中的每一簇对应的权重，根据所述权重及所述待分析数据中各数据点与各更新后的中心点的相对距离，重新进行聚类划分，并返回上述步骤S203，直至分簇结果满足预设收敛条件。

7.根据权利要求6所述的用户行为分析方法，其特征在于，所述密度值通过如下公式计算：

8.根据权利要求6所述的用户行为分析方法，其特征在于，所述相对距离通过如下公式计算：

其中，reldist²(x,c_i)表示数据点x与中心点c_i之间的相对距离，w_i表示第i个簇的权重，dim表示待分析数据的维度，x_j表示数据点x的第j维度，c_ij表示第i个簇的中心点c_i的第j维度，i和j均为正整数。

9.根据权利要求8所述的用户行为分析方法，其特征在于，所述权重通过如下公式计算：

10.一种跨媒体数据共享表示系统，其特征在于，包括：

获取模块，用于获取跨媒体数据，所述跨媒体数据包括图像和文本两种类型的媒体数据；

第一处理模块，用于使用多模式深度置信网络对所述跨媒体数据中每种媒体类型进行媒体间独立表征学习，得到每种媒体类型对应的媒体间独立表示；

第二处理模块，用于使用堆叠式自动编码器对所述跨媒体数据进行媒体内独立表征学习，得到每种媒体类型对应的媒体内独立表示；

第三处理模块，用于将所述每种媒体类型对应的所述媒体间独立表示和所述媒体内独立表示进行分层组合，得到所述跨媒体数据的共享表示。

11.一种用户行为分析系统，其特征在于，包括：

接收模块，用于获取用户发送的待分析数据，所述待分析数据为用户采用如权利要求10所述的跨媒体数据共享表示系统对包含用户行为的跨媒体数据进行处理，得到的共享表示数据；

分析模块，用于采用基于离群点检测的差分隐私K－means算法对所述待分析数据进行用户行为分析，得到分析结果。

12.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1－4任一项所述的跨媒体数据共享表示方法，或者执行如权利要求5－9任一项所述的用户行为分析方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1－4任一项所述的跨媒体数据共享表示方法，或者执行如权利要求5－9任一项所述的用户行为分析方法。