CN106096439A

CN106096439A - 一种基于移动用户配置文件混淆的隐私保护系统及方法

Info

Publication number: CN106096439A
Application number: CN201610392798.8A
Authority: CN
Inventors: 陈晶; 杜瑞颖; 何琨; 刘亚国
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2016-11-09
Anticipated expiration: 2036-06-03
Also published as: CN106096439B

Abstract

本发明公开了一种基于移动用户配置文件混淆的隐私保护系统及方法，采用客户端—服务器两层体系架构，运用多种混淆技术保障移动广告生态系统中用户的隐私安全。客户端应用可以获取手机应用列表、应用程序的使用信息以及配置文件，然后发送给服务器。服务器根据收集到的信息分析、提取出用户的偏好特征，生成对应的用户偏好文件，还可以提醒用户存在的潜在威胁。同时还提出了基于相似度、定制化以及随机化的混淆策略，用户可以根据实际情况选择相应的混淆策略。混淆引擎根据用户选择的混淆策略来混淆用户偏好分类，增加了配置文件中隐私偏好的噪音，减少了用户隐私偏好的主导地位。既可以有效地保护用户隐私，又不会影响广告定向投放的效果。

Description

一种基于移动用户配置文件混淆的隐私保护系统及方法

技术领域

本发明属于移动互联网安全技术领域，涉及一种基于移动用户配置文件混淆的隐私保护系统及方法，尤其涉及一种运用多种混淆策略来保护移动用户配置文件中用户隐私信息同时又保证了定向广告投放效果的基于移动用户配置文件混淆的隐私保护系统及方法。

背景技术

随着移动设备的数量急剧增长，许多用户倾向于使用移动设备，而且更加频繁地活跃在移动网络上。由于Android采用开源的操作系统，其安全问题十分令人忧虑。尤其是随着现在指纹技术的不断升级，用户隐私安全更加突出。目前关于指纹技术的研究主要集中在网站指纹攻击、防御以及移动平台的指纹识别上，而在移动广告生态系统中利用指纹攻击、防御技术保护用户隐私并不多见。

移动应用中的配置文件在移动网络环境中显得极为重要，因为配置文件会收集用户的指纹信息并且发送到分析公司，如Google Analytics和Flurry等。由于配置文件能够增加广告与用户之间的契合度，定向广告作为促进广告生态系统发展的主要动力，因此会愈发地依赖于用户的配置文件。

许多广告服务商为了有针对性地投放广告，并且让投放的广告产生最佳效益，不得不花大量的时间去搜集用户的指纹信息，然后对收集到的信息进行分析得出每个用户的偏好特征，最后根据用户的偏好去投递相应的广告，如此一来才可以保证广告与用户之间的契合度达到最佳。细细看来发现其间隐藏着一个十分令人忧虑的问题：指纹信息包括了许多敏感信息，如性别、年龄、收入等，主要用来标识、识别每个用户，如果广告服务商获取了用户的敏感信息并且不遵守隐私规范的话，用户的隐私将面临着极大的威胁。

因此需要一种方法既可以保护移动广告生态系统中用户的隐私又不会影响定向广告投放的影响。

发明内容

为了解决上述技术问题，本发明提出了一种运用多种混淆策略来保护移动用户配置文件中用户隐私信息同时又保证了定向广告投放效果的基于移动用户配置文件混淆的隐私保护系统及方法。

本发明的系统所采用的技术方案是：一种基于移动用户配置文件混淆的隐私保护系统，其特征在于：采用客户端、服务器两层体系架构；所述客户端用于收集用户的应用列表、应用程序的使用信息以及配置文件，并将这些信息上传到服务器，同时自动化安装、运行应用程序；所述服务器对收集到的信息进行分析、提取出用户的偏好特征，为每个用户生成对应的偏好文件，同时提醒用户潜在的隐私威胁。

本发明的方法所采用的技术方案是：一种基于移动用户配置文件混淆的隐私保护方法，其特征在于，包括以下步骤：

步骤1：收集手机用户的配置文件；

步骤2：提取用户的行为数据；

步骤3：对行为数据进行预处理；

步骤4：对预处理后的行为数据建立用户标签，建立偏好预测模型，包括用户性别预测模型，年龄预测模型，收入预测模型以及兴趣爱好预测模型；建立偏好预测模型采用了逻辑回归算法，因为逻辑回归算法通过聚类分析将一些非线性特征转化为线性特征；而且比较抗噪，适用于数据特别大的场景，算法效率特别高；

步骤5：通过建立的偏好预测模型提取用户多个维度的兴趣偏好特征，包括用户维度以及应用程序维度的兴趣偏好特征；并判断是够提取成功；

若是，则执行下述步骤6；

若否，则回转执行上述步骤2，需要重新提取用户行为数据，再次建立预测模型；

步骤6：判断用户的偏好特征是否为用户的隐私偏好特征；

若是，则执行下述步骤7；

若否，则投放广广告，并回转执行上述步骤1；

步骤7：选择混淆策略，包括基于相似度的混淆策略、基于随机化的混淆策略以及基于定制化的混淆策略；

步骤8：对移动用户配置文件进行混淆，降低用户隐私偏好的优势比，保护用户隐私。

作为优选，步骤1中所述配置文件包括移动用户信息、移动网络服务信息、上下文信息、移动用户使用移动网络服务的行为日志信息。

作为优选，步骤2中是通过客户端收集用户的行为数据，所述用户行为数据包括用户身份信息、用户社会生活信息、用户行为偏好信息、人口学特征信息，这些信息根据Google提供的数据集分类标准来区分。

作为优选，步骤3中所述对行为数据进行预处理，即对原始数据进行ETL加工处理，首先需要处理掉存储的无效重复数据，对于用户行为没有影响或重复数据，对非结构化数据和半结构化数据进行结构化处理，并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理。

作为优选，步骤5中所述提取用户多个维度的兴趣偏好特征，具体实现包括以下步骤：

步骤5.1：对于步骤5中预处理后的数据，利用开源的机器学习分类包(CardMagic-Classifier)对数据进行分类；

步骤5.2：根据Google设计的用户偏好分类对用户的行为特征计算特征值；

步骤5.3：根据步骤5.2计算的特征值进行排序，选取排名靠前10个特征值为用户的偏好特征。

作为优选，步骤7中所述基于相似度的混淆策略，首先利用改进的TF—IDF算法，提取出应用程序的关键词；然后进行相似度判断；最后找到相似应用，并进行混淆。

作为优选，所述改进的TF—IDF算法，其具体实现过程是：

(1)文本预处理；

首先对语料库进行分词，接着进行停用词剔除；然后进行未登录词识别；最后统计分析；统计词语的词频、词语位置及出现该词语的段落数；

(2)计算跨度权值其中，Li表示词语出现的段数，L代表段落总数。跨段数越多，说明该词越重要，全局性越强；

(3)计算逆文档频率IDF，其中，N_i表示文档中出现词语i的文档数，β为经验值；β一般取0.01、0.1、1；

(4)计算TF-IDF：

t f \times i d f = f_{i j} \times l o g (\frac{N}{N_{i} + 1} + β) \times m_{i} \times s_{i};

其中，f_ij表示词语i在文档d_j中出现的频率，mi词语在文本中的位置权重，si是词语i在文档中的跨度；

(5)根据TF-IDF提取出关键词。

作为优选，所述进行相似度判断，假设文本x和y，则其具体实现过程是：

(1)通过TF-IDF提取出文本x，y中的关键词；

(2)列举出所有出现的关键词，得到集合S；

(3)标出集合S中，每个关键词在文本x和y中各自的词频，得到两个向量A[A₁,A₂,A₃,…A_n]和B[B₁,B₂,B₃,…B_n]；

(4)利用下面改进的余弦相似度公式计算向量A和B之间的夹角，夹角越小越相似；

{Sim}_{n e w} (A, B) = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}} \times \frac{N_{A} N_{B}}{M i n (N_{A, B})};

其中N_AN_B表示A，B中公共的关键词数量，而Min(N_A,B)表示A，B中所含关键词较少的文本中的关键词数，就表示A，B两个文本相互覆盖的程度，其取值为[0,1]，如果为0则A，B没有交集，即相似度为0，若A中的关键词在B中都出现了，那么其值就是1。

作为优选，所述找到相似应用并进行混淆，其中混淆集合S_o包含的应用都与当前手机所安装的应用程序S_a的相似度值大于70％。

对于单个混淆应用来说，基于单个私人应用分类Φ_p与私人偏好分类Ψ_p之间的对应关系，混淆集合S_o如下定义：

S_{o} = \{\begin{matrix} a^{o} &LeftArrow; | s i m (a_{i, p}, a_{q, r}) | m a x : \\ {&ForAll;}_{r} = 1, Φ, a_{i, p} &Element; S_{a}, a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p} \end{matrix}\};

其中，a^o表示要混淆的应用，a_i,p表示私人应用，a_q,r表示非私人应用，Φ表示应用分类，Φ_r表示非私人应用分类，S_a表示当前用户所安装的应用集合。

作为优选，步骤7中所述基于随机化的混淆策略，首先从个人应用中得到应用程序配置文件与偏好配置文件之间的匹配关系M；然后选择已知的偏好候选混淆应用，而且所选的混淆应用属于特定用户的偏好配置文件S_g的偏好集合所表示的分类；

假设单个混淆应用以及私人应用分类Φ_p，则混淆集合S_o如下定义：

S_{o} = {a^{o} &LeftArrow; a_{q, r} : g_{k, r} &NotElement; ψ_{p}, g_{k, r} &Element; S_{g}, a_{q, r} &NotElement; S_{a}};

其中，私人应用分类Φ_p与私人偏好分类Ψ_p一致，a^o为要混淆的应用，g_k,r为非私人偏好，a_q,r为非私人应用，S_a为当前用户所安装的应用集合。

作为优选，步骤7中所述基于定制化的混淆策略，是从任何非私有的个人应用分类Φ_j≠Φ_p中随机选择待选的混淆应用程序；混淆集合S_o如下定义：

S_{o} = {a^{o} &LeftArrow; a_{q, r} : a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p}};

其中，a^o为要混淆的应用，a_q,r为非私人应用，S_a为当前用户所安装的应用集合，Φ_r非私人应用分类，Φ_p私人应用分类。

作为优选，步骤8中所述对移动用户配置文件进行混淆，是通过隐私保护系统混淆移动用户配置文件，系统中包括应用程序、应用程序关键词、配置文件、偏好配置文件、配置文件与偏好文件之间的匹配关系、优势比的表示方法；

假设表示移动应用程序集合，Φ表示应用分类，a_i,j,i＝1,...A_j来表示一个应用，A_j表示属于Φj,j＝1,...,Φ类别的应用程序数量，Φj代表应用市场中应用的所有分类数；

则所述应用程序的关键词表示方法就是应用程序a_i,j＝{{k_m,i,j}:a_i,j∈A}，其中k_m,i,j是根据移动应用市场中，开发者对每个应用所定义的描述信息得到，k_m,i,j中的m＝1,...M_i,j，M_i,j代表应用程序a_i,j,i＝1,...A_j,j＝1,...,Φ的关键词数量；

所述应用配置文件表示方法就是用K_a＝{{{K_m,i,j}，Φ_j}:a_i,j∈S_a}来表示配置文件，其中S_α为市场应用集合的子集，k_m,i,j是其对应的关键词；

所述偏好配置文件表示方法就是通过I_g＝{{g_k,l,Ψ_l}:g_k,l∈S_g}来表示偏好配置文件，其中g_k,l,k＝1,...,G_l，G_l表示属于偏好分类Ψ_l,l＝1,...Ψ中偏好的数量，Ψ表示分析公司定义的偏好分类数量，g_k,l是某种偏好分类中的某个偏好；

所述应用配置文件和偏好配置文件之间的匹配关系就是用M:{K_a→I_g}来表示，其中Φ_j是应用程序分类，Ψ_l是偏好分类；

所述优势比就是某个事件存在某个特定条件时的成功几率和存在另一个条件时的成功几率的比率，用来表示，Ψp是配置文件中用户所选择的分类，{|{gk,p}}是用户所选择的分类中的偏好数量与任意其他类别Ψ_l中的最大偏好数量的比例。

本发明采用客户端—服务器两层体系架构，运用多种混淆技术保障移动广告生态系统中用户的隐私安全。客户端应用可以获取手机应用列表、应用程序的使用信息以及配置文件，然后发送给服务器。服务器根据收集到的信息分析、提取出用户的偏好特征，生成对应的用户偏好文件，还可以提醒用户存在的潜在威胁。同时还提出了基于相似度、定制化以及随机化的混淆策略，用户可以根据实际情况选择相应的混淆策略。混淆引擎根据用户选择的混淆策略来混淆用户偏好分类，增加了配置文件中隐私偏好的噪音，减少了用户隐私偏好的主导地位。既可以有效地保护用户隐私，又不会影响广告定向投放的效果。

本发明相比现有的技术，其优点和积极效果主要体现在以下几个方面：

1)本方案在移动广告生态系统中既保护了用户隐私信息的安全又维持了移动广告生态系统的平衡；

2)改进了原有的TF-IDF和余弦相似度的算法，提高了相似度匹配的准确率；

3)提出了基于相似度、定制化以及随机化的混淆策略大大降低了配置文件中个人隐私信息的优势比；

4)相比于传统的针对移动广告系统中的隐私保护方案，本文的方案更加方便、有效而且成本低廉。

附图说明

图1为本发明实施的系统原理图。

图2为本发明实施例的方法流程图。

图3为本发明实施例的偏好特征提取流程图。

图4为本发明实施例中提出的改进的TF—IDF算法流程图。

图5为本发明实施例的混淆模型示意图。

图6为本发明实施例中应用程序与偏好配置文件之间匹配关系示意图。

图7为本发明实施例中三种混淆策略示意图。

图8为本发明实施例中相似度策略流程图。

图9为本发明实施例中定制化策略流程图。

图10为本发明实施例中移动应用分类示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更佳清楚明白，以下结合附图即实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限于本发明。

请参阅图1，本发明的系统架构，采用客户端—服务器两层体系架构，运用多种混淆技术保障移动广告生态系统中用户的隐私安全。客户端应用可以获取手机应用列表、应用程序的使用信息以及配置文件，然后发送给服务器。服务器根据收集到的信息分析、提取出用户的偏好特征，生成对应的用户偏好文件，还可以提醒用户存在的潜在威胁。同时还提出了基于相似度、定制化以及随机化的混淆策略，用户可以根据实际情况选择相应的混淆策略。混淆引擎根据用户选择的混淆策略来混淆用户偏好分类，增加了配置文件中隐私偏好的噪音，减少了用户隐私偏好的主导地位。

请见图2，本发明提供的一种基于移动用户配置文件混淆的隐私保护方法，包括以下步骤：

步骤1：收集手机用户的配置文件(移动用户信息、移动网络服务信息、上下文信息、移动用户使用移动网络服务的行为日志信息)；

步骤2：提取用户的行为数据(用户身份信息、用户社会生活信息、用户行为偏好信息、人口学特征信息)；

步骤3：对行为数据进行预处理，即对原始数据进行ETL加工处理，首先需要处理掉存储的无效重复数据，对于用户行为没有影响或重复数据，对非结构化数据和半结构化数据进行结构化处理，并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理；

步骤4：对预处理后的行为数据建立用户标签，建立偏好预测模型，包括用户性别预测模型，年龄预测模型，收入预测模型以及兴趣爱好预测模型；建立偏好预测模型采用了逻辑回归算法，因为逻辑回归算法通过聚类分析将一些非线性特征转化为线性特征；而且比较抗噪，适用于数据特别大的场景，算法效率特别高。

若是，则执行下述步骤6；

若否，则回转执行上述步骤2；需要重新提取用户行为数据，再次建立预测模型。

步骤6：判断用户的偏好特征是否为用户的隐私偏好特征；

若是，则执行下述步骤7；

若否，则投放广广告，并回转执行上述步骤1；

本实施例的基于相似度的混淆策略，首先利用改进的TF—IDF算法，提取出应用程序的关键词；然后进行相似度判断；最后找到相似应用，并进行混淆。

请参阅图3，本发明实施例的偏好特征提取流程图。首先获取移动用户信息、移动网络服务信息、上下文信息、移动用户使用移动网络服务的行为日志等信息；接着对数据进行预处理计算；然后对预处理的数据进行建模分析，最后提取得出用户的偏好特征。具体包括如下步骤：

步骤1：对于步骤5中预处理后的数据，利用开源的机器学习分类包(CardMagic-Classifier)对数据进行分类；

步骤2：根据Google设计的用户偏好分类对用户的行为特征计算特征值；

步骤3：根据步骤2计算的特征值进行排序，选取排名靠前10个特征值为用户的偏好特征。

请参阅图4，本发明实施例提出的改进的TF—IDF算法流程图。改进的方法就是在文本预处理中加入词语段落标注技术。具体步骤如下：

步骤1：文本预处理就是在执行过程中，使用四元组<w_i，tf_i，m_i，l_i>表示预处理后的文本集，其中w_i是词语，tf_i是词语的词频，m_i是词语在文本中的位置权重，l_i是文档中出现该词语的段落数。

步骤1.1：对语料库进行分词。

步骤1.2：停用词剔除(去除文档中出现频率很高,但是对文章主题不具有代表性或者代表性很小的词。诸如的、也、吗等一类的虚词和逗号、顿号等一类的标点。

步骤1.3：未登录词识别(未登录词是指文档中那些不能由词典识别的词汇，包括人名、地名、术语等。未登录词基本都是名词，大多是专有名词或新词，往往说明该文章描述的特定对象，是文章表达的特征词，一般具有较高的重要性。

步骤1.4：统计分析。统计词语的词频、词语位置及出现该词语的段落数,得到<w_i，tf_i，m_i，l_i>四元组。最后得到的四元组为改进文本预处理后的结果。

步骤2：计算跨度权值，一个词的跨段落情况说明这个词是描述局部的还是表达全文的。跨段数越多，说明该词越重要，全局性越强。词跨度公式：

S_{i} = \frac{L i}{L}

其中，Li表示词语出现的段数，L代表段落总数。

步骤3：计算逆文档频率(IDF)，此时需要一个语料库(corpus)，用来模拟语言的使用环境。如果一个词出现的频率比较高就越常见，那么分母就越大，逆文档频率就会越小甚至接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

i d f = l o g (\frac{N}{N_{i} + 1} + β)

其中N_i表示文档中出现词语i的文档数，β为经验值，β一般取0.01、0.1、1。

步骤4：计算TF-IDF：

t f \times i d f = f_{i j} \times l o g (\frac{N}{N_{i} + 1} + β) \times m_{i} \times s_{i}

其中f_ij表示词语i在文档d_j中出现的频率，m_i词语在文本中的位置权重，s_i是词语i在文档中的跨度。

本实施例相似度判断，假设文本x和y，则其具体实现过程是：

(1)通过TF-IDF提取出文本x，y中的关键词；

(2)列举出所有出现的关键词，得到集合S；

{Sim}_{n e w} (A, B) = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}} \times \frac{N_{A} N_{B}}{M i n (N_{A, B})};

本实施例的混淆策略就是通过混淆系统混淆移动用户配置文件。系统模型中包括应用程序，应用程序关键词，配置文件，偏好配置文件，配置文件与偏好文件之间的匹配关系，优势比的表示方法。假设表示移动应用程序集合，Φ表示应用分类。a_i,j,i＝1,...A_j来表示一个应用，其中A_j表示属于Φj,j＝1,...,Φ类别的应用程序数量，Φ代表应用市场中应用的所有分类数。

应用程序的关键词表示方法就是应用程序a_i,j＝{{k_m,i,j}:a_i,j∈A}，其中k_m,i,j是根据移动应用市场中，开发者对每个应用所定义的描述信息得到。k_m,i,j中的m＝1,...M_i,j，M_i,j代表应用程序a_i,j,i＝1,...A_j,j＝1,...,Φ的关键词数量。

应用配置文件表示方法就是用K_a＝{{{K_m,i,j}，Φ_j}:a_i,j∈S_a}来表示配置文件，其中S_α为市场应用集合的子集，k_m,i,j是其对应的关键词。

偏好配置文件表示方法就是通过I_g＝{{g_k,l,Ψ_l}:g_k,l∈S_g}来表示偏好配置文件，其中g_k,l,k＝1,...,G_l，G_l表示属于偏好分类Ψ_l,l＝1,...Ψ中偏好的数量，Ψ表示分析公司定义的偏好分类数量。g_k,l简单说来就是某种偏好分类中的某个偏好。

应用配置文件和偏好配置文件之间的匹配关系就是用M:{K_a→I_g}来表示，其中Φ_j是应用程序分类，Ψ_l是偏好分类。

优势比就是某个事件存在某个特定条件时的成功几率和存在另一个条件时的成功几率的比率，用g_k,l∈S_g来表示，Ψp是配置文件中用户所选择的分类，{|{gk,p}|}是用户所选择的分类中的偏好数量与任意其他类别Ψ_l中的最大偏好数量的比例。

请参阅图5，本发明实施例的混淆模型示意图。假设应用配置文件和偏好配置文件具有一定的匹配关系，在此定义匹配函数M，M:{K_a→I_g}，其中包括应用程序分类Φ_j与偏好分类Ψ_l之间的匹配关系。混淆策略的目标就是最大限度降低用户配置文件I_g中选择的私人分类Ψ_p的优势比，主要是通过生成新的混淆配置文件I'_g来实现。

请参阅图6，本发明实施例中应用程序与偏好配置文件之间匹配关系示意图。首先需要找到应用程序配置文件的表示方法，即从移动应用市场到应用分类在到具体的应用程序，通过关键词来表示应用程序，最后表示出应用程序配置文件。同样地，应用偏好也是如此，从偏好集合到偏好分类再到具体的偏好，最后得到偏好配置文件的表示方法。再通过匹配关系M来表示应用程序与偏好配置文件之间的关系。

请参阅图7，本发明实施例中三种混淆策略示意图。首先表示出应用程序配置文件，根据用户所选择的混淆应用程序，在通过合适的混淆策略对应用进行混淆，降低私人偏好在配置文件中的优势比，即增加用户隐私信息的噪音，从而达到保护用户隐私的目的。

请参阅图8，本发明实施例中相似度策略流程图。根据相似度的高低来选择合适的混淆应用。混淆集合S_o包含的应用都与当前手机所安装的应用程序S_a具有最高的相似度(基于改进的余弦相似度来计算)。对于单个混淆应用来说，单个私人应用分类Φ_p与私人偏好分类Ψ_p之间的对应关系，可以如下定义：

S_{o} = \{\begin{matrix} a^{o} &LeftArrow; | s i m (a_{i, p}, a_{q, r}) | m a x : \\ {&ForAll;}_{r} = 1, Φ, a_{i, p} &Element; S_{a}, a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p} \end{matrix}\}

其中，a^o为要混淆的应用，a_i,p为私人应用，a_q,r为非私人应用，Φ表示应用分类，Φ_r为非私人应用分类，S_a为当前用户所安装的应用集合。

请参阅图9，本发明实施例中定制化策略流程图。假设可以从个人应用中得到应用程序配置文件(关键词和分类)与偏好配置文件之间的匹配关系M。实际上，有关特定应用的一系列测试是根据用户特定应用的偏好配置文件来设计的。然后选择可以生成(已知的)偏好的候选混淆应用，而且所选的混淆应用属于特定用户的偏好配置文件S_g的偏好集合所表示的分类。假设单个混淆应用以及私人应用分类Φ_p(与私人偏好分类Ψ_p一致)：

S_{o} = {a^{o} &LeftArrow; a_{q, r} : g_{k, r} &NotElement; ψ_{p}, g_{k, r} &Element; S_{g}, a_{q, r} &NotElement; S_{a}}

其中，a^o为要混淆的应用，g_k,r为非私人偏好，a_q,r为非私人应用，S_a为当前用户所安装的应用集合。

然而，随机策略旨在从任何非私有的个人应用分类Φ_j≠Φ_p中随机选择待选的混淆应用程序。

S_{o} = {a^{o} &LeftArrow; a_{q, r} : a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p}}

其中，a^o为要混淆的应用，a_q,r为非私人应用，S_a为当前用户所安装的应用集合，Φ_r为非私人应用分类，Φ_p为私人应用分类。

请参阅图10，本发明实施例中移动应用分类示意图。选取了Google Play应用商店中移动应用分类规则，具体包括财务、个性化、购物、教育等27中，此外还对家庭、游戏进行了更加细腻度地分类。

本发明从广告商的角度出发来保护用户的隐私信息，通过基于用户配置文件的混淆系统对用户的配置文件进行混淆，增加了个人隐私信息的噪音。这避免了个人指纹信息被泄露给广告生态系统中的第三方，或者被移动分析平台恶意使用。既达到了保护用户隐私的目的，又不会严重影响定向广告投放的效果，在用户隐私和广告定向投放两方面达到合理平衡。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于移动用户配置文件混淆的隐私保护系统，其特征在于：采用客户端、服务器两层体系架构；所述客户端用于收集用户的应用列表、应用程序的使用信息以及配置文件，并将这些信息上传到服务器，同时自动化安装、运行应用程序；所述服务器对收集到的信息进行分析、提取出用户的偏好特征，为每个用户生成对应的偏好文件，同时提醒用户潜在的隐私威胁。

2.一种基于移动用户配置文件混淆的隐私保护方法，其特征在于，包括以下步骤：

步骤1：收集手机用户的配置文件；

步骤2：提取用户的行为数据；

步骤3：对行为数据进行预处理；

步骤4：对预处理后的行为数据建立用户标签，建立偏好预测模型，包括用户性别预测模型，年龄预测模型，收入预测模型以及兴趣爱好预测模型；

若是，则执行下述步骤6；

若否，则回转执行上述步骤2；

步骤6：判断用户的偏好特征是否为用户的隐私偏好特征；

若是，则执行下述步骤7；

若否，则投放广告，并回转执行上述步骤1；

3.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤1中所述配置文件包括移动用户信息、移动网络服务信息、上下文信息、移动用户使用移动网络服务的行为日志信息。

4.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤2中是通过客户端收集用户的行为数据，所述用户行为数据包括用户身份信息、用户社会生活信息、用户行为偏好信息、人口学特征信息。

5.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤3中所述对行为数据进行预处理，即对原始数据进行ETL加工处理，首先需要处理掉存储的无效重复数据，对于用户行为没有影响或重复数据，对非结构化数据和半结构化数据进行结构化处理，并对数据进行补缺、替换、数据合并、数据拆分、数据加载和异常处理。

6.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤5中所述提取用户多个维度的兴趣偏好特征，具体实现包括以下步骤：

步骤5.1：对于步骤3中预处理后的数据，利用开源的机器学习分类包对数据进行分类；

7.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤7中所述基于相似度的混淆策略，首先利用改进的TF—IDF算法，提取出应用程序的关键词；然后进行相似度判断；最后找到相似应用，并进行混淆。

8.根据权利要求7所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：所述改进的TF—IDF算法，其具体实现过程是：

(1)文本预处理；

(3)计算逆文档频率IDF，其中，N_i表示文档中出现词语i的文档数，β为经验值；

(4)计算TF-IDF：

t f \times i d f = f_{i j} \times l o g (\frac{N}{N_{i} + 1} + β) \times m_{i} \times s_{i};

其中，f_ij表示词语i在文档d_j中出现的频率，m_i词语在文本中的位置权重，s_i是词语i在文档中的跨度；

(5)根据TF-IDF提取出关键词。

9.根据权利要求7所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：所述进行相似度判断，假设文本x和y，则其具体实现过程是：

(1)通过TF-IDF提取出文本x，y中的关键词；

(2)列举出所有出现的关键词，得到集合S；

{Sim}_{n e w} (A, B) = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}} \times \frac{N_{A} N_{B}}{M i n (N_{A, B})};

10.根据权利要求7所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：所述找到相似应用并进行混淆，其中混淆集合S_o包含的应用都与当前手机所安装的应用程序S_a的相似度值大于70％；

S_{o} = \{\begin{matrix} a^{o} &LeftArrow; {| s i m (a_{i, p}, a_{q, r}) |}_{m a x} : \\ {&ForAll;}_{r} = 1, Φ, a_{i, p} &Element; S_{a}, a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p} \end{matrix}\};

11.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤7中所述基于随机化的混淆策略，首先从个人应用中得到应用程序配置文件与偏好配置文件之间的匹配关系M；然后选择已知的偏好候选混淆应用，而且所选的混淆应用属于特定用户的偏好配置文件S_g的偏好集合所表示的分类；

S_{o} = {a^{o} &LeftArrow; a_{q, r} : g_{k, r} &NotElement; ψ_{p}, g_{k, r} &Element; S_{g}, a_{q, r} &NotElement; S_{a}};

其中，私人应用分类Φ_p与私人偏好分类Ψ_p一致，a^o表示要混淆的应用，g_k,r表示非私人偏好，a_q,r表示非私人应用，S_a表示当前用户所安装的应用集合。

12.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤7中所述基于定制化的混淆策略，是从任何非私有的个人应用分类Φ_j≠Φ_p中随机选择待选的混淆应用程序；混淆集合S_o如下定义：

S_{o} = {a^{o} &LeftArrow; a_{q, r} : a_{q, r} &NotElement; S_{a}, Φ_{r} &NotEqual; Φ_{p}};

其中，a^o表示要混淆的应用，a_q,r表示非私人应用，S_a表示当前用户所安装的应用集合，Φ_r表示非私人应用分类，Φ_p表示私人应用分类。

13.根据权利要求2所述的基于移动用户配置文件混淆的隐私保护方法，其特征在于：步骤8中所述对移动用户配置文件进行混淆，是通过隐私保护系统混淆移动用户配置文件，系统中包括应用程序、应用程序关键词、配置文件、偏好配置文件、配置文件与偏好文件之间的匹配关系、优势比的表示方法；

则所述应用程序的关键词表示方法就是应用程序其中k_m,i,j是根据移动应用市场中，开发者对每个应用所定义的描述信息得到；k_m,i,j中的m＝1,...M_i,j，M_i,j代表应用程序a_i,j,i＝1,...A_j,j＝1,...,Φ的关键词数量；

所述优势比就是某个事件存在某个特定条件时的成功几率和存在另一个条件时的成功几率的比率，用g_k,l∈S_g来表示，Ψp是配置文件中用户所选择的分类，{|{gk,p}|}是用户所选择的分类中的偏好数量与任意其他类别Ψ_l中的最大偏好数量的比例。