CN101814119A

CN101814119A - 具有隐私保护的用户模型构建方法

Info

Publication number: CN101814119A
Application number: CN201010118572A
Authority: CN
Inventors: 李琳; 钟珞; 胡燕; 刘东飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2010-02-13
Filing date: 2010-02-13
Publication date: 2010-08-25
Anticipated expiration: 2030-02-13
Also published as: CN101814119B

Abstract

本发明公开了一种具有隐私保护的用户模型构建方法，包括如下步骤：(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型，每层次的各个节点包含用户信息；(2)对应所述用户模型的各个层次设置隐私参数；(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。本方法通过对用户使用Web信息服务的历史数据进行处理和分析，形成具有多层次的用户模型，同时对用户模型的每一层次设置隐私参数，用户选择任一隐私参数时，都可以在提供相应层次的服务质量的同时通过信息熵计算出用户隐私的暴露度，此时用户可以在服务质量和隐私暴露度上进行权衡和选择。

Description

具有隐私保护的用户模型构建方法

技术领域

本发明涉及基于Web的信息服务和面向Web的数据挖掘领域，特别涉及具有隐私保护的用户模型构建方法。

背景技术

由于大量信息通过Internet，尤其Web快速生产、发布和传播，Web上的信息日益丰富，这样就不可避免地出现“信息过载”和“资源迷向”等信息爆炸现象。为避免上述现象的发生，下一代Web信息服务趋向于个性化的发展方向。

个性化Web信息服务主要包括个性化信息搜索服务和个性化推荐服务。个性化信息搜索服务能为不同的人提供符合他们各自要求的不同的信息检索结果；个性化推荐服务，特别是个性化的电子商务推荐系统能根据用户行为特征为用户提高一对一的服务，帮助用户找到所需的商品，同时通过推荐系统商家能提高电子商务系统销售，保持与客户的联系，提高用户满意度。因此，个性化Web信息服务能大幅度提高服务质量。

然而，个性化Web信息服务在大幅度提高服务质量的同时，由于该服务缺乏隐私保护机制，因此到目前为止未被广大用户接受和使用。具体而言，实现个性化Web信息服务需要构建表示用户信息需求的用户模型来，构建用户模型时又需要大量的用户个人信息例如查询词和搜索历史等等的支撑。从隐私保护的角度来看，用户模型的构建暴露了用户的私人生活，比如说政治倾向，家庭生活和喜好等等，这些令用户十分担心。综上分析，个性化Web信息服务面临着一个进退两难的局面：高质量的个性化Web信息服务要求用户模型的准确性，而准确的用户模型会暴露用户隐私，这样用户隐私问题的担心成为个性化Web信息服务广泛应用的主要障碍。

因此，有必要提供一种在在构建用户模型的同时对用户隐私进行保护的方法来实现个性化Web信息服务的广泛应用。

发明内容

本发明的目的是提出一种具有隐私保护的用户模型构建方法，能在提高服务质量的同时保护用户隐私。

为了实现上述目的，本发明提供了一种具有隐私保护的用户模型构建方法，包括如下步骤：(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型，每层次的各个节点包含用户信息；(2)对应所述用户模型的各个层次设置隐私参数；(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。

在本发明的一个实施例中，所述步骤(1)具体为：(11)对用户使用Web信息服务的历史数据进行文本预处理，所述文本预处理后的历史数据构成用户模型的第一层次的文本信息；(12)对第一层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息；(13)当类间的距离不大于预定的阈值时，对当前层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息。

在本发明的另一实施例中，所述步骤(11)中的文本预处理包括抽取词干，所述文本预处理后的历史数据为抽取的词干，其构成用户模型的第一层次的文本信息。

在本发明的再一实施例中，所述步骤(2)具体为：设置一个从用户模型的高层次调节到低层次的隐私参数。

较佳地，所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件。

与现有技术相比，本发明具有隐私保护的用户模型构建方法可以通过对用户使用Web信息服务的历史数据进行多级处理，从而形成具有多层次的用户模型，由于用户模型的每个层次都设置有隐私参数，当用户选择任一隐私参数时，本实施例都可以在得到相应服务质量的web信息服务的同时，通过信息熵计算出用户隐私的暴露度，用户可以在服务质量和隐私暴露度上进行权衡，可以选择通过向服务系统选择高层次的隐私参数以获得高质量的服务和较低的隐私暴露度，也可以选择低层次的隐私参数以获得较高的隐私暴露度。。

通过以下的描述并结合附图，本发明将变得更加清晰，这些附图用于解释本发明的实施例。

附图说明

图1为本发明具有隐私保护的用户模型构建方法的主流程图。

图2为图1所示具有隐私保护的用户模型构建方法中构建多层次的用户模型的详细流程图。

具体实施方式

现在参考附图描述本发明的实施例，附图中类似的元件标号代表类似的元件。

如图1，本实施例具有隐私保护的用户模型构建方法，包括如下步骤：

步骤S1，对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型，每层次的各个节点包含用户信息；

步骤S2，对应所述用户模型的各个层次设置隐私参数；

步骤S3，通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。

由上述技术方案可知，本实施例具有隐私保护的用户模型构建方法可以通过对用户使用Web信息服务的历史数据进行多级处理，从而形成具有多层次的用户模型，由于用户模型的每个层次都设置有隐私参数，当用户选择任一隐私参数时，本实施例都可以在得到相应服务质量的web信息服务的同时，通过信息熵计算出用户隐私的暴露度，用户可以在服务质量和隐私暴露度上进行权衡，可以选择通过向服务系统选择高层次的隐私参数以获得高质量的服务和较低的隐私暴露度，也可以选择低层次的隐私参数以获得较高的隐私暴露度。

其中，所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件等，这些都有助于识别和推断用户隐性的目的和意图。

如图2，所述步骤S1具体为：

步骤S11，对用户使用Web信息服务的历史数据进行文本预处理，所述文本预处理后的历史数据构成用户模型的第一层次的文本信息；

步骤S12，对第一层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息；

步骤S13，判断类间的距离是否大于预定的阈值，如果否，继续下一步，如果是，结束，层次用户兴趣模型构建完成，得到的层次用户兴趣模型，如图2所示；

步骤S14，对当前层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息，转步骤S13。

具体地，所述步骤S14为：当当前层次是第二层次时，对第二层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的第三层次的文本信息，当当前层次是第三层次时，对所述第三层次做类似处理。

所述步骤S11中文本预处理包括抽取词干(stem)和计算基于词频(TermFrequency)的加权值(TF)。所述文本预处理后的历史数据为抽取的词干，其构成用户模型的第一层次(最底层)的文本信息。如果词干的某个词在文中出现的次数比较多，则代表比较重要，这样在后续聚类和摘要抽取计算相似度时，将赋予该词大的权重(weight)。

下面对图2进行说明。图2中用户模型的高层次的每个节点都是通过对其下低层的文本信息聚类获得(除了最底层是通过用户历史信息抽取词干获得)，而对低层的文本信息提取摘要，就形成了对其上高层进行描述的文本信息。这样的层次结构中高层次的节点信息简明概括，隐私被保护的程度较高；低层次的节点信息冗长详细，隐私被保护的程度较低。比如高层次的节点中包含像计算机、旅游之类的主题词，具有很高的普适性，针对性较弱，比较模糊；而低层次节点中像C#、自驾游等更为详细，相对而言就具有一定的针对性，这样用户被识别的可能性增加，比较清晰。

其中，所述步骤(2)具体为：设置一个从用户模型的高层次调节到低层次的隐私参数。

当隐私参数被设置在最高层(图2中的根部节点)，提供给Web信息服务系统的最高层的用户个人信息非常模糊(非个性化服务)，用户隐私得到最大的保护(没有任何用户信息被暴露)。当隐私参数被设置在低层(图2中的根部节点之外的节点)，提供给Web信息服务系统的最高层的用户个人信息较为清晰(个性化服务)，用户信息部分暴露。当用户使用Web信息服务时，将隐私参数选择到最高层，如果用户对非个性化服务的质量满意，表明本次服务可以结束，此时无任何用户信息暴露，用户隐私得到最大的保护。如果用户对非个性化服务的质量不满意，将隐私参数调节到下一层，此时一定量的用户信息暴露，若在这种情况下服务的质量仍不高，将隐私参数调节到再下一层，此时更多的用户信息被暴露。

总之，当高层次节点的用户信息就足以使用户得到满意的服务质量时，低层次节点中用户较为详细的信息就可以被保护起来；当使用高层次的信息无法满足用户的需求时，用户可以在服务质量和隐私安全性上进行权衡，可以选择通过向服务系统提供更为细节的低层次的信息以获得高质量的服务，也可以为了保护隐私而放弃使用个性化。这种设置可调节的隐私参数的方法使得用户可以根据服务质量主动选择如何保护自己的隐私，而不是完全被动的接受服务提供者的安排。

所述步骤(3)中的信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。于是将层次用户兴趣模型中的信息看成是离散的具有一定概率分布的变量。高层次节点的信息普适性高且针对性弱，所暴露的用户隐私信息越少，不确定性大，信息熵值高；低层次节点的信息普适性低且针对性强，所暴露的用户隐私信息越多，不确定性小，信息熵值低。

当步骤(2)中用户确定隐私参数后，由隐私参数确定的提供给服务提供者的用户信息也相应确定，通过信息熵的计算就能够得知此时用户隐私的暴露度(保护度)。一般来说，高的保护度将导致服务质量降低；低的保护度有利于获得高质量的服务。用户能够控制和决定隐私暴露的程度，可以通过信息熵的数值和服务质量的权衡考虑，从而更好得使用Web信息服务。

以上结合最佳实施例对本发明进行了描述，但本发明并不局限于以上揭示的实施例，而应当涵盖各种根据本发明的本质进行的修改、等效组合。

Claims

1.一种具有隐私保护的用户模型构建方法，包括如下步骤：

(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型，每层次的各个节点包含用户信息；

(2)对应所述用户模型的各个层次设置隐私参数；

(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。

2.如权利要求1所述的具有隐私保护的用户模型构建方法，其特征在于，所述步骤(1)具体为：

(11)对用户使用Web信息服务的历史数据进行文本预处理，所述文本预处理后的历史数据构成用户模型的第一层次的文本信息；

(12)对第一层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息；

(13)当类间的距离不大于预定的阈值时，对当前层次的文本信息进行聚类处理以形成若干个类，将每一类中的文本信息进行文本摘要提取，所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息。

3.如权利要求2所述的具有隐私保护的用户模型构建方法，其特征在于，所述步骤(11)中的文本预处理包括抽取词干，所述文本预处理后的历史数据为抽取的词干，其构成用户模型的第一层次的文本信息。

4.如权利要求1所述的具有隐私保护的用户模型构建方法，其特征在于，所述步骤(2)具体为：

设置一个从用户模型的高层次调节到低层次的隐私参数。

5.如权利要求1所述的具有隐私保护的用户模型构建方法，其特征在于，所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件。