CN101814119A - 具有隐私保护的用户模型构建方法 - Google Patents

具有隐私保护的用户模型构建方法 Download PDF

Info

Publication number
CN101814119A
CN101814119A CN201010118572A CN201010118572A CN101814119A CN 101814119 A CN101814119 A CN 101814119A CN 201010118572 A CN201010118572 A CN 201010118572A CN 201010118572 A CN201010118572 A CN 201010118572A CN 101814119 A CN101814119 A CN 101814119A
Authority
CN
China
Prior art keywords
user
level
user model
privacy
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010118572A
Other languages
English (en)
Other versions
CN101814119B (zh
Inventor
李琳
钟珞
胡燕
刘东飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN2010101185721A priority Critical patent/CN101814119B/zh
Publication of CN101814119A publication Critical patent/CN101814119A/zh
Application granted granted Critical
Publication of CN101814119B publication Critical patent/CN101814119B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种具有隐私保护的用户模型构建方法,包括如下步骤:(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型,每层次的各个节点包含用户信息;(2)对应所述用户模型的各个层次设置隐私参数;(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。本方法通过对用户使用Web信息服务的历史数据进行处理和分析,形成具有多层次的用户模型,同时对用户模型的每一层次设置隐私参数,用户选择任一隐私参数时,都可以在提供相应层次的服务质量的同时通过信息熵计算出用户隐私的暴露度,此时用户可以在服务质量和隐私暴露度上进行权衡和选择。

Description

具有隐私保护的用户模型构建方法
技术领域
本发明涉及基于Web的信息服务和面向Web的数据挖掘领域,特别涉及具有隐私保护的用户模型构建方法。
背景技术
由于大量信息通过Internet,尤其Web快速生产、发布和传播,Web上的信息日益丰富,这样就不可避免地出现“信息过载”和“资源迷向”等信息爆炸现象。为避免上述现象的发生,下一代Web信息服务趋向于个性化的发展方向。
个性化Web信息服务主要包括个性化信息搜索服务和个性化推荐服务。个性化信息搜索服务能为不同的人提供符合他们各自要求的不同的信息检索结果;个性化推荐服务,特别是个性化的电子商务推荐系统能根据用户行为特征为用户提高一对一的服务,帮助用户找到所需的商品,同时通过推荐系统商家能提高电子商务系统销售,保持与客户的联系,提高用户满意度。因此,个性化Web信息服务能大幅度提高服务质量。
然而,个性化Web信息服务在大幅度提高服务质量的同时,由于该服务缺乏隐私保护机制,因此到目前为止未被广大用户接受和使用。具体而言,实现个性化Web信息服务需要构建表示用户信息需求的用户模型来,构建用户模型时又需要大量的用户个人信息例如查询词和搜索历史等等的支撑。从隐私保护的角度来看,用户模型的构建暴露了用户的私人生活,比如说政治倾向,家庭生活和喜好等等,这些令用户十分担心。综上分析,个性化Web信息服务面临着一个进退两难的局面:高质量的个性化Web信息服务要求用户模型的准确性,而准确的用户模型会暴露用户隐私,这样用户隐私问题的担心成为个性化Web信息服务广泛应用的主要障碍。
因此,有必要提供一种在在构建用户模型的同时对用户隐私进行保护的方法来实现个性化Web信息服务的广泛应用。
发明内容
本发明的目的是提出一种具有隐私保护的用户模型构建方法,能在提高服务质量的同时保护用户隐私。
为了实现上述目的,本发明提供了一种具有隐私保护的用户模型构建方法,包括如下步骤:(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型,每层次的各个节点包含用户信息;(2)对应所述用户模型的各个层次设置隐私参数;(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。
在本发明的一个实施例中,所述步骤(1)具体为:(11)对用户使用Web信息服务的历史数据进行文本预处理,所述文本预处理后的历史数据构成用户模型的第一层次的文本信息;(12)对第一层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息;(13)当类间的距离不大于预定的阈值时,对当前层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息。
在本发明的另一实施例中,所述步骤(11)中的文本预处理包括抽取词干,所述文本预处理后的历史数据为抽取的词干,其构成用户模型的第一层次的文本信息。
在本发明的再一实施例中,所述步骤(2)具体为:设置一个从用户模型的高层次调节到低层次的隐私参数。
较佳地,所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件。
与现有技术相比,本发明具有隐私保护的用户模型构建方法可以通过对用户使用Web信息服务的历史数据进行多级处理,从而形成具有多层次的用户模型,由于用户模型的每个层次都设置有隐私参数,当用户选择任一隐私参数时,本实施例都可以在得到相应服务质量的web信息服务的同时,通过信息熵计算出用户隐私的暴露度,用户可以在服务质量和隐私暴露度上进行权衡,可以选择通过向服务系统选择高层次的隐私参数以获得高质量的服务和较低的隐私暴露度,也可以选择低层次的隐私参数以获得较高的隐私暴露度。。
通过以下的描述并结合附图,本发明将变得更加清晰,这些附图用于解释本发明的实施例。
附图说明
图1为本发明具有隐私保护的用户模型构建方法的主流程图。
图2为图1所示具有隐私保护的用户模型构建方法中构建多层次的用户模型的详细流程图。
具体实施方式
现在参考附图描述本发明的实施例,附图中类似的元件标号代表类似的元件。
如图1,本实施例具有隐私保护的用户模型构建方法,包括如下步骤:
步骤S1,对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型,每层次的各个节点包含用户信息;
步骤S2,对应所述用户模型的各个层次设置隐私参数;
步骤S3,通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。
由上述技术方案可知,本实施例具有隐私保护的用户模型构建方法可以通过对用户使用Web信息服务的历史数据进行多级处理,从而形成具有多层次的用户模型,由于用户模型的每个层次都设置有隐私参数,当用户选择任一隐私参数时,本实施例都可以在得到相应服务质量的web信息服务的同时,通过信息熵计算出用户隐私的暴露度,用户可以在服务质量和隐私暴露度上进行权衡,可以选择通过向服务系统选择高层次的隐私参数以获得高质量的服务和较低的隐私暴露度,也可以选择低层次的隐私参数以获得较高的隐私暴露度。
其中,所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件等,这些都有助于识别和推断用户隐性的目的和意图。
如图2,所述步骤S1具体为:
步骤S11,对用户使用Web信息服务的历史数据进行文本预处理,所述文本预处理后的历史数据构成用户模型的第一层次的文本信息;
步骤S12,对第一层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息;
步骤S13,判断类间的距离是否大于预定的阈值,如果否,继续下一步,如果是,结束,层次用户兴趣模型构建完成,得到的层次用户兴趣模型,如图2所示;
步骤S14,对当前层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息,转步骤S13。
具体地,所述步骤S14为:当当前层次是第二层次时,对第二层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的第三层次的文本信息,当当前层次是第三层次时,对所述第三层次做类似处理。
所述步骤S11中文本预处理包括抽取词干(stem)和计算基于词频(TermFrequency)的加权值(TF)。所述文本预处理后的历史数据为抽取的词干,其构成用户模型的第一层次(最底层)的文本信息。如果词干的某个词在文中出现的次数比较多,则代表比较重要,这样在后续聚类和摘要抽取计算相似度时,将赋予该词大的权重(weight)。
下面对图2进行说明。图2中用户模型的高层次的每个节点都是通过对其下低层的文本信息聚类获得(除了最底层是通过用户历史信息抽取词干获得),而对低层的文本信息提取摘要,就形成了对其上高层进行描述的文本信息。这样的层次结构中高层次的节点信息简明概括,隐私被保护的程度较高;低层次的节点信息冗长详细,隐私被保护的程度较低。比如高层次的节点中包含像计算机、旅游之类的主题词,具有很高的普适性,针对性较弱,比较模糊;而低层次节点中像C#、自驾游等更为详细,相对而言就具有一定的针对性,这样用户被识别的可能性增加,比较清晰。
其中,所述步骤(2)具体为:设置一个从用户模型的高层次调节到低层次的隐私参数。
当隐私参数被设置在最高层(图2中的根部节点),提供给Web信息服务系统的最高层的用户个人信息非常模糊(非个性化服务),用户隐私得到最大的保护(没有任何用户信息被暴露)。当隐私参数被设置在低层(图2中的根部节点之外的节点),提供给Web信息服务系统的最高层的用户个人信息较为清晰(个性化服务),用户信息部分暴露。当用户使用Web信息服务时,将隐私参数选择到最高层,如果用户对非个性化服务的质量满意,表明本次服务可以结束,此时无任何用户信息暴露,用户隐私得到最大的保护。如果用户对非个性化服务的质量不满意,将隐私参数调节到下一层,此时一定量的用户信息暴露,若在这种情况下服务的质量仍不高,将隐私参数调节到再下一层,此时更多的用户信息被暴露。
总之,当高层次节点的用户信息就足以使用户得到满意的服务质量时,低层次节点中用户较为详细的信息就可以被保护起来;当使用高层次的信息无法满足用户的需求时,用户可以在服务质量和隐私安全性上进行权衡,可以选择通过向服务系统提供更为细节的低层次的信息以获得高质量的服务,也可以为了保护隐私而放弃使用个性化。这种设置可调节的隐私参数的方法使得用户可以根据服务质量主动选择如何保护自己的隐私,而不是完全被动的接受服务提供者的安排。
所述步骤(3)中的信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。于是将层次用户兴趣模型中的信息看成是离散的具有一定概率分布的变量。高层次节点的信息普适性高且针对性弱,所暴露的用户隐私信息越少,不确定性大,信息熵值高;低层次节点的信息普适性低且针对性强,所暴露的用户隐私信息越多,不确定性小,信息熵值低。
当步骤(2)中用户确定隐私参数后,由隐私参数确定的提供给服务提供者的用户信息也相应确定,通过信息熵的计算就能够得知此时用户隐私的暴露度(保护度)。一般来说,高的保护度将导致服务质量降低;低的保护度有利于获得高质量的服务。用户能够控制和决定隐私暴露的程度,可以通过信息熵的数值和服务质量的权衡考虑,从而更好得使用Web信息服务。
以上结合最佳实施例对本发明进行了描述,但本发明并不局限于以上揭示的实施例,而应当涵盖各种根据本发明的本质进行的修改、等效组合。

Claims (5)

1.一种具有隐私保护的用户模型构建方法,包括如下步骤:
(1)对用户使用Web信息服务的历史数据进行多级处理以形成具有多层次的用户模型,每层次的各个节点包含用户信息;
(2)对应所述用户模型的各个层次设置隐私参数;
(3)通过信息熵计算由所述隐私参数确定的用户信息进而获取用户隐私的暴露度。
2.如权利要求1所述的具有隐私保护的用户模型构建方法,其特征在于,所述步骤(1)具体为:
(11)对用户使用Web信息服务的历史数据进行文本预处理,所述文本预处理后的历史数据构成用户模型的第一层次的文本信息;
(12)对第一层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的第二层次的文本信息;
(13)当类间的距离不大于预定的阈值时,对当前层次的文本信息进行聚类处理以形成若干个类,将每一类中的文本信息进行文本摘要提取,所述文本摘要提取后的文本信息构成用户模型的所述当前层次之上一层次的文本信息。
3.如权利要求2所述的具有隐私保护的用户模型构建方法,其特征在于,所述步骤(11)中的文本预处理包括抽取词干,所述文本预处理后的历史数据为抽取的词干,其构成用户模型的第一层次的文本信息。
4.如权利要求1所述的具有隐私保护的用户模型构建方法,其特征在于,所述步骤(2)具体为:
设置一个从用户模型的高层次调节到低层次的隐私参数。
5.如权利要求1所述的具有隐私保护的用户模型构建方法,其特征在于,所述用户使用Web信息服务的历史数据包括建立的个人文档、浏览历史、购买的商品以及电子邮件。
CN2010101185721A 2010-02-13 2010-02-13 具有隐私保护的用户模型构建方法 Expired - Fee Related CN101814119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101185721A CN101814119B (zh) 2010-02-13 2010-02-13 具有隐私保护的用户模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101185721A CN101814119B (zh) 2010-02-13 2010-02-13 具有隐私保护的用户模型构建方法

Publications (2)

Publication Number Publication Date
CN101814119A true CN101814119A (zh) 2010-08-25
CN101814119B CN101814119B (zh) 2011-09-14

Family

ID=42621371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101185721A Expired - Fee Related CN101814119B (zh) 2010-02-13 2010-02-13 具有隐私保护的用户模型构建方法

Country Status (1)

Country Link
CN (1) CN101814119B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147814A (zh) * 2011-04-19 2011-08-10 东南大学 一种隐私保护数据共享发布方法
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
CN104601596A (zh) * 2015-02-05 2015-05-06 南京邮电大学 一种分类数据挖掘系统中数据隐私保护方法
CN105389736A (zh) * 2015-12-17 2016-03-09 南京信息工程大学 基于网络社区划分和少量样本朋友的隐私策略推荐方法
CN107609419A (zh) * 2017-09-12 2018-01-19 温州大学瓯江学院 一种数字图书馆用户的浏览偏好隐私保护方法及系统
CN107688752A (zh) * 2017-08-21 2018-02-13 哈尔滨工程大学 一种面向多视图聚类挖掘的个性化隐私保护方法
CN108256000A (zh) * 2017-12-29 2018-07-06 武汉大学 一种基于局部聚类的个性化差分隐私推荐方法
CN109121133A (zh) * 2018-09-06 2019-01-01 中国科学院信息工程研究所 一种位置隐私保护方法及装置
CN114781624A (zh) * 2022-05-23 2022-07-22 百色市恒赢电脑网络有限公司 基于大数据分析的用户行为意图挖掘方法及大数据系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266620B (zh) * 2008-04-07 2021-04-16 北京大学 向用户提供目标信息的方法及设备
CN101667199A (zh) * 2009-09-18 2010-03-10 浙江大学 个性化搜索环境中用户隐私数据的保护方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147814B (zh) * 2011-04-19 2012-12-19 东南大学 一种隐私保护数据共享发布方法
CN102147814A (zh) * 2011-04-19 2011-08-10 东南大学 一种隐私保护数据共享发布方法
CN104252479B (zh) * 2013-06-27 2018-05-18 华为技术有限公司 信息的处理方法、装置和系统
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
CN104601596A (zh) * 2015-02-05 2015-05-06 南京邮电大学 一种分类数据挖掘系统中数据隐私保护方法
CN104601596B (zh) * 2015-02-05 2017-09-22 南京邮电大学 一种分类数据挖掘系统中数据隐私保护方法
CN105389736A (zh) * 2015-12-17 2016-03-09 南京信息工程大学 基于网络社区划分和少量样本朋友的隐私策略推荐方法
CN107688752A (zh) * 2017-08-21 2018-02-13 哈尔滨工程大学 一种面向多视图聚类挖掘的个性化隐私保护方法
CN107609419A (zh) * 2017-09-12 2018-01-19 温州大学瓯江学院 一种数字图书馆用户的浏览偏好隐私保护方法及系统
CN108256000A (zh) * 2017-12-29 2018-07-06 武汉大学 一种基于局部聚类的个性化差分隐私推荐方法
CN108256000B (zh) * 2017-12-29 2021-06-15 武汉大学 一种基于局部聚类的个性化差分隐私推荐方法
CN109121133A (zh) * 2018-09-06 2019-01-01 中国科学院信息工程研究所 一种位置隐私保护方法及装置
CN109121133B (zh) * 2018-09-06 2020-09-15 中国科学院信息工程研究所 一种位置隐私保护方法及装置
CN114781624A (zh) * 2022-05-23 2022-07-22 百色市恒赢电脑网络有限公司 基于大数据分析的用户行为意图挖掘方法及大数据系统

Also Published As

Publication number Publication date
CN101814119B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101814119B (zh) 具有隐私保护的用户模型构建方法
US11893071B2 (en) Content recommendation method and apparatus, electronic device, and storage medium
Reddy et al. Content-based movie recommendation system using genre correlation
US9934515B1 (en) Content recommendation system using a neural network language model
CN104462385B (zh) 一种基于用户兴趣模型的电影个性化相似度计算方法
CN107810497B (zh) 呈现搜索结果的方法、系统、和介质
US7979426B2 (en) Clustering-based interest computation
CN105430505B (zh) 一种基于组合策略的iptv节目推荐方法
WO2017097061A1 (zh) 智能应答方法及装置
CN103984741A (zh) 用户属性信息提取方法及其系统
Zhu et al. A dynamic personalized news recommendation system based on BAP user profiling method
CN113343119A (zh) 一种基于层次注意力机制的群组推荐方法
CN112464058A (zh) 一种基于XGBoost算法的电信互联网诈骗识别方法
CN110598126B (zh) 基于行为习惯的跨社交网络用户身份识别方法
CN113792212A (zh) 多媒体资源推荐方法、装置、设备以及存储介质
CN113221019A (zh) 基于即时学习的个性化推荐方法和系统
CN105408894A (zh) 一种用户身份类别确定方法以及装置
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
US20160042302A1 (en) Information processing device, information processing method, and information processing program
US20230244862A1 (en) Form processing method and apparatus, device, and storage medium
Quan et al. A hybrid recommender system based on AHP that awares contexts with Bayesian networks for smart TV
CN104809236B (zh) 一种基于微博的用户年龄分类方法及系统
CN108628999B (zh) 一种基于显式和隐式信息的视频推荐方法
CN107222319A (zh) 一种通信操作分析方法及装置
CN109190013A (zh) 用户偏好的确定方法、系统、可读存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20160213

CF01 Termination of patent right due to non-payment of annual fee