CN102880622A - 一种在互联网上确定用户特征的方法和系统 - Google Patents
一种在互联网上确定用户特征的方法和系统 Download PDFInfo
- Publication number
- CN102880622A CN102880622A CN2011102051644A CN201110205164A CN102880622A CN 102880622 A CN102880622 A CN 102880622A CN 2011102051644 A CN2011102051644 A CN 2011102051644A CN 201110205164 A CN201110205164 A CN 201110205164A CN 102880622 A CN102880622 A CN 102880622A
- Authority
- CN
- China
- Prior art keywords
- user
- document
- characteristics vector
- vector
- advertisement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种在互联网上确定用户特征的方法和系统。所述方法通过用户访问文档的信号以及用户联络其他用户的信号来自动地更新用户和文档的个性化特征。如果用户访问了文档,则用户的个性化特征由文档的个性化特征来更新,文档的个性化特征由用户的个性化特征来更新。如果用户联络了其他用户,则每个用户的个性化特征由另一个用户的个性化特征来更新。多次使用上述方法获得多个用户和多个文档的个性化特征。根据用户和文档的个性化特征,可对搜索引擎获得的网页信息作进一步的过滤和筛选以提高搜索的准确性。根据用户的个性化特征,可在互联网中寻找具有特定特征的用户群。
Description
技术领域
本发明涉及互联网领域,具体来说涉及一种在互联网中确定用户特征的方法和系统。
背景技术
在互联网上,搜索引擎和社交网络是使用较多的获取网络信息的工具。但是这两种工具都存在各自的问题。
对搜索引擎而言,当用户输入关键字进行网页搜索时,搜索引擎返回的网页链接数量经常达到几万甚至几千万,这给用户搜索目标网页带来很大困扰。有统计分析表明用户平均查看的搜索结果不超过两页,因此搜索引擎得到的绝大多数的搜索结果用户是没有看到的。即使是看到的部分,用户也经常感到搜索结果中包含很多关联度较低或者根本不相关的网页。
对社交网络而言,社交网络每天发布的信息已达数亿条。虽然在社交网络中用户可以通过个人关系网络来过滤和筛选信息,例如通过“关注(follow)”他人而获得信息或者获得朋友点击了“喜欢(like)”按钮的信息等等,但是目前在微博和脸书(Facebook)等社交网络中已经出现了信息过载现象。由于担心有重要或者有趣信息遗漏,用户通常会在社交网络中加入过多的关系网络,例如关注更多的人或者加入更多的好友等等。这就使得社交网络逐渐成为一种对用户进行“信息轰炸”的服务。美国圣何塞州立大学的研究表明,信息过载的结果是加大了用户扫描和略读的比重,82%的受访者表示更多是在浏览和扫瞄,85%的读者表示更多地进行“非线性阅读”。
上述问题的一个共同点是没有考虑到用户的个性化特征在信息过滤和筛选中所起到的作用。例如,在搜索引擎中不同的用户使用相同的关键字进行网页搜索时得到的搜索结果是相同的,与提交搜索查询的用户的个性化特征无关。而在社交网络中,每个用户获得的信息只与其关系网络有关,而与用户的个性化特征无关。用户得到的信息是来自其关系网络中的每个用户发布的所有信息,而用户 不能有选择地接收这些信息。例如,你只要关注一个人,你将会获得来自这个人的全部信息,无论你是否对这些信息感兴趣。
因此,解决上述问题的一个思路是充分利用用户的个性化特征来对获取的网络信息进行有效地过滤和筛选,减少用户对无效信息的扫描和浏览。但是在获取用户个性化特征的过程中存在以下几个问题:
第一是个性化信息的准确性问题。用户通常不愿意在互联网上提供准确的个性化信息。虽然部分用户在脸书(Facebook)等社交网络中提供了用户年龄、教育程度、毕业学校、地理位置、专业领域和偏好等个人信息,但是相当多的用户对提供个人信息心存疑虑,很多用户在社交网络上使用假的个人信息,使得系统获得的个人信息不够准确。第二是个性化信息的全面性问题。用户通常是难以全面地表达其个性化特征的,例如在脸书(Facebook)等社交网络中,用户爱好一栏通常的描述是喜欢莫扎特、打棒球或看书等,而这些往往只代表用户的部分特征,而要求每个用户全面地填写其个性化特征是困难的。第三是个性化信息的结构化表达问题。文字表述不同但语义相同的特征,在互联网上难以将他们进行结构化分类,比如有的用户填写喜欢莫扎特、有的填写喜欢古典音乐,可能两个用户的爱好是相同的,但是由于文字表达的不同,因此难以把他们进行有效归类。第四是个性化信息的更新问题。随着时间的推移,用户的个人信息以及兴趣爱好可能会发生改变,但是要求所有用户动态地更新这些信息是困难的。
获得用户个性化特征有许多有益的应用。例如,可以实现用户的聚类分析以确定具有特定特征的用户群,包括在互联网上寻找具有相同兴趣爱好的个人和群组、寻找具有某项才能的专家、寻找经销某种产品的商家以及商家寻找具有特定特征的用户群以便定向投放广告等。另外,利用用户的个性化特征可以对搜索到的网页进行过滤和筛选。
综上所述,如何获得用户的个性化特征,并根据这些个性化特征在海量的“噪声”中过滤出有用的信息,以及根据用户的个性化特征将合适的信息在合 适的时间发送给合适的人,是当前互联网亟待解决的一个问题。
发明内容
鉴于上述现有技术存在的问题,本发明的目的在于提供一种在互联网中确定用户特征的方法和系统来自动确定用户的个性化特征,并根据用户个性化特征对在搜索引擎和社交网络中获得的信息内容进行有效地过滤和筛选。
本发明的另一个目的在于提供一种在互联网中确定用户特征的方法和系统来自动确定用户的个性化特征,以及根据用户个性化特征在社交网络中寻找具有给定特征的用户群。
根据以上所述的目的,本发明提出了一种在互联网中确定用户特征的方法,其特征在于,在服务器中存储文档集I={1,2,...,M}、用户集J={1,2,...,N}和特征集K={1,2,...,L},其中M为文档个数,N为用户个数,L为特征个数;并且执行如下步骤:
接收用户j(j∈J)访问文档i(i∈I)的信号,所述信号至少包括所述用户j的用户标识和所述文档i的文档标识;
根据所述文档标识,读取所述文档i的文档特征向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中dwik表示所述文档i与特征k(k∈K)的相关度;
根据所述用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
用如下算法更新所述文档i的文档特征向量和所述用户j的用户特征向量:
Kd *(i)=function1[Kd(i),Ku(j)]
Ku *(j)=function2[Kd(i),Ku(j)]
其中Kd(i)和Kd *(i)分别表示更新前和更新后的所述文档i的文档特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后的所述用户j的用户特征向量;所述function1[Kd(i),Ku(j)]和所述function2[Kd(i),Ku(j)]均为增函数。
根据以上所述的目的,本发明提出了一种在互联网中确定用户特征的方 法,其特征在于,在服务器中存储用户集J={1,2,...,N}和特征集K={1,2,...,L},其中N为用户个数,L为特征个数;并且在所述服务器中执行如下步骤:
接收用户j(j∈J)联络用户i(i∈J)的信号,所述信号至少包括所述用户j的用户标识和所述用户i的用户标识;
根据所述用户j的用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
根据所述用户i的用户标识,读取所述用户i的用户特征向量Ku(i)=(uwi1,uwi2,...,uwik,...,uwiL),其中uwik表示所述用户i与特征k(k∈K)的相关度;
至少使用如下算法中的一种对所述的特征向量进行更新:
Ku *(i)=function3[Ku(i),Ku(j)]
Ku *(j)=function4[Ku(i),Ku(j)]
其中Ku(i)和Ku *(i)分别表示更新前和更新后的所述用户i的用户特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后的所述用户j的用户特征向量;所述function3[Ku(i),Ku(j)]和所述function4[Ku(i),Ku(j)]均为增函数。
与现有技术相比,本发明方法通过用户在互联网上访问文档的信号以及用户在社交网络上联络其他用户的信号,来自动地获取用户的个性化特征,并根据用户个性化特征帮助用户对获取的网络信息进行有效地过滤和筛选,以及根据用户个性化特征寻找具有特定特征的用户群。
附图说明
图1为用户特征向量的表示方法;
图2为文档特征向量的表示方法;
图3为广告特征向量的表示方法;
图4为一种在互联网中确定用户特征的方法流程图;
图5为一种在互联网中确定用户特征的方法流程图;
图6为一种在互联网中确定用户特征的系统结构图。
具体实施方式
结合附图对本发明方法作进一步详细说明。
对本专利方法具体实施方案的说明包括以下几个部分,首先说明用户特征向量和文档特征向量的表示及其初始值设置的方法,然后说明基于用户访问文档信号的用户特征向量和文档特征向量的更新方法,之后说明基于用户联络其他用户信号的用户特征向量更新方法,最后给出一种在互联网中确定用户特征的系统。
图1是用户特征向量的表示方法。用户特征向量的表示方法与Gerard Salton提出的向量空间模型VSM的向量表述方法相似,即以特征项作为用户特征的基本单位,用特征项的集合来近似表示一个用户的特征。所述用户特征向量是由用户特征和特征相关度来决定的。用户特征包括用户自然特征和用户偏好特征,其中用户自然特征包括年龄、性别、职业、学历、身高、体重和地理位置等,用户的个人偏好特征包括用户关注的领域等抽象特征,例如科学、音乐、军事和体育等。特征相关度表示每个用户与特征的关系紧密程度。如果一个用户关心音乐多一点,关心体育少一点,我们就说该用户与音乐特征的相关度高,与体育特征的相关度低。
在介绍用户特征向量的表示方法之前,先介绍用户编号和用户特征的表示方法。在互联网中可以通过以下标识来表示一个用户,包括用户在网站上申请的帐号、用户手机号码、IP地址、Email地址和即时通信号码等等。为了便于表述,我们把互联网上的每个用户进行统一编号,并以用户集J={1,2,...,N}表示用户的全体。所述用户集J中的每个用户具有至少一个特征,我们对用户集J中的所有用户的特征也进行统一编号,形成用户的特征集K={1,2,...,L}。
在所述用户集J中的每个用户都设有用户特征向量。用户j(j∈J)的用户特征向量的表示方法是Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征集K的第k个特征的相关度。uwjk数值越大则表示用户j与特征k之间的相关程度越高,如果uwjk为负数则表示用户j与特征k负相关。
由于所述特征集K包括了所有用户的特征,因此它的维度通常是巨大的, 而每个用户所具有的特征只是特征集K中很小的一部分,所以用户特征向量中绝大多数向量分量的数值都为零或是很小的数值,这导致了用户特征向量的数据稀疏现象的产生。解决方法是将所述用户特征向量用一种简化的形式表示,即将用户特征向量表示为[...,(k,uwjk),...]。例如特征集K={新闻,科技,财经,体育,娱乐,生活,旅游,文化,教育,...},则设置一个编号为3209的用户的用户特征向量=[(财经,2.4);(教育,6.7)],其中2.4表示用户3209与特征集K中的特征“财经”的相关度,6.7表示用户3209与特征集K中的特征“教育”的相关度。在实际应用中通常使用用户特征向量的简化形式[...,(k,uwjk),...],这样可以节省存储空间和降低计算开销。但是为了形式化叙述方便起见,在以下叙述中所述用户j的用户特征向量的表述形式仍然使用Ku(j)或者(uwj1,uwj2,...,uwjk,...,uwjL)。需要说明的是使用用户特征向量的简化形式不影响所述方法本质。
以下是用户特征向量的初始值设置方法的两个例子。
例1是人工设置用户特征向量初始值的方法。以用户j的设置方法为例。首先确定用户j的主要特征,即在特征集K中人工选择用户j具有的至少一个特征,然后将用户j与用户集J中的其它用户进行比较,人工确定所述用户j的各个选定特征的相关度。例如用户3209的用户特征向量为[(财经,2.4),(教育,6.7)]。人工设定的相关度uwjk(j∈J,k∈K)的取值范围为[a,b],其中a和b为设定参数。
例2是根据用户提交的一组用户所具有的特征来设置用户特征向量初始值的方法。设用户j选定了一组用户Uj={...,m,...},其中用户m(m∈Uj)的用户特征向量为Ku(m)=(uwm1,uwm2,...,uwmL),则用户j的用户特征向量的初始值为:
uwjk=λ2(n)·∑(m∈Uj)[λ1(m)·uwmk],对于每个k∈K
其中n为所述Uj的元素个数;λ2(n)是n的减函数,n越大则λ2(n)越小;λ1(m)是表示用户m在集合Uj中的重要程度的参数。
图2为文档特征向量的表述方法。文档特征向量的表示方法与用户特征向量的表示方法相似,即以特征项作为文档特征的基本单位,用特征项的集合来 近似表示一个文档的特征。文档特征向量是由文档的特征及特征相关度来决定的。文档的特征可为科学、音乐、军事和体育等等。特征相关度代表每个文档与相应特征的关系紧密程度,例如如果一个文档与社会问题的关系多一点与军事问题的关系少一点,我们就说该文档与社会特征的相关度高,与军事特征的相关度低。
在介绍用户特征向量的表示方法之前,先介绍文档编号和文档特征的表示方法。在互联网中存在大量文档,其内容包括网页、微博的内容、脸书(Facebook)中的墙和广告等,其表现形式包括文本、视频、音乐和图片等。这些文档通常具有唯一的网络地址URL。为了便于说明我们把在互联网上的每个文档进行统一编号,并用文档集I={1,2,...,M}表示互联网上的M个文档。所述文档集I中的每个文档的特征可以通过传统的特征提取方法来获得,例如文档词频(DF)、信息增益(IG)、互信息(MI)和x2统计法(CHI)等等,也可以通过人工设置的方式产生文档的特征。我们对文档集I中所有文档的特征也进行统一编号,形成文档的特征集K={1,2,...,L}。
需要特别说明的是所述文档的特征集与所述用户的特征集是相同的。本文中提及的特征集K既表示用户特征集,也表示文档特征集。因此,在生成特征集K时,既要考虑到用户的特征,也要考虑到文档的特征。同一个特征,例如特征“计算机”,对于用户来讲表示用户偏好“计算机”,对于文档而言说明这个文档与“计算机”有关。另外,有些特征之间是具有相关性的,例如物理和相对论,因此在特征选择时,可以通过减少特征之间的相关性来提高算法效率,也可以通过本专利方法来研究两个设定特征之间的相关性。有些特征不必直接列入特征集中,因为这些特征的相关度可以通过特征集K中的两个或两个以上其他特征的相关度的加权平均算出。这样有利于缩小特征集K的维度。
在所述文档集I中的每个文档都设有文档特征向量。文档i(i∈I)的文档特征向量的表示方法是Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中dwik表示所述文档i与特征集K的第k个特征的相关度。所述相关度dwik数值越大,表示文档i与 特征k之间的相关程度越高,如果dwik的数值为负数,则表示文档i与特征k负相关。与用户特征向量情况相似,文档特征向量也可以应用简化的表述形式[...,(k,dwik),...]来解决文档特征向量数据稀疏问题。
文档特征向量初始值的一个设置方法如下:以文档i(i∈I)的文档特征向量的设置方法为例。首先确定文档i的主要特征,即在特征集K中人工选择文档i具有的至少一个特征,然后将文档i与文档集I中的其它文档进行比较,人工确定所述文档i的各个人工选定特征的相关度。例如编号为1168的文档的文档特征向量为[(科技,8.4),(教育,3.2)]。人工设定的相关度dwik(i∈I)的取值范围为[a,b],其中a和b为设定常数。
图3为广告特征向量的表示方法。广告特征向量的表示方法与用户特征向量的表示方法相似,即以特征项作为广告特征的基本单位,用特征项的集合来近似表示一个广告的特征。我们对系统中存储的广告进行统一编号得到广告集A={1,2,...,G},广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,…,awgk,…,awgL),其中awgk表示所述广告g与特征k(k∈K)的相关度,G为广告个数。广告特征向量的简化表示形式为[...,(k,awgk),...]。广告特征向量的初始值可以人工设定,例如某广告的广告特征向量为[(食品,4.6),(学生,3.2)],说明这个广告与食品有关,目标客户群是学生,与食品的相关度为4.6,与学生的相关度为3.2。广告特征向量初始值,缺省为零向量。
图4为一种在互联网中确定用户特征的方法流程图。这个方法是基于用户访问文档的信号来更新所述用户特征向量和所述文档特征向量的。所述方法包括如下具体步骤:
S10.为文档集I={1,2,...,M}中的一部分文档设置文档特征向量初始值,文档特征向量缺省初始值为零向量;为用户集J={1,2,...,N}中的一部分用户设置用户特征向量初始值,用户特征向量缺省初始值为零向量;
S11.接收用户j(j∈J)访问文档i(i∈I)的信号,所述信号至少包括所述用户j的用户标识和所述文档i的文档标识;
S12.根据所述文档标识,读取所述文档i的文档特征向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中dwik表示所述文档i与特征k(k∈K)的相关度;
S13.根据所述用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
S14.更新所述文档i的文档特征向量和所述用户j的用户特征向量;更新后的所述文档i的文档特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;形式化表述如下:
Kd *(i)=function1[Kd(i),Ku(j)]
Ku *(j)=function2[Kd(i),Ku(j)]
其中Kd(i)和Kd *(i)分别表示更新前和更新后所述文档i的文档特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后所述用户j的用户特征向量,所述function1[Kd(i),Ku(j)]和function2[Kd(i),Ku(j)]均为增函数。在使用上述算法后需要对Kd(i)和Ku(j)进行更新,即Kd(i)=Kd *(i),Ku(j)=Ku *(j)。
在图4所述方法中的所述访问,至少包括如下情形中的一种:用户浏览一个网页、用户点击一个广告、用户创建一条微博、用户转发一条微博、用户收藏一条微博、用户对微博进行评论、用户在脸书(Facebook)中将一个文档设为喜欢(like)、用户浏览脸书(Facebook)中其他用户的墙(wall)上的一条信息等等。例如用户点击了一个网页我们就说用户访问了该网页;如果用户j转发了文档i(例如一篇微博),我们就说用户j访问了文档i。
应用实例1。
应用实例1为图4所述方法的一个应用实例,即当所述用户j(j∈J)访问所述文档i(i∈I)后,通过如下具体算法来更新所述文档i的文档特征向量和所述用户j的用户特征向量:
dwik *=dwik+λ1(t)·f1(uwjk);对于每个k∈UKj,
所述具体算法中,f1(uwjk)和f2(dwik)均为增函数。
所述具体算法中,所述t为所述访问的类型,即所述用户j与文档i建立联系的方式,例如t=11表示在微博中所述用户j转发了所述文档i,t=12表示在微博中所述用户j评论了所述文档i,t=21表示在脸书(Facebook)中的所述用户j点击了所述文档i上的“喜欢(like)”按钮,t=31表示所述用户j浏览了所述文档i(一个网页)等等。λ1(t)和λ2(t)分别为t的函数,例如λ1(11)=6,λ1(12)=8,λ2(21)=5。
所述具体算法中,所述DKi是由所述文档i的文档特征向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL)中数值最大的Qi(i∈I)个分量所对应的特征组成的集合,所述UKj是由所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Pj(j∈J)个分量所对应的特征组成的集合,Qi和Pj为设定参数。例如,i=30,Q30=3,DK30={科学,计算机,DNA};j=265,P265=2,UK265={科学,生物}。
所述具体算法中,dwik和dwik *分别表示更新前和更新后的所述文档i的文档特征向量的第k个分量,uwjk和uwjk *分别表示更新前和更新后的所述用户j的用户特征向量的第k个分量。在所述具体算法执行完成之后,进行以下赋值,即对于每个k∈DKi有dwik=dwik *,对于每个k∈UKj有uwjk=uwjk *。
在图4所述方法和所述应用实例1中存在以下几个问题。第一,用户特征向量的分量和文档特征向量的分量在多次应用所述算法之后,其数值会逐渐增加最后超过存储器的存储容量。第二,在用户特征向量或者文档特征向量中,其旧的特征往往具有较大的相关度,而新的特征的相关度尽管其数值增加较快而且能够反映近期用户或者文档的特征,但是其数值仍然比旧的特征的相关度小,因此可能无法被选到集合DKi和UKj中。第三,某些病毒可能控制用户进行大量恶意的网页访问,因而使得用户特征向量和文档特征向量被错误地更新。为解决上述问题本文设计如下用户特征向量和文档特征向量的修正算法。
针对所述第一个问题,本专利采用如下的用户特征向量的修正算法:
选择一个k∈K,将数据集合Uk={uwjk|uwjk≥uCk,j∈J}中的每个uwjk映射为区间[a,b]上一实数值g1(uwjk);当集合Uk中的每个uwjk都被映射为对应的g1(uwjk)后,再用所述映射得到的每个实数值g1(uwjk)分别给其对应的uwjk赋值;其中g1(uwjk)为增函数,uCk、a和b均为设定常数。该方法的举例如下:
例1:对数据集合Uk={uwjk|uwjk≥uCk,j∈J}进行排序,得到每个uwjk的排名Rank(uwjk),并且规定Rank(Maxj uwjk)=1,Rank(Minj uwjk)=Num(Uk),其中Num(Uk)表示集合Uk的元素个数,因此所述修正算法为对于每个uwjk∈Uk:
g1(uwjk)=a+(b-a)·[Num(Uk)-Rank(uwjk)+1]/Num(Uk),
uwjk=g1(uwjk)。
例2:设maxj uwjk表示数据集合Uk={uwjk|uwjk≥uCk,j∈J}中数值最大的若干项(如前10项)的平均值,因此所述算法为g1(uwjk)=a+(b-a)·uwjk/maxjuwjk;若uwjk>maxjuwjk,则取g1(uwjk)=b;最后对于每个uwjk∈Uk设uwjk=g1(uwjk)。
例3:在数据集合Uk={uwjk|uwjk≥uCk,j∈J}中随机抽取R个数据{s1,s2,...,sR}。对于每个uwjk∈Uk,如果sm≤uwjk≤sm+1,则设g1(uwjk)=a+(m-1)·d或者g1(uwjk)=sm(在系统中二者只能选用其一),最后对于每个uwjk∈Uk,设uwjk=g1(uwjk),其中d=(b-a)/R,1≤m≤R。
针对所述第一个问题,本专利采用了如下的文档特征向量的修正算法:
选择一个k∈K,首先将数据集合Vk={dwik |dwik≥dCk,i∈I}中的每个dwik映射为区间[a,b]上一实数值g2(dwik),当集合Vk中的每个uwjk都被映射为相应的g2(dwik)后,再用所述映射得到的每个实数值g2(dwik)分别给其对应的dwik赋值;其中g2(dwik)为增函数,dCk、a和b均为设定常数。文档特征向量修正算法的例子与所述用户特征向量修正算法的三个例子原理相同。
在第一个问题的解决方案中,选择了一个k进行说明。在实际应用中,可以对特征集K中的部分或者全部特征中的每一个使用所述方法。
针对所述第二个问题,解决办法是在用户特征向量的修正算法中选择a<uCk<b,在文档特征向量的修正算法中选择a<dCk<b。
针对所述第三个问题,有两个解决方法。一个是设定每个用户的用户特征向量在一个时间段内的最大更新次数,如果超过了最大更新次数,则当这个用户再次访问其他文档时,停止更新其用户特征向量和其访问的文档的文档特征向量。另一个是每次更新所述用户特征向量后,以用户j为例,将所述用户j的用户特征向量的各个分量都乘以一个参数e(0<e<1),所述e与参数[λ3(j)·∑(k∈K)uwjk]成反比,其中λ3(j)为一个与所述用户j相关的设定常数。
应用实例2。
应用实例2是图4所述方法的一个应用实例,包括在互联网中查询一组特定文档的应用,其步骤如下:
多次使用所述方法获取所述文档集I中的多个文档的文档特征向量和所述用户集J中的多个用户的用户特征向量;例如通过接收多个用户分别对不同文档的访问请求,来更新相应的用户特征向量和文档特征向量;
接收用户m(m∈J)提交的查询条件,所述查询条件包括被查询文档的至少一个特征;
根据所述查询条件,生成所述用户m的查询特征向量;
计算所述文档集I中每个文档(不包括所述文档m)的文档特征向量与所述查询特征向量之间的数学距离以及根据所述数学距离对所述文档集I进行排序;
按照所述排序结果将所述文档集I中部分文档的标识发送给所述用户m。
在所述应用实例2中,通常设置所述用户m的查询特征向量为Ks(m)=(swm1,swm2,...,swmk,...,swmL),其中swmk表示所述被查询文档与特征集K的第k个特征的相关度。所述用户m提交的查询特征向量Ks(m)=(swm1,swm2,...,swmk,...,swmL)至少有以下三种生成方法。第一是由所述用户m自己设置查询特征向量各个分量的数值,例如设swj2=2.3,swj6=6.1,所述查询特征向量的其他各个分量为0,其中swjk∈[a,b],a和b为设定常数。第二是把所述用户m的用户特征向量赋值给所述查询特征向量。第三是所述用户m提交一组文档标识集合Dm={...,r,...},其中文档r(r∈Dm)的文档特征向量为(dwr1,dwr2,...,dwrL),因此 所述用户m的查询特征向量swmk=λ2(n)·∑(r∈Dm)[λ1(r)·dwrk](k∈K),其中n为所述集合Dm的元素个数,n越大则λ2(n)越小,λ1(r)是反映用户r在集合Dm中的重要程度的设定常数。
在所述应用实例2中,所述数学距离的算法如下;设所述用户m的查询特征向量为Ks(m)=(swm1,swm2...,swmk,...,swmL),所述文档集I中的文档i的文档特征向量为Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),则所述用户m提交的查询特征向量与所述文档集I中的文档i的文档特征向量之间的数学距离定义为:
||Ks(m),Kd(i)||=[∑k(swmk·dwik)]/{[∑k(swmk)2]1/2·[∑k(dwik)2]1/2}
其中k∈K。
当所述文档集I中的元素数量较多时,计算所述文档集I中每个文档的文档特征向量与所述用户m的所述查询特征向量之间的数学距离需要花费较多的系统资源,一个简化算法是在所述文档集I中随机抽取一个子集,然后计算所述子集中每个文档的文档特征向量与所述用户m的所述查询特征向量之间的数学距离,并根据所述数学距离对所述子集中每个文档进行排序,然后根据排序结果将所述子集的一部分文档的标识呈现给所述用户m。
应用实例3。
应用实例3是图4所述方法的应用实例,包括在互联网中查询一组特定用户的应用,其步骤如下:
多次使用所述方法获取所述用户集J中的多个用户的用户特征向量;
接收用户m(m∈J)提交的查询条件,所述查询条件包括被查询用户的至少一个特征;
根据所述查询条件,生成所述用户m的查询特征向量;
计算所述用户集J中每个用户(不包括所述用户m)的用户特征向量与所述查询特征向量之间的数学距离以及根据所述数学距离对所述用户集J进行排序;
按照所述排序结果将所述用户集J中部分用户的标识发送给所述用户m。
在所述应用实例3中,通常设置所述用户m的查询特征向量为Ks(m)= (swm1,swm2,...,swmk,...,swmL),其中swmk表示所述被查询用户与特征集K的第k个特征的相关度。所述查询特征向量至少有以下三种生成方法。第一是人工设置查询特征向量各个分量的数值,例如设swj2=2.3,swj8=2.3,其他分量的数值为0,其中swjk∈[a,b],a和b为设定常数;第二是把所述用户m的用户特征向量赋值给查询特征向量;第三是所述用户m提交一组用户标识集合Um={...,r,...},其中用户r(r∈Um)的用户特征向量为Ku(r)=(uwr1,uwr2,...,uwrL),因此所述用户m的查询特征向量swmk=λ2(n)·∑(r∈Um)[λ1(r)·uwrk](k∈K),其中n为所述集合Um的元素个数,n越大则λ2(n)越小,λ1(r)是表示用户r在集合Um中的重要程度的设定常数。
在所述应用实例3中,所述数学距离的算法如下:设所述用户m的查询特征向量为Ks(m)=(swm1,swm2,...,swmk,...,swmL),所述用户集J中的用户i的用户特征向量为Ku(i)=uwi1,uwi2,...,uwik,...,uwiL),则所述用户m提交的查询特征向量与所述用户集I中的用户i的用户特征向量之间的数学距离定义为:
||Ks(m),Ku(i)||=[∑k(swmk·uwik)]/{[∑k(swmk)2]1/2·[∑k(uwik)2]1/2}
其中k∈K。
应用实例4。
应用实例4是图4所述方法在广告发布领域的一个应用实例,包括如下步骤:
多次使用所述方法获取所述文档集I中多个文档的文档特征向量和所述用户集J中的多个用户的用户特征向量,其中所述用户集J中的用户m的用户特征向量为Ku(m)=(uwm1,uwm2,...,uwmk,...,uwmL),所述文档集I中的文档n的文档特征向量为Kd(n)=(dwn1,dwn2,...,dwnk,...,dwnL);设广告集A={1,2,...,G},广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,…,awgk,…,awgL),其中awgk表示所述广告g与特征k(k∈K)的相关度,G为广告个数;然后执行如下步骤:
接收用户m(m∈J)访问文档n(n∈I)的信号,所述信号至少包括所述用户m的用户标识和所述文档n的文档标识;
根据所述用户m的用户标识,获取所述用户m的用户特征向量Ku(m);
根据所述文档n的文档标识,获取所述文档n的文档特征向量Kd(n);
计算所述广告集A中每个广告的广告特征向量Ka(g)与所述用户m的用户特征向量Ku(m)之间的数学距离1;计算所述广告集A中每个广告的广告特征向量Ka(g)与所述文档n的文档特征向量Kd(n)之间的数学距离2;
根据所述广告集A中每个广告的所述数学距离1和所述数学距离2生成数学距离3,以及根据所述数学距离3对所述广告集A中每个广告的进行排序;
按照所述排序的结果,将所述广告集A中的至少一个广告放入所述文档n并将放入广告的所述文档n发送给所述用户m。
在应用实例4中数学距离的定义如下:设所述数学距离1为ug(g,m),所述数学距离2为dg(g,n),所述数学距离3为distance(g,m,n),则有:
ug(g,m)=[∑k(uwmk·awgk)]/{[∑k(uwmk)2]1/2·[∑k(awgk)2]1/2}
dg(g,n)=[∑k(dwnk·awgk)]/{[∑k(dwnk)2]1/2·[∑k(awgk)2]1/2}
distance(g,m,n)=λ5·ug(g,m)+λ6·dg(g,n)
其中λ5和λ6为设定正常数,且λ5+λ6=1,n∈I,m∈J,g∈A,k∈K。
在所述应用实例4中,所述广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,...,awgk,...,awgL)的初始值有两种设置方法:第一种是静态赋值法,即根据广告的所属领域和广告的受众群,人工设置广告特征向量的各个分量的初始值,例如设置awg2=3.5,awg4=3.7,其他分量数值为0,awgk∈[a,b],其中a和b为设定常数。第二种是动态赋值法,即将广告g(g∈A)看做一个文档h(h∈I),当一个用户访问了广告文档h后(例如点击广告),应用图4所述方法更新广告文档h的文档特征向量,当需要使用所述广告g(g∈A)的广告特征向量时,设置Ka(g)=Kd(h)。其中所述广告g和所述广告文档h是同一个广告的两种表现形式,所述广告g是在所述广告集A中的编号,所述广告文档h是在所述文档集I中的编号。
在图4所述方法中存在用户隐私保护问题。当前互联网平台的一个发展趋 势是向第三方服务提供商和应用开发商开放应用开发接口(API),这种做法对于扩大网络的影响和增加网络的服务能力有好处,但是同时也带来了用户信息泄露的风险。因为互联网平台往往需要与第三方公司分享用户标识等信息,如用户手机号码、QQ号码等。而由于第三方公司往往数量庞大,其中个别公司可能会不当利用从互联网平台获得的用户信息,甚至泄露用户的个人隐私。
一个可行的解决方案就是给每个用户设置至少一个虚拟标识。所述虚拟标识在一段时间内有效,而且互联网平台发给每个第三方服务提供商或应用开发商的虚拟标识可以不同。只有在互联网平台中,能够找到用户的虚拟标识与用户标识的对应关系。这样就解决了上述用户信息泄露问题。以用户j为例说明保护用户隐私的具体步骤:在所述服务器中建立所述用户j的用户标识与至少一个虚拟标识之间的对应关系,其中一个用户标识对应至少一个虚拟标识,而一个虚拟标识对应唯一一个用户标识。当所述服务器收到所述用户j访问所述文档i的信号后,首先判断所述用户j的标识是否是虚拟标识,是则在数据库中查找所述用户j的虚拟标识对应的用户标识,然后根据图4所述的方法使用用户标识来读取所述用户j的用户特征向量,然后再更新所述用户j的用户特征向量和文档i的文档特征向量。
图5为一种在互联网中确定用户特征的方法流程图。这个方法是基于用户联络其他用户的信号来更新所述用户特征向量的。所述方法包括如下步骤:
S20.为用户集J={1,2,...,N}中的一部分用户设置用户特征向量初始值,用户特征向量缺省初始值为零向量;
S21.接收用户j(j∈J)联络用户i(i∈J)的信号,所述信号至少包括所述用户j的用户标识和所述用户i的用户标识;
S22.根据所述用户j的用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
S23.根据所述用户i的用户标识,读取所述用户i的用户特征向量Ku(i)=(uwi1,uwi2,...,uwik,.0..,uwiL),其中uwik表示所述用户i与特征k(k∈K)的相关度;
S24.至少更新所述用户j的用户特征向量和所述用户i的用户特征向量中的一个;更新后的所述用户i的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;形式化表述如下:
Ku *(i)=function3[Ku(i),Ku(j)]
Ku *(j)=function4[Ku(i),Ku(j)]
其中Ku(i)和Ku *(i)分别表示更新前和更新后所述用户i的用户特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后所述用户j的用户特征向量;所述function3[Ku(i),Ku(j)]和function4[Ku(i),Ku(j)]均为增函数。在使用上述算法后需要对Ku(i)和Ku(j)进行更新,即Ku(i)=Ku *(i)和Ku(j)=Ku *(j)。
在图5所述方法中提及的所述联络,至少包括如下情形中的一种:在微博中的加关注(follow)、转发、发私信和评论,脸书(Facebook)中的加为好友、捅(poke)、送礼物和浏览墙(wall),即时通信中的加为好友和点对点发信。例如在微博中如果用户j关注了用户i,我们就说用户j联络了用户i。
应用实例5。
应用实例5为图5所述方法的一个应用实例。即当所述用户j(j∈J)联络所述用户i(i∈J)后,通过如下具体算法来更新所述用户i的用户特征向量和所述用户j的用户特征向量:
在所述具体算法中,f3(uwjk)和f4(uwik)为增函数;
在所述具体算法中,所述t为所述联络的类型,即所述用户j与用户i建立联络的方式,例如t=41表示微博的关注、t=42表示微博的转发、t=43表示微博的评论,t=44表示微博的发私信,t=51表示脸书(Facebook)中的加为好友、t=52表示脸书(Facebook)的捅(poke)等等;λ3(t)和λ4(t)分别为t的函数,例 如λ3(41)=9,λ3(42)=6,λ4(51)=5。
在所述具体算法中,所述UKi是由所述用户i的用户特征向量Ku(i)=(uwi1,uwi2,...,uwik,...,uwiL)中数值最大的Pi(i∈J)个分量所对应的特征组成的集合,所述UKj是由所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Pj(j∈J)个分量所对应的特征组成的集合,Pi和Pj为设定常数。
在所述具体算法中,uwik和uwik *分别表示更新前和更新后的所述用户i的用户特征向量的第k个分量,uwjk和uwjk *分别表示更新前和更新后的所述用户j的用户特征向量的第k个分量。在所述具体算法执行完成后,进行如下赋值,即对于每个k∈UKi有uwik=uwik *,对于每个k∈UKj有uwjk=uwjk *。
与所述应用实例4相似,所述应用实例5也存在以下问题。第一,用户特征向量的分量在多次应用所述算法之后,其数值会逐渐增加最后超过存储器的存储容量。第二,在用户特征向量中,旧的特征往往具有较大的相关度,而新的特征的相关度尽管其数值增加较快而且能够反映当前用户的特征,但是其数值仍然比旧的特征的相关度小,因此无法被选到集合UKi和UKj中。第三,某些病毒可能控制用户进行大量用户联络操作,因而使得用户特征向量被错误地更新。上述三个问题的解决方法与所述应用实例1中的对用户特征向量的处理方法相同。
图5所述方法包括一个在互联网中查询一组特定用户的应用实例,其具体实现步骤与应用实例3相同。
应用实例6。
应用实例6是图5所述方法在广告发布领域的一个应用实例,包括如下步骤:
多次使用所述方法获取所述用户集J中的多个用户的用户特征向量,其中所述用户集J中用户m的用户特征向量为Ku(m)=(uwm1,uwm2,...,uwmk,...,uwmL),用户n的用户特征向量为Ku(n)=uwn1,uwn2,...,uwnk,...,uwnL);设广告集为A={1,2,...,G},广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,…,awgk,…,awgL), 其中awgk表示所述广告g与特征k(k∈K)的相关度,G为广告个数;然后执行如下步骤:
接收用户m(m∈J)联络用户n(n∈J)的信号,所述信号至少包括所述用户m的用户标识和所述用户n的用户标识;
根据所述用户m的用户标识,读取所述用户m的用户特征向量Ku(m);
根据所述用户n的用户标识,读取所述用户n的用户特征向量Ku(n);
计算所述广告集A中每个广告的广告特征向量Ka(g)与所述用户m的用户特征向量Ku(m)之间的数学距离4;计算所述广告集A中每个广告的广告特征向量Ka(g)与所述用户n的用户特征向量Ku(n)之间的数学距离5;
根据所述广告集A中每个广告的所述数学距离4和所述数学距离5生成数学距离6,以及根据所述数学距离6对所述广告集A中每个广告的进行排序;
按照所述排序结果将所述广告集A中的至少一个广告推送给所述用户m。
在应用实例6中数学距离的定义如下:设所述数学距离4为ug(g,m),所述数学距离5为ug(g,n),所述数学距离6为distance(g,m,n),则有:
ug(g,m)=[∑k(uwmk·awgk)]/{[∑k(uwmk)2]1/2·[∑k(awgk)2]1/2}
ug(g,n)=[∑k(uwnk·awgk)]/{[∑k(uwnk)2]1/2·[∑k(awgk)2]1/2}
distance(g,m,n)=λ7·ug(g,m)+λ8·ug(g,n)
其中λ7和λ8为设定正常数,且λ7+λ8=1,n∈I,m∈J,g∈A,k∈K。
在所述应用实例6中,所述广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,...,awgk,...,awgL)的初始值的设置方法与应用实例4中的设置方法相同。
图5所述方法与图4所述方法一样,也存在一个用户隐私保护问题。其解决方案与在图4所述方法中的设置用户虚拟标识的方法相同。
图4和图5所述的方法通常放到一起使用。这两种方法不仅都能够对用户特征向量进行更新,而且两种方法可以相互补充,使得用户特征向量更好地反映相应的用户的特征。
图6为一种在互联网中确定用户特征的系统。
所述系统通过两种方式对用户特征向量进行更新,一种是当用户访问了一个文档后,更新所述用户的用户特征向量和所述文档的文档特征向量;另一种是当用户联络了另一个用户后,则更新其中至少一个用户的用户特征向量。所述系统包括如下功能模块:
用户特征向量初始值设置模块211:根据用户的自然特征和用户偏好,设置用户集J={1,2,...,N}中的一部分用户的用户特征向量初始值,并将其存储于用户数据库220中;
文档特征向量初始值设置模块212:根据文档的特征,设置文档集I={1,2,...,M}中的一部分文档的文档特征向量初始值,并且将其存储于文档数据库230中;
广告特征向量初始值设置模块213:根据广告的特征,设置广告集A={1,2,...,G}中一部分广告的广告特征向量初始值,并将其存储于广告数据库240中;
用户访问文档信号获取模块214:获取用户j(j∈J)访问文档i(i∈I)的信号,所述信号至少包括所述文档i的文档标识和所述用户j的用户标识,所述信号存储于用户数据库220中;
用户联络用户信号获取模块215:获取用户j(j∈J)联络用户i(i∈J)的信号,所述信号至少包括所述用户j的用户标识和所述用户i的用户标识,并将所述信号存储于用户数据库220中;
特征向量更新模块1(216):根据在所述用户访问文档信号获取模块214中得到的所述文档i的文档标识和所述用户j的用户标识,分别读取所述文档i的文档特征向量和所述用户j的用户特征向量,然后更新所述文档i的文档特征向量和所述用户j的用户特征向量;更新后的所述文档i的文档特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;具体实现方法与图4所述方法相同;
特征向量更新模块2(216):根据在所述用户联络用户信号获取模块215中 得到的所述用户j和所述用户i的用户标识,分别读取所述用户j和所述用户i的用户特征向量,然后更新所述用户j和所述用户i的用户特征向量;更新后的所述用户i的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;具体实现方法与图5所述方法相同;
广告选择和呈现模块217:根据在所述用户访问文档信号获取模块214中得到的所述文档i的文档标识和所述用户j的用户标识,计算所述广告集A中的每个广告的数学距离3,以及根据所述数学距离3对所述广告集A进行排序,并根据所述排序结果将至少一个广告呈现给所述用户j;根据在所述用户联络用户信号获取模块215中得到的所述用户j和所述用户i的用户标识,计算所述广告集A中的每个广告的数学距离6,以及根据所述数学距离6对所述广告集A进行排序,并根据所述排序结果将至少一个广告呈现给所述用户j;所述数学距离3与应用实例4中的数学距离3的计算方法相同,所述数学距离6与应用实例6中的数学距离6的计算方法相同;
文档查询模块218:接收用户m(m∈J)提交的查询条件,所述查询条件至少包括被查询文档的至少一个特征,根据所述查询条件生成查询特征向量1,然后计算所述文档I中每个文档的文档特征向量与所述查询特征向量1之间的数学距离7,以及根据所述数学距离7对所述文档I进行排序,并且按照所述排序结果,将所述文档集I中的一部分文档的标识发送给所述用户m;所述查询特征向量1与所述应用实例2中的查询特征向量的生成方法相同,所述数学距离7与所述应用实例2中的所述数学距离的计算方法相同;
用户查询模块219:接收用户m(m∈J)提交的查询条件,所述查询条件至少包括被查询用户的至少一个特征,根据所述查询条件生成查询特征向量2,然后计算所述用户集J中每个用户的用户特征向量与所述查询特征向量2之间的数学距离8,以及根据所述数学距离8对所述用户集J进行排序,并且按照所 述排序结果将所述用户集J中的一部分用户的标识发送给所述用户m;所述查询特征向量2与所述应用实例3中的查询特征向量的生成方法相同,所述数学距离8与所述应用实例3中的所述数学距离的计算方法相同。
上述各模块中的所述用户i、用户j和用户m,分别代表所述用户集J中的任意一个用户。所述文档i和文档n,分别代表所述文档集I中的任意一个文档。为了表述方便起见,在各个模块中只列出了所述用户i、用户j和用户m以及文档i和文档n的应用实例。另外,所述特征向量更新模块(216)由两部分组成,包括所述特征向量更新模块1和所述特征向量更新模块2。
以上所述应用实例仅为本发明的较佳的应用实例,并非用以限定本发明的保护范围。
Claims (13)
1.一种在互联网上确定用户特征的方法,其特征在于,在服务器中存储文档集I={1,2,...,M}、用户集J={1,2,...,N}和特征集K={1,2,...,L},其中M为文档个数,N为用户个数,L为特征个数;并且执行如下步骤:
接收用户j(j∈J)访问文档i(i∈I)的信号,所述信号至少包括所述用户j的用户标识和所述文档i的文档标识;
根据所述文档标识,读取所述文档i的文档特征向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL),其中dwik表示所述文档i与特征k(k∈K)的相关度;
根据所述用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
用如下算法更新所述文档i的文档特征向量和所述用户j的用户特征向量:
Kd *(i)=function1[Kd(i),Ku(j)]
Ku *(j)=function2[Kd(i),Ku(j)]
其中Kd(i)和Kd *(i)分别表示更新前和更新后的所述文档i的文档特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后的所述用户的用户特征向量;所述function1[Kd(i),Ku(j)]和所述function2[Kd(i),Ku(j)]均为增函数。
2.根据权利要求1所述的方法,其特征在于,在所述算法的一个应用实例中,用如下具体算法来更新所述文档i的文档特征向量和所述用户j的用户特征向量:
其中f1(uwjk)和f2(dwik)为增函数,t为所述访问的类型,λ1(t)和λ2(t)分别为t的函数;所述DKi是由所述文档i的文档特征向量Kd(i)=(dwi1,dwi2,...,dwik,...,dwiL)中数值最大的Qi个分量所对应的特征组成的集合,所述UKj是由所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Pj个分量所对应的特征组成的集合,Qi和Pj为设定参数;dwik和dwik *分别表示更新前和更新后的所述文档i的文档特征向量的第k个分量,uwjk和uwjk *分别表示更新前和更新后的所述用户j的用户特征向量的第k个分量。
3.根据权利要求1所述的方法,其特征在于,
所述方法还包括对所述用户集J中的每个用户的用户特征向量进行修正的算法,即选择一个k∈K,将数据集合Uk={uwjk|uwjk≥uCk,j∈J}中的每个uwjk映射为区间[a,b]上一实数值g1(uwjk);当集合Uk中的每个uwjk都被映射为对应的g1(uwjk)后,再用所述映射得到的每个实数值g1(uwjk)分别给其对应的uwjk赋值;其中g1(uwjk)为增函数,uCk、a和b均为设定常数。
4.根据权利要求1所述的方法,其特征在于,
所述方法还包括对所述文档集I中的每个文档的文档特征向量进行修正的算法,即选择一个k∈K,将数据集合Vk={dwik|dwik≥dCk,i∈I}中的每个dwik映射为区间[a,b]上一实数值g2(dwik),当集合Vk中的每个uwjk都被映射为相应的g2(dwik)后,再用所述映射得到的每个实数值g2(dwik)分别给其对应的dwik赋值;其中g2(dwik)为增函数,dCk、a和b均为设定常数。
5.根据权利要求1所述的方法,其特征在于,所述方法包括在互联网上查询一组特定文档的应用实例,其步骤如下:
多次使用所述方法获取所述文档集I中的多个文档的文档特征向量和所述用户集J中的多个用户的用户特征向量;
接收用户m(m∈J)提交的查询条件,所述查询条件包括被查询文档的至少一个特征;
根据所述查询条件,生成所述用户m的查询特征向量;
计算所述文档集I中每个文档的文档特征向量与所述查询特征向量之间的数学距离,以及根据所述数学距离对所述文档集I进行排序;
按照所述排序结果将所述文档集I中部分文档的标识发送给所述用户m。
6.根据权利要求1所述的方法,其特征在于,所述方法包括在互联网上查询一组特定用户的应用实例,其步骤如下:
多次使用所述方法获取所述用户集J中的多个用户的用户特征向量;
接收用户m(m∈J)提交的查询条件,所述查询条件包括被查询用户的至少一个特征:
根据所述查询条件,生成所述用户m的查询特征向量;
计算所述用户集J中每个用户的用户特征向量与所述查询特征向量之间的数学距离,以及根据所述数学距离对所述用户集J进行排序;
按照所述排序结果将所述用户集J中部分用户的标识发送给所述用户m。
7.根据权利要求1所述的方法,其特征在于,在所述方法的一个应用实例中,多次使用所述方法获取所述文档集I中多个文档的文档特征向量和所述用户集J中的多个用户的用户特征向量;设置广告集A={1,2,...,G},广告g(g∈A)的广告特征向量Ka(g)=(awg1,awg2,…,awgk,…,awgL),其中awgk表示所述广告g与特征k(k∈K)的相关度,G为广告个数;然后执行如下步骤:
接收用户m(m∈J)访问文档n(n∈I)的信号,所述信号至少包括所述用户m的用户标识和所述文档n的文档标识;
根据所述用户m的用户标识,获取所述用户m的用户特征向量;
根据所述文档n的文档标识,获取所述文档n的文档特征向量;
计算所述广告集A中每个广告的广告特征向量与所述用户m的用户特征向量之间的数学距离1;计算所述广告集A中每个广告的广告特征向量与所述文档n的文档特征向量之间的数学距离2;
根据所述广告集A中每个广告的所述数学距离1和所述数学距离2生成数学距离3,以及根据所述数学距离3对所述广告集A中每个广告的进行排序;
按照所述排序的结果,将所述广告集A中的至少一个广告放入所述文档n并将放入广告的所述文档n发送给所述用户m。
8.一种在互联网上确定用户特征的方法,其特征在于,在服务器中存储用户集J={1,2,...,N}和特征集K={1,2,...,L},其中N为用户个数,L为特征个数;并且在所述服务器中执行如下步骤:
接收用户j(j∈J)联络用户i(i∈J)的信号,所述信号至少包括所述用户j的用户标识和所述用户i的用户标识;
根据所述用户j的用户标识,读取所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL),其中uwjk表示所述用户j与特征k(k∈K)的相关度;
根据所述用户i的用户标识,读取所述用户i的用户特征向量Ku(i)=(uwi1,uwi2,...,uwik,...,uwiL),其中uwik表示所述用户i与特征k(k∈K)的相关度;
至少使用如下算法中的一种对所述的特征向量进行更新:
Ku *(i)=function3[Ku(i),Ku(j)]
Ku *(j)=function4[Ku(i),Ku(j)]
其中Ku(i)和Ku *(i)分别表示更新前和更新后的所述用户i的用户特征向量,Ku(j)和Ku *(j)分别表示更新前和更新后的所述用户j的用户特征向量,所述function3[Ku(i),Ku(j)]和所述function4[Ku(i),Ku(j)]均为增函数。
9.根据权利要求8所述的方法,其特征在于,在所述算法的一个应用实例中,所述用户i的用户特征向量和所述用户j的用户特征向量的更新算法如下:
uwik *=uwik+λ3(t)·f3(uwjk);对于每个k∈UKj,
其中f3(uwjk)和f4(uwik)为增函数,t为所述联络的类型,λ3(t)和λ4(t)分别为t的函数,所述UKi是由所述用户i的用户特征向量Ku(i)=(uwi1,uwi2,...,uwik,...,uwiL)中数值最大的Pi个分量所对应的特征组成的集合,所述UKj是由所述用户j的用户特征向量Ku(j)=(uwj1,uwj2,...,uwjk,...,uwjL)中数值最大的Pj个分量所对应的特征组成的集合,Pi和Pj为设定常数;uwik和uwik *分别表示更新前和更新后的所述用户i的用户特征向量的第k个分量,uwjk和uwjk *分别表示更新前和更新后的所述用户j的用户特征向量的第k个分量。
10.根据权利要求8所述的方法,其特征在于,
所述方法还包括对所述用户集J中的每个用户的用户特征向量进行修正的算法,即选择一个k∈K,将数据集合Uk={uwjk|uwjk≥uCk,j∈J}中的每个uwjk映射为区间[a,b]上一实数值g1(uwjk);当集合Uk中的每个uwjk都被映射为对应的g1(uwjk)后,再用所述映射得到的每个实数值g1(uwjk)分别给其对应的uwjk赋值;其中g1(uwjk)为增函数,uCk、a和b均为设定常数。
11.根据权利要求8所述的方法,其特征在于,所述方法包括在互联网上查询一组特定用户的应用实例,其步骤如下:
多次使用所述方法获取所述用户集J中的多个用户的用户特征向量;
接收用户m(m∈J)提交的查询条件,所述查询条件包括被查询用户的至少一个特征;
根据所述查询条件,生成所述用户m的查询特征向量;
计算所述用户集J中每个用户的用户特征向量与所述查询特征向量之间的数学距离,以及根据所述数学距离对所述用户集J进行排序;
按照所述排序结果将所述用户集J中部分用户的标识发送给所述用户m。
12.根据权利要求8所述的方法,其特征在于,在所述方法的一个应用实例中,多次使用所述方法获取所述用户集J中的多个用户的用户特征向量;设置广告集A={1,2,...,G},广告g(g∈A)的广告特征向量为Ka(g)=(awg1,awg2,…,awgk,…,awgL),其中awgk表示所述广告g与特征k(k∈K)的相关度,G为广告个数;然后执行如下步骤:
接收用户m(m∈J)联络用户n(n∈J)的信号,所述信号至少包括所述用户m的用户标识和所述用户n的用户标识;
根据所述用户m的用户标识,读取所述用户m的用户特征向量;
根据所述用户n的用户标识,读取所述用户n的用户特征向量;
计算所述广告集A中每个广告的广告特征向量与所述用户m的用户特征向量之间的数学距离4;计算所述广告集A中每个广告的广告特征向量与所述用户n的用户特征向量之间的数学距离5;
根据所述广告集A中每个广告的所述数学距离4和所述数学距离5生成数学距离6,以及根据所述数学距离6对所述广告集A中每个广告的进行排序;
按照所述排序结果将所述广告集A中的至少一个广告推送给所述用户m。
13.一种在互联网中确定用户特征的系统,其特征在于,包括以下模块:
用户特征向量初始值设置模块:根据用户的自然特征和用户偏好,设置用户集J={1,2,...,N}中的一部分用户的用户特征向量初始值,并将其存储于用户数据库中;
文档特征向量初始值设置模块:根据文档的特征,设置文档集I={1,2,...,M}中的一部分文档的文档特征向量初始值,并将其存储于文档数据库中;
广告特征向量初始值设置模块:根据广告的特征,设置广告集A={1,2,...,G}中部分广告的广告特征向量初始值,并将其存储于广告数据库中;
用户访问文档信号获取模块:获取用户j(j∈J)访问文档i(i∈I)的信号,所述信号至少包括所述文档i的文档标识和所述用户j的用户标识,所述信号存储于用户数据库中;
用户联络用户信号获取模块:获取用户j(j∈J)联络用户i(i∈J)的信号,所述信号至少包括所述用户j的用户标识和所述用户i的用户标识,并将所述信号存储于用户数据库中;
特征向量更新模块1:根据在所述用户访问文档信号获取模块中得到的所述文档i的文档标识和所述用户j的用户标识,分别读取所述文档i的文档特征向量和所述用户j的用户特征向量,然后更新所述文档i的文档特征向量和所述用户j的用户特征向量;更新后的所述文档i的文档特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述文档i的文档特征向量和所述用户j的用户特征向量的函数;
特征向量更新模块2:根据在所述用户联络用户信号获取模块中得到的所述用户j和所述用户i的用户标识,分别读取所述用户j和所述用户i的用户特征向量,然后更新所述用户j和所述用户i的用户特征向量;更新后的所述用户i的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;更新后的所述用户j的用户特征向量是更新前的所述用户i的用户特征向量和所述用户j的用户特征向量的函数;
广告选择和呈现模块:根据在所述用户访问文档信号获取模块中得到的所述文档i的文档标识和所述用户j的用户标识,计算所述广告集A中的每个广告的数学距离3,以及根据所述数学距离3对所述广告集A进行排序,并根据所述排序结果将至少一个广告呈现给所述用户j;根据在所述用户联络用户信号获取模块中得到的所述用户j和所述用户i的用户标识,计算所述广告集A中的每个广告的数学距离6,以及根据所述数学距离6对所述广告集A进行排序,并根据所述排序结果将至少一个广告呈现给所述用户j;
文档查询模块:接收用户m(m∈J)提交的查询条件,所述查询条件至少包括被查询文档的至少一个特征,根据所述查询条件生成查询特征向量1,然后计算所述文档集I中每个文档的文档特征向量与所述用户m的查询特征向量1之间的数学距离7,以及根据所述数学距离7对所述文档集I进行排序,并且按照所述排序结果,将所述文档集I中的一部分文档的标识发送给所述用户m;
用户查询模块:接收用户m(m∈J)提交的查询条件,所述查询条件至少包括被查询用户的至少一个特征,根据所述查询条件生成查询特征向量2,然后计算所述用户集J中每个用户的用户特征向量与所述查询特征向量2之间的数学距离8,以及根据所述数学距离8对所述用户集J进行排序,并且按照所述排序结果将所述用户集J中的一部分用户的标识发送给所述用户m。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102051644A CN102880622A (zh) | 2011-07-15 | 2011-07-15 | 一种在互联网上确定用户特征的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102051644A CN102880622A (zh) | 2011-07-15 | 2011-07-15 | 一种在互联网上确定用户特征的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102880622A true CN102880622A (zh) | 2013-01-16 |
Family
ID=47481950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011102051644A Pending CN102880622A (zh) | 2011-07-15 | 2011-07-15 | 一种在互联网上确定用户特征的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102880622A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999540A (zh) * | 2011-09-10 | 2013-03-27 | 祁勇 | 一种在互联网上确定用户特征的方法和系统 |
CN104050203A (zh) * | 2013-03-17 | 2014-09-17 | 祁勇 | 一种获取网页和用户个性化特征的方法 |
CN104618216A (zh) * | 2013-11-05 | 2015-05-13 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和系统 |
CN105847521A (zh) * | 2016-05-24 | 2016-08-10 | 深圳天珑无线科技有限公司 | 通话日志显示方法、装置及相关设备 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN112702646B (zh) * | 2020-12-30 | 2023-06-02 | 百果园技术(新加坡)有限公司 | 一种客户端占用空间优化方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234825A1 (en) * | 2008-02-28 | 2009-09-17 | Fujitsu Limited | Information distribution system and information distribution method |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102651011A (zh) * | 2011-02-27 | 2012-08-29 | 祁勇 | 一种确定文档特征和用户特征的方法和系统 |
CN102737055A (zh) * | 2011-04-06 | 2012-10-17 | 祁勇 | 一种在社交网络中确定用户特征的方法和系统 |
-
2011
- 2011-07-15 CN CN2011102051644A patent/CN102880622A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090234825A1 (en) * | 2008-02-28 | 2009-09-17 | Fujitsu Limited | Information distribution system and information distribution method |
CN101923545A (zh) * | 2009-06-15 | 2010-12-22 | 北京百分通联传媒技术有限公司 | 一种个性化信息推荐的方法 |
CN102651011A (zh) * | 2011-02-27 | 2012-08-29 | 祁勇 | 一种确定文档特征和用户特征的方法和系统 |
CN102737055A (zh) * | 2011-04-06 | 2012-10-17 | 祁勇 | 一种在社交网络中确定用户特征的方法和系统 |
Non-Patent Citations (1)
Title |
---|
欧建斌: "个性化搜索引擎研究", 《微型机与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102999540A (zh) * | 2011-09-10 | 2013-03-27 | 祁勇 | 一种在互联网上确定用户特征的方法和系统 |
CN104050203A (zh) * | 2013-03-17 | 2014-09-17 | 祁勇 | 一种获取网页和用户个性化特征的方法 |
CN104618216A (zh) * | 2013-11-05 | 2015-05-13 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和系统 |
CN104618216B (zh) * | 2013-11-05 | 2019-05-17 | 腾讯科技(北京)有限公司 | 消息管理方法、设备和系统 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和系统 |
CN105847521A (zh) * | 2016-05-24 | 2016-08-10 | 深圳天珑无线科技有限公司 | 通话日志显示方法、装置及相关设备 |
CN105847521B (zh) * | 2016-05-24 | 2019-06-25 | 四川苏格通讯技术有限公司 | 通话日志显示方法、装置及相关设备 |
CN112702646B (zh) * | 2020-12-30 | 2023-06-02 | 百果园技术(新加坡)有限公司 | 一种客户端占用空间优化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995112B2 (en) | System and method for information recommendation | |
CN103106285B (zh) | 一种基于信息安全专业社交网络平台的推荐算法 | |
JP5662961B2 (ja) | レビュー処理方法およびシステム | |
CN102073699B (zh) | 用于基于用户行为来改善搜索结果的方法、装置和设备 | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、系统和存储介质 | |
TWI493367B (zh) | 搜尋結果之先進過濾方法 | |
CN107862553A (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
CN103607496B (zh) | 一种推断手机用户兴趣爱好的方法、装置及手机终端 | |
CN106708817B (zh) | 信息搜索方法及装置 | |
CN102651011B (zh) | 一种确定文档特征和用户特征的方法和系统 | |
CN102880622A (zh) | 一种在互联网上确定用户特征的方法和系统 | |
CN101317177A (zh) | 确定内容提供商优先级的系统和方法 | |
KR20180126577A (ko) | 관련 엔티티 탐색 | |
CN101401062A (zh) | 确定相关来源、查询及合并多个内容来源的结果的方法和系统 | |
CN104050243A (zh) | 一种将搜索与社交相结合的网络搜索方法及其系统 | |
CN102737055A (zh) | 一种在社交网络中确定用户特征的方法和系统 | |
JP2020046895A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN102298621B (zh) | 基于关注度的同源信息搜索引擎聚合显示方法的获取网页用户关注度PageFocus的系统 | |
JP5302614B2 (ja) | 施設関連情報の検索データベース形成方法および施設関連情報検索システム | |
Chen et al. | Location-aware news recommendation using deep localized semantic analysis | |
CN105159898A (zh) | 一种搜索的方法和装置 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
Kotzias et al. | Addressing the Sparsity of Location Information on Twitter. | |
CN106383857A (zh) | 一种信息处理方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130116 |
|
WD01 | Invention patent application deemed withdrawn after publication |