CN101334783A

CN101334783A - 基于语义矩阵的网络用户行为个性化的表达方法

Info

Publication number: CN101334783A
Application number: CNA2008100377248A
Authority: CN
Inventors: 骆祥峰; 方宁; 徐炜民
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2008-05-20
Filing date: 2008-05-20
Publication date: 2008-12-31

Abstract

本发明涉及一种网络用户行为个性化的表达方法，它是通过定义网络用户的行为的影响因素为：操作内容、操作类型和操作权值；根据用户行为类型构建语义矩阵；语义矩阵中的项表示用户感兴趣的概念，而语义矩阵中的值表示用户所感兴趣的概念与概念间的关联关系及其强度；用户行为的语义矩阵由用户偏好的变化而更新和进化。本发明其核心是从用户游览的行为和内容分析出发，构建语义矩阵，在矩阵运算的推理规则的基础上描述网络用户行为的个性化特征。该方法可以简捷高效地表示网络用户的个性化行为，便于计算机掌握和进行理解处理。本发明可以为实现个性化搜索和主动推送提供技术解决方案。

Description

基于语义矩阵的网络用户行为个性化的表达方法

技术领域

本发明涉及一种网络用户行为的表达方法，更具体地说，涉及一种基于语义矩阵的网络用户行为个性化的表达方法。

背景技术

随着信息和网络技术的发展，人们可以很容易地通过网络媒体获得数量巨大而且涉及各个领域的信息资源。网络也在很大程度上帮助和支持着科研人员的科技创新活动。但同时存在于网络上的资源和信息也变得越来越多，用户如何准确有效的获取自己需要的知识；科研人员如何有效的获取自己关心的领域知识，已经成为迫切需要解决的问题。传统的基于关键词技术的搜索引擎，通过对{关键词，文章，频率}这种集合的计算来进行搜索。这种搜索方式的优点是简单快捷，查全率高。但是也正因为关键词、文章、频率这种组合对于向量过于简单，传统搜索引擎有着查准率偏低，无法结合用户偏好知识这些固有的缺点。

目前，互联网已经进入Web2.0时代，传统互联网的行为习惯和运作方式受到了很大挑战。互联网将不仅能被动的向用户提供千篇一律的资源，还能记住用户偏好，为每个用户提供不同的服务与资源，甚至主动的向用户推荐知识。用户也将不必花费大量时间在茫茫的信息海洋中找寻自己所感兴趣的知识；用户的每次搜索都会为自己的兴趣量身定制，甚至不需要去访问搜索页面，自己感兴趣的知识和资源会被自动的推送过来。

要实现个性化搜索和自动推送，先要掌握用户的偏好，而用户偏好的掌握，则来自于对用户行为的分析。一般来说，用户在进行知识获取的时候行为有很多，而每种行为对用户兴趣的影响程度也不一样。

本发明涉及对网络用户行为个性化的表达方法，其核心是从用户游览的行为和内容出发构建语义矩阵，在基于矩阵运算的推理规则的基础上表达网络用户的个性化行为特征。

本发明可以克服目前网络搜索引擎的个性化的不足，具体原因如下：

(1)因为传统的搜索引擎是基于关键词的简单匹配，为了完成个性化搜索，传统的搜索引擎需要引入额外的文档分类。先通过设立一个庞大的全面的网页内容类目，然后用分类器对所有网页进行分类。在通过对用户行为的分析算出用户对每个分类的偏好程度；最后在搜索结果页面，利用这个用户对分类的偏好程度来优化搜索结果。这种方法实现相对简单，但是由于它把所有内容都置于一个分类系统下，分类的精度有限；并且用户的兴趣往往不是基于某个分类。因此、这样实现的个性化搜索效果也有限；

(2)而在自动推送方面，Google Alerts使用一种用户订制关键词。每隔一段时间就推送新搜索结果的方法来实现自动推送。但用户只能通过寥寥的几个关键词来描述自己所需的信息，再加上传统基于关键词搜索的缺陷。被推送给用户的文档往往是广告等垃圾信息。

针对以上问题本发明提出的一种基于语义矩阵的网络用户个性化行为描述方法在知识、用户兴趣的表示和推理上都比传统的关键词向量更胜一筹，所以语义矩阵更适合于实现文档的个性化搜索推送。

本发明可以为实现个性化搜索和主动推送提供技术解决方案，从而更好地帮助广大科技工作者进行辅助知识创新。

发明内容

本发明的目的在于针对目前基于文档分类的个性化搜索很难完美的反映用户知识或满足用户兴趣，提供一种新型的基于语义矩阵的网络用户行为个性化的表达方法。由于语义矩阵在知识、用户兴趣的表示和推理上都比传统的关键词向量更胜一筹(参考已经公开的相关专利“文本语义的可视化表示与获取方法”，公开号CN101067807)，所以语义矩阵更适合于描述网络用户的个性化行为。

为实现上述目的，本发明的构思是：基于用户的游览行为和游览内容构建语义矩阵。其中语义矩阵的项就是从游览内容中提取的关键词，而权值则由词频和用户的行为计算产生。此语义矩阵从而能有效地刻画网络用户的个性化行为。

根据上述的发明构思，本发明采用下述技术方案：

一种基于语义矩阵的网络用户行为个性化的表达方法，其特征在于将用户行为定义为：操作内容、操作类型和操作权值。通过从操作内容中提取关键词形成语义矩阵的项；通过操作类型和关键词的出现频率计算操作权值；从而形成用户行为的语义矩阵；具体操作步骤如下：

(1)定义用户行为的影响因素：操作内容、操作类型和操作权值；

(2)根据用户行为构建语义矩阵；

(3)用户行为的语义矩阵由用户偏好的变化而更新和进化。

上述的定义用户行为的影响因素中的操作类型为某种用户行为类型，即包括搜索，浏览，下载；操作内容为用户行为的对象、相关数据，即包括搜索的关键词，浏览文章的内容；操作权值为系统判定的用户行为对用户偏好的影响程度，表示为一个浮点数。

上述的根据用户行为构建语义矩阵，其语义矩阵中的项表示用户感兴趣的概念，这里的概念是关键词或者是一个主题概念，而语义矩阵中的值表示用户所感兴趣的概念与概念间的关联关系及其强度；初始时每个用户的语义矩阵都为空，用户只需要在系统上正常使用；系统就会自动为每个用户创建自己的语义矩阵。

上述的用户行为的语义矩阵由用户偏好的变化而更新和进化应符合以下四个原则：

(1)用户偏好的语义矩阵中应该是用户一切相关操作的合并；

(2)新的操作对于语义矩阵来说应该有更高的优先级；当用户先后搜索关键词“手机”和“电脑”，那么在语义矩阵中，“电脑”应该具有更大的状态值；

(3)语义矩阵的变化应该考虑时间的长短；如果用户很久没有使用系统，那么，他的旧有语义矩阵的状态值应该会衰减的很快；

(4)随着时间的推移，语义矩阵中的关键词会越来越多，必须对其规模给予控制。

上述的操作权值是系统判定的用户行为对用户偏好的影响程度，根据以下三种情况给予确定：

(1)用户提交感兴趣的文章进行搜索，操作内容为提交的文章，这对用户偏好影响最大，基础操作权值为2.0，并且当用户搜索出很多页结果，并且用户有对结果页面的翻页操作时，这个值还要增加；

(2)用户进行关键词搜索，操作内容则是关键词向量。这个基础操作权值为1.5，也和翻页次数有关；

(3)用户对结果页面的某文档进行浏览、下载，操作内容为被浏览或下载的文章，权值为1.0。

上述的系统会自动为每个用户创建自己的语义矩阵有以下两种操作行为：

(1)用户提交文档搜索操作以及用户预览、下载文档操作，这两种操作内容都是一篇文档；很显然，用户只会提交或者浏览自己感兴趣的文档，只要对这篇文档进行预处理，根据公开号CN101067807已经公开的相关专利“文本语义的可视化表示与获取方法”提取其语义矩阵，再根据语义矩阵中各个概念在文档中的词频赋给每个概念状态值；这样，这个语义矩阵就反映了用户进行此操作时的偏好；

(2)用户进行关键词搜索，这个操作内容不是一篇文档而是一组关键词，而因为用户偏好是以语义矩阵形式记录的，必须把关键词组转化为语义矩阵；首先调用语言处理程序，把用户输入的关键词组进行分词，词态转换，转换为一组概念向量；考虑用户用一组关键词进行搜索时，用户必然觉得这组关键词之间有某种联系，且用户认为自己搜索的关键词组两两之间应该有尽量多的联系，且尽量多的在目标文本中同一句话中出现，而不是仅仅各自在目标文本出现；所以，当用户用关键词组进行搜索时，用户希望返回的语义矩阵中自己搜索的关键词两两之间权值尽量的大；因此，规定当用户用关键词组合进行搜索时，把关键词组合中的各个关键词作为语义矩阵的项；再给它们两两之间赋予相同的权值1.0，然后进行归一化；而概念的状态值则是各个概念对所在领域的贡献程度，要经过归一化；这个语义矩阵就是用户搜索当前关键词组合时的用户偏好。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：本发明基于语义矩阵的网络用户行为个性化的表达方式，可以简捷高效地表示网络用户的个性化行为，便于计算机掌握和进行理解处理。从而必将能更好的为科技工作者服务，有效的帮助他们进行知识的发现与获取，更好地辅助科研人员进行科技知识创新。

附图说明

图1是一个实例用户U-KM的图形表示及其语义矩阵。其中：

主题概念(c₀)，手机(c₁)，保修(c₂)，报价(c₃)，

手机的选购(c₄)，电脑的选购(c₅)

图2是由搜索关键词向量转化来的用于训练U-KM的图形表示及其语义矩阵。

其中：

主题概念(c₀)，手机(c₁)，国产(c₂)，报价(c₃)

具体实施方式

本发明的一个优选实施例结合附图详述如下：本基于语义矩阵的网络用户行为个性化的表达方法的具体步骤如下：

1.定义用户行为的影响因素如下：操作类型(OT，Option Type)：某种用户行为类型(如搜索，浏览，下载)；操作内容(OC，Option Content)：用户行为的对象、相关数据(如搜索关键词，浏览文章内容)；操作权值(OW，Option Weight)：系统判定的用户行为对用户偏好的影响程度，表示为一个浮点数。

2.在分析了用户的行为后，系统就可以开始构建语义矩阵来理解和记住用户的偏好，从而可以把用户偏好作为一个计算因素来参与个性化搜索或者推送。

U-KM(User’s Knowledge Map)：表示用户偏好的语义矩阵(此处的语义矩阵可视化为知识图)。语义矩阵中的节点表示用户感兴趣的概念(这里的概念可以是关键词也可以是一个主题概念)，而语义矩阵中的边表示用户所感兴趣的概念与概念间的关联关系。比如，用户A很关心股票，那么U-KM_a的节点可能有{股票，上市，大盘，涨跌榜......}；而B很关心的是某家上市公司，那么U-KM_b的节点可能有{股票，上市，派息，派股......}。并且两个U-KM间“股票”节点和“上市”节点之间的权值必然有所不同。另外在U-KM中，每个概念都有一个对应的状态值，所有概念的状态值的和为1(参考已经公开的相关专利“文本语义的可视化表示与获取方法”，公开号CN101067807)。如图1显示了一个实例用户的U-KM及其语义矩阵。

初始时每个用户的U-KM都为空，用户只需要在系统上正常使用。系统就会自动为每个用户创建自己的U-KM。

下面我们将针对两种用户操作行为来阐述如何根据用户行为来生产U-KM。

(1)用户提交文档搜索操作以及用户预览、下载文档操作：

这两种操作内容都是一篇文档。很显然，用户只会提交或者浏览自己感兴趣的文档。只要对这篇文档进行预处理，根据公开号CN101067807已经公开的相关专利“文本语义的可视化表示与获取方法”提取其语义矩阵。再根据语义矩阵中各个概念在文档中的词频计算每个概念的状态值。这样，这个语义矩阵就反映了用户进行此操作时的偏好。

(2)用户进行关键词搜索：

这个操作内容不是一篇文档而是一组关键词，而因为用户偏好是以语义矩阵形式记录的，必须把关键词组转化为语义矩阵。首先调用语言处理程序，把用户输入的关键词组进行分词，词态转换，转换为一组概念向量；考虑用户用一组关键词进行搜索时，用户必然觉得这组关键词之间有某种联系。比如关键词向量为“X公司”、“派息”，则用户需要的可能是类似“X公司今日召开股东大会，派息5元每10股“这种知识，而不是“X公司停牌。Y公司派息5元每10股”这种知识。即用户认为自己搜索的关键词组两两之间应该有尽量多的联系、尽量多的在目标文本中同一句话中出现，而不是仅仅各自在目标文本出现。所以，我们可以认为，当用户用关键词组进行搜索时，用户希望返回的语义矩阵中自己搜索的关键词之间的权值尽量大。

正因为如此，我们规定，当用户用关键词组组合X进行搜索时，把关键词组合中的各个关键词X₁X₂......Xn作为语义矩阵的项。再给它们两两之间赋予相同的权值1.0，然后进行归一化。而概念的状态值则是各个概念在当前领域的贡献程度(要经过归一化)。这个语义矩阵就是用户搜索当前关键词组合时的用户偏好(参考已经公开的相关专利“基于语义矩阵的文本语义的图形可视化表示与获取方法”)。如图2所示的用户搜索关键词组合“国产、手机、报价”生成的U-KM。

本例子中，我们归纳出一套对用户偏好有影响的操作类型，并按照权值大小排序如下：

(1)用户提交感兴趣的文章进行搜索。操作内容为提交的文章。这对用户偏好影响最大。基础操作权值为2.0。并且当用户搜索出很多页结果，并且用户有对结果页面的翻页操作时，这个值还要增加。最终的操作权值为

OW＝2.0×(1.0+0.1×min(10，t))

这里的t为用户翻页次数。

(2)用户进行关键词搜索，操作内容则是关键词向量。这个基础操作权值为1.5，也和翻页次数有关。最终的操作权值为

OW＝1.5×(1.0+0.1×min(10，t))

这里的t为用户翻页次数。

如果用户当前的U-KM为空，我们就获得了用户的初始U-KM。当用户在系统上进行相关操作时，系统就能获得用户的即时U-KM(用操作权值修正的U-KM)。但因为用户的兴趣是不断变化的，而U-KM也必须随着用户兴趣的不断变化而更新。

3.U-KM反映的是用户的偏好，用户偏好的变化应该反映成U-KM的变化。U-KM的变化有以下四个原则：

(1)用户偏好的U-KM中应该是用户一切相关操作的合并。

(2)新的操作对于U-KM来说应该有更高的优先级。当用户先后搜索“手机”和“电脑”后，在U-KM中，“电脑”应该具有更大的State Value。

(3)U-KM的变化应该考虑时间的长短。如果用户很久没有使用系统，那么，他的旧有U-KM的状态值应该会衰减的很快。

(4)随着时间的推移，U-KM中的关键词会越来越多，必须对其规模有所控制。

基于以上的原则，对于一个原有的U-KMukm(用户以前游览过网页，或下载的文章，或是搜索过的关键词组合)和一个用户操作产生的即时U-KMokm，我们用如下的步骤来获得新的U-KMnewukm：

(1)归并U-KM：根据已经公开的相关专利“基于语义矩阵的文本语义的图形可视化表示与获取方法”合并U-KM，合并算法将U-KMukm和U-KMokm合并成U-KMnewukm。不过，这个合并操作不会删掉那些和任何主题概念都没有联系或者只和一个主题概念有联系的普通概念节点。

(2)计算状态值：对于每个在U-KMnewukm中的概念节点，设置它的状态值：

V_{newukm} = \frac{V_{ukm} ? d^{T} V_{okm}}{d^{T} + 1}

这里V_ukm表示U-KMukm中概念的状态值，如果这个概念不存在U-KMukm中，则该值为0；V_okm表示U-KMokm中概念的状态值，如果这个概念不存在U-KMokm中，则该值也为0；T是修改周期，即当前时间距离上一次U-KM被更新的周数。如果不满一周，则该值为1；d为U-KM衰减系数，取值范围为区间[0，1]，一般取0.9。

(3)删除状态值过小的概念节点：对于U-KMnewukm中每一个概念，如果状态值小于0.01，则把该概念和该概念与其他概念联系删除。

(4)重新归一化状态值：如果有概念被删除，则为了保证状态值的和为1，必须把所有概念的状态值重新归一化一遍。

经过以上四步的处理后，U-KMokm被更新成了U-KMnewukm。这样，U-KM可以和用户兴趣一起更新并且进化，并且U-KM的规模可以被很好的控制。

Claims

1.一种基于语义矩阵的网络用户行为个性化的表达方法，其特征在于将用户行为定义为：操作内容、操作类型和操作权值。通过从操作内容中提取关键词形成语义矩阵的项；通过操作类型和关键词的出现频率计算操作权值；从而形成用户行为的语义矩阵；具体操作步骤如下：

a)定义用户行为的影响因素：操作内容、操作类型和操作权值；

b)根据用户行为构建语义矩阵；

c)用户行为的语义矩阵由用户偏好的变化而更新和进化。

2.根据权利要求1所述的基于语义矩阵的网络用户行为个性化的表达方法，其特征在于所述的定义用户行为的影响因素中的操作类型为某种用户行为类型，即包括搜索，浏览，下载；操作内容为用户行为的对象、相关数据，即包括搜索的关键词，浏览文章的内容；操作权值为系统判定的用户行为对用户偏好的影响程度，表示为一个浮点数。

3.根据权利要求1所述的基于语义矩阵的网络用户行为个性化的表达方法，其特征在于所述的根据用户行为构建语义矩阵，其语义矩阵中的项表示用户感兴趣的概念，这里的概念是关键词或者是一个主题概念，而语义矩阵中的值表示用户所感兴趣的概念与概念间的关联关系及其强度；初始时每个用户的语义矩阵都为空，用户只需要在系统上正常使用；系统就会自动为每个用户创建自己的语义矩阵。

4.根据权利要求1所述的基于语义矩阵的网络用户行为个性化的表达方法，其特征在于所述的用户行为的语义矩阵由用户偏好的变化而更新和进化应符合以下四个原则：

a)用户偏好的语义矩阵中应该是用户一切相关操作的合并；

b)新的操作对于语义矩阵来说应该有更高的优先级；当用户先后搜索关键词“手机”和“电脑”，那么在语义矩阵中，“电脑”应该具有更大的状态值；

c)语义矩阵的变化应该考虑时间的长短；如果用户很久没有使用系统，那么，他的旧有语义矩阵的状态值应该会衰减的很快；

d)随着时间的推移，语义矩阵中的关键词会越来越多，必须对其规模给予控制。

5.根据权利要求2所述的基于语义矩阵的网络用户行为个性化的表达方法，其特征在于所述的操作权值是系统判定的用户行为对用户偏好的影响程度，根据以下三种情况给予确定：

a)用户提交感兴趣的文章进行搜索，操作内容为提交的文章，这对用户偏好影响最大，基础操作权值为2.0，并且当用户搜索出很多页结果，并且用户有对结果页面的翻页操作时，这个值还要增加；

b)用户进行关键词搜索，操作内容则是关键词向量。这个基础操作权值为1.5，也和翻页次数有关；

c)用户对结果页面的某文档进行浏览、下载，操作内容为被浏览或下载的文章，权值为1.0。

6.根据权利要求3所述的基于语义矩阵的网络用户行为个性化的表达方法，其特征在于所述的系统会自动为每个用户创建自己的语义矩阵，它有以下两种操作行为：

a)用户提交文档搜索操作以及用户预览、下载文档操作，这两种操作内容都是一篇文档；很显然，用户只会提交或者浏览自己感兴趣的文档，只要对这篇文档进行预处理，根据公开号CN101067807已经公开的相关专利“文本语义的可视化表示与获取方法”提取其语义矩阵，再根据语义矩阵中各个概念在文档中的词频赋给每个概念状态值；这样，这个语义矩阵就反映了用户进行此操作时的偏好；

b)用户进行关键词搜索，这个操作内容不是一篇文档而是一组关键词，而因为用户偏好是以语义矩阵形式记录的，必须把关键词组转化为语义矩阵；首先调用语言处理程序，把用户输入的关键词组进行分词，词性转换，转换为一组概念向量；考虑用户用一组关键词进行搜索时，用户必然觉得这组关键词之间有某种联系，且用户认为自己搜索的关键词组两两之间应该有尽量多的联系，且尽量多的在目标文本中同一句话中出现，而不是仅仅各自在目标文本出现；所以，当用户用关键词组进行搜索时，用户希望返回的语义矩阵中自己搜索的关键词其两两之间的权值尽量的大；因此，规定当用户用关键词组合进行搜索时，把关键词组合中的各个关键词作为语义矩阵的项；再给它们两两之间赋予相同的权值1.0，然后进行归一化；而概念的状态值则是各个概念对所在领域的贡献程度，要经过归一化；这个语义矩阵就是用户搜索当前关键词组合时的用户偏好。