CN101719137A

CN101719137A - 基于不确定性处理的网络论坛用户兴趣建模方法

Info

Publication number: CN101719137A
Application number: CN200910199384A
Authority: CN
Inventors: 曾剑平; 吴承荣
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2009-11-26
Filing date: 2009-11-26
Publication date: 2010-06-02

Abstract

本发明属于网络用户行为分析技术领域，具体为一种基于不确定性的网络论坛用户兴趣建模方法。本发明在建模过程中引入隶属函数来表达用户的兴趣，采用类似的高斯型隶属函数，基于用户在论坛中的行为特征计算函数的参数；采用文本处理方法提取用户兴趣文本，并按照不同权重配置计算用户的兴趣文本向量；将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中，采用概率密度函数描述用户在不同话题空间的兴趣分布。本发明建立的模型既能反应用户兴趣的模糊性，又能体现用户兴趣的随机性，使用户兴趣的表示更加接近用户要求，因而更合理，可用于基于网络用户兴趣的各种分析场合。

Description

基于不确定性处理的网络论坛用户兴趣建模方法

技术领域

本发明属于网络用户行为分析技术领域，具体涉及一种面向网络论坛用户兴趣的建模方法。

背景技术

随着Web2.0在互联网上应用的迅速推广，出现了许多交互性很强的论坛网站。这些网站里聚集了大量的互联网用户，他们在这里发表帖子、回复帖子，对不同话题的帖子表现出不同的兴趣。而对于许多商业应用来说，准确发现用户的兴趣、发现更多的兴趣群体是业务成功开展的首要条件。因此，充分利用这些论坛网站中的用户在发帖或回帖的行为，挖掘用户的兴趣，是商业应用获取用户群体的一种有效途径。

当前，人们对于网络用户兴趣的研究主要集中在用户的搜索行为上，通过用户输入的关键词推测用户的兴趣，模型主要采用基于话题词空间的概率密度函数，使用用户输入的文本作为训练集。也有的模型是基于用户在浏览WEB页面时所点击的页面的相关信息。虽然人们提出了许多方法和数学模型来表达用户的兴趣，提高用户兴趣计算的准确性，但是在针对网络论坛这种用户大量聚集、以发帖或回帖为主要行为的网络应用来说，运用这些模型来建立网络论坛用户兴趣时存在以下问题：

1.用户兴趣单纯以概率方式描述，只能说明用户对某个话题兴趣的随机性，而不能说明这种兴趣的模糊性，而模糊性是人们分析理解用户兴趣的一个重要方面。

2.网络论坛用户发帖或回帖在次数、长度等特征上都有很大区别，这在一定程度上反映了用户兴趣的差异，而现有模型只对用户的相关文本或点击行为进行表达，必然丢失这些反映用户兴趣的重要特征。

由此可见，提高用户兴趣的随机性和模糊性描述能力对于更合理地描述用户兴趣是非常重要的，充分利用论坛上的用户行为特征对于准确表达用户兴趣是很关键的，而现有方法在这两方面尚无法满足用户兴趣建模分析的要求。

发明内容

本发明的目的主要是针对现有用户兴趣模型在表达网络论坛用户兴趣方面的不足，提出一种基于不确定性处理的网络论坛用户兴趣建模方法。

本发明在建模过程中引入隶属函数来表达用户的兴趣，采用类似的高斯型隶属函数，基于用户在论坛中的行为特征计算函数的参数；采用文本处理方法提取用户兴趣文本，并按照不同权重配置计算用户的兴趣文本向量；将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中，采用概率密度函数描述用户在不同话题空间的兴趣分布。

本发明的方法的具体步骤如下：

1.使用Web爬虫技术[1]从网络论坛获取用户发帖的原始数据文件，并运用WEB信息提取技术[2]将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集；每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志；

2.从用户帖子记录集中选择指定用户的所有帖子，如果是属于回帖类型，则同时找出原始帖子；对其中的每个原始帖子及相应的用户回帖，构成临时帖子集；提取原始帖子、标题的内容，并运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括人名、地名、机构名；得到原始帖子对应的词语向量和标题对应的词语向量；

对帖子集执行以下步骤3-5，处理用户兴趣的初步标注：

3.计算该用户在这个帖子集中出现的次数，计算用户在帖子集中的回帖的平均长度；

4.根据用户发帖标志、回帖次数及回帖长度，为用户设定一个兴趣的隶属函数及参数，该隶属函数的论域是用户的兴趣等级；

5.提取用户回帖的内容，运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括含人名、地名、机构名，得到用户回帖对应的词语向量；结合第二步中的分词结果，按照不同权重构造用户的兴趣文本向量；

6.当整个帖子记录集处理完毕后，得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数，它对应于由文本向量和兴趣论域构成的多维空间中的点，对这些点使用EM算法建立论坛用户兴趣模型，它是一种混合高斯概率模型。

其流程见图1所示。

本发明具有实质性特点和显著进步：(1)提出了一种基于隶属函数的用户兴趣表示方法，隶属函数的论域是用户兴趣等级，可以采用普通的隶属函数形式，如类似高斯型隶属函数。这种方法使得用户兴趣的表示更加接近用户要求，更加合理。(2)利用网络论坛中的用户发帖或回帖的行为特征，计算用户兴趣的隶属函数参数，使得兴趣的计算更加准确。(3)将用户兴趣模型建立在兴趣文本向量和用户兴趣等级所构成的空间中，并基于混合概率表示方法，建立用户兴趣模型。使得模型既能反映用户兴趣的模糊性，又能体现用户兴趣的随机性。而不象现有方法仅仅表达随机性的一方面。

本发明提出了基于隶属函数的用户兴趣表达，充分利用论坛用户的行为特征，在兴趣文本向量和兴趣等级空间中建立混合概率模型，从而为计算用户对一个给定文本的兴趣提供了一种合理的计算方法，适应基于网络用户兴趣的各种应用分析场合。

附图说明

图1为本发明方法的总体流程图示。

图2为用户兴趣隶属函数。

具体实施方式

(1)从互联网论坛上下载一段时间内的所有页面文件。通常这些文件中包含了用户的发帖时间、帖子标题、帖子内容等信息，但这些信息是由各种HTML标志包围着。

页面文件的预处理：运用Web信息提取技术对这些文件进行解析，从而将一个帖子页面的信息转换为一个结构化的用户帖子记录集，每个记录包含的内容是(发帖时间、帖子标题、发帖人、帖子内容、回帖标志)。

(2)从用户帖子记录集中选择原始帖子(回帖标志为false)，以及这个帖子下的所有回帖记录(回帖标志为true)，构成一个临时帖子集，基本要求是这个临时帖子集中必须有指定的用户。

提取原始帖子、标题的内容，并运用现有的带词性标注的分词方法，将这些内容分割为单个词语，只保留其中的名词，包含人名、地名、机构名。这样，分别得到原始帖子及标题对应的词语向量V₁＝(tf₁，tf₂，...，tf_n)，V₂＝(tf₁，tf₂，...，tf_m)，其中tf_i表示第i个词在文本中出现的次数。n为V₁的长度，m为V₂的长度(长度即为分量个数)。

对该帖子集执行以下步骤3-5，对指定用户的兴趣进行初步标注；

(3)统计该用户在这个集合中出现的次数t₁及相应帖子的平均长度t₂。

(4)提取用户回帖内容，并运用现有的带词性标注的分词方法，将这些内容分割为单个词语，只保留其中的名词，包含人名、地名、机构名。类似地，可以得到一个用户回帖词语向量V3＝(tf₁，tf₂，...，tf_n)。k为V₃的长度(分量个数)。tf_i表示第i个词在文本中出的次数。

(5)为用户设定隶属函数，基本形式类似于高斯型，如下：

f (μ, σ; d) = e^{\frac{{(d - μ)}^{2}}{{2 σ}^{2}}}

其中，d表示用户兴趣等级，分为11个等级，取值0、1、2、3、...、10。μ，σ反映了用户兴趣程度及模糊程度。采用以下方法计算这两个参数的值：

μ = 5 \cdot (\frac{t_{1}}{T_{1}} + \frac{t_{2}}{T_{1}}),

其中，T₁，T₂分别表示用户在这段时间内的，在一个帖子中的最大回帖次数，在一个帖子中回帖的长度最大值。

σ = \frac{1}{sim}

其中，sim表示用户所有回帖与原始帖子的相似性的最大值。回帖与原始帖子的相似性是V₃中的词在V₂和V₁中出现的次数与所有词个数的比值。

(6)合并第2步骤的分词结果与第4步骤的结果，按照以下公式计算用户的兴趣文本向量V。

V＝＝(tf₁，tf₂，...，tf_i)，

其中，

i＝1，2，...，l，l＝max(m，n，k)。各个系数反映了对不同部分的权重，一般可认为原始帖子内容及标题的权重大一些。但满足：β₁+β₂+β₃＝1。

分别为V₁、V₂、V₃中的第i个分量；

(7)取下一个临时帖子集，并返回步骤2，直到用户帖子记录集处理完毕。

(8)运用EM算法[3]对V及相应的f(μ，σ；d)建立混合概率模型：

其中，X可以看作是由V定义的词语空间，Y是隶属函数的论域，N是分量个数，

表示各个分量的系数，q_i(X，Y)是各个分量的分布函数。

从上述实施过程可以看出，本发明将隶属函数引入到论坛用户兴趣的表达中，使得用户兴趣的表示更加接近用户要求，更加合理。充分利用网络论坛中的用户发帖或回帖的行为特征来计算用户兴趣的隶属函数参数，使得兴趣的计算更加准确。运用混合概率模型表示用户兴趣，从而使得模型既能反映用户兴趣的模糊性，又能体现用户兴趣的随机性。本发明所提出的基于不确定性处理的网络论坛用户兴趣建模方法为各种基于用户兴趣的应用和分析提供了合理的计算方法。

具体例子：

通过网络爬虫从网络论坛上下载一段时间内的所有帖子，共包含2304帖子，其中原始帖子数1420，其余为用户回帖。

在本例子中，选择其中的一个论坛用户，用来说明建立论坛用户兴趣模型的过程。经过统计得到该用户共有482个帖子，其中有392个是用户回帖，90个是用户的原始帖子。而在392个帖子中，有367个帖子是该用户回复其他人的帖子，因此，将相应的原始帖子也取出来，这样构成一个具有457个原始帖子及392个回帖的用户帖子记录集。

对这个帖子记录集中的每个原始帖子及相应的用户回帖分别构成一个临时帖子集，对这些临时帖子集进行步骤4-9的处理，从而得到一个由用户兴趣文本向量及隶属函数构成的训练集。在这个过程中，参数设置如下：β₁＝0.4，β₂＝0.4，β₃＝0.2。

其中，用户对一个帖子的兴趣隶属函数如图2所示，μ＝6，σ＝1.2。而相应的兴趣文本向量如表1所示。

表1用户兴趣文本向量的例子

词语	tf	词语	tf
词语	tf	词语	tf	人才	19.0	优惠	1.0
补贴	13.0	政策	1.0	人才	19.0	优惠	1.0
补贴	13.0	政策	1.0	住房	8.0	平方米	1.0
层次	8.0	建筑	1.0	住房	8.0	平方米	1.0
层次	8.0	建筑	1.0	深圳	7.0	面积	1.0
子女	4.0	标准	1.0	深圳	7.0	面积	1.0
子女	4.0	标准	1.0	额度	2.0	军人	1.0
购房	2.0	国土	1.0	额度	2.0	军人	1.0
购房	2.0	国土	1.0	总额	2.0	房产	1.0
部分	2.0	管理局	1.0	总额	2.0	房产	1.0
部分	2.0	管理局	1.0	学校	2.0	队伍	1.0

词语	tf	词语	tf
词语	tf	词语	tf	申请	2.0	建设	1.0
记者	2.0	教育局	1.0	申请	2.0	建设	1.0
记者	2.0	教育局	1.0	意见	2.0	待遇	1.0
货币	1.0	全市	1.0	意见	2.0	待遇	1.0
货币	1.0	全市	1.0	规定	1.0	范围	1.0
实物	1.0	问题	1.0	规定	1.0	范围	1.0
实物	1.0	问题	1.0	原则	1.0	通讯员	1.0

对训练集采用EM算法进行模型拟合，得到混合模型的个数N＝4，各个分量模型是多维高斯分布。

参考文献：

[1]徐远超，刘江华，刘丽珍，关永.基于Web的网络爬虫的设计与实现.微计算机信息，2007，23(21)：119-121

[2]Alani H.，Kim S.，Millard D.E.，etc.Automatic Extraction of Knowledge from Web Documents.Proceedings of the ISWC Workshop.2003，77-87.

[3]Dempster A.，Laird N.，Rubin D.Maximum Likelihood from Incomplete Data via the EM Algorithm.Journal of the Royal Statistical Society Series B.1977，39(1)：1-38.

Claims

1.基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于具体步骤如下：

1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件，并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集；每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志；

2)从用户帖子记录集中选择指定用户的所有帖子，如果是属于回帖类型，则同时找出原始帖子；对其中的每个原始帖子及相应的用户回帖，构成临时帖子集；提取原始帖子、标题的内容，并运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括人名、地名、机构名；得到原始帖子对应的词语向量和标题对应的词语向量；

对帖子集执行以下步骤3-5，处理用户兴趣的初步标注：

3)计算该用户在这个帖子集中出现的次数，计算用户在帖子集中的回帖的平均长度；

4)根据用户发帖标志、回帖次数及回帖长度，为用户设定一个兴趣的隶属函数及参数，该隶属函数的论域是用户的兴趣等级；

5)提取用户回帖的内容，运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括含人名、地名、机构名，得到用户回帖对应的词语向量；结合第二步中的分词结果，按照不同权重构造用户的兴趣文本向量；

6)当整个帖子记录集处理完毕后，得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数，它对应于由文本向量和兴趣论域构成的多维空间中的点，对这些点使用EM算法建立论坛用户兴趣模型，它是一种混合高斯概率模型。

2.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于，从用户帖子记录集中选择原始帖子，以及这个帖子下的所有回帖记录，构成一个临时帖子集，这个临时帖子集反映了指定的用户的发贴或回帖行为。

3.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于：记原始帖子对应词语向量V₁＝(tf₁，tf₂，...，tf_n)，标题对应词语向量V₂＝(tf₁，tf₂，...，tf_m)，用户回帖对应的词语向量V3＝(tf₁，tf₂，...，tf_k)，这里tf_i表示第i个词在文本中出现的次数，n、m、k分别为向量V₁、V₂、V₃的长度，所述构造用户的兴趣文本向量V如下：

V＝＝(tf₁，tf₂，...，tf_l)，

其中，

i＝1，2，...，l，l＝max(m，n，k)，系数β₁、β₂、β₃反映了对不同部分的权重，满足：β₁+β₂+β₃＝1；分别为V₁、V₂、V₃中的第i个分量。

4.如权利要求1中所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于：所述为用户设定兴趣隶属函数，其形式如下：

f (μ, σ; d) = e^{\frac{{(d - μ)}^{2}}{2 σ^{2}}}

其中，d表示用户兴趣等级，分为11个等级，取值0、1、2、3、...、10，μ，σ分别反映了用户兴趣程度及模糊程度。

5.如权利要求4所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于采用以下方法计算兴趣隶属函数的两个参数的值：

μ = 5 \cdot (\frac{t_{1}}{T_{1}} + \frac{t_{2}}{T_{1}}),

其中，T₁，T₂分别表示用户在这段时间内，在一个帖子中的最大回帖次数，在一个帖子中回帖的长度最大值；

σ = \frac{1}{sim}

其中，sim表示用户所有回帖与原始帖子的相似性的最大值；回帖与原始帖子的相似性是V₃中的词在V₂和V₁中出现的次数与所有词个数的比值。

6.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于：所述论坛用户兴趣模型是一种混合高斯概率模型，形式如下：

p (X, Y) = Σ_{i = 1}^{N} ω_{i} q_{i} (X, Y)

其中，X是由V定义的词语空间，Y是隶属函数的论域，N是分量个数，

表示各个分量的系数，q_i(X，Y)是各个分量的分布函数。