CN101719137A - 基于不确定性处理的网络论坛用户兴趣建模方法 - Google Patents

基于不确定性处理的网络论坛用户兴趣建模方法 Download PDF

Info

Publication number
CN101719137A
CN101719137A CN200910199384A CN200910199384A CN101719137A CN 101719137 A CN101719137 A CN 101719137A CN 200910199384 A CN200910199384 A CN 200910199384A CN 200910199384 A CN200910199384 A CN 200910199384A CN 101719137 A CN101719137 A CN 101719137A
Authority
CN
China
Prior art keywords
user
interest
mrow
post
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910199384A
Other languages
English (en)
Inventor
曾剑平
吴承荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN200910199384A priority Critical patent/CN101719137A/zh
Publication of CN101719137A publication Critical patent/CN101719137A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明属于网络用户行为分析技术领域,具体为一种基于不确定性的网络论坛用户兴趣建模方法。本发明在建模过程中引入隶属函数来表达用户的兴趣,采用类似的高斯型隶属函数,基于用户在论坛中的行为特征计算函数的参数;采用文本处理方法提取用户兴趣文本,并按照不同权重配置计算用户的兴趣文本向量;将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中,采用概率密度函数描述用户在不同话题空间的兴趣分布。本发明建立的模型既能反应用户兴趣的模糊性,又能体现用户兴趣的随机性,使用户兴趣的表示更加接近用户要求,因而更合理,可用于基于网络用户兴趣的各种分析场合。

Description

基于不确定性处理的网络论坛用户兴趣建模方法
技术领域
本发明属于网络用户行为分析技术领域,具体涉及一种面向网络论坛用户兴趣的建模方法。
背景技术
随着Web2.0在互联网上应用的迅速推广,出现了许多交互性很强的论坛网站。这些网站里聚集了大量的互联网用户,他们在这里发表帖子、回复帖子,对不同话题的帖子表现出不同的兴趣。而对于许多商业应用来说,准确发现用户的兴趣、发现更多的兴趣群体是业务成功开展的首要条件。因此,充分利用这些论坛网站中的用户在发帖或回帖的行为,挖掘用户的兴趣,是商业应用获取用户群体的一种有效途径。
当前,人们对于网络用户兴趣的研究主要集中在用户的搜索行为上,通过用户输入的关键词推测用户的兴趣,模型主要采用基于话题词空间的概率密度函数,使用用户输入的文本作为训练集。也有的模型是基于用户在浏览WEB页面时所点击的页面的相关信息。虽然人们提出了许多方法和数学模型来表达用户的兴趣,提高用户兴趣计算的准确性,但是在针对网络论坛这种用户大量聚集、以发帖或回帖为主要行为的网络应用来说,运用这些模型来建立网络论坛用户兴趣时存在以下问题:
1.用户兴趣单纯以概率方式描述,只能说明用户对某个话题兴趣的随机性,而不能说明这种兴趣的模糊性,而模糊性是人们分析理解用户兴趣的一个重要方面。
2.网络论坛用户发帖或回帖在次数、长度等特征上都有很大区别,这在一定程度上反映了用户兴趣的差异,而现有模型只对用户的相关文本或点击行为进行表达,必然丢失这些反映用户兴趣的重要特征。
由此可见,提高用户兴趣的随机性和模糊性描述能力对于更合理地描述用户兴趣是非常重要的,充分利用论坛上的用户行为特征对于准确表达用户兴趣是很关键的,而现有方法在这两方面尚无法满足用户兴趣建模分析的要求。
发明内容
本发明的目的主要是针对现有用户兴趣模型在表达网络论坛用户兴趣方面的不足,提出一种基于不确定性处理的网络论坛用户兴趣建模方法。
本发明在建模过程中引入隶属函数来表达用户的兴趣,采用类似的高斯型隶属函数,基于用户在论坛中的行为特征计算函数的参数;采用文本处理方法提取用户兴趣文本,并按照不同权重配置计算用户的兴趣文本向量;将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中,采用概率密度函数描述用户在不同话题空间的兴趣分布。
本发明的方法的具体步骤如下:
1.使用Web爬虫技术[1]从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术[2]将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;
2.从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;
对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:
3.计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;
4.根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;
5.提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;
6.当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
其流程见图1所示。
本发明具有实质性特点和显著进步:(1)提出了一种基于隶属函数的用户兴趣表示方法,隶属函数的论域是用户兴趣等级,可以采用普通的隶属函数形式,如类似高斯型隶属函数。这种方法使得用户兴趣的表示更加接近用户要求,更加合理。(2)利用网络论坛中的用户发帖或回帖的行为特征,计算用户兴趣的隶属函数参数,使得兴趣的计算更加准确。(3)将用户兴趣模型建立在兴趣文本向量和用户兴趣等级所构成的空间中,并基于混合概率表示方法,建立用户兴趣模型。使得模型既能反映用户兴趣的模糊性,又能体现用户兴趣的随机性。而不象现有方法仅仅表达随机性的一方面。
本发明提出了基于隶属函数的用户兴趣表达,充分利用论坛用户的行为特征,在兴趣文本向量和兴趣等级空间中建立混合概率模型,从而为计算用户对一个给定文本的兴趣提供了一种合理的计算方法,适应基于网络用户兴趣的各种应用分析场合。
附图说明
图1为本发明方法的总体流程图示。
图2为用户兴趣隶属函数。
具体实施方式
(1)从互联网论坛上下载一段时间内的所有页面文件。通常这些文件中包含了用户的发帖时间、帖子标题、帖子内容等信息,但这些信息是由各种HTML标志包围着。
页面文件的预处理:运用Web信息提取技术对这些文件进行解析,从而将一个帖子页面的信息转换为一个结构化的用户帖子记录集,每个记录包含的内容是(发帖时间、帖子标题、发帖人、帖子内容、回帖标志)。
(2)从用户帖子记录集中选择原始帖子(回帖标志为false),以及这个帖子下的所有回帖记录(回帖标志为true),构成一个临时帖子集,基本要求是这个临时帖子集中必须有指定的用户。
提取原始帖子、标题的内容,并运用现有的带词性标注的分词方法,将这些内容分割为单个词语,只保留其中的名词,包含人名、地名、机构名。这样,分别得到原始帖子及标题对应的词语向量V1=(tf1,tf2,...,tfn),V2=(tf1,tf2,...,tfm),其中tfi表示第i个词在文本中出现的次数。n为V1的长度,m为V2的长度(长度即为分量个数)。
对该帖子集执行以下步骤3-5,对指定用户的兴趣进行初步标注;
(3)统计该用户在这个集合中出现的次数t1及相应帖子的平均长度t2
(4)提取用户回帖内容,并运用现有的带词性标注的分词方法,将这些内容分割为单个词语,只保留其中的名词,包含人名、地名、机构名。类似地,可以得到一个用户回帖词语向量V3=(tf1,tf2,...,tfn)。k为V3的长度(分量个数)。tfi表示第i个词在文本中出的次数。
(5)为用户设定隶属函数,基本形式类似于高斯型,如下:
f ( μ , σ ; d ) = e ( d - μ ) 2 2 σ 2
其中,d表示用户兴趣等级,分为11个等级,取值0、1、2、3、...、10。μ,σ反映了用户兴趣程度及模糊程度。采用以下方法计算这两个参数的值:
μ = 5 · ( t 1 T 1 + t 2 T 1 ) ,
其中,T1,T2分别表示用户在这段时间内的,在一个帖子中的最大回帖次数,在一个帖子中回帖的长度最大值。
σ = 1 sim
其中,sim表示用户所有回帖与原始帖子的相似性的最大值。回帖与原始帖子的相似性是V3中的词在V2和V1中出现的次数与所有词个数的比值。
(6)合并第2步骤的分词结果与第4步骤的结果,按照以下公式计算用户的兴趣文本向量V。
V==(tf1,tf2,...,tfi),
其中,
Figure G2009101993843D0000042
i=1,2,...,l,l=max(m,n,k)。各个系数反映了对不同部分的权重,一般可认为原始帖子内容及标题的权重大一些。但满足:β123=1。
Figure G2009101993843D0000043
Figure G2009101993843D0000044
分别为V1、V2、V3中的第i个分量;
(7)取下一个临时帖子集,并返回步骤2,直到用户帖子记录集处理完毕。
(8)运用EM算法[3]对V及相应的f(μ,σ;d)建立混合概率模型:
Figure G2009101993843D0000045
其中,X可以看作是由V定义的词语空间,Y是隶属函数的论域,N是分量个数,
Figure G2009101993843D0000046
表示各个分量的系数,qi(X,Y)是各个分量的分布函数。
从上述实施过程可以看出,本发明将隶属函数引入到论坛用户兴趣的表达中,使得用户兴趣的表示更加接近用户要求,更加合理。充分利用网络论坛中的用户发帖或回帖的行为特征来计算用户兴趣的隶属函数参数,使得兴趣的计算更加准确。运用混合概率模型表示用户兴趣,从而使得模型既能反映用户兴趣的模糊性,又能体现用户兴趣的随机性。本发明所提出的基于不确定性处理的网络论坛用户兴趣建模方法为各种基于用户兴趣的应用和分析提供了合理的计算方法。
具体例子:
通过网络爬虫从网络论坛上下载一段时间内的所有帖子,共包含2304帖子,其中原始帖子数1420,其余为用户回帖。
在本例子中,选择其中的一个论坛用户,用来说明建立论坛用户兴趣模型的过程。经过统计得到该用户共有482个帖子,其中有392个是用户回帖,90个是用户的原始帖子。而在392个帖子中,有367个帖子是该用户回复其他人的帖子,因此,将相应的原始帖子也取出来,这样构成一个具有457个原始帖子及392个回帖的用户帖子记录集。
对这个帖子记录集中的每个原始帖子及相应的用户回帖分别构成一个临时帖子集,对这些临时帖子集进行步骤4-9的处理,从而得到一个由用户兴趣文本向量及隶属函数构成的训练集。在这个过程中,参数设置如下:β1=0.4,β2=0.4,β3=0.2。
其中,用户对一个帖子的兴趣隶属函数如图2所示,μ=6,σ=1.2。而相应的兴趣文本向量如表1所示。
表1用户兴趣文本向量的例子
  词语   tf   词语   tf
  人才   19.0   优惠   1.0
  补贴   13.0   政策   1.0
  住房   8.0   平方米   1.0
  层次   8.0   建筑   1.0
  深圳   7.0   面积   1.0
  子女   4.0   标准   1.0
  额度   2.0   军人   1.0
  购房   2.0   国土   1.0
  总额   2.0   房产   1.0
  部分   2.0   管理局   1.0
  学校   2.0   队伍   1.0
  词语   tf   词语   tf
  申请   2.0   建设   1.0
  记者   2.0   教育局   1.0
  意见   2.0   待遇   1.0
  货币   1.0   全市   1.0
  规定   1.0   范围   1.0
  实物   1.0   问题   1.0
  原则   1.0   通讯员   1.0
对训练集采用EM算法进行模型拟合,得到混合模型的个数N=4,各个分量模型是多维高斯分布。
参考文献:
[1]徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现.微计算机信息,2007,23(21):119-121
[2]Alani H.,Kim S.,Millard D.E.,etc.Automatic Extraction of Knowledge from Web Documents.Proceedings of the ISWC Workshop.2003,77-87.
[3]Dempster A.,Laird N.,Rubin D.Maximum Likelihood from Incomplete Data via the EM Algorithm.Journal of the Royal Statistical Society Series B.1977,39(1):1-38.

Claims (6)

1.基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于具体步骤如下:
1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;
2)从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;
对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:
3)计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;
4)根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;
5)提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;
6)当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
2.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于,从用户帖子记录集中选择原始帖子,以及这个帖子下的所有回帖记录,构成一个临时帖子集,这个临时帖子集反映了指定的用户的发贴或回帖行为。
3.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:记原始帖子对应词语向量V1=(tf1,tf2,...,tfn),标题对应词语向量V2=(tf1,tf2,...,tfm),用户回帖对应的词语向量V3=(tf1,tf2,...,tfk),这里tfi表示第i个词在文本中出现的次数,n、m、k分别为向量V1、V2、V3的长度,所述构造用户的兴趣文本向量V如下:
V==(tf1,tf2,...,tfl),
其中,
Figure F2009101993843C0000011
i=1,2,...,l,l=max(m,n,k),系数β1、β2、β3反映了对不同部分的权重,满足:β123=1;分别为V1、V2、V3中的第i个分量。
4.如权利要求1中所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:所述为用户设定兴趣隶属函数,其形式如下:
f ( μ , σ ; d ) = e ( d - μ ) 2 2 σ 2
其中,d表示用户兴趣等级,分为11个等级,取值0、1、2、3、...、10,μ,σ分别反映了用户兴趣程度及模糊程度。
5.如权利要求4所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于采用以下方法计算兴趣隶属函数的两个参数的值:
μ = 5 · ( t 1 T 1 + t 2 T 1 ) ,
其中,T1,T2分别表示用户在这段时间内,在一个帖子中的最大回帖次数,在一个帖子中回帖的长度最大值;
σ = 1 sim
其中,sim表示用户所有回帖与原始帖子的相似性的最大值;回帖与原始帖子的相似性是V3中的词在V2和V1中出现的次数与所有词个数的比值。
6.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:所述论坛用户兴趣模型是一种混合高斯概率模型,形式如下:
p ( X , Y ) = Σ i = 1 N ω i q i ( X , Y )
其中,X是由V定义的词语空间,Y是隶属函数的论域,N是分量个数,
Figure F2009101993843C0000025
表示各个分量的系数,qi(X,Y)是各个分量的分布函数。
CN200910199384A 2009-11-26 2009-11-26 基于不确定性处理的网络论坛用户兴趣建模方法 Pending CN101719137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910199384A CN101719137A (zh) 2009-11-26 2009-11-26 基于不确定性处理的网络论坛用户兴趣建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910199384A CN101719137A (zh) 2009-11-26 2009-11-26 基于不确定性处理的网络论坛用户兴趣建模方法

Publications (1)

Publication Number Publication Date
CN101719137A true CN101719137A (zh) 2010-06-02

Family

ID=42433711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910199384A Pending CN101719137A (zh) 2009-11-26 2009-11-26 基于不确定性处理的网络论坛用户兴趣建模方法

Country Status (1)

Country Link
CN (1) CN101719137A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111964A (zh) * 2013-12-26 2014-10-22 北京尖峰合讯科技有限公司 一种社区内用户阅读应用数据处理方法
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
CN103870913B (zh) * 2012-12-18 2017-10-24 国际商业机器公司 任务分派服务器和任务分派方法
WO2018027392A1 (zh) * 2016-08-06 2018-02-15 柳柏宏 转发论坛信息时的技术归属提示方法以及转发系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870913B (zh) * 2012-12-18 2017-10-24 国际商业机器公司 任务分派服务器和任务分派方法
CN104111964A (zh) * 2013-12-26 2014-10-22 北京尖峰合讯科技有限公司 一种社区内用户阅读应用数据处理方法
CN106294363A (zh) * 2015-05-15 2017-01-04 厦门美柚信息科技有限公司 一种论坛帖子评价方法、装置及系统
WO2018027392A1 (zh) * 2016-08-06 2018-02-15 柳柏宏 转发论坛信息时的技术归属提示方法以及转发系统

Similar Documents

Publication Publication Date Title
Haunschild et al. Does the public discuss other topics on climate change than researchers? A comparison of explorative networks based on author keywords and hashtags
Kim et al. When Bitcoin encounters information in an online forum: Using text mining to analyse user opinions and predict value fluctuation
Thelwall et al. M endeley readership altmetrics for medical articles: An analysis of 45 fields
Zhai et al. Measuring the diffusion of an innovation: A citation analysis
Zhou et al. Userrec: A user recommendation framework in social tagging systems
Biljecki A scientometric analysis of selected GIScience journals
Schiuma et al. Research constituents and authorship patterns in the knowledge management research and practice: A bibliometric analysis
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
CN110597981A (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
Zhuohao et al. Keyword Extraction from Scientific Research Projects Based on SRP‐TF‐IDF
Chung et al. Business stakeholder analyzer: An experiment of classifying stakeholders on the Web
Webb et al. Techniques for analyzing blogs and micro-blogs
Mehta et al. Sentiment analysis and influence tracking using twitter
Cann et al. Ideological biases in social sharing of online information about climate change
Falck et al. Measuring proximity between newspapers and political parties: the sentiment political compass
CN110134842B (zh) 基于信息图谱的信息匹配方法、装置、存储介质和服务器
Hassan et al. Task tours: helping users tackle complex search tasks
KR20210037842A (ko) 빅데이터 기반 키워드의 광고 마케팅 시스템
CN101719137A (zh) 基于不确定性处理的网络论坛用户兴趣建模方法
Bayarsaikhan et al. Toward sustainable development? Trend analysis of environmental policy in Korea from 1987 to 2040
Wang et al. A web text mining approach for the evaluation of regional characteristics at the town level
Liu et al. Reviewer recommendation method for scientific research proposals: a case for NSFC
Gayakwad et al. Content Modelling for unbiased information analysis
Yan et al. Analysis of research papers on E-commerce (2000–2013): based on a text mining approach
Ameen et al. The impact of organizational innovation on financial performance: a perspective of employees within Dubai ports world

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100602