CN107491491A

CN107491491A - 一种适应用户兴趣变化的媒体文章推荐方法

Info

Publication number: CN107491491A
Application number: CN201710597163.6A
Authority: CN
Inventors: 李庆; 王佳
Original assignee: Southwestern University Of Finance And Economics
Current assignee: Southwestern University Of Finance And Economics
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-12-19

Abstract

本发明公开了一种适应用户兴趣变化的媒体文章推荐方法，结合媒体文章原文及用户评论等内容，跟踪用户兴趣变化，基于变化的用户兴趣推荐用户感兴趣的媒体文章。并进一步提出了一种方法来解释推荐文章与原文本体之间的逻辑关系,以此降低重复内容的推荐,推荐出符合用户需求的文章。本发明具有以下优点：（1）利用社会化媒体的用户交互特征，结合用户评论来进行信息推荐服务，基于图论的用户评论信息挖掘机制,可以准确地捕捉用户对事件的关注焦点,并将其与原文本体内容相结合,使得推荐的结果既反映了作者的观点,也反映了读者的观点；（2）提出基于信息嫡理论来判断文本逻辑关系，以获得推荐文章与原文章的逻辑关系，减轻了重复文章带给用户的认知负担。

Description

一种适应用户兴趣变化的媒体文章推荐方法

技术领域

本发明涉及一种信息推荐方法，尤其涉及一种适应用户兴趣变化的媒体文章推荐方法。

背景技术

随着互联网的发展，社会化媒体的出现使得用户不仅是网络内容的浏览者,也是网络内容的制造者。它的发展进一步加剧了网络时代的信息爆炸。现有的推荐系统通过让用户回答问题或者主动定制的方式来获取用户的兴趣,进而实现推荐。然而,用户的兴趣不是一成不变的,它会随着时间的推移而变化。社会化媒体形式多样,如论坛、博客、内容社区、社交网络等。在这些形式下,用户可以发布或者转帖一篇文章,其他用户可以对其阅读或评论,这些评论本身又会被其他用户阅读或评论。从用户评论中,可以观察出用户当前感兴趣的话题。现有的基于内容的推荐方法一般根据原文的内容信息、来推荐相关文章。然而,随着用户讨论的继续,讨论的主题也会发生变化,即用户兴趣也会发生变化。这时,如果仅仅依据原文本体进行推荐,则返回的文章往往不是用户当前最感兴趣的,从而会降低用户的满意度。

此外，事件报道在网络上的传播,具有转载重合、报道重合、包含重合和追踪重合等特点，使基于内容的推荐系统存在严重的重复推荐问题,即推荐文章的内容与原文含有相同的信息,这样会增加用户的阅读负担。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种适应用户兴趣变化的媒体文章推荐方法，并通过分析推荐文章与原文章的逻辑关系，去除重复的文章，减轻用户负担，推荐出符合用户需求的文章。

为达到上述目的，本发明采用如下技术方案：

提供一种适应用户兴趣变化的媒体文章推荐方法，具体包括：

S1、收集文章及评论信息；

具体地，通过网页爬虫技术抓取网页，利用网页解析技术从获取网页中抽取出文章标题、正文、读者评论、以及评论之间的引用和回复关系等。

S2、分析评论信息，计算评论的权值；

本发明中，每条评论对推荐结果的影响不一致，有些评论对原文内容有深刻的见解，而有些评论是无意义的讨论。因此，本发明根据抽取的评论间关系以计算每条评论对推荐的不同影响。

S21、构建原文与评论间的关系模型；

其中，原文与评论间的关系模型包括内容语义相似性模型和逻辑关系模型。

具体地，构建内容语义相似性模型时，构建的关系模型为：G_C＝(V，E_C)，V为文本结点，E_C为结点间边的集合。结点v到结点u间则有一条弧，弧上的权值是文档间的相似性。

可选地，节点u与v的相似性计算方式如下：

其中，w_k(u)为词语k在文本u中的权重，w_k(v)为词语k在文本v中的权重，n为词条总数，权重w_k(u)为：

其中，num_i,u是文本u中词条t_i的出现次数，是文本u中所有词条出现的次数之和，|D|为文档总数，|j:t_i∈d_j|为包含词条t_i的文档和。

具体地，构建逻辑关系模型时，原文本体、相关评论为关系模型中的文本结点，结点间的逻辑关系包括回复关系和引用关系。一条评论可能从其它评论中引用其内容信息。其中回复关系包对原文本体的回复或对另一评论的回复。

基于回复关系构建关系模型时，构建的关系模型为：G_T＝(V，E_T)，V为文本结点,E_T为结点间边的集合。如果评论u对评论或原文v进行回复，结点v到结点u间则有一条弧e_T＝(v，u)，e_T∈E_T。可选地，弧上的权值为1，可选地，原文本体是根结点，所有的评论是普通结点。

基于引用关系构建模型时，构建的关系模型为：G_D＝(V，E_D)，V为文本结点,E_D为结点间边的集合。如果一条评论u引用了评论v中的内容，从结点v到结点u则有一条弧e_D＝(v，u)，e_D∈E_D。可选地，弧上的权值取1。

S22、根据构建的关系模型计算评论的原始权重；

具体地，用|V|×|V|的邻接矩阵分别将G_C、G_T、G_D表示M_C、M_T和M_D。将三个矩阵线性相加：

M＝γ₁×M_C+γ₂×M_T+γ₃×M_D

其中，γ₁，γ₂，γ₃是调整评论间内容、回复和引用关系的贡献度的参数。

因此，评论j的权重为

其中，|V|为结点总数；S_k′为评论k的权重；r_k，j可通过如下公式计算：

M_k，j为邻接矩阵M中对应k行j列的值。

S23、计算用户权威性；

具体地，每条评论有着不同的可信度,其值可由该条评论的发表者的身份(即权威)来决定。当一个用户经常对权威性较高的用户发表的内容进行引用或者回复,那么这个用户的权威性也较高。

n个用户表示为U＝{u₁，u₂，...，u_n}。当用户对某一个用户的发表内容进行回复时,I_r(i，j)表示用户u_j对用户u_i的回复次数当用户对某一个用户发表内容的引用时，I_q(i，j)表示用户u_j对用户u_i的引用次数。线性合并为：

l(i，j)＝β₁l_r(i，j)+β₂l_q(i，j)

其中，β₁，β₂是调整用户间引用和回复关系贡献度的参数。

对上式进行归一化处理为：

其中，ε是一个常数,以避免除数为0时计算溢出。

则用户u_i的权威性为：

其中，λ为阻尼因子；n为该社区中用户的总数；a_k为用户的k的权威性。

S24、利用用户权威性对评论权重进行修正计算；

在本发明另一个实施例中，一些社交网络中用户能够添加好友，通过一个|U|×|U|矩阵来表示，矩阵中元素f(i,n)取值为0或1。当用户i和用户n是朋友时，f(i,n)取值为1；反之取0。

假设用户i对用户n的一条评论发表(引用或者回复)了评论j，则对评论j的最终权重定义为：

式中，a_i为用户的权威性。

S3、基于原文文本、评论信息及评论权重生成初步推荐的文章；

可选地，采用基于内容的推荐系统推荐与原文文本、评论信息及评论权重相符的文章，以推荐既能体现作者的观点，又能反映读者用户的当前关注点的文章。

具体地，对于原文本体d₀和它的评论列表{d₁，d₂，…，d_m}，每一个词条t的权重为：

W(t)＝(1-α)×W₁(t)+α×W₂(t)

其中，W₁(t)是原文本体中的词条t的权重，W₂(t)是评论中词条t权重，α是贡献度调整参数。

可选地，每个词条与其逆文档频率相关，即：

其中，N为数据库中文档的数量；n(t)为数据库中含有词条t的文档数。

f(t，d)为表示词条t在文档中d的出现次数，则计算词条t在文档d中的权重为：

其中，d可以是原文本身，也可以是其中的某条评论；

原文本体d₀中词条t的权重计算如下：

可选地，评论{d₁，d₂，…，d_m}中词条权重的计算不仅包含了这些文档的语言特征，还结合了它们在整个讨论中的重要性，则：

利用复合权重W(t)最大的前m个词条作为用户当前所关注的主题，检索相关推荐文章。

S4、对生成的初步推荐文章进行过滤，生成最终推荐文章。

具体地，设一个文本数据库中由n个词条组成{w₁，w₂，…，w_n}。对于文章A，计算出每个词条在中的权重，然后进行归一化处理，得到文章A的向量表示：

则计算文章A的信息熵：

对于文章B为向量表示：

定义在文章A和B中共同出现的词条集合为C，则信息嫡包括公共集合C的信息嫡及剩下的词条集合的信息熵

类似地，文章B的信息熵为：

当文章A和B的公共集合C的信息嫡分别占它们信息嫡的较大比例时，则文章A和B是内容重复的：

或者

可选地，设置为0.7；

当文章A与文章B重复时，删除文章B，以生成最终的文章推荐集。

本发明提出全新的媒体文章推荐方法，能够根据文章相关的评论信息识别用户兴趣的变化。同时，本发明基于文章与评论间的文本内容、评论及引用等关系，提出全新的文章与评论间的关系模型构建方法。本发明具有如下优点：(1)利用社会化媒体的用户交互特征，结合用户评论来进行信息推荐服务，基于图论的用户评论信息挖掘机制,可以准确地捕捉用户对事件的关注焦点,并将其与原文本体内容相结合,使得推荐的结果既反映了作者的观点,也反映了读者的观点；(2)构建文章与评论间的关系模型，更好地评价评论信息；(3)提出基于信息嫡理论来判断文本逻辑关系，以获得推荐文章与原文章的逻辑关系，减轻了重复文章带给用户的认知负担。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的步骤框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于监督学习方法，尤其基于基于媒体丈量监督学习方法对股票波动进行预测。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

S1、收集文章及评论信息；

S2、分析评论信息，计算评论的权值；

S21、构建原文与评论间的关系模型；

可选地，节点u与v的相似性计算方式如下：

S22、根据构建的关系模型计算评论的原始权重；

M＝γ₁×M_C+γ₂×M_T+γ₃×M_D

因此，评论j的权重为

M_k，j为邻接矩阵M中对应k行j列的值。

S23、计算用户权威性；

l(i，j)＝β₁l_r(i，j)+β₂l_q(i，j)

对上式进行归一化处理为：

其中，ε是一个常数,以避免除数为0时计算溢出。

则用户u_i的权威性为：

S24、利用用户权威性对评论权重进行修正计算；

式中，a_i为用户的权威性。

W(t)＝(1-α)×W₁(t)+α×W₂(t)

可选地，每个词条与其逆文档频率相关，即：

其中，d可以是原文本身，也可以是其中的某条评论；

原文本体d₀中词条t的权重计算如下：

S4、对生成的初步推荐文章进行过滤，生成最终推荐文章。

具体地，设一个文本数据库中由n个词条组成{w₁，w₂，...，w_n}。对于文章A，计算出每个词条在中的权重，然后进行归一化处理，得到文章A的向量表示：

则计算文章A的信息熵：

对于文章B为向量表示：

类似地，文章B的信息熵为：

或者

可选地，设置为0.7；

Claims

1.一种适应用户兴趣变化的媒体文章推荐方法，其特征在于，包括：

S1、收集文章及评论信息；

S2、分析评论信息，计算评论的权值；

S4、对生成的初步推荐文章进行过滤，生成最终推荐文章。

2.根据权利要求1所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述步骤S2计算评论的权值包括：

S21、构建原文与评论间的关系模型；

S22、根据构建的关系模型计算评论的原始权重；

S23、计算用户权威性；

S24、利用用户权威性对评论权重进行修正计算。

3.根据权利要求2所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：

所述关系模型包括：内容语义相似性模型和逻辑关系模型；所述逻辑关系包括回复关系和引用关系。

4.根据权利要求3所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：

所述内容语义相似性模型为：G_C＝(V，E_C)，V为文本结点，E_C为结点间边的集合；边的权值是文档间的相似性：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>w</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mo>(</mo> <mi>u</mi> <mo>)</mo> <mo>)</mo> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>w</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mo>(</mo> <mi>v</mi> <mo>)</mo> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>

其中，u,v为文本节点，w_k(u)为词语k在文本u中的权重，w_k(v)为词语k在文本v中的权重，n为词条总数，权重w_k(u)为：

<mrow> <msub> <mi>w</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>num</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>num</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>u</mi> </mrow> </msub> </mrow> </mfrac> <mo>&times;</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mi>j</mi> <mo>:</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </mfrac> </mrow>

5.根据权利要求4所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述回复关系模型为：G_T＝(V，E_T)，V为文本结点,E_T为结点间边的集合，如果评论u对评论或原文v进行回复，结点v到结点u间则有一条弧e_T＝(v，u)，e_T∈E_T，弧上的权值取1。

6.根据权利要求5所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述回复关系模型为：所述引用关系模型为：G_D＝(V，E_D)，V为文本结点,E_D为结点间边的集合，如果一条评论u引用了评论v中的内容，从结点v到结点u则有一条弧e_D＝(v，u)，e_D∈E_D，弧上的权值取1。

7.根据权利要求6所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述原始权重计算为：

|V|×|V|的邻接矩阵分别将G_C、G_T、G_D表示M_C、M_T和M_D，则：

M＝γ₁×M_C+γ₂×M_T+γ₃×M_D

其中，γ₁，γ₂，γ₃是调整评论间内容、回复和引用关系的贡献度的参数；

因此，评论j的权重为

<mrow> <msup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mi>&lambda;</mi> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>V</mi> <mo>|</mo> </mrow> </munderover> <msub> <mi>r</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>&times;</mo> <msup> <msub> <mi>s</mi> <mi>k</mi> </msub> <mo>&prime;</mo> </msup> </mrow>

其中，|V|为结点总数；S_k′为评论k的权重；r_k.j可通过如下公式计算：

<mrow> <mi>r</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <msub> <mi>M</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>M</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mi>&epsiv;</mi> </mrow> </mfrac> </mrow>

M_k，j为邻接矩阵M中对应k行j列的值。

8.根据权利要求7所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述权威性为：

n个用户表示为U＝{u₁，u₂，...，u_n}，当用户对某一个用户的发表内容进行回复时,l_r(i，j)表示用户u_j对用户u_i的回复次数当用户对某一个用户发表内容的引用时，I_q(i，j)表示用户u_j对用户u_i的引用次数，线性合并为：

l′(i，j)＝β₁l_r(i，j)+β₂l_q(i，j)

其中，β₁，β₂是调整用户间引用和回复关系贡献度的参数；

对上式进行归一化处理为： <mrow> <mi>l</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msup> <mi>l</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mi>l</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&epsiv;</mi> </mrow> </mfrac> </mrow>

其中，ε是一个常数,以避免除数为0时计算溢出。

则用户u_i的权威性为：

<mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mi>n</mi> </mfrac> <mo>+</mo> <mi>&lambda;</mi> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <mi>l</mi> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>i</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <msub> <mi>a</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

9.根据权利要求8所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述修正的权重为：

假设用户i对用户n的一条评论发表了评论j，则对评论j的最终权重定义为：

<mrow> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>=</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mo>,</mo> </msubsup> <mo>&times;</mo> <mfrac> <mrow> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>n</mi> </mrow> </msub> </mrow> <mn>2</mn> </mfrac> </mrow>

式中，a_i为用户的权威性，|U|×|U|为用户好友矩阵来，当用户i和用户n是朋友时，f(i,n)取值为1；反之取0。

10.根据权利要求1所述的适应用户兴趣变化的媒体文章推荐方法，其特征在于：所述步骤S4中的过滤方法为：

对于文章A，计算出词条在中的权重，然后进行归一化处理，得到文章A的向量表示：其中n为文本数据库中词条数；

文章A的信息熵为：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mover> <mi>A</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&times;</mo> <mi>log</mi> <mfrac> <mn>1</mn> <msub> <mi>a</mi> <mi>i</mi> </msub> </mfrac> </mrow>

文章B的向量表示：

文章A和B中共同出现的词条集合为C，则信息嫡包括公共集合C的信息嫡及剩下的词条集合的信息熵

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mover> <mi>A</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>H</mi> <mi>A</mi> <mi>C</mi> </msubsup> <mo>+</mo> <msubsup> <mi>H</mi> <mi>A</mi> <mover> <mi>C</mi> <mo>&OverBar;</mo> </mover> </msubsup> </mrow>

文章B的信息熵为：

<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mover> <mi>B</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>H</mi> <mi>B</mi> <mi>C</mi> </msubsup> <mo>+</mo> <msubsup> <mi>H</mi> <mi>B</mi> <mover> <mi>C</mi> <mo>&OverBar;</mo> </mover> </msubsup> </mrow>

或者删除文章B。