CN109857857A

CN109857857A - 一种用户阅读兴趣主题漂移的检测方法

Info

Publication number: CN109857857A
Application number: CN201910044903.2A
Authority: CN
Inventors: 周鋆; 王培超; 顾伟; 李旻浩; 张维明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-06-07
Anticipated expiration: 2039-01-17
Also published as: CN109857857B

Abstract

本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集，对各文档数据集中的文档进行分词、向量表示等处理后，利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模，基于文档主题生成模型输出的数据，以其中一个文档数据集为参照对象，计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度，从而实现对用户阅读兴趣改变的检测，可以用于后续广告推送策略的配置。

Description

一种用户阅读兴趣主题漂移的检测方法

技术领域

本发明涉及网络用户阅读的文本信息处理技术领域，尤其是涉及一种用户阅读兴趣主题漂移的检测方法。

背景技术

网络已经成为我们工作生活中最重要的工具之一，对网络用户行为的建模，特别是对网络用户阅读、处理的文本数据进行建模分析，感知其变化，对于实现网络服务的精准推送(如互联网定向广告服务等)具有十分重要的意义。

文本数据处理的发展历史可以追溯到20世纪50年代末，Luhn H.P.首次提出词频统计的思想。截至目前已经取得了长足的发展，包括文本分类、文本聚类、关联分析、趋势预测等文本挖掘技术，并被广泛应用于情报分析、个性化新闻推送等各个领域。

目前，经典的方法由Anderson等人提出，其核心思想是对用户历史数据进行挖掘，构建了用户个人行为模型，通过评估用户当前行为与其正常行为模式的偏离程度来判断行为是否异常。这种方法需要对用户行为进行全面刻画，模型计算较为复杂。另外还需要正常行为的历史数据作为支撑，具有一定的局限性。

现有的文本挖掘方法侧重于对用户阅读兴趣的建模，特别是兴趣爱好的主题归类，缺乏对兴趣爱好漂移的检测，从而对于用户兴趣的改变不能实时捕捉，导致广告推送失效等问题。

发明内容

针对现有技术存在的缺陷，本发明提出了一种用户阅读兴趣主题漂移的检测方法，可以与现有的互联网服务进行融合，显著提升服务推送的准确率。

为实现上述技术目的，本发明采用的具体技术方案如下：

一种用户阅读兴趣主题漂移的检测方法，其特征在于，包括以下步骤：

S1文本数据采集与处理。

S1.1获取两份文档数据集，分别为文档数据集A和文档数据集B；

S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词，文档数据集A对应得到N_Word个词，文档数据集B对应得到M_Word个词；

S1.3采用词袋模型对文档数据集A对应得到的N_Word个词进行向量表示，各向量中的元素表示不同的分词在不同文档中出现的次数；同样的，采用词袋模型对文档数据集B对应得到的M_Word个词分别进行向量表示；

S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模；

S3以文档数据集A为参照，计算文档数据集B的用户阅读兴趣主题漂移度；

S3.1计算文档数据集B对应得到的M_Word个词中的各个词在其对应划分的主题中所占的比例

S3.2计算文档数据集B对应得到的M_Word个词中的各个词属于全新主题的可能性

S3.3计算文档数据集B对应划分的N_Topic个主题中的各个主题在所有主题中所占的比例weight_t；

S3.4计算文档数据集B对应划分的N_Topic个主题中的各个主题是全新主题的可能性new_t；

S3.5计算文本主题的漂移度m

S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变；

其中，f(m)为判断结果，当m＜γ时，f(m)为正常，代表兴趣未变；当m≥γ时，f(m)为异常，代表兴趣改变；γ代表了异常判断的可信度，是一个事先设置的阈值；γ越大表示得出的异常结果的可信度较高，反之则得出的正常结果可信度较高。

本发明S1.1中，文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。

本发明S2中，将文档数据集A对应得到的N_word个词以及各词对应的向量输入到文档主题生成模型，利用文档主题生成模型计算输出文档数据集A的主题结构，包括文档数据集A的主题分布和文档数据集A的各主题的词分布，从而实现对文档数据集A对应的用户关注主题的建模；设文档主题生成模型(LDA)将文档数据集A对应得到的N_Word个词分为N_Topic个主题，文档数据集A对应得到的N_Word个词分别被文档主题生成模型划分到上述N_Topic个主题中，且由文档主题生成模型得到各词在对应的主题中的概率；

同样的，将文档数据集B对应得到的M_Word个词以及对应向量输入到文档主题生成模型，利用文档主题生成模型计算输出文档数据集B的主题结构，包括文档数据集B的主题分布和文档数据集B的各主题的词分布，从而实现对文档数据集B对应的用户关注主题的建模；设文档主题生成模型将文档数据集B对应得到的M_Word个词分为N_Topic个主题，文档数据集B对应得到的M_Word个词分别被文档主题生成模型划分到上述N_Topic个主题中，且由文档主题生成模型得到各词在对应的主题中的概率。

本发明S3.1中，对于文档数据集B对应划分的N_Topic个主题中的第t个主题下的第i个词，其在第t个主题中所占的比例即计算公式如下：

其中，表示第t个主题下的第i个词，表示在第t个主题中对应的概率，表示第t个主题下所有词的概率和，均由文档主题生成模型直接输出。

本发明S3.2中，表示文档数据集B对应划分的N_Topic个主题中的第t个主题下的第k个词属于全新主题的可能性，计算公式如下：

其中，表示文档数据集B对应得到的M_Word个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词，表示新词与文档数据集A对应得到的N_Word个词的词语相似度的集合，为取集合中的最大值，表示新词在文档数据集A中出现的频率。

其中的计算方法如下：

词语相似度用J(a，b)表示，是指词语a和词语b这两个词语相同字符所占比例的大小，计算公式如下：

a∩b表示词语a和词语b中相同字符的数量，a∪b表示词语a和词语b中所有不重复字符的数量；

将新词与文档数据集A对应得到的N_Word个词分别用词语相似度计算公式计算词语相似度，得到的N_Word个词语相似度组成的集合即

本发明S3.3中，weight_t表示文档数据集B对应划分的N_Topic个主题中的第个主题在所有主题中所占的比例，weight_t∈[0，1]。计算公式如下：

其中，表示第t个主题下所有词的概率和。表示对所有主题下的所有词的概率和再进行求和。

本发明S3.4中，new_t表示文档数据集B对应划分的N_Topic个主题中的第t个主题是全新主题的可能性，计算公式如下：

其中，表示第t个主题中出现的新词个数，表示第t个主题中所有新词的概率和，表示第t个主题中所有词的概率和。

本发明其在文本主题建模的基础上，提出主题漂移度计算的公式，从而找到用户兴趣爱好的变化，可以用于后续广告推送策略的配置。

本发明通过对用户在网络应用中所操作的文本信息，如打印、拷贝文档的内容，阅读、发布的文本消息等，利用文档主题生成模型(LDA)生成文本主题。然后在此基础上提出了一种基于文本主题的漂移模型，通过对文本内容的漂移，得到文本主题的变化。并提出了漂移度及其计算公式来定量表示文本主题的变化程度，从而实现对用户阅读兴趣改变的检测。

附图说明

图1为本发明的流程图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，通过以下实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

参照图1，一种用户阅读兴趣主题漂移的检测方法，包括以下步骤：

S1文本数据采集与处理。

S1.1获取两份文档数据集，分别为文档数据集A和文档数据集B。

文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合，那么经过后续的方法得到的同一用户或者同一用户群体在前后两个不同时间段中阅读兴趣主题漂移度。

设文档数据集A中的文档数目为N_A，文档数据集B中的原始文档数目为N_B。

S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词，各份文档会对应产生一系列的词。接着对各份文档分词后得到的一系列词进行停用词消除，将能体现文档内容的词抽取出来，最终文档数据集A对应得到N_Word个词，文档数据集B对应得到M_Word个词.

S1.3采用词袋(Bag-of-word)模型对文档数据集A对应得到的N_Word个词进行向量表示，各向量中的元素表示不同的分词在不同文档中出现的次数。同样的，采用词袋(Bag-of-word)模型对文档数据集B对应得到的M_Word个词分别进行向量表示。

Bag-of-word(BOW)模型是文档处理领域常用的文档表示方法。BOW模型假定对于一个文档，忽略词语间的顺序，仅仅看成若干词汇的集合。词袋(Bag-of-word)模型通过建立一个词表，将每一份原始文档表示成向量，向量中的元素表示词表中词语在文本中的出现次数。这样计算机通过处理向量就可以读出文本内容。

S2利用文档主题生成模型(LDA)生成文本主题集。

将文档数据集A对应得到的N_Word个词以及各词对应的向量输入到文档主题生成模型，利用文档主题生成模型(LDA)计算输出文档数据集A的主题结构，包括文档数据集A的主题分布和文档数据集A的各主题的词分布，从而实现对文档数据集A对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集A对应得到的N_Word个词分为N_Topic个主题，文档数据集A对应得到的N_Word个词分别被文档主题生成模型划分到上述N_Topic个主题中，且由文档主题生成模型得到各词在对应的主题中的概率。

同样的，将文档数据集B对应得到的M_Word个词以及对应向量输入到文档主题生成模型，利用文档主题生成模型(LDA)计算输出文档数据集B的主题结构，包括文档数据集B的主题分布和文档数据集B的各主题的词分布，从而实现对文档数据集B对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集B对应得到的M_Word个词分为N_Topic个主题，文档数据集B对应得到的M_Word个词分别被文档主题生成模型划分到上述N_Topic个主题中，且由文档主题生成模型得到各词在对应的主题中的概率。

S3以文档数据集A为参照，计算文档数据集B的用户阅读兴趣主题漂移度。

S3.1计算文档数据集B对应得到的M_Word个词中的各个词在其对应划分的主题中所占的比例。

用符号表示文档数据集B对应划分的N_Topic个主题中的第t个主题下的第i个词在第t个主题中所占的比例，计算公式如下：

其中，表示第t个主题下的第i个词，表示在第t个主题中对应的概率，表示第t个主题下所有词的概率和。均由文档主题生成模型直接输出。

S3.2计算文档数据集B对应得到的M_word个词中的各个词属于全新主题的可能性，用符号表示文档数据集B对应划分的N_Topic个主题中的第t个主题下的第k个词属于全新主题的可能性。给出如下的计算公式：

其中，表示文档数据集B对应得到的M_word个词中的某一词被文档主题生成模型分到第t个主题下且是第t个topic下第k个第一次出现的新词，表示新词与文档数据集A对应得到的N_Word个词的Jaccard相似度的集合(大小为N_Topic·N_Word)，为取集合中的最大值，表示新词在文档数据集A中出现的频率。

给定两个词语a和b，J(a，b)即词语相似度(Jaccard)，表示词语a和词语b这两个词语相同字符所占比例的大小，定义如下：

a∩b表示词语a和词语b中相同字符的数量，a∪b表示词语a和词语b中所有不重复字符的数量。以“信息”和“信息化“两个词语为例，a∩b＝2，a∪b＝3，

将新词与文档数据集A对应得到的N_Word个词分别用公式(3)计算词语相似度，得到的N_Word个词语相似度组成的集合即

显然，文档数据集B对应得到的M_Word个词中的某一词与文档数据集A对应得到的N_Word个词的相似度越小，同时在文档数据集A中出现的频率越小的新词来自于全新主题的可能性就会越大。

S3.3计算文档数据集B对应划分的N_Topic个主题中的各个主题在所有主题中所占的比例。用符号weight_t表示文档数据集B对应划分的N_Topic个主题中的第t个主题在所有主题中所占的比例，weight_t∈[0，1]。计算公式如下：

S3.4计算文档数据集B对应划分的N_Topic个主题中的各个主题是全新主题的可能性，用符号new_t表示文档数据集B对应划分的N_Topic个主题中的第t个主题是全新主题的可能性，也即文档数据集B对应划分的N_Topic个主题中的第t个主题的新度系数。给出如下的计算公式：

其中，表示第t个主题中出现的新词个数，表示第t个主题中所有新词的概率和，表示第t个主题中所有词的概率和。显然，对于文档数据集B对应划分的N_Topic个主题中的某一个主题，如果该主题下新词所占的比重较大，则该主题的新度系数也越大。

S3.5计算文本主题的漂移度m

公式主要分为两个层次，第一层是词层面的计算，对某个主题下的每个新词都计算新度系数再依据不同词的权重进行加权，计算出每个新词的最后求和得到第二层是主题层面的，经过第一层的计算，每个topic都得到了一个最后需要对所有的topic进行累加，但是每个topic的权重和新度也是不同，所以也要进行加权，经过加权之后再累加就得到了漂移度m。

S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变。

其中，f(m)为判断结果，当m＜γ时，f(m)为正常，代表兴趣未变；当m≥γ时，f(m)为异常，代表兴趣改变；γ代表了异常判断的可信度，是一个事先设置的阈值。γ越大表示得出的异常结果的可信度较高，反之则得出的正常结果可信度较高。

综上所述，虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明，任何本领域普通技术人员，在不脱离本发明的精神和范围内，当可作各种更动与润饰。

Claims

1.一种用户阅读兴趣主题漂移的检测方法，其特征在于，包括以下步骤：

S1文本数据采集与处理。

S3.5计算文本主题的漂移度m

2.根据权利要求1所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S1.1中，文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。

3.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S1.2中，分词还包括各份文档分词后得到的一系列词进行停用词消除。

4.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S2中，将文档数据集A对应得到的N_Word个词以及各词对应的向量输入到文档主题生成模型，利用文档主题生成模型计算输出文档数据集A的主题结构，包括文档数据集A的主题分布和文档数据集A的各主题的词分布，从而实现对文档数据集A对应的用户关注主题的建模；设文档主题生成模型(LDA)将文档数据集A对应得到的N_Word个词分为N_Topic个主题，文档数据集A对应得到的N_Word个词分别被文档主题生成模型划分到上述N_Topic个主题中，且由文档主题生成模型得到各词在对应的主题中的概率；

5.根据权利要求4所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S3.1中，对于文档数据集B对应划分的N_Topic个主题中的第t个主题下的第i个词，其在第t个主题中所占的比例即计算公式如下：

6.根据权利要求5所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S3.2中，表示文档数据集B对应划分的N_Topic个主题中的第t个主题下的第k个词属于全新主题的可能性，计算公式如下：

7.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法，其特征在于，的计算方法如下：

a∩b表示词语a和词语b中相同字符的数量，a∪b表示词语a和词语b中所有字符的数量；

8.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S3.3中，weight_t表示文档数据集B对应划分的N_Topic个主题中的第t个主题在所有主题中所占的比例，weight_t∈[0，1]。计算公式如下：

9.根据权利要求8所述的用户阅读兴趣主题漂移的检测方法，其特征在于，S3.4中，new_t表示文档数据集B对应划分的N_Topic个主题中的第t个主题是全新主题的可能性，计算公式如下：