CN109857857B - 一种用户阅读兴趣主题漂移的检测方法 - Google Patents
一种用户阅读兴趣主题漂移的检测方法 Download PDFInfo
- Publication number
- CN109857857B CN109857857B CN201910044903.2A CN201910044903A CN109857857B CN 109857857 B CN109857857 B CN 109857857B CN 201910044903 A CN201910044903 A CN 201910044903A CN 109857857 B CN109857857 B CN 109857857B
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- data set
- document data
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集,对各文档数据集中的文档进行分词、向量表示等处理后,利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模,基于文档主题生成模型输出的数据,以其中一个文档数据集为参照对象,计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度,从而实现对用户阅读兴趣改变的检测,可以用于后续广告推送策略的配置。
Description
技术领域
本发明涉及网络用户阅读的文本信息处理技术领域,尤其是涉及一种用户阅读兴趣主题漂移的检测方法。
背景技术
网络已经成为我们工作生活中最重要的工具之一,对网络用户行为的建模,特别是对网络用户阅读、处理的文本数据进行建模分析,感知其变化,对于实现网络服务的精准推送(如互联网定向广告服务等)具有十分重要的意义。
文本数据处理的发展历史可以追溯到20世纪50年代末,Luhn H.P.首次提出词频统计的思想。截至目前已经取得了长足的发展,包括文本分类、文本聚类、关联分析、趋势预测等文本挖掘技术,并被广泛应用于情报分析、个性化新闻推送等各个领域。
目前,经典的方法由Anderson等人提出,其核心思想是对用户历史数据进行挖掘,构建了用户个人行为模型,通过评估用户当前行为与其正常行为模式的偏离程度来判断行为是否异常。这种方法需要对用户行为进行全面刻画,模型计算较为复杂。另外还需要正常行为的历史数据作为支撑,具有一定的局限性。
现有的文本挖掘方法侧重于对用户阅读兴趣的建模,特别是兴趣爱好的主题归类,缺乏对兴趣爱好漂移的检测,从而对于用户兴趣的改变不能实时捕捉,导致广告推送失效等问题。
发明内容
针对现有技术存在的缺陷,本发明提出了一种用户阅读兴趣主题漂移的检测方法,可以与现有的互联网服务进行融合,显著提升服务推送的准确率。
为实现上述技术目的,本发明采用的具体技术方案如下:
一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt;
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt;
S3.5计算文本主题的漂移度m
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
本发明S1.1中,文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
本发明S2中,将文档数据集A对应得到的Nword个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
其中,表示文档数据集B对应得到的MWord个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词,表示新词与文档数据集A对应得到的NWord个词的词语相似度的集合,为取集合中的最大值,表示新词在文档数据集A中出现的频率。
词语相似度用J(a,b)表示,是指词语a和词语b这两个词语相同字符所占比例的大小,计算公式如下:
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有不重复字符的数量;
本发明S3.3中,weightt表示文档数据集B对应划分的NTopic个主题中的第个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
本发明S3.4中,newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,计算公式如下:
本发明其在文本主题建模的基础上,提出主题漂移度计算的公式,从而找到用户兴趣爱好的变化,可以用于后续广告推送策略的配置。
本发明通过对用户在网络应用中所操作的文本信息,如打印、拷贝文档的内容,阅读、发布的文本消息等,利用文档主题生成模型(LDA)生成文本主题。然后在此基础上提出了一种基于文本主题的漂移模型,通过对文本内容的漂移,得到文本主题的变化。并提出了漂移度及其计算公式来定量表示文本主题的变化程度,从而实现对用户阅读兴趣改变的检测。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,通过以下实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
参照图1,一种用户阅读兴趣主题漂移的检测方法,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B。
文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合,那么经过后续的方法得到的同一用户或者同一用户群体在前后两个不同时间段中阅读兴趣主题漂移度。
设文档数据集A中的文档数目为NA,文档数据集B中的原始文档数目为NB。
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,各份文档会对应产生一系列的词。接着对各份文档分词后得到的一系列词进行停用词消除,将能体现文档内容的词抽取出来,最终文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词.
S1.3采用词袋(Bag-of-word)模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数。同样的,采用词袋(Bag-of-word)模型对文档数据集B对应得到的MWord个词分别进行向量表示。
Bag-of-word(BOW)模型是文档处理领域常用的文档表示方法。BOW模型假定对于一个文档,忽略词语间的顺序,仅仅看成若干词汇的集合。词袋(Bag-of-word)模型通过建立一个词表,将每一份原始文档表示成向量,向量中的元素表示词表中词语在文本中的出现次数。这样计算机通过处理向量就可以读出文本内容。
S2利用文档主题生成模型(LDA)生成文本主题集。
将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度。
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例。
其中,表示文档数据集B对应得到的Mword个词中的某一词被文档主题生成模型分到第t个主题下且是第t个topic下第k个第一次出现的新词,表示新词与文档数据集A对应得到的NWord个词的Jaccard相似度的集合(大小为NTopic·NWord),为取集合中的最大值,表示新词在文档数据集A中出现的频率。
给定两个词语a和b,J(a,b)即词语相似度(Jaccard),表示词语a和词语b这两个词语相同字符所占比例的大小,定义如下:
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例。用符号weightt表示文档数据集B对应划分的NTopic个主题中的第t个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性,用符号newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,也即文档数据集B对应划分的NTopic个主题中的第t个主题的新度系数。给出如下的计算公式:
其中,表示第t个主题中出现的新词个数,表示第t个主题中所有新词的概率和,表示第t个主题中所有词的概率和。显然,对于文档数据集B对应划分的NTopic个主题中的某一个主题,如果该主题下新词所占的比重较大,则该主题的新度系数也越大。
S3.5计算文本主题的漂移度m
公式主要分为两个层次,第一层是词层面的计算,对某个主题下的每个新词都计算新度系数再依据不同词的权重进行加权,计算出每个新词的最后求和得到第二层是主题层面的,经过第一层的计算,每个topic都得到了一个最后需要对所有的topic进行累加,但是每个topic的权重和新度也是不同,所以也要进行加权,经过加权之后再累加就得到了漂移度m。
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变。
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值。γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰。
Claims (9)
1.一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理;
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt;
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt;
S3.5计算文本主题的漂移度m:
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
2.根据权利要求1所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.1中,文档数据集A和文档数据集B是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
3.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.2中,分词还包括各份文档分词后得到的一系列词进行停用词消除。
4.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S2中,将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044903.2A CN109857857B (zh) | 2019-01-17 | 2019-01-17 | 一种用户阅读兴趣主题漂移的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044903.2A CN109857857B (zh) | 2019-01-17 | 2019-01-17 | 一种用户阅读兴趣主题漂移的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857857A CN109857857A (zh) | 2019-06-07 |
CN109857857B true CN109857857B (zh) | 2020-11-20 |
Family
ID=66895055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910044903.2A Active CN109857857B (zh) | 2019-01-17 | 2019-01-17 | 一种用户阅读兴趣主题漂移的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857857B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101552689A (zh) * | 2009-05-15 | 2009-10-07 | 中国科学技术大学 | 基于网络结构的用户兴趣漂移检测方法及系统 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
WO2013157705A1 (ko) * | 2012-04-17 | 2013-10-24 | 한국과학기술원 | Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105573995A (zh) * | 2014-10-09 | 2016-05-11 | 中国银联股份有限公司 | 一种兴趣识别方法、设备以及数据分析方法 |
CN108540329A (zh) * | 2018-04-24 | 2018-09-14 | 中国人民解放军国防科技大学 | 基于两层贝叶斯网络模型的网络安全推断方法 |
-
2019
- 2019-01-17 CN CN201910044903.2A patent/CN109857857B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101552689A (zh) * | 2009-05-15 | 2009-10-07 | 中国科学技术大学 | 基于网络结构的用户兴趣漂移检测方法及系统 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
WO2013157705A1 (ko) * | 2012-04-17 | 2013-10-24 | 한국과학기술원 | Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105573995A (zh) * | 2014-10-09 | 2016-05-11 | 中国银联股份有限公司 | 一种兴趣识别方法、设备以及数据分析方法 |
CN108540329A (zh) * | 2018-04-24 | 2018-09-14 | 中国人民解放军国防科技大学 | 基于两层贝叶斯网络模型的网络安全推断方法 |
Non-Patent Citations (3)
Title |
---|
"Dynamic Model Adaptive to user interest Drift Based on Cluster and Nearest Neighbors";Baoshan Sun等;《IEEE Access》;20170224;第5卷;第9-16页 * |
"基于主题的用户兴趣模型的构建及动态更新";唐晓波等;《情报理论与实践》;20160203;第39卷(第2期);第116-123页 * |
"融合主题模型及多时间节点函数的用户兴趣预测研究";桂思思等;《现代图书情报技术》;20160925(第9期);第1682-1691页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109857857A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Styawati et al. | Sentiment analysis on online transportation reviews using Word2Vec text embedding model feature extraction and support vector machine (SVM) algorithm | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
Riadi | Detection of cyberbullying on social media using data mining techniques | |
Ahmad et al. | Information extraction from text messages using data mining techniques | |
CN113407784A (zh) | 一种基于社交网络的社团划分方法、系统及存储介质 | |
CN116911929B (zh) | 基于大数据的广告服务终端及方法 | |
Zavrak et al. | Email spam detection using hierarchical attention hybrid deep learning method | |
Ezpeleta et al. | A mood analysis on youtube comments and a method for improved social spam detection | |
Atoum | Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis | |
Sinnott et al. | Linking user accounts across social media platforms | |
CN109857857B (zh) | 一种用户阅读兴趣主题漂移的检测方法 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Wang et al. | A collaborative filtering algorithm fusing user-based, item-based and social networks | |
Mazzoleni et al. | Unsupervised learning of fundamental emotional states via word embeddings | |
Febriany et al. | Analysis model for identifying negative posts based on social media | |
CN113297482A (zh) | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 | |
Bhargav et al. | Implementation of Sentiment Analysis and Classification of Tweets Using Machine Learning. | |
CN112559905A (zh) | 一种基于双模式注意力机制和社交相似度的会话推荐方法 | |
CN111723301A (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
Sridhar et al. | Content based news recommendation engine using hybrid bilstm-ann feature modelling | |
CN116485352B (zh) | 会员管理和数据分析的方法、装置、设备及存储介质 | |
CN114880572B (zh) | 新闻客户端智能推荐系统 | |
AU2021106572A4 (en) | A recommendation system and method for e-commerce using machine learning | |
Ram et al. | You are what you browse: A robust framework for uncovering political ideology. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |