CN109857857B - 一种用户阅读兴趣主题漂移的检测方法 - Google Patents

一种用户阅读兴趣主题漂移的检测方法 Download PDF

Info

Publication number
CN109857857B
CN109857857B CN201910044903.2A CN201910044903A CN109857857B CN 109857857 B CN109857857 B CN 109857857B CN 201910044903 A CN201910044903 A CN 201910044903A CN 109857857 B CN109857857 B CN 109857857B
Authority
CN
China
Prior art keywords
word
topic
data set
document data
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910044903.2A
Other languages
English (en)
Other versions
CN109857857A (zh
Inventor
周鋆
王培超
顾伟
李旻浩
张维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910044903.2A priority Critical patent/CN109857857B/zh
Publication of CN109857857A publication Critical patent/CN109857857A/zh
Application granted granted Critical
Publication of CN109857857B publication Critical patent/CN109857857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集,对各文档数据集中的文档进行分词、向量表示等处理后,利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模,基于文档主题生成模型输出的数据,以其中一个文档数据集为参照对象,计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度,从而实现对用户阅读兴趣改变的检测,可以用于后续广告推送策略的配置。

Description

一种用户阅读兴趣主题漂移的检测方法
技术领域
本发明涉及网络用户阅读的文本信息处理技术领域,尤其是涉及一种用户阅读兴趣主题漂移的检测方法。
背景技术
网络已经成为我们工作生活中最重要的工具之一,对网络用户行为的建模,特别是对网络用户阅读、处理的文本数据进行建模分析,感知其变化,对于实现网络服务的精准推送(如互联网定向广告服务等)具有十分重要的意义。
文本数据处理的发展历史可以追溯到20世纪50年代末,Luhn H.P.首次提出词频统计的思想。截至目前已经取得了长足的发展,包括文本分类、文本聚类、关联分析、趋势预测等文本挖掘技术,并被广泛应用于情报分析、个性化新闻推送等各个领域。
目前,经典的方法由Anderson等人提出,其核心思想是对用户历史数据进行挖掘,构建了用户个人行为模型,通过评估用户当前行为与其正常行为模式的偏离程度来判断行为是否异常。这种方法需要对用户行为进行全面刻画,模型计算较为复杂。另外还需要正常行为的历史数据作为支撑,具有一定的局限性。
现有的文本挖掘方法侧重于对用户阅读兴趣的建模,特别是兴趣爱好的主题归类,缺乏对兴趣爱好漂移的检测,从而对于用户兴趣的改变不能实时捕捉,导致广告推送失效等问题。
发明内容
针对现有技术存在的缺陷,本发明提出了一种用户阅读兴趣主题漂移的检测方法,可以与现有的互联网服务进行融合,显著提升服务推送的准确率。
为实现上述技术目的,本发明采用的具体技术方案如下:
一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
Figure BDA0001948812260000021
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
Figure BDA0001948812260000022
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt
S3.5计算文本主题的漂移度m
Figure BDA0001948812260000031
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
Figure BDA0001948812260000032
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
本发明S1.1中,文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
本发明S2中,将文档数据集A对应得到的Nword个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
本发明S3.1中,对于文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词,其在第t个主题中所占的比例即
Figure BDA0001948812260000041
计算公式如下:
Figure BDA0001948812260000042
其中,
Figure BDA0001948812260000043
表示第t个主题下的第i个词,
Figure BDA0001948812260000044
表示
Figure BDA0001948812260000045
在第t个主题中对应的概率,
Figure BDA0001948812260000046
表示第t个主题下所有词的概率和,
Figure BDA0001948812260000047
均由文档主题生成模型直接输出。
本发明S3.2中,
Figure BDA0001948812260000048
表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性,计算公式如下:
Figure BDA0001948812260000051
其中,
Figure BDA0001948812260000052
表示文档数据集B对应得到的MWord个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词,
Figure BDA0001948812260000053
表示新词
Figure BDA0001948812260000054
与文档数据集A对应得到的NWord个词的词语相似度的集合,
Figure BDA0001948812260000055
为取
Figure BDA0001948812260000056
集合中的最大值,
Figure BDA0001948812260000057
表示新词
Figure BDA0001948812260000058
在文档数据集A中出现的频率。
其中
Figure BDA0001948812260000059
的计算方法如下:
词语相似度用J(a,b)表示,是指词语a和词语b这两个词语相同字符所占比例的大小,计算公式如下:
Figure BDA00019488122600000510
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有不重复字符的数量;
将新词
Figure BDA00019488122600000511
与文档数据集A对应得到的NWord个词分别用词语相似度计算公式计算词语相似度,得到的NWord个词语相似度组成的集合即
Figure BDA00019488122600000512
本发明S3.3中,weightt表示文档数据集B对应划分的NTopic个主题中的第个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
Figure BDA00019488122600000513
其中,
Figure BDA00019488122600000514
表示第t个主题下所有词的概率和。
Figure BDA00019488122600000515
表示对所有主题下的所有词的概率和再进行求和。
本发明S3.4中,newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,计算公式如下:
Figure BDA0001948812260000061
其中,
Figure BDA0001948812260000062
表示第t个主题中出现的新词个数,
Figure BDA0001948812260000063
表示第t个主题中所有新词的概率和,
Figure BDA0001948812260000064
表示第t个主题中所有词的概率和。
本发明其在文本主题建模的基础上,提出主题漂移度计算的公式,从而找到用户兴趣爱好的变化,可以用于后续广告推送策略的配置。
本发明通过对用户在网络应用中所操作的文本信息,如打印、拷贝文档的内容,阅读、发布的文本消息等,利用文档主题生成模型(LDA)生成文本主题。然后在此基础上提出了一种基于文本主题的漂移模型,通过对文本内容的漂移,得到文本主题的变化。并提出了漂移度及其计算公式来定量表示文本主题的变化程度,从而实现对用户阅读兴趣改变的检测。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,通过以下实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
参照图1,一种用户阅读兴趣主题漂移的检测方法,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B。
文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合,那么经过后续的方法得到的同一用户或者同一用户群体在前后两个不同时间段中阅读兴趣主题漂移度。
设文档数据集A中的文档数目为NA,文档数据集B中的原始文档数目为NB
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,各份文档会对应产生一系列的词。接着对各份文档分词后得到的一系列词进行停用词消除,将能体现文档内容的词抽取出来,最终文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词.
S1.3采用词袋(Bag-of-word)模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数。同样的,采用词袋(Bag-of-word)模型对文档数据集B对应得到的MWord个词分别进行向量表示。
Bag-of-word(BOW)模型是文档处理领域常用的文档表示方法。BOW模型假定对于一个文档,忽略词语间的顺序,仅仅看成若干词汇的集合。词袋(Bag-of-word)模型通过建立一个词表,将每一份原始文档表示成向量,向量中的元素表示词表中词语在文本中的出现次数。这样计算机通过处理向量就可以读出文本内容。
S2利用文档主题生成模型(LDA)生成文本主题集。
将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度。
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例。
用符号
Figure BDA0001948812260000081
表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词在第t个主题中所占的比例,
Figure BDA0001948812260000082
计算公式如下:
Figure BDA0001948812260000083
其中,
Figure BDA0001948812260000091
表示第t个主题下的第i个词,
Figure BDA0001948812260000092
表示
Figure BDA0001948812260000093
在第t个主题中对应的概率,
Figure BDA0001948812260000094
表示第t个主题下所有词的概率和。
Figure BDA0001948812260000095
均由文档主题生成模型直接输出。
S3.2计算文档数据集B对应得到的Mword个词中的各个词属于全新主题的可能性,用符号
Figure BDA0001948812260000096
表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性。给出如下的计算公式:
Figure BDA0001948812260000097
其中,
Figure BDA0001948812260000098
表示文档数据集B对应得到的Mword个词中的某一词被文档主题生成模型分到第t个主题下且是第t个topic下第k个第一次出现的新词,
Figure BDA0001948812260000099
表示新词
Figure BDA00019488122600000910
与文档数据集A对应得到的NWord个词的Jaccard相似度的集合(大小为NTopic·NWord),
Figure BDA00019488122600000911
为取
Figure BDA00019488122600000912
集合中的最大值,
Figure BDA00019488122600000913
表示新词
Figure BDA00019488122600000914
在文档数据集A中出现的频率。
给定两个词语a和b,J(a,b)即词语相似度(Jaccard),表示词语a和词语b这两个词语相同字符所占比例的大小,定义如下:
Figure BDA00019488122600000915
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有不重复字符的数量。以“信息”和“信息化“两个词语为例,a∩b=2,a∪b=3,
Figure BDA00019488122600000916
将新词
Figure BDA00019488122600000917
与文档数据集A对应得到的NWord个词分别用公式(3)计算词语相似度,得到的NWord个词语相似度组成的集合即
Figure BDA00019488122600000918
显然,文档数据集B对应得到的MWord个词中的某一词与文档数据集A对应得到的NWord个词的相似度越小,同时在文档数据集A中出现的频率越小的新词来自于全新主题的可能性
Figure BDA0001948812260000101
就会越大。
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例。用符号weightt表示文档数据集B对应划分的NTopic个主题中的第t个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
Figure BDA0001948812260000102
其中,
Figure BDA0001948812260000103
表示第t个主题下所有词的概率和。
Figure BDA0001948812260000104
表示对所有主题下的所有词的概率和再进行求和。
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性,用符号newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,也即文档数据集B对应划分的NTopic个主题中的第t个主题的新度系数。给出如下的计算公式:
Figure BDA0001948812260000105
其中,
Figure BDA0001948812260000106
表示第t个主题中出现的新词个数,
Figure BDA0001948812260000107
表示第t个主题中所有新词的概率和,
Figure BDA0001948812260000108
表示第t个主题中所有词的概率和。显然,对于文档数据集B对应划分的NTopic个主题中的某一个主题,如果该主题下新词所占的比重较大,则该主题的新度系数也越大。
S3.5计算文本主题的漂移度m
Figure BDA0001948812260000109
公式主要分为两个层次,第一层
Figure BDA0001948812260000111
是词层面的计算,对某个主题下的每个新词都计算新度系数
Figure BDA0001948812260000112
再依据不同词的权重
Figure BDA0001948812260000113
进行加权,计算出每个新词的
Figure BDA0001948812260000114
最后求和得到
Figure BDA0001948812260000115
第二层是主题层面的,经过第一层的计算,每个topic都得到了一个
Figure BDA0001948812260000116
最后需要对所有的topic进行累加,但是每个topic的权重和新度也是不同,所以也要进行加权,经过加权之后再累加就得到了漂移度m。
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变。
Figure BDA0001948812260000117
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值。γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰。

Claims (9)

1.一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理;
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
Figure FDA0002685520170000012
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
Figure FDA0002685520170000013
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt
S3.5计算文本主题的漂移度m:
Figure FDA0002685520170000011
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
Figure FDA0002685520170000021
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
2.根据权利要求1所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.1中,文档数据集A和文档数据集B是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
3.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.2中,分词还包括各份文档分词后得到的一系列词进行停用词消除。
4.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S2中,将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
5.根据权利要求4所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.1中,对于文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词,其在第t个主题中所占的比例即
Figure FDA0002685520170000031
Figure FDA0002685520170000032
计算公式如下:
Figure FDA0002685520170000033
其中,
Figure FDA0002685520170000034
表示第t个主题下的第i个词,
Figure FDA00026855201700000316
表示
Figure FDA0002685520170000035
在第t个主题中对应的概率,
Figure FDA0002685520170000036
表示第t个主题下所有词的概率和,
Figure FDA0002685520170000037
均由文档主题生成模型直接输出。
6.根据权利要求5所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.2中,
Figure FDA0002685520170000038
表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性,计算公式如下:
Figure FDA0002685520170000039
其中,
Figure FDA00026855201700000310
表示文档数据集B对应得到的MWord个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词,
Figure FDA00026855201700000311
表示新词
Figure FDA00026855201700000312
与文档数据集A对应得到的NWord个词的词语相似度的集合,
Figure FDA00026855201700000313
为取
Figure FDA00026855201700000314
集合中的最大值,
Figure FDA00026855201700000315
表示新词
Figure FDA00026855201700000317
在文档数据集A中出现的频率。
7.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法,其特征在于,
Figure FDA0002685520170000041
的计算方法如下:
词语相似度用J(a,b)表示,是指词语a和词语b这两个词语相同字符所占比例的大小,计算公式如下:
Figure FDA0002685520170000042
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有字符的数量;
将新词
Figure FDA0002685520170000048
与文档数据集A对应得到的NWord个词分别用词语相似度计算公式计算词语相似度,得到的NWord个词语相似度组成的集合即
Figure FDA0002685520170000043
8.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.3中,weightt表示文档数据集B对应划分的NTopic个主题中的第t个主题在所有主题中所占的比例,weightt∈[0,1],计算公式如下:
Figure FDA0002685520170000044
其中,
Figure FDA0002685520170000045
表示第t个主题下所有词的概率和,
Figure FDA0002685520170000046
表示对所有主题下的所有词的概率和再进行求和。
9.根据权利要求8所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.4中,newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,计算公式如下:
Figure FDA0002685520170000047
其中,
Figure FDA0002685520170000051
表示第t个主题中出现的新词个数,
Figure FDA0002685520170000052
表示第t个主题中所有新词的概率和,
Figure FDA0002685520170000053
表示第t个主题中所有词的概率和。
CN201910044903.2A 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法 Active CN109857857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910044903.2A CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910044903.2A CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Publications (2)

Publication Number Publication Date
CN109857857A CN109857857A (zh) 2019-06-07
CN109857857B true CN109857857B (zh) 2020-11-20

Family

ID=66895055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910044903.2A Active CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Country Status (1)

Country Link
CN (1) CN109857857B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552689A (zh) * 2009-05-15 2009-10-07 中国科学技术大学 基于网络结构的用户兴趣漂移检测方法及系统
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN108540329A (zh) * 2018-04-24 2018-09-14 中国人民解放军国防科技大学 基于两层贝叶斯网络模型的网络安全推断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552689A (zh) * 2009-05-15 2009-10-07 中国科学技术大学 基于网络结构的用户兴趣漂移检测方法及系统
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN108540329A (zh) * 2018-04-24 2018-09-14 中国人民解放军国防科技大学 基于两层贝叶斯网络模型的网络安全推断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Dynamic Model Adaptive to user interest Drift Based on Cluster and Nearest Neighbors";Baoshan Sun等;《IEEE Access》;20170224;第5卷;第9-16页 *
"基于主题的用户兴趣模型的构建及动态更新";唐晓波等;《情报理论与实践》;20160203;第39卷(第2期);第116-123页 *
"融合主题模型及多时间节点函数的用户兴趣预测研究";桂思思等;《现代图书情报技术》;20160925(第9期);第1682-1691页 *

Also Published As

Publication number Publication date
CN109857857A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
Styawati et al. Sentiment analysis on online transportation reviews using Word2Vec text embedding model feature extraction and support vector machine (SVM) algorithm
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
Riadi Detection of cyberbullying on social media using data mining techniques
Ahmad et al. Information extraction from text messages using data mining techniques
CN113407784A (zh) 一种基于社交网络的社团划分方法、系统及存储介质
CN116911929B (zh) 基于大数据的广告服务终端及方法
Zavrak et al. Email spam detection using hierarchical attention hybrid deep learning method
Ezpeleta et al. A mood analysis on youtube comments and a method for improved social spam detection
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis
Sinnott et al. Linking user accounts across social media platforms
CN109857857B (zh) 一种用户阅读兴趣主题漂移的检测方法
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Wang et al. A collaborative filtering algorithm fusing user-based, item-based and social networks
Mazzoleni et al. Unsupervised learning of fundamental emotional states via word embeddings
Febriany et al. Analysis model for identifying negative posts based on social media
CN113297482A (zh) 基于多模型的搜索引擎数据的用户画像刻画方法及系统
Bhargav et al. Implementation of Sentiment Analysis and Classification of Tweets Using Machine Learning.
CN112559905A (zh) 一种基于双模式注意力机制和社交相似度的会话推荐方法
CN111723301A (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
Sridhar et al. Content based news recommendation engine using hybrid bilstm-ann feature modelling
CN116485352B (zh) 会员管理和数据分析的方法、装置、设备及存储介质
CN114880572B (zh) 新闻客户端智能推荐系统
AU2021106572A4 (en) A recommendation system and method for e-commerce using machine learning
Ram et al. You are what you browse: A robust framework for uncovering political ideology.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant