CN109857857A - 一种用户阅读兴趣主题漂移的检测方法 - Google Patents

一种用户阅读兴趣主题漂移的检测方法 Download PDF

Info

Publication number
CN109857857A
CN109857857A CN201910044903.2A CN201910044903A CN109857857A CN 109857857 A CN109857857 A CN 109857857A CN 201910044903 A CN201910044903 A CN 201910044903A CN 109857857 A CN109857857 A CN 109857857A
Authority
CN
China
Prior art keywords
word
theme
data collection
document data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910044903.2A
Other languages
English (en)
Other versions
CN109857857B (zh
Inventor
周鋆
王培超
顾伟
李旻浩
张维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910044903.2A priority Critical patent/CN109857857B/zh
Publication of CN109857857A publication Critical patent/CN109857857A/zh
Application granted granted Critical
Publication of CN109857857B publication Critical patent/CN109857857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用户阅读兴趣主题漂移的检测方法,对于采集得到的用户在前后不同时间段的两个文档数据集,对各文档数据集中的文档进行分词、向量表示等处理后,利用文档主题生成模型分别实现对各文档数据集对应的用户关注主题的建模,基于文档主题生成模型输出的数据,以其中一个文档数据集为参照对象,计算另一文档数据集相对于参照对象的用户阅读兴趣主题漂移度,从而实现对用户阅读兴趣改变的检测,可以用于后续广告推送策略的配置。

Description

一种用户阅读兴趣主题漂移的检测方法
技术领域
本发明涉及网络用户阅读的文本信息处理技术领域,尤其是涉及一种用户阅读兴趣主题漂移的检测方法。
背景技术
网络已经成为我们工作生活中最重要的工具之一,对网络用户行为的建模,特别是对网络用户阅读、处理的文本数据进行建模分析,感知其变化,对于实现网络服务的精准推送(如互联网定向广告服务等)具有十分重要的意义。
文本数据处理的发展历史可以追溯到20世纪50年代末,Luhn H.P.首次提出词频统计的思想。截至目前已经取得了长足的发展,包括文本分类、文本聚类、关联分析、趋势预测等文本挖掘技术,并被广泛应用于情报分析、个性化新闻推送等各个领域。
目前,经典的方法由Anderson等人提出,其核心思想是对用户历史数据进行挖掘,构建了用户个人行为模型,通过评估用户当前行为与其正常行为模式的偏离程度来判断行为是否异常。这种方法需要对用户行为进行全面刻画,模型计算较为复杂。另外还需要正常行为的历史数据作为支撑,具有一定的局限性。
现有的文本挖掘方法侧重于对用户阅读兴趣的建模,特别是兴趣爱好的主题归类,缺乏对兴趣爱好漂移的检测,从而对于用户兴趣的改变不能实时捕捉,导致广告推送失效等问题。
发明内容
针对现有技术存在的缺陷,本发明提出了一种用户阅读兴趣主题漂移的检测方法,可以与现有的互联网服务进行融合,显著提升服务推送的准确率。
为实现上述技术目的,本发明采用的具体技术方案如下:
一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt
S3.5计算文本主题的漂移度m
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
本发明S1.1中,文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
本发明S2中,将文档数据集A对应得到的Nword个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
本发明S3.1中,对于文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词,其在第t个主题中所占的比例即计算公式如下:
其中,表示第t个主题下的第i个词,表示在第t个主题中对应的概率,表示第t个主题下所有词的概率和,均由文档主题生成模型直接输出。
本发明S3.2中,表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性,计算公式如下:
其中,表示文档数据集B对应得到的MWord个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词,表示新词与文档数据集A对应得到的NWord个词的词语相似度的集合,为取集合中的最大值,表示新词在文档数据集A中出现的频率。
其中的计算方法如下:
词语相似度用J(a,b)表示,是指词语a和词语b这两个词语相同字符所占比例的大小,计算公式如下:
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有不重复字符的数量;
将新词与文档数据集A对应得到的NWord个词分别用词语相似度计算公式计算词语相似度,得到的NWord个词语相似度组成的集合即
本发明S3.3中,weightt表示文档数据集B对应划分的NTopic个主题中的第个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
其中,表示第t个主题下所有词的概率和。表示对所有主题下的所有词的概率和再进行求和。
本发明S3.4中,newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,计算公式如下:
其中,表示第t个主题中出现的新词个数,表示第t个主题中所有新词的概率和,表示第t个主题中所有词的概率和。
本发明其在文本主题建模的基础上,提出主题漂移度计算的公式,从而找到用户兴趣爱好的变化,可以用于后续广告推送策略的配置。
本发明通过对用户在网络应用中所操作的文本信息,如打印、拷贝文档的内容,阅读、发布的文本消息等,利用文档主题生成模型(LDA)生成文本主题。然后在此基础上提出了一种基于文本主题的漂移模型,通过对文本内容的漂移,得到文本主题的变化。并提出了漂移度及其计算公式来定量表示文本主题的变化程度,从而实现对用户阅读兴趣改变的检测。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,通过以下实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
参照图1,一种用户阅读兴趣主题漂移的检测方法,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B。
文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合,那么经过后续的方法得到的同一用户或者同一用户群体在前后两个不同时间段中阅读兴趣主题漂移度。
设文档数据集A中的文档数目为NA,文档数据集B中的原始文档数目为NB
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,各份文档会对应产生一系列的词。接着对各份文档分词后得到的一系列词进行停用词消除,将能体现文档内容的词抽取出来,最终文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词.
S1.3采用词袋(Bag-of-word)模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数。同样的,采用词袋(Bag-of-word)模型对文档数据集B对应得到的MWord个词分别进行向量表示。
Bag-of-word(BOW)模型是文档处理领域常用的文档表示方法。BOW模型假定对于一个文档,忽略词语间的顺序,仅仅看成若干词汇的集合。词袋(Bag-of-word)模型通过建立一个词表,将每一份原始文档表示成向量,向量中的元素表示词表中词语在文本中的出现次数。这样计算机通过处理向量就可以读出文本内容。
S2利用文档主题生成模型(LDA)生成文本主题集。
将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型(LDA)计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模。设文档主题生成模型(LDA)将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度。
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例。
用符号表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词在第t个主题中所占的比例,计算公式如下:
其中,表示第t个主题下的第i个词,表示在第t个主题中对应的概率,表示第t个主题下所有词的概率和。均由文档主题生成模型直接输出。
S3.2计算文档数据集B对应得到的Mword个词中的各个词属于全新主题的可能性,用符号表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性。给出如下的计算公式:
其中,表示文档数据集B对应得到的Mword个词中的某一词被文档主题生成模型分到第t个主题下且是第t个topic下第k个第一次出现的新词,表示新词与文档数据集A对应得到的NWord个词的Jaccard相似度的集合(大小为NTopic·NWord),为取集合中的最大值,表示新词在文档数据集A中出现的频率。
给定两个词语a和b,J(a,b)即词语相似度(Jaccard),表示词语a和词语b这两个词语相同字符所占比例的大小,定义如下:
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有不重复字符的数量。以“信息”和“信息化“两个词语为例,a∩b=2,a∪b=3,
将新词与文档数据集A对应得到的NWord个词分别用公式(3)计算词语相似度,得到的NWord个词语相似度组成的集合即
显然,文档数据集B对应得到的MWord个词中的某一词与文档数据集A对应得到的NWord个词的相似度越小,同时在文档数据集A中出现的频率越小的新词来自于全新主题的可能性就会越大。
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例。用符号weightt表示文档数据集B对应划分的NTopic个主题中的第t个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
其中,表示第t个主题下所有词的概率和。表示对所有主题下的所有词的概率和再进行求和。
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性,用符号newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,也即文档数据集B对应划分的NTopic个主题中的第t个主题的新度系数。给出如下的计算公式:
其中,表示第t个主题中出现的新词个数,表示第t个主题中所有新词的概率和,表示第t个主题中所有词的概率和。显然,对于文档数据集B对应划分的NTopic个主题中的某一个主题,如果该主题下新词所占的比重较大,则该主题的新度系数也越大。
S3.5计算文本主题的漂移度m
公式主要分为两个层次,第一层是词层面的计算,对某个主题下的每个新词都计算新度系数再依据不同词的权重进行加权,计算出每个新词的最后求和得到第二层是主题层面的,经过第一层的计算,每个topic都得到了一个最后需要对所有的topic进行累加,但是每个topic的权重和新度也是不同,所以也要进行加权,经过加权之后再累加就得到了漂移度m。
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变。
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值。γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
综上所述,虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明,任何本领域普通技术人员,在不脱离本发明的精神和范围内,当可作各种更动与润饰。

Claims (9)

1.一种用户阅读兴趣主题漂移的检测方法,其特征在于,包括以下步骤:
S1文本数据采集与处理。
S1.1获取两份文档数据集,分别为文档数据集A和文档数据集B;
S1.2对文档数据集A和文档数据集B中的每一份文档分别进行分词,文档数据集A对应得到NWord个词,文档数据集B对应得到MWord个词;
S1.3采用词袋模型对文档数据集A对应得到的NWord个词进行向量表示,各向量中的元素表示不同的分词在不同文档中出现的次数;同样的,采用词袋模型对文档数据集B对应得到的MWord个词分别进行向量表示;
S2利用文档主题生成模型分别实现对文档数据集A和文档数据集B对应的用户关注主题的建模;
S3以文档数据集A为参照,计算文档数据集B的用户阅读兴趣主题漂移度;
S3.1计算文档数据集B对应得到的MWord个词中的各个词在其对应划分的主题中所占的比例
S3.2计算文档数据集B对应得到的MWord个词中的各个词属于全新主题的可能性
S3.3计算文档数据集B对应划分的NTopic个主题中的各个主题在所有主题中所占的比例weightt
S3.4计算文档数据集B对应划分的NTopic个主题中的各个主题是全新主题的可能性newt
S3.5计算文本主题的漂移度m
S4根据文本主题的漂移度m判断用户阅读兴趣主题是否发生改变;
其中,f(m)为判断结果,当m<γ时,f(m)为正常,代表兴趣未变;当m≥γ时,f(m)为异常,代表兴趣改变;γ代表了异常判断的可信度,是一个事先设置的阈值;γ越大表示得出的异常结果的可信度较高,反之则得出的正常结果可信度较高。
2.根据权利要求1所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.1中,文档数据集A和文档数据集B可以是同一用户或者同一用户群体分别在前后两个不同时间段通过某一互联网应用客户端阅读过的原始文档的集合。
3.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S1.2中,分词还包括各份文档分词后得到的一系列词进行停用词消除。
4.根据权利要求1或2所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S2中,将文档数据集A对应得到的NWord个词以及各词对应的向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集A的主题结构,包括文档数据集A的主题分布和文档数据集A的各主题的词分布,从而实现对文档数据集A对应的用户关注主题的建模;设文档主题生成模型(LDA)将文档数据集A对应得到的NWord个词分为NTopic个主题,文档数据集A对应得到的NWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率;
同样的,将文档数据集B对应得到的MWord个词以及对应向量输入到文档主题生成模型,利用文档主题生成模型计算输出文档数据集B的主题结构,包括文档数据集B的主题分布和文档数据集B的各主题的词分布,从而实现对文档数据集B对应的用户关注主题的建模;设文档主题生成模型将文档数据集B对应得到的MWord个词分为NTopic个主题,文档数据集B对应得到的MWord个词分别被文档主题生成模型划分到上述NTopic个主题中,且由文档主题生成模型得到各词在对应的主题中的概率。
5.根据权利要求4所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.1中,对于文档数据集B对应划分的NTopic个主题中的第t个主题下的第i个词,其在第t个主题中所占的比例即 计算公式如下:
其中,表示第t个主题下的第i个词,表示在第t个主题中对应的概率,表示第t个主题下所有词的概率和,均由文档主题生成模型直接输出。
6.根据权利要求5所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.2中,表示文档数据集B对应划分的NTopic个主题中的第t个主题下的第k个词属于全新主题的可能性,计算公式如下:
其中,表示文档数据集B对应得到的MWord个词中的某一词被文档主题生成模型分到第t个topic下且是第t个topic下第k个第一次出现的新词,表示新词与文档数据集A对应得到的NWord个词的词语相似度的集合,为取集合中的最大值,表示新词在文档数据集A中出现的频率。
7.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法,其特征在于,的计算方法如下:
词语相似度用J(a,b)表示,是指词语a和词语b这两个词语相同字符所占比例的大小,计算公式如下:
a∩b表示词语a和词语b中相同字符的数量,a∪b表示词语a和词语b中所有字符的数量;
将新词与文档数据集A对应得到的NWord个词分别用词语相似度计算公式计算词语相似度,得到的NWord个词语相似度组成的集合即
8.根据权利要求6所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.3中,weightt表示文档数据集B对应划分的NTopic个主题中的第t个主题在所有主题中所占的比例,weightt∈[0,1]。计算公式如下:
其中,表示第t个主题下所有词的概率和。表示对所有主题下的所有词的概率和再进行求和。
9.根据权利要求8所述的用户阅读兴趣主题漂移的检测方法,其特征在于,S3.4中,newt表示文档数据集B对应划分的NTopic个主题中的第t个主题是全新主题的可能性,计算公式如下:
其中,表示第t个主题中出现的新词个数,表示第t个主题中所有新词的概率和,表示第t个主题中所有词的概率和。
CN201910044903.2A 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法 Active CN109857857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910044903.2A CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910044903.2A CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Publications (2)

Publication Number Publication Date
CN109857857A true CN109857857A (zh) 2019-06-07
CN109857857B CN109857857B (zh) 2020-11-20

Family

ID=66895055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910044903.2A Active CN109857857B (zh) 2019-01-17 2019-01-17 一种用户阅读兴趣主题漂移的检测方法

Country Status (1)

Country Link
CN (1) CN109857857B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552689A (zh) * 2009-05-15 2009-10-07 中国科学技术大学 基于网络结构的用户兴趣漂移检测方法及系统
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN108540329A (zh) * 2018-04-24 2018-09-14 中国人民解放军国防科技大学 基于两层贝叶斯网络模型的网络安全推断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552689A (zh) * 2009-05-15 2009-10-07 中国科学技术大学 基于网络结构的用户兴趣漂移检测方法及系统
CN101751448A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 一种基于情景信息的个性化资源信息的推荐方法
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN108540329A (zh) * 2018-04-24 2018-09-14 中国人民解放军国防科技大学 基于两层贝叶斯网络模型的网络安全推断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAOSHAN SUN等: ""Dynamic Model Adaptive to user interest Drift Based on Cluster and Nearest Neighbors"", 《IEEE ACCESS》 *
唐晓波等: ""基于主题的用户兴趣模型的构建及动态更新"", 《情报理论与实践》 *
桂思思等: ""融合主题模型及多时间节点函数的用户兴趣预测研究"", 《现代图书情报技术》 *

Also Published As

Publication number Publication date
CN109857857B (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
Bourigault et al. Representation learning for information diffusion through social networks: an embedded cascade model
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN104915392B (zh) 一种微博转发行为预测方法及装置
CN106997549A (zh) 一种广告信息的推送方法及系统
CN106504011A (zh) 一种业务对象的展示方法和装置
CN108777701B (zh) 一种确定信息受众的方法及装置
CN111597348B (zh) 用户画像方法、装置、计算机设备和存储介质
CN105488092A (zh) 一种时间敏感和自适应的子话题在线检测方法及系统
WO2013191931A1 (en) Method and apparatus for inferring user demographics
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN103617146B (zh) 一种基于硬件资源消耗的机器学习方法及装置
CN111371767A (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN110880127A (zh) 消费水平的预测方法、装置、电子设备及存储介质
RM Prediction of customer plan using churn analysis for telecom industry
CN110543474A (zh) 一种基于全埋点与潜在因子模型的用户行为分析方法和装置
Woo et al. An event-driven SIR model for topic diffusion in web forums
Saravanan et al. A graph-based churn prediction model for mobile telecom networks
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN115730125A (zh) 对象识别方法、装置、计算机设备和存储介质
CN112560105A (zh) 保护多方数据隐私的联合建模方法及装置
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
US20170155613A1 (en) Detection of Manipulation of Social Media Content
CN109857857A (zh) 一种用户阅读兴趣主题漂移的检测方法
CN109446432A (zh) 一种信息推荐方法及装置
CN111984842B (zh) 银行客户数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant