CN106210044A - 一种基于访问行为的活跃用户识别方法 - Google Patents

一种基于访问行为的活跃用户识别方法 Download PDF

Info

Publication number
CN106210044A
CN106210044A CN201610542319.6A CN201610542319A CN106210044A CN 106210044 A CN106210044 A CN 106210044A CN 201610542319 A CN201610542319 A CN 201610542319A CN 106210044 A CN106210044 A CN 106210044A
Authority
CN
China
Prior art keywords
access
user
module
modules
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610542319.6A
Other languages
English (en)
Other versions
CN106210044B (zh
Inventor
许哲熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201610542319.6A priority Critical patent/CN106210044B/zh
Publication of CN106210044A publication Critical patent/CN106210044A/zh
Application granted granted Critical
Publication of CN106210044B publication Critical patent/CN106210044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于访问行为的活跃用户识别方法,步骤如下:1)解析用户访问日志,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户‑模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,采用K‑means算法,其中K=2,进行活跃用户划分。

Description

一种基于访问行为的活跃用户识别方法
技术领域
本发明涉及用户身份识别领域,具体而言,通过分析用户的访问行为,对用户活跃身份进行识别划分。
技术背景
随着互联网技术的快速发展,互联网用户的使用人数也在逐日增加,这些用户每日访问互联网网站,都会产生大量的访问信息,合理的利用这些访问信息,不仅可以挖掘用户的使用偏好,还能鉴别用户的活跃身份,使公司从中能够获得巨大的商业价值。
然而,通过我们对访问量的分析发现,虽然访问总量很多,但冗余、垃圾、的访问信息依然不少,访问模块虽多,但核心模块却很有限,总的访问用户数量庞大,但活跃用户并不多。现有的技术,很难有一种系统的方法,能够依据大量的访问信息,筛选有价值的访问内容和有效的访问模块,合理的判断用户的活跃身份。
发明内容
本发明目的是,提出一种基于访问行为的活跃用户身份识别方法,该方法可以有效的依据用户对网站各个模块的访问量,根据访问量的信息,合理判别用户身份。
本发明技术方案是:一种基于访问行为的活跃用户识别方法,步骤如下:
1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;
2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失(比如只有上级一级模块没有下级二级模块和三级模块,或者只有上级一、二级模块,没有下级三级模块),应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;
3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户-模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;
4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K-means算法,其中K=2,进行活跃用户划分。
进一步,具体步骤如下:
S11:解析用户访问日志,根据留存的用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层;对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户的访问时间,访问地址URL字段;在日志处理中,限制爬虫,日志表里有限制爬虫字段,spider=1,限制非爬虫;过滤内部IP即关联内部IP表;访问链接URL解析,由于访问链接地址多种多样,采用正则表达式对地址进行有效的过滤,包括确立链接开头地址;对于无效用户同时排除;
S12:统计用户模块访问次数,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号即主键、一级模块名称、二级模块名称、三级模块名称、地址链接字段;由于访问模块有一级至三级从高级到低级的模块结构,各个模块存在层级关系,应确立地址链接URL属于的访问模块;有的模块还会存在层级不全情况,用高级模块去补全低级模块;三级模块如果为空的话,就用“设置主打模块”去补充三级模块,如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块;
根据维表,用之前从访问日志提取的信息去匹配维表,统计用户每日访问模块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层即三级模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和;
S13:过滤冗余用户和访问模块,第一是对用户过滤,对用户过滤的方法用相对简单,用基本统计方法即可完成,将频率值较低和总的点击次数也比较低的用户直接过滤掉。
或采用对冗余模块的过滤,即利用矩阵分析里面奇异值分解SVD技术,将矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是用户-模块矩阵,通过分解,得到U(m*m),∑(m*n),V(n*n)三个矩阵,其中矩阵∑是一个对角阵,主对角线上的元素就是奇异值,通常一定比例的奇异值之和就能占据到全部奇异值和的99%以上,这里取r(r<n)个奇异值,用数学来表示,A≈U(m*r)∑(m*r)V(r*n),这里用表达式右边的部分去代替原始矩阵A,由于r(分解后的访问模块数)的值小于n(原始的访问模块数),就实行了特征降维的操作;用户-模块当成矩阵A,原始的一级模块有登陆、产品管理、会员信息11个模块,经过SVD分解之后,只剩下包括登陆、前台页面查看5个模块,降低了访问模块的冗余度;
S14:划分用户身份,采用机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类算法采用简单的K-means算法;K-means算法以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中;随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
K-means算法简单高效,聚类效果较好,比较适合处理类似活跃用户划分问题。
有益效果:本发明提出的一种基于访问行为的活跃用户身份识别方法,可以有效的依据用户对网站各个模块的访问量,根据访问量的信息,合理判别用户身份。本发明是一种系统的方法,能够依据大量的访问信息,筛选有价值的访问内容和有效的访问模块,合理的判断用户的活跃身份。
附图说明
图1本实施例的一种基于访问行为的活跃用户识别方法流程图。
具体实施方案
下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述。
参阅图1所示,本发明的实施步骤如下:
S11:解析用户访问日志
一般互联网公司都会留有用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层。对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户访问时间,访问地址URL字段。在日志处理中,还应该注意以下几个问题,比如限制爬虫(日志表里有限制爬虫字段,spider=1,限制非爬虫);过滤内部IP(关联内部IP表);访问链接URL解析,由于访问链接地址多种多样(PC端,触屏端等),应该采用如正则表达式对地址进行有效的过滤之类的,比如确立链接开头地址(http开头、m开头);对于无效用户(如访问用户ID<=0)也应同时排除。
S12:统计用户模块访问次数
在这个方面,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号(主键),一级模块名称、二级模块名称、三级模块名称、地址链接字段,维表的设计应该满足一定的要求。由于各个模块存在层级关系(访问模块有三级结构),应确立好地址链接URL属于的访问模块。有的模块还会存在层级不全情况,如下表所示,此时应该用高级模块去补全低级模块,比如一级“产品管理”模块,二级“设置主打产品模块”,三级模块如果为空的话,就用“设置主打模块”去补充三级模块。如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块。
链接编号 一级模块 二级模块 三级模块 地址链接
1 商机中心 管理询价商机 报价 ……
2 产品管理 设置主打产品模块 设置主打产品模块 ……
3 登陆 登陆 登陆 ……
4 …… …… …… ……
表1访问模块链接维表部分
有了维表,就可以用之前从访问日志提取的信息去匹配维表,统计用户每日访问模 块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层(三级)模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和。
S13:过滤冗余用户和访问模块
有了用户及其各个模块的访问次数,就可以利用这些信息进行数据分析,然而一个比较严重问题的就是,无论是访问用户,还是访问模块,都存在大量的冗余数据,如果把用户-模块看成一个矩阵的话,它将会是一个高维稀疏的矩阵,直接对高维稀疏矩阵进行数据分析,这会很大的影响后面机器学习算法的性能,所以需要一些方法对其进行过滤。
过滤分为两个方向,第一个是对用户过滤,对用户过滤的方法用相对简单,用到一些基本的统计学方法即可完成。这里以每个用户一级模块下所有模块的访问次数总和作为评价标准,可以画出一个频率分布直方密度图,把频率值较低和总的点击次数也比较低的用户直接过滤掉。
对冗余模块的过滤相对复杂一点,比较简单高效的方法是利用矩阵分析里面奇异值分解(SVD)技术,它是矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是我们这里的用户-模块矩阵,通过分解,它会得到U(m*m),∑(m*n),V(n*n)三个矩阵,其中矩阵∑是一个对角阵,主对角线上的元素就是奇异值,通常一定比例的奇异值之和就能占据到全部奇异值和的99%以上,这里取r(r<n)个奇异值,用数学来表示,A≈U(m*r)∑(m*r)V(r*n),这里我们可以用表达式右边的部分去代替原始矩阵A,由于r的值小于n,就实行了特征降维的操作。比如在这里,我们以用户-模块当成矩阵A,原始的一级模块有登陆、产品管理、会员信息等11个模块,经过SVD分解之后,只剩下登陆、前台页面查看等5个模块,大大降低了访问模块的冗余度。
S14:划分用户身份
经过前几步的操作,就进入用户划分的阶段,机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类。由于事先本没有现成的活跃用户和非活跃用户训练集,故应采用聚类的算法进行划分。聚类的算法也有很多,有基于层次的,基于密度的,由于只需将用户划分成活跃用户和非活跃用户,可以采用 简单的K-means算法。
K-means算法是一种简单高效的基于层次划分的聚类算法,它以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中。它的大致流程是随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
在这里,我们只需划分活跃用户和非活跃用户,所以K的值为2,我们把所有用户在某个模块下的访问次数作为特征,采用余弦相似度作为距离,经过数轮跌代之后,类簇稳定,不在变化。考虑到活跃用户的数量远小于非活跃用户,故我们取类簇中心坐标值大的类簇作为活跃用户,类簇中心坐标值小的类簇作为非活跃用户,这样就完成了对用户身份的划分。

Claims (2)

1.一种基于访问行为的活跃用户识别方法,其特征是步骤如下:
1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;
2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失,应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;
3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户-模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;
4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K-means算法,其中K=2,进行活跃用户划分。
2.根据权利要求1所述的基于访问行为的活跃用户识别方法,其特征是具体步骤如下:
S11:解析用户访问日志,
根据留存的用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层;对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户的访问时间,访问地址URL字段;在日志处理中,限制爬虫,日志表里有限制爬虫字段,spider=1,限制非爬虫;过滤内部IP即关联内部IP表;访问链接URL解析,由于访问链接地址多种多样,采用正则表达式对地址进行有效的过滤,包括确立链接开头地址;对于无效用户同时排除;
S12:统计用户模块访问次数,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号即主键、一级模块名称、二级模块名称、三级模块名称、地址链接字段;由于访问模块有一级至三级从高级到低级的模块结构,各个模块存在层级关系,应确立地址链接URL属于的访问模块;有的模块还会存在层级不全情况,用高级模块去补全低级模块;三级模块如果为空的话,就用“设置主打模块”去补充三级模块,如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块;
根据维表,用之前从访问日志提取的信息去匹配维表,统计用户每日访问模块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层即三级模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和;
S13:过滤冗余用户和访问模块,第一是对用户过滤,对用户过滤的方法用相对简单,用基本统计方法即可完成,将频率值较低和总的点击次数也比较低的用户直接过滤掉。
或采用对冗余模块的过滤,即利用矩阵分析里面奇异值分解SVD技术,将矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是用户-模块矩阵,分解后形成m*r的矩阵;由于模块数即分解后的访问模块数r小于原始的访问模块数n,就实现了特征降维的操作;用户-模块矩阵A,原始的一级模块有登陆、产品管理、会员信息11个模块,经过SVD分解之后,只剩下包括登陆、前台页面查看5个模块,降低了访问模块的冗余度;
S14:划分用户身份,采用机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类算法采用简单的K-means算法;K-means算法以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中;随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
CN201610542319.6A 2016-07-11 2016-07-11 一种基于访问行为的活跃用户识别方法 Active CN106210044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610542319.6A CN106210044B (zh) 2016-07-11 2016-07-11 一种基于访问行为的活跃用户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610542319.6A CN106210044B (zh) 2016-07-11 2016-07-11 一种基于访问行为的活跃用户识别方法

Publications (2)

Publication Number Publication Date
CN106210044A true CN106210044A (zh) 2016-12-07
CN106210044B CN106210044B (zh) 2019-06-11

Family

ID=57476921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610542319.6A Active CN106210044B (zh) 2016-07-11 2016-07-11 一种基于访问行为的活跃用户识别方法

Country Status (1)

Country Link
CN (1) CN106210044B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193744A (zh) * 2017-05-25 2017-09-22 中央民族大学 一种基于日志的Web应用性能测试流量描述方法
CN107609139A (zh) * 2017-09-20 2018-01-19 北京金堤科技有限公司 一种数据处理方法及装置
CN108667797A (zh) * 2017-03-28 2018-10-16 罗德施瓦兹两合股份有限公司 用于发送音频和/或视频数据的系统和用于授权安全访问的方法
CN108920607A (zh) * 2018-06-27 2018-11-30 中国建设银行股份有限公司 字段发现方法、装置及电子设备
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN110493085A (zh) * 2019-09-03 2019-11-22 赛尔网络有限公司 IPv6活跃用户数的统计方法、系统、电子设备及介质
CN110750786A (zh) * 2019-10-30 2020-02-04 上海观安信息技术股份有限公司 一种账号异常访问敏感数据行为的检测方法及系统
CN111159578A (zh) * 2019-12-31 2020-05-15 第四范式(北京)技术有限公司 一种推荐对象的方法和系统
CN111506829A (zh) * 2020-03-20 2020-08-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111611508A (zh) * 2020-05-28 2020-09-01 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN112152873A (zh) * 2020-09-02 2020-12-29 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质
CN113051313A (zh) * 2021-03-25 2021-06-29 北京百度网讯科技有限公司 信息聚合方法、装置、电子设备、存储介质和程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
US20090293121A1 (en) * 2008-05-21 2009-11-26 Bigus Joseph P Deviation detection of usage patterns of computer resources
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN103440328A (zh) * 2013-09-03 2013-12-11 暨南大学 一种基于鼠标行为的用户分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
US20090293121A1 (en) * 2008-05-21 2009-11-26 Bigus Joseph P Deviation detection of usage patterns of computer resources
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN102158365A (zh) * 2011-05-20 2011-08-17 北京邮电大学 一种网络日志挖掘中的用户聚类方法及系统
CN103440328A (zh) * 2013-09-03 2013-12-11 暨南大学 一种基于鼠标行为的用户分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高尚等: "《基于身份识别对中国微博活跃用户的分群研究》", 《现代传播》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667797A (zh) * 2017-03-28 2018-10-16 罗德施瓦兹两合股份有限公司 用于发送音频和/或视频数据的系统和用于授权安全访问的方法
CN107193744A (zh) * 2017-05-25 2017-09-22 中央民族大学 一种基于日志的Web应用性能测试流量描述方法
CN107609139A (zh) * 2017-09-20 2018-01-19 北京金堤科技有限公司 一种数据处理方法及装置
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
WO2019120241A1 (zh) * 2017-12-22 2019-06-27 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN108920607A (zh) * 2018-06-27 2018-11-30 中国建设银行股份有限公司 字段发现方法、装置及电子设备
CN110493085A (zh) * 2019-09-03 2019-11-22 赛尔网络有限公司 IPv6活跃用户数的统计方法、系统、电子设备及介质
CN110750786A (zh) * 2019-10-30 2020-02-04 上海观安信息技术股份有限公司 一种账号异常访问敏感数据行为的检测方法及系统
CN111159578A (zh) * 2019-12-31 2020-05-15 第四范式(北京)技术有限公司 一种推荐对象的方法和系统
CN111159578B (zh) * 2019-12-31 2023-10-13 第四范式(北京)技术有限公司 一种推荐对象的方法和系统
CN111506829A (zh) * 2020-03-20 2020-08-07 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111506829B (zh) * 2020-03-20 2023-08-25 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111611508A (zh) * 2020-05-28 2020-09-01 江苏易安联网络技术有限公司 一种用户实际访问网址的识别方法及装置
CN112152873A (zh) * 2020-09-02 2020-12-29 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质
CN113051313A (zh) * 2021-03-25 2021-06-29 北京百度网讯科技有限公司 信息聚合方法、装置、电子设备、存储介质和程序产品
CN113051313B (zh) * 2021-03-25 2023-07-25 北京百度网讯科技有限公司 信息聚合方法、装置、电子设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN106210044B (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN106210044A (zh) 一种基于访问行为的活跃用户识别方法
Keller et al. How to manipulate social media: Analyzing political astroturfing using ground truth data from South Korea
O’Callaghan et al. An analysis of interactions within and between extreme right communities in social media
Guimaraes et al. A tractable approach to the firm location decision problem
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
Guha et al. ROCK: A robust clustering algorithm for categorical attributes
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
Salloum et al. Mining text in news channels: a case study from Facebook
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN104200369B (zh) 一种确定商品配送范围的方法和装置
CN105068989B (zh) 地名地址提取方法及装置
CN109145934A (zh) 基于日志的用户行为数据处理方法、介质、设备及装置
CN105786991A (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN103838798B (zh) 页面分类系统及页面分类方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN107122340A (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN103235803B (zh) 一种从文本中获取物品属性值的方法和装置
CN103577558A (zh) 一种优化问答对的搜索排名的装置和方法
CN104951430B (zh) 产品特征标签的提取方法及装置
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN106104524A (zh) 复杂谓语模板收集装置以及用于其的计算机程序
CN107832631A (zh) 一种数据发布的隐私保护方法和系统
CN103714120B (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
Zheng et al. Learning‐based topic detection using multiple features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant