CN106210044A - 一种基于访问行为的活跃用户识别方法 - Google Patents
一种基于访问行为的活跃用户识别方法 Download PDFInfo
- Publication number
- CN106210044A CN106210044A CN201610542319.6A CN201610542319A CN106210044A CN 106210044 A CN106210044 A CN 106210044A CN 201610542319 A CN201610542319 A CN 201610542319A CN 106210044 A CN106210044 A CN 106210044A
- Authority
- CN
- China
- Prior art keywords
- access
- user
- module
- modules
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于访问行为的活跃用户识别方法,步骤如下:1)解析用户访问日志,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户‑模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,采用K‑means算法,其中K=2,进行活跃用户划分。
Description
技术领域
本发明涉及用户身份识别领域,具体而言,通过分析用户的访问行为,对用户活跃身份进行识别划分。
技术背景
随着互联网技术的快速发展,互联网用户的使用人数也在逐日增加,这些用户每日访问互联网网站,都会产生大量的访问信息,合理的利用这些访问信息,不仅可以挖掘用户的使用偏好,还能鉴别用户的活跃身份,使公司从中能够获得巨大的商业价值。
然而,通过我们对访问量的分析发现,虽然访问总量很多,但冗余、垃圾、的访问信息依然不少,访问模块虽多,但核心模块却很有限,总的访问用户数量庞大,但活跃用户并不多。现有的技术,很难有一种系统的方法,能够依据大量的访问信息,筛选有价值的访问内容和有效的访问模块,合理的判断用户的活跃身份。
发明内容
本发明目的是,提出一种基于访问行为的活跃用户身份识别方法,该方法可以有效的依据用户对网站各个模块的访问量,根据访问量的信息,合理判别用户身份。
本发明技术方案是:一种基于访问行为的活跃用户识别方法,步骤如下:
1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;
2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失(比如只有上级一级模块没有下级二级模块和三级模块,或者只有上级一、二级模块,没有下级三级模块),应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;
3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户-模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;
4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K-means算法,其中K=2,进行活跃用户划分。
进一步,具体步骤如下:
S11:解析用户访问日志,根据留存的用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层;对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户的访问时间,访问地址URL字段;在日志处理中,限制爬虫,日志表里有限制爬虫字段,spider=1,限制非爬虫;过滤内部IP即关联内部IP表;访问链接URL解析,由于访问链接地址多种多样,采用正则表达式对地址进行有效的过滤,包括确立链接开头地址;对于无效用户同时排除;
S12:统计用户模块访问次数,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号即主键、一级模块名称、二级模块名称、三级模块名称、地址链接字段;由于访问模块有一级至三级从高级到低级的模块结构,各个模块存在层级关系,应确立地址链接URL属于的访问模块;有的模块还会存在层级不全情况,用高级模块去补全低级模块;三级模块如果为空的话,就用“设置主打模块”去补充三级模块,如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块;
根据维表,用之前从访问日志提取的信息去匹配维表,统计用户每日访问模块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层即三级模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和;
S13:过滤冗余用户和访问模块,第一是对用户过滤,对用户过滤的方法用相对简单,用基本统计方法即可完成,将频率值较低和总的点击次数也比较低的用户直接过滤掉。
或采用对冗余模块的过滤,即利用矩阵分析里面奇异值分解SVD技术,将矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是用户-模块矩阵,通过分解,得到U(m*m),∑(m*n),V(n*n)三个矩阵,其中矩阵∑是一个对角阵,主对角线上的元素就是奇异值,通常一定比例的奇异值之和就能占据到全部奇异值和的99%以上,这里取r(r<n)个奇异值,用数学来表示,A≈U(m*r)∑(m*r)V(r*n),这里用表达式右边的部分去代替原始矩阵A,由于r(分解后的访问模块数)的值小于n(原始的访问模块数),就实行了特征降维的操作;用户-模块当成矩阵A,原始的一级模块有登陆、产品管理、会员信息11个模块,经过SVD分解之后,只剩下包括登陆、前台页面查看5个模块,降低了访问模块的冗余度;
S14:划分用户身份,采用机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类算法采用简单的K-means算法;K-means算法以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中;随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
K-means算法简单高效,聚类效果较好,比较适合处理类似活跃用户划分问题。
有益效果:本发明提出的一种基于访问行为的活跃用户身份识别方法,可以有效的依据用户对网站各个模块的访问量,根据访问量的信息,合理判别用户身份。本发明是一种系统的方法,能够依据大量的访问信息,筛选有价值的访问内容和有效的访问模块,合理的判断用户的活跃身份。
附图说明
图1本实施例的一种基于访问行为的活跃用户识别方法流程图。
具体实施方案
下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述。
参阅图1所示,本发明的实施步骤如下:
S11:解析用户访问日志
一般互联网公司都会留有用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层。对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户访问时间,访问地址URL字段。在日志处理中,还应该注意以下几个问题,比如限制爬虫(日志表里有限制爬虫字段,spider=1,限制非爬虫);过滤内部IP(关联内部IP表);访问链接URL解析,由于访问链接地址多种多样(PC端,触屏端等),应该采用如正则表达式对地址进行有效的过滤之类的,比如确立链接开头地址(http开头、m开头);对于无效用户(如访问用户ID<=0)也应同时排除。
S12:统计用户模块访问次数
在这个方面,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号(主键),一级模块名称、二级模块名称、三级模块名称、地址链接字段,维表的设计应该满足一定的要求。由于各个模块存在层级关系(访问模块有三级结构),应确立好地址链接URL属于的访问模块。有的模块还会存在层级不全情况,如下表所示,此时应该用高级模块去补全低级模块,比如一级“产品管理”模块,二级“设置主打产品模块”,三级模块如果为空的话,就用“设置主打模块”去补充三级模块。如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块。
链接编号 | 一级模块 | 二级模块 | 三级模块 | 地址链接 |
1 | 商机中心 | 管理询价商机 | 报价 | …… |
2 | 产品管理 | 设置主打产品模块 | 设置主打产品模块 | …… |
3 | 登陆 | 登陆 | 登陆 | …… |
4 | …… | …… | …… | …… |
表1访问模块链接维表部分
有了维表,就可以用之前从访问日志提取的信息去匹配维表,统计用户每日访问模 块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层(三级)模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和。
S13:过滤冗余用户和访问模块
有了用户及其各个模块的访问次数,就可以利用这些信息进行数据分析,然而一个比较严重问题的就是,无论是访问用户,还是访问模块,都存在大量的冗余数据,如果把用户-模块看成一个矩阵的话,它将会是一个高维稀疏的矩阵,直接对高维稀疏矩阵进行数据分析,这会很大的影响后面机器学习算法的性能,所以需要一些方法对其进行过滤。
过滤分为两个方向,第一个是对用户过滤,对用户过滤的方法用相对简单,用到一些基本的统计学方法即可完成。这里以每个用户一级模块下所有模块的访问次数总和作为评价标准,可以画出一个频率分布直方密度图,把频率值较低和总的点击次数也比较低的用户直接过滤掉。
对冗余模块的过滤相对复杂一点,比较简单高效的方法是利用矩阵分析里面奇异值分解(SVD)技术,它是矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是我们这里的用户-模块矩阵,通过分解,它会得到U(m*m),∑(m*n),V(n*n)三个矩阵,其中矩阵∑是一个对角阵,主对角线上的元素就是奇异值,通常一定比例的奇异值之和就能占据到全部奇异值和的99%以上,这里取r(r<n)个奇异值,用数学来表示,A≈U(m*r)∑(m*r)V(r*n),这里我们可以用表达式右边的部分去代替原始矩阵A,由于r的值小于n,就实行了特征降维的操作。比如在这里,我们以用户-模块当成矩阵A,原始的一级模块有登陆、产品管理、会员信息等11个模块,经过SVD分解之后,只剩下登陆、前台页面查看等5个模块,大大降低了访问模块的冗余度。
S14:划分用户身份
经过前几步的操作,就进入用户划分的阶段,机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类。由于事先本没有现成的活跃用户和非活跃用户训练集,故应采用聚类的算法进行划分。聚类的算法也有很多,有基于层次的,基于密度的,由于只需将用户划分成活跃用户和非活跃用户,可以采用 简单的K-means算法。
K-means算法是一种简单高效的基于层次划分的聚类算法,它以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中。它的大致流程是随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
在这里,我们只需划分活跃用户和非活跃用户,所以K的值为2,我们把所有用户在某个模块下的访问次数作为特征,采用余弦相似度作为距离,经过数轮跌代之后,类簇稳定,不在变化。考虑到活跃用户的数量远小于非活跃用户,故我们取类簇中心坐标值大的类簇作为活跃用户,类簇中心坐标值小的类簇作为非活跃用户,这样就完成了对用户身份的划分。
Claims (2)
1.一种基于访问行为的活跃用户识别方法,其特征是步骤如下:
1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;
2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失,应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;
3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户-模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;
4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K-means算法,其中K=2,进行活跃用户划分。
2.根据权利要求1所述的基于访问行为的活跃用户识别方法,其特征是具体步骤如下:
S11:解析用户访问日志,
根据留存的用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层;对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户的访问时间,访问地址URL字段;在日志处理中,限制爬虫,日志表里有限制爬虫字段,spider=1,限制非爬虫;过滤内部IP即关联内部IP表;访问链接URL解析,由于访问链接地址多种多样,采用正则表达式对地址进行有效的过滤,包括确立链接开头地址;对于无效用户同时排除;
S12:统计用户模块访问次数,首先应该在数据仓库中建立好访问模块对应的维表,维表包含链接编号即主键、一级模块名称、二级模块名称、三级模块名称、地址链接字段;由于访问模块有一级至三级从高级到低级的模块结构,各个模块存在层级关系,应确立地址链接URL属于的访问模块;有的模块还会存在层级不全情况,用高级模块去补全低级模块;三级模块如果为空的话,就用“设置主打模块”去补充三级模块,如果只有一个一级“登陆”模块,就用“登陆”模块去补第二级和第三级模块;
根据维表,用之前从访问日志提取的信息去匹配维表,统计用户每日访问模块次数,处理方法应根据访问日期,访问用户ID去分组,先统计底层即三级模块的访问次数,再在这基础上,统计二级、一级模块的次数,在这同时,还需统计每个用户每一级模块下所有模块的访问次数总和;
S13:过滤冗余用户和访问模块,第一是对用户过滤,对用户过滤的方法用相对简单,用基本统计方法即可完成,将频率值较低和总的点击次数也比较低的用户直接过滤掉。
或采用对冗余模块的过滤,即利用矩阵分析里面奇异值分解SVD技术,将矩阵分解一种类型,数学表达形式为A=U∑V,其中A是一个m*n的矩阵,就是用户-模块矩阵,分解后形成m*r的矩阵;由于模块数即分解后的访问模块数r小于原始的访问模块数n,就实现了特征降维的操作;用户-模块矩阵A,原始的一级模块有登陆、产品管理、会员信息11个模块,经过SVD分解之后,只剩下包括登陆、前台页面查看5个模块,降低了访问模块的冗余度;
S14:划分用户身份,采用机器学习算法对用户划分大致分为两类,一类是有监督的学习:分类,另一类是无监督的学习:聚类算法采用简单的K-means算法;K-means算法以距离作为相似度,认为距离越近的两个对象,之间的相似度就越高,就应该被划分到同一类簇中;随机选取K个对象作为类簇中心,然后把剩余对象划分到与类簇中心距离最近的类簇中,然后重新计算类簇中心,重新划分对象,直到类簇不再变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610542319.6A CN106210044B (zh) | 2016-07-11 | 2016-07-11 | 一种基于访问行为的活跃用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610542319.6A CN106210044B (zh) | 2016-07-11 | 2016-07-11 | 一种基于访问行为的活跃用户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106210044A true CN106210044A (zh) | 2016-12-07 |
CN106210044B CN106210044B (zh) | 2019-06-11 |
Family
ID=57476921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610542319.6A Active CN106210044B (zh) | 2016-07-11 | 2016-07-11 | 一种基于访问行为的活跃用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106210044B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193744A (zh) * | 2017-05-25 | 2017-09-22 | 中央民族大学 | 一种基于日志的Web应用性能测试流量描述方法 |
CN107609139A (zh) * | 2017-09-20 | 2018-01-19 | 北京金堤科技有限公司 | 一种数据处理方法及装置 |
CN108667797A (zh) * | 2017-03-28 | 2018-10-16 | 罗德施瓦兹两合股份有限公司 | 用于发送音频和/或视频数据的系统和用于授权安全访问的方法 |
CN108920607A (zh) * | 2018-06-27 | 2018-11-30 | 中国建设银行股份有限公司 | 字段发现方法、装置及电子设备 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN110493085A (zh) * | 2019-09-03 | 2019-11-22 | 赛尔网络有限公司 | IPv6活跃用户数的统计方法、系统、电子设备及介质 |
CN110750786A (zh) * | 2019-10-30 | 2020-02-04 | 上海观安信息技术股份有限公司 | 一种账号异常访问敏感数据行为的检测方法及系统 |
CN111159578A (zh) * | 2019-12-31 | 2020-05-15 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和系统 |
CN111506829A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111611508A (zh) * | 2020-05-28 | 2020-09-01 | 江苏易安联网络技术有限公司 | 一种用户实际访问网址的识别方法及装置 |
CN112152873A (zh) * | 2020-09-02 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 用户识别方法、装置、计算机设备和存储介质 |
CN113051313A (zh) * | 2021-03-25 | 2021-06-29 | 北京百度网讯科技有限公司 | 信息聚合方法、装置、电子设备、存储介质和程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266610A (zh) * | 2008-04-25 | 2008-09-17 | 浙江大学 | 一种Web活跃用户网站访问模式的在线挖掘方法 |
CN101477552A (zh) * | 2009-02-03 | 2009-07-08 | 辽宁般若网络科技有限公司 | 网站用户等级划分方法 |
US20090293121A1 (en) * | 2008-05-21 | 2009-11-26 | Bigus Joseph P | Deviation detection of usage patterns of computer resources |
CN102158365A (zh) * | 2011-05-20 | 2011-08-17 | 北京邮电大学 | 一种网络日志挖掘中的用户聚类方法及系统 |
CN103440328A (zh) * | 2013-09-03 | 2013-12-11 | 暨南大学 | 一种基于鼠标行为的用户分类方法 |
-
2016
- 2016-07-11 CN CN201610542319.6A patent/CN106210044B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266610A (zh) * | 2008-04-25 | 2008-09-17 | 浙江大学 | 一种Web活跃用户网站访问模式的在线挖掘方法 |
US20090293121A1 (en) * | 2008-05-21 | 2009-11-26 | Bigus Joseph P | Deviation detection of usage patterns of computer resources |
CN101477552A (zh) * | 2009-02-03 | 2009-07-08 | 辽宁般若网络科技有限公司 | 网站用户等级划分方法 |
CN102158365A (zh) * | 2011-05-20 | 2011-08-17 | 北京邮电大学 | 一种网络日志挖掘中的用户聚类方法及系统 |
CN103440328A (zh) * | 2013-09-03 | 2013-12-11 | 暨南大学 | 一种基于鼠标行为的用户分类方法 |
Non-Patent Citations (1)
Title |
---|
高尚等: "《基于身份识别对中国微博活跃用户的分群研究》", 《现代传播》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108667797A (zh) * | 2017-03-28 | 2018-10-16 | 罗德施瓦兹两合股份有限公司 | 用于发送音频和/或视频数据的系统和用于授权安全访问的方法 |
CN107193744A (zh) * | 2017-05-25 | 2017-09-22 | 中央民族大学 | 一种基于日志的Web应用性能测试流量描述方法 |
CN107609139A (zh) * | 2017-09-20 | 2018-01-19 | 北京金堤科技有限公司 | 一种数据处理方法及装置 |
CN109145934A (zh) * | 2017-12-22 | 2019-01-04 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
WO2019120241A1 (zh) * | 2017-12-22 | 2019-06-27 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN108920607A (zh) * | 2018-06-27 | 2018-11-30 | 中国建设银行股份有限公司 | 字段发现方法、装置及电子设备 |
CN110493085A (zh) * | 2019-09-03 | 2019-11-22 | 赛尔网络有限公司 | IPv6活跃用户数的统计方法、系统、电子设备及介质 |
CN110750786A (zh) * | 2019-10-30 | 2020-02-04 | 上海观安信息技术股份有限公司 | 一种账号异常访问敏感数据行为的检测方法及系统 |
CN111159578A (zh) * | 2019-12-31 | 2020-05-15 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和系统 |
CN111159578B (zh) * | 2019-12-31 | 2023-10-13 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和系统 |
CN111506829A (zh) * | 2020-03-20 | 2020-08-07 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111506829B (zh) * | 2020-03-20 | 2023-08-25 | 微梦创科网络科技(中国)有限公司 | 一种异常关注行为批量实时识别方法及装置 |
CN111611508A (zh) * | 2020-05-28 | 2020-09-01 | 江苏易安联网络技术有限公司 | 一种用户实际访问网址的识别方法及装置 |
CN112152873A (zh) * | 2020-09-02 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 用户识别方法、装置、计算机设备和存储介质 |
CN113051313A (zh) * | 2021-03-25 | 2021-06-29 | 北京百度网讯科技有限公司 | 信息聚合方法、装置、电子设备、存储介质和程序产品 |
CN113051313B (zh) * | 2021-03-25 | 2023-07-25 | 北京百度网讯科技有限公司 | 信息聚合方法、装置、电子设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN106210044B (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106210044A (zh) | 一种基于访问行为的活跃用户识别方法 | |
Keller et al. | How to manipulate social media: Analyzing political astroturfing using ground truth data from South Korea | |
O’Callaghan et al. | An analysis of interactions within and between extreme right communities in social media | |
Guimaraes et al. | A tractable approach to the firm location decision problem | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102841946B (zh) | 商品数据检索排序及商品推荐方法和系统 | |
Guha et al. | ROCK: A robust clustering algorithm for categorical attributes | |
CN103226578B (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
Salloum et al. | Mining text in news channels: a case study from Facebook | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN104200369B (zh) | 一种确定商品配送范围的方法和装置 | |
CN105068989B (zh) | 地名地址提取方法及装置 | |
CN109145934A (zh) | 基于日志的用户行为数据处理方法、介质、设备及装置 | |
CN105786991A (zh) | 结合用户情感表达方式的中文情感新词识别方法和系统 | |
CN103838798B (zh) | 页面分类系统及页面分类方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN107122340A (zh) | 一种基于同义词分析的科技项目申报书的相似度检测方法 | |
CN103235803B (zh) | 一种从文本中获取物品属性值的方法和装置 | |
CN103577558A (zh) | 一种优化问答对的搜索排名的装置和方法 | |
CN104951430B (zh) | 产品特征标签的提取方法及装置 | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN106104524A (zh) | 复杂谓语模板收集装置以及用于其的计算机程序 | |
CN107832631A (zh) | 一种数据发布的隐私保护方法和系统 | |
CN103714120B (zh) | 一种从用户url访问记录中提取用户兴趣话题的系统 | |
Zheng et al. | Learning‐based topic detection using multiple features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |