CN107729438A - 一种用户行为数据建立及分析方法 - Google Patents
一种用户行为数据建立及分析方法 Download PDFInfo
- Publication number
- CN107729438A CN107729438A CN201710911421.3A CN201710911421A CN107729438A CN 107729438 A CN107729438 A CN 107729438A CN 201710911421 A CN201710911421 A CN 201710911421A CN 107729438 A CN107729438 A CN 107729438A
- Authority
- CN
- China
- Prior art keywords
- information
- content
- user
- forum
- posting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及大数据统计技术领域,尤其公开了一种用户行为数据建立及分析方法,包括如下内容:根据论坛用户的每天的访问信息、访问时间,确定论坛用户的活跃程度;根据论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;基于活跃程度大于预设值的论坛用户的信息,提取论坛用户的发帖内容信息,获取发帖内容信息的多个标签;合并相同类型的标签,获得发帖内容的分类信息;根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,N为大于0的自然数;将标签标注为所述论坛用户的兴趣,便于论坛的管理。
Description
技术领域
本发明涉及大数据统计技术领域,尤其涉及一种用户行为数据建立及分析方法。
背景技术
论坛,也称为BBS,是互联网上常见的用于信息服务的WEB系统,主要是为用户提供不限地域的相互沟通的平台,现在的互联网已成为一种生活方式,能够提供知识库,进行上传图片、转帖、下载音乐等等,人们可以在这里畅所欲言,发表自己的看法、关注他人的动态,结交朋友等等,使得生活丰富多彩。
现有的论坛软件比较多,有针对贸易的、有针对名人的、有针对小说的、有针对会议、针对学术的等等,而且,论坛活动具有强大的聚众能力,利用论坛作为平台举办各类踩楼、灌水、贴图、视频等活动,可以调动各网友与品牌之间的互动。
而且,现有的事件炒作通常是炮制网民感兴趣的活动,将客户的品牌、产品、活动内容植入进传播内容,并展开持续的传播效应,引发新闻事件,导致传播的连锁反应。
通过现有的搜索引擎内容编辑技术,使得主流搜索引擎快速寻找到发布的帖子。
上述这些都是对论坛的发帖状况进行统计分析得到的响应效果,现有并没有对论坛的使用用户进行有效统计分析的数据分析模型,使得用户无法获得归属感和成就感。
因此,现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。
发明内容
本发明提供了一种用户行为数据建立及分析方法,解决了现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。
为解决上述技术问题,本发明采用的一个技术方案是:一种用户行为数据建立及分析方法,包括如下内容:
根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度;
根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;
基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取所述发帖内容信息的多个标签;
合并相同类型的标签,获得发帖内容的分类信息;
根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;
将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,N为大于0的自然数;
将所述标签标注为所述论坛用户的兴趣。
进一步地,根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度,具体包括:
获取论坛用户每天访问浏览的内容信息的数量,以及访问时间的集中程度;
在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度大于或等于预设集中程度时,确定所述论坛用户属于论坛忠诚用户;
在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛僵尸用户;
在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度大于或等于预设集中程度时,或者在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛看客用户。
进一步地,根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息,具体为:
根据所述论坛用户的活跃程度,统计获得属于论坛忠诚用户的用户信息,所述用户的信息为:用户的账号信息。
进一步地,基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取发帖内容信息的多个标签,具体为:
基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,并筛选出发帖内容信息的关键字信息,分析所述关键字信息出现的频次,获取所述发帖内容信息的多个标签。
进一步地,根据每种类型的发帖内容的回帖信息的内容及长度信息,剔除无效的回帖信息,具体为:
根据每种类型的发帖内容的回帖信息的内容,剔除与所述发帖内容不相关的回帖内容、无意义的回帖内容;
接着,根据每种类型的发帖内容的回帖信息的长度信息,剔除长度小于预设字数的回帖内容。
本发明的有益效果是:区别于现有技术的情况:
本发明采用的用户行为数据建立及分析方法,通过分析用户每天访问论坛的数量和时间,获得该论坛用户的活跃程度,然后获得活跃程度大于预设值的论坛用户的信息,基于该用户的信息,提取论坛用户的发帖内容信息,从而蝴蝶发帖内容信息的多个标签,将多个标签进行合并,获得发帖内容的分类信息,根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,然后将该标签标注为论坛用户的兴趣,进而通过层层筛选,获得论坛用户的准确兴趣点,便于论坛的管理。
附图说明
图1是本发明实施例中用户行为数据建立及分析方法的步骤流程示意图。
具体实施方式
本发明提供了一种用户行为数据建立及分析方法,解决了现有技术中存在论坛使用者没有对自己兴趣进行定位,无法对论坛使用者有效管理的技术问题。
为了解决上述技术问题,下面结合说明书附图进行详细说明。
本发明实施例提供的一种论坛用户兴趣分析的方法,如图1所示,包括:S101,根据论坛用户的每天的访问信息、访问时间,确定,论坛用户的活跃程度;S102,根据论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;S103,基于活跃程度大于预设值的论坛用户的信息,提取论坛用户的发帖内容信息,获取发帖内容信息的多个标签;S104,合并相同类型的标签,获得发帖内容的分类信息;S105,根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;S106,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,N为大于0的自然数;S107,将该标签标注为该论坛用户的兴趣。
在具体的实施方式中,S101具体包括获取论坛用户每天访问浏览的内容信息的数量,以及访问时间的集中程度,在访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度大于或等于预设集中程度时,确定该论坛用户属于论坛忠诚用户。该普通数量具体是指访问量的均值,预设集中程度是指平常用户访问的集中程度的平均值,也就是普遍用户访问的集中时间,比如,普遍用户集中时间是30分钟到1个小时。也就是说,该用户每天在论坛上访问的帖子数量较多,访问的时间也比较集中,属于花费大量时间在论坛上的专业人士。
在访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度小于预设集中程度时,确定该论坛用户属于论坛冒泡用户,也就是说,该论坛用户偶尔出现,访问量较少,而且,时间不集中。
在访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度大于或等于预设集中程度时,或者在访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度小于预设集中程度时,确定该论坛用户属于论坛看客用户。也就是说,该论坛用户属于走马观花的用户,偶尔集中,偶尔不集中。
由上述分析,从而确定论坛用户的活跃程度,那么,上述只有论坛忠诚用户属于活跃程度大于预设值的论坛用户。
因此,在S102中,就是获得属于论坛忠诚用户的用户信息,这里的用户的信息具体是指用户的账号信息,由于论坛在注册时,可以通过昵称注册,也可以通过邮箱注册,当然,还可以关联其他应用服务进行注册,因此,这里的账号信息就是用户注册该论坛的注册信息。
由于该注册信息都是唯一的,因此,能够唯一标识论坛用户。
接着,在S103中,具体是基于活跃程度大于预设值的论坛用户的信息,提取该论坛用户的发帖内容信息,并筛选处发帖内容信息的关键字信息,分析该关键字信息出现的频次,获取该发帖内容信息的多个标签。
在具体的实施方式中,确定了属于论坛忠诚用户之后,基于这些论坛忠诚用户的用户信息,提取这些用户发帖内容信息,从中筛选出关键字信息,分析关键字信息出现的频次,由于关键词能够确定发帖内容的主旨,因此,能够根据该关键字以及关键字出现的频次,当然,是关键字频次较高的情况下,总结获得发帖内容信息的多个标签,比如,提取的关键字中有“房价”、“经济”、“物价”,而且出现的频次较高,那么,可以从中确定出发帖内容信息的标签为“社会经济舆论”。当然,该论坛用户还有其他的发帖内容,从中可以提取出关键字信息,从而总结出该发帖内容的标签,如果获得当前的标签为“房屋贷款利率变化”,与前一个标签属于同一类别,因此,在S104中,合并相同类型的标签,获得发帖内容的分类信息。也就是,将多个帖子的内容通过提取关键字的方式,获得关键字所指代的标签,然后,将获得的标签重新进行划分和归纳,获得一个大类。
然后,在S105中,根据每类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息。具体地,首先是根据每种类型的发帖内容的回帖信息的内容,剔除与发帖内容不相关的回帖内容、无意义的回帖内容。由于每个发帖内容的回帖信息很多,有些是没有意义的,比如,有些打广告的,或者仅仅想随便说两句的,这些都是不相关的或者是无意义的回帖内容,应当剔除掉,接着,在根据每种类型的发帖内容的回帖信息的长度信息,剔除长度小于预设字数的回帖内容,从而保留有价值的回帖内容。
执行S106,将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,N为大于0的自然数。这里将回帖信息按照数量由大到小顺序排列,从而确定每一个发帖内容的关注度,不仅是论坛用户自己的关注度,而且还有与其他论坛用户互动的关注度,这里是指有效的信息,按照回帖数量由大到小的排序,前N名的回帖信息对应的发帖内容所对应的标签,足以标注该论坛用户的兴趣点,因此,在S107中,将上述获得标签标注为论坛用户的兴趣。
通过上述对回帖数量的统计,将数量较多的回帖信息对应的发帖内容的标签,标注为用户的兴趣,
采用上述的技术方案,能够通过层层统计分析,能够精准定位论坛忠诚用户的兴趣点,对论坛用户的兴趣标定,便于其他例如论坛冒泡用户以及论坛看客用户能够根据兴趣点选择关注的论坛忠诚用户,也便于论坛管理者对论坛的管理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种用户行为数据建立及分析方法,其特征在于,包括如下内容:
根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度;
根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息;
基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取所述发帖内容信息的多个标签;
合并相同类型的标签,获得发帖内容的分类信息;
根据每种类型的发帖内容的回帖信息的内容以及长度信息,剔除无效的回帖信息;
将每种类型的发帖内容的回帖信息按照数量由大到小的顺序排列,获取前N名的回帖信息对应的发帖内容所对应的标签,N为大于0的自然数;
将所述标签标注为所述论坛用户的兴趣。
2.根据权利要求1所述的用户行为数据建立及分析方法,其特征在于,根据论坛用户的每天的访问信息、访问时间,确定所述论坛用户的活跃程度,具体包括:
获取论坛用户每天访问浏览的内容信息的数量,以及访问时间的集中程度;
在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度大于或等于预设集中程度时,确定所述论坛用户属于论坛忠诚用户;
在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛冒泡用户;
在所述访问浏览的内容信息的数量小于普通数量,且访问时间的集中程度大于或等于预设集中程度时,或者在所述访问浏览的内容信息的数量大于或等于普通数量,且访问时间的集中程度小于预设集中程度时,确定所述论坛用户属于论坛看客用户。
3.根据权利要求2所述的用户行为数据建立及分析方法,其特征在于,根据所述论坛用户的活跃程度,统计获得活跃程度大于预设值的论坛用户的信息,具体为:
根据所述论坛用户的活跃程度,统计获得属于论坛忠诚用户的用户信息,所述用户的信息为:用户的账号信息。
4.根据权利要求1所述的用户行为数据建立及分析方法,其特征在于,基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,获取发帖内容信息的多个标签,具体为:
基于所述活跃程度大于预设值的论坛用户的信息,提取所述论坛用户的发帖内容信息,并筛选出发帖内容信息的关键字信息,分析所述关键字信息出现的频次,获取所述发帖内容信息的多个标签。
5.根据权利要求1所述的用户行为数据建立及分析方法,其特征在于,根据每种类型的发帖内容的回帖信息的内容及长度信息,剔除无效的回帖信息,具体为:
根据每种类型的发帖内容的回帖信息的内容,剔除与所述发帖内容不相关的回帖内容、无意义的回帖内容;
接着,根据每种类型的发帖内容的回帖信息的长度信息,剔除长度小于预设字数的回帖内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911421.3A CN107729438B (zh) | 2017-09-29 | 2017-09-29 | 一种用户行为数据建立及分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710911421.3A CN107729438B (zh) | 2017-09-29 | 2017-09-29 | 一种用户行为数据建立及分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729438A true CN107729438A (zh) | 2018-02-23 |
CN107729438B CN107729438B (zh) | 2021-05-04 |
Family
ID=61209259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710911421.3A Active CN107729438B (zh) | 2017-09-29 | 2017-09-29 | 一种用户行为数据建立及分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729438B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657130A (zh) * | 2018-12-10 | 2019-04-19 | 陆少杰 | 汽车信息的查询方法、装置及电子设备 |
CN110493085A (zh) * | 2019-09-03 | 2019-11-22 | 赛尔网络有限公司 | IPv6活跃用户数的统计方法、系统、电子设备及介质 |
WO2023272862A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳壹账通智能科技有限公司 | 基于网络行为数据的风控识别方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955547A (zh) * | 2014-05-22 | 2014-07-30 | 厦门市美亚柏科信息股份有限公司 | 发现论坛热帖的方法和系统 |
CN104657466A (zh) * | 2015-02-11 | 2015-05-27 | 厦门美柚信息科技有限公司 | 一种基于论坛帖子特征的用户兴趣识别方法及装置 |
US20160196561A1 (en) * | 2015-01-06 | 2016-07-07 | Adobe Systems Incorporated | Organizing and classifying social media conversations to improve customer service |
CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
US20170070470A9 (en) * | 2012-02-02 | 2017-03-09 | Yapmo Llc | Automatic, Interest-Based Notifications |
-
2017
- 2017-09-29 CN CN201710911421.3A patent/CN107729438B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170070470A9 (en) * | 2012-02-02 | 2017-03-09 | Yapmo Llc | Automatic, Interest-Based Notifications |
CN106104512A (zh) * | 2013-09-19 | 2016-11-09 | 西斯摩斯公司 | 用于主动获取社交数据的系统和方法 |
CN103955547A (zh) * | 2014-05-22 | 2014-07-30 | 厦门市美亚柏科信息股份有限公司 | 发现论坛热帖的方法和系统 |
US20160196561A1 (en) * | 2015-01-06 | 2016-07-07 | Adobe Systems Incorporated | Organizing and classifying social media conversations to improve customer service |
CN104657466A (zh) * | 2015-02-11 | 2015-05-27 | 厦门美柚信息科技有限公司 | 一种基于论坛帖子特征的用户兴趣识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
王恋 等: "基于论坛的中国互联网用户兴趣调查研究", 《现代计算机》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657130A (zh) * | 2018-12-10 | 2019-04-19 | 陆少杰 | 汽车信息的查询方法、装置及电子设备 |
CN110493085A (zh) * | 2019-09-03 | 2019-11-22 | 赛尔网络有限公司 | IPv6活跃用户数的统计方法、系统、电子设备及介质 |
WO2023272862A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳壹账通智能科技有限公司 | 基于网络行为数据的风控识别方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107729438B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sofield et al. | Organic ‘folkloric’community driven place-making and tourism | |
Tseng et al. | Travel blogs on China as a destination image formation agent: A qualitative analysis using Leximancer | |
Vertovec | Transnationalism | |
Selby | Understanding urban tourism: Image, culture and experience | |
Becker et al. | Congregations in conflict: Cultural models of local religious life | |
Park et al. | Influence of the ‘slow city’brand association on the behavioural intention of potential tourists | |
Andreu et al. | Projected and perceived image of Spain as a tourist destination for British travellers | |
Liu | Social network profiles as taste performances | |
Heusinkveld et al. | Contested commodification: Consultancies and their struggle with new concept development | |
Sun et al. | Perceiving tourist destination landscapes through Chinese eyes: The case of South Island, New Zealand | |
Hunter et al. | Religion and attitudes toward the environment: A comparison of Mormons and the general US population | |
Iordanova et al. | International and domestic tourists’“a priori” and “in situ” image differences and the impact of direct destination experience on destination image: the case of Linz, Austria | |
Hartless | Questionably queer: Understanding straight presence in the post-gay bar | |
Chan | Virtual communities and Chinese national identity | |
Morgan | Marketing and critique: prospects and problems | |
Mei et al. | Effects and mechanisms of rural E‐commerce clusters on households' entrepreneurship behavior in China | |
Saydam et al. | How about the service perception during the COVID-19 pandemic: an analysis of tourist experiences from user-generated content on TripAdvisor | |
CN107729438A (zh) | 一种用户行为数据建立及分析方法 | |
Auemsuvarn et al. | Destination personality: A dimensions analysis and a new scale development in Thailand | |
Navarro et al. | Visual culture, personalization, and politics: A comparative analysis of political leaders’ instagram-based image-making and communication in Spain and India | |
Kirilenko et al. | Instagram travel influencers coping with COVID-19 travel disruption | |
Hung et al. | Impact of night markets on residents' quality of life | |
Chung-En | Perceptual differences toward humanlike robots and humans in service: Individualist versus collectivist cultures | |
Shaheer et al. | Factors motivating working holiday travel: The case of Latin American visitors to New Zealand | |
Gainer et al. | Marketing for nonprofit managers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211223 Address after: 102400 a8-2457, No. 1, Yuehua street, Gongchen street, Fangshan District, Beijing (cluster registration) Patentee after: Antubo (Beijing) Information Technology Co.,Ltd. Address before: No. 1, 2 and 4, floor 10, unit 1, building 1, Jinniu citizen center, No. 999, Yipintianxia street, Jinniu District, Chengdu, Sichuan 610000 Patentee before: CHENGDU DISICHENG CULTURE COMMUNICATION CO.,LTD. |