CN103886068B - 用于互联网用户行为分析的数据处理方法和装置 - Google Patents

用于互联网用户行为分析的数据处理方法和装置 Download PDF

Info

Publication number
CN103886068B
CN103886068B CN201410106000.XA CN201410106000A CN103886068B CN 103886068 B CN103886068 B CN 103886068B CN 201410106000 A CN201410106000 A CN 201410106000A CN 103886068 B CN103886068 B CN 103886068B
Authority
CN
China
Prior art keywords
data
user behavior
training set
result
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410106000.XA
Other languages
English (en)
Other versions
CN103886068A (zh
Inventor
祁国晟
黄勇坚
戴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410106000.XA priority Critical patent/CN103886068B/zh
Publication of CN103886068A publication Critical patent/CN103886068A/zh
Application granted granted Critical
Publication of CN103886068B publication Critical patent/CN103886068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种用于互联网用户行为分析的数据处理方法和装置。其中,用于互联网用户行为分析的数据处理方法包括:获取目标网站的用户行为数据;按照预设维度对用户行为数据进行计算,得到计算结果;获取预设维度下的训练集;将计算结果与训练集进行比较,得到比较结果;以及根据比较结果判断用户行为数据是否出现异常。通过本发明,达到了提高用户行为数据异常检测的准确性的效果。

Description

用于互联网用户行为分析的数据处理方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种用于互联网用户行为分析的数据处理方法和装置。
背景技术
随着互联网的迅速发展,互联网已经逐渐成为人们生活中不可或缺的一部分。人们通过浏览网站获取自己所需要的信息,例如查资料或者购物等。由于人们点击或者浏览网页,产生一些流量数据和用户行为数据,网站的经营者可以通过这些数据来分析客户的类型。这些数据的可靠程度,决定了最终分析结果的准确性。因此,对于这些数据的异常情况检测,显得十分重要。
目前,对于网站的流量数据或者用户行为数据,只能通过专业的工作人员进行使用和分析,从中找出这些数据的异常点,这样,由于是通过人工进行分析,导致对这些数据异常点检测的准确性降低。
针对现有技术中用户行为数据异常检测的准确性低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于互联网用户行为分析的数据处理方法和装置,以解决用户行为数据异常检测的准确性低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于互联网用户行为分析的数据处理方法。根据本发明的用于互联网用户行为分析的数据处理方法包括:获取目标网站的用户行为数据;按照预设维度对用户行为数据进行计算,得到计算结果;获取预设维度下的训练集;将计算结果与训练集进行比较,得到比较结果;以及根据比较结果判断用户行为数据是否出现异常。
进一步地,根据比较结果判断用户行为数据是否出现异常包括:获取计算结果相对于训练集的偏离度,偏离度用于表示计算结果与训练集的偏离程度;判断偏离度是否超过预设阈值;如果判断出计算结果超过预设阈值,则确定用户行为数据出现异常;以及如果判断出计算结果未超过预设阈值,则确定用户行为数据未出现异常。
进一步地,预设维度包括第一维度和第二维度,获取的训练集为第一维度下的第一训练集和第二维度下的第二训练集,其中,根据比较结果判断用户行为数据是否出现异常包括:获取计算结果相对于第一训练集的第一偏离度;获取计算结果相对于第二训练集的第二偏离度;判断第一偏离度和第二偏离度是否超过预设阈值;以及如果判断出第一偏离度和第二偏离度均超过预设阈值,则确定用户行为数据出现异常。
进一步地,获取目标网站的用户行为数据包括:在目标网站上嵌入数据采集插件,数据采集插件用于在目标网站采集数据;通过数据采集插件采集目标网站的当前用户行为数据,在获取目标网站的用户行为数据之后,数据处理方法包括:将当前用户行为数据存入数据库。
进一步地,在获取预设维度下的训练集之前,数据处理方法还包括:获取目标网站的历史用户行为数据;对历史用户行为数据进行分组;以及将分组后的数据存入预先创建的聚类中,将聚类作为训练集。
为了实现上述目的,根据本发明的另一方面,提供了一种用于互联网用户行为分析的数据处理装置。根据本发明的用于互联网用户行为分析的数据处理装置包括:第一获取单元,用于获取目标网站的用户行为数据;计算单元,用于按照预设维度对用户行为数据进行计算,得到计算结果;第二获取单元,用于获取预设维度下的训练集;比较单元,用于将计算结果与训练集进行比较,得到比较结果;以及判断单元,用于根据比较结果判断用户行为数据是否出现异常。
进一步地,判断单元包括:第一获取模块,用于获取计算结果相对于训练集的偏离度,偏离度用于表示计算结果与训练集的偏离程度;第一判断模块,用于判断偏离度是否超过预设阈值;第一确定模块,用于当判断出计算结果超过预设阈值时,确定用户行为数据出现异常;以及第二确定模块,用于当判断出计算结果未超过预设阈值时,确定用户行为数据未出现异常。
进一步地,预设维度包括第一维度和第二维度,获取的训练集为第一维度下的第一训练集和第二维度下的第二训练集,其中,判断单元包括:第二获取模块,用于获取计算结果相对于第一训练集的第一偏离度;第三获取模块,用于获取计算结果相对于第二训练集的第二偏离度;第二判断模块,用于判断第一偏离度和第二偏离度是否超过预设阈值;以及第三确定模块,用于当判断出第一偏离度和第二偏离度均超过预设阈值时,确定用户行为数据出现异常。
进一步地,第一获取单元包括:嵌入模块,用于在目标网站上嵌入数据采集插件,数据采集插件用于在目标网站采集数据;采集模块,用于通过数据采集插件采集目标网站的当前用户行为数据,数据处理装置包括:存储单元,用于在获取目标网站的用户行为数据之后,将当前用户行为数据存入数据库。
进一步地,数据处理装置还包括:第三获取单元,用于在获取预设维度下的训练集之前,获取目标网站的历史用户行为数据;分组单元,用于对历史用户行为数据进行分组;以及存入单元,用于将分组后的数据存入预先创建的聚类中,将聚类作为训练集。
通过本发明,按照预设维度对用户行为数据进行计算得到计算结果,并将结算结果与该预设维度下的训练集进行比较,采用训练集作为用户行为数据异常判断的基准,从而准确地检测用户行为数据是否异常,解决了用户行为数据异常检测的准确性低的问题,达到了提高用户行为数据异常检测的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的用于互联网用户行为分析的数据处理装置的示意图;
图2是根据本发明实施例一种优选的用于互联网用户行为分析的数据处理装置的示意图;
图3是根据本发明实施例的用于互联网用户行为分析的数据处理方法的流程图;以及
图4是根据本发明实施例一种优选的用于互联网用户行为分析的数据处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供了一种用于互联网用户行为分析的数据处理装置,该装置可以通过计算机设备实现其功能。
图1是根据本发明实施例的用于互联网用户行为分析的数据处理装置的示意图。如图1所示,该用于互联网用户行为分析的数据处理装置包括第一获取单元10、计算单元20、第二获取单元30、比较单元40和判断单元50。
第一获取单元10用于获取目标网站的用户行为数据。
目标网站可以是任意的网站,例如,某一个著名化妆品的网站,该目标网站为需要进行用户行为分析的网站。用户在访问该目标网站时,产生一些用户行为数据,例如,用户的IP地址、用户点击网站的次数、用户访问网站产生的流量、用户访问网站所使用的浏览器信息、用户查找网站所使用的搜索引擎等等数据。这些用户行为数据可以从目标网站的日志文件中获取。获取目标网站的用户行为数据,可以是获取当前一段时间内目标网站的流量数据或者用户行为数据。例如,当需要分析目标网站在当前季度的用户行为时,可以获取目标网站在当前季度的用户行为数据。具体地,可以是在目标网站中插入数据采集插件,用于采集目标网站的用户行为数据,并且将采集到的数据存放在数据库中,用以进行分析。
计算单元20用于按照预设维度对用户行为数据进行计算,得到计算结果。
预设维度可以是一个也可以是多个,该预设维度可以根据需要进行选择。例如,当需要分析目标网站的用户所在的地理位置时,可以选择省份这一维度,对用户行为数据进行分析。按照预设维度对用户行为数据进行计算包括按照预设维度对用户行为数据进行分类和统计,得到在预设维度下,用户的分布情况。例如,当预设维度为省份时,需要对用户行为数据中的用户的IP地址进行分类,将相同省份的用户的IP地址归为一类,然后对每一类的数据进行统计,从而计算出用户所处的省份和各省份用户的数量,即为计算结果。当预设维度为来源搜索引擎时,对采用不同来源搜索引擎的用户进行分类,并统计每一个来源搜索引擎的用户数量进行统计,得到用户使用的搜索引擎和使用各搜索引擎的数量。在获取到目标网站的用户行为数据之后,按照预设维度对用户行为数据进行计算,如果预设维度包括多个维度,则按照多个维度对用户行为数据分别进行计算。
第二获取单元30用于获取预设维度下的训练集。
训练集可以是用于判断用户行为数据是否异常的标准,该训练集可以是预先创建好的训练集,当预设维度为多个维度时,相应的训练集也为多个,其中,每一个维度对应一个训练集。例如,对于目标网站为化妆品网站,由于各个省份的经济状况不同,各省份中对化妆品的消费用户量各不相同。根据预先统计的结果,可以得到省份中化妆品的用户数量的排名,通常情况下,一线城市的排名会靠前。此时,可以将省份排名作为训练集,用于判断用户行为数据的异常。例如,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,而在相应维度的训练集中,广西省的排名第二十,广西省的用户数量出现较大的波动,此时,可以认为当前用户行为数据出现异常。
本发明实施例中,训练集可以是通过对所有同领域的网站的用户行为数据进行统计得到的结果,也可以是对该网站中的历史用户行为数据进行统计得到的结果。
比较单元40用于将计算结果与训练集进行比较,得到比较结果。
在获取到预设维度下的训练集之后,将在该预设维度下对用户行为数据进行计算得到的计算结果与该训练集进行比较,其中比较结果可以是计算结果相对于训练集的偏离度,该偏离度用户表示计算结果与训练集的偏离程度。例如,在上述举例中,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,此为计算结果,而在相应维度的训练集中,广西省的排名第二十,则计算结果与训练集之间的偏离度为19,则广西省的用户数量出现较大的波动,此时,可以认为当前用户行为数据出现异常。
判断单元50用于根据比较结果判断用户行为数据是否出现异常。
在得到比较结果之后,可以根据比较结果判断用户行为数据是否出现异常。如果计算结果与训练集比较接近或者完全相同,则可以认为用户行为数据未出现异常,反之,可以认为用户行为数据出现异常。当然,计算结果与训练集相差较大时,也可以认为用户行为数据疑似异常,然后再根据计算结果相对于训练集的偏离度,判断该偏离度是否超过预设阈值,如果超过该预设阈值,则认为用户行为数据出现异常。
根据本发明实施例,通过按照预设维度对用户行为数据进行计算得到计算结果,并将结算结果与该预设维度下的训练集进行比较,采用训练集作为用户行为数据异常判断的基准,从而准确地检测用户行为数据是否异常,解决了用户行为数据异常检测的准确性低的问题,达到了提高用户行为数据异常检测的准确性的效果。
图2是根据本发明实施例一种优选的用于互联网用户行为分析的数据处理装置的示意图。如图2所示,该用于互联网用户行为分析的数据处理装置包括第一获取单元 10、计算单元20、第二获取单元30、比较单元40和判断单元50。其中,判断单元50 包括第一获取模块501、第一判断模块503、第一确定模块505和第二确定模块507。第一获取单元10、计算单元20、第二获取单元30和比较单元40分别与图1所示的第一获取单元10、计算单元20、第二获取单元30和比较单元40功能相同,这里不做赘述。
第一获取模块501用于获取计算结果相对于训练集的偏离度,偏离度用于表示计算结果与训练集的偏离程度。
偏离度用于表示计算结果与训练集的偏离程度,其中,偏离度的值越大,表示计算结果与训练集的偏离程度越大。例如,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,此为计算结果,而在相应维度的训练集中,广西省的排名第二十,则计算结果与训练集之间的偏离度为19,获取该偏离度,则可以判断计算结果对应的用户行为数据是否异常。
第一判断模块503用于判断偏离度是否超过预设阈值。
预设阈值可以是根据需要进行预先设置。不同的维度对应的预设阈值可以相同,也可以不相同。例如,假如预设阈值为5,在上述举例中,计算结果与训练集之间的偏离度为19,通过判断19与5之间的大小就可以判断出用户行为数据是否出现异常。
第一确定模块505用于当判断出计算结果超过预设阈值时,确定用户行为数据出现异常。
第二确定模块507用于当判断出计算结果未超过预设阈值时,确定用户行为数据未出现异常。
例如,上述举例中,19>5,则表明计算结果超出预设阈值,则确定用户行为数据出现异常。假如偏离度为4,且4<5,则表明计算结果未超出预设阈值,则确定用户行为数据未出现异常。
根据本发明实施例,通过获取计算结果与训练集之间的偏离度,判断该偏离度是否超过预设阈值,从而判断用户行为数据是否异常,定量地对用户行为数据进行异常检测,进一步提高了用户行为数据异常检测的准确性。
优选地,预设维度包括第一维度和第二维度,获取的训练集为第一维度下的第一训练集和第二维度下的第二训练集,其中,判断单元50包括第二获取模块、第三获取模块、第二判断模块、第三确定模块第二获取模块用于获取计算结果相对于第一训练集的第一偏离度。第三获取模块用于获取计算结果相对于第二训练集的第二偏离度。第二判断模块用于判断第一偏离度和第二偏离度是否超过预设阈值。第三确定模块用于当判断出第一偏离度和第二偏离度均超过预设阈值时,确定用户行为数据出现异常。
预设维度包括第一维度和第二维度,相应地,按照预设维度对用户行为数据进行计算包括分别按照第一维度和第二维度对用户行为数据进行计算,得到计算结果。其中,计算结果中包括第一维度的结果和第二维度的结果。将第一维度的结果与第一训练集进行比较,从比较结果中获取第一偏离度;将第二维度的结果与第二训练集进行比较,从比较结果中获取第二偏离度。预设阈值可以包括第一维度的第一阈值和第二维度的第二阈值,其中,第一阈值与第二阈值可以相同,也可以不相同。
判断第一偏离度和第二偏离度是否超过预设阈值可以是先判断第一偏离度是否超过第一阈值,如果超出,则可以认为用户行为数据疑似异常,再判断第二偏离度是否超过第二阈值,如果超出,则可以认为用户行为数据出现异常。当然,本发明实施例中,也可以是先判断第二偏离度是否超过第二阈值,再第一偏离度是否超过第一阈值。当判断出第一偏离度和第二偏离度均超过预设阈值时,则认为用户行为数据出现异常。
例如,有一个国际著名化妆品的品牌的网站,采集该网站的用户行为数据。分析计算中后,得出广西的搜索引擎来源偏高(众所周知,广西不是一个发达省份),再进一步分析,发现广西的采用sogou搜索引擎的来源过高(众所周知,主要的搜索引擎是百度,google,其中,sogou的份额非常小)。可以根据预先统计构建两个维度的训练集:省份排名和搜索引擎排名。将上述结果与构建的两个训练集进行比较,得到相应的偏离度,从而判断出用户行为数据是否异常。
需要说明的是,预设维度也可以是3个或者更多的维度,维度越多,异常检测的准确性越高。
根据本发明实施例,通过采用第一维度和第二维度两个维度来判断用户行为数据是否异常,进一步提高了用户行为数据异常检测的准确性。
优选地,第一获取单元10包括:嵌入模块,用于在目标网站上嵌入数据采集插件,数据采集插件用于在目标网站采集数据;采集模块,用于通过数据采集插件采集目标网站的当前用户行为数据,数据处理装置包括:存储单元,用于在获取目标网站的用户行为数据之后,将当前用户行为数据存入数据库。
当前用户行为数据可以是当前一段时间内的用户行为数据,例如,当前季度内的用户行为数据。在目标网站上嵌入数据采集插件,可以是通过javascript脚本语言编写的插件,将该插件嵌入到目标网站中,目标网站自动将用户行为数据发送出来,并将采集到的用户行为数据统一存放到数据库中,以便于对数据进行统一处理。
根据本发明实施例,通过数据采集插件采集用户行为数据,提高数据采集的效率,同时将用户行为数据统一存储到数据库中,以便于对数据进行计算处理。
优选地,数据处理装置还包括:第三获取单元,用于在获取预设维度下的训练集之前,获取目标网站的历史用户行为数据;分组单元,用于对历史用户行为数据进行分组;以及存入单元,用于将分组后的数据存入预先创建的聚类中,将聚类作为训练集。
历史用户行为数据可以是目标网站当前一段时间内之前的所有的用户行为数据,获取历史用户行为数据以便于通过对目标网站的历史用户行为数据建立训练集,判断当前用户行为数据是否出现异常。获取到目标网站的历史用户行为数据之后,对该历史用户行为数据进行分组,也即是对目标网站中历史用户行为记录进行分组,将分组后的各组数据分别存入不同的聚类中,该聚类可以是预先创建好的聚类,最后,将存入数据后的聚类作为训练集。不同的聚类作为不同维度的训练集,例如,在化妆品的网站中,可以构建两个维度的训练集:省份排名前10和搜索引擎排名前5。
根据本发明实施例,通过获取目标网站的历史用户行为数据,并通过该历史用户行为数据创建训练集,从而可以将目标网站当前用户行为数据与历史用户行为数据进行比较,对目标网站的用户行为进行分析,检测其是否出现异常,提高了异常检测的准确性。
本发明实施例还提供了一种用于互联网用户行为分析的数据处理方法。该方法运行在用于互联网用户行为分析的数据处理上。需要说明的是,本发明实施例的用于互联网用户行为分析的数据处理方法可以通过本发明实施例所提供的用于互联网用户行为分析的数据处理装置来执行,本发明实施例的用于互联网用户行为分析的数据处理装置也可以用于执行本发明实施例所提供的用于互联网用户行为分析的数据处理方法。
图3是根据本发明实施例的用于互联网用户行为分析的数据处理方法的流程图。如图3所示,该用于互联网用户行为分析的数据处理方法包括步骤如下:
步骤S302,获取目标网站的用户行为数据。
目标网站可以是任意的网站,例如,某一个著名化妆品的网站,该目标网站为需要进行用户行为分析的网站。用户在访问该目标网站时,产生一些用户行为数据,例如,用户的IP地址、用户点击网站的次数、用户访问网站产生的流量、用户访问网站所使用的浏览器信息、用户查找网站所使用的搜索引擎等等数据。这些用户行为数据可以从目标网站的日志文件中获取。获取目标网站的用户行为数据,可以是获取当前一段时间内目标网站的流量数据或者用户行为数据。例如,当需要分析目标网站在当前季度的用户行为时,可以获取目标网站在当前季度的用户行为数据。具体地,可以是在目标网站中插入数据采集插件,用于采集目标网站的用户行为数据,并且将采集到的数据存放在数据库中,用以进行分析。
步骤S304,按照预设维度对用户行为数据进行计算,得到计算结果。
预设维度可以是一个也可以是多个,该预设维度可以根据需要进行选择。例如,当需要分析目标网站的用户所在的地理位置时,可以选择省份这一维度,对用户行为数据进行分析。按照预设维度对用户行为数据进行计算包括按照预设维度对用户行为数据进行分类和统计,得到在预设维度下,用户的分布情况。例如,当预设维度为省份时,需要对用户行为数据中的用户的IP地址进行分类,将相同省份的用户的IP地址归为一类,然后对每一类的数据进行统计,从而计算出用户所处的省份和各省份用户的数量,即为计算结果。当预设维度为来源搜索引擎时,对采用不同来源搜索引擎的用户进行分类,并统计每一个来源搜索引擎的用户数量进行统计,得到用户使用的搜索引擎和使用各搜索引擎的数量。在获取到目标网站的用户行为数据之后,按照预设维度对用户行为数据进行计算,如果预设维度包括多个维度,则按照多个维度对用户行为数据分别进行计算。
步骤S306,获取预设维度下的训练集。
训练集可以是用于判断用户行为数据是否异常的标准,该训练集可以是预先创建好的训练集,当预设维度为多个维度时,相应的训练集也为多个,其中,每一个维度对应一个训练集。例如,对于目标网站为化妆品网站,由于各个省份的经济状况不同,各省份中对化妆品的消费用户量各不相同。根据预先统计的结果,可以得到省份中化妆品的用户数量的排名,通常情况下,一线城市的排名会靠前。此时,可以将省份排名作为训练集,用于判断用户行为数据的异常。例如,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,而在相应维度的训练集中,广西省的排名第二十,广西省的用户数量出现较大的波动,此时,可以认为当前用户行为数据出现异常。
本发明实施例中,训练集可以是通过对所有同领域的网站的用户行为数据进行统计得到的结果,也可以是对该网站中的历史用户行为数据进行统计得到的结果。
步骤S308,将计算结果与训练集进行比较,得到比较结果。
在获取到预设维度下的训练集之后,将在该预设维度下对用户行为数据进行计算得到的计算结果与该训练集进行比较,其中比较结果可以是计算结果相对于训练集的偏离度,该偏离度用户表示计算结果与训练集的偏离程度。例如,在上述举例中,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,此为计算结果,而在相应维度的训练集中,广西省的排名第二十,则计算结果与训练集之间的偏离度为19,则广西省的用户数量出现较大的波动,此时,可以认为当前用户行为数据出现异常。
步骤S310,根据比较结果判断用户行为数据是否出现异常。
在得到比较结果之后,可以根据比较结果判断用户行为数据是否出现异常。如果计算结果与训练集比较接近或者完全相同,则可以认为用户行为数据未出现异常,反之,可以认为用户行为数据出现异常。当然,计算结果与训练集相差较大时,也可以认为用户行为数据疑似异常,然后再根据计算结果相对于训练集的偏离度,判断该偏离度是否超过预设阈值,如果超过该预设阈值,则认为用户行为数据出现异常。
根据本发明实施例,通过按照预设维度对用户行为数据进行计算得到计算结果,并将结算结果与该预设维度下的训练集进行比较,采用训练集作为用户行为数据异常判断的基准,从而准确地检测用户行为数据是否异常,解决了用户行为数据异常检测的准确性低的问题,达到了提高用户行为数据异常检测的准确性的效果。
图4是根据本发明实施例一种优选的用于互联网用户行为分析的数据处理方法的流程图。该实施例的用于互联网用户行为分析的数据处理方法可以是上述实施例的用于互联网用户行为分析的数据处理方法的一种优选实施方式。如图4 所示,该用于互联网用户行为分析的数据处理方法包括步骤如下:
步骤S402、步骤S404、步骤S406、步骤S408分别与图3所示的步骤S302、步骤S304、步骤S306、步骤S308相同,这里不做赘述。
步骤S410,获取计算结果相对于训练集的偏离度。
偏离度用于表示计算结果与训练集的偏离程度,其中,偏离度的值越大,表示计算结果与训练集的偏离程度越大。例如,当对用户行为数据进行计算之后,发现广西省的用户数量最大,相当于当前广西省的用户数量排名第一,此为计算结果,而在相应维度的训练集中,广西省的排名第二十,则计算结果与训练集之间的偏离度为19,获取该偏离度,则可以判断计算结果对应的用户行为数据是否异常。
步骤S412,判断偏离度是否超过预设阈值。
预设阈值可以是根据需要进行预先设置。不同的维度对应的预设阈值可以相同,也可以不相同。例如,假如预设阈值为5,在上述举例中,计算结果与训练集之间的偏离度为19,通过判断19与5之间的大小就可以判断出用户行为数据是否出现异常。
步骤S414,如果判断出计算结果超过预设阈值,则确定用户行为数据出现异常。
步骤S416,如果判断出计算结果未超过预设阈值,则确定用户行为数据未出现异常。
例如,上述举例中,19>5,则表明计算结果超出预设阈值,则确定用户行为数据出现异常。假如偏离度为4,且4<5,则表明计算结果未超出预设阈值,则确定用户行为数据未出现异常。
根据本发明实施例,通过获取计算结果与训练集之间的偏离度,判断该偏离度是否超过预设阈值,从而判断用户行为数据是否异常,定量地对用户行为数据进行异常检测,进一步提高了用户行为数据异常检测的准确性。
优选地,预设维度包括第一维度和第二维度,获取的训练集为第一维度下的第一训练集和第二维度下的第二训练集,其中,根据比较结果判断用户行为数据是否出现异常包括:获取计算结果相对于第一训练集的第一偏离度;获取计算结果相对于第二训练集的第二偏离度;判断第一偏离度和第二偏离度是否超过预设阈值;如果判断出第一偏离度和第二偏离度均超过预设阈值,则确定用户行为数据出现异常。
预设维度包括第一维度和第二维度,相应地,按照预设维度对用户行为数据进行计算包括分别按照第一维度和第二维度对用户行为数据进行计算,得到计算结果。其中,计算结果中包括第一维度的结果和第二维度的结果。将第一维度的结果与第一训练集进行比较,从比较结果中获取第一偏离度;将第二维度的结果与第二训练集进行比较,从比较结果中获取第二偏离度。预设阈值可以包括第一维度的第一阈值和第二维度的第二阈值,其中,第一阈值与第二阈值可以相同,也可以不相同。
判断第一偏离度和第二偏离度是否超过预设阈值可以是先判断第一偏离度是否超过第一阈值,如果超出,则可以认为用户行为数据疑似异常,再判断第二偏离度是否超过第二阈值,如果超出,则可以认为用户行为数据出现异常。当然,本发明实施例中,也可以是先判断第二偏离度是否超过第二阈值,再第一偏离度是否超过第一阈值。当判断出第一偏离度和第二偏离度均超过预设阈值时,则认为用户行为数据出现异常。
例如,有一个国际著名化妆品的品牌的网站,采集该网站的用户行为数据。分析计算中后,得出广西的搜索引擎来源偏高(众所周知,广西不是一个发达省份),再进一步分析,发现广西的采用sogou搜索引擎的来源过高(众所周知,主要的搜索引擎是百度,google,其中,sogou的份额非常小)。可以根据预先统计构建两个维度的训练集:省份排名和搜索引擎排名。将上述结果与构建的两个训练集进行比较,得到相应的偏离度,从而判断出用户行为数据是否异常。
需要说明的是,预设维度也可以是3个或者更多的维度,维度越多,异常检测的准确性越高。
根据本发明实施例,通过采用第一维度和第二维度两个维度来判断用户行为数据是否异常,进一步提高了用户行为数据异常检测的准确性。
优选地,获取目标网站的用户行为数据包括:在目标网站上嵌入数据采集插件,数据采集插件用于在目标网站采集数据;通过数据采集插件采集目标网站的当前用户行为数据。其中,在获取目标网站的用户行为数据之后,数据处理方法包括:将当前用户行为数据存入数据库。
当前用户行为数据可以是当前一段时间内的用户行为数据,例如,当前季度内的用户行为数据。在目标网站上嵌入数据采集插件,可以是通过javascript脚本语言编写的插件,将该插件嵌入到目标网站中,目标网站自动将用户行为数据发送出来,并将采集到的用户行为数据统一存放到数据库中,以便于对数据进行统一处理。
根据本发明实施例,通过数据采集插件采集用户行为数据,提高数据采集的效率,同时将用户行为数据统一存储到数据库中,以便于对数据进行计算处理。
优选地,在获取预设维度下的训练集之前,数据处理方法还包括:获取目标网站的历史用户行为数据;对历史用户行为数据进行分组;以及将分组后的数据存入预先创建的聚类中,将聚类作为训练集。
历史用户行为数据可以是目标网站当前一段时间内之前的所有的用户行为数据,获取历史用户行为数据以便于通过对目标网站的历史用户行为数据建立训练集,判断当前用户行为数据是否出现异常。获取到目标网站的历史用户行为数据之后,对该历史用户行为数据进行分组,也即是对目标网站中历史用户行为记录进行分组,将分组后的各组数据分别存入不同的聚类中,该聚类可以是预先创建好的聚类,最后,将存入数据后的聚类作为训练集。不同的聚类作为不同维度的训练集,例如,在化妆品的网站中,可以构建两个维度的训练集:省份排名前10和搜索引擎排名前5。
根据本发明实施例,通过获取目标网站的历史用户行为数据,并通过该历史用户行为数据创建训练集,从而可以将目标网站当前用户行为数据与历史用户行为数据进行比较,对目标网站的用户行为进行分析,检测其是否出现异常,提高了异常检测的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于互联网用户行为分析的数据处理方法,其特征在于,包括:
获取目标网站的用户行为数据;
按照预设维度对所述用户行为数据进行计算,得到计算结果,其中,按照所述预设维度对所述用户行为数据进行计算包括按照所述预设维度对所述用户行为数据进行分类和统计,在所述预设维度包括多个维度时,则按照所述多个维度对所述用户行为数据分别进行计算;
获取所述预设维度下的训练集,其中,所述训练集包括通过对所有同领域的网站的所述用户行为数据进行统计得到的结果;
将所述计算结果与所述训练集进行比较,得到比较结果;以及
根据所述比较结果判断所述用户行为数据是否出现异常。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述比较结果判断所述用户行为数据是否出现异常包括:
获取所述计算结果相对于所述训练集的偏离度,所述偏离度用于表示所述计算结果与所述训练集的偏离程度;
判断所述偏离度是否超过预设阈值;
如果判断出所述计算结果超过所述预设阈值,则确定所述用户行为数据出现异常;以及
如果判断出所述计算结果未超过所述预设阈值,则确定所述用户行为数据未出现异常。
3.根据权利要求1所述的数据处理方法,其特征在于,所述预设维度包括第一维度和第二维度,获取的训练集为所述第一维度下的第一训练集和第二维度下的第二训练集,其中,根据所述比较结果判断所述用户行为数据是否出现异常包括:
获取所述计算结果相对于所述第一训练集的第一偏离度;
获取所述计算结果相对于所述第二训练集的第二偏离度;
判断所述第一偏离度和所述第二偏离度是否超过预设阈值;以及
如果判断出所述第一偏离度和所述第二偏离度均超过所述预设阈值,则确定所述用户行为数据出现异常。
4.根据权利要求1所述的数据处理方法,其特征在于,
获取目标网站的用户行为数据包括:在所述目标网站上嵌入数据采集插件,所述数据采集插件用于在所述目标网站采集数据;通过所述数据采集插件采集所述目标网站的当前用户行为数据,
在获取目标网站的用户行为数据之后,所述数据处理方法包括:将所述当前用户行为数据存入数据库。
5.根据权利要求1所述的数据处理方法,其特征在于,在获取所述预设维度下的训练集之前,所述数据处理方法还包括:
获取所述目标网站的历史用户行为数据;
对所述历史用户行为数据进行分组;以及
将分组后的数据存入预先创建的聚类中,将所述聚类作为所述训练集。
6.一种用于互联网用户行为分析的数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标网站的用户行为数据;
计算单元,用于按照预设维度对所述用户行为数据进行计算,得到计算结果,其中,所述计算单元用于按照所述预设维度对所述用户行为数据进行分类和统计,在所述预设维度包括多个维度时,则按照所述多个维度对所述用户行为数据分别进行计算;
第二获取单元,用于获取所述预设维度下的训练集,其中,所述训练集包括通过对所有同领域的网站的所述用户行为数据进行统计得到的结果;
比较单元,用于将所述计算结果与所述训练集进行比较,得到比较结果;以及
判断单元,用于根据所述比较结果判断所述用户行为数据是否出现异常。
7.根据权利要求6所述的数据处理装置,其特征在于,所述判断单元包括:
第一获取模块,用于获取所述计算结果相对于所述训练集的偏离度,所述偏离度用于表示所述计算结果与所述训练集的偏离程度;
第一判断模块,用于判断所述偏离度是否超过预设阈值;
第一确定模块,用于当判断出所述计算结果超过所述预设阈值时,确定所述用户行为数据出现异常;以及
第二确定模块,用于当判断出所述计算结果未超过所述预设阈值时,确定所述用户行为数据未出现异常。
8.根据权利要求6所述的数据处理装置,其特征在于,所述预设维度包括第一维度和第二维度,获取的训练集为所述第一维度下的第一训练集和第二维度下的第二训练集,其中,所述判断单元包括:
第二获取模块,用于获取所述计算结果相对于所述第一训练集的第一偏离度;
第三获取模块,用于获取所述计算结果相对于所述第二训练集的第二偏离度;
第二判断模块,用于判断所述第一偏离度和所述第二偏离度是否超过预设阈值;以及
第三确定模块,用于当判断出所述第一偏离度和所述第二偏离度均超过所述预设阈值时,确定所述用户行为数据出现异常。
9.根据权利要求6所述的数据处理装置,其特征在于,
所述第一获取单元包括:嵌入模块,用于在所述目标网站上嵌入数据采集插件,所述数据采集插件用于在所述目标网站采集数据;采集模块,用于通过所述数据采集插件采集所述目标网站的当前用户行为数据,
所述数据处理装置包括:存储单元,用于在获取目标网站的用户行为数据之后,将所述当前用户行为数据存入数据库。
10.根据权利要求6所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第三获取单元,用于在获取所述预设维度下的训练集之前,获取所述目标网站的历史用户行为数据;
分组单元,用于对所述历史用户行为数据进行分组;以及
存入单元,用于将分组后的数据存入预先创建的聚类中,将所述聚类作为所述训练集。
CN201410106000.XA 2014-03-20 2014-03-20 用于互联网用户行为分析的数据处理方法和装置 Active CN103886068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410106000.XA CN103886068B (zh) 2014-03-20 2014-03-20 用于互联网用户行为分析的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410106000.XA CN103886068B (zh) 2014-03-20 2014-03-20 用于互联网用户行为分析的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN103886068A CN103886068A (zh) 2014-06-25
CN103886068B true CN103886068B (zh) 2018-04-03

Family

ID=50954960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410106000.XA Active CN103886068B (zh) 2014-03-20 2014-03-20 用于互联网用户行为分析的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103886068B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268450B (zh) * 2014-09-11 2017-06-23 浙江工业大学 一种批量口令分级先验检验方法
CN106296254B (zh) * 2015-06-09 2021-06-25 腾讯科技(深圳)有限公司 一种曝光行为数据的管理方法及装置
CN106294508B (zh) * 2015-06-10 2020-02-11 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN106485504A (zh) * 2015-08-12 2017-03-08 阿里巴巴集团控股有限公司 一种对客服的操作行为进行判别的方法和设备
CN106603324A (zh) * 2015-10-20 2017-04-26 富士通株式会社 训练集的获取装置以及方法
CN105868252A (zh) * 2015-12-22 2016-08-17 乐视网信息技术(北京)股份有限公司 用户行为数据的处理方法和装置
CN105868256A (zh) * 2015-12-28 2016-08-17 乐视网信息技术(北京)股份有限公司 处理用户行为数据的方法和系统
CN107154880B (zh) * 2016-03-03 2020-12-15 创新先进技术有限公司 系统监控方法及装置
CN105975604B (zh) * 2016-05-12 2017-10-03 清华大学 一种分布迭代式数据处理程序异常检测与诊断方法
CN106202374A (zh) * 2016-07-07 2016-12-07 无锡天脉聚源传媒科技有限公司 一种数据处理方法及装置
CN108255696A (zh) * 2016-12-29 2018-07-06 航天信息软件技术有限公司 一种基于用户对网页操作行为采集的分析方法和系统
CN106790193B (zh) * 2016-12-30 2019-11-08 山石网科通信技术股份有限公司 基于主机网络行为的异常检测方法和装置
CN107908533B (zh) * 2017-06-15 2019-11-12 平安科技(深圳)有限公司 一种数据库性能指标的监测方法、装置、计算机可读存储介质及设备
CN107688658A (zh) * 2017-09-05 2018-02-13 北京奇艺世纪科技有限公司 一种异常数据的定位方法及装置
CN109600345A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 异常数据流量检测方法及装置
CN109598525B (zh) * 2017-09-30 2023-01-17 北京国双科技有限公司 数据处理方法和装置
CN107977303A (zh) * 2017-11-30 2018-05-01 努比亚技术有限公司 一种操作行为监控方法、移动终端以及计算机可读存储介质
CN108366274B (zh) * 2018-01-11 2020-09-01 北京奇艺世纪科技有限公司 一种刷播放量的检测方法和装置
CN109766956B (zh) * 2018-07-19 2022-08-23 西北工业大学 基于快递大数据的异常检测方法
CN109189642A (zh) * 2018-09-04 2019-01-11 广州供电局有限公司 基于插件的应用系统业务行为特征获取方法及监控系统
CN111552634A (zh) * 2020-03-30 2020-08-18 深圳壹账通智能科技有限公司 前端系统的测试方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719824A (zh) * 2009-11-24 2010-06-02 北京信息科技大学 一种基于网络行为检测的信任度评估系统和方法
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102890803A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 电子商品异常交易过程的确定方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201227385A (en) * 2010-12-16 2012-07-01 Univ Nat Taiwan Science Tech Method of detecting malicious script and system thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719824A (zh) * 2009-11-24 2010-06-02 北京信息科技大学 一种基于网络行为检测的信任度评估系统和方法
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102890803A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 电子商品异常交易过程的确定方法及其装置

Also Published As

Publication number Publication date
CN103886068A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN109559208A (zh) 一种信息推荐方法、服务器及计算机可读介质
CN106485562B (zh) 一种基于用户历史行为的商品信息推荐方法及系统
CN103455522B (zh) 应用程序扩展工具推荐方法及系统
US9400831B2 (en) Providing information recommendations based on determined user groups
TWI587229B (zh) Push method and device for product information
CN104662529B (zh) 用于高性能分析的数据精炼引擎的系统和方法
CN107862022B (zh) 文化资源推荐系统
CN106600372A (zh) 一种基于用户行为的商品推荐方法及系统
CN104281718B (zh) 一种基于用户群体行为数据挖掘智能推荐的方法
CN107797894B (zh) App用户行为分析方法和装置
CN109409928A (zh) 一种素材推荐方法、装置、存储介质、终端
CN104111938B (zh) 一种信息推荐的方法及装置
CN105260414B (zh) 用户行为相似性计算方法及装置
CN105469263A (zh) 一种商品推荐方法及装置
CN106649372A (zh) 热力图中广告点击量的展示方法和装置
CN104331817B (zh) 电子商务推荐模型的用户特征提取方法及系统
CN107153656A (zh) 一种信息搜索方法和装置
WO2013110357A1 (en) Social network analysis
CN106936778A (zh) 网站流量异常的检测方法和装置
JP2011227721A (ja) 関心抽出装置、関心抽出方法、及び関心抽出プログラム
CN108733791A (zh) 网络事件检测方法
CN109409940A (zh) 基于路径的浏览处理方法、装置、设备和存储介质
CN111815375A (zh) 广告投放中的用户画像方法及装置
CN110288362A (zh) 刷单的预测方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for Internet user behavior analysis

Effective date of registration: 20190531

Granted publication date: 20180403

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.