CN107193972A - 一种基于大数据的分类用户方法及装置 - Google Patents

一种基于大数据的分类用户方法及装置 Download PDF

Info

Publication number
CN107193972A
CN107193972A CN201710378969.6A CN201710378969A CN107193972A CN 107193972 A CN107193972 A CN 107193972A CN 201710378969 A CN201710378969 A CN 201710378969A CN 107193972 A CN107193972 A CN 107193972A
Authority
CN
China
Prior art keywords
user
sorted
data
dimension
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710378969.6A
Other languages
English (en)
Inventor
胡芯倩
李源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201710378969.6A priority Critical patent/CN107193972A/zh
Publication of CN107193972A publication Critical patent/CN107193972A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种基于大数据的分类用户方法及装置,该方法包括:获取至少一个待分类用户分别对应的用户网络行为数据;通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库;获取外部输入的维度;根据所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。因此,本发明提供的方案可以提高用户体验。

Description

一种基于大数据的分类用户方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于大数据的分类用户方法及装置。
背景技术
随着互联网技术的发展,越来越多的用户通过各个网站获取自己需要的数据资源,使得网站逐渐成为网络与用户之间沟通的桥梁。
目前,各个网站预先设定用户模型,当用户在网站中获取资源时,网站将预设的用户模型提供给用户。且网站为各类用户提供的模型均同为预定的用户模型,用户模型并未针对用户种类的不同而变化。
可见,现有的方式,并未对针对不同的用户提供不同的用户模型,因此,用户体验较差。
发明内容
本发明提供了一种基于大数据的分类用户方法及装置,可以提高用户体验。
第一方面,本发明提供了一种基于大数据的分类用户方法,该方法包括:
获取至少两个待分类用户分别对应的用户网络行为数据;
通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库;
获取外部输入的维度;
根据所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
优选地,
所述获取至少两个待分类用户分别对应的用户网络行为数据,包括:
获取所述至少两个待分类用户的访问权限;
根据所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据。
优选地,
所述通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库,包括:
确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;
利用处理后的各个所述用户网络行为数据,形成所述信息库。
优选地,
所述利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类,包括:
确定所述维度对应的至少一个层级;
确定与所述维度关联的每一个所述待分类用户对应的层级;
将每一个所述待分类用户分类到自身对应的层级。
优选地,
在所述利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类之后,进一步包括:
预先确定每一个所述层级对应的用户模型;
针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
优选地,
所述用户网络行为数据,包括:鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容中的至少一种或多种。
第二方面,本发明提供了一种基于大数据的分类用户装置,该装置包括:
数据获取单元,用于获取至少两个待分类用户分别对应的用户网络行为数据;
形成单元,用于通过预先设定的数据处理规则对所述数据获取单元获取的各个所述用户网络行为数据进行处理,形成信息库;
维度获取单元,用于获取外部输入的维度;
关联单元,用于根据所述维度获取单元获取的所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
分类单元,用于利用所述关联单元关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
优选地,
所述数据获取单元,包括:权限获取子单元和数据获取子单元;
所述权限获取子单元,用于获取所述至少两个待分类用户的访问权限;
所述数据获取子单元,用于根据所述权限获取子单元获取的所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据。
优选地,
所述形成单元,包括:确定子单元和形成子单元;
所述确定子单元,用于确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
所述形成子单元,用于针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;利用处理后的各个所述用户网络行为数据,形成所述信息库。
优选地,
所述分类单元,包括:层级确定子单元和分类子单元;
所述层级确定子单元,用于确定所述维度对应的至少一个层级;
所述分类子单元,用于确定与所述维度关联的每一个所述待分类用户对应的层级;将每一个所述待分类用户分类到自身对应的层级。
优选地,
进一步包括:模型提供单元;
所述模型提供单元,用于提供确定每一个所述层级制定对应的用户模型;针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
本发明实施例提供了一种基于大数据的分类用户方法及装置,获取两个或两个以上的待分类用户分别对应的用户网络行为数据,然后通过预设的数据处理规则对获取的各个用户网络行为数据进行处理,形成信息库。根据获取的维度以及形成的信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。再利用关联后的维度和各个待分类用户,对各个待分类用户进行分类。通过上述可知,本方案中可以根据获取的待分类用户分别对应的用户网络行为数据以及维度,对各个待分类用户进行分类,以可以根据不同类用户提供不同的用户模型。因此,本方案提供的方案可以提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种基于大数据的分类用户方法的流程图;
图2是本发明另一个实施例提供的一种基于大数据的分类用户方法的流程图;
图3是本发明一个实施例提供的一种基于大数据的分类用户装置所在设备的一种硬件结构图;
图4是本发明一个实施例提供的一种基于大数据的分类用户装置的结构示意图;
图5是本发明一个实施例提供的一种包括权限获取子单元和数据获取子单元的基于大数据的分类用户装置的结构示意图;
图6是本发明一个实施例提供的一种包括确定子单元和形成子单元的基于大数据的分类用户装置的结构示意图;
图7是本发明一个实施例提供的一种包括层级确定子单元和分类子单元的基于大数据的分类用户装置的结构示意图;
图8是本发明一个实施例提供的一种包括模型提供单元的基于大数据的分类用户装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于大数据的分类用户方法,该方法可以包括以下步骤:
步骤101:获取至少两个待分类用户分别对应的用户网络行为数据;
步骤102:通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库;
步骤103:获取外部输入的维度;
步骤104:根据所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
步骤105:利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
根据图1所示的实施例,获取两个或两个以上的待分类用户分别对应的用户网络行为数据,然后通过预设的数据处理规则对获取的各个用户网络行为数据进行处理,形成信息库。根据获取的维度以及形成的信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。再利用关联后的维度和各个待分类用户,对各个待分类用户进行分类。通过上述可知,本方案中可以根据获取的待分类用户分别对应的用户网络行为数据以及维度,对各个待分类用户进行分类,以可以根据不同类用户提供不同的用户模型。因此,本方案提供的实施例可以提高用户体验。
在本发明一个实施例中,在上述图1所示流程图中所涉及的用户网络行为数据,包括:鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容中的至少一种或多种。
在本实施例中,用户网络行为数据包括的具体内容可以根据业务要求确定。鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容只是优选的内容,还可以根据业务要求选择其他的内容。
在本实施例中,鼠标点击次数为用户在使用网站时,在网站中总计的点击次数。鼠标点击时间为用户在使用网站时,在网站中使用鼠标点击的总计时间。鼠标停留位置为用户在使用网站中的最后停留位置。鼠标经过位置为用户在使用网站时在网站中经过的各个位置。鼠标停留时间为用户在使用网站时在网站各个位置对应的停留时间。访问内容为用户在使用网站时访问的内容。键盘录入内容为用户在使用网站时,在网站中使用键盘录入的内容。
根据上述实施例,可以根据业务要求确定用户网络行为数据选择鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容中的至少一种或多种。因此业务适用性较强。
在本发明一个实施例中,上述图1所示流程图中步骤101获取至少两个待分类用户分别对应的用户网络行为数据,可以包括:
获取所述至少两个待分类用户的访问权限;
根据所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据。
在本实施例中,在获取各个待分类用户对应的用户网络行为数据之间前,需要获取各个待分类用户的访问权限,以根据访问权限来获取用户网络行为数据。如果没有获取待分类用户的访问权限时,是无法获取待分类用户对应的用户网络行为数据的,即使获取了也是属于非法获取。
在本实施例中,获取各个待分类用户对应的用户网络行为数据的方法可以根据业务要求确定。比如可以采用JavaScript获取。
在本实施例中,比如获取了待分类用户A的访问权限。则在获取待分类用户A对应的用户网络行为数据时,可以根据获取的访问权限进行用户网络行为数据的获取。
根据上述实施例,在获取各个待分类用户分别对应的用户网络行为数据时,首先要获取各个待分类用户的访问权限,然后根据访问权限,获取各个待分类用户分别对应的用户网络行为数据。由于用户网络行为数据获取是在获得访问权限的条件进行的,因此用户网络行为数据获取的合法性较高。
在本发明一个实施例中,上述图1所示流程图中步骤102通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库,可以包括:
确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;
利用处理后的各个所述用户网络行为数据,形成所述信息库。
在本实施例中,处理参数和条件参数的具体型式均可以根据业务要求确定。需要注意的是,在确定时处理参数要与条件参数一一对应。处理参数可以包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种只是优选的方式,还可以根据业务要求进行相应的增加和修改。
在本实施例中,对各个用户网络行为数据进行处理采用的程序可以根据业务要求确定,比如可以通过java进行。
在本实施例中,当处理参数包括数据长度时,确定的条件参数为长度阈值,比较当前处理参数对应的目标数据和条件参数,根据比较结果,得到处理后的用户网络行为数据,包括:比较数据长度对应的长度阈值与目标数据,当目标数据大于长度阈值时,按照长度阈值拆分用户网络行为数据,待拆分完成后得到处理后的用户网络行为数据。
在本实施例中,当处理参数包括合法情况时,确定的条件参数为非法字符串,比较当前处理参数对应的目标数据和条件参数,根据比较结果,得到处理后的用户网络行为数据,包括:比较合法情况对应的非法字符串与目标数据,当目标数据中所述非法字符串时,将包括非法字符串的目标数据过滤掉,得到处理后的用户网络行为数据。
在本实施例中,当处理参数包括格式状态时,确定的条件参数为预设格式,比较当前处理参数对应的目标数据和条件参数,根据比较结果,得到处理后的用户网络行为数据,包括:比较格式状态对应的预设格式与目标数据,当目标数据与预设格式不一致时,将目标数据过滤掉,得到处理后的用户网络行为数据。
在本实施例中,当处理参数包括重复状态时,确定的条件参数为标题字符串,比较当前处理参数对应的目标数据和条件参数,根据比较结果,得到处理后的用户网络行为数据,包括:比较重复状态对应的标题字符串与目标数据,当目标数据与标题字符串一致时,将目标数据过滤掉,得到处理后的用户网络行为数据。
在本实施例中,当对各个用户网络行为数据进行处理之后,利用处理之后的各个用户网络行为数据形成信息库。形成信息库的方法可以根据业务要求确定,比如可以通过Oracle形成数据库。
根据上述实施例,利用各个处理参数和各个条件参数对各个用户网络行为数据进行处理,以去除各个用户网络行为数据中的无效数据。然后利用处理后的各个用户网络行为数据形成信息库。由于信息库中的各个用户网络行为数据均为处理后的数据,因此,信息库中的各个数据较为准确。
在本发明一个实施例中,上述图1所示流程图中步骤105利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类,可以包括:
确定所述维度对应的至少一个层级;
确定与所述维度关联的每一个所述待分类用户对应的层级;
将每一个所述待分类用户分类到自身对应的层级。
在本实施例中,维度的种类可以根据业务要求确定。比如维度可以是年龄、地域、职业等。另外,维度对应层级的数量和范围均可以根据业务要求确定。比如当维度为年龄时,可以确定年龄对应3个层级,分别为层级一:1岁到20岁、层级二:21岁到50岁、层级三:51岁到100岁。又如当维度为地域时,可以确定地域对应3个层级,分别为层级一:一线城市、层级二:二线城市、层级三:三线城市。
在本实施例中,比如确定维度年龄对应的层级分别为层级一:1岁到20岁、层级二:21岁到50岁、层级三:51岁到100岁。确定与年龄关联的待分类用户A对应的层级为层级一、待分类用户B对应的层级为层级二、待分类用户C对应的层级为层级三。则将待分类用户A分类到层级一、待分类用户B分类到层级二、待分类用户C分类到层级三。
根据上述实施例,通过确定维度对应的各个层级,然后确定各个待分类用户分别对应的层级,将各个待分类用户分类到其自身对应的层级中。由于用户的分类根据各个待分类用户自身对应的层级确定,因此待分类用户分类较为准确。
在本发明一个实施例中,在上述图1所示流程图步骤105利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类之后,可以进一步包括:
预先确定每一个所述层级对应的用户模型;
针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
在本实施例中,每一个层级对应的用户模型均可以根据业务要求确定。比如当维度为年龄时,对应的层级分别为层级一:1岁到20岁、层级二:21岁到50岁、层级三:51岁到100岁。可以制定层级一对应的用户模型符合1岁到20岁用户的需求,比如网站颜色为鲜艳的颜色;制定层级二对应的用户模型符合21岁到50岁用户的需求,比如网站颜色为可以减少视觉疲劳的豆绿色;制定层级三对应的用户模型符合51岁到100岁用户的需求,比如网站字体为大号字体。
在本实施例中,比如确定层级一对应的用户为待分类用户A、待分类用户B以及待分类用户C。则将层级一对应的用户模型1提供给待分类用户A、待分类用户B以及待分类用户C,以使待分类用户A、待分类用户B以及待分类用户C在用户模型1下使用网站。
根据上述实施例,预先确定各个层级对应的用户模型,然后确定各个层级分别对应的各个待分类用户,并将每一个层级对应的用户模型提供给该层级对应的各个待分类用户。由于每一个待分类用户使用其所在层级对应的用户模型,因此用户体验较佳。
下面以对网站A的用户进行分类为例。展开说明基于大数据的分类用户方法,如图2所示,该基于大数据的分类用户方法可以包括如下步骤:
步骤201:获取至少两个待分类用户的访问权限。
在本步骤中,获取待分类用户A和待分类用户B的访问权限。
步骤202:根据访问权限,获取至少两个待分类用户分别对应的用户网络行为数据。
在本步骤中,根据步骤201中获取的访问权限,获取待分类用户A访问网站A对应的用户网络行为数据1以及获取待分类用户B访问网站B对应的用户网络行为数据2。
步骤203:确定用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数。
在本实施例中,确定处理参数包括:数据长度、合法状态、格式状态、重复状态;数据长度对应的条件参数为长度阈值、合法状态对应的条件参数为非法字符串、格式状态对应的条件参数为预设格式、重复状态对应的条件参数为标题字符串。
步骤204:依次在各个用户网络行为数据中,选择一个用户网络行为数据作为当前用户网络行为数据。
步骤205:在当前用户网络行为数据中抽取每一个处理参数对应的目标数据。
在本步骤中,以待分类用户A对应的用户网络行为数据为当前用户网络行为数据为例进行说明。比如抽取数据长度为30MB。
步骤206:针对于每一个处理参数均执行:比较当前处理参数对应的目标数据和条件参数,根据比较结果,得到处理后的当前用户网络行为数据。
在本实施例中,以待分类用户A对应的用户网络行为数据为当前用户网络行为数据为例进行说明。比如比较数据长度对应的长度阈值15MB与目标数据30MB,可见当目标数据30MB大于长度阈值15MB,按照长度阈值15MB拆分用户网络行为数据1,待拆分完成后得到处理后的用户网络行为数据1。
步骤207:判断当前用户网络行为数据是否为最后一个网络行为数据,如果是,执行步骤208,否则,执行步骤204。
步骤208:利用处理后的各个用户网络行为数据,形成信息库。
步骤209:获取外部输入的维度。
在本实施例中,比如获取的维度为年龄。
步骤210:根据维度以及信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。
在本步骤中,将信息库中各个待分类用户中关于年龄的数据与年龄维度进行关联。
步骤211:确定维度对应的至少一个层级。
在本步骤中,确定年龄对应3个层级,分别为层级一:1岁到20岁、层级二:21岁到50岁、层级三:51岁到100岁。
步骤212:确定与维度关联的每一个待分类用户对应的层级。
在本步骤中,确定待分类用户A为层级一、待分类用户B为层级二。
步骤213:将每一个待分类用户分类到自身对应的层级。
在本步骤中,将待分类用户A分类到层级一以及将待分类用户B分类到层级二。
步骤214:确定每一个层级制定对应的用户模型。
在本步骤中,确定层级一对应的用户模型为用户模型1、确定层级二对应的用户模型为用户模型2。
步骤215:依次在各个层级中,选择一个层级作为当前层级。
步骤216:确定当前层级对应的各个待分类用户,将当前层级对应的用户模型提供给确定的各个待分类用户。
在本步骤中,当当前层级为层级一时,确定对应的待分类用户为待分类用户A,则将用户模型1提供给待分类用户A。
在本步骤中,当当前层级为层级二时,确定对应的待分类用户为待分类用户B,则将用户模型2提供给待分类用户B。
步骤217:判断当前层级是否为最后一个层级,如果是,结束当前流程,否则,执行步骤215。
如图3、图4所示,本发明实施例提供了一种基于大数据的分类用户装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的基于大数据的分类用户装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的基于大数据的分类用户装置,包括:
数据获取单元401,用于获取至少两个待分类用户分别对应的用户网络行为数据;
形成单元402,用于通过预先设定的数据处理规则对所述数据获取单元401获取的各个所述用户网络行为数据进行处理,形成信息库;
维度获取单元403,用于获取外部输入的维度;
关联单元404,用于根据所述维度获取单元403获取的所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
分类单元405,用于利用所述关联单元404关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
根据如图4所示的实施例,利用形成单元通过预先设定的数据处理规则对数据获取单元获取的各个用户网络行为数据进行处理,形成信息库。然后利用关联单元根据维度获取单元获取的维度以及信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。然后分类单元再利用关联单元关联后的维度和各个待分类用户,对各个待分类用户进行分类。通过上述可知,本方案中可以根据获取的待分类用户分别对应的用户网络行为数据以及维度,对各个待分类用户进行分类,以可以根据不同类用户提供不同的用户模型。因此,本方案提供的实施例可以提高用户体验。
在本发明一个实施例中,如图5所示,所述数据获取单元401可以包括:权限获取子单元501和数据获取子单元502;
所述权限获取子单元501,用于获取所述至少两个待分类用户的访问权限;
所述数据获取子单元502,用于根据所述权限获取子单元501获取的所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据。
在本发明一个实施例中,如图6所示,所述形成单元402可以包括:确定子单元601和形成子单元602;
所述确定子单元601,用于确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
所述形成子单元602,用于针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;利用处理后的各个所述用户网络行为数据,形成所述信息库。
在本发明一个实施例中,如图7所示,所述分类单元405可以包括:层级确定子单元701和分类子单元702;
所述层级确定子单元701,用于确定所述维度对应的至少一个层级;
所述分类子单元702,用于确定与所述维度关联的每一个所述待分类用户对应的层级;将每一个所述待分类用户分类到自身对应的层级。
在本发明一个实施例中,如图8所示,基于大数据的分类用户装置可以进一步包括:模型提供单元801;
所述模型提供单元801,用于预先确定每一个所述层级对应的用户模型;针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
综上所述,本发明各个实施例至少可以实现如下有益效果:
1、在本发明实施例中,获取两个或两个以上的待分类用户分别对应的用户网络行为数据,然后通过预设的数据处理规则对获取的各个用户网络行为数据进行处理,形成信息库。根据获取的维度以及形成的信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。再利用关联后的维度和各个待分类用户,对各个待分类用户进行分类。通过上述可知,本方案中可以根据获取的待分类用户分别对应的用户网络行为数据以及维度,对各个待分类用户进行分类,以可以根据不同类用户提供不同的用户模型。因此,本方案提供的实施例可以提高用户体验。
2、在本发明实施例中,可以根据业务要求确定用户网络行为数据选择鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容中的至少一种或多种。因此业务适用性较强。
3、在本发明实施例中,在获取各个待分类用户分别对应的用户网络行为数据时,首先要获取各个待分类用户的访问权限,然后根据访问权限,获取各个待分类用户分别对应的用户网络行为数据。由于用户网络行为数据获取是在获得访问权限的条件进行的,因此用户网络行为数据获取的合法性较高。
4、在本发明实施例中,利用各个处理参数和各个条件参数对各个用户网络行为数据进行处理,以去除各个用户网络行为数据中的无效数据。然后利用处理后的各个用户网络行为数据形成信息库。由于信息库中的各个用户网络行为数据均为处理后的数据,因此,信息库中的各个数据较为准确。
5、在本发明实施例中,通过确定维度对应的各个层级,然后确定各个待分类用户分别对应的层级,将各个待分类用户分类到其自身对应的层级中。由于用户的分类根据各个待分类用户自身对应的层级确定,因此待分类用户分类较为准确。
6、在本发明实施例中,预先确定各个层级对应的用户模型,然后确定各个层级分别对应的各个待分类用户,并将每一个层级对应的用户模型提供给该层级对应的各个待分类用户。由于每一个待分类用户使用其所在层级对应的用户模型,因此用户体验较佳。
7、在本发明实施例中,利用形成单元通过预先设定的数据处理规则对数据获取单元获取的各个用户网络行为数据进行处理,形成信息库。然后
利用关联单元根据维度获取单元获取的维度以及信息库中各个用户网络行为数据,将维度与信息库中的各个待分类用户进行关联。然后分类单元再利用关联单元关联后的维度和各个待分类用户,对各个待分类用户进行分类。通过上述可知,本方案中可以根据获取的待分类用户分别对应的用户网络行为数据以及维度,对各个待分类用户进行分类,以可以根据不同类用户提供不同的用户模型。因此,本方案提供的实施例可以提高用户体验。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于大数据的分类用户方法,其特征在于,包括:
获取至少两个待分类用户分别对应的用户网络行为数据;
通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库;
获取外部输入的维度;
根据所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
2.根据权利要求1所述的方法,其特征在于,
所述获取至少两个待分类用户分别对应的用户网络行为数据,包括:
获取所述至少两个待分类用户的访问权限;
根据所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据。
3.根据权利要求1所述的方法,其特征在于,
所述通过预先设定的数据处理规则对各个所述用户网络行为数据进行处理,形成信息库,包括:
确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;
利用处理后的各个所述用户网络行为数据,形成所述信息库。
4.根据权利要求1所述的方法,其特征在于,
所述利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类,包括:
确定所述维度对应的至少一个层级;
确定与所述维度关联的每一个所述待分类用户对应的层级;
将每一个所述待分类用户分类到自身对应的层级。
5.根据权利要求4所述的方法,其特征在于,
在所述利用关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类之后,进一步包括:
预先确定每一个所述层级对应的用户模型;
针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
6.根据权利要求1至4任一所述的方法,其特征在于,
所述用户网络行为数据,包括:鼠标点击次数、鼠标点击时间、鼠标停留位置、鼠标经过位置、鼠标停留时间、访问内容、键盘录入内容中的至少一种或多种。
7.一种基于大数据的分类用户装置,其特征在于,包括:
数据获取单元,用于获取至少两个待分类用户分别对应的用户网络行为数据;
形成单元,用于通过预先设定的数据处理规则对所述数据获取单元获取的各个所述用户网络行为数据进行处理,形成信息库;
维度获取单元,用于获取外部输入的维度;
关联单元,用于根据所述维度获取单元获取的所述维度以及所述信息库中各个用户网络行为数据,将所述维度与所述信息库中的各个所述待分类用户进行关联;
分类单元,用于利用所述关联单元关联后的所述维度和各个所述待分类用户,对各个所述待分类用户进行分类。
8.根据权利要求7所述的装置,其特征在于,
所述数据获取单元,包括:权限获取子单元和数据获取子单元;
所述权限获取子单元,用于获取所述至少两个待分类用户的访问权限;
所述数据获取子单元,用于根据所述权限获取子单元获取的所述访问权限,获取所述至少两个待分类用户分别对应的用户网络行为数据;
和/或,
所述形成单元,包括:确定子单元和形成子单元;
所述确定子单元,用于确定所述用户网络行为数据对应的至少一个处理参数,以及确定至少一个条件参数;其中,所述处理参数包括:数据长度、合法状态、格式状态、重复状态中的任意一种或多种;所述数据长度对应的条件参数为长度阈值、所述合法状态对应的条件参数为非法字符串、所述格式状态对应的条件参数为预设格式、所述重复状态对应的条件参数为标题字符串;
所述形成子单元,用于针对于每一个所述用户网络行为数据均执行:在所述用户网络行为数据中抽取每一个所述处理参数对应的目标数据;针对于每一个所述处理参数均执行:比较当前所述处理参数对应的所述目标数据和所述条件参数,根据比较结果,得到处理后的所述用户网络行为数据;利用处理后的各个所述用户网络行为数据,形成所述信息库。
9.根据权利要求7所述的装置,其特征在于,
所述分类单元,包括:层级确定子单元和分类子单元;
所述层级确定子单元,用于确定所述维度对应的至少一个层级;
所述分类子单元,用于确定与所述维度关联的每一个所述待分类用户对应的层级;将每一个所述待分类用户分类到自身对应的层级。
10.根据权利要求9所述的装置,其特征在于,
进一步包括:模型提供单元;
所述模型提供单元,用于预先确定每一个所述层级对应的用户模型;针对每一个所述层级均执行:确定当前所述层级对应的各个所述待分类用户,将当前所述层级对应的用户模型提供给确定的各个所述待分类用户。
CN201710378969.6A 2017-05-25 2017-05-25 一种基于大数据的分类用户方法及装置 Pending CN107193972A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710378969.6A CN107193972A (zh) 2017-05-25 2017-05-25 一种基于大数据的分类用户方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710378969.6A CN107193972A (zh) 2017-05-25 2017-05-25 一种基于大数据的分类用户方法及装置

Publications (1)

Publication Number Publication Date
CN107193972A true CN107193972A (zh) 2017-09-22

Family

ID=59874506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710378969.6A Pending CN107193972A (zh) 2017-05-25 2017-05-25 一种基于大数据的分类用户方法及装置

Country Status (1)

Country Link
CN (1) CN107193972A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN103491110A (zh) * 2012-06-11 2014-01-01 上海博路信息技术有限公司 一种基于移动动态数据引擎的信息系统
CN104462320A (zh) * 2014-12-01 2015-03-25 中国联合网络通信集团有限公司 一种实现网络用户分类的方法及装置
CN105306815A (zh) * 2015-09-30 2016-02-03 努比亚技术有限公司 一种拍摄模式切换装置、方法及移动终端
US20160092774A1 (en) * 2014-09-29 2016-03-31 Pivotal Software, Inc. Determining and localizing anomalous network behavior
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN105959806A (zh) * 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
CN105989004A (zh) * 2015-01-27 2016-10-05 阿里巴巴集团控股有限公司 一种信息投放的预处理方法和装置
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN103491110A (zh) * 2012-06-11 2014-01-01 上海博路信息技术有限公司 一种基于移动动态数据引擎的信息系统
US20160092774A1 (en) * 2014-09-29 2016-03-31 Pivotal Software, Inc. Determining and localizing anomalous network behavior
CN104462320A (zh) * 2014-12-01 2015-03-25 中国联合网络通信集团有限公司 一种实现网络用户分类的方法及装置
CN105989004A (zh) * 2015-01-27 2016-10-05 阿里巴巴集团控股有限公司 一种信息投放的预处理方法和装置
CN106294508A (zh) * 2015-06-10 2017-01-04 深圳市腾讯计算机系统有限公司 一种刷量工具检测方法及装置
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN105306815A (zh) * 2015-09-30 2016-02-03 努比亚技术有限公司 一种拍摄模式切换装置、方法及移动终端
CN105959806A (zh) * 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
CN105873119A (zh) * 2016-05-26 2016-08-17 重庆大学 一种移动网络用户群体流量使用行为的分类方法
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置

Similar Documents

Publication Publication Date Title
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
JP5460887B2 (ja) 分類ルール生成装置及び分類ルール生成プログラム
CN105824802A (zh) 一种获取知识图谱向量化表示的方法以及装置
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN108959474B (zh) 实体关系提取方法
CN109885828A (zh) 基于语言模型的词语纠错方法、装置、计算机设备及介质
CN110209819A (zh) 文本分类方法、装置、设备和介质
WO2020063524A1 (zh) 一种法律文书的确定方法及系统
CN106934023A (zh) 一种数据管理方法及装置
CN110263817B (zh) 一种基于用户账号的风险等级划分方法及装置
CN106168968A (zh) 一种网站分类方法及装置
CN110162472A (zh) 一种基于fuzzing测试的测试用例生成方法
CN106874340A (zh) 一种网页地址分类方法及装置
CN112347138A (zh) 一种策略匹配方法、装置、设备及可读存储介质
CN104021220B (zh) 基于显著性模型的图像检索方法
CN112001484A (zh) 一种基于多任务深度学习的安全缺陷报告预测方法
CN115277065B (zh) 一种物联网异常流量检测中的对抗攻击方法及装置
CN111160797A (zh) 风控模型的构建方法、装置、存储介质及终端
CN107193972A (zh) 一种基于大数据的分类用户方法及装置
CN107256252A (zh) 一种第三方多维数据迁移方法及装置
CN105740830B (zh) 基于验证手段的电子签字鉴定方法
CN107463845A (zh) 一种sql注入攻击的检测方法、系统和计算机处理设备
CN107766216A (zh) 一种用于获取应用执行信息的方法与设备
CN106776654A (zh) 一种数据搜索方法及装置
CN109766500B (zh) 一种基于集成学习的url清洗系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190711

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co., Ltd.

Address before: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Applicant before: Shandong wave cloud services Mdt InfoTech Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922