CN113901099A - 一种基于大数据的用户分类方法及系统 - Google Patents
一种基于大数据的用户分类方法及系统 Download PDFInfo
- Publication number
- CN113901099A CN113901099A CN202010870723.2A CN202010870723A CN113901099A CN 113901099 A CN113901099 A CN 113901099A CN 202010870723 A CN202010870723 A CN 202010870723A CN 113901099 A CN113901099 A CN 113901099A
- Authority
- CN
- China
- Prior art keywords
- user
- webpage
- user preference
- big data
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供一种基于大数据的用户分类方法及系统,其中方法为:获得新用户对应的移动端应用程序使用信息中包括的用户标识的用户访问过的网页内容;所述移动端应用程序使用信息为通过应用程序运营平台统计或监控随时用户的访问记录获得的信息;对所述网页内容进行数据挖掘操作得到第一用户偏好特征;根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别。本公开实施例基于这些移动端应用程序使用信息来确定新用户喜好,确定新用户喜好的效率也可以得到较大的提高,且通过对用户访问信息进行分组的方式,提高了对新用户数据挖掘准确程度。
Description
技术领域
本公开涉及大数据技术领域,具体而言,涉及一种基于大数据的用户分类方法及系统。
背景技术
在大数据技术的飞速发展下,新用户的发展速度越来越快,用户的喜好在不断更新变化,在许多领域涌现出大量的新的热门领域。
用户在访问网页时,通常会留下访问记录,现有技术中一般通过识别网页内容,来确定用户喜好的内容。然而,由于新的网络内容的产生、传播速度快,更新特别频繁等特点,导致一些新的网络内容在很多情况下是未进行分类归纳整理的,遂造成用户数据挖掘速度远远滞后于新用户的出现速度。而现有的用户画像技术也通常对单一用户进行数据挖掘,并不涉及对挖掘后的用户进行分类,由此可能会造成挖掘结果并非用户期望,降低了数据挖掘的准确性。
发明内容
为了至少克服现有技术中的上述不足,本公开的目的在于提供一种基于大数据的用户分类方法及系统。
第一方面,本公开提供一种基于大数据的用户分类方法,包括:
获得新用户对应的移动端应用程序使用信息中包括的用户标识的用户访问过的网页内容;所述移动端应用程序使用信息为通过应用程序运营平台统计或监控随时用户的访问记录获得的信息;
对所述网页内容进行数据挖掘操作得到第一用户偏好特征;
根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别。
在一个可能的实施例中,所述对网页内容进行数据挖掘操作得到第一用户偏好特征包括:
对所述网页内容进行数据挖掘操作得到至少一个网页主题词汇组合,从所述至少一个网页主题词汇组合中去除部分网页主题词汇组合,所述部分网页主题词汇组合为不包括所述新用户的网页内容所包括的网页主题词汇组合;
从去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中确定所述第一用户偏好特征。
在一个可能的实施例中,所述从去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中确定所述第一用户偏好特征,包括:
获得去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中的每个网页主题词汇组合的关注权重值;
按照关注权重值从高到低的顺序,获得所述剩余的网页主题词汇组合中关注权重值靠前的所述第一网页主题词汇组合,所述第一网页主题词汇组合为所述第一用户偏好特征。
在一个可能的实施例中,所述根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别,包括:
获得所述用户喜好类型列表中每种类别的预测权重期望,以及获得所述第一用户偏好特征中的每个用户偏好特征在每种类别下的使用占比权重;
根据获得的预测权重期望和使用占比权重,获得所述第一用户偏好特征对应于每种类别的加和权重;
确定加和权重最高的类别为所述新用户的类别。
第三方面,本公开还提供一种基于大数据的用户分类系统,所述大数据服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个客户端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行第一方面或者第一方面中任意一个可能的设计中的基于大数据的用户分类方法。
第四方面,本公开提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的设计中的基于大数据的用户分类方法。
基于上述任意一个方面本发明实施例中,可以根据移动端应用程序使用信息来获取访问记录,有大量的用户每天都在不断地访问网页,可能在很短的时间内就可以产生大量的有效的移动端应用程序使用信息,可见,移动端应用程序使用信息的数据量巨大,那么,基于这些移动端应用程序使用信息来确定新用户喜好,确定新用户喜好的效率也可以得到较大的提高,且通过对用户访问信息进行分组的方式,提高了对新用户数据挖掘准确程度。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本公开实施例提供的基于大数据的用户分类系统的应用场景示意图;
图2为本公开实施例提供的基于大数据的用户分类方法的流程示意图;
图3为本公开实施例提供的基于大数据的用户分类装置的功能模块示意图;
图4为本公开实施例提供的用于实现上述的基于大数据的用户分类方法的大数据服务器的结构示意框图。
具体实施方式
下面结合说明书附图对本公开进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
图1是本公开一种实施例提供的基于大数据的用户分类系统10的应用场景示意图。基于大数据的用户分类系统10可以包括大数据服务器100以及与所述大数据服务器100通信连接的客户端200。图1所示的基于大数据的用户分类系统10仅为一种可行的示例,在其它可行的实施例中,该基于大数据的用户分类系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
本实施例中,客户端200可以包括移动设备、平板计算机、膝上型计算机等或其任意组合。在一些实施例中,移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等,或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理、游戏设备等,或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等,或其任意组合。例如,虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。
本实施例中,基于大数据的用户分类系统10中的大数据服务器100和客户端200可以通过配合执行以下方法实施例所描述的基于大数据的用户分类方法,具体大数据服务器100和客户端200的执行步骤部分可以参照以下方法实施例的详细描述。
为了解决前述背景技术中的技术问题,图2为本公开实施例提供的基于大数据的用户分类方法的流程示意图,本实施例提供的基于大数据的用户分类方法可以由图1中所示的大数据服务器100执行,下面对该基于大数据的用户分类方法进行详细介绍。
步骤S110,获得新用户对应的移动端应用程序使用信息中包括的用户标识的用户访问过的网页内容;所述移动端应用程序使用信息为通过应用程序运营平台统计或监控随时用户的访问记录获得的信息。
步骤S120,对所述网页内容进行数据挖掘操作得到第一用户偏好特征。
步骤S130,根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别。
在一个可能的实施例中,步骤S120进一步包括:
步骤S1201,对所述网页内容进行数据挖掘操作得到至少一个网页主题词汇组合,从所述至少一个网页主题词汇组合中去除部分网页主题词汇组合,所述部分网页主题词汇组合为不包括所述新用户的网页内容所包括的网页主题词汇组合;
步骤S1202,从去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中确定所述第一用户偏好特征。
在一个可能的实施例中,步骤S122进一步包括:
步骤S1221,获得去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中的每个网页主题词汇组合的关注权重值;
步骤S1222,按照关注权重值从高到低的顺序,获得所述剩余的网页主题词汇组合中关注权重值靠前的所述第一网页主题词汇组合,所述第一网页主题词汇组合为所述第一用户偏好特征。
在一个可能的实施例中,步骤S130进一步包括:
步骤S1301,获得所述用户喜好类型列表中每种类别的预测权重期望,以及获得所述第一用户偏好特征中的每个用户偏好特征在每种类别下的使用占比权重;
步骤S1302,根据获得的预测权重期望和使用占比权重,获得所述第一用户偏好特征对应于每种类别的加和权重;
步骤S1303,确定加和权重最高的类别为所述新用户的类别。
图3为本公开实施例提供的基于大数据的用户分类装置300的功能模块示意图,本实施例可以根据上述大数据服务器100执行的方法实施例对该基于大数据的用户分类装置300进行功能模块的划分,也即该基于大数据的用户分类装置300所对应的以下各个功能模块可以用于执行上述大数据服务器100执行的各个方法实施例。其中,该基于大数据的用户分类装置300可以包括获取模块310、挖掘模块320、类别确定模块330,下面分别对该基于大数据的用户分类装置300的各个功能模块的功能进行详细阐述。
获取模块310可以用于执行上述的步骤S110,即用于获得新用户对应的移动端应用程序使用信息中包括的用户标识的用户访问过的网页内容;所述移动端应用程序使用信息为通过应用程序运营平台统计或监控随时用户的访问记录获得的信息。
挖掘模块320可以用于执行上述的步骤S120,即用于对所述网页内容进行数据挖掘操作得到第一用户偏好特征。
类别确定模块330可以用于执行上述的步骤S130,即用于根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块310可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上获取模块310的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
图4示出了本公开实施例提供的用于实现上述的控制设备的大数据服务器100的硬件结构示意图,如图4所示,大数据服务器100可包括处理器110、机器可读存储介质120、总线130以及收发器140。
在具体实现过程中,至少一个处理器110执行所述机器可读存储介质120存储的计算机执行指令(例如图3中所示的基于大数据的用户分类装置300包括的),使得处理器110可以执行如上方法实施例的基于大数据的用户分类方法,其中,处理器110、机器可读存储介质120以及收发器140通过总线130连接,处理器110可以用于控制收发器140的收发动作,从而可以与前述的客户端200进行数据收发。
处理器110的具体实现过程可参见上述大数据服务器100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图4所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,DSP)、专用集成电路(英文:ApplicationSpecificIntegrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
机器可读存储介质120可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线130可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
此外,本公开实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上基于大数据的用户分类方法。
上述的可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
Claims (6)
1.一种基于大数据的用户分类方法,其特征在于,包括:
获得新用户对应的移动端应用程序使用信息中包括的用户标识的用户访问过的网页内容;所述移动端应用程序使用信息为通过应用程序运营平台统计或监控随时用户的访问记录获得的信息;
对所述网页内容进行数据挖掘操作得到第一用户偏好特征;
根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别。
2.如权利要求1所述的方法,其特征在于,所述对网页内容进行数据挖掘操作得到第一用户偏好特征包括:
对所述网页内容进行数据挖掘操作得到至少一个网页主题词汇组合,从所述至少一个网页主题词汇组合中去除部分网页主题词汇组合,所述部分网页主题词汇组合为不包括所述新用户的网页内容所包括的网页主题词汇组合;
从去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中确定所述第一用户偏好特征。
3.如权利要求2所述的方法,其特征在于,所述从去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中确定所述第一用户偏好特征,包括:
获得去除所述部分网页主题词汇组合后剩余的网页主题词汇组合中的每个网页主题词汇组合的关注权重值;
按照关注权重值从高到低的顺序,获得所述剩余的网页主题词汇组合中关注权重值靠前的所述第一网页主题词汇组合,所述第一网页主题词汇组合为所述第一用户偏好特征。
4.如权利要求3所述的方法,其特征在于,所述根据所述第一用户偏好特征以及所述用户偏好特征对应的用户喜好类型列表,确定所述新用户的类别,包括:
获得所述用户喜好类型列表中每种类别的预测权重期望,以及获得所述第一用户偏好特征中的每个用户偏好特征在每种类别下的使用占比权重;
根据获得的预测权重期望和使用占比权重,获得所述第一用户偏好特征对应于每种类别的加和权重;
确定加和权重最高的类别为所述新用户的类别。
5.一种基于大数据的用户分类系统,该系统包含大数据服务器,其特征在于,所述大数据服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个客户端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-4中任意一项的基于大数据的用户分类方法。
6.一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令用于执行如权利要求1-4中任意一项的基于大数据的用户分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010870723.2A CN113901099A (zh) | 2020-08-26 | 2020-08-26 | 一种基于大数据的用户分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010870723.2A CN113901099A (zh) | 2020-08-26 | 2020-08-26 | 一种基于大数据的用户分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901099A true CN113901099A (zh) | 2022-01-07 |
Family
ID=79186161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010870723.2A Withdrawn CN113901099A (zh) | 2020-08-26 | 2020-08-26 | 一种基于大数据的用户分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901099A (zh) |
-
2020
- 2020-08-26 CN CN202010870723.2A patent/CN113901099A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112187890B (zh) | 基于云计算和大数据的信息分发方法及区块链金融云中心 | |
CN112069406B (zh) | 基于区块链离线支付的信息推送方法及云服务推送平台 | |
CN111163072A (zh) | 机器学习模型中特征值的确定方法、装置及电子设备 | |
CN112084068A (zh) | 一种数据库远程备份方法、装置和云端服务器 | |
CN109656670B (zh) | 一种页面渲染方法及装置 | |
CN113901099A (zh) | 一种基于大数据的用户分类方法及系统 | |
CN107562533B (zh) | 一种数据加载处理方法及装置 | |
CN107451050B (zh) | 函数获取方法和装置、服务器 | |
CN113207026A (zh) | 一种视频推荐方法、装置及云服务器 | |
CN113794906A (zh) | 一种视频推荐方法、装置及云视频服务器 | |
CN109542531B (zh) | 一种文件布局调整方法及装置 | |
CN108509478B (zh) | 规则引擎文件的拆分调用方法、电子装置及存储介质 | |
CN113434436A (zh) | 测试用例的生成方法、装置、电子设备及存储介质 | |
CN112837158A (zh) | 基于云计算技术的股票数据采集和存储方法、装置及系统 | |
CN110990278A (zh) | 一种测试方法及装置 | |
CN110875874B (zh) | 一种电子红包检测方法、装置及移动终端 | |
CN114071186A (zh) | 一种视频云编辑方法、装置及云剪辑服务器 | |
CN114398515A (zh) | 一种视频搜索方法、装置及云服务器 | |
CN109408035B (zh) | 一种业务系统的流程配置方法、存储介质和服务器 | |
CN113784166A (zh) | 一种直播间流控制方法、装置及云直播服务器 | |
US20220156005A1 (en) | Service management device, service management method, and non-transitory computer-readable recording medium | |
CN113794647A (zh) | 一种网络节点流控制方法、装置及云端服务器 | |
CN113901116A (zh) | 一种云会员信息管理系统、方法和存储平台 | |
CN117520092A (zh) | 一种日志数据的确定方法、装置、电子设备及介质 | |
CN113282826A (zh) | 一种游戏推荐方法、装置及云服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220107 |
|
WW01 | Invention patent application withdrawn after publication |