CN110245296A - 一种基于大数据的pas用户画像分析系统及其方法 - Google Patents
一种基于大数据的pas用户画像分析系统及其方法 Download PDFInfo
- Publication number
- CN110245296A CN110245296A CN201910517117.XA CN201910517117A CN110245296A CN 110245296 A CN110245296 A CN 110245296A CN 201910517117 A CN201910517117 A CN 201910517117A CN 110245296 A CN110245296 A CN 110245296A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- portrait
- pas
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集;P2、特征显示;P3、样本处理;P4、建立模型;P5、模型训练与优化;P6、应用分析;P7、数据服务和开放展示;P8、数据库建立与备份。本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,可以有效提高样本清晰度,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
Description
技术领域
本发明涉及画像分析技术领域,尤其涉及一种基于大数据的PAS用户画像分析系统及其方法。
背景技术
随着社会的发展与进步,用户画像的构建越来越重要,用户画像能够利用数据的多维度视图,客观真实的反映出用户的行为轨迹、习惯特点及服务需求等,为各领域的服务能力提升,数据分析的挖掘提供了必要的技术支撑。
当前科技领域用户画像构建方法核心是收集并梳理数据,开展用户画像建模与分析,但是现有的方式在数据采集和处理时,样本源比较小,不利于真实反应客观状态,而且对于数据的预处理方式过于简单,不利于提高样本精度,同时在进行建模分析时,多是简单的采用人工打标签的方式,不仅耗费人力较大,而且标签与实际偏好的准确度不高,使用效果不理想。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于大数据的PAS用户画像分析系统及其方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
附图说明
图1为本发明的分析方法流程图;
图2为本发明的数据处理原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理,采集数据时,通过爬虫软件进行数据抓取,并且提出重复信息进行数据净化;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示,采样样本进行相互关联搜索,对相似样本进行归类;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
作为优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区,可以对每一个用户区进编号为001-001号区、001-002号区、005-002号区等,可以进行区分和分别读取;
S2、同时收集每个所述用户区对应的所述用户的特征数据,根据特征数据进行短信编译和内容排版工作,生成数字信息,并且将数字信息推送至服务器和处理终端;
S3、判断所述用户的特征数据是否需要实时处理,需要实时处理的进行下一步发送,不需要实时处理的进行临时排序等待;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
作为优选的,所述S1步骤的编号方式为大区域编号加小区域编号结合的方式,可以提供较多标号,保证分区数量规模。
作为优选的,所述S2步骤的数字信息推送的渠道和形式包括但不限于普通短信推送、彩信推送、数字短信推送、微信推送以及网关推送等。
作为优选的,所述S3步骤的临时排序等待方式为进行堆栈保存,并且采取先进后出的原则进行排序读取。
作为优选的,所述S4步骤还包括保存时,将特征数据和显示特征按照对应关系,成列保存,并且设置备份库,进行复制备份。
作为优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
作为优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
作为优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
作为优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
作为优选的,所述P6步骤的可视化呈现方式包括但不限于网络发送图片、数据包无线发送以及实时窗口发送等。
作为优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
作为优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据,服务接口采用开放式USB数据连接口,可以进行数据传输和复制。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
实施例2
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
作为优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
作为优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
作为优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
作为优选的,所述P7步骤的数据开放方式为以无线网络传输方式开放用户画像数据。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和无线传输开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
Claims (8)
1.一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
2.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
3.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
4.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
5.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
6.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
7.根据所述权利要求6的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
8.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517117.XA CN110245296A (zh) | 2019-06-14 | 2019-06-14 | 一种基于大数据的pas用户画像分析系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910517117.XA CN110245296A (zh) | 2019-06-14 | 2019-06-14 | 一种基于大数据的pas用户画像分析系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110245296A true CN110245296A (zh) | 2019-09-17 |
Family
ID=67887372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910517117.XA Pending CN110245296A (zh) | 2019-06-14 | 2019-06-14 | 一种基于大数据的pas用户画像分析系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245296A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949746B (zh) * | 2021-03-23 | 2022-02-25 | 中科柏诚科技(北京)股份有限公司 | 应用于用户行为分析的大数据处理方法及人工智能服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629633A (zh) * | 2018-05-09 | 2018-10-09 | 浪潮软件股份有限公司 | 一种基于大数据建立用户画像的方法及系统 |
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN108829721A (zh) * | 2018-05-08 | 2018-11-16 | 浪潮软件集团有限公司 | 一种基于数据模型的科技用户画像构建方法及系统 |
CN109359686A (zh) * | 2018-10-18 | 2019-02-19 | 西安交通大学 | 一种基于校园网流量的用户画像方法及系统 |
CN109447694A (zh) * | 2018-10-11 | 2019-03-08 | 上海瀚之友信息技术服务有限公司 | 一种用户特征分析方法及其系统 |
-
2019
- 2019-06-14 CN CN201910517117.XA patent/CN110245296A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN108829721A (zh) * | 2018-05-08 | 2018-11-16 | 浪潮软件集团有限公司 | 一种基于数据模型的科技用户画像构建方法及系统 |
CN108629633A (zh) * | 2018-05-09 | 2018-10-09 | 浪潮软件股份有限公司 | 一种基于大数据建立用户画像的方法及系统 |
CN109447694A (zh) * | 2018-10-11 | 2019-03-08 | 上海瀚之友信息技术服务有限公司 | 一种用户特征分析方法及其系统 |
CN109359686A (zh) * | 2018-10-18 | 2019-02-19 | 西安交通大学 | 一种基于校园网流量的用户画像方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949746B (zh) * | 2021-03-23 | 2022-02-25 | 中科柏诚科技(北京)股份有限公司 | 应用于用户行为分析的大数据处理方法及人工智能服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN109697233A (zh) | 一种知识图谱体系搭建方法 | |
CN102663001A (zh) | 基于支持向量机的博客作者兴趣与性格自动识别方法 | |
CN109101519B (zh) | 信息采集系统和异构信息融合系统 | |
CN109165273A (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN111026804A (zh) | 一种基于语义的大数据分析智能服务系统 | |
CN115131627A (zh) | 一种轻量化植物病虫害目标检测模型的构建和训练方法 | |
CN111159561A (zh) | 根据用户行为和用户画像构建推荐引擎的方法 | |
CN114625901B (zh) | 一种多算法整合方法及装置 | |
CN110245296A (zh) | 一种基于大数据的pas用户画像分析系统及其方法 | |
CN111597416A (zh) | 一种基于大数据处理的匹配推送系统 | |
CN111159559A (zh) | 根据用户需求和用户行为构建推荐引擎的方法 | |
CN112836067B (zh) | 基于知识图谱的智能搜索方法 | |
CN116955855B (zh) | 一种低成本跨地域地址解析模型构建方法及系统 | |
CN103064981A (zh) | 一种基于云计算的图片搜索方法 | |
CN111339290A (zh) | 一种文本分类方法和系统 | |
CN113806574A (zh) | 一种软硬件一体化的人工智能图像识别数据处理方法 | |
CN105279392A (zh) | 一种基于云平台的大数据分析装置 | |
CN109523031B (zh) | 一种用于深度分析的大数据智能机器学习系统 | |
CN109447833A (zh) | 一种大规模微博用户兴趣群体发现方法 | |
CN115169578A (zh) | 一种基于元宇宙数据标记的ai模型生产方法及系统 | |
CA3146125A1 (en) | Method and system for returning customer service log feedback to database | |
CN102043791B (zh) | 分词评价方法及装置 | |
Yang et al. | [Retracted] Visual Management of Sports Based on Intelligent Analysis of Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 310000 1-206, 206M, 5g Innovation Park, 1818-1 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: ZHEJIANG HUAKUN DAOWEI DATA TECHNOLOGY Co.,Ltd. Address before: 310000 room 2404, house A, Jianggan District Hua Lian Times Building, Hangzhou, Zhejiang Applicant before: ZHEJIANG HUAKUN DAOWEI DATA TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190917 |
|
RJ01 | Rejection of invention patent application after publication |