CN110245296A - 一种基于大数据的pas用户画像分析系统及其方法 - Google Patents

一种基于大数据的pas用户画像分析系统及其方法 Download PDF

Info

Publication number
CN110245296A
CN110245296A CN201910517117.XA CN201910517117A CN110245296A CN 110245296 A CN110245296 A CN 110245296A CN 201910517117 A CN201910517117 A CN 201910517117A CN 110245296 A CN110245296 A CN 110245296A
Authority
CN
China
Prior art keywords
data
user
portrait
pas
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910517117.XA
Other languages
English (en)
Inventor
孟宪坤
田文
郭杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huakun Dove Data Technology Co Ltd
Original Assignee
Zhejiang Huakun Dove Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huakun Dove Data Technology Co Ltd filed Critical Zhejiang Huakun Dove Data Technology Co Ltd
Priority to CN201910517117.XA priority Critical patent/CN110245296A/zh
Publication of CN110245296A publication Critical patent/CN110245296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:P1、数据采集;P2、特征显示;P3、样本处理;P4、建立模型;P5、模型训练与优化;P6、应用分析;P7、数据服务和开放展示;P8、数据库建立与备份。本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,可以有效提高样本清晰度,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。

Description

一种基于大数据的PAS用户画像分析系统及其方法
技术领域
本发明涉及画像分析技术领域,尤其涉及一种基于大数据的PAS用户画像分析系统及其方法。
背景技术
随着社会的发展与进步,用户画像的构建越来越重要,用户画像能够利用数据的多维度视图,客观真实的反映出用户的行为轨迹、习惯特点及服务需求等,为各领域的服务能力提升,数据分析的挖掘提供了必要的技术支撑。
当前科技领域用户画像构建方法核心是收集并梳理数据,开展用户画像建模与分析,但是现有的方式在数据采集和处理时,样本源比较小,不利于真实反应客观状态,而且对于数据的预处理方式过于简单,不利于提高样本精度,同时在进行建模分析时,多是简单的采用人工打标签的方式,不仅耗费人力较大,而且标签与实际偏好的准确度不高,使用效果不理想。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于大数据的PAS用户画像分析系统及其方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
附图说明
图1为本发明的分析方法流程图;
图2为本发明的数据处理原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理,采集数据时,通过爬虫软件进行数据抓取,并且提出重复信息进行数据净化;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示,采样样本进行相互关联搜索,对相似样本进行归类;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
作为优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区,可以对每一个用户区进编号为001-001号区、001-002号区、005-002号区等,可以进行区分和分别读取;
S2、同时收集每个所述用户区对应的所述用户的特征数据,根据特征数据进行短信编译和内容排版工作,生成数字信息,并且将数字信息推送至服务器和处理终端;
S3、判断所述用户的特征数据是否需要实时处理,需要实时处理的进行下一步发送,不需要实时处理的进行临时排序等待;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
作为优选的,所述S1步骤的编号方式为大区域编号加小区域编号结合的方式,可以提供较多标号,保证分区数量规模。
作为优选的,所述S2步骤的数字信息推送的渠道和形式包括但不限于普通短信推送、彩信推送、数字短信推送、微信推送以及网关推送等。
作为优选的,所述S3步骤的临时排序等待方式为进行堆栈保存,并且采取先进后出的原则进行排序读取。
作为优选的,所述S4步骤还包括保存时,将特征数据和显示特征按照对应关系,成列保存,并且设置备份库,进行复制备份。
作为优选的,所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
作为优选的,所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
作为优选的,所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
作为优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
作为优选的,所述P6步骤的可视化呈现方式包括但不限于网络发送图片、数据包无线发送以及实时窗口发送等。
作为优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
作为优选的,所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据,服务接口采用开放式USB数据连接口,可以进行数据传输和复制。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。
实施例2
一种基于大数据的PAS用户画像分析系统及其方法,该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
作为优选的,所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
作为优选的,所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
作为优选的,所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
作为优选的,所述P7步骤的数据开放方式为以无线网络传输方式开放用户画像数据。
本发明提供的一种基于大数据的PAS用户画像分析系统及其方法通过网络大数据进行数据采集,保证样本源的广泛性,并且采用过采样和欠采样结合集成学习的处理方式进行预处理,可以有效提高样本清晰度,并且结合过拟合以及欠拟合的方式进行模型优化生成,保证画像准确度,同时进行数据关联存储和无线传输开放,能够进一步支撑多纬度科技用户画像的自动构建,并利用可视化技术实现多维度用户画像的灵活展示与服务,利于使用和推广。

Claims (8)

1.一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:该基于大数据的PAS用户画像分析系统及其方法包括如下步骤:
P1、数据采集:通过互联网的数据采集渠道进行数据采集,利用互联网大数据进行充分的分析与处理;
P2、特征显示:分析并处理数据,选择能准确描述网络状态和用户行为的特征,生成采样样本进行数据显示;
P3、样本处理:对于数据层采样样本进行过采样或欠采样处理,对于算法层采样样本进行代价敏感和集成学习处理;
P4、建立模型:建立用户数据模型结构,完成全过程用户画像数据的关联与存储;
P5、模型训练与优化:采用多分类模型和二分类模型相结合,并且分析模型是过拟合或欠拟合,并对模型进行优化;
P6、应用分析:对数据画像模型得到的结果进行分析,并将分析结果可视化呈现给网络管理员;
P7、数据服务和开放展示:通过画像识别功能定义出以数据实体为中心的不同画像体系,最后通过可视化组件定义用户画像的图集进行数据开放;
P8、数据库建立与备份:重复执行上述步骤,以得到多个用户数据模型,建立画像模型仓库。
2.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P2步骤的的特征显示还包括如下步骤:
S1、将用户根据一预设条件分为多个用户区;
S2、同时收集每个所述用户区对应的所述用户的特征数据;
S3、判断所述用户的特征数据是否需要实时处理;
S4、将特征数据送入实时消息队列中,以进行实时处理,得到所述特征数据中的所述显示特征,并将所述特征数据和所述显示特征保存一存储器。
3.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P3步骤中过采样为通过增加正样本提高少数类的分类性能,欠采样为剔除负样本。
4.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P5步骤的欠拟合为训练集和测试集的准确率低,进行数据清洗,增加有效特征,更换复杂的模型。
5.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P5步骤的过拟合为训练集的准确率高,测试集的准确率低,进行增加训练样本数据,更换简单的模型。
6.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P4步骤的建立模型步骤采用数据梳理模块进行数据输出和关联存储。
7.根据所述权利要求6的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述数据梳理模块包括数据模块和模型定义模块包括模型模块,其中数据模块包括数据识别、数据抽取、数据关联和流程推理,模型定义模块包括模型设计和关系梳理。
8.根据所述权利要求1的一种基于大数据的PAS用户画像分析系统及其方法,其特征在于:所述P7步骤的数据开放方式为以服务接口的形式开放用户画像数据。
CN201910517117.XA 2019-06-14 2019-06-14 一种基于大数据的pas用户画像分析系统及其方法 Pending CN110245296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910517117.XA CN110245296A (zh) 2019-06-14 2019-06-14 一种基于大数据的pas用户画像分析系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910517117.XA CN110245296A (zh) 2019-06-14 2019-06-14 一种基于大数据的pas用户画像分析系统及其方法

Publications (1)

Publication Number Publication Date
CN110245296A true CN110245296A (zh) 2019-09-17

Family

ID=67887372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910517117.XA Pending CN110245296A (zh) 2019-06-14 2019-06-14 一种基于大数据的pas用户画像分析系统及其方法

Country Status (1)

Country Link
CN (1) CN110245296A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949746B (zh) * 2021-03-23 2022-02-25 中科柏诚科技(北京)股份有限公司 应用于用户行为分析的大数据处理方法及人工智能服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
US20180316776A1 (en) * 2016-04-29 2018-11-01 Tencent Technology (Shenzhen) Company Limited User portrait obtaining method, apparatus, and storage medium
CN108829721A (zh) * 2018-05-08 2018-11-16 浪潮软件集团有限公司 一种基于数据模型的科技用户画像构建方法及系统
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及系统
CN109447694A (zh) * 2018-10-11 2019-03-08 上海瀚之友信息技术服务有限公司 一种用户特征分析方法及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180316776A1 (en) * 2016-04-29 2018-11-01 Tencent Technology (Shenzhen) Company Limited User portrait obtaining method, apparatus, and storage medium
CN108829721A (zh) * 2018-05-08 2018-11-16 浪潮软件集团有限公司 一种基于数据模型的科技用户画像构建方法及系统
CN108629633A (zh) * 2018-05-09 2018-10-09 浪潮软件股份有限公司 一种基于大数据建立用户画像的方法及系统
CN109447694A (zh) * 2018-10-11 2019-03-08 上海瀚之友信息技术服务有限公司 一种用户特征分析方法及其系统
CN109359686A (zh) * 2018-10-18 2019-02-19 西安交通大学 一种基于校园网流量的用户画像方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949746B (zh) * 2021-03-23 2022-02-25 中科柏诚科技(北京)股份有限公司 应用于用户行为分析的大数据处理方法及人工智能服务器

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109697233A (zh) 一种知识图谱体系搭建方法
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN109101519B (zh) 信息采集系统和异构信息融合系统
CN109165273A (zh) 一种面向大数据环境的通用中文地址匹配方法
CN111026804A (zh) 一种基于语义的大数据分析智能服务系统
CN115131627A (zh) 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN111159561A (zh) 根据用户行为和用户画像构建推荐引擎的方法
CN114625901B (zh) 一种多算法整合方法及装置
CN110245296A (zh) 一种基于大数据的pas用户画像分析系统及其方法
CN111597416A (zh) 一种基于大数据处理的匹配推送系统
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
CN112836067B (zh) 基于知识图谱的智能搜索方法
CN116955855B (zh) 一种低成本跨地域地址解析模型构建方法及系统
CN103064981A (zh) 一种基于云计算的图片搜索方法
CN111339290A (zh) 一种文本分类方法和系统
CN113806574A (zh) 一种软硬件一体化的人工智能图像识别数据处理方法
CN105279392A (zh) 一种基于云平台的大数据分析装置
CN109523031B (zh) 一种用于深度分析的大数据智能机器学习系统
CN109447833A (zh) 一种大规模微博用户兴趣群体发现方法
CN115169578A (zh) 一种基于元宇宙数据标记的ai模型生产方法及系统
CA3146125A1 (en) Method and system for returning customer service log feedback to database
CN102043791B (zh) 分词评价方法及装置
Yang et al. [Retracted] Visual Management of Sports Based on Intelligent Analysis of Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310000 1-206, 206M, 5g Innovation Park, 1818-1 Wenyi West Road, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: ZHEJIANG HUAKUN DAOWEI DATA TECHNOLOGY Co.,Ltd.

Address before: 310000 room 2404, house A, Jianggan District Hua Lian Times Building, Hangzhou, Zhejiang

Applicant before: ZHEJIANG HUAKUN DAOWEI DATA TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication