CN114119057A - 用户画像模型的构建系统 - Google Patents

用户画像模型的构建系统 Download PDF

Info

Publication number
CN114119057A
CN114119057A CN202110914043.0A CN202110914043A CN114119057A CN 114119057 A CN114119057 A CN 114119057A CN 202110914043 A CN202110914043 A CN 202110914043A CN 114119057 A CN114119057 A CN 114119057A
Authority
CN
China
Prior art keywords
data
user
library
characteristic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110914043.0A
Other languages
English (en)
Other versions
CN114119057B (zh
Inventor
侯本忠
张永强
唐戈燕
刘甜甜
张帆
田桂申
宋猛
白雪娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Eastern Inner Mongolia Power Co Ltd
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Eastern Inner Mongolia Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Corp of China SGCC, State Grid Eastern Inner Mongolia Power Co Ltd filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202110914043.0A priority Critical patent/CN114119057B/zh
Publication of CN114119057A publication Critical patent/CN114119057A/zh
Application granted granted Critical
Publication of CN114119057B publication Critical patent/CN114119057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户画像模型的构建系统,包括数据采集模块,用于利用词袋模型获取待分析用户的历史数据;特征构建模块,用于基于历史数据构建用户特征库;特征提取模块,用于对用户特征库进行特征提取,得到用户关键特征子库;特征选择模块,用于对用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库;模型确定模块,用于基于神经网络算法对用户画像标签库进行训练;根据多个时间区间的训练数据的权重值对每一时间区间的训练数据的索引标签进行训练,得到用户画像模型。本发明通过在多个数据维度对特殊领域用户进行画像,构建可标签化模型,对于异构数据源可以快速形成立体化智能画像生成模型,识别异常用户。

Description

用户画像模型的构建系统
技术领域
本发明属于机器学习领域,特别涉及一种用户画像模型的构建系统。
背景技术
用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。传统的用户画像技术主要依靠大数据及数据挖掘技术处理,例如,传统的用户画像技术主要是通过大数据进行画像,一般针对个人用户的历史数据,抽象出个人的偏好,活跃时间,活动范围等,通过标签的精细化处理,可以满足精准推送,但针对企业用户,基础数据来源广泛,结构差异性较大,内容也没有统一的规范,而是复杂多样。企业用户除了个人因素外,还有需要考虑环境、组织、个体间等影响因素,因此需要用户画像更具立体化,而传统的用户画像无法满足企业用户的需求。此外,虽然近年来在构建用户画像上已经出现了多种技术,但目前已有技术还具有一定的局限性,如数据碎片化、数据封闭、算法效率低等原因造成用户画像不够精准的问题,训练效率低,同时还没有完善的机制配合对实时用户行为做出反馈,因此存在实际转化率低等问题。
发明内容
为了解决上述问题,本发明提供一种用户画像模型的构建系统,包括:
数据采集模块,用于利用词袋模型获取待分析用户的历史数据;
特征构建模块,用于基于所述历史数据构建用户特征库;
特征提取模块,用于对所述用户特征库进行特征提取,得到用户关键特征子库;
特征选择模块,用于对所述用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库;
模型确定模块,用于基于神经网络算法对所述用户画像标签库进行训练;根据多个时间区间的训练数据的权重值,对每一时间区间的训练数据的索引标签进行训练,得到用户画像模型。
优选地,所述数据采集模块,进一步配置为:
利用词袋模型获取待分析用户的历史文本数据。
优选地,所述词袋模型包括输入层、隐藏层和输出层;所述输入层将每个文本中的单词映射到向量中,将文本编码和IDF值组成特征向量;所述隐藏层中设置有加权矩阵,用于学习文本中的隐藏信息,并且对隐藏层向量和输入层向量进行合并;所述输出层接收合并后的向量,最后计算属于每个分类的概率。
优选地,所述IDF值通过以下方式计算:
TF-IDF(t,d)=TF(t,d)×IDF(t)
Figure BDA0003204987270000031
式中,TF-IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用于衡量单词t对表达语义所起的重要性,N为文章总数,N′为包含单词t的文章总数。
优选地,所述特征构建模块,进一步配置为:
从所述历史数据中从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
将多个所述用户特征数据基于数据分类创建用户特征库。
优选地,所述特征提取模块,进一步配置为:
采用主成分分析法从所述用户特征库中获取每个用户的关系特征、时间特征和关联度特征;
根据所述关联度特征从所述用户特征库中选取多个关键特征数据,并基于多个所述关键特征数据创建用户关键特征子库。
优选地,所述特征选择模块,进一步配置为:
采用信息增益算法计算所述用户关键特征子库中的属性特征数据信息增益;
基于所述信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
利用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;
基于所述用户特征数据以及索引标签确定用户画像标签库。
优选地,所述基于所述信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据,进一步包括:
给定数据集D,对属性子集A,根据其取值将数据集D分成V个维度子集:D1,D2,…,Dv,计算属性子集A的信息增益,其计算公式如下:
Figure BDA0003204987270000041
式中,g(D,A)为最符合子集A的特征维度,H(D)为数据集D的特征维度,H(D|A)为数据集D与属性子集A关联性较小的特征维度,H(Dv)为数据集中每个子集的特征维度,∣·∣表示集合大小,H(·)表示熵。
优选地,所述模型确定模块进一步配置为:
将所述画像标签库进行标准化处理,并划分为训练数据和测试数据;
基于所述训练数据采用神经网络算法进行训练得到预测模型;
利用所述测试数据与预测模型进行匹配,确定用户画像模型。
优选地,所述每一时间区间的训练数据的索引标签进行训练,进一步包括:
获取第ω个时间区间的特征数据Πω,将Πω投影到内积空间
Figure BDA0003204987270000042
设置
Figure BDA0003204987270000043
WGTω的训练的目标函数:
Figure BDA0003204987270000051
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω个时间区间内积空间训练数据向量的评价矩阵,其第k行
Figure BDA0003204987270000052
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure BDA0003204987270000053
Figure BDA0003204987270000054
对所述目标函数进行求解,即首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个时间区间的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签。
与现有技术相比,本发明提供的一种用户画像模型的构建系统,针对工程审计用户,通过在多个数据维度方面对相关用户进行画像,通过特征工程构建了一个可标签化的模型,该模型使创建的用户画像更具立体化,通过本发明的用户画像构建系统,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速形成智能画像生成模型,可用于快速识别异常用户。
附图说明
图1是根据本发明一实施例提供的一种用户画像模型的构建系统的框图;
图2是根据本发明一实施例提供的构建用户特征库的过程示意图;
图3是根据本发明一实施例提供的特征提取过程示意图;
图4是根据本发明一实施例提供的降维过程示意图;
图5是根据本发明一实施例提供的生成用户画像模型过程示意图。
具体实施方式
为了使本领域技术人员更加清楚地理解本发明的概念和思想,以下结合具体实施例详细描述本发明。应理解,本文给出的实施例都只是本发明可能具有的所有实施例的一部分。本领域技术人员在阅读本申请的说明书以后,有能力对下述实施例的部分或整体作出改进、改造、或替换,这些改进、改造、或替换也都包含在本发明要求保护的范围内。
在本文中,术语“第一”、“第二”和其它类似词语并不意在暗示任何顺序、数量和重要性,而是仅仅用于对不同的元件进行区分。在本文中,术语“一”、“一个”和其它类似词语并不意在表示只存在一个事物,而是表示有关描述仅仅针对事物中的一个,事物可能具有一个或多个。在本文中,术语“包含”、“包括”和其它类似词语意在表示逻辑上的相互关系,而不能视作表示空间结构上的关系。例如,“A包括B”意在表示在逻辑上B属于A,而不表示在空间上B位于A的内部。另外,术语“包含”、“包括”和其它类似词语的含义应视为开放性的,而非封闭性的。例如,“A包括B”意在表示B属于A,但是B不一定构成A的全部,A还可能包括C、D、E等其它元素。
在本文中,术语“实施例”、“本实施例”、“一实施例”、“一个实施例”并不表示有关描述仅仅适用于一个特定的实施例,而是表示这些描述还可能适用于另外一个或多个实施例中。本领域技术人员应理解,在本文中,任何针对某一个实施例所做的描述都可以与另外一个或多个实施例中的有关描述进行替代、组合、或者以其它方式结合,替代、组合、或者以其它方式结合所产生的新实施例是本领域技术人员能够容易想到的,属于本发明的保护范围。
实施例1
本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。结合图1-图5,本发明实施例提供的一种用户画像模型的构建系统,包括:
数据采集模块1,用于利用词袋模型获取待分析用户的历史数据;
特征构建模块2,用于基于所述历史数据构建用户特征库;
特征提取模块3,用于对所述用户特征库进行特征提取,得到用户关键特征子库;
特征选择模块4,用于对所述用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库;
模型确定模块5,用于基于神经网络算法对所述用户画像标签库进行训练;根据多个时间区间的训练数据的权重值,对每一时间区间的训练数据的索引标签进行训练,得到用户画像模型。
具体的,所述数据采集模块1用于获取待分析用户的历史数据,其中历史数据包括用户属性数据和用户行为数据。用户属性数据为静态数据,静态数据一般是人员的基本信息,例如职员姓名、职务、任职时间、参与项目等,用户行为数据为动态数据,动态数据通常记录于参与活动的变更日志中,例如常用的后端日志数据、前端埋点数据等。本发明实施例通过词袋模型获取待分析用户的历史数据,词袋模型是一个在自然语言处理和信息检索下被简化的表达模型,此模型下,用一个袋子装着句子或是文件的文字这些词的方式表现,这种表现方式不考虑文法以及词的顺序,利用词袋模型将历史数据中的整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量的每一个维度代表一个单词,通过计算每一维度的权重来反映该单词在文章的重要程度,进而通过权重的大小来获取人员相关的标签,权重越大的标签和人员活动关系越密切,可多维度,立体化人物画像。在一个实施例中,所述历史数据为工程审计材料。通常采用TF-IDF算法计算单词的权重,计算公式为:
TF-IDF(t,d)=TF(t,d)×IDF(t)
Figure BDA0003204987270000081
式中,TF-IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用于衡量单词t对表达语义所起的重要性,N为文章总数,N′为包含单词t的文章总数。
本发明改进后的词袋模型由输入层、隐藏层和输出层组成。输入层将每个文本中的单词映射到向量中,将文本编码和IDF值组成一组特征向量;隐藏层中设置有加权矩阵,用于学习文本中的隐藏信息,在进入输出层之前,对隐藏层向量和输入层向量进行合并;输出层接收合并后的向量,最后计算属于每个分类的概率,作为模型的输出结果。利用改进后的词袋模型进行分类时,主要步骤如下:
(1)对分类过程的无意义词、停用词及标点,有拼写错误的词进行去噪和修正;
(2)遍历文本统计Trigram词频,按照Trigram词频从高到低的顺序进行排序,从0开始编码,依次加1进行编码,作为语料字典;再次遍历文本,按照字典编码将Trigram转化为字典编码;同时将文本的标签转化为类别编码;
(3)设置文本最大长度lenmax。在文本长度小于lenmax时,用0进行补齐,文本长度大于lenmax时,截取头部文本,使所有文本具有固定长度;在生成文本编码前,根据起始码对Trigram编码向后进行平移;设置文本Trigram特征数nf,当Trigram编码大于nf时,视为未登录词;
(4)为了避免训练出现过拟合现象,对文本进行随机化乱序排序,并且训练集中的分类标签需要和文本按照同样的顺序进行排列;
(5)根据文本词频由高到低的顺序生成字典,再根据设置的宽度特征数对文本中词计算TF-IDF值,训练集和测试集需要由同一算法来计算。
(6)将编码后的文本以及TF-IDF文本向量分别输入到输入层,开始训练词袋模型,在每一轮训练完成时,利用验证集对模型进行评估,当迭代次数达到设置次数后,完成词袋模型训练;
(7)将输入文本进行编码,同时生成宽度特征,将这些信息输入到词袋模型,从中得到预测结果。
具体的,所述特征构建模块2基于历史数据构建用户特征库还包括:
从历史数据中从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
对多个用户特征数据进行结构化处理,得到用户特征库。
在一个实施例中,当历史数据为工程审计材料时,对多个用户特征数据进行结构化处理,得到用户特征库,具体包括,将多个用户特征数据按照一个或多个数据维度进行分类,并根据分类结果创建用户特征库。其中一个或多个数据维度包括但不限于人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容。
特征构建指的是从原始数据中自动的构建新的特征的过程,例如一组具有明显物理意义(比如Gabor、几何特征、纹理特征)或者统计意义的特征。本发明实施例在构建用户特征库的过程中,首先从历史数据中选取一个或多个用户特征数据,再将一个或多个用户特征数据按照预设维度,例如人物关系、参与项目、工作时间、任职部门以及人员职务和决策内容进行分类,得到的分类结构构成用户特征库。以经责审计场景为例,需要从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中,构建包含参与人员的职务,职责,参与范围,所属组织,参与时间以及共事人员等用户特征数据的用户特征库。
具体的,特征提取模块3对用户特征库进行特征提取,得到用户关键特征子库还包括:
采用主成分分析法从用户特征库中获取每个用户的关系特征、时间特征和关联度特征;
根据所述关联度特征从用户特征库中选取多个关键特征数据,并基于多个关键特征数据创建用户关键特征子库。
特征提取的目的是通过特征转换的方式得到一组具有明显物理或统计意义的特征,例如Gabor、几何特征[角点、不变量]、纹理[LBP HOG],主要通过对构建的特征库进行降维,获取关键的内容。本发明实施例采用PCA(Principal Component Analysis,主成分分析法)的降维提取方法对用户特征库进行特征提取。PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间。例如在三维空间中有一系列数据点,它们分布在过原点的平面上,如果采用自然坐标系的x,y,z三个轴表示数据,需要三个维度,但实际上这些数据点都在同一个二维平面上,如果通过坐标轴转换使得数据所在平面和x,y平面重合,就可以通过新的x’、y’轴来表示原始数据,并且没有任何损失,因此完成了降维的目的,并且这两个新的坐标轴就是需要找的主成分。具体包括以下步骤:
步骤1:对样本数据进行中心化处理;
步骤2:求样本协方差矩阵;
步骤3:对协方差矩阵进行特征值分解,将特征值从大到小排列;
步骤4:取特征值前n个最大的对应的特征向量W1,W2,...,Wn,进而将原来m维的样本降低到n维。
本发明实施例采用主成分分析法从用户特征库中获取每个用户的关系特征、时间特征和关联度特征,进一步包括:采用PCA算法计算用户特征库中各用户特征向量的方差和特征值,由于方差越大,特征值越大,信息量也越大,因此删除方差较小的特征,保留方差较大的特征,通过关联各个表和数据结构,获取关系特征、时间特征和关联度特征,即分别为用户与其他用户之间的关系、用户活跃总时间和参与项目的关联度,再根据关联度特征从用户特征库中选取多个关键特征数据,并基于多个关键特征数据创建用户关键特征子库,用户关键特征子库中的数据为用户关联性最大的特征数据,是用户画像的基础,通过对用户特征库进行特征提取,实现了对用户特征库的高维特征向量进行降维的目的,生成适合训练的低维度特征向量的用户关键特征子库。
具体的,特征选择模块4对用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库,其中用户关键特征子库包括属性特征子库和行为特征子库,特征选择模块4进一步配置为:
采用信息增益算法计算用户关键特征子库中的属性特征数据信息增益,基于信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
利用逻辑回归算法生成用户画像模型中的每个用户特征数据的键值对,形成用户画像模型的索引标签;
基于多个用户特征数据以及索引标签确定数据集。
降维就是将已经结构化的数据通过特征项和类别项之间的关联性来衡量,目的是从给定的特征集合中挑选一组最具统计意义的特征子集,本发明实施例为保证模型简单,降低计算复杂度,提高计算效率,最大限度的剔除多余的特征,构建用户画像相关特征的用户画像标签库,降维通常是在将特征的重要程度特征化之后再进行选择,本发明实施例采用信息增益的方法作为降维的方法,在信息增益中,重要性的衡量标准就是看特征可以为分类系统带来多少信息,带来的信息越多,该特征越重要,代表关联性越强,该特征越应该保留。例如:给定数据集D,对属性子集A,根据其取值将数据集D分成V个维度子集:D1,D2,…,Dv,计算属性子集A的信息增益,其计算公式如下:
Figure BDA0003204987270000131
式中,g(D,A)为最符合子集A的特征维度,H(D)为数据集D的特征维度,H(D|A)为数据集D与属性子集A关联性较小的特征维度,H(Dv)为数据集中每个子集的特征维度,∣·∣表示集合大小,H(·)表示熵。
信息增益越大,表明属性子集A包含的有助于分类的信息越多。对于每个候选特征子集,可以基于数据集D来计算其信息增益来获取多个用户特征数据构成用户画像标签库。通过上述特征工程中的特征构建、特征提取和降维,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速构建用户画像标签库。
在完成构建用户画像标签库后,通过recommend.scala文件对逻辑回归算法的调用,生成用户画像标签库中的每个用户特征数据的键值对,键值对是存储在数据库中的最简单的组织形式,键(key)即关键字,值(Value)即对应于键的属性值,并且每一键对应唯一值,生成的键值对形成了用户画像标签库的Key、Value形式的索引标签。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。
具体的,模型确定模块5基于神经网络算法对所述用户画像标签库进行训练,得到用户画像模型还包括:
对用户画像标签库进行标准化处理,得到标准化数据集,并将标准化数据集划分为训练数据和测试数据;
基于训练数据采用神经网络算法进行训练得到预测模型;
将测试数据与预测模型进行匹配和评价,当评价符合预期匹配结果时,将符合预期匹配结果的模型输出,得到用户画像模型,否则对用户画像模型进行纠正,并输出纠正后的用户画像模型。
优选地,在所构建的索引标签的基础上,根据训练数据对测试数据进行训练时,每个训练数据对画像标签库构造的权重值,采用
Figure BDA0003204987270000141
WGTω矩阵构造新的标签,其中
Figure BDA0003204987270000142
是各个时间区间训练数据,WGTω为标签权重值矩阵;使相同时间区间的测试数据在总数较少的空间内进行聚类,有效挖掘复杂用户数据的隐藏特征。对所述标准化数据集进行训练的方法包含以下步骤:
步骤1:输入训练数据,采用包含Ω个时间区间的用户特征数据训练索引标签,训练数据空间用Π表示,表示为Π=[Π1,Π2,…,Πω,…,ΠΩ]∈RΔ×N,Δ表示训练数据的特征维度,M是训练数据总量,Πi表示第i个时间区间的样本,定义Mi表示每个时间区间的训练数据数量,M=M1+M2+,…+Mω+…+MΩ
步骤2:对训练数据进行归一化,得到归一化的训练数据集Π;
步骤3:对每个时间区间的训练数据分别训练其标签,训练标签的过程为:
3.1、获取第ω个时间区间的特征数据Πω,将Πω投影到内积空间
Figure BDA0003204987270000151
3.2、
Figure BDA0003204987270000152
WGTω的训练需要满足以下约束,其目标函数为:
Figure BDA0003204987270000153
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω个时间区间内积空间训练数据向量的评价矩阵,其第k行
Figure BDA0003204987270000154
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure BDA0003204987270000155
Figure BDA0003204987270000156
Figure BDA0003204987270000157
表示训练数据向量在内积空间中的投影。
3.3、对步骤3.2中约束条件的目标函数进行求解:
首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个时间区间的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签;具体求解过程为:
(1)在给定WGTω的情况下,更新Sω;将WGTω代入约束条件的上述目标函数,即目标函数转换为:
Figure BDA0003204987270000161
对Sω矩阵中的每一个元素进行更新,定义Sω中的第k行第m列的元素,即求得OPT1最优的评价矩阵Sω
(2)在评价矩阵Sω的情况下,更新权重值矩阵WGTω,即目标函数转化为:
Figure BDA0003204987270000162
对权重值矩阵WGTω的逐行进行更新;
(3)重复上述步骤(1)和步骤(2)来更新Sω和WGTω的权重值,当上述目标函数值OPT(WGTω,Sω)不再变化时,更新完毕;
(4)依次训练每个时间区间的训练数据的评价矩阵Sω和权重值矩阵WGTω
(5)通过每个时间区间的训练数据的权重值矩阵WGTω获得合并后的权重值矩阵WGT,即为预测模型的索引标签。
最后,当有新的企业用户行为数据时,将数据代入用户画像模型中,得到表示该数据画像的标签。
本发明接下来以一个具体实例对本发明提出的方案进行详细说明,具体如下所述:
首先通过内部网络及各个业务系统,以文件传输或接口对接的方式从组织机构和管理,文件审批工作流程,会议召集,决策执行程序,工作汇报关系等材料中获取需建立用户画像人员的历史数据,并存储到数据库中,默认情况下数据库每晚24点以增量方式导入到hive中,主要构建三张表,用户行为表,历史操作表,项目预期表。然后在hive中通过中间表和调用python文件等一系列操作,将数据进行处理,形成算法模型的入口数据和特征构建数据,构建人物关系,参与项目,任职部门,工作时间,决策内容等特征。再通过scala文件产生所有准备数据,并直接load到hive中去进行数据处理。找到人员和项目直接或间接的关联关系,形成特征提取。如三公经费,专业资金支付等相关人员的参与情况。数据处理完后进行建模,构建特征索引,通过recommend.scala文件对逻辑回归算法的调用,产生模型子集文件,形成Key、Value标签样式。例如XX人,担任职务、总经理,任职时间、2018年9月-2020年6月,参与项目、某公司招投标管理,过往经历、担任某部门经理。最后导出数据集,对数据集进行标准化模型处理,将数据集划分为训练数据和测试数据;基于所述训练数据采用神经网络算法进行训练得到预测模型;利用所述测试数据和预测的模型进行匹配并进行评价,评价是否符合预期,例如是否可以快速从原始数据中,获取上述Key、Value标签。训练过程是通过特征工程算法获取的上述信息,和人工查询的信息是否有偏离,如果偏离,纠正上述算法。若没有偏离,则最终得到的符合预期的模型即为用户画像模型。
综上所述,本发明提供的一种用户画像模型的构建系统,通过深度学习算法的训练对数据集进行抽象建模,学习,形成有效的模型。通过在各个分析维度对相关人员进行画像,通过特征分析构建了一个可标签化的模型,该模型使创建的用户画像更具立体化,通过本发明的用户画像构建系统,对于数据来源广泛,结构差异性大,内容复杂多样的异构数据源,可以快速形成用户特征分析模型,可用于快速识别异常用户。
以上结合具体实施方式(包括实施例和实例)详细描述了本发明的概念、原理和思想。本领域技术人员应理解,本发明的实施方式不止上文给出的这几种形式,本领域技术人员在阅读本申请文件以后,可以对上述实施方式中的步骤、方法、装置、部件做出任何可能的改进、替换和等同形式,这些改进、替换和等同形式应视为落入在本发明的范围内。本发明的保护范围仅以权利要求书为准。

Claims (10)

1.一种用户画像模型的构建系统,其特征在于,包括:
数据采集模块,用于利用词袋模型获取待分析用户的历史数据;
特征构建模块,用于基于所述历史数据构建用户特征库;
特征提取模块,用于对所述用户特征库进行特征提取,得到用户关键特征子库;
特征选择模块,用于对所述用户关键特征子库进行降维,并确定其索引标签,生成用户画像标签库;
模型确定模块,用于基于神经网络算法对所述用户画像标签库进行训练;根据多个时间区间的训练数据的权重值,对每一时间区间的训练数据的索引标签进行训练,得到用户画像模型。
2.根据权利要求1所述的系统,其特征在于,所述数据采集模块,进一步配置为:
利用词袋模型获取待分析用户的历史文本数据。
3.根据权利要求2所述的系统,其特征在于,所述词袋模型包括输入层、隐藏层和输出层;所述输入层将每个文本中的单词映射到向量中,将文本编码和IDF值组成特征向量;所述隐藏层中设置有加权矩阵,用于学习文本中的隐藏信息,并且对隐藏层向量和输入层向量进行合并;所述输出层接收合并后的向量,最后计算属于每个分类的概率。
4.根据权利要求3所述的系统,其特征在于,所述IDF值通过以下方式计算:
TF-IDF(t,d)=TF(t,d)×IDF(t)
Figure FDA0003204987260000021
式中,TF-IDF(t,d)为单词t在文档d中的权重,TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率,用于衡量单词t对表达语义所起的重要性,N为文章总数,N′为包含单词t的文章总数。
5.根据权利要求1所述的系统,其特征在于,所述特征构建模块,进一步配置为:
从所述历史数据中从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
将多个所述用户特征数据基于数据分类创建用户特征库。
6.根据权利要求1所述的系统,其特征在于,所述特征提取模块,进一步配置为:
采用主成分分析法从所述用户特征库中获取每个用户的关系特征、时间特征和关联度特征;
根据所述关联度特征从所述用户特征库中选取多个关键特征数据,并基于多个所述关键特征数据创建用户关键特征子库。
7.根据权利要求1所述的系统,其特征在于,所述特征选择模块,进一步配置为:
采用信息增益算法计算所述用户关键特征子库中的属性特征数据信息增益;
基于所述信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据;
利用逻辑回归算法生成每个用户特征数据的键值对,形成索引标签;
基于所述用户特征数据以及索引标签确定用户画像标签库。
8.根据权利要求7所述的系统,其特征在于,所述基于所述信息增益从用户特征数据的全部维度中选择一个或多个维度的用户特征数据,进一步包括:
给定数据集D,对属性子集A,根据其取值将数据集D分成V个维度子集:D1,D2,…,Dv,计算属性子集A的信息增益,其计算公式如下:
Figure FDA0003204987260000031
式中,g(D,A)为最符合子集A的特征维度,H(D)为数据集D的特征维度,H(D|A)为数据集D与属性子集A关联性较小的特征维度,H(Dv)为数据集中每个子集的特征维度,∣·∣表示集合大小,H(·)表示熵。
9.根据权利要求1所述的系统,其特征在于,所述模型确定模块进一步配置为:
将所述画像标签库进行标准化处理,并划分为训练数据和测试数据;
基于所述训练数据采用神经网络算法进行训练得到预测模型;
利用所述测试数据与预测模型进行匹配,确定用户画像模型。
10.根据权利要求1所述的系统,其特征在于,所述每一时间区间的训练数据的索引标签进行训练,进一步包括:
获取第ω个时间区间的特征数据Πω,将Πω投影到内积空间
Figure FDA0003204987260000032
设置
Figure FDA0003204987260000041
WGTω的训练的目标函数:
Figure FDA0003204987260000042
式中,U为稀疏项约束参数,λ为索引标签Πω中聚类约束参数,Sω为第ω个时间区间内积空间训练数据向量的评价矩阵,其第k行
Figure FDA0003204987260000043
表示内积空间训练数据向量在构造标签中每个特征数据的权重值,特征数据标签
Figure FDA0003204987260000044
对所述目标函数进行求解,即首先随机生成初始矩阵对WGTω和Sω,其中,WGTω是Nω×TY矩阵,Sω是TY×Nω矩阵,TY是标签熵值;然后,相互迭代地更新WGTω和Sω,求解最优的权重值矩阵WGTω和评价矩阵Sω,使得目标函数值最小,将每个时间区间的训练数据的权重值矩阵WGTω分别赋值到一个空矩阵当中,获得合成的权重值矩阵WGT,该权重值矩阵即为索引标签。
CN202110914043.0A 2021-08-10 2021-08-10 用户画像模型的构建系统 Active CN114119057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110914043.0A CN114119057B (zh) 2021-08-10 2021-08-10 用户画像模型的构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110914043.0A CN114119057B (zh) 2021-08-10 2021-08-10 用户画像模型的构建系统

Publications (2)

Publication Number Publication Date
CN114119057A true CN114119057A (zh) 2022-03-01
CN114119057B CN114119057B (zh) 2023-09-26

Family

ID=80440836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110914043.0A Active CN114119057B (zh) 2021-08-10 2021-08-10 用户画像模型的构建系统

Country Status (1)

Country Link
CN (1) CN114119057B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083337A (zh) * 2022-07-08 2022-09-20 深圳市安信泰科技有限公司 一种led显示驱动系统及方法
CN115563113A (zh) * 2022-09-29 2023-01-03 黄恋雅 基于人工智能的数据库索引建立方法及系统
CN116662556A (zh) * 2023-08-02 2023-08-29 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法
CN117272119A (zh) * 2023-11-21 2023-12-22 国网山东省电力公司营销服务中心(计量中心) 用户画像分类模型训练方法、用户画像分类方法及系统
CN117455555A (zh) * 2023-12-25 2024-01-26 厦门理工学院 基于大数据的电商用户画像分析方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
US20180260860A1 (en) * 2015-09-23 2018-09-13 Giridhari Devanathan A computer-implemented method and system for analyzing and evaluating user reviews
CN106709754A (zh) * 2016-11-25 2017-05-24 云南电网有限责任公司昆明供电局 一种用基于文本挖掘的电力用户分群方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083337A (zh) * 2022-07-08 2022-09-20 深圳市安信泰科技有限公司 一种led显示驱动系统及方法
CN115563113A (zh) * 2022-09-29 2023-01-03 黄恋雅 基于人工智能的数据库索引建立方法及系统
CN115563113B (zh) * 2022-09-29 2023-08-22 北京信智特科技有限公司 基于人工智能的数据库索引建立方法及系统
CN116662556A (zh) * 2023-08-02 2023-08-29 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法
CN116662556B (zh) * 2023-08-02 2023-10-20 天河超级计算淮海分中心 一种融合用户属性的文本数据处理方法
CN117272119A (zh) * 2023-11-21 2023-12-22 国网山东省电力公司营销服务中心(计量中心) 用户画像分类模型训练方法、用户画像分类方法及系统
CN117272119B (zh) * 2023-11-21 2024-03-22 国网山东省电力公司营销服务中心(计量中心) 用户画像分类模型训练方法、用户画像分类方法及系统
CN117455555A (zh) * 2023-12-25 2024-01-26 厦门理工学院 基于大数据的电商用户画像分析方法及系统
CN117455555B (zh) * 2023-12-25 2024-03-08 厦门理工学院 基于大数据的电商用户画像分析方法及系统

Also Published As

Publication number Publication date
CN114119057B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN114119057B (zh) 用户画像模型的构建系统
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
CN114119058B (zh) 用户画像模型的构建方法、设备及存储介质
US6138115A (en) Method and system for generating a decision-tree classifier in parallel in a multi-processor system
US9400826B2 (en) Method and system for aggregate content modeling
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN110956303A (zh) 信息预测方法、装置、终端及可读存储介质
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN113807809A (zh) 一种基于机器学习技术构建审计用户画像的方法
CN115375471A (zh) 一种基于自适应特征工程的股票市场量化方法
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
CN112100202B (zh) 一种产品识别及产品信息补全方法、存储介质及机器人
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Qu et al. Associated multi-label fuzzy-rough feature selection
CN114049165B (zh) 一种采购系统的商品比价方法、装置、设备和介质
CN111045716B (zh) 一种基于异构数据的相关补丁推荐方法
Wehnert et al. ERST: leveraging topic features for context-aware legal reference linking
CN112818215A (zh) 产品数据的处理方法、装置、设备及存储介质
Sassi et al. About database summarization
CN115329158B (zh) 一种基于多源异构电力数据的数据关联方法
CN110930189A (zh) 基于用户行为的个性化营销方法
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
Sangeetha et al. Preprocessing using attribute selection in data stream mining
Yu Application of machine learning in business district operation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant