CN116523545B - 基于大数据的用户画像构建方法 - Google Patents
基于大数据的用户画像构建方法 Download PDFInfo
- Publication number
- CN116523545B CN116523545B CN202310772232.8A CN202310772232A CN116523545B CN 116523545 B CN116523545 B CN 116523545B CN 202310772232 A CN202310772232 A CN 202310772232A CN 116523545 B CN116523545 B CN 116523545B
- Authority
- CN
- China
- Prior art keywords
- portrait
- condition
- user
- tag
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 230000001960 triggered effect Effects 0.000 claims description 32
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 24
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及大数据分析技术领域,尤其涉及一种基于大数据的用户画像构建方法,本发明通过每隔预设采集周期采集用户端触发的若干条件特征,计算画像标签对应的条件特征参量,以判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中,以及确定用户画像集合中的画像标签的标签类型,在用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值时,确定各模糊画像标签与标准画像标签的关联性,对用户画像集合中的模糊画像标签进行优化,在连续存入重复画像标签的数量大于预设存储阈值时,对预设采集周期进行调整,提高了对用户端构建画像标签的效率和准确性。
Description
本发明涉及大数据分析技术领域,尤其涉及一种基于大数据的用户画像构建方法。
背景技术
构建用户画像是指通过对用户的属性、行为、需求和偏好等方面的分析,综合得出用户的全面和深刻的描述,帮助企业更好地了解用户的需求和行为习惯,为产品设计、营销和服务策略提供依据,同时,用户画像也可以帮助企业进行市场细分,精准地定位用户群体,提高市场营销的效果和效率。
中国专利公开号:CN112487199A,公开了如下内容,该发明公开了一种基于用户购买行为的用户特征预测方法,该方法包括:采集目标用户特征信息、历史订单信息以及订单商品信息,并利用订单商品信息从公开知识图谱获取商品相关的三元组知识,构建知识子图,利用图卷积神经网络聚合实体近邻局部特征,充分学习实体的表示向量;在用户特征预测模型中根据不同的商品特征以及不同的具有相似购买行为用户的特征学习到目标用户与不同商品以及相似购买行为用户的相似度,充分根据用户间以及用户实体间的相似度学习其特征向量,满足用户的个性化需求。该发明提高了用户特征预测的准确性,从而可以更准确地预测用户特征,构造更完整的用户画像。
但是,现有技术中,还存在以下问题:
在现有技术中,根据用户端的行为对用户端所构建的用户画像中存在一定的误差,进而导致对用户端的需求判断不准确,现有的构建用户画像的方法未考虑上述因素,对所构建出的用户画像进行优化,提高对用户端所构建的用户画像的准确性。
发明内容
为解决上述问题,本发明提供一种基于大数据的用户画像构建方法,其包括:
步骤S1、构建若干画像标签与条件特征的关联关系,各所述画像标签能与多个条件特征构建关联关系,所述条件特征包括用户端可被采集的行为数据;
步骤S2、每隔预设采集周期采集用户端触发的若干条件特征,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,并基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
步骤S3、基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,所述标签类型包括模糊类型以及标准类型;
步骤S4、在第一条件下,确定各模糊画像标签与标准画像标签的关联性,对所述用户画像集合中的模糊画像标签进行优化,包括,将第一类模糊画像标签删除,或/和将第二类模糊画像标签修正;
所述第一类模糊画像标签为与标准画像标签无关联的模糊画像标签,所述第二类模糊画像标签为与标准画像标签存在关联的模糊画像标签;
在第二条件下,对所述预设采集周期进行调整;
所述第一条件为所述用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值,所述第二条件为连续存入重复画像标签的数量大于预设存储阈值,所述重复画像标签为存储时已经存在于用户画像集合中的画像标签。
进一步地,在所述步骤S2中,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,其中,
按照公式(1)计算画像标签对应的条件特征参量C,
,
公式(1)中,n表示所述用户端触发的与所述画像标签存在关联关系的条件特征的数量,N表示与所述画像标签存在关联关系的条件特征的总数量。
进一步地,在所述步骤S2中,基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中,其中,
将所述条件特征参量与预设的第一特征对比阈值进行对比,
若对比结果满足第一参量条件,判定将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
其中,所述第一参量条件为所述条件特征参量大于等于所述第一特征对比阈值。
进一步地,在所述步骤S3中,基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,其中,
将所述用户画像集合中的画像标签对应的条件特征参量与预设的第二特征对比阈值进行对比,所述第二特征对比阈值大于所述第一特征对比阈值,
若对比结果满足第二参量条件,判定所述画像标签的标签类型为模糊类型;
若对比结果满足第三参量条件,判定所述画像标签的标签类型为标准类型;
其中,所述第二参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第一特征对比阈值且所述用户画像集合中的画像标签对应的条件特征参量小于所述第二特征对比阈值,所述第三参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第二特征对比阈值。
进一步地,在所述步骤S4中,还包括,确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量,所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。
进一步地,在所述步骤S4中,确定各模糊画像标签与标准画像标签的关联性,其中,
将标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量与预设的第一数量对比阈值进行对比,
在预设数量对比条件下,判定所述模糊画像标签与所述标准画像标签存在关联性;
其中,所述预设数量对比条件为所述数量大于等于所述第一数量对比阈值。
进一步地,在所述步骤S4中,对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。
进一步地,在所述步骤S4中,对所述预设采集周期进行调整,其中,
增大采集用户端的条件特征的预设采集周期。
进一步地,所述步骤S2中,设置存储数量上限,单个用户画像集合中存储的画像标签需低于所述存储数量上限。
进一步地,各所述用户画像集合需预先建立,建立时单个用户端对应单个用户画像集合。
与现有技术相比,本发明通过每隔预设采集周期采集用户端触发的若干条件特征,计算画像标签对应的条件特征参量,以判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中,以及确定用户画像集合中的画像标签的标签类型,在用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值时,确定各模糊画像标签与标准画像标签的关联性,对用户画像集合中的模糊画像标签进行优化,在连续存入重复画像标签的数量大于预设存储阈值时,对预设采集周期进行调整,提高了对用户端构建画像标签的效率和准确性。
尤其,本发明中,基于画像标签对应的条件特征参量的大小判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中,条件特征参量由用户端触发的与画像标签存在关联关系的条件特征在与画像标签存在关联关系的全部条件特征的占比计算所得,表征了用户端的行为与画像标签的匹配程度,在实际情况中,条件特征参量越大,则表明用户端的行为与画像标签越匹配,若画像标签与用户端的行为的匹配程度高于预设的第一特征对比阈值,则表明画像标签与用户端较符合,将与用户端的行为的匹配程度高于预设的第一特征对比阈值的画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中,便于后续针对用户画像集合中的画像标签进行数据处理。
尤其,本发明中,基于用户画像集合中的画像标签对应的条件特征参量确定画像标签的标签类型,在实际情况中,条件特征参量越大,则表明用户端的行为与画像标签越匹配,基于条件特征参量的大小对存储至用户画像集合中的画像标签进行分类,便于后续针对不同标签类型的画像标签进行对应的处理,提高了对用户端构建画像标签的效率和准确性。
尤其,本发明中,在第一条件下,对用户画像集合中的模糊画像标签进行优化,用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值的第一条件下,表明用户画像集合中模糊画像标签较多,而模糊画像标签较多会造成对标准画像标签的掩盖,导致对用户端的描述不准确,若模糊画像标签与标准画像标签存在关联性,表明模糊画像标签与用户端的行为有较好的匹配性,因此,将模糊画像标签的标签类型更改为标准类型,若模糊画像标签与标准画像标签无关联性,则表明模糊画像标签与用户端的行为较不匹配,可能是个别条件特征被采集,则将模糊画像标签删除,以消除其对标准画像标签的掩盖,同时在保证对用户端条件特征采集敏感度的前提下提高了对用户端构建画像标签的准确性。
尤其,本发明中,在第二条件下,对预设采集周期进行调整,即在连续存入重复画像标签的数量大于预设存储阈值的第二条件下,对预设采集周期进行调整,在实际情况中,当已存在于用户画像集合中的画像标签在后续存储的过程中连续多次出现,则表明用户端触发的条件特征对应的画像标签较稳定,因此增大预设采集周期,减小系统的数据运算量,提高了对用户端构建画像标签的效率。
附图说明
图1为发明实施例的基于大数据的用户画像构建方法步骤示意图;
图2为发明实施例的在用户画像集合中存储画像标签以及用户端触发的若干条件特征的控制流程图;
图3为发明实施例的对模糊画像标签进行优化的控制流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1、图2以及图3所示,其为本发明实施例的基于大数据的用户画像构建方法步骤示意图、在用户画像集合中存储画像标签以及用户端触发的若干条件特征的控制流程图以及对模糊画像标签进行优化的控制流程图,本发明的基于大数据的用户画像构建方法包括:
步骤S1、构建若干画像标签与条件特征的关联关系,各所述画像标签能与多个条件特征构建关联关系,所述条件特征包括用户端可被采集的行为数据;
步骤S2、每隔预设采集周期采集用户端触发的若干条件特征,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,并基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
步骤S3、基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,所述标签类型包括模糊类型以及标准类型;
步骤S4、在第一条件下,确定各模糊画像标签与标准画像标签的关联性,对所述用户画像集合中的模糊画像标签进行优化,包括,将第一类模糊画像标签删除,或/和将第二类模糊画像标签修正;
所述第一类模糊画像标签为与标准画像标签无关联的模糊画像标签,所述第二类模糊画像标签为与标准画像标签存在关联的模糊画像标签;
在第二条件下,对所述预设采集周期进行调整;
所述第一条件为所述用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值,所述第二条件为连续存入重复画像标签的数量大于预设存储阈值,所述重复画像标签为存储时已经存在于用户画像集合中的画像标签。
具体而言,本发明中,在第一条件下,对用户画像集合中的模糊画像标签进行优化,用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值的第一条件下,表明用户画像集合中模糊画像标签较多,而模糊画像标签较多会造成对标准画像标签的掩盖,导致对用户端的描述不准确,若模糊画像标签与标准画像标签存在关联性,表明模糊画像标签与用户端的行为有较好的匹配性,因此,将模糊画像标签的标签类型更改为标准类型,若模糊画像标签与标准画像标签无关联性,则表明模糊画像标签与用户端的行为较不匹配,可能是个别条件特征被采集,则将模糊画像标签删除,以消除其对标准画像标签的掩盖,同时在保证对用户端条件特征采集敏感度的前提下提高了对用户端构建画像标签的准确性。
具体而言,预设采集周期应当在合理区间内,避免周期过短或过长不具备数据表征性,在本实施例中预设采集周期可以在区间[0,24]内进行设定,区间单位为小时。
具体而言,预设的比值对比阈值为应当在合理区间内,为避免模糊画像标签太多影响用户画像集合的表征性,在本实施例中,本领域技术人员可以将预设的比值对比阈值的值从区间[0.3,0.6]内选定。
具体而言,在本实施例中,为避免预设存储阈值的值过大降低系统数据处理效率,本领域技术人员可以将预设存储阈值的值从区间[5,10]内选定,区间单位为个。
具体而言,本发明对用户画像集合的具体形式不做限定,其可以是数据库的形式,也可以是其他形式,只需能存储画像标签即可,画像标签的构建形式可以是多样的,对本申请技术方案不构成影响,本领域技术人员可根据具体需要选取画像标签的构建方式,不再赘述。
具体而言,本发明对画像标签与条件特征建立关联关系的具体方式不做限定,本领域技术人员应当明白,数据建立关联关系的方式可以有多种,为现有成熟技术,此处不再赘述。
具体而言,本发明对采集用户端触发的条件特征的具体实现方式不做限定,采集时需获取用户端的授权,可以是通过分析用户操作日志,获取用户端触发的条件特征,也可以是其他形式,此处不再赘述。
具体而言,在本实施例中条件特征为用户端进行的操作行为,操作行为类型本领域技术人员可根据具体应用场景进行限定,此处不再赘述。
具体而言,在所述步骤S2中,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,其中,
按照公式(1)计算画像标签对应的条件特征参量C,
,
公式(1)中,n表示所述用户端触发的与所述画像标签存在关联关系的条件特征的数量,N表示与所述画像标签存在关联关系的条件特征的总数量。
具体而言,请继续参阅图2所示,在所述步骤S2中,基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中,其中,
将所述条件特征参量与预设的第一特征对比阈值进行对比,
若对比结果满足第一参量条件,判定将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
其中,所述第一参量条件为所述条件特征参量大于等于所述第一特征对比阈值。
具体而言,本发明中,基于画像标签对应的条件特征参量的大小判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中,条件特征参量由用户端触发的与画像标签存在关联关系的条件特征在与画像标签存在关联关系的全部条件特征的占比计算所得,表征了用户端的行为与画像标签的匹配程度,在实际情况中,条件特征参量越大,则表明用户端的行为与画像标签越匹配,若画像标签与用户端的行为的匹配程度高于预设的第一特征对比阈值,则表明画像标签与用户端较符合,将与用户端的行为的匹配程度高于预设的第一特征对比阈值的画像标签存储至用户端对应的用户画像集合中,便于后续针对用户画像集合中的画像标签进行数据处理。
具体而言,在所述步骤S3中,基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,其中,
将所述用户画像集合中的画像标签对应的条件特征参量与预设的第二特征对比阈值进行对比,所述第二特征对比阈值大于所述第一特征对比阈值,
若对比结果满足第二参量条件,判定所述画像标签的标签类型为模糊类型;
若对比结果满足第三参量条件,判定所述画像标签的标签类型为标准类型;
其中,所述第二参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第一特征对比阈值且所述用户画像集合中的画像标签对应的条件特征参量小于所述第二特征对比阈值,所述第三参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第二特征对比阈值。
具体而言,预设的第一特征对比阈值C1以及第二特征对比阈值C2为预先基于多个采集周期画像标签对应的条件特征参量的平均值C0计算所得,设定,其中,Ci表示第i个采集周期画像标签对应的条件特征参量,nc表示采集周期的个数,50≤nc≤200,i表示大于0的整数,设定C1=β1C0,C2=β2C0,β1表示第一比例系数,β2表示第二比例系数,0.3≤β1<β2≤0.8。
具体而言,在本实施例中,采集周期的个数nc应在合理区间内,避免个数过小不具备数据表征性,本领域技术人员可以将采集周期的个数从区间[50,200]内选定,区间单位为个。
具体而言,在本实施例中,本领域技术人员可以将第一比例系数β1以及第二比例系数β2的值从区间[0.3,0.8]内选定,设定时系数差异比Fx需控制在0.3内,保证区分的情况下避免差异过大,设定Fx=(β2-β1)/β1。
具体而言,本发明中,基于用户画像集合中的画像标签对应的条件特征参量确定画像标签的标签类型,在实际情况中,条件特征参量越大,则表明用户端的行为与画像标签越匹配,基于条件特征参量的大小对存储至用户画像集合中的画像标签进行分类,便于后续针对不同标签类型的画像标签进行对应的处理,提高了对用户端构建画像标签的效率和准确性。
具体而言,在所述步骤S4中,还包括,确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量,所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。
具体而言,在所述步骤S4中,确定各模糊画像标签与标准画像标签的关联性,其中,
将标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量与预设的第一数量对比阈值进行对比,
在预设数量对比条件下,判定所述模糊画像标签与所述标准画像标签存在关联性;
其中,所述预设数量对比条件为所述数量大于等于所述第一数量对比阈值。
具体而言,在本实施例中,预设的第一数量对比阈值基于触发条件特征总数量确定,应当在合理区间内,在本实施例中设定第一数量对比阈值为触发条件特征总数量的20%。
具体而言,在所述步骤S4中,对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。
具体而言,在所述步骤S4中,对所述预设采集周期进行调整,其中,
增大采集用户端的条件特征的预设采集周期。
具体而言,在本实施例中,调整预设采集周期时的增大量应当在合理区间内,为避免增大量过大且有调整效果,本领域技术人员可以将增大量设定为原采集周期的三分之一。
具体而言,本发明中,在第二条件下,对预设采集周期进行调整,即在连续存入重复画像标签的数量大于预设存储阈值的第二条件下,对预设采集周期进行调整,在实际情况中,当已存在于用户画像集合中的画像标签在后续存储的过程中连续多次出现,则表明用户端触发的条件特征对应的画像标签较稳定,因此增大预设采集周期,减小系统的数据运算量,提高了对用户端构建画像标签的效率。
具体而言,所述步骤S2中,设置存储数量上限,单个用户画像集合中存储的画像标签需低于所述存储数量上限。
具体而言,本领域技术人员可以将存储数量上限在区间[0,50]内选定,区间单位为个,避免存储数量上限过大导致用户标签太多无法做出准确判定。
具体而言,各所述用户画像集合需预先建立,建立时单个用户端对应单个用户画像集合。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种基于大数据的用户画像构建方法,其特征在于,包括:
步骤S1、构建若干画像标签与条件特征的关联关系,各所述画像标签能与多个条件特征构建关联关系,所述条件特征包括用户端可被采集的行为数据;
步骤S2、每隔预设采集周期采集用户端触发的若干条件特征,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,并基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
步骤S3、基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,所述标签类型包括模糊类型以及标准类型;
步骤S4、在第一条件下,确定各模糊画像标签与标准画像标签的关联性,对所述用户画像集合中的模糊画像标签进行优化,包括,将第一类模糊画像标签删除,或/和将第二类模糊画像标签修正;
所述第一类模糊画像标签为与标准画像标签无关联的模糊画像标签,所述第二类模糊画像标签为与标准画像标签存在关联的模糊画像标签;
在第二条件下,对所述预设采集周期进行调整;
所述第一条件为所述用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值,所述第二条件为连续存入重复画像标签的数量大于预设存储阈值,所述重复画像标签为存储时已经存在于用户画像集合中的画像标签;
在所述步骤S2中,基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量,其中,
按照公式(1)计算画像标签对应的条件特征参量C,
,
公式(1)中,n表示所述用户端触发的与所述画像标签存在关联关系的条件特征的数量,N表示与所述画像标签存在关联关系的条件特征的总数量;
在所述步骤S2中,基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中,其中,
将所述条件特征参量与预设的第一特征对比阈值进行对比,
若对比结果满足第一参量条件,判定将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中;
其中,所述第一参量条件为所述条件特征参量大于等于所述第一特征对比阈值;
在所述步骤S3中,基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型,其中,
将所述用户画像集合中的画像标签对应的条件特征参量与预设的第二特征对比阈值进行对比,所述第二特征对比阈值大于所述第一特征对比阈值,
若对比结果满足第二参量条件,判定所述画像标签的标签类型为模糊类型;
若对比结果满足第三参量条件,判定所述画像标签的标签类型为标准类型;
其中,所述第二参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第一特征对比阈值且所述用户画像集合中的画像标签对应的条件特征参量小于所述第二特征对比阈值,所述第三参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第二特征对比阈值。
2.根据权利要求1所述的基于大数据的用户画像构建方法,其特征在于,在所述步骤S4中,还包括,确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量,所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。
3.根据权利要求2所述的基于大数据的用户画像构建方法,其特征在于,在所述步骤S4中,确定各模糊画像标签与标准画像标签的关联性,其中,
将标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量与预设的第一数量对比阈值进行对比,
在预设数量对比条件下,判定所述模糊画像标签与所述标准画像标签存在关联性;
其中,所述预设数量对比条件为所述数量大于等于所述第一数量对比阈值。
4.根据权利要求1所述的基于大数据的用户画像构建方法,其特征在于,在所述步骤S4中,对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。
5.根据权利要求1所述的基于大数据的用户画像构建方法,其特征在于,在所述步骤S4中,对所述预设采集周期进行调整,其中,
增大采集用户端的条件特征的预设采集周期。
6.根据权利要求1所述的基于大数据的用户画像构建方法,其特征在于,所述步骤S2中,设置存储数量上限,单个用户画像集合中存储的画像标签需低于所述存储数量上限。
7.根据权利要求1所述的基于大数据的用户画像构建方法,其特征在于,各所述用户画像集合需预先建立,建立时单个用户端对应单个用户画像集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310772232.8A CN116523545B (zh) | 2023-06-28 | 2023-06-28 | 基于大数据的用户画像构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310772232.8A CN116523545B (zh) | 2023-06-28 | 2023-06-28 | 基于大数据的用户画像构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116523545A CN116523545A (zh) | 2023-08-01 |
CN116523545B true CN116523545B (zh) | 2023-09-15 |
Family
ID=87396212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310772232.8A Active CN116523545B (zh) | 2023-06-28 | 2023-06-28 | 基于大数据的用户画像构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116523545B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066457A (zh) * | 2016-08-23 | 2017-08-18 | 平安科技(深圳)有限公司 | 用户信息视图构建方法和系统 |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN111898031A (zh) * | 2020-08-14 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 一种获得用户画像的方法及装置 |
CN113204714A (zh) * | 2021-03-23 | 2021-08-03 | 北京中交兴路信息科技有限公司 | 一种基于用户画像的任务推荐方法、装置、存储介质及终端 |
WO2022262216A1 (zh) * | 2021-06-15 | 2022-12-22 | 深圳前海微众银行股份有限公司 | 一种信息推荐方法、设备及存储介质 |
CN116010700A (zh) * | 2023-01-10 | 2023-04-25 | 读书郎教育科技有限公司 | 一种基于知识图谱的用户画像方法 |
CN116308467A (zh) * | 2023-05-17 | 2023-06-23 | 南京航空航天大学 | 一种基于人工智能的智慧交易平台信息监管系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116228278B (zh) * | 2023-03-10 | 2023-11-14 | 读书郎教育科技有限公司 | 基于大数据的用户画像建立方法和用户画像管理系统 |
-
2023
- 2023-06-28 CN CN202310772232.8A patent/CN116523545B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066457A (zh) * | 2016-08-23 | 2017-08-18 | 平安科技(深圳)有限公司 | 用户信息视图构建方法和系统 |
WO2018036156A1 (zh) * | 2016-08-23 | 2018-03-01 | 平安科技(深圳)有限公司 | 用户信息视图构建方法、系统、设备及存储介质 |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN111898031A (zh) * | 2020-08-14 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 一种获得用户画像的方法及装置 |
CN113204714A (zh) * | 2021-03-23 | 2021-08-03 | 北京中交兴路信息科技有限公司 | 一种基于用户画像的任务推荐方法、装置、存储介质及终端 |
WO2022262216A1 (zh) * | 2021-06-15 | 2022-12-22 | 深圳前海微众银行股份有限公司 | 一种信息推荐方法、设备及存储介质 |
CN116010700A (zh) * | 2023-01-10 | 2023-04-25 | 读书郎教育科技有限公司 | 一种基于知识图谱的用户画像方法 |
CN116308467A (zh) * | 2023-05-17 | 2023-06-23 | 南京航空航天大学 | 一种基于人工智能的智慧交易平台信息监管系统及方法 |
Non-Patent Citations (3)
Title |
---|
基于大数据的电网用户立体画像构建;颜清;王岩;龙致远;郭威;;计算机产品与流通(07);全文 * |
基于用户画像的在线学习干预研究与实践;罗校清;;江苏理工学院学报(02);全文 * |
融合弹幕内容特征与行为特征的用户画像研究——以B站教学类视频为例;杨阳;《情报科学》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116523545A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Consumer preference elicitation of complex products using fuzzy support vector machine active learning | |
CN109509030B (zh) | 销量预测方法及其模型的训练方法、装置和电子系统 | |
US20170372351A1 (en) | Dynamic state-space modeling based on contextual and behavioral factors | |
US6636862B2 (en) | Method and system for the dynamic analysis of data | |
US8688518B2 (en) | Method, algorithm, and computer program for targeting messages including advertisements in an interactive measurable medium | |
EP3754906A1 (en) | Method and system for performing automated root cause analysis of anomaly events in high-dimensional sensor data | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN115034286B (zh) | 一种基于自适应损失函数的异常用户识别方法和装置 | |
Hoiles et al. | Rationally inattentive inverse reinforcement learning explains youtube commenting behavior | |
CN112132209B (zh) | 一种基于偏向性特征的属性预测方法 | |
Wang et al. | Aspect-ratio-preserving multi-patch image aesthetics score prediction | |
Mozer et al. | Prodding the ROC curve: Constrained optimization of classifier performance | |
CN113723861A (zh) | 异常用电行为检测方法、装置、计算机设备和存储介质 | |
CN112149352A (zh) | 一种结合gbdt自动特征工程对营销活动点击的预测方法 | |
US20220405299A1 (en) | Visualizing feature variation effects on computer model prediction | |
US8255185B2 (en) | Automated information technology management | |
CN108171570A (zh) | 一种数据筛选方法、装置及终端 | |
CN111652661A (zh) | 一种手机客户端用户流失预警处理方法 | |
CN116523545B (zh) | 基于大数据的用户画像构建方法 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN116703533A (zh) | 一种商业管理数据优化存储分析方法 | |
Woodard et al. | Online model-based clustering for crisis identification in distributed computing | |
Wang et al. | An adaptive k nearest neighbour method for imputation of missing traffic data based on two similarity | |
CN114154548A (zh) | 销量数据序列分类方法、装置、计算机设备和存储介质 | |
CN115277185B (zh) | 一种基于图神经网络的运维系统异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |