CN115357777B - 一种基于模糊理论的用户标签权重评估方法 - Google Patents

一种基于模糊理论的用户标签权重评估方法 Download PDF

Info

Publication number
CN115357777B
CN115357777B CN202211037501.8A CN202211037501A CN115357777B CN 115357777 B CN115357777 B CN 115357777B CN 202211037501 A CN202211037501 A CN 202211037501A CN 115357777 B CN115357777 B CN 115357777B
Authority
CN
China
Prior art keywords
weight
tags
user
labels
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211037501.8A
Other languages
English (en)
Other versions
CN115357777A (zh
Inventor
许力
徐振宇
张欣欣
左雨庭
叶帼华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN202211037501.8A priority Critical patent/CN115357777B/zh
Priority to LU502892A priority patent/LU502892B1/en
Publication of CN115357777A publication Critical patent/CN115357777A/zh
Application granted granted Critical
Publication of CN115357777B publication Critical patent/CN115357777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于模糊理论的用户标签权重评估方法,其包括以下步骤:1)用户标签分析及权重初始化。将用户标签具有的标签分为三类:基本标签、行为标签和社会标签,并对这些标签进行重要性分析,之后初始化三类标签的所有子标签权重;2)确定所有子标签的权重变化区间。对每类标签下的子标签进行等级划分,对每类用户标签权重利用模糊集生成对应的隶属度函数,根据确定所有标签的权重变化区间;3)设计粒子群优化算法对用户标签权重优化,根据每个标签的权重变化区间初始化每个粒子的属性权重,通过粒子群优化算法对用户标签权重进行优化。应用本技术方案可实现对用户标签考虑的更加全面。

Description

一种基于模糊理论的用户标签权重评估方法
技术领域
本发明涉及网络数据挖掘技术领域,特别是一种基于模糊理论的用户标签权重评估方法。
背景技术
随着移动设备的普及以及无线技术的迭代更新,移动社会网络蓬勃发展,越来越多的用户参与到移动社会网络中进行信息的交流分享。而随着用户数量的激增,网络中的数据也在非线性的增长,海量的数据中蕴含着巨大的价值。然而,用户信息复杂,存在信息缺失或虚假信息的情况。用户配置文件是指根据用户的基本属性、用户偏好、生活习惯、用户行为等信息抽象出来的带有标签的用户模型。每个标签和标签权重都是用户的一个向量,一个用户可以理解为超维空间的多个向量(标签)之和。数据所描述的用户最终被计算机识别,并在此基础上实现用户文件的应用。标签权重的确定对后续基于用户画像的推荐和精准营销有很大的影响。现有的标签权重算法主要是基于Sparck提出的TF-IDF算法,但目前的算法对用户的标签考虑较不全面。
发明内容
有鉴于此,本发明的目的在于提供一种基于模糊理论的用户标签权重评估方法,实现对用户的标签考虑的更加全面。
为实现上述目的,本发明采用如下技术方案:一种基于模糊理论的用户标签权重评估方法,包括以下步骤:
步骤S1:用户标签分析及权重初始化;将用户标签具有的标签分为三类:基本标签、行为标签和社会标签,并对这些标签进行重要性分析,之后初始化基本标签、行为标签和社会标签的所有子标签权重;
步骤S2:确定所有子标签的权重变化区间;对每类标签下的子标签进行等级划分,对每类用户标签权重利用模糊集生成对应的隶属度函数MDF,根据隶属度函数MDF确定所有标签的权重变化区间;
步骤S3:设计粒子群优化算法对用户标签权重优化;根据所有标签的权重变化区间随机初始化一群粒子的属性权重,通过粒子群优化算法对用户标签权重进行优化。
在一较佳的实施例中:步骤S2的具体步骤为:
步骤S201:对用户每类标签下的子标签根据初始权重的分配进行“小”、“中”、“大”三个等级的划分;
步骤S202:利用高斯公式对该类标签下三个等级的子标签权重生成模糊集,根据模糊集生成该类标签对应的隶属度函数MDF,其中,隶属度函数MDF的方差由初始权重值形成的区间范围确定;
步骤S203:对于每一类标签,根据对应的隶属度函数MDF以及最大MD原则,得到三个等级子标签权重的变化区间;
在一较佳的实施例中:步骤S3中设计粒子群优化算法对用户标签权重优化的具体方法为:
步骤S301:生成一群粒子并将所有用户标签作为粒子的属性;
步骤S302:根据所有标签的权重变化区间随机初始化所有粒子的用户标签权重;
步骤S303:通过粒子群优化算法对用户标签权重进行优化,设置优化收敛条件是最优粒子不再变化或者已经达到最大迭代次数,最优粒子的标签权重即为所求最优标签权重。
与现有技术相比,本发明具有以下有益效果:
与TF-IDF相比,本发明将用户标签权重评估问题转化为寻求最优解的问题,然后设计隶属度函数得到所有用户标签权重的模糊边界,并利用遗传算法得到每个用户标签权重的最优解。本文从三个维度,即基本标签、网络标签和行为标签出发,对不同类型的用户标签进行了划分,更符合移动社会网络的背景。
本发明采用以上技术方案,在网络数据挖掘领域中,提出一种基于模糊理论的用户标签权重评估方法,分析用户标签的重要性并对这些标签的权重进行初始化,对每类标签的子标签进行分级并利用模糊理论生成每类标签的隶属度函数MDF,根据隶属度函数MDF计算每个等级子标签的权重变化区间,设计粒子群优化算法对用户标签权重进行优化。
相较其他方法对用户的标签考虑的更加全面;将用户标签权重评估问题转化为寻求最优解的问题,然后设计隶属度函数得到所有用户标签权重的模糊边界,并利用粒子群优化算法得到每个用户标签权重的最优解。
附图说明
图1为本发明优选实施例中一种基于模糊理论的用户权重评估方法的流程示意图;
图2为本发明优选实施例中所用的隶属度函数MDF图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明提出的一种基于模糊理论的用户标签权重评估方法。为了实现这个目标,首先对用户标签进行分析以及权重进行初始化,然后设计隶属度函数MDF确定所有子标签的权重变化区间,最后利用粒子群优化算法根据初始化的用户标签权重、用户标签分数以及权重变化区间对用户标签权重优化。
参考图1至2,本发明公开了一种基于模糊理论的用户标签权重评估方法,其包括以下步骤:
步骤S1:用户标签分析及权重初始化。将用户标签具有的标签分为三类:基本标签、行为标签和社会标签,并对这些标签进行重要性分析,之后初始化三类标签的所有子标签权重;
步骤S2:确定所有子标签的权重变化区间如图2所示。对每类标签下的子标签进行等级划分,对每类用户标签权重利用模糊集生成对应的隶属度函数MDF,根据MDF确定所有标签的权重变化区间;
步骤S3:设计遗传算法对用户标签权重优化。根据所有用户标签的权重计算适应度函数,利用适应度函数设计遗传算法GA,通过GA对用户标签权重进行优化。
步骤S2的具体步骤为:
步骤S201:对用户每类标签下的子标签根据初始权重的分配进行“小、中、大”三个等级的划分;
步骤S202:利用高斯公式对该类标签下三个等级的子标签权重生成模糊集,根据模糊集生成该类标签对应的隶属度函数MDF。其中,MDF的方差由初始权重值形成的区间范围确定;
步骤S203:对于每一类标签,根据对应的隶属度函数MDF以及最大MD原则,得到三个等级子标签权重的变化区间。
歩骤S3中设计粒子群优化算法对用户标签权重优化的具体方法为:
步骤S301:生成一群粒子并将所有用户标签作为粒子的属性;
步骤S302:根据所有标签的权重变化区间随机初始化所有粒子的用户标签权重;
步骤S303:通过粒子群优化算法对用户标签权重进行优化,设置优化收敛条件是最优粒子不再变化或者已经达到最大迭代次数,最优粒子的标签权重即为所求最优标签权重。
本发明采用以上技术方案,在网络数据挖掘领域中,提出一种基于模糊理论的用户标签权重评估方法,分析用户标签的重要性并对这些标签的权重进行初始化,对每类标签的子标签进行分级并利用模糊理论生成每类标签的隶属度函数MDF,根据隶属度函数MDF计算每个等级子标签的权重变化区间,设计粒子群优化算法对用户标签权重进行优化。
相较其他方法对用户的标签考虑的更加全面;将用户标签权重评估问题转化为寻求最优解的问题,然后设计隶属度函数得到所有用户标签权重的模糊边界,并利用粒子群优化算法得到每个用户标签权重的最优解。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (1)

1.一种基于模糊理论的用户标签权重评估方法,其特征在于,包括以下步骤:
步骤S1:用户标签分析及权重初始化;将用户标签具有的标签分为三类:基本标签、行为标签和社会标签,并对这些标签进行重要性分析,之后初始化基本标签、行为标签和社会标签的所有子标签权重;
步骤S2:确定所有子标签的权重变化区间;对每类标签下的子标签进行等级划分,对每类用户标签权重利用模糊集生成对应的隶属度函数MDF,根据隶属度函数MDF确定所有标签的权重变化区间;
步骤S3:设计粒子群优化算法对用户标签权重优化;根据所有标签的权重变化区间随机初始化一群粒子的属性权重,通过粒子群优化算法对用户标签权重进行优化;
步骤S2的具体步骤为:
步骤S201:对用户每类标签下的子标签根据初始权重的分配进行“小”、“中”、“大”三个等级的划分;
步骤S202:利用高斯公式对该类标签下三个等级的子标签权重生成模糊集,根据模糊集生成该类标签对应的隶属度函数MDF,其中,隶属度函数MDF的方差由初始权重值形成的区间范围确定;
步骤S203:对于每一类标签,根据对应的隶属度函数MDF以及最大MD原则,得到三个等级子标签权重的变化区间;
步骤S3中设计粒子群优化算法对用户标签权重优化的具体方法为:
步骤S301:生成一群粒子并将所有用户标签作为粒子的属性;
步骤S302:根据所有标签的权重变化区间随机初始化所有粒子的用户标签权重;
步骤S303:通过粒子群优化算法对用户标签权重进行优化,设置优化收敛条件是最优粒子不再变化或者已经达到最大迭代次数,最优粒子的标签权重即为所求最优标签权重。
CN202211037501.8A 2022-08-26 2022-08-26 一种基于模糊理论的用户标签权重评估方法 Active CN115357777B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211037501.8A CN115357777B (zh) 2022-08-26 2022-08-26 一种基于模糊理论的用户标签权重评估方法
LU502892A LU502892B1 (en) 2022-08-26 2022-10-12 User Label Weight Evaluation Method Based on Fuzzy Theory

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211037501.8A CN115357777B (zh) 2022-08-26 2022-08-26 一种基于模糊理论的用户标签权重评估方法

Publications (2)

Publication Number Publication Date
CN115357777A CN115357777A (zh) 2022-11-18
CN115357777B true CN115357777B (zh) 2023-09-01

Family

ID=84005349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211037501.8A Active CN115357777B (zh) 2022-08-26 2022-08-26 一种基于模糊理论的用户标签权重评估方法

Country Status (2)

Country Link
CN (1) CN115357777B (zh)
LU (1) LU502892B1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012214049A1 (de) * 2011-08-22 2013-02-28 Xerox Corp. System zur Co-Cluster-Bildung von Schülerbeurteilungen
CN104933862A (zh) * 2015-05-26 2015-09-23 大连理工大学 一种基于浮动车轨迹的城市交通拥堵智能组合预测方法
CN106096723A (zh) * 2016-05-27 2016-11-09 北京航空航天大学 一种基于混合神经网络算法的用于复杂工业产品性能评估方法
CN109190675A (zh) * 2018-08-06 2019-01-11 浪潮电子信息产业股份有限公司 一种基于粒子群优化算法的模糊分类方法及装置
CN109215350A (zh) * 2018-11-02 2019-01-15 重庆大学 一种基于rfid电子车牌数据的短期交通状态预测方法
CN111860097A (zh) * 2020-04-16 2020-10-30 西安电子科技大学 一种基于模糊理论的异常行为检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701312B2 (en) * 2001-09-12 2004-03-02 Science Applications International Corporation Data ranking with a Lorentzian fuzzy score
CN110851272B (zh) * 2019-10-30 2022-02-11 内蒙古农业大学 基于吞噬的粒子群遗传混合算法的云任务调度方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012214049A1 (de) * 2011-08-22 2013-02-28 Xerox Corp. System zur Co-Cluster-Bildung von Schülerbeurteilungen
CN104933862A (zh) * 2015-05-26 2015-09-23 大连理工大学 一种基于浮动车轨迹的城市交通拥堵智能组合预测方法
CN106096723A (zh) * 2016-05-27 2016-11-09 北京航空航天大学 一种基于混合神经网络算法的用于复杂工业产品性能评估方法
CN109190675A (zh) * 2018-08-06 2019-01-11 浪潮电子信息产业股份有限公司 一种基于粒子群优化算法的模糊分类方法及装置
CN109215350A (zh) * 2018-11-02 2019-01-15 重庆大学 一种基于rfid电子车牌数据的短期交通状态预测方法
CN111860097A (zh) * 2020-04-16 2020-10-30 西安电子科技大学 一种基于模糊理论的异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度网络的显著性目标检测;王玉;王志腾;;电子测量技术(21);全文 *

Also Published As

Publication number Publication date
LU502892B1 (en) 2023-04-18
CN115357777A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
Jiang et al. Network intrusion detection based on PSO-XGBoost model
CN110224987B (zh) 基于迁移学习的网络入侵检测模型的构建方法、检测系统
CN105893406A (zh) 群体用户画像方法及系统
CN110012060B (zh) 移动终端的信息推送方法、装置、存储介质和服务器
CN106682527A (zh) 一种基于数据分类分级的数据安全管控方法及系统
CN104809408A (zh) 一种基于差分隐私的直方图发布方法
CN109255000B (zh) 一种标签数据的维度管理方法及装置
WO2020114108A1 (zh) 聚类结果的解释方法和装置
CN107507028A (zh) 用户偏好确定方法、装置、设备及存储介质
CN103177177A (zh) 信息处理设备、估计器生成方法和程序
WO2023071105A1 (zh) 一种特征变量的分析方法、装置、计算机设备及存储介质
Halim et al. Density-based clustering of big probabilistic graphs
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
Xin et al. An overlapping semantic community detection algorithm base on the ARTs multiple sampling models
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN116310385A (zh) 3d点云数据中的单一数据集域泛化方法
CN115357777B (zh) 一种基于模糊理论的用户标签权重评估方法
Zhou et al. Research on hybrid intrusion detection based on improved Harris Hawk optimization algorithm
CN115358430A (zh) 一种基于大数据的运维信息管理系统及方法
Luo et al. DeepAttr: Inferring demographic attributes via social network embedding
CN114971504A (zh) 一种实体类型确定方法和相关装置
CN113409096A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN113259369A (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN112561599A (zh) 一种融合域特征交互的基于注意力网络学习的点击率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant