CN117272398B - 基于人工智能的数据挖掘安全保护方法及系统 - Google Patents
基于人工智能的数据挖掘安全保护方法及系统 Download PDFInfo
- Publication number
- CN117272398B CN117272398B CN202311567399.7A CN202311567399A CN117272398B CN 117272398 B CN117272398 B CN 117272398B CN 202311567399 A CN202311567399 A CN 202311567399A CN 117272398 B CN117272398 B CN 117272398B
- Authority
- CN
- China
- Prior art keywords
- consumption
- cluster
- data
- attribute
- consumption data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007418 data mining Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 134
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000011156 evaluation Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 2
- 238000010845 search algorithm Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 235000010149 Brassica rapa subsp chinensis Nutrition 0.000 description 1
- 235000000536 Brassica rapa subsp pekinensis Nutrition 0.000 description 1
- 241000499436 Brassica rapa subsp. pekinensis Species 0.000 description 1
- 235000008534 Capsicum annuum var annuum Nutrition 0.000 description 1
- 240000008384 Capsicum annuum var. annuum Species 0.000 description 1
- 229910001006 Constantan Inorganic materials 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 235000015203 fruit juice Nutrition 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及基于人工智能的数据挖掘安全保护方法及系统,该方法包括:构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;构建不同消费属性的分布一致性;构建消费喜好关联度;对消费数据向量聚类计算聚类簇中各消费数据向量的局部密度;计算消费属性的簇内突出系数及偏离指数;构建各消费数据向量的簇内边缘度并提取聚类簇的簇内边缘点;构建聚类簇的项集支持度阈值;采用Apriori算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集及强关联规则,完成商场消费者数据的数据挖掘结果。从而实现更好的挖掘消费者数据中的关联规则,降低频繁项集数量。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于人工智能的数据挖掘安全保护方法及系统。
背景技术
随着各种电子设备的频繁使用,大量个人、集体组织在生活或者工作中的数据经过所使用的电子设备不断地传输或者扩散。面对高速递增的数据,隐私安全保护的重要性日益突出,大数据背景下网络数据形成的分布式存储的大型数据库带有较多噪声。而数据挖掘就是从大量不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,因此数据挖掘主要用于从包含丰富存储格式的大型数据库中挖掘出隐含有价值的信息。
现阶段对于数据安全保护的数据挖掘主要集中在基于隐私保护的分类数据挖掘、基于隐私保护的关联规则挖掘、基于隐私保护的复杂类型数据挖掘等等,其中,MASK(Mining Associations with Secrecy Konstraints)算法、Apriori算法、FP-Growth(Frequent Pattern Growth)算法、公匙加密RSA算法是较为常用的数据处理算法;MASK算法由于存在数据扰乱的处理步骤,导致挖掘结果准确率较低;Apriori算法需要对数据进行大量的扫描,导致挖掘效率偏低;FP-Growth算法对数据集的类型有一定的要求,实现较为困难;而RSA算法的安全性依赖于密钥长度,但是密钥长度又限制了加密速度,不适合处理大文件。
发明内容
为了解决上述技术问题,本发明的目的在于提供基于人工智能的数据挖掘安全保护方法及系统,所采用的技术方案具体如下:
第一方面,本发明实施例提供了基于人工智能的数据挖掘安全保护方法,该方法包括以下步骤:
将商场采集周期内每天的消费数据转成十进制组成消费者数据列表;
根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性;根据消费属性关联图中各节点的不同消费属性之间的分布一致性得到不同消费属性之间的消费喜好关联度;对消费数据向量聚类并采用DPC算法计算聚类簇中各消费数据向量的局部密度;
对于聚类簇内各消费属性,根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数;根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数;根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度;按照簇内边缘度从大到小取前F个消费数据向量作为聚类簇的簇内边缘点;根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值;采用Apriori算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集;将可信度大于可信度阈值的频繁项集的关联规则作为强关联规则;所有强关联规则作为商场消费者数据的数据挖掘结果。
进一步地,所述根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图,包括:
所述消费者数据列表每列对应一个消费属性,每行为各消费者每次消费的数据,其中,所述消费属性包括物品名称、种类、单价、是否折扣、销售量以及金额;将消费者数据列表中每一行除物品名称外的其他消费属性的数据作为一个消费数据向量;每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图。
进一步地,所述根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重,包括:
将同一消费单号的各消费数据向量组成每个消费单号的消费数据矩阵,计算消费单号的消费数据矩阵与其他所有消费单号消费数据矩阵之间余弦相似度的和值,计算所有消费单号所述和值进行求和的结果,将所述和值与所述结果的比值作为对应消费单号的评估权重。
进一步地,所述根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性,包括:
获取各消费数据向量所在消费单号的评估权重,并在消费者数据列表中获取各消费属性的取值,消费数据向量i、j在消费属性a、b上的分布一致性表达式为:
式中,、/>分别是消费数据向量i、消费数据向量j所在消费单号的评估权重,/>、/>分别是第i个消费数据向量、消费数据向量j在消费属性a的取值,/>、分别是消费数据向量i、消费数据向量j在消费属性b的取值。
进一步地,所述消费喜好关联度包括:
采用深度优先搜索算法获取图中每个节点的结构近邻节点集合;将消费数据向量与其结构近邻节点集合中所有节点消费数据向量任意两种消费属性的分布一致性和值作为所述任意两种消费属性之间的消费喜好关联度。
进一步地,所述根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数,包括:
计算聚类簇k内所有消费数据向量在消费属性a上对应取值的变异系数,获取聚类簇k内所有消费属性之间消费喜好关联度的均值;计算聚类簇k内消费属性a与其他各消费属性之间的消费喜好关联度减去所述均值的差值绝对值的和值,将所述和值作为以自然常数为底数的指数函数的指数,将所述指数函数的计算结果与所述变异系数的倒数的乘积作为聚类簇k内消费属性a的簇内突出系数。
进一步地,所述根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数,包括:
获取以聚类簇k内消费数据向量i为中心以DPC算法的截断距离为半径的局部区域,计算聚类簇k内消费属性a的取值与局部区域内所有消费数据向量的消费属性a的取值的差值绝对值的和值,将聚类簇k内消费属性a的簇内突出系数与所述和值的乘积作为聚类簇k内消费属性a的偏离系数。
进一步地,所述根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度,具体包括:
对于各消费数据向量;
将消费数据向量所有消费属性偏离指数的和值与对应消费数据向量局部密度比值作为消费数据向量的簇内边缘度。
进一步地,所述根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值,包括:
设定初始支持度阈值,Apriori算法在第z轮迭代时第k个聚类簇的项集支持度阈值/>的表达式为:
式中,z是迭代次数,是聚类簇k内所有簇内边缘点的簇内边缘度的均值,exp()是以自然常数为底数的指数函数。
第二方面,本发明实施例还提供了基于人工智能的数据挖掘安全保护系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明至少具有如下有益效果:
本发明提出基于人工智能的数据挖掘安全保护方法及系统,通过分析消费者数据构建的消费属性关联图上不同节点的结构相似性构建消费喜好关联度,消费喜好关联度通过结构近邻节点评估消费属性之间的关联度而不是通过距离相近的同质性节点评估消费属性之间的关联度,侧重于每个节点在消费属性关联图上相对位置,其有益效果在于能够避免同一个消费者购买同一件物品时形成的消费数据向量具有一定的差异,导致对后续关联规则支持度的计算产生误差;
其次根据消费者数据向量的聚类结果构建簇内边缘度,基于簇内边缘度自适应的确定Apriori算法中每轮迭代时项集支持度的阈值,能够更好的挖掘消费者数据中的关联规则,减少频繁项集的数量,提高数据安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的基于人工智能的数据挖掘安全保护方法的步骤流程图;
图2为消费属性关联图示意图;
图3为数据挖掘安全保护结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于人工智能的数据挖掘安全保护方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于人工智能的数据挖掘安全保护方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于人工智能的数据挖掘安全保护方法的步骤流程图,该方法包括以下步骤:
步骤S001,获取商场采集周期内每一天的消费者数据列表,将所获消费者数据列表上传至云服务器。
数据挖掘能够帮助企业、市场、或组织更好的从大数据中了解客户、消费者的需求。本发明中以城市中的商场为例,获取商场中每个消费者每次购物时的消费者数据,从每个商场采集的大量消费者数据中挖掘消费者喜好,采购更多消费者需求量较大的物品,提高销售转化率。
具体地,以A商场为例,将A商场中每个消费者每次结账的时间作为一次购物时间,由A商场的数据中心采集每个购物时间下每个消费者购买的物品名称、每一件物品的单价以及每一件物品的实际付款金额,每次采集周期为30天。A商场的数据中心根据每个采集周期内所有购物时间所有消费者的消费者数据统计物品种类、每个种类下包含的物品、每个种类每天的销售额,其中所述物品种类包括但不限于日用品、蔬菜、水果、电子产品,每个种类下包含的物品是指每一类物品包含的消费者具体购买的东西,例如,蔬菜包括但不限于白菜、青椒等,饮品包括果汁、啤酒、白酒等。由每天商场结束营业时所有消费者数据构建消费列表,在本发明中考虑到商场时常发生的促销活动,通过0、1两类标签表达物品是否处于折扣状态,0、1分别表示物品没有折扣、有折扣。基于A商场每个采集周期内所有的消费者数据得到消费者数据列表。
需要说明的是,对于消费数据列表中的文本数据,采用Unicode的编码方式将每个文本数据转化为二进制形式,为了便于后续计算,将每个文本数据的二进制形式转化为十进制,将转化后的十进制结果代替文本数据,Unicode编码为公知技术,具体过程不再赘述。如下表1为A商场采集周期内消费者数据列表:
表1
如表1所示,为A商场采集周期内第一天第1个消费者结账时购买的第一件物品的名称的十进制形式,/>、/>、/>分别是第1个消费者购买物品/>的商品种类、单价、销售量、金额,0代表购买物品/>时没有折扣,/>是第一个消费者购买的物品总数量,n是A商场采集周期内消费单号的数量。
根据上述步骤,分别获取每个商场每个采集周期的消费者数据列表,并将所得消费者数据列表由数据中心传输到云服务器。
至此,得到每个商场每个采集周期内的消费者数据列表,并传输到云服务器中用于后续的数据分析和数据挖掘。
步骤S002,云服务器接收到数据中心的消费者数据后进行数据挖掘,结合消费数据向量之间的关系得到相应的关联规则。
在利用数据挖掘Apriori算法从A商场的消费者数据中挖掘消费者购物喜好时,需要对数据进行反复扫描,同时会产生数量过多的候选项集,导致挖掘所得关联规则中有些规则是非必要的,而且随着商场内消费者数据的累计挖掘效率会进一步降低,同时还会增加商场数据中心向云服务器传输数据的时间,降低数据安全性。基于上述分析,本发明实施例考虑根据A商场内每个采集周期内的消费者数据列表对每个采集周期的消费者数据进行特征提取,通过特征提取结果降低Apriori算法扫描数据的次数,产生较小数量的候选项集。
具体地,将上述消费者数据列表中的每列作为一个消费属性,所述消费属性包括但不限于单价、种类、销售量、是否折扣。其次,将A商场数据中心得到的每个采集周期内消费者数据列表中每一行中第2列到最后一列内所有元素组成的向量作为一个消费数据向量,将消费者数据列表中同一消费单号的所有数据向量组成的矩阵作为每个消费单号的消费数据矩阵。其次将每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图,消费属性关联图示意图如图2所示,将消费属性关联图作为输入,从消费属性关联图上的任意一个节点开始,利用深度优先搜索DFS(Depth First Search)算法获取消费属性关联图上每个节点的结构近邻节点集合,将第i个消费数据向量对应节点的结构近邻节点集合记为,DFS算法为公知技术,具体过程不再赘述。
获取结构近邻节点集合的目的在于考虑到每个消费者在A商场中购物时的需求、消费喜好不同,A商场对同一件物品不同时刻的折扣策略也不同,导致消费者对同一件物品在不同消费时刻下的购买量、单价会发生变化,因此可能会导致同一个消费者购买同一件物品时形成的消费数据向量具有一定的差异,导致对后续关联规则支持度的计算产生误差。因此在消费者数据的数据挖掘中,可能存在节点位置位于消费属性关联图的边缘、或者中心,但是由于与其余节点之间的距离过远导致关联规则的置信度过低,这些节点可能对应每个种类的热门物品、热销物品等,但是这些节点在消费属性关联图都具有结构相似的特点,消费属性关联图示意图如图2所示,图2中黑色圆形节点之间、白色圆形节点之间的距离均较远,但是黑色圆形节点具有相似的结构,两个白色圆形节点具有相似的节点。
对于消费属性关联图上的任意一个节点,如果节点的结构近邻节点集合中各节点对应的消费数据向量在某一消费属性上的取值分布较为相似,则此消费属性在相同消费喜好的消费者之间相似度较大;同理,相同消费喜好的消费者在多个消费属性上的取值分布越接近,则上述多个消费属性之间的关联度越大。
基于上述分析,此处构建消费喜好关联度,用于表征任意两种消费属性之间的关联程度。计算消费属性a、b之间的消费喜好关联度:
式中,是消费单号c的评估权重,/>是消费单号的数量,/>、/>分别是消费单号c、消费单号h的消费数据矩阵,/>是消费数据矩阵/>、/>之间的余弦相似度;
是第i个消费数据向量与消费数据向量j在消费属性a、b上的分布一致性,j是第i个消费数据向量的结构近邻节点集合中第j个节点对应的消费数据向量j,/>、/>分别是消费数据向量i、消费数据向量j所在消费单号的评估权重,/>、/>分别是第i个消费数据向量、消费数据向量j在消费属性a的取值,/>、/>分别是消费数据向量i、消费数据向量j在消费属性b的取值,需要说明的是,所述取值为消费者数据列表中各位置对应的数值,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1;
是消费属性a、b之间的消费喜好关联度,/>是A商场每个采集周期的消费者数据列表中包含消费数据向量的数量,j是第i个消费数据向量的结构近邻节点集合中第j个节点对应的消费数据向量,N是第i个消费数据向量的结构近邻节点集合中节点的数量。
其中,A商场中存在消费需求大或者销售火热的物品越多,不同消费者购买同种物品的概率越高,消费单号c与其余消费单号的消费数据矩阵越相似,的值越大,在数据挖掘的过程中购买同一物品的消费者数据越重要,/>的值越大;在消费属性关联图上第i个消费数据向量的对应的节点与其结构近邻节点集合中节点的结构越相似、携带的属性信息越接近,第i个消费数据向量及其结构近邻节点集合中节点对应消费数据向量在消费属性a、b上的取值越接近,/>、/>的值越接近,/>、/>的值越接近,/>的值越接近于1;即/>的值越大,消费者购物时考虑消费属性a、b之间的关联度更多。消费喜好关联度通过结构近邻节点评估消费属性之间的关联度而不是通过距离相近的同质性节点评估消费属性之间的关联度,侧重于每个节点在消费属性关联图上相对位置,其有益效果在于能够避免同一个消费者购买同一件物品时形成的消费数据向量具有一定的差异,导致对后续关联规则支持度的计算产生误差。
至此,得到任意两种消费属性之间的消费喜好关联度,用于后续数据挖掘过程中频繁项集的获取。
在利用Apriori算法对A商场每个周期的消费者数据列表进行数据挖掘的目的是在保护消费者隐私的前提下获取消费需求较高的物品,以便于辅助指定采购策略。因此对于支持度较小的频繁项集可能导致的置信度较低的关联规则在算法迭代的前几轮就应当进行删除,减少频繁项集的数量,同时降低数据传输的时间,提高数据安全性。
具体地,将所有的消费数据向量作为输入,采用k-means聚类算法对消费数据向量进行聚类,聚类簇的数量设置为20,聚类过程中的度量距离为消费数据向量之间的欧氏距离,k-means聚类为公知技术,具体过程不再赘述。
进一步地,对于任意一个聚类簇,以第k个聚类簇为例,将第k个聚类簇内各消费数据向量作为密度峰值聚类DPC算法的输入,需要说明的是,DPC算法的截断距离实施者可自行设定,本实施例中计算任意两个消费者数据向量之间的欧氏距离,将所有所述欧氏距离按照升序排序,取排序结果中第2%个元素作为DPC算法中的截断距离,需要说明的是,如果排序结果中2%不是一个整数,则采用向前取值的方式,取第2%个元素的前一个元素作为阶段距离,DPC算法的输出为第k个聚类簇中每个消费数据向量对应数据点的局部密度,DPC算法为公知技术,具体过程不再赘述。
在第k个聚类簇内消费数据向量的局部密度越大,说明周围存在的消费数据向量越多,与第k个聚类簇内大量消费数据向量之间存在较大支持度的频繁项集的概率越大;局部密度越小,与第k个聚类簇内大量消费数据向量之间存在较大支持度的频繁项集的概率越小,挖掘强关联规则的概率越低。
基于上述分析,构建簇内边缘度,用于表征每个聚类簇内消费者数据向量难以形成较大支持度的频繁项集的概率。计算第k个聚类簇内第i个消费者数据向量的簇内边缘度:
式中,是第k个聚类簇内消费属性a的簇内突出系数,/>是聚类簇k内所有消费数据向量在消费属性a上对应取值的变异系数,所述变异系数的计算为现有技术,exp()是自然常数为底数的指数函数,/>是消费属性a、b之间的消费喜好关联度,/>是聚类簇k内所有消费属性之间消费喜好关联度的均值,/>是聚类簇k内消费属性的数量,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1;
是第k个聚类簇内第i个消费数据向量的消费属性a的偏离指数,/>是以第i个消费数据向量为中心以截断距离为半径的局部区域内消费数据向量的数量,g是所述局部区域内的第g个消费数据向量,/>是第g个消费数据向量在消费属性a的取值,/>为第i个消费数据向量在消费属性a的取值;
是第k个聚类簇内第i个消费数据向量的簇内边缘度,/>是第i个消费数量向量对应数据点的局部密度,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1。
根据上述步骤,分别获取第k个聚类簇内每个消费数据向量的簇内边缘度,并将第k个聚类簇中所有消费数据向量的簇内边缘度按照升序顺序排列,取排列结果中前f%个消费数据向量作为第k个聚类簇的簇内边缘点,f的大小取经验值5。需要说明的是,如果排列结果的f%不是一个整数,则采用向前取整的方式,取排列结果中前f%-1个消费数据向量作为簇内边缘点。
进一步地,将A商场每个采集周期内的消费者数据列表作为初始数据,Apriori算法第一遍扫描各聚类簇的初始数据后得到各聚类簇的频繁1-项集,其次将每个频繁1-项集与初始支持度阈值进行对比,删除支持度小于初始支持度阈值的频繁1-项集,将剩余的频繁1-项集作为Apriori算法第二轮的输入,得到每个聚类簇对应的所有频繁2-项集。需要说明的是,初始支持度阈值实施者可自行设定。对于任意一个簇内边缘点,以簇内边缘点d为例,将每个存在簇内边缘点d的频繁2-项集作为一个待删除候选项集。基于所有簇内边缘点的簇内边缘度以及每个簇内边缘点的待删除候选项集的支持度确定本发明实施例中第z轮迭代时第k个聚类簇的项集支持度阈值:
式中,z是迭代次数,是聚类簇k内所有簇内边缘点的簇内边缘度的均值,exp()是自然常数为底数的指数函数,/>是初始支持度阈值,/>的大小取经验值0.2。
进一步地,根据上述步骤,分别获取每个聚类簇每一轮迭代时的支持度阈值,在每一轮迭代得到的每个聚类簇的频繁项集中,将所有支持度小于当前轮项集支持度阈值的频繁项集删除,直至不再产生新的频繁项集,其次将每个产生的关联规则的可信度与可信度阈值进行对比,将可信度大于可信度阈值的关联规则作为强关联规则,可信度阈值本实施例取经验值0.8,将所有强关联规则作为A商场的消费者数据的数据挖掘结果,Apriori算法为公知技术,具体迭代过程不再赘述。
至此,得到每个商场每个采集周期内消费者数据的数据挖掘结果。
步骤S003,将每个商场对应数据挖掘结果传输至各商场的数据中心,商场的数据中心得到消费者数据对应的关联规则后生成消费需求清单,辅助指定后续的采购措施。
根据上述步骤,得到每个商场消费者数据对应数据挖掘结果及关联规则,其次云服务器将每个商场对应数据挖掘结果传输至各个商场的数据中心,每个商场的数据中心对接收到的对应数据挖掘结果后,每个商场的数据中心获取商场消费者数据对应的关联规则,本发明实施例的数据挖掘安全保护结构示意图如图3所示。
进一步地,每个商场的数据中心根据商场采集的消费者数据,将所有物品按照购买数量降序顺序排列所得序列记为消费需求等级序列,对于消费需求等级序列中的每个元素,以第x个元素为例,获取第x个元素对应的所有关联规则,其次根据所述每条关联规则获取与第x个元素存在关联性的其它物品,将所有与第x个物品存在关联性的物品按照物品所在关联规则的置信度降序顺序排列组成的序列作为第x个物品的关联物品清单。根据上述步骤,分别获取消费需求等级序列中每个元素的关联物品清单,将每个商场的消费需求等级序列中所有元素的关联物品清单组成的列表作为每个商场的消费需求清单。其次由每个商场的数据中心将商场的消费需求清单分别发送至商场管理者和采购部门,辅助商场管理者和采购部门生产商场后续的采购措施。
基于与上述方法相同的发明构思,本发明实施例还提供了基于人工智能的数据挖掘安全保护系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于人工智能的数据挖掘安全保护方法中任意一项所述方法的步骤。
综上所述,本发明实施例提出一种基于人工智能的数据挖掘安全保护方法及系统,通过分析消费者数据构建的消费属性关联图上不同节点的结构相似性构建消费喜好关联度,消费喜好关联度通过结构近邻节点评估消费属性之间的关联度而不是通过距离相近的同质性节点评估消费属性之间的关联度,侧重于每个节点在消费属性关联图上相对位置,其有益效果在于能够避免同一个消费者购买同一件物品时形成的消费数据向量具有一定的差异,导致对后续关联规则支持度的计算产生误差;
同时,根据消费者数据向量的聚类结果构建簇内边缘度,基于簇内边缘度自适应的确定Apriori算法中每轮迭代时项集支持度的阈值,能够更好的挖掘消费者数据中的关联规则,减少频繁项集的数量,提高数据安全性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于人工智能的数据挖掘安全保护方法,其特征在于,该方法包括以下步骤:
将商场采集周期内每天的消费数据转成十进制组成消费者数据列表;
根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性;根据消费属性关联图中各节点的不同消费属性之间的分布一致性得到不同消费属性之间的消费喜好关联度;对消费数据向量聚类并采用DPC算法计算聚类簇中各消费数据向量的局部密度;
对于聚类簇内各消费属性,根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数;根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数;根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度;按照簇内边缘度从大到小取前F个消费数据向量作为聚类簇的簇内边缘点;根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值;采用Apriori算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集;将可信度大于可信度阈值的频繁项集的关联规则作为强关联规则;所有强关联规则作为商场消费者数据的数据挖掘结果;
所述根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性,包括:获取各消费数据向量所在消费单号的评估权重,并在消费者数据列表中获取各消费属性的取值,消费数据向量i、j在消费属性a、b上的分布一致性表达式为:
式中,、/>分别是消费数据向量i、消费数据向量j所在消费单号的评估权重,/>、/>分别是第i个消费数据向量、消费数据向量j在消费属性a的取值,/>、/>分别是消费数据向量i、消费数据向量j在消费属性b的取值,/>是调参因子;
所述消费喜好关联度包括:采用深度优先搜索算法获取图中每个节点的结构近邻节点集合;将消费数据向量与其结构近邻节点集合中所有节点消费数据向量任意两种消费属性的分布一致性和值作为所述任意两种消费属性之间的消费喜好关联度;
所述根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值,包括:设定初始支持度阈值,Apriori算法在第z轮迭代时第k个聚类簇的项集支持度阈值的表达式为:
式中,z是迭代次数,是聚类簇k内所有簇内边缘点的簇内边缘度的均值,exp()是以自然常数为底数的指数函数。
2.如权利要求1所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图,包括:
所述消费者数据列表每列对应一个消费属性,每行为各消费者每次消费的数据,其中,所述消费属性包括物品名称、种类、单价、是否折扣、销售量以及金额;将消费者数据列表中每一行除物品名称外的其他消费属性的数据作为一个消费数据向量;每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图。
3.如权利要求2所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重,包括:
将同一消费单号的各消费数据向量组成每个消费单号的消费数据矩阵,计算消费单号的消费数据矩阵与其他所有消费单号消费数据矩阵之间余弦相似度的和值,计算所有消费单号所述和值进行求和的结果,将所述和值与所述结果的比值作为对应消费单号的评估权重。
4.如权利要求1所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数,包括:
计算聚类簇k内所有消费数据向量在消费属性a上对应取值的变异系数,获取聚类簇k内所有消费属性之间消费喜好关联度的均值;计算聚类簇k内消费属性a与其他各消费属性之间的消费喜好关联度减去所述均值的差值绝对值的和值,将所述和值作为以自然常数为底数的指数函数的指数,将所述指数函数的计算结果与所述变异系数的倒数的乘积作为聚类簇k内消费属性a的簇内突出系数。
5.如权利要求4所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数,包括:
获取以聚类簇k内消费数据向量i为中心以DPC算法的截断距离为半径的局部区域,计算聚类簇k内消费属性a的取值与局部区域内所有消费数据向量的消费属性a的取值的差值绝对值的和值,将聚类簇k内消费属性a的簇内突出系数与所述和值的乘积作为聚类簇k内消费属性a的偏离系数。
6.如权利要求1所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度,具体包括:
对于各消费数据向量;
将消费数据向量所有消费属性偏离指数的和值与对应消费数据向量局部密度比值作为消费数据向量的簇内边缘度。
7.基于人工智能的数据挖掘安全保护系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311567399.7A CN117272398B (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据挖掘安全保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311567399.7A CN117272398B (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据挖掘安全保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117272398A CN117272398A (zh) | 2023-12-22 |
CN117272398B true CN117272398B (zh) | 2024-01-26 |
Family
ID=89209171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311567399.7A Active CN117272398B (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据挖掘安全保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272398B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7370033B1 (en) * | 2002-05-17 | 2008-05-06 | Oracle International Corporation | Method for extracting association rules from transactions in a database |
CN104699666A (zh) * | 2015-01-30 | 2015-06-10 | 浙江大学 | 基于近邻传播模型从图书目录中学习层次结构的方法 |
CN106384128A (zh) * | 2016-09-09 | 2017-02-08 | 西安交通大学 | 一种挖掘时序数据状态关联的方法 |
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
CN111177216A (zh) * | 2019-12-23 | 2020-05-19 | 国网天津市电力公司电力科学研究院 | 综合能源消费者行为特征的关联规则生成方法及装置 |
CN111309777A (zh) * | 2020-01-14 | 2020-06-19 | 哈尔滨工业大学 | 一种基于互斥表达的改进关联规则报表数据挖掘方法 |
CN113010597A (zh) * | 2021-04-06 | 2021-06-22 | 东北大学 | 一种面向海洋大数据的并行关联规则挖掘方法 |
CN113205285A (zh) * | 2021-07-05 | 2021-08-03 | 北京微芯感知科技有限公司 | 一种基于区块链的冷链食品喜好度评价方法及系统 |
CN115115265A (zh) * | 2022-07-21 | 2022-09-27 | 云南中烟工业有限责任公司 | 一种基于rfm模型的消费者评估方法、装置及介质 |
CN115222051A (zh) * | 2022-07-27 | 2022-10-21 | 张志强 | 基于数字互联网的大数据挖掘方法及系统 |
-
2023
- 2023-11-23 CN CN202311567399.7A patent/CN117272398B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7370033B1 (en) * | 2002-05-17 | 2008-05-06 | Oracle International Corporation | Method for extracting association rules from transactions in a database |
CN104699666A (zh) * | 2015-01-30 | 2015-06-10 | 浙江大学 | 基于近邻传播模型从图书目录中学习层次结构的方法 |
CN108463973A (zh) * | 2016-01-08 | 2018-08-28 | 华为技术有限公司 | 蜂窝系统中指纹识别根本原因分析 |
CN106384128A (zh) * | 2016-09-09 | 2017-02-08 | 西安交通大学 | 一种挖掘时序数据状态关联的方法 |
CN111177216A (zh) * | 2019-12-23 | 2020-05-19 | 国网天津市电力公司电力科学研究院 | 综合能源消费者行为特征的关联规则生成方法及装置 |
CN111309777A (zh) * | 2020-01-14 | 2020-06-19 | 哈尔滨工业大学 | 一种基于互斥表达的改进关联规则报表数据挖掘方法 |
CN113010597A (zh) * | 2021-04-06 | 2021-06-22 | 东北大学 | 一种面向海洋大数据的并行关联规则挖掘方法 |
CN113205285A (zh) * | 2021-07-05 | 2021-08-03 | 北京微芯感知科技有限公司 | 一种基于区块链的冷链食品喜好度评价方法及系统 |
CN115115265A (zh) * | 2022-07-21 | 2022-09-27 | 云南中烟工业有限责任公司 | 一种基于rfm模型的消费者评估方法、装置及介质 |
CN115222051A (zh) * | 2022-07-27 | 2022-10-21 | 张志强 | 基于数字互联网的大数据挖掘方法及系统 |
Non-Patent Citations (5)
Title |
---|
Accurate and fast clustering of residential customer load curves based on bid-vote integration algorithm;Liu, X;2022 9th International Forum on Electrical Engineering and Automation (IFEEA);全文 * |
FP-NoSQL: An Efficient Frequent Itemset Mining Algorithm Using the FP-DB Approach;Chin-Hoong Chee等;2018 IEEE Conference on Big Data and Analytics (ICBDA);全文 * |
分布式全局最大频繁项集更新挖掘算法;杨君锐等;华中科技大学学报(自然科学版);第39卷(第12期);全文 * |
基于Apriori和FP-growth的关联挖掘;肖谦;梅全喜;杨丽娇;;科技展望;第26卷(第27期);全文 * |
基于深度学习的多种农产品供需预测模型;庄家煜等;智慧农业(中英文);第4卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117272398A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529968B (zh) | 一种基于交易数据的客户分类方法及其系统 | |
Aldino et al. | Comparison of market basket analysis to determine consumer purchasing patterns using fp-growth and apriori algorithm | |
CN107391687A (zh) | 一种面向地方志网站的混合推荐系统 | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN106157156A (zh) | 一种基于用户社区的协作推荐系统 | |
CN112396479B (zh) | 一种基于知识图谱的服饰搭配推荐方法及系统 | |
CN103577472A (zh) | 个人信息获得、推定、商品的分类、检索方法及系统 | |
CN111353838A (zh) | 自动化校验商品类目的方法和装置 | |
CN114861050A (zh) | 一种基于神经网络的特征融合推荐方法及系统 | |
CN115496566A (zh) | 基于大数据的地区特产推荐方法及系统 | |
CN113850616A (zh) | 基于深度图神经网络的客户生命周期价值预测方法 | |
KR102358357B1 (ko) | 시장규모추정장치 및 그 동작 방법 | |
CN117272398B (zh) | 基于人工智能的数据挖掘安全保护方法及系统 | |
CN112861017A (zh) | 一种基于图卷积的神经协同过滤的信息推荐方法 | |
CN110020918B (zh) | 一种推荐信息生成方法和系统 | |
Zhang et al. | Multi-view dynamic heterogeneous information network embedding | |
El Koufi et al. | Artificial intelligence techniques applied in precision marketing: a survey | |
CN107220831A (zh) | 一种基于防伪溯源系统的用户群体划分方法及系统 | |
Sun et al. | Feature engineering for search advertising recognition | |
CN112784064A (zh) | 一种面向社交网络的层次化超维知识图谱构建方法 | |
Yan et al. | Customer segmentation using real transactional data in e-commerce platform: A case of online fashion bags shop | |
CN113902533B (zh) | 一种适用于财税领域指标自定义和自动化运行的应用方法 | |
Liu et al. | Intelligent Mining Method of Enterprise Management Information Based on ID3 Decision Tree Algorithm | |
Yu | Application of machine learning in business district operation | |
Zheng et al. | Research on the Application of Computer Big Data Information Technology in E-Commerce Platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |