CN115640336A - 业务大数据挖掘方法、系统及云平台 - Google Patents

业务大数据挖掘方法、系统及云平台 Download PDF

Info

Publication number
CN115640336A
CN115640336A CN202211561104.0A CN202211561104A CN115640336A CN 115640336 A CN115640336 A CN 115640336A CN 202211561104 A CN202211561104 A CN 202211561104A CN 115640336 A CN115640336 A CN 115640336A
Authority
CN
China
Prior art keywords
service
service data
vector
knowledge
inference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211561104.0A
Other languages
English (en)
Other versions
CN115640336B (zh
Inventor
潘洋
柴豪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chenji Zhicheng Information Technology Co ltd
Original Assignee
Zunyi Zhongzhong Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zunyi Zhongzhong Network Technology Co ltd filed Critical Zunyi Zhongzhong Network Technology Co ltd
Priority to CN202211561104.0A priority Critical patent/CN115640336B/zh
Publication of CN115640336A publication Critical patent/CN115640336A/zh
Application granted granted Critical
Publication of CN115640336B publication Critical patent/CN115640336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供的业务大数据挖掘方法、系统及云平台,通过业务数据集,获取业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量;针对各个起始业务数据子集,通过起始业务数据子集的业务知识向量,获取起始业务数据子集对应的影响因子;通过各个起始业务数据子集对应的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,j>i;通过各个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息。不仅令获取的数据归属信息保证精确,同时业务知识向量数量减少后,帮助减少数据处理的运算量,提高了数据处理的效率。

Description

业务大数据挖掘方法、系统及云平台
技术领域
本申请涉及人工智能与数据挖掘技术领域,具体而言,涉及一种业务大数据挖掘方法、系统及云平台。
背景技术
数据挖掘是数据库研究、开发和应用最活跃的一个分支,是多学科的交叉领域,涉及到数据库技术、人工智能、机器学习、神经网络、知识获取、信息提取数据可视化等多方面知识。数据挖掘技术是面向应用的,不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行微观或宏观的统计、分析、综合和推理,以指导实际问题的求解,发现事件间的相互关联,利用已有的数据对未来的活动进行预测。例如对业务数据进行挖掘,获得用户画像的应用,其中需要对业务数据进行归属信息的划分,从而便于进行归类。目前,对于业务大数据的处理,受限于数据量的庞大,在处理效率上还有很大的改进空间。
发明内容
本发明的目的在于提供一种业务大数据挖掘方法、系统及云平台,以提升数据挖掘的效率。
本申请实施例的实现过程如下:
第一方面,本申请实施例提供了一种业务大数据挖掘方法,应用于数据挖掘云平台,所述数据挖掘云平台与业务终端通信连接,所述方法包括:响应于数据挖掘指令,接收所述业务终端发送的业务数据集,通过待处理的业务数据集,获取所述业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量;针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子;通过各个所述起始业务数据子集对应的影响因子,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,其中,所述j>所述i且均为大于等于1的正整数;通过各个所述最终业务数据子集对应的业务知识向量,获取所述业务数据集的数据归属信息。
基于此,通过获取能够指示各个起始业务数据子集对产生的数据归属信息的重要度的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,祛除了业务知识向量中的扰动数据,如重要度(影响力)低或者不重要的业务知识向量,得到对归属信息影响度高的i个最终业务数据子集对应的业务知识向量。再基于i个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息,不仅令获取的数据归属信息保证精确,同时业务知识向量数量减少后,帮助减少数据处理的运算量,提高了数据处理的效率。
进一步地,所述针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子,包括:针对各个所述起始业务数据子集,对所述起始业务数据子集对应的业务知识向量进行主成成分分析,得到所述起始业务数据子集对应的重构业务知识向量;通过各个所述起始业务数据子集对应的重构业务知识向量,获取各个所述起始业务数据子集对应的融合偏心系数;通过各个所述起始业务数据子集对应的融合偏心系数,对所述各个起始业务数据子集对应的重构业务知识向量进行尺度融合处理,得到尺度融合处理后的重构业务知识向量;对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量,其中,所述第一临时知识向量的向量维数小于所述重构业务知识向量的向量维数;通过各个所述起始业务数据子集对应的第一临时知识向量,获取各个所述起始业务数据子集对应的影响因子。
基于此,依据主成成分分析对业务知识向量进行降维,令业务知识向量的数据量降低,利于后续处理,然后对重构业务知识向量处理后,可以准确获取起始业务数据子集对应的影响因子。通过对各个起始业务数据子集对应的重构业务知识向量进行尺度融合处理,换言之,对重构业务知识向量进行归一化操作,使得重构业务知识向量的数据限制在固定区间,然后进行向量整合操作,使得尺度融合处理后的重构业务知识向量的向量维数下降,基于此,使得获取起始业务数据子集对应的影响因子的过程更加简单,消耗的计算资源降低。通过获取的融合偏心系数,可以对各个起始业务数据子集对应的重构业务知识向量进行权值赋予,因此提升了各个尺度融合处理后的重构业务知识向量的准确度和恰当性,保障获取起始业务数据子集对应的影响因子的准确合理。
进一步地,所述对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量,包括:通过所述尺度融合处理后的重构业务知识向量,获取所述尺度融合处理后的重构业务知识向量对应的降维偏心系数;依据所述降维偏心系数,对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到所述第一临时知识向量。
基于此,通过降维偏心系数对尺度融合处理后的重构业务知识向量进行向量整合操作,可以对各尺度融合处理后的重构业务知识向量实现不同水平的降维处理,使得获取到的第一临时知识向量去除了多余的向量,更加精简,帮助提升获取起始业务数据子集对应的影响因子的准确度,也更容易获取起始业务数据子集对应的影响因子。
进一步地,所述通过各个所述起始业务数据子集对应的第一临时知识向量,获取各个所述起始业务数据子集对应的影响因子,包括:对各个所述第一临时知识向量进行单调转换,并对单调转换后的所述第一临时知识向量进行向量整合操作,得到各个所述第一临时知识向量对应的第二临时知识向量;通过各个所述第二临时知识向量,获取各个所述起始业务数据子集对应的影响因子。
基于此,通过对第一临时知识向量进行的单调转换,其非线性地转换可以容纳更多的知识向量,获得的第二临时知识向量信息量更充盈,从而帮助提升获取的各个起始业务数据子集对应的影响因子的精准可靠。
进一步地,所述通过各个所述起始业务数据子集对应的影响因子,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,包括:
通过各个所述起始业务数据子集对应的影响因子,获取所述影响因子对应的向量排列数表matrix1,所述向量排列数表matrix1对应的数表维数为j·i;对所述向量排列数表matrix1进行维数转置,得到数表维数为i·j的向量排列数表matrix2;通过所述向量排列数表matrix2和所述起始业务数据子集的业务知识向量对应的业务数据数表,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到所述i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量。
基于此,通过数表维数转置,将向量排列数表matrix1的各个影响因子对应的知识向量的维数进行转置,获得与业务数据数表可以相乘的向量排列数表matrix2,通过相乘对业务数据数表中各个起始业务数据子集各自对应的业务知识向量对应的提取聚合,摒弃了无用的业务知识向量,余下具有高影响度的i个最终业务数据子集对应的业务知识向量,极大减少了需要处理的业务知识向量,帮助提升处理效率。
进一步地,所述通过各个所述最终业务数据子集对应的业务知识向量,获取所述业务数据集的数据归属信息,包括:将所述最终业务数据子集确定为又一起始业务数据子集,其中,更新后的所述起始业务数据子集的数量为更新后的j,重复所述针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子步骤直到满足预设的重复次数,通过最后获取的各个最终业务数据子集对应的业务知识向量,获取所述业务数据集对应的数据归属支持度;通过所述数据归属支持度,获取所述业务数据集的数据归属信息。
基于此,多次对业务数据集对应的业务知识向量进行无效数据的清洗,准确度高,最后获取的各个最终业务数据子集对应的业务知识向量中的无效数据得到有效清除,余下高影响力的业务知识向量,通过获取的业务数据集对应于各数据归属的数据归属支持度(属于对应数据类型的可信度),使得获取到的数据归属信息更加准确可靠。
进一步地,通过所述业务数据集获取所述业务数据集的数据归属信息是基于预设的业务数据挖掘模型进行的,所述业务数据挖掘模型的调校过程包括以下步骤:获取业务数据集样本并将所述业务数据集样本加载到拟调校的业务数据挖掘模型,基于所述拟调校的业务数据挖掘模型对所述业务数据集样本进行处理,获取所述业务数据挖掘模型中的各个聚合模块输出的推理业务知识向量vector1,以及获取所述业务数据集样本对应的推理归属结果forecast1,其中,所述聚合模块用于通过业务数据集样本对应的起始推理业务数据子集的业务知识向量,获取所述起始推理业务数据子集的影响因子,以及通过各个所述起始推理业务数据子集对应的影响因子,对k个起始推理业务数据子集各自对应的业务知识向量进行提取,得到l个最终推理业务数据子集以及各个最终推理业务数据子集对应的推理业务知识向量vector1;将所述业务数据集样本加载到事先调校完成的主迁移学习网络,并基于所述主迁移学习网络对所述业务数据集样本进行处理,获取所述主迁移学习网络中的各个聚合模块输出的推理业务知识向量vector2,以及获取所述业务数据集样本对应的推理归属结果forecast2;通过所述推理业务知识向量vector1、所述推理业务知识向量vector2、所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的推理质量评估因子,并基于所述推理质量评估因子对所述拟调校的业务数据挖掘模型进行重复调校直到符合预定要求,获得调校完成的业务数据挖掘模型。
基于此,通过事先调校完成的主迁移学习网络产生的推理业务知识向量vector2、推理归属结果forecast2以及拟调校的业务数据挖掘模型产出的推理业务知识向量vector1、推理归属结果forecast1,对拟调校的业务数据挖掘模型进行高频的知识提取,获得精确的推理质量评估因子,然后基于推理质量评估因子对拟调校的业务数据挖掘模型进行重复调校,提升对拟调校的业务数据挖掘模型的预估准确度,确保调校完成的业务数据挖掘模型的预估准确度。
进一步地,所述通过所述推理业务知识向量vector1、所述推理业务知识向量vector2、所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的推理质量评估因子,包括:针对所述拟调校的业务数据挖掘模型中的各个所述聚合模块,通过各个推理业务知识向量vector1,获取k个复原推理业务知识向量,其中,所述k为所述业务数据集样本对应的起始推理业务数据子集的个数;通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取所述聚合模块对应的质量评估因子loss1;通过所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的质量评估因子loss2;通过各个所述聚合模块对应的质量评估因子loss1和所述质量评估因子loss2,获取所述推理质量评估因子。
基于此,通过聚合模块对应的推理业务知识向量vector1和推理业务知识向量vector2,能够获取聚合模块在推理业务知识向量时的质量评估因子loss1,通过推理归属结果forecast1和推理归属结果forecast2,能够获取拟调校的模型在推理最后的数据归属信息时的质量评估因子loss2,通过质量评估因子loss1和质量评估因子loss2,可以得到同时和聚合模块和拟调校的业务数据挖掘模型在推理最后的数据归属信息时相关的推理质量评估因子,基于该推理质量评估因子对拟调校的业务数据挖掘模型进行重复调校,能提升调校完成的拟调校的业务数据挖掘模型中的聚合模块的推理精度,并提升调校完成的拟调校的业务数据挖掘模型获取到的数据归属信息的可靠性。因为拟调校的业务数据挖掘模型输出的推理业务知识向量vector1是精炼后的业务知识向量的推理业务知识向量,则获得的推理业务知识向量vector1的个数少于起始推理业务数据子集的个数。主迁移学习网络输出的推理业务知识向量vector2的个数和起始推理业务数据子集的个数一样,则通过获取到的k个复原推理业务知识向量,可以对拟调校的业务数据挖掘模型输出的推理业务知识向量vector1对应的知识向量的个数进行复原,使得和推理业务知识向量vector2的个数一样,基于此,令复原推理业务知识向量可以和推理业务知识向量vector2一一校对,获取各个复原推理业务知识向量和推理业务知识向量vector2间的质量评估因子,完成对拟调校的业务数据挖掘模型的高频知识提取,然后基于各个复原推理业务知识向量和推理业务知识向量vector2之间的质量评估因子,获取到的质量评估因子loss1准确恰当。
进一步地,所述通过各个推理业务知识向量vector1,获取k个复原推理业务知识向量,包括:对所述推理业务知识向量vector1对应的向量排列数表matrix2进行尺度融合处理,得到尺度融合处理后的推理重构业务知识向量f-vector1,并对所述推理重构业务知识向量f-vector1对应的向量排列数表进行维数转置,获得转置完成的向量排列数表matrix3;对所述转置完成的向量排列数表matrix3进行向量整合操作,得到推理重构业务知识向量f-vector2,并对所述推理重构业务知识向量f-vector2进行单调转换,得到推理重构业务知识向量f-vector3;对所述推理重构业务知识向量f-vector3对应的向量排列数表进行向量整合操作,并对向量整合操作后的向量排列数表进行维数转置,得到向量排列数表matrix4,对所述向量排列数表matrix4进行尺度融合处理,并对尺度融合处理后的所述向量排列数表matrix4进行多次向量整合,得到向量排列数表matrix5;通过所述向量排列数表matrix5和所述向量排列数表matrix4,获取所述k个复原推理业务知识向量,其中,所述向量排列数表matrix4对应的数表维数中的业务知识向量的个数为所述k,所述向量排列数表matrix4对应的数表维数中的向量维数为起始推理业务数据子集的业务知识向量的向量维数。
基于此,通过尺度融合处理、数表维数转置以及向量整合操作等一系列处理,完成了对聚合模块对起始推理业务数据子集相应的业务知识向量的各类操作的颠倒,以对推理业务知识向量vector1的个数进行复原,获得k个复原推理业务知识向量,令复原推理业务知识向量和推理业务知识向量vector2的个数一致。通过对向量排列数表matrix4进行尺度融合处理和多次向量整合,使得向量排列数表matrix4中的各个推理业务知识向量的信息含量充盈,得到信息载量高的向量排列数表matrix5,通过对向量排列数表matrix5和向量排列数表matrix4两个向量排列数表的推理业务知识向量的融合,完成了对两个向量排列数表的推理业务知识向量的跳跃连接,防止网络退化,获得准确的复原推理业务知识向量。
进一步地,所述通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取所述聚合模块对应的质量评估因子loss1,包括:通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取质量评估子因子loss-a;对所述复原推理业务知识向量进行降维,得到所述复原推理业务知识向量对应的目标推理知识向量g-vector1,并获取所述目标推理知识向量g-vector1对应的推理归属结果forecast3;对所述推理业务知识向量vector2进行降维,得到所述推理业务知识向量vector2对应的目标推理知识向量g-vector2,并获取所述目标推理知识向量g-vector2对应的推理归属结果forecast4;通过所述推理归属结果forecast3和所述推理归属结果forecast4,获取质量评估子因子loss-b;并通过所述质量评估子因子loss-a和所述质量评估子因子loss-b,获取所述质量评估因子loss1。
基于此,通过k个复原推理业务知识向量和推理业务知识向量vector2,能获取聚合模块在推理业务知识向量时的质量评估子因子loss-a。通过对复原推理业务知识向量进行降维,可以对复原推理业务知识向量的进行推测,获取各个复原推理业务知识向量属于主迁移学习网络的可信度,并获取各个推理业务知识向量vector2属于主迁移学习网络的可信度,结合起来可以获取从迁移学习网络产生复原推理业务知识向量时关于恰当性质量评估因子的对抗质量评估因子,即质量评估子因子loss-b;然后,通过质量评估子因子loss-b和质量评估子因子loss-a获取到的质量评估因子loss1对拟调校的业务数据挖掘模型进行调校,可以提高聚合模块输出的复原推理业务知识向量的精准可靠。
进一步地,所述通过所述推理归属结果forecast3和所述推理归属结果forecast4,获取质量评估子因子loss-b,包括:通过所述推理归属结果forecast3和所述推理归属结果forecast3对应的第一对照归属结果,获取质量评估子因子loss-c;通过所述推理归属结果forecast4和所述推理归属结果forecast4对应的第二对照归属结果,获取质量评估子因子loss-d;通过所述质量评估子因子loss-c和所述质量评估子因子loss-d,获取所述质量评估子因子loss-b。
基于此,主迁移学习网络和拟调校的业务数据挖掘模型各对应于不同的对照归属结果,各自输出的推理归属结果的目标不一致,主迁移学习网络对应的推理业务知识向量vector2归属主迁移学习网络的可信度极高,拟调校的业务数据挖掘模型对应的复原推理业务知识向量归属主迁移学习网络的可信度极低。那么,基于不同的对照归属结果进行质量评估因子的获取,增加了获取的质量评估子因子loss-c和质量评估子因子loss-d的精确度,从而获得精准的质量评估子因子loss-b。
另外,作为可行的实施方式,所述通过各个所述聚合模块对应的质量评估因子loss1和所述质量评估因子loss2,获取所述推理质量评估因子,包括:
通过所述推理归属结果forecast1和所述业务数据集样本对应的对照归属结果,获取所述拟调校的业务数据挖掘模型对应的支持度推理质量评估因子;通过各个所述聚合模块对应的质量评估因子loss1、所述质量评估因子loss2和所述支持度推理质量评估因子,获取所述推理质量评估因子。
基于此,通过推理归属结果forecast1和业务数据集样本对应的对照归属结果,能够获取拟调校的业务数据挖掘模型输出的推理归属结果forecast1和实际的对照归属结果之间的质量评估因子——支持度推理质量评估因子,基于该质量评估因子调校拟调校的业务数据挖掘模型,更利于增加调校完成的业务数据挖掘模型输出的推理归属结果的准确性。
进一步地,所述通过各个所述聚合模块对应的质量评估因子loss1和所述质量评估因子loss2,获取所述推理质量评估因子,包括:基于事先调校完成的AI模型,对所述业务数据集样本进行知识向量处理,获取业务数据集样本对应的推理归属结果forecast5;通过所述推理归属结果forecast5和所述推理归属结果forecast1,获取所述拟调校的业务数据挖掘模型的质量评估因子loss3;通过所述质量评估因子loss1、所述质量评估因子loss2和所述质量评估因子loss3,获取所述推理质量评估因子。
基于此,通过事先调校完成的AI模型获取的推理归属结果forecast5和推理归属结果forecast1,能够获取拟调校的业务数据挖掘模型输出的推理归属结果和通用方式调校完成的AI模型之间的质量评估因子loss3,可以提升获取调校依赖的质量评估因子的手段的多样,以增加调校该拟调校的业务数据挖掘模型的变通能力。
第二方面,本申请实施例提供了一种数据挖掘系统,包括云平台和与云平台通信连接的业务终端,云平台包括处理器和存储器,存储器存储有计算机程序,当处理器执行计算机程序时,执行以上的方法。
第三方面,本申请实施例提供了一种云平台,包括处理器和存储器,存储器存储有计算机程序,当处理器执行计算机程序时,执行以上的方法。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种业务大数据挖掘方法的流程图。
图2是本申请实施例提供的业务数据挖掘模型的调校流程图。
图3是本申请实施例提供的数据挖掘装置的功能模块架构示意图。
图4是本申请实施例提供的一种云平台的方框示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例中业务大数据挖掘方法的执行主体为云平台,包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,云平台可单独运行来实现本申请,也可接入网络并通过与网络中的其他云平台的交互操作来实现本申请。其中,云平台所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。云平台与业务终端通信连接,构成数据挖掘系统,业务终端包括但不限于电脑、智能手机、PAD、掌上数字助理等。
本申请实施例提供了一种业务大数据挖掘方法,该方法应用于服务器,如图1所示,该方法包括步骤100~400:
100:响应于数据挖掘指令,接收业务终端发送的业务数据集,通过业务数据集获取业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量。
具体而言,业务终端发送的业务数据集可以是业务终端采集的用户的行为数据和/或基础信息,行为数据例如是电商场景中在电商平台进行商品浏览、推送点击、商品购买、售后评价等数据,基础信息例如是用户的注册信息,如用户名、年龄、性别、学历、收入情况等数据,需要说明的是,上述各信息是在法律允许范围内经过用户同意并授权的情况下采集的信息。起始业务数据子集是对业务数据集进行切分之后获得的数据集,例如对于用户行为数据按照时间进行划分,或者随机进行划分后获取到的数据集。容易理解,以上举例仅以电商场景为基础进行,业务数据集还可以是其他应用场景产生的数据集合,例如视频平台或阅读平台产生的数据集,本申请对此不做限定。
j的数量可以基于业务数据集的数据量决定,不同的业务数据集对应的起始业务数据子集的j的具体数值可以不一致,业务数据集的数据量越大,起始业务数据子集的j值越大。起始业务数据子集的个数和起始业务数据子集对应的业务知识向量的个数一致,都等于j,j为大于等于1的正整数。各个起始业务数据子集对应的业务知识向量为该起始业务数据子集对应的业务数据集的数据的业务知识向量(数据特征的矢量表现),各个起始业务数据子集对应的业务知识向量融合后可以得到业务数据集对应的业务知识向量。
本申请实施例中,当接收到数据挖掘指令时,接收业务终端发送的业务数据集,然后进行业务数据集的切分,得到j个起始业务数据子集,基于对业务数据集的知识向量抽取,例如调用预设的映射函数进行提取,得到各个起始业务数据子集对应的业务知识向量。作为一种实施方式,获取业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量可以通过事先调校完成的业务数据挖掘模型进行处理。该业务数据挖掘模型被配置成对数据进行归属划分的AI模型,调校完成的业务数据挖掘模型可以是具有编解码模块的深度网络模型,业务数据挖掘模型具有预测模块和多个聚合模块,聚合模块被配置为对业务知识向量进行提取处理,例如进行聚合,从整体数据中提取出部分数据,得到最终业务数据子集对应的业务知识向量,预测模块被配置为获取业务数据集对应的数据归属支持度。聚合模块包含对最末的聚合模块生成的最终业务数据子集对应的业务知识向量进行处理的编码模块获得目标归属知识向量。因此,在得到业务数据集后,将业务数据集加载到调校完成的业务数据挖掘模型,基于业务数据挖掘模型对业务数据集进行数据处理以获得业务数据集对应的j个起始业务数据子集和各个起始业务数据子集对应的业务知识向量。
200:针对各个起始业务数据子集,通过起始业务数据子集的业务知识向量,获取起始业务数据子集对应的影响因子。
影响因子可以指示各个起始业务数据子集对整体业务数据集的归属的重要度信息,每个起始业务数据子集都匹配一个影响因子。例如,影响因子可以以百分比的形式展现,百分比与起始业务数据子集的重要度呈正相关,设业务数据集是用户购买商品的行为数据集合,如果业务数据集的一个起始业务数据子集的业务知识向量是用户的商品浏览知识向量,那么获取该起始业务数据子集对产生的归属信息的重要程度小,相应的,该起始业务数据子集对应的百分比低,可以确定该起始业务数据子集对应的知识向量是多余无效的。反之,如果业务数据集的一个起始业务数据子集的业务知识向量是用户的商品购买或加购知识向量,那么获取该起始业务数据子集对产生的归属信息的重要程度大,相应的,该起始业务数据子集对应的百分比高。
在实际运行中,针对各个起始业务数据子集,可对该起始业务数据子集的业务知识向量进行向量提取得到提取结果,进而获取该起始业务数据子集的业务知识向量对获取到的归属信息的重要度,然后通过获取的该起始业务数据子集的业务知识向量对生成的归属信息的影响,获取该起始业务数据子集对应的影响因子。通过各个起始业务数据子集对应的业务知识向量,可以获取各个起始业务数据子集对应的影响因子,抑或在基于业务数据挖掘模型对业务数据集进行处理时,业务数据挖掘模型获取各个起始业务数据子集的业务知识向量后,基于聚合模块分别对j个起始业务数据子集中各个起始业务数据子集对应的业务知识向量进行多次线性转换,再获取各个起始业务数据子集对应的影响权值,通过各个起始业务数据子集的影响权值,基于聚合模块对各个起始业务数据子集对应的业务知识向量再进行多次降维,获取各个起始业务数据子集的影响因子。
300:通过各个起始业务数据子集对应的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,其中,j>i,且i为大于等于1的正整数。
该步骤300中,i是获得的最终业务数据子集和最终业务数据子集相应的业务知识向量的个数,最终业务数据子集为通过各个起始业务数据子集对应的影响因子,对起始业务数据子集对应的业务知识向量清洗掉无效的扰动数据后获得的业务数据子集。i的数值选择可以是和j呈线性关系的,也可以是非线性的,本申请对此不做限定。实际运行中,在获取各个起始业务数据子集对应的影响因子后,通过各个起始业务数据子集对应的影响因子,获取j个起始业务数据子集各自对应的业务知识向量中的扰动业务知识向量,通过获取的扰动业务知识向量,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量。抑或在基于业务数据挖掘模型对业务数据集进行处理时,在业务数据挖掘模型得到各个起始业务数据子集对应的影响因子后,依据以上步骤通过各个起始业务数据子集对应的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,获得i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量。
进一步地,在基于业务数据挖掘模型对业务数据集进行处理时,因为网络包含多个聚合模块,各个聚合模块均能执行以上步骤200和300,首个聚合模块对起始业务数据子集对应的业务知识向量进行提取后,获得i个最终业务数据子集和各个最终业务数据子集对应的业务知识向量,接着将最终业务数据子集确定为又一起始业务数据子集,将该最终业务数据子集对应的个数i更新为新的个数j,然后,第二个聚合模块再对第首个聚合模块产生的各个最终业务数据子集对应的业务知识向量再次提取,换言之对更新后的j个起始业务数据子集对应的业务知识向量进行再次提取,获得更新后的i个最终业务数据子集及各个更新后的i个最终业务数据子集对应的业务知识向量,最后基于后续聚合模块对上一聚合模块产生的各个最终业务数据子集对应的业务知识向量进行提取,获得新的最终业务数据子集和各个新的最终业务数据子集对应的业务知识向量,其中,各个聚合模块产生的最终业务数据子集的个数和产生的最终业务数据子集对应的业务知识向量的个数少于上一聚合模块产生出的最终业务数据子集的个数和产生的最终业务数据子集对应的业务知识向量的个数。基于上述过程,通过多个聚合模块将业务数据集中扰动数据进行清洗,余下重要的业务知识向量。
400:通过各个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息。
数据归属信息表示业务数据集的数据归属,比如业务数据集的数据归属是用户商品购买数据、商品浏览信息、用户基础信息,将这些数据进行归类存储,完成数据的归类,本申请根据获取可以代表各个起始业务数据子集对归属信息重要性高的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,清洗掉扰动数据,因此获得高影响力的i个最终业务数据子集对应的业务知识向量,之后基于i个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息,不仅让获取的数据归属信息精确,且因为i<j,降低了业务知识向量的数据量以帮助提升模型处理效率。
作为一种可行的实施方式,在步骤200中,可以通过业务数据挖掘模型的一个聚合模块进行执行,该步骤200可以包括:
201:针对各个起始业务数据子集,对起始业务数据子集对应的业务知识向量进行主成成分分析,得到起始业务数据子集对应的重构业务知识向量。
主成成分分析(PCA)是一种线性的降维方法,降维的过程中,寻找数据的主轴方向,由主轴构成一个新的坐标系,这里的维数可以比原维数低,然后数据由原坐标系向新坐标系投影,这个投影的过程就是降维的过程。针对各个起始业务数据子集,可基于业务数据挖掘模型的聚合模块的编码器对该起始业务数据子集对应的业务知识向量进行主成成分分析,得到起始业务数据子集对应的重构业务知识向量(即编码后的知识向量),进一步地获得各个起始业务数据子集对应的重构业务知识向量。业务数据集加载到业务数据挖掘模型进行处理后,获得的多个起始业务数据子集对应的业务知识向量呈向量排列数表(或矩阵)展现,向量排列数表中每个知识向量对应一个起始业务数据子集的业务知识向量,起始业务数据子集的向量排列数表对应的数表维数为j·i,j是业务知识向量的个数。聚合模块对j·u的向量排列数表中的各个业务知识向量进行主成成分分析,获得各个起始业务数据子集对应的重构业务知识向量,其中,重构业务知识向量的个数和起始业务数据子集的业务知识向量的个数是一致的,u>j,u是业务数据挖掘模型对业务数据集处理后获得的业务知识向量的向量维数。
202:通过各个起始业务数据子集对应的重构业务知识向量,获取起始业务数据子集对应的影响因子。
作为一种可行的实施方式,该步骤202的实现可以参考如下步骤:
2021:对各个起始业务数据子集对应的重构业务知识向量进行尺度融合处理,得到尺度融合处理后的重构业务知识向量。
尺度融合处理即对重构业务知识向量进行标准化,保证每个重构业务知识向量的贡献,减少内部协方差,对梯度的大小实行更加严格的约束,获得的尺度融合处理后的重构业务知识向量的个数和起始业务数据子集的重构业务知识向量的个数一致。标准化,或归一化的方式可以参考现有的通用算法,例如Batch Normalization、WeightNormalization、Instance Normalization等。
作为一种可行的实施方式,步骤2021具体可以包括如下步骤:
20211:通过各个起始业务数据子集对应的重构业务知识向量,获取各个起始业务数据子集对应的融合偏心系数。
融合偏心系数是对起始业务数据子集的重构业务知识向量执行标准化加权操作的权值数据。获得各个起始业务数据子集对应的重构业务知识向量,先对各个起始业务数据子集对应的重构业务知识向量实行向量提取处理,得到各个重构业务知识向量中扰动无效的知识向量,然后基于各个重构业务知识向量中扰动无效的知识向量,获取各个重构业务知识向量对应的融合偏心系数。
20212:通过各个起始业务数据子集对应的融合偏心系数,对各个起始业务数据子集对应的重构业务知识向量进行尺度融合处理,得到尺度融合处理后的重构业务知识向量。
通过各个起始业务数据子集对应的融合偏心系数,对各个起始业务数据子集相应的重构业务知识向量进行标准化加权以获得尺度融合处理后的重构业务知识向量。
2022:对尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量,其中,第一临时知识向量的向量维数小于重构业务知识向量的向量维数。
该实施方式中,向量整合操作是将前述重构业务知识向量空间映射样本标记空间,将重构业务知识向量整合为一个第一临时知识向量,以降低向量位置对结果的影响,提升鲁棒性。具体而言,可以基于在聚合模块设置FCL(Fully Connected Layer,全连接层)对标准化获取到的各个尺度融合处理后的重构业务知识向量进行向量整合操作,以获得各个尺度融合处理后的重构业务知识向量对应的第一临时知识向量。该实施方式中,获得的第一临时知识向量的个数和尺度融合处理后的重构业务知识向量的个数是一致的,但各个第一临时知识向量的向量维数小于第一临时知识向量对应的业务知识向量的向量维数。
作为一种可行的实施方式,步骤2022具体可以包括:
20221:通过尺度融合处理后的重构业务知识向量,获取尺度融合处理后的重构业务知识向量对应的降维偏心系数。
该实施方式中,降维偏心系数表示重构业务知识向量的向量维数进行降维时,对维数的下降梯度,降维偏心系数本质是一个权值。实际运行中,首先对各个尺度融合处理后的重构业务知识向量进行知识向量提取,获取各个尺度融合处理后的重构业务知识向量中扰动的重构业务知识向量,之后基于各个尺度融合处理后的重构业务知识向量中扰动的重构业务知识向量,获取各个尺度融合处理后的重构业务知识向量对应的降维偏心系数。
20222:依据降维偏心系数,对尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量。
例如,采用FCL通过各个尺度融合处理后的重构业务知识向量对应的降维偏心系数,对各个起始业务数据子集对应的重构业务知识向量进行向量维数的降维,获得各个尺度融合处理完成的重构业务知识向量对应的第一临时知识向量。
20223:通过各个起始业务数据子集对应的第一临时知识向量,获取各个起始业务数据子集对应的影响因子。
举例而言,可以通过各个起始业务数据子集的第一临时知识向量,对各个第一临时知识向量再次实现知识向量的转换处理,得到各个起始业务数据子集的影响因子。
作为一种可行的实施方式,步骤20223具体可以包括:
202231:对各个第一临时知识向量进行单调转换,并对单调转换后的第一临时知识向量进行向量整合操作,得到各个第一临时知识向量对应的第二临时知识向量。
举例而言,采用高斯误差线性单元对各个第一临时知识向量进行单调转换,该单调转换是非线性转换,再通过FCL单元对单调转换后的第一临时知识向量进行向量整合操作,得到各个第一临时知识向量的第二临时知识向量,第二临时知识向量的向量维数小于第二临时知识向量对应的第一临时知识向量的的向量维数。
202232:通过各个第二临时知识向量,获取各个起始业务数据子集对应的影响因子。
实际运行中,获得第二临时知识向量对应的向量排列数表后,基于分类激活函数对第二临时知识向量中各个第二临时知识向量分类,获取各个第二临时知识向量对应的百分比,即各个第二临时知识向量对应的影响因子。该实施方式中,影响因子例如对应一个向量排列数表,向量排列数表中包含各个起始业务数据子集对应的影响因子。
作为一种可行的实施方式,步骤300包括如下示出的步骤:
301:通过各个起始业务数据子集对应的影响因子,获取影响因子对应的向量排列数表matrix1。
向量排列数表matrix1对应的数表维数为j·i,j和i均为大于等于1的正整数。该实施方式中,向量排列数表matrix1中包括各个起始业务数据子集对应的影响因子,得到各个第二临时知识向量对应的影响因子即可直接通过各个影响因子对应的知识向量,获取由多个影响因子构建的向量排列数表matrix1。
302:对向量排列数表matrix1进行维数转置,得到数表维数为i·j的向量排列数表matrix2。
该实施方式中,数表维数的转置可以是对向量排列数表中的多个影响因子的坐标进行转置,例如通过reshape函数执行,将向量排列数表matrix1对应的行数和列数互换,得到数表维数为i·j的向量排列数表matrix2。在该实施方式中,对向量排列数表matrix1进行维数转置时,可以按序将各行影响因子对应的知识向量变换为各列影响因子对应的知识向量,得到向量排列数表matrix2。
303:通过向量排列数表matrix2和起始业务数据子集的业务知识向量对应的业务数据数表,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量。
该实施方式中,起始业务数据子集的业务知识向量对应的业务数据数表是主成成分分析后的重构业务知识向量对应的向量排列数表。实际运行时,对向量排列数表matrix2和起始业务数据子集的业务知识向量对应的业务数据数表进行相乘,以对j个起始业务数据子集各自对应的业务知识向量进行聚合,获得i个最终业务数据子集和各个最终业务数据子集对应的业务知识向量。举例而言,设起始业务数据子集的业务知识向量对应的业务数据数表为j·u的向量排列数表,向量排列数表matrix2为i·j的向量排列数表,i=j/2,对向量排列数表matrix2和业务数据数表相乘后得到i·u的向量排列数表,将i·u的向量排列数表中的各个知识向量确定为各个最终业务数据子集对应的业务知识向量。
作为一种可行的实施方式,在步骤400中,因为业务数据挖掘模型中具有多个聚合模块,在基于首个聚合模块对业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量进行提取处理,获得i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量后,将首个聚合模块产生的最终业务数据子集确定为又一起始业务数据子集,其中,更新后的起始业务数据子集的数量为更新后的j,然后重复针对各个起始业务数据子集,通过起始业务数据子集的业务知识向量,获取起始业务数据子集对应的影响因子的过程,当重复次数满足预定要求时,停止。
该实施方式中,可以先基于首个聚合模块对业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量进行提取处理,获得首个聚合模块的产出并输入第二个聚合模块,基于第二个聚合模块提取处理后,将产出继续输入至下一个聚合模块,重复之下,直到最末一个聚合模块产出结果,确定为最终获取的多个最终业务数据子集的业务知识向量。接着通过最终获取的多个最终业务数据子集的业务知识向量,获取业务数据集的数据归属支持度,通过数据归属支持度,获取业务数据集的数据归属信息,该数据归属支持度为业务数据集归属数据信息的可信度,例如业务数据集归属为客户行为数据的支持度为50%。获取业务数据集的数据归属支持度的过程中,通过最终获取的多个最终业务数据子集的业务知识向量,获取业务数据集的目标归属业务知识向量。
目标归属业务知识向量是对最终获取的多个最终业务数据子集的业务知识向量进行主成成分分析后获得的知识向量,其融合多个最终业务数据子集的业务知识向量。例如,当获得最终获取的多个最终业务数据子集的业务知识向量后,基于业务数据挖掘模型剩余的编码模块对最终获取的多个最终业务数据子集的业务知识向量再次进行主成成分分析,获得该目标归属业务知识向量,通过目标归属业务知识向量,获取业务数据集的对应的数据归属支持度。
实际运行中,把目标归属业务知识向量加载到业务数据挖掘模型的预测模块,基于预测模块进行回归分析预测(或决策树预测、朴素贝叶斯预测),得到业务数据集的对应的数据归属支持度。然后通过数据归属支持度,获取业务数据集的数据归属信息。将数据归属支持度的最大值确定为业务数据集的数据归属信息。作为一种可行的实施方式,通过业务数据集获取业务数据集的数据归属信息的过程是事先调校完成的业务数据挖掘模型执行的。本申请实施例中,提供了该业务数据挖掘模型的调校方法,请参考图2,是业务数据挖掘模型的调校方法的示意图,包括:
10:获取业务数据集样本并将业务数据集样本加载到拟调校的业务数据挖掘模型。
20:基于拟调校的业务数据挖掘模型对业务数据集样本进行处理,获取各个聚合模块输出的推理业务知识向量vector1,以及获取业务数据集样本对应的推理归属结果forecast1。
聚合模块不配置成通过业务数据集样本的起始推理业务数据子集的业务知识向量,获取起始推理业务数据子集的影响因子,以及通过各个起始推理业务数据子集的影响因子,对k个起始推理业务数据子集各自对应的业务知识向量进行提取,得到l个最终推理业务数据子集以及各个最终推理业务数据子集对应的推理业务知识向量vector1。
该实施方式中,推理归属结果forecast1指示业务数据集样本对应各数据归属信息的可信度,推理业务知识向量vector1为各个聚合模块输出的多个最终推理业务数据子集对应的推理知识向量,每个聚合模块输出一推理业务知识向量vector1。例如,将业务数据集样本加载到拟调校的业务数据挖掘模型后,拟调校的业务数据挖掘模型先对业务数据集样本进行划分提取,得到业务数据集样本对应的k个起始推理业务数据子集,以及获取各个起始推理业务数据子集对应的业务知识向量,再基于拟调校的业务数据挖掘模型的多个聚合模块对各个起始推理业务数据子集对应的业务知识向量逐个处理,获取各个聚合模块输出的推理业务知识向量vector1,通过末尾的聚合模块输出的推理业务知识向量vector1,获取业务数据集样本对应的推理归属结果forecast1,重复内容不再赘述。
30:将业务数据集样本加载到事先调校完成的主迁移学习网络,并基于主迁移学习网络对业务数据集样本进行处理,获取主迁移学习网络中的各个聚合模块输出的推理业务知识向量vector2,以及获取业务数据集样本对应的推理归属结果forecast2。
主迁移学习网络区别于从迁移学习网络,是从迁移学习网络的学习对象,该实施方式中,主迁移学习网络为通过业务数据挖掘模型生成的事先调校完成的神经网络,其可以为深度学习网络模型,该实施方式中,拟调校的业务数据挖掘模型为从迁移学习网络。主迁移学习网络包括含聚合模块,其个数和业务数据挖掘模型的聚合模块一致,各个主迁移学习网络中的聚合模块只具有一个encoder,主迁移学习网络缺乏对应模块,不能降低业务数据集样本对应的业务知识向量的向量维数。业务数据挖掘模型还包含复原单元,其被配置成对聚合模块产生的业务知识向量进行恢复,一个聚合模块对应一个复原单元,复原单元仅在对业务数据挖掘模型进行调校时被使用,调校好的业务数据挖掘模型中并不包含复原单元。主迁移学习网络包括质量评估因子loss1、质量评估因子loss2、质量评估因子loss3、质量评估子因子loss-b、质量评估子因子loss-c和质量评估子因子loss-d,以及用于获取复原推理业务知识向量对应的推理归属结果forecast3和获取推理业务知识向量vector2对应的推理归属结果forecast4的推测模块。
推理业务知识向量vector2是主迁移学习网络中聚合模块输出的推理知识向量,主迁移学习网络的一个聚合模块对应于推理业务知识向量vector2,推理归属结果forecast2为主迁移学习网络产生的可以指示业务数据集样本对应各种数据归属信息的可信度结果。
实际运行中,将业务数据集样本加载到主迁移学习网络,主迁移学习网络对业务数据集样本进行划分提取,得到业务数据集样本对应的k个起始推理业务数据子集,以及获取各个起始推理业务数据子集对应的业务知识向量,再基于主迁移学习网络中的多个聚合模块对k个起始推理业务数据子集中的各个起始推理业务数据子集对应的业务知识向量进行主成成分分析,获取各个聚合模块产生的推理业务知识向量vector2,通过最末的聚合模块产生的推理业务知识向量vector2,获取业务数据集样本对应的推理归属结果forecast2,其中,各个聚合模块产生的推理业务知识向量vector2的个数为k。
40:通过推理业务知识向量vector1、推理业务知识向量vector2、推理归属结果forecast1和推理归属结果forecast2,获取拟调校的业务数据挖掘模型的推理质量评估因子,并基于推理质量评估因子对拟调校的业务数据挖掘模型进行重复调校直到符合预定要求,获得调校完成的业务数据挖掘模型。
该实施方式中,预定要求例如是重复调校的次数满足预定次数或还可以是模型收敛。可以通过各个推理业务知识向量vector1和各个推理业务知识向量vector2,获取推理业务知识向量对应的质量评估因子(表示模型预测的准确度,或称损失值或代价值),根据推理归属结果forecast1和推理归属结果forecast2,获取两个推理归属结果之间的质量评估因子,再通过推理业务知识向量对应的质量评估因子和两个推理归属结果之间的质量评估因子,获取拟调校的业务数据挖掘模型的推理质量评估因子,并基于推理质量评估因子对拟调校的业务数据挖掘模型进行重复调校直到符合预定要求,得到调校的业务数据挖掘模型。
作为一种可行的实施方式,步骤40可以包括以下步骤:
41:针对拟调校的业务数据挖掘模型中的各个聚合模块,通过聚合模块对应的推理业务知识向量vector1和推理业务知识向量vector2,获取聚合模块对应的质量评估因子loss1。
该实施方式中,针对拟调校的业务数据挖掘模型中的各个聚合模块,可以获取该聚合模块,在主迁移学习网络中对应配对聚合模块,再通过聚合模块对应的推理业务知识向量vector1和配对聚合模块对应的推理业务知识向量vector2,获取该推理业务知识向量vector1和该推理业务知识向量vector2之间的质量评估因子,将该质量评估因子确定为该聚合模块对应的质量评估因子loss1。
42:通过推理归属结果forecast1和推理归属结果forecast2,获取拟调校的业务数据挖掘模型的质量评估因子loss2。
实际应用中,可以通过推理归属结果forecast1和推理归属结果forecast2,获取两个推理归属结果之间的质量评估因子,将该质量评估因子确定为拟调校的业务数据挖掘模型的质量评估因子loss2。
43:通过各个聚合模块对应的质量评估因子loss1和质量评估因子loss2,获取推理质量评估因子。
例如,将各个聚合模块对应的质量评估因子loss1和质量评估因子loss2作为推理质量评估因子。
作为一种可行的实施方式,步骤41,具体可以包括如下步骤:
411:通过各个推理业务知识向量vector1,获取k个复原推理业务知识向量,k为业务数据集样本对应的起始推理业务数据子集的个数。
该实施方式中,复原推理业务知识向量是对推理业务知识向量vector1进行数量维数复原后的推理业务知识向量,复原推理业务知识向量的个数大于推理业务知识向量vector1。对各个推理业务知识向量vector1进行数值上的复原,得到各个推理业务知识向量vector1对应的k个复原推理业务知识向量,目的是令复原推理业务知识向量和推理业务知识向量vector2个数保持一致。
412:通过k个复原推理业务知识向量和推理业务知识向量vector2,获取聚合模块对应的质量评估因子loss1。
实际应用中,针对k个各个复原推理业务知识向量,先获取和该复原推理业务知识向量对应的推理业务知识向量vector2。然后可以获取该复原推理业务知识向量和该推理业务知识向量vector2之间的质量评估因子,再通过每两个推理业务知识向量(复原推理业务知识向量和对应的推理业务知识向量vector2)间的质量评估因子,获取质量评估因子loss1,将该质量评估因子loss1确定为该复原推理业务知识向量对应于拟调校的业务数据挖掘模型中的聚合模块的质量评估因子loss1。
通过步骤411和412,分别获取拟调校的业务数据挖掘模型中的各个聚合模块对应的质量评估因子loss1,作为一种可行的实施方式,步骤411可以包括:
4111:对推理业务知识向量vector1对应的向量排列数表matrix2进行尺度融合处理,得到尺度融合处理后的推理重构业务知识向量f-vector1,并对推理重构业务知识向量f-vector1对应的向量排列数表进行维数转置,获得转置完成的向量排列数表matrix3。
设起始推理业务数据子集的业务知识向量对应的向量排列数表的数表维数为k·v,设聚合模块数量为三个,k为前述k,v为各个起始推理业务数据子集的业务知识向量的向量维数。拟调校的业务数据挖掘模型中的首个聚合模块产生的推理重构业务知识向量f-vector1对应的向量排列数表matrix2的数表维数为(k/2)·v,第二个聚合模块产生的推理重构业务知识向量f-vector1对应的向量排列数表matrix2的数表维数为(k/4)·v,最后一个聚合模块产生的推理重构业务知识向量f-vector1对应的向量排列数表matrix2的数表维数为(k/8)·v,各个聚合模块对应的向量排列数表matrix2中,涵盖该聚合模块产生的各个推理业务知识向量vector1。
复原单元网络结构可以是包含2个标准化子单元,4个FCL,1个单调转换子单元。设拟调校的业务数据挖掘模型中的首个聚合模块产生的推理业务知识向量vector1进行复原,那么将首个聚合模块产生的(k/2)·v个向量排列数表matrix2加载到首个聚合模块复原单元,基于标准化子单元(例如设置有激活函数)对(k/2)·v个向量排列数表matrix2进行尺度融合处理,得到尺度融合处理后的(k/2)·v个向量排列数表matrix2。尺度融合处理后的(k/2)·v个向量排列数表matrix2中包含各个推理重构业务知识向量f-vector1对应的尺度融合处理后的推理重构业务知识向量f-vector1。再对尺度融合处理后的(k/2)·v个向量排列数表matrix2进行维数转置,获得转置完成的向量排列数表matrix3。向量排列数表matrix3对应的数表维数可以是v·k/2。
4112:对转置后的向量排列数表matrix3进行向量整合操作,得到推理重构业务知识向量f-vector2,并对推理重构业务知识向量f-vector2进行单调转换,得到推理重构业务知识向量f-vector3。
4113:对推理重构业务知识向量f-vector3对应的向量排列数表进行向量整合操作,对向量整合操作后的向量排列数表进行维数转置,得到向量排列数表matrix4,并通过向量排列数表matrix4,获取k个复原推理业务知识向量。
向量排列数表matrix4对应的数表维数中的业务知识向量的个数为k,向量排列数表matrix4对应的数表维数中的向量维数为起始推理业务数据子集的业务知识向量的向量维数。
作为一种可行的实施方式,步骤4113中通过向量排列数表matrix4,获取k个复原推理业务知识向量的过程可以具体包括:
41131:对向量排列数表matrix4进行尺度融合处理,并对尺度融合处理后的向量排列数表matrix4进行多次向量整合,得到向量排列数表matrix5。
411312:通过向量排列数表matrix5和向量排列数表matrix4,获取k个复原推理业务知识向量。
实际应用中,采用对k·v个向量排列数表matrix5和k·v个向量排列数表matrix4进行数表相加以获得向量排列数表matrix6,将向量排列数表matrix6中包括的各个知识向量确定为复原推理业务知识向量,因为向量排列数表matrix5和向量排列数表matrix4中的知识向量的个数都是k,那么向量排列数表matrix6中的知识向量个数也是k,获得的复原推理业务知识向量的个数为k。
作为一种可行的实施方式,针对通过k个复原推理业务知识向量和推理业务知识向量vector2,获取聚合模块对应的质量评估因子loss1,可以包括:
A:通过k个复原推理业务知识向量和推理业务知识向量vector2,获取质量评估子因子loss-a。
B:对复原推理业务知识向量进行降维,得到复原推理业务知识向量对应的目标推理知识向量g-vector1,并获取目标推理知识向量g-vector1对应的推理归属结果forecast3。
该实施方式中,还提供一种推测模块,被配置成对复原推理业务知识向量和第二推理知识向量进行推测,获取复原推理业务知识向量属于主迁移学习网络产生的推理业务知识向量的可信度,以及获取第二推理知识向量为主迁移学习网络产生的推理业务知识向量的可信度。目标推理知识向量g-vector1是对复原推理业务知识向量的向量维数进行压缩获得的推理知识向量。推理归属结果forecast3表示各个目标推理知识向量g-vector1(或目标推理知识向量g-vector1对应的复原推理业务知识向量)为主迁移学习网络产生的推理业务知识向量的可信度,而复原推理业务知识向量为通过推理业务知识向量vector1获取到的,那么推理归属结果forecast3可以表示推理业务知识向量vector1是主迁移学习网络产生的推理业务知识向量的可信度。
在实际应用中,获得的拟调校的业务数据挖掘模型中的多个聚合模块对应的各个复原推理业务知识向量后,将多个复原推理业务知识向量加载到推测模块,基于推测模块分别对各个复原推理业务知识向量进行降维,例如对多个复原推理业务知识向量的向量维数进行压缩到1,得到各个复原推理业务知识向量对应的目标推理知识向量g-vector1,各个目标推理知识向量g-vector1的向量维数就等于1。另外,基于推测模块对各个目标推理知识向量g-vector1进行预测,获取各个目标推理知识向量g-vector1为主迁移学习网络产生的推理业务知识向量的可信度,将该可能性(例如概率百分比)确定为目标推理知识向量g-vector1对应的推理归属结果forecast3。
C:对推理业务知识向量vector2进行降维,得到推理业务知识向量vector2对应的目标推理知识向量g-vector2,并获取目标推理知识向量g-vector2对应的推理归属结果forecast4。
该实施方式中,目标推理知识向量g-vector2是对推理业务知识向量vector2的向量维数进行压缩后的推理知识向量。推理归属结果forecast4表示各个目标推理知识向量g-vector2(或目标推理知识向量g-vector2对应的推理业务知识向量vector2)为主迁移学习网络产生的推理业务知识向量的可信度。实际应用中,获得主迁移学习网络中各个聚合模块对应的各个推理业务知识向量vector2后,将各个推理业务知识向量vector2加载到推测模块,基于推测模块分别对各个推理业务知识向量vector2进行降维,例如对各个推理业务知识向量vector2的向量维数进行压缩到1,获得各个推理业务知识向量vector2对应的目标推理知识向量g-vector2,各个目标推理知识向量g-vector2的向量维数就等于1。另外,基于推测模块对各个目标推理知识向量g-vector2进行预测,获取各个目标推理知识向量g-vector2为主迁移学习网络产生的推理业务知识向量的可信度,将该可能性确定为目标推理知识向量g-vector2对应的推理归属结果forecast4。
D:通过推理归属结果forecast3和推理归属结果forecast4,获取质量评估子因子loss-b,并通过质量评估子因子loss-a和质量评估子因子loss-b,获取质量评估因子loss1。
作为一种可行的实施方式,通过推理归属结果forecast3和推理归属结果forecast4,获取质量评估子因子loss-b可以包括以下步骤:
XI:通过推理归属结果forecast3和推理归属结果forecast3对应的第一对照归属结果,获取质量评估子因子loss-c。
该实施方式中,推理归属结果forecast3对应的第一对照归属结果可以为标记A。因为推理归属结果forecast3表示各个目标推理知识向量g-vector1为主迁移学习网络产生的推理业务知识向量的可信度,而各个目标推理知识向量g-vector1为通过拟调校的业务数据挖掘模型中的聚合模块产生的推理业务知识向量vector1获取到的,所以目标推理知识向量g-vector1为主迁移学习网络产生的推理业务知识向量的可信度极小,采用标记A当做第一对照归属结果,和推理归属结果forecast3进行质量评估因子的确定,基于得到质量评估因子获取质量评估因子loss1,采用质量评估因子loss1调校拟调校的业务数据挖掘模型中聚合模块的网络参数,确保聚合模块产生的推理业务知识向量vector1的恰当性。实际应用中,将各个推理归属结果forecast3对应的各个可信度和标记A进行质量评估因子的确定,获取各个推理归属结果forecast3对应的质量评估因子,再将推理归属结果forecast3对应的质量评估因子确定为质量评估子因子loss-c。
XII:通过推理归属结果forecast4和推理归属结果forecast4对应的第二对照归属结果,获取质量评估子因子loss-d。
该实施方式中,推理归属结果forecast4对应的第二对照归属结果可以为标记B。因为推理归属结果forecast4表示各个目标推理知识向量g-vector2为主迁移学习网络产生的推理业务知识向量的可信度,而各个目标推理知识向量g-vector2为通过主迁移学习网络中的聚合模块产生的推理业务知识向量vector2获取到的,那么目标推理知识向量g-vector2为主迁移学习网络产生的推理业务知识向量的可信度极大,所以基于标记A作为第二对照归属结果,和推理归属结果forecast4进行质量评估因子的确定,通过获取质量评估因子获取质量评估因子loss1,基于质量评估因子loss1调校拟调校的业务数据挖掘模型中聚合模块的网络参数,对拟调校的业务数据挖掘模型中的聚合模块的产出监督学习,提升聚合模块产生的推理业务知识向量vector1的恰当性。实际应用中,可以将各个推理归属结果forecast4对应的各个可信度和标记B进行质量评估因子确定,获取各个推理归属结果forecast4对应的质量评估因子,再将推理归属结果forecast4对应的质量评估因子作为质量评估子因子loss-d。
XIII:通过质量评估子因子loss-c和质量评估子因子loss-d,获取质量评估子因子loss-b。
该实施方式中,对质量评估子因子loss-c和质量评估子因子loss-d进行融合,将融合后的质量评估因子作为质量评估子因子loss-b。
另外,步骤D中得到质量评估子因子loss-b和质量评估子因子loss-a后,可以把质量评估子因子loss-b和该质量评估子因子loss-a作为质量评估因子loss1,抑或对质量评估子因子loss-b和质量评估子因子loss-a融合,将融合结果作为质量评估因子loss1,又或者通过上述步骤获取拟调校的业务数据挖掘模型中的各个聚合模块各自对应的质量评估因子loss1,再基于各个聚合模块对应的质量评估因子loss1,对聚合模块进行重复调校。
作为一种可行的实施方式,针对通过各个聚合模块对应的质量评估因子loss1和质量评估因子loss2,获取推理质量评估因子的步骤,包括:
YI:通过推理归属结果forecast1和业务数据集样本对应的对照归属结果,获取拟调校的业务数据挖掘模型对应的支持度推理质量评估因子。
该实施方式中,推理质量评估因子包括推理归属结果forecast1和业务数据集样本对应的对照归属结果间的支持度推理质量评估因子。支持度推理质量评估因子表示拟调校的业务数据挖掘模型产生的推理归属结果forecast1和业务数据集样本对应的对照归属结果间的质量评估因子。业务数据集样本对应的对照归属结果为业务数据集样本对应的实际归属结果。实际应用中,基于推理归属结果forecast1和业务数据集样本对应的对照归属结果做质量评估因子,从而获取拟调校的业务数据挖掘模型对应的支持度推理质量评估因子。
YII:通过各个聚合模块对应的质量评估因子loss1、质量评估因子loss2和支持度推理质量评估因子,获取推理质量评估因子。
该实施方式中,将拟调校的业务数据挖掘模型中的各个聚合模块对应的质量评估因子loss1、获取的质量评估因子loss2和获取的支持度推理质量评估因子确定为推理质量评估因子,抑或对以上各个质量评估因子进行融合得到总的质量评估因子,基于总的质量评估因子对拟调校的业务数据挖掘模型进行调校。
作为一种可行的实施方式,针对通过各个聚合模块对应的质量评估因子loss1和质量评估因子loss2,获取推理质量评估因子的步骤,包括:
ZI:基于事先调校完成的AI模型,对业务数据集样本进行知识向量处理,获取业务数据集样本对应的推理归属结果forecast5。
该实施方式中,事先调校完成的AI模型可以是任意可行的,基于通用技术调校完成的AI模型,例如卷积神经网络,能够实现对数据的归类。推理归属结果forecast5代表业务数据集样本对应于各种数据归属的推理支持度。本申请实施例中,可以基于事先调校完成的AI模型,对业务数据集样本进行知识向量处理,以获取事先调校完成的AI模型产生的业务数据集样本对应的推理归属结果forecast5。
ZII:通过推理归属结果forecast5和推理归属结果forecast1,获取拟调校的业务数据挖掘模型的质量评估因子loss3。
实际应用中,基于推理归属结果forecast5和推理归属结果forecast1进行质量评估因子确定,将获取到的质量评估因子确定为拟调校的业务数据挖掘模型的质量评估因子loss3。
ZIII:通过质量评估因子loss1、质量评估因子loss2和质量评估因子loss3,获取推理质量评估因子。
实际应用中,将质量评估因子loss1、质量评估因子loss2和质量评估因子loss3确定为推理质量评估因子,抑或将质量评估因子loss1、质量评估因子loss2、质量评估因子loss3和支持度推理质量评估因子同时确定为推理质量评估因子,又或者将质量评估因子loss1、质量评估因子loss2、质量评估因子loss3和支持度推理质量评估因子融合后作为推理质量评估因子。在实际应用中,可以基于以上提到的质量评估因子loss1、质量评估因子loss2、质量评估因子loss3和支持度推理质量评估因子中的一个或多个质量评估因子确定为推理质量评估因子对拟调校的业务数据挖掘模型进行参数的调节。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种数据挖掘装置10,如图3所示,该装置10包括:
子集获取模块11,用于响应于数据挖掘指令,接收业务终端发送的业务数据集,通过业务数据集获取业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量。
影响因子获取模块12,用于针对各个起始业务数据子集,通过起始业务数据子集的业务知识向量,获取起始业务数据子集对应的影响因子。
提取模块13,用于通过各个起始业务数据子集对应的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,其中,j>i且均为大于等于1的正整数。
归属划分模块14,用于通过各个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息。
上述实施例从虚拟模块的角度介绍了数据挖掘装置10,下述从实体模块的角度介绍一种云平台,具体如下所示:
本申请实施例提供了一种云平台,如图4所示,云平台100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,云平台100还可以包括收发器104,用于与业务终端通信。需要说明的是,实际应用中收发器104不限于一个,该云平台100的结构并不构成对本申请实施例的限定。
处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的云平台包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,执行上述的业务数据挖掘方法。本申请所提供的技术方案,通过业务数据集,获取业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量;针对各个起始业务数据子集,通过起始业务数据子集的业务知识向量,获取起始业务数据子集对应的影响因子;通过各个起始业务数据子集对应的影响因子,对j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,j>i;通过各个最终业务数据子集对应的业务知识向量,获取业务数据集的数据归属信息。不仅令获取的数据归属信息保证精确,同时业务知识向量数量减少后,帮助减少数据处理的运算量,提高了数据处理的效率。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种业务大数据挖掘方法,其特征在于,应用于所述数据挖掘云平台,所述数据挖掘云平台与业务终端通信连接,所述方法包括:
响应于数据挖掘指令,接收所述业务终端发送的业务数据集,通过所述业务数据集获取所述业务数据集对应的j个起始业务数据子集以及各个起始业务数据子集对应的业务知识向量;
针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子;
通过各个所述起始业务数据子集对应的影响因子,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,其中,所述j>所述i,且所述j和所述i均为大于等于1的正整数;
通过各个所述最终业务数据子集对应的业务知识向量,获取所述业务数据集的数据归属信息。
2.根据权利要求1所述的方法,其特征在于,所述针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子,包括:
针对各个所述起始业务数据子集,对所述起始业务数据子集对应的业务知识向量进行主成成分分析,得到所述起始业务数据子集对应的重构业务知识向量;
通过各个所述起始业务数据子集对应的重构业务知识向量,获取各个所述起始业务数据子集对应的融合偏心系数;
通过各个所述起始业务数据子集对应的融合偏心系数,对所述各个起始业务数据子集对应的重构业务知识向量进行尺度融合处理,得到尺度融合处理后的重构业务知识向量;
对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量,其中,所述第一临时知识向量的向量维数小于所述重构业务知识向量的向量维数;
通过各个所述起始业务数据子集对应的第一临时知识向量,获取各个所述起始业务数据子集对应的影响因子。
3.根据权利要求2所述的方法,其特征在于,所述对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到第一临时知识向量,包括:
通过所述尺度融合处理后的重构业务知识向量,获取所述尺度融合处理后的重构业务知识向量对应的降维偏心系数;
依据所述降维偏心系数,对所述尺度融合处理后的重构业务知识向量进行向量整合操作,得到所述第一临时知识向量;
所述通过各个所述起始业务数据子集对应的第一临时知识向量,获取各个所述起始业务数据子集对应的影响因子,包括:
对各个所述第一临时知识向量进行单调转换,并对单调转换后的所述第一临时知识向量进行向量整合操作,得到各个所述第一临时知识向量对应的第二临时知识向量;
通过各个所述第二临时知识向量,获取各个所述起始业务数据子集对应的影响因子。
4.根据权利要求1所述的方法,其特征在于,所述所述通过各个所述起始业务数据子集对应的影响因子,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量,包括:
通过各个所述起始业务数据子集对应的影响因子,获取所述影响因子对应的向量排列数表matrix1,所述向量排列数表matrix1对应的数表维数为j·i;
对所述向量排列数表matrix1进行维数转置,得到数表维数为i·j的向量排列数表matrix2;
通过所述向量排列数表matrix2和所述起始业务数据子集的业务知识向量对应的业务数据数表,对所述j个起始业务数据子集各自对应的业务知识向量进行提取,得到所述i个最终业务数据子集以及各个最终业务数据子集对应的业务知识向量;
所述通过各个所述最终业务数据子集对应的业务知识向量,获取所述业务数据集的数据归属信息,包括:
将所述最终业务数据子集确定为又一起始业务数据子集,其中,更新后的所述起始业务数据子集的数量为更新后的j;
重复所述针对各个所述起始业务数据子集,通过所述起始业务数据子集的业务知识向量,获取所述起始业务数据子集对应的影响因子的步骤直到满足预设的重复次数,通过最后获取的各个最终业务数据子集对应的业务知识向量,获取所述业务数据集对应的数据归属支持度;
通过所述数据归属支持度,获取所述业务数据集的数据归属信息。
5.根据权利要求4所述的方法,其特征在于,通过所述业务数据集获取所述业务数据集的数据归属信息是基于预设的业务数据挖掘模型进行的,所述业务数据挖掘模型的调校过程包括以下步骤:
获取业务数据集样本并将所述业务数据集样本加载到拟调校的业务数据挖掘模型;
基于所述拟调校的业务数据挖掘模型对所述业务数据集样本进行处理,获取所述业务数据挖掘模型中的各个聚合模块输出的推理业务知识向量vector1,以及获取所述业务数据集样本对应的推理归属结果forecast1,其中,所述聚合模块用于通过业务数据集样本对应的起始推理业务数据子集的业务知识向量,获取所述起始推理业务数据子集的影响因子,以及通过各个所述起始推理业务数据子集对应的影响因子,对k个起始推理业务数据子集各自对应的业务知识向量进行提取,得到l个最终推理业务数据子集以及各个最终推理业务数据子集对应的推理业务知识向量vector1;
将所述业务数据集样本加载到事先调校完成的主迁移学习网络,并基于所述主迁移学习网络对所述业务数据集样本进行处理,获取所述主迁移学习网络中的各个聚合模块输出的推理业务知识向量vector2,以及获取所述业务数据集样本对应的推理归属结果forecast2;
通过所述推理业务知识向量vector1、所述推理业务知识向量vector2、所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的推理质量评估因子,并基于所述推理质量评估因子对所述拟调校的业务数据挖掘模型进行重复调校直到符合预定要求,获得调校完成的业务数据挖掘模型。
6.根据权利要求5所述的方法,其特征在于,所述通过所述推理业务知识向量vector1、所述推理业务知识向量vector2、所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的推理质量评估因子,包括:
针对所述拟调校的业务数据挖掘模型中的各个所述聚合模块,通过各个推理业务知识向量vector1,获取k个复原推理业务知识向量,其中,所述k为所述业务数据集样本对应的起始推理业务数据子集的个数;
通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取所述聚合模块对应的质量评估因子loss1;
通过所述推理归属结果forecast1和所述推理归属结果forecast2,获取所述拟调校的业务数据挖掘模型的质量评估因子loss2;
通过各个所述聚合模块对应的质量评估因子loss1和所述质量评估因子loss2,获取所述推理质量评估因子。
7.根据权利要求6所述的方法,其特征在于,所述通过各个推理业务知识向量vector1,获取k个复原推理业务知识向量,包括:
对所述推理业务知识向量vector1对应的向量排列数表matrix2进行尺度融合处理,得到尺度融合处理后的推理重构业务知识向量f-vector1,并对所述推理重构业务知识向量f-vector1对应的向量排列数表进行维数转置,获得转置完成的向量排列数表matrix3;
对所述转置完成的向量排列数表matrix3进行向量整合操作,得到推理重构业务知识向量f-vector2,并对所述推理重构业务知识向量f-vector2进行单调转换,得到推理重构业务知识向量f-vector3;
对所述推理重构业务知识向量f-vector3对应的向量排列数表进行向量整合操作,并对向量整合操作后的向量排列数表进行维数转置,得到向量排列数表matrix4;
对所述向量排列数表matrix4进行尺度融合处理,并对尺度融合处理后的所述向量排列数表matrix4进行多次向量整合,得到向量排列数表matrix5;
通过所述向量排列数表matrix5和所述向量排列数表matrix4,获取所述k个复原推理业务知识向量,其中,所述向量排列数表matrix4对应的数表维数中的业务知识向量的个数为所述k,所述向量排列数表matrix4对应的数表维数中的向量维数为起始推理业务数据子集的业务知识向量的向量维数。
8.根据权利要求7所述的方法,其特征在于,所述通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取所述聚合模块对应的质量评估因子loss1,包括:
通过所述k个复原推理业务知识向量和所述推理业务知识向量vector2,获取质量评估子因子loss-a;
对所述复原推理业务知识向量进行降维,得到所述复原推理业务知识向量对应的目标推理知识向量g-vector1,并获取所述目标推理知识向量g-vector1对应的推理归属结果forecast3;
对所述推理业务知识向量vector2进行降维,得到所述推理业务知识向量vector2对应的目标推理知识向量g-vector2,并获取所述目标推理知识向量g-vector2对应的推理归属结果forecast4;
通过所述推理归属结果forecast3和所述推理归属结果forecast3对应的第一对照归属结果,获取质量评估子因子loss-c;
通过所述推理归属结果forecast4和所述推理归属结果forecast4对应的第二对照归属结果,获取质量评估子因子loss-d;
通过所述质量评估子因子loss-c和所述质量评估子因子loss-d,获取所述质量评估子因子loss-b;
通过所述质量评估子因子loss-a和所述质量评估子因子loss-b,获取所述质量评估因子loss1。
9.一种数据挖掘系统,其特征在于,包括云平台和与所述云平台通信连接的业务终端,所述云平台包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,执行如权利要求1~8中任一项所述的方法。
10.一种云平台,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,执行如权利要求1~8中任一项所述的方法。
CN202211561104.0A 2022-12-06 2022-12-06 业务大数据挖掘方法、系统及云平台 Active CN115640336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211561104.0A CN115640336B (zh) 2022-12-06 2022-12-06 业务大数据挖掘方法、系统及云平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211561104.0A CN115640336B (zh) 2022-12-06 2022-12-06 业务大数据挖掘方法、系统及云平台

Publications (2)

Publication Number Publication Date
CN115640336A true CN115640336A (zh) 2023-01-24
CN115640336B CN115640336B (zh) 2023-08-22

Family

ID=84948333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211561104.0A Active CN115640336B (zh) 2022-12-06 2022-12-06 业务大数据挖掘方法、系统及云平台

Country Status (1)

Country Link
CN (1) CN115640336B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320337A1 (en) * 2019-04-02 2020-10-08 MakinaRocks Co., Ltd. Method for managing training data
CN112600893A (zh) * 2020-12-04 2021-04-02 褚萌萌 基于大数据定位的软件应用数据挖掘方法及软件服务平台
CN113850686A (zh) * 2021-10-08 2021-12-28 同盾网络科技有限公司 投保概率确定方法、装置、存储介质及电子设备
CN114119058A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
US11288240B1 (en) * 2013-03-12 2022-03-29 AdTheorent, Inc. Data learning and analytics apparatuses, methods and systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288240B1 (en) * 2013-03-12 2022-03-29 AdTheorent, Inc. Data learning and analytics apparatuses, methods and systems
US20200320337A1 (en) * 2019-04-02 2020-10-08 MakinaRocks Co., Ltd. Method for managing training data
CN112600893A (zh) * 2020-12-04 2021-04-02 褚萌萌 基于大数据定位的软件应用数据挖掘方法及软件服务平台
CN114119058A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建方法、设备及存储介质
CN113850686A (zh) * 2021-10-08 2021-12-28 同盾网络科技有限公司 投保概率确定方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
戴炳荣等: "一种基于PCA-SVM的医疗卫生数据挖掘分类方法", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN115640336B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US20230088171A1 (en) Method and apparatus for training search recommendation model, and method and apparatus for sorting search results
US20120150860A1 (en) Clustering with Similarity-Adjusted Entropy
US20220215298A1 (en) Method for training sequence mining model, method for processing sequence data, and device
CN112148975A (zh) 会话推荐方法、装置及设备
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN115423037B (zh) 一种基于大数据的用户分类方法及系统
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
US20240005164A1 (en) Neural Network Training Method and Related Device
CN113239702A (zh) 意图识别方法、装置、电子设备
CN114358216B (zh) 基于机器学习框架的量子聚类方法及相关装置
CN115274008A (zh) 基于图神经网络的分子性质预测方法和系统
CN115423040A (zh) 互动营销平台的用户画像识别方法及ai系统
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN112989182B (zh) 信息处理方法、装置、信息处理设备及存储介质
CN115640336A (zh) 业务大数据挖掘方法、系统及云平台
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
CN115439192A (zh) 医疗商品信息的推送方法及装置、存储介质、计算机设备
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
CN114048392B (zh) 多媒体资源推送方法、装置、电子设备及存储介质
CN112580658B (zh) 图像语义描述方法、装置、计算设备及计算机存储介质
CN114238726A (zh) 用户分类的方法、装置、设备及存储介质
CN116167872A (zh) 异常医疗数据检测方法、装置及设备
CN107346279B (zh) 判定移动设备是否为虚拟设备的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230802

Address after: 608, 6th Floor, Building 4, No. 21 Zhongxing Road, Chengnan Street, Changping District, Beijing, 100000

Applicant after: Beijing Chenji Zhicheng Information Technology Co.,Ltd.

Address before: No. 1005, Huancheng Road, Honghuagang District, Zunyi City, Guizhou Province, 563000

Applicant before: Zunyi Zhongzhong Network Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant