CN115438117A - 应用人工智能的业务大数据挖掘方法、服务器及存储介质 - Google Patents
应用人工智能的业务大数据挖掘方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN115438117A CN115438117A CN202211170097.1A CN202211170097A CN115438117A CN 115438117 A CN115438117 A CN 115438117A CN 202211170097 A CN202211170097 A CN 202211170097A CN 115438117 A CN115438117 A CN 115438117A
- Authority
- CN
- China
- Prior art keywords
- data
- service data
- service
- knowledge field
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的应用人工智能的业务大数据挖掘方法、服务器及存储介质,通过获取拟挖掘业务数据和标准业务数据序列,对拟挖掘业务数据和标准业务数据分别进行知识字段挖掘,得到拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,然后通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个预设方式下对于每个数据指向信息的归纳结果,基于拟挖掘业务数据在各个预设方式下对于每个数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息。通过归纳得到的各个预设方式下对于每个数据指向信息的归纳结果,获取拟挖掘业务数据的数据指向信息,从而均衡不同预设方式对应的归纳结果,使得拟挖掘业务数据归纳结果的精准可靠。
Description
技术领域
本申请涉及数据挖掘领域,具体而言,涉及一种应用人工智能的业务大数据挖掘方法、服务器及存储介质。
背景技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。完整的数据挖掘项目包含业务理解、数据理解、数据准备、数据预处理和建模、模型评估、模型部署应用,在数据准备过程中,需要对数据的指向信息进行明确,便于将同一指向信息的数据进行统一存储,便于后续的数据分析,大规模数据的指向信息确定对于算力、并行处理能力和准确性提出较高的要求,如何高效准确获取业务数据的指向信息是运营平台需要考虑的问题。
发明内容
本发明的目的在于提供一种应用人工智能的业务大数据挖掘方法、服务器及存储介质。
本申请实施例第一方面提供了一种业务大数据挖掘方法,应用于数据挖掘服务器,所述方法包括:
当接收到数据挖掘指令时,提取拟挖掘业务数据和标准业务数据序列,所述标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据;
对所述拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对所述标准业务数据进行知识字段挖掘,得到所述标准业务数据的标准业务数据业务知识字段;
基于所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段,通过预设方式对所述拟挖掘业务数据进行归纳,得到所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果;
基于所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果,得到所述拟挖掘业务数据的数据指向信息。
进一步地,所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段为通过预先调校好的知识字段挖掘网络进行知识字段挖掘得到的业务知识字段;
所述对所述拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对所述标准业务数据进行知识字段挖掘,得到所述标准业务数据的标准业务数据业务知识字段之前,还包括对所述知识字段挖掘网络进行调校的步骤,包括:
获取训练业务数据集,所述训练业务数据集包括注释数据指向信息标记对应的拟推理训练业务数据和一个或多个数据指向信息对应的标准训练业务数据;
通过拟调校的知识字段挖掘网络对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,并通过拟调校的知识字段挖掘网络对所述标准训练业务数据进行知识字段挖掘,得到标准训练业务数据业务知识字段;
基于所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络依据预设方式对所述拟推理训练业务数据进行推理,得到所述拟推理训练业务数据的数据指向信息序列,所述数据指向信息序列包括各个所述预设方式对应的目标数据指向信息;
基于所述各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
进一步地,所述基于所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络依据预设方式对所述拟推理训练业务数据进行推理,得到所述拟推理训练业务数据的数据指向信息序列,包括:
通过所述拟调校的知识字段挖掘网络,依据预设方式确定所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段之间的共性度量结果,得到各个所述预设方式下所述拟推理训练业务数据和所述标准训练业务数据之间的备取共性度量结果;
通过备取共性度量结果,确定各个所述预设方式下所述拟推理训练业务数据的目标数据指向信息;
基于各个所述预设方式下所述拟推理训练业务数据的目标数据指向信息,得到所述拟推理训练业务数据的数据指向信息序列。
进一步地,所述基于各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络,包括:
确定各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记之间的第一质量评估因子;
对所述第一质量评估因子进行合并,得到合并质量评估因子;
基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络;
业务大数据挖掘方法所述基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络之前,所述方法还包括:
对所述拟推理训练业务数据进行前置操作,得到变更训练业务数据;
基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息;
获取所述变更训练业务数据对应的变更训练业务数据标记,以及确定所述备取数据指向信息和所述变更训练业务数据标记之间的第二质量评估因子;
所述基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络,包括:
基于所述合并质量评估因子和所述第二质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
进一步地,所述变更训练业务数据包括对于所述拟推理训练业务数据进行缺失弥补后的变更训练业务数据,所述业务数据归纳模块包括第一业务数据归纳模块和第二业务数据归纳模块,所述备取数据指向信息包括第一备取数据指向信息和第二备取数据指向信息;
所述基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息,包括:
基于所述缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第一业务数据归纳模块进行归纳,得到目标变更训练业务数据的第一备取数据指向信息,所述第一备取数据指向信息用于指示目标变更训练业务数据对于所述拟推理训练业务数据的数据指向信息,所述目标变更训练业务数据为所述变更训练业务数据中与拟推理训练业务数据关联的业务数据;
基于所述缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第二业务数据归纳模块进行归纳,得到所述变更训练业务数据的第二备取数据指向信息,所述第二备取数据指向信息用于指示所述变更训练业务数据对于缺失弥补后的数据指向信息。
进一步地,所述基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息,包括:
通过所述拟调校的知识字段挖掘网络的统一处理模块对所述变更训练业务数据进行知识字段挖掘,得到变更训练业务数据业务知识字段;
基于所述变更训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息;
所述通过拟调校的知识字段挖掘网络对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,包括:
通过拟调校的知识字段挖掘网络的所述统一处理模块对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段。
进一步地,所述基于所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段,通过预设方式对所述拟挖掘业务数据进行归纳,得到所述拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,包括:
通过预设方式确定所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段之间的共性度量结果,得到各个所述预设方式下所述拟挖掘业务数据和每一数据指向信息对应的所述标准业务数据之间的目标共性度量结果;
将所述目标共性度量结果确定为所述归纳结果;
所述基于所述拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,得到所述拟挖掘业务数据的数据指向信息,包括:
获取各个所述预设方式对应的偏心因子;
根据所述偏心因子,将各个所述预设方式对应的归纳结果进行合并,得到所述数据指向信息对应的目标归纳结果;
基于所述数据指向信息对应的目标归纳结果,确定所述拟挖掘业务数据的数据指向信息。
进一步地,所述方法还包括:
获取所述拟挖掘业务数据对应的数据指向信息对应的整体业务数据集合,其中,所述整体业务数据集合包含所述拟挖掘业务数据且包括所述数据指向信息的选定分析周期的关联业务数据,所述拟挖掘业务数据和所述关联业务数据均对应有各自的用户标识;
根据所述数据指向信息的业务归属识别信息,对所述整体业务数据集合进行在信息属性上的信息过滤,得到所述数据指向信息所对应的第一整体业务数据集合;
对所述数据指向信息所对应的第一整体业务数据集合进行干扰信息优化,得到所述数据指向信息所对应的第二整体业务数据集合;
将所述第二整体业务数据集合加载至事先训练好的数据推送模型;
依据所述数据推送模型的业务数据解析模块对所述第二整体业务数据集合进行业务数据知识挖掘,得到和所述第二整体业务数据集合对应的第一推送知识;
依据所述数据推送专家模型中的画像描绘模块对所述第一推送知识进行处理,得到和所述业务归属识别信息相对应的用户画像描绘结果;
基于所述用户画像描绘结果进行大数据的推送。
第二方面,本申请实施例提供一种数据挖掘服务器,包括:
处理器;以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行以上所述的业务大数据挖掘方法。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的业务大数据挖掘方法。
本申请提供的应用人工智能的业务大数据挖掘方法、服务器及存储介质,通过获取拟挖掘业务数据和标准业务数据序列,标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据;对拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对标准业务数据进行知识字段挖掘,得到标准业务数据的标准业务数据业务知识字段;基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果;基于拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息。本申请实施例通过归纳得到的各个预设方式下对于每个数据指向信息的归纳结果,获取拟挖掘业务数据的数据指向信息,从而均衡不同预设方式对应的归纳结果,使得拟挖掘业务数据归纳结果的精准可靠。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请实施例提供的一种应用人工智能的业务大数据挖掘方法的流程图。
图2是本申请实施例提供的数据挖掘装置的功能模块架构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例中应用人工智能的业务大数据挖掘方法的执行主体为数据挖掘服务器,例如可以是单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。数据挖掘服务器包含计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。数据挖掘服务器还包括处理器以及存储器,存储器用于存储处理器的可执行指令,处理器执行所述可执行指令来执行本申请实施例提供的业务大数据挖掘方法。
本申请实施例提供的应用人工智能的业务大数据挖掘方法应用于服务器,如图1所示,该方法包括:
100:当接收到数据挖掘指令时,提取拟挖掘业务数据和标准业务数据序列。
数据挖掘指令的产生可以是基于服务器存储的拟挖掘业务数据的数据容量而决定的,例如设定指令生成阈值,当数据容量达到该指令生成阈值时,生成该数据挖掘指令。标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据。标准业务数据是作为被参考的业务数据的集合。其中,标准业务数据可以是事先采集分析并依据数据指向信息保存的业务数据,数据指向信息用于指示数据的归类情况,例如数据指向信息A用于指示业务数据为用户的负面评价数据,数据指向信息B用于指示业务数据为用户的视频互动数据等。服务器获取标准业务数据后,通过标准业务数据的标记对标准业务数据进行归类,得到各个数据指向信息对应的标准业务数据,其中,数据标记和数据指向信息相关,则可以通过数据标记对标准业务数据归类。
200:对拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对标准业务数据进行知识字段挖掘,得到标准业务数据的标准业务数据业务知识字段。
作为一种实施方式,可以通过调校完成的知识字段挖掘网络对拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段(即拟挖掘业务数据的业务特征,其通过向量进行表示),通过调校完成的知识字段挖掘网络对标准业务数据进行知识字段挖掘,得到标准业务数据的标准业务数据业务知识字段,其中,调校完成的知识字段挖掘网络可以是任意可行的AI机器学习模型,例如神经网络模型。该知识字段挖掘网络需要进行事先调校,该调校的过程请参照以下步骤10-40:
10:获取训练业务数据集。
训练业务数据集包括注释数据指向信息标记对应的拟推理训练业务数据样本,以及一个或多个数据指向信息对应的标准训练业务数据。注释数据指向信息标记是对数据指向信息进行提前标记,标准训练业务数据作为训练模板。拟推理训练业务数据可以是电商平台、视频平台、阅读平台或游戏平台的业务数据,如消费、互动、评价等业务行为产生的数据。服务器获取训练业务数据集的手段可以包括多种,基于事先对训练业务数据集进行标记,获得数据指向信息标记对应的训练业务数据集。
20:通过拟调校的知识字段挖掘网络对拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,并通过拟调校的知识字段挖掘网络对标准训练业务数据进行知识字段挖掘,得到标准训练业务数据业务知识字段。
拟推理训练业务数据业务知识字段可以通过如挤压激励网络、宽残差网络或其他可行的神经网络对拟推理训练业务数据进行知识字段挖掘得到,标准训练业务数据业务知识字段同样可以通过诸如上述网络对标准训练业务数据进行知识字段挖掘得到。
30:基于拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段,通过拟调校的知识字段挖掘网络依据预设方式对拟推理训练业务数据进行推理,得到拟推理训练业务数据的数据指向信息序列。
数据指向信息序列包括各个预设方式对应的目标数据指向信息。通过拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段,通过拟调校的知识字段挖掘网络依据预设方式对拟推理训练业务数据进行推理,得到拟推理训练业务数据的数据指向信息序列的方式例如:通过拟调校的知识字段挖掘网络,依据预设方式确定拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段之间的共性度量结果(或称相似性度量结果,表现二者之间的相似程度,其可以通过获取两个向量之间的距离来体现,距离越近,共性度量结果越大,越相似),得到各个预设方式下拟推理训练业务数据和标准训练业务数据间的备取共性度量结果(即作为可以选择的共性度量结果),基于备取共性度量结果,确定各个所述预设方式下拟推理训练业务数据的目标数据指向信息,通过各个预设方式下拟推理训练业务数据的目标数据指向信息,生成拟推理训练业务数据的数据指向信息序列。本申请实施例中,预设方式可以有多种,预设方式是用于对拟挖掘业务数据进行归纳的方法。
基于此,通过预设方式确定拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段之间的共性度量结果,获得各个所述预设方式下拟推理训练业务数据和标准训练业务数据之间的备取共性度量结果。
可以从备取共性度量结果中挑选确定共性度量结果最大的备取共性度量结果,通过共性度量结果最大的备取共性度量结果对应的标准训练业务数据业务知识字段,确定拟推理训练业务数据的目标数据指向信息。拟推理训练业务数据的目标数据指向信息为共性度量结果最大的备取共性度量结果对应的训练业务数业务知识字段所对应的数据指向信息。
40:基于各个预设方式对应的目标数据指向信息和数据指向信息标记,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
其中,通过各个预设方式对应的目标数据指向信息和数据指向信息标记,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络的过程具体可以包括:计算各个预设方式对应的目标数据指向信息和数据指向信息标记之间的第一质量评估因子(用于评估网络的预测准确度,如损失值和代价值),对第一质量评估因子进行合并,得到合并质量评估因子,通过合并质量评估因子,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。其中,对第一质量评估因子进行合并是融合的过程,例如进行拼接或者相加,获得该合并质量评估因子。
基于令调校完成的知识字段挖掘网络提升对拟挖掘业务数据归类精度的考量,采用协同任务调校拟调校的知识字段挖掘网络,具体可以包括以下步骤:对拟推理训练业务数据进行前置操作,得到变更训练业务数据,依据变更训练业务数据,通过拟调校的知识字段挖掘网络的业务数据归纳模块对变更训练业务数据进行归纳,得到变更训练业务数据的备取数据指向信息,获取变更训练业务数据对应的变更训练业务数据标记,以及确定备取数据指向信息和变更训练业务数据标记间的第二质量评估因子。
对拟推理训练业务数据进行前置操作是对拟推理训练业务数据进行预处理的过程,例如对拟推理训练业务数据进行缺失弥补,对不完整的数据进行填补,得到对于拟推理训练业务数据进行缺失弥补后的变更训练业务数据,或者对拟推理训练业务数据错误之处进行修改更正,得到变更训练业务数据,此外,可以对变更训练业务数据进行标记得到变更训练业务数据标记。业务数据归纳模块的数量不做限定,可以是一个或多个。
因此,通过合并质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,获得调校完成的知识字段挖掘网络的过程可以包括:服务器基于合并质量评估因子和第二质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
作为一种实施方式,基于合并质量评估因子和第二质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络的过程可以包括:将合并质量评估因子和第二质量评估因子相加获得总质量评估因子,基于总质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
若变更训练业务数据包括对于拟推理训练业务数据进行缺失弥补后的变更训练业务数据,业务数据归纳模块包括第一业务数据归纳模块和第二业务数据归纳模块,备取数据指向信息包括第一备取数据指向信息和第二备取数据指向信息。那么,本申请实施例中,依据变更训练业务数据,通过拟调校的知识字段挖掘网络的业务数据归纳模块对变更训练业务数据进行归纳,得到变更训练业务数据的备取数据指向信息的过程可以包括以下步骤:依据缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第一业务数据归纳模块进行归纳(如进行分类操作),获得目标变更训练业务数据的第一备取数据指向信息,依据缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第二业务数据归纳模块进行归纳,得到变更训练业务数据的第二备取数据指向信息。,其中第一备取数据指向信息用于指示目标变更训练业务数据对于拟推理训练业务数据的数据指向信息,目标变更训练业务数据为变更训练业务数据中和拟推理训练业务数据关联的业务数据,目标变更训练业务数据可以表示变更训练业务数据中和拟推理训练业务数据之间的共性度量结果最大的业务数据,换言之,若变更训练业务数据和拟推理训练业务数据之间的共性度量结果最大,那么可以认为变更训练业务数据和拟推理训练业务数据相匹配或相对应。本申请实施例中,基于第一业务数据归纳模块对变更训练业务数据进行归纳,第一业务数据归纳模块的一个数据指向信息为对于拟推理训练业务数据的数据指向信息,如此,可以在第一业务数据归纳模块归纳之后获得的多个数据指向信息中挖掘到目标变更训练业务数据对于拟推理训练业务数据的数据指向信息,即第一备取数据指向信息。第一业务数据归纳模块可以和第二业务数据归纳模块不一致。
第二备取数据指向信息用于指示变更训练业务数据对于缺失弥补后的数据指向信息,换言之,可以基于第二业务数据归纳模块对变更训练业务数据进行归纳,那么第二业务数据归纳模块的数据指向信息可以是业务数据的完善度。
300:基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果。
其中,基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,具体可以包括:
服务器通过预设方式确定拟挖掘业务数据业务知识字段和标准业务数据业务知识字段之间的共性度量结果,得到各个所述预设方式下拟挖掘业务数据和每一数据指向信息对应的标准业务数据之间的目标共性度量结果,将目标共性度量结果作为归纳结果。举例而言,预设方式包括第一预设方式和第二预设方式,通过第一预设方式确定拟挖掘业务数据业务知识字段和标准业务数据业务知识字段之间的共性度量结果,得到第一预设方式下拟挖掘业务数据和每一数据指向信息对应的标准业务数据之间的目标共性度量结果,通过第二预设方式确定拟挖掘业务数据业务知识字段和标准业务数据业务知识字段之间的共性度量结果,得到第二预设方式下拟挖掘业务数据和每一数据指向信息对应的标准业务数据之间的目标共性度量结果。
400:基于拟挖掘业务数据在各个预设方式下对于每一数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息。
其中,基于拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息的过程具体可以包括如下步骤:
401:对于每一数据指向信息,将各个预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果。
该归纳结果可以通过数值来进行呈现,那么可以将各个所述预设方式对应的归纳结果进行加权,使得将各个所述预设方式对应的归纳结果进行合并,比如以下过程:获取各个预设方式对应的偏心因子(即被赋予的不同的比例系数、权值),通过偏心因子将各个预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果。偏心因子是调校完成的知识字段挖掘网络经过重复调校后获得的系数。此外,还可以将各个预设方式对应的归纳结果相加,以将各个所述预设方式对应的归纳结果进行合并。
402:基于数据指向信息对应的目标归纳结果确定拟挖掘业务数据的数据指向信息。
目标归纳结果可以通过数值的方式来呈现,每个数据指向信息都对应有目标归纳结果,可以在目标归纳结果中确定出最大的目标归纳结果,其对应的数据指向信息即拟挖掘业务数据的数据指向信息。本申请实施例中,可以获取拟挖掘业务数据和标准业务数据序列,标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据,对拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对标准业务数据进行知识字段挖掘,得到标准业务数据的标准业务数据业务知识字段,基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,基于拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息。因为可以基于归纳得到的各个所述预设方式下对于每一数据指向信息的归纳结果,得到拟挖掘业务数据的数据指向信息,那么可以同时衡量不同预设方式对应的归纳结果,增加拟挖掘业务数据在归纳时的精确可靠。
基于上述介绍的内容,在另一实施例中对本申请实施例提供的业务大数据挖掘方法进行更细致的介绍,其包括以下步骤1000~8000:
1000:服务器获取训练业务数据集。
训练业务数据集包括注释数据指向信息标记对应的拟推理训练业务数据样本和一个或多个数据指向信息对应的标准训练业务数据,拟调校的知识字段挖掘网络的调校过程中,包括元学习任务和协同任务,其中,元学习任务解决Novel class样本量少的问题。
2000:服务器通过拟调校的知识字段挖掘网络对拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,并通过拟调校的知识字段挖掘网络对标准训练业务数据进行知识字段挖掘,得到标准训练业务数据业务知识字段。
本申请实施例依据元学习任务,通过拟调校的知识字段挖掘网络对拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,并通过拟调校的知识字段挖掘网络对标准训练业务数据进行知识字段挖掘,得到标准训练业务数据业务知识字段,拟调校的知识字段挖掘网络可以通过一共享结构Back bone对拟推理训练业务数据进行深度知识字段挖掘,得到拟推理训练业务数据业务知识字段,拟调校的知识字段挖掘网络通过共享结构Backbone对标准训练业务数据进行深度知识字段挖掘,得到标准训练业务数据业务知识字段,其中,共享结构Back bone可以是残差网络。
3000:服务器基于拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段,通过拟调校的知识字段挖掘网络依据预设方式对拟推理训练业务数据进行推理,得到拟推理训练业务数据的数据指向信息序列。
数据指向信息序列包括各个预设方式对应的目标数据指向信息,基于拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段,通过拟调校的知识字段挖掘网络依据预设方式对拟推理训练业务数据进行推理,得到拟推理训练业务数据的数据指向信息序列的过程包括如下步骤:
服务器通过拟调校的知识字段挖掘网络,依据预设方式确定拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段之间的共性度量结果,得到各个预设方式下拟推理训练业务数据和标准训练业务数据之间的备取共性度量结果,基于备取共性度量结果确定各个预设方式下拟推理训练业务数据的目标数据指向信息,基于各个预设方式下拟推理训练业务数据的目标数据指向信息,生成拟推理训练业务数据的数据指向信息序列,预设方式可以包括如各类向量距离计算的方式,此处不做赘述。例如可以将拟推理训练业务数据业务知识字段和标准训练业务数据业务知识字段在维数通道融合(如拼接),将融合结果通过余弦距离计算得到拟推理训练业务数据和标准训练业务数据之间的备取共性度量结果。
若数据指向信息对应的标准训练业务数据包括多组,则可以基于拟调校的知识字段挖掘网络对具有多组标准训练业务数据的数据指向信息对应的全部标准训练业务数据进行知识字段挖掘,获得该数据指向信息下的每个标准训练业务数据对应的备取标准训练业务数据业务知识字段,再对该数据指向信息下的每个标准训练业务数据的备取标准训练业务数据业务知识字段进行合并,以得到该数据指向信息下标准训练业务数据的标准训练业务数据业务知识字段。
举例而言,数据指向信息X中的标准训练业务数据包括xa、xb、xc,通过拟调校的知识字段挖掘网络对数据指向信息X中的标准训练业务数据进行知识字段挖掘,获得xa对应的备取标准训练业务数据业务知识字段Vector(xa),xb对应的备取标准训练业务数据业务知识字段Vector(xb),xc对应的备取标准训练业务数据业务知识字段Vector(xc),再确定该数据指向信息下全部备取标准训练业务数据业务知识字段的平均数,从而获得业务知识字段Vector(X),Vector(X)=(Vector(xa)+Vector(xb)+Vector(xc))/3。
那么,本申请实施例获得各个预设方式下拟推理训练业务数据和标准训练业务数据之间的备取共性度量结果,备取共性度量结果可以通过数值的方式进行呈现(例如百分比数值),获得的各个预设方式下的拟推理训练业务数据对于每一数据指向信息的备取共性度量结果,例如确定的拟推理训练业务数据的归纳结果为 (A;B;C),A为方式一下的拟推理训练业务数据对于每个数据指向信息的备取共性度量结果,B为方式二下的拟推理训练业务数据对于每个数据指向信息的备取共性度量结果,C为方式三下的拟推理训练业务数据对于每个数据指向信息的备取共性度量结果,方式一、方式二和方式三为不同的向量距离计算方式,设数据指向信息包括数据指向信息A、数据指向信息B和数据指向信息C,确定得到方式一下的拟推理训练业务数据对于每个数据指向信息的备取共性度量结果,A=(40%;60%;80%),40%为拟推理训练业务数据对于数据指向信息A的备取共性度量结果,60%为拟推理训练业务数据对于数据指向信息B的备取共性度量结果,80%为拟推理训练业务数据对于数据指向信息C的备取共性度量结果。对于各个预设方式,从预设方式下拟推理训练业务数据对于每个数据指向信息的备取共性度量结果中确定出最大数的备取共性度量结果,即为共性度量结果最高的备取共性度量结果,那么最大的备取共性度量结果对应的数据指向信息即该预设方式下,拟推理训练业务数据的目标数据指向信息。上述例子中,预设方式为方式一,A=(40%,60%,80%),80%为最大的备取共性度量结果,80%是数据指向信息C的备取共性度量结果,则数据指向信息C为方式一下的拟推理训练业务数据的目标数据指向信息。
4000:服务器基于各个预设方式对应的目标数据指向信息和数据指向信息标记,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
基于各个预设方式对应的目标数据指向信息和数据指向信息标记,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络可以包括:服务器确定各个预设方式对应的目标数据指向信息和数据指向信息标记之间的第一质量评估因子,对第一质量评估因子进行合并得到合并质量评估因子,基于合并质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。例如,可以将全部第一质量评估因子进行合并,若预设方式包括方式一、方式二和方式三,那么对第一质量评估因子进行合并得到合并质量评估因子可以参考以下公式:
loss-sum=v1·loss1+v2·loss2+v3·loss3+p1+p2+p3
loss-sum为合并质量评估因子,loss1为方式一对应的第一质量评估因子,loss2为方式二对应的第一质量评估因子,loss3为方式三对应的第一质量评估因子,v1为方式一对应的第一质量评估因子的损失偏心因子,v2为方式二对应的第一质量评估因子的损失偏心因子,v3为方式三对应的第一质量评估因子的损失偏心因子,p1为方式一对应的调节参数,p2为方式二对应的调节参数,p3为方式三对应的调节参数。
另外,出于令调校完成的知识字段挖掘网络增加对拟挖掘业务数据归纳结果的精确可靠的考量,可以采用协同任务(辅助)对拟调校的知识字段挖掘网络进行调校,通过协同任务对拟调校的知识字段挖掘网络进行调校的可以包括如下步骤:
服务器对拟推理训练业务数据进行前置操作,得到变更训练业务数据,基于变更训练业务数据,通过拟调校的知识字段挖掘网络的业务数据归纳模块对变更训练业务数据进行归纳,得到变更训练业务数据的备取数据指向信息,获取变更训练业务数据对应的变更训练业务数据标记,以及确定备取数据指向信息和变更训练业务数据标记间的第二质量评估因子。
对拟推理训练业务数据进行前置操作可以是对拟推理训练业务数据进行缺失弥补或修正,得到缺失弥补或修正后的变更训练业务数据,变更训练业务数据包括各弥补修正类型或弥补修正位置的变更训练业务数据。
之后,知识字段挖掘网络利用共享结构Back bone对变更训练业务数据进行深度知识字段挖掘,得到变更训练业务数据对应的变更训练业务数据业务知识字段,应用在元学习任务的共享结构Backbone和应用在协同任务的共享结构Back bone都是统一处理模块——共享神经网络,如此,统一共享减少了运算开销,提升调校的效率。基于变更训练业务数据业务知识字段,通过拟调校的知识字段挖掘网络的业务数据归纳模块对变更训练业务数据进行归纳,得到变更训练业务数据的备取数据指向信息。
将变更训练业务数据业务知识字段加载至拟调校的知识字段挖掘网络的线性模块后,通过业务数据归纳模块对变更训练业务数据进行归纳。该业务数据归纳模块可以包含第一业务数据归纳模块和第二业务数据归纳模块,备取数据指向信息包括第一备取数据指向信息和第二备取数据指向信息,如此,依据变更训练业务数据,通过拟调校的知识字段挖掘网络的业务数据归纳模块对变更训练业务数据进行归纳,得到变更训练业务数据的备取数据指向信息的过程可以包括:
4100:基于缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第一业务数据归纳模块进行归纳,得到目标变更训练业务数据的第一备取数据指向信息。
第一备取数据指向信息用于指示目标变更训练业务数据对于拟推理训练业务数据的数据指向信息,目标变更训练业务数据为变更训练业务数据中与拟推理训练业务数据关联的业务数据。
4200:基于缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第二业务数据归纳模块进行归纳,得到变更训练业务数据的第二备取数据指向信息。
第二备取数据指向信息用于指示变更训练业务数据对于缺失弥补后的数据指向信息,第二业务数据归纳模块通过自监督学习调校。
综上,可以将元学习任务得到的拟推理训练业务数据的归纳结果(A,B,C),和协同任务得到的第一备取数据指向信息、第二备取数据指向信息加载至拟调校的知识字段挖掘网络的代价获取模块确定质量评估因子。通过拟推理训练业务数据的归纳结果(A,B,C)确定的质量评估因子即前述合并质量评估因子loss-sum。
第二质量评估因子包括第一备取质量评估因子和第二备取质量评估因子,变更训练业务数据标记包括第一变更训练业务数据标记和第二变更训练业务数据标记,确定第一变更训练业务数据标记和第一备取数据指向信息之间的第一备取质量评估因子,并确定第二变更训练业务数据标记和第二备取数据指向信息之间的第二备取质量评估因子,根据合并质量评估因子和第二质量评估因子,对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络,换言之,可以对合并质量评估因子、第一备取质量评估因子和第二备取质量评估因子进行合并(融合),得到合并后质量评估因子,基于合并后的质量评估因子对拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
本申请实施例中,基于以上过程,可以协调元学习任务和协同任务,令调校完成的知识字段挖掘网络具备优秀的深度知识归纳性能,提升调校完成的知识字段挖掘网络对业务数据归纳结果的精确可靠。
5000:服务器获取拟挖掘业务数据和标准业务数据序列。
标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据。
6000:服务器通过调校完成的知识字段挖掘网络对拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,以及采用调校完成的知识字段挖掘网络对标准业务数据进行知识字段挖掘,得到标准业务数据的标准业务数据业务知识字段。
7000:服务器基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果。
基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,得到拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果的具体过程包括:
基于调校完成的知识字段挖掘网络通过预设方式确定拟挖掘业务数据业务知识字段和标准业务数据业务知识字段之间的共性度量结果,得到各个预设方式下拟挖掘业务数据和每个数据指向信息对应的标准业务数据间的目标共性度量结果,将目标共性度量结果确定为归纳结果。
8000:服务器基于拟挖掘业务数据在各个所述预设方式下的对于每个数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息。
基于拟挖掘业务数据在各个所述预设方式下对于每各数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息的过程包括:服务器对于每各数据指向信息,将各个预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果,基于数据指向信息对应的目标归纳结果,确定拟挖掘业务数据的数据指向信息。
对于每个数据指向信息,将各个所述预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果的过程具体包括:服务器获取各个所述预设方式对应的偏心因子,基于偏心因子将各个预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果,偏心因子是调校完成的知识字段挖掘网络通过重复调校获得的系数。
例如可以将方式一的第一质量评估因子的偏心因子v1、方式二的第一质量评估因子的偏心因子v2、方式三的第一质量评估因子的偏心因子v3采用标准化处理获得v1对应的偏心因子u1, v2对应的偏心因子u2,以及v3对应的偏心因子u3。归纳结果可以涵盖目标共性度量结果,那么基于偏心因子,将各个预设方式对应的归纳结果进行合并,得到数据指向信息对应的目标归纳结果可以参考如下公式:
R=u1·A1+u2·A2+u3·A3
其中,R为目标归纳结果,A1为方式一下的拟挖掘业务数据对于每个数据指向信息的目标共性度量结果,A2为方式二下的拟挖掘业务数据对于每个数据指向信息的目标共性度量结果,A3为方式三下的拟挖掘业务数据对于每个数据指向信息的目标共性度量结果。
接上述举例,数据指向信息包括数据指向信息A、数据指向信息B和数据指向信息C,计算获得方式一下拟挖掘业务数据对于每一数据指向信息的目标共性度量结果,A1=(40%,60%,80%),40%为拟挖掘业务数据对于数据指向信息A的目标共性度量结果,60%为拟挖掘业务数据对于数据指向信息B的目标共性度量结果,80%为拟挖掘业务数据对于数据指向信息C的目标共性度量结果。B=(40%,50%,60%),C=(40%,50%,60%),将A、B、C合并融合得到R=(90%,80%,70%),因为90%最大,则90%对应的数据指向信息A为拟挖掘业务数据的数据指向信息。
另外,作为一种可能的实施方式,本申请实施例提供的业务大数据挖掘方法还可以包括基于数据归类后的数据推送过程,具体可以包括以下步骤:
XI:获取拟挖掘业务数据对应的数据指向信息对应的整体业务数据集合,其中,整体业务数据集合包含拟挖掘业务数据且包括数据指向信息的选定分析周期的关联业务数据,拟挖掘业务数据和关联业务数据均对应有各自的用户标识。
整体业务数据集合具有多个数据指向信息,其包含的每个数据指向信息包含多个已经进行归纳的业务数据集,例如一个业务数据集的数据指向信息是指向用户的商品评价数据,一个业务数据集的数据指向信息是指向用户购买商品过程中的浏览搜索数据……通过对整体业务数据集合的各个业务数据集进行整体的分析,有利于刻画出该整体业务数据集合的画像,而该整体业务数据集合中可能涵盖多个用户标识,通过各个用户标识在各个业务数据集中的占比比例,来划分不同业务数据集中的用户画像和归属于整体业务数据集合的画像。
XII:根据数据指向信息的业务归属识别信息,对整体业务数据集合进行在信息属性上的信息过滤,得到数据指向信息所对应的第一整体业务数据集合。
业务归属识别信息是准备分析的数据维度,那么将与分析维度无关的数据特征进行筛选清洗,数据维度的选择视实际情况进行选择。作为一种实施方式,根据数据指向信息的业务归属识别信息,对整体业务数据集合进行在信息属性上的信息过滤,得到数据指向信息所对应的第一整体业务数据集合,可以包括:根据数据指向信息的业务发生场景,得到和数据指向信息相对应的业务评估维度,基于与数据指向信息相对应的业务评估维度,对基础整体业务数据集合所包括的数据指向信息的选定分析周期的关联业务数据进行信息维度过滤处理,得到过滤结果,基于过滤结果获得数据指向信息所对应的第一整体业务数据集合。
XIII:对数据指向信息所对应的第一整体业务数据集合进行干扰信息优化,得到数据指向信息所对应的第二整体业务数据集合。
干扰信息优化即对异常值进行处理,例如通过最大值法、最小值法进行处理。作为一种实施方式,对数据指向信息所对应的第一整体业务数据集合进行干扰信息优化,得到数据指向信息所对应的第二整体业务数据集合,包括:根据数据指向信息的业务发生场景,得到和数据指向信息相对应的干扰信息优化方式,遍历第一整体业务数据集合,确定第一整体业务数据集合中的干扰信息,基于与数据指向信息相对应的干扰信息优化方式,对第一整体业务数据集合中的干扰信息进行处理,获得数据指向信息所对应的第二整体业务数据集合。
XIV:将第二整体业务数据集合加载至事先训练好的数据推送模型。
该数据推送模型的框架可以是任意可行的AI模型,例如深度学习网络,其经过事先训练达到符合要求的预测精度。
XV:依据数据推送模型的业务数据解析模块对第二整体业务数据集合进行业务数据知识挖掘,得到和第二整体业务数据集合对应的推送知识。
推送知识是业务数据的特征向量,通过将这些特征信息向量与预设的标签向量进行距离计算,可以评估符合各个标签的共性度量结果,将距离最近的标签向量对应的标签作为推送知识对应的标签。
XVI:依据数据推送专家模型中的画像描绘模块对推送知识进行处理,得到和业务归属识别信息相对应的用户画像描绘结果。
通过将得到的标签汇聚,即形成用户画像描绘结果。
XVII:基于用户画像描绘结果进行大数据的推送。
基于上述步骤XI~XVII,即完成数据挖掘后的推送前置分析。
本申请实施例中,通过拟挖掘业务数据和标准业务数据序列,标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据,对拟挖掘业务数据进行知识字段挖掘,获得拟挖掘业务数据业务知识字段,并对标准业务数据进行知识字段挖掘,获得标准业务数据的标准业务数据业务知识字段,基于拟挖掘业务数据业务知识字段和标准业务数据业务知识字段,通过预设方式对拟挖掘业务数据进行归纳,获得拟挖掘业务数据在各个所述预设方式下对于每个数据指向信息的归纳结果,基于拟挖掘业务数据在各个所述预设方式下对于每个数据指向信息的归纳结果,确定拟挖掘业务数据的数据指向信息,因为本申请实施例可以基于归纳获得的各个所述预设方式下对于每个数据指向信息的归纳结果,确定出拟挖掘业务数据的数据指向信息,则可以衡量不同预设方式对应的归纳结果,对拟挖掘业务数据的归纳结果更加精确可靠,此外,本申请实施例中,能够在每个数据指向信息对应的标准业务数据较少时,拥有对拟挖掘业务数据较高的归纳结果的精度。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种数据挖掘装置10,该数据挖掘装置10可以是运行于数据挖掘服务器中的一个计算机程序(包括程序代码),也可以是包含在数据挖掘服务器中的一个实体装置,如图2所示,该装置10包括:
提取模块11,用于当接收到数据挖掘指令时,提取拟挖掘业务数据和标准业务数据序列,所述标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据。
挖掘模块12,用于对所述拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对所述标准业务数据进行知识字段挖掘,得到所述标准业务数据的标准业务数据业务知识字段。
归纳模块13,用于基于所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段,通过预设方式对所述拟挖掘业务数据进行归纳,得到所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果。
指向信息确定模块14,用于基于所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果,得到所述拟挖掘业务数据的数据指向信息。
数据挖掘装置10可用于执行上述业务大数据挖掘方法,其具体的原理和实现过程已经在上述实施例中进行介绍,此处不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
本申请实施例还提供一种包含指令的计算机可读存储介质,该指令用于被数据挖掘服务的处理器执行,以实现上述方法实施例中的业务大数据挖掘方法。
一种实现举例,上述的处理器可以为中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
一种实现举例,上述的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种业务大数据挖掘方法,其特征在于,应用于数据挖掘服务器,所述方法包括:
当接收到数据挖掘指令时,提取拟挖掘业务数据和标准业务数据序列,所述标准业务数据序列包括一个或多个数据指向信息对应的标准业务数据;
对所述拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对所述标准业务数据进行知识字段挖掘,得到所述标准业务数据的标准业务数据业务知识字段;
基于所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段,通过预设方式对所述拟挖掘业务数据进行归纳,得到所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果;
基于所述拟挖掘业务数据在各个所述预设方式下对于每一所述数据指向信息的归纳结果,得到所述拟挖掘业务数据的数据指向信息。
2.根据权利要求1所述的业务大数据挖掘方法,其特征在于,所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段为通过预先调校好的知识字段挖掘网络进行知识字段挖掘得到的业务知识字段;
所述对所述拟挖掘业务数据进行知识字段挖掘,得到拟挖掘业务数据业务知识字段,并对所述标准业务数据进行知识字段挖掘,得到所述标准业务数据的标准业务数据业务知识字段之前,还包括对所述知识字段挖掘网络进行调校的步骤,包括:
获取训练业务数据集,所述训练业务数据集包括注释数据指向信息标记对应的拟推理训练业务数据和一个或多个数据指向信息对应的标准训练业务数据;
通过拟调校的知识字段挖掘网络对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,并通过拟调校的知识字段挖掘网络对所述标准训练业务数据进行知识字段挖掘,得到标准训练业务数据业务知识字段;
基于所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络依据预设方式对所述拟推理训练业务数据进行推理,得到所述拟推理训练业务数据的数据指向信息序列,所述数据指向信息序列包括各个所述预设方式对应的目标数据指向信息;
基于所述各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
3.根据权利要求2所述的业务大数据挖掘方法,其特征在于,所述基于所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络依据预设方式对所述拟推理训练业务数据进行推理,得到所述拟推理训练业务数据的数据指向信息序列,包括:
通过所述拟调校的知识字段挖掘网络,依据预设方式确定所述拟推理训练业务数据业务知识字段和所述标准训练业务数据业务知识字段之间的共性度量结果,得到各个所述预设方式下所述拟推理训练业务数据和所述标准训练业务数据之间的备取共性度量结果;
通过备取共性度量结果,确定各个所述预设方式下所述拟推理训练业务数据的目标数据指向信息;
基于各个所述预设方式下所述拟推理训练业务数据的目标数据指向信息,得到所述拟推理训练业务数据的数据指向信息序列。
4.根据权利要求2所述的业务大数据挖掘方法,其特征在于,所述基于各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络,包括:
确定各个所述预设方式对应的目标数据指向信息和所述数据指向信息标记之间的第一质量评估因子;
对所述第一质量评估因子进行合并,得到合并质量评估因子;
基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络;
业务大数据挖掘方法所述基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络之前,所述方法还包括:
对所述拟推理训练业务数据进行前置操作,得到变更训练业务数据;
基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息;
获取所述变更训练业务数据对应的变更训练业务数据标记,以及确定所述备取数据指向信息和所述变更训练业务数据标记之间的第二质量评估因子;
所述基于所述合并质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络,包括:
基于所述合并质量评估因子和所述第二质量评估因子,对所述拟调校的知识字段挖掘网络进行迭代调试直到符合预设条件,得到调校完成的知识字段挖掘网络。
5.根据权利要求4所述的业务大数据挖掘方法,其特征在于,所述变更训练业务数据包括对于所述拟推理训练业务数据进行缺失弥补后的变更训练业务数据,所述业务数据归纳模块包括第一业务数据归纳模块和第二业务数据归纳模块,所述备取数据指向信息包括第一备取数据指向信息和第二备取数据指向信息;
所述基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息,包括:
基于所述缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第一业务数据归纳模块进行归纳,得到目标变更训练业务数据的第一备取数据指向信息,所述第一备取数据指向信息用于指示目标变更训练业务数据对于所述拟推理训练业务数据的数据指向信息,所述目标变更训练业务数据为所述变更训练业务数据中与拟推理训练业务数据关联的业务数据;
基于所述缺失弥补后的变更训练业务数据,通过拟调校的知识字段挖掘网络的第二业务数据归纳模块进行归纳,得到所述变更训练业务数据的第二备取数据指向信息,所述第二备取数据指向信息用于指示所述变更训练业务数据对于缺失弥补后的数据指向信息。
6.根据权利要求4所述的业务大数据挖掘方法,其特征在于,所述基于所述变更训练业务数据,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息,包括:
通过所述拟调校的知识字段挖掘网络的统一处理模块对所述变更训练业务数据进行知识字段挖掘,得到变更训练业务数据业务知识字段;
基于所述变更训练业务数据业务知识字段,通过所述拟调校的知识字段挖掘网络的业务数据归纳模块对所述变更训练业务数据进行归纳,得到所述变更训练业务数据的备取数据指向信息;
所述通过拟调校的知识字段挖掘网络对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段,包括:
通过拟调校的知识字段挖掘网络的所述统一处理模块对所述拟推理训练业务数据进行知识字段挖掘,得到拟推理训练业务数据业务知识字段。
7.根据权利要求1所述的业务大数据挖掘方法,其特征在于,所述基于所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段,通过预设方式对所述拟挖掘业务数据进行归纳,得到所述拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,包括:
通过预设方式确定所述拟挖掘业务数据业务知识字段和所述标准业务数据业务知识字段之间的共性度量结果,得到各个所述预设方式下所述拟挖掘业务数据和每一数据指向信息对应的所述标准业务数据之间的目标共性度量结果;
将所述目标共性度量结果确定为所述归纳结果;
所述基于所述拟挖掘业务数据在各个所述预设方式下对于每一数据指向信息的归纳结果,得到所述拟挖掘业务数据的数据指向信息,包括:
获取各个所述预设方式对应的偏心因子;
根据所述偏心因子,将各个所述预设方式对应的归纳结果进行合并,得到所述数据指向信息对应的目标归纳结果;
基于所述数据指向信息对应的目标归纳结果,确定所述拟挖掘业务数据的数据指向信息。
8.根据权利要求1所述的业务大数据挖掘方法,其特征在于,所述方法还包括:
获取所述拟挖掘业务数据对应的数据指向信息对应的整体业务数据集合,其中,所述整体业务数据集合包含所述拟挖掘业务数据且包括所述数据指向信息的选定分析周期的关联业务数据,所述拟挖掘业务数据和所述关联业务数据均对应有各自的用户标识;
根据所述数据指向信息的业务归属识别信息,对所述整体业务数据集合进行在信息属性上的信息过滤,得到所述数据指向信息所对应的第一整体业务数据集合;
对所述数据指向信息所对应的第一整体业务数据集合进行干扰信息优化,得到所述数据指向信息所对应的第二整体业务数据集合;
将所述第二整体业务数据集合加载至事先训练好的数据推送模型;
依据所述数据推送模型的业务数据解析模块对所述第二整体业务数据集合进行业务数据知识挖掘,得到和所述第二整体业务数据集合对应的第一推送知识;
依据所述数据推送专家模型中的画像描绘模块对所述第一推送知识进行处理,得到和所述业务归属识别信息相对应的用户画像描绘结果;
基于所述用户画像描绘结果进行大数据的推送。
9.一种数据挖掘服务器,其特征在于,包括:
处理器;以及存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任意一项所述的业务大数据挖掘方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的业务大数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211170097.1A CN115438117A (zh) | 2022-09-26 | 2022-09-26 | 应用人工智能的业务大数据挖掘方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211170097.1A CN115438117A (zh) | 2022-09-26 | 2022-09-26 | 应用人工智能的业务大数据挖掘方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438117A true CN115438117A (zh) | 2022-12-06 |
Family
ID=84249760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211170097.1A Withdrawn CN115438117A (zh) | 2022-09-26 | 2022-09-26 | 应用人工智能的业务大数据挖掘方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438117A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074317A (zh) * | 2023-02-20 | 2023-05-05 | 王春辉 | 一种基于大数据的业务资源共享方法及服务器 |
-
2022
- 2022-09-26 CN CN202211170097.1A patent/CN115438117A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116074317A (zh) * | 2023-02-20 | 2023-05-05 | 王春辉 | 一种基于大数据的业务资源共享方法及服务器 |
CN116074317B (zh) * | 2023-02-20 | 2024-03-26 | 新疆八达科技发展有限公司 | 一种基于大数据的业务资源共享方法及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11899800B2 (en) | Open source vulnerability prediction with machine learning ensemble | |
EP3392780A2 (en) | Systems and methods for classification of software defect reports | |
Chuang et al. | Debiasing vision-language models via biased prompts | |
Frank et al. | Alternating model trees | |
CN109815333A (zh) | 信息获取方法、装置、计算机设备和存储介质 | |
Ruf et al. | Face detection with the sophisticated high-speed object recognition engine (SHORE) | |
Hara et al. | Learning a common substructure of multiple graphical Gaussian models | |
Tong et al. | Spectral Mesh Segmentation via $\ell _0 $ ℓ 0 Gradient Minimization | |
Servant et al. | Fuzzy fine-grained code-history analysis | |
Wei et al. | Unsupervised feature selection by preserving stochastic neighbors | |
Doan et al. | A hybrid quantum-classical algorithm for robust fitting | |
Gandy et al. | Convex optimization techniques for the efficient recovery of a sparsely corrupted low-rank matrix | |
Wennberg et al. | The case for translation-invariant self-attention in transformer-based language models | |
CN115438117A (zh) | 应用人工智能的业务大数据挖掘方法、服务器及存储介质 | |
Pham et al. | Integration of improved YOLOv5 for face mask detector and auto-labeling to generate dataset for fighting against COVID-19 | |
Kuo et al. | Detecting outliers in data with correlated measures | |
Parihar et al. | Image analysis and image mining techniques: a review | |
Ma et al. | Nonlinear statistical shape modeling for ankle bone segmentation using a novel kernelized robust PCA | |
Li et al. | Trace-based dynamic gas estimation of loops in smart contracts | |
Moghrabi | A new preconditioned conjugate gradient method for optimization | |
Otten et al. | A case study in complexity estimation: Towards parallel branch-and-bound over graphical models | |
CN115374284B (zh) | 基于人工智能的数据挖掘方法及服务器 | |
Xu et al. | A multi-task learning-based generative adversarial network for red tide multivariate time series imputation | |
Evangelopoulos et al. | Continuation methods for approximate large scale object sequencing | |
Salman | Test case generation from specifications using natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221206 |
|
WW01 | Invention patent application withdrawn after publication |