CN113590601A - 用于云计算业务的大数据挖掘方法及系统 - Google Patents
用于云计算业务的大数据挖掘方法及系统 Download PDFInfo
- Publication number
- CN113590601A CN113590601A CN202110833214.7A CN202110833214A CN113590601A CN 113590601 A CN113590601 A CN 113590601A CN 202110833214 A CN202110833214 A CN 202110833214A CN 113590601 A CN113590601 A CN 113590601A
- Authority
- CN
- China
- Prior art keywords
- service
- data
- big data
- denoising
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种用于云计算业务的大数据挖掘方法及系统,可以从数据过滤后业务大数据中筛选出初始业务数据分区,并基于对初始业务数据分区进一步划分为多个分区业务单元来检测得到目标业务数据分块,因此整个数据挖掘过程更有针对性,对云计算资源的占用较低,从而提高了数据挖掘效率,满足实时快速挖掘的需求,并且可以对多个数据过滤后业务大数据进行处理及精准筛选候选业务数据分区所在的业务数据分块进行目标数据挖掘类型的针对性挖掘,提高了大数据挖掘的准确性和针对性。
Description
本申请是申请号202011605279.8、申请日为2020年12月30日、发明创造名称为“用于云计算业务的大数据挖掘方法及云计算金融服务器 ”的中国申请的分案申请。
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种用于云计算业务的大数据挖掘方法及系统。
背景技术
大数据技术的发展和进步给人们提供了新的工具,即从更宽视野、更多维度、更全方位来认知问题和分析问题的方法。但部分机构掌握了一定量的客户信息数据,就以为掌握了大数据,忽视对数据分析工具和方法论的研究。在金融业务中,这有可能影响其对风险的识别和防控,并造成风险的积聚和扩散。
尽管迄今为止,并没有对大数据统一而权威的定义。但大数据的重要特征,在于它应该既包括结构性的数据,以及在生成的时候表现为非结构性数据的信息。而小数据,主要是指传统的二维结构性数据。从处理角度上看,大数据会随着数据量的急剧增加,其中的数据噪音会有快速增长。有时,数据噪音的增长幅度会快于数据量的增长幅度。因此,在大数据领域,对其挖掘、筛选、清洗的成本,将会明显高于小数据。
基于此,如何提高大数据挖掘过程中的针对性,并且减少在运行云计算业务时云计算资源的占用,保证大数据挖掘过程的准确性,确保业务服务的高质量运转,是本领域亟待解决的技术问题。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种用于云计算业务的大数据挖掘方法及系统,可以从数据过滤后业务大数据中筛选出初始业务数据分区,并基于对初始业务数据分区进一步划分为多个分区业务单元来检测得到目标业务数据分块,因此整个数据挖掘过程更有针对性,对云计算资源的占用较低,从而提高了数据挖掘效率,满足实时快速挖掘的需求,并且可以对多个数据过滤后业务大数据进行处理及精准筛选候选业务数据分区所在的业务数据分块进行目标数据挖掘类型的针对性挖掘,提高了大数据挖掘的准确性和针对性。
第一方面,本申请提供一种用于云计算业务的大数据挖掘方法,应用于云计算金融服务器,所述云计算金融服务器与多个信息服务终端通信连接,所述云计算金融服务器根据云计算平台实现,所述方法包括:
获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据;
根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘,其中,所述候选业务数据分区为对所述数据过滤后业务大数据进行筛选出的初始业务数据分区并基于对初始业务数据分区进一步划分为多个分区业务单元后筛选获得。
第二方面,本申请实施例还提供一种用于云计算业务的大数据挖掘装置,应用于云计算金融服务器,所述云计算金融服务器与多个信息服务终端通信连接,所述云计算金融服务器根据云计算平台实现,所述装置的步骤,包括:
过滤模块,用于获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据;
挖掘模块,用于根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘。
第三方面,本申请实施例还提供一种用于云计算业务的大数据挖掘系统,所述用于云计算业务的大数据挖掘系统包括云计算金融服务器以及与所述云计算金融服务器通信连接的多个信息服务终端;
所述云计算金融服务器,用于:
获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据;
根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘。
第四方面,本申请实施例还提供一种云计算金融服务器,所述云计算金融服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个信息服务终端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行第一方面或者第一方面中任意一个可能的设计示例中的用于云计算业务的大数据挖掘方法。
第五方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的设计示例中的用于云计算业务的大数据挖掘方法。
根据上述任意一个方面,本申请可以从数据过滤后业务大数据中筛选出初始业务数据分区,并基于对初始业务数据分区进一步划分为多个分区业务单元来检测得到目标业务数据分块,因此整个数据挖掘过程更有针对性,对云计算资源的占用较低,从而提高了数据挖掘效率,满足实时快速挖掘的需求,并且可以对多个数据过滤后业务大数据进行处理及精准筛选候选业务数据分区所在的业务数据分块进行目标数据挖掘类型的针对性挖掘,提高了大数据挖掘的准确性和针对性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的用于云计算业务的大数据挖掘系统的应用场景示意图;
图2为本申请实施例提供的用于云计算业务的大数据挖掘方法的流程示意图;
图3为本申请实施例提供的用于云计算业务的大数据挖掘装置的功能模块示意图;
图4为本申请实施例提供的用于实现上述的用于云计算业务的大数据挖掘方法的云计算金融服务器的结构组件示意定位数据对象图。
具体实施方式
下面结合说明书附图对本申请进行具体说明,方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例中。
图1是本申请一种实施例提供的用于云计算业务的大数据挖掘系统10的交互示意图。用于云计算业务的大数据挖掘系统10可以包括云计算金融服务器100以及与云计算金融服务器100通信连接的信息服务终端200。图1所示的用于云计算业务的大数据挖掘系统10仅为一种可行的示例,在其它可行的实施例中,该用于云计算业务的大数据挖掘系统10也可以仅包括图1所示组成部分的其中的至少部分或者还可以包括其它的组成部分。
根据本申请提供的技术方案的发明构思出发,本申请提供的云计算金融服务器100可以应用在例如智慧医疗、智慧城市管理、智慧工业互联网、通用业务监控管理等可以应用大数据技术或者是云计算技术等的场景中,再比如,还可以应用在包括但不限于新能源汽车系统管理、智能云办公、云平台数据处理、云游戏数据处理、云直播处理、云汽车管理平台、区块链金融微服务链路平台等,但不限于此。
本实施例中,用于云计算业务的大数据挖掘系统10中的云计算金融服务器100和信息服务终端200可以通过配合执行以下方法实施例所描述的用于云计算业务的大数据挖掘方法,具体云计算金融服务器100和信息服务终端200的执行步骤部分可以参照以下方法实施例的详细描述。
为了解决前述背景技术中的技术问题,图2为本申请实施例提供的用于云计算业务的大数据挖掘方法的流程示意图,本实施例提供的用于云计算业务的大数据挖掘方法可以由图1中所示的云计算金融服务器100执行,下面对该用于云计算业务的大数据挖掘方法进行详细介绍。
步骤S110,获取待挖掘业务大数据,并对待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据。
其中,待挖掘业务大数据中可以包含订单业务、电商业务等业务大数据,还可以包括其它的业务大数据,该订单业务可以是本应用的订单业务,或者任意其它调用应用的订单业务等,具体内容在此处不作限定。
待挖掘业务大数据的获取方式可以包括:在线上业务的使用过程中,通过各种数据采集程序采集到待挖掘业务大数据。或者是,从本地存储容器中加载预存的待挖掘业务大数据。或者是,从第三方数据库中下载得到待挖掘业务大数据等,当然,待挖掘业务大数据也可以是通过其它方式获取到,具体获取方式在此处不作限定。
在得到待挖掘业务大数据后,为了得到不同业务区域的大数据序列,可以对待挖掘业务大数据按照不同预设挖掘模式分别进行过滤处理,得到多个不同预设挖掘模式的数据过滤后业务大数据,该多个数据过滤后业务大数据可以包括未进行数据过滤处理的待挖掘业务大数据,该多个数据过滤后业务大数据可以形成大数据层级结构。
其中,不同预设挖掘模式可以根据实际需要进行灵活设置。例如,针对快速挖掘模式,假设挖掘项目有A、B、C、D,那么可以根据当前挖掘项目A、B、C、D各自的权重(权重可以预先设定,也可以根据实时业务的重要性进行设定),选择权重大于预设权重(可以预先设定)的挖掘项目对应的过滤词条对待挖掘业务大数据中与之匹配的记录进行过滤。又例如,针对精确挖掘模式,可以选择当前符合实际业务场景的挖掘项目,如挖掘项目A、C符合实际业务场景,那么可以选择挖掘项目A、C对应的过滤词条对待挖掘业务大数据中与之匹配的记录进行过滤。值得说明的是,在其它可能的实现方式中,也可以采用其它规则或者策略,此处不作具体限定。
数据过滤后业务大数据的存储占用空间可以根据实际需要进行灵活设置,例如,数据过滤后业务大数据可以包括30G或40G等,这样获得较少的存储占用空间的数据过滤后业务大数据,可以提高大数据挖掘的速度。此外,在得到多个数据过滤后业务大数据后,后续可以对多个数据过滤后业务大数据分别进行检测,从而可以检测出较多的业务数据分块范围,以便检出所有业务区域的目标业务数据分块。
步骤S120,根据数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照目标数据挖掘类型对应的挖掘策略对目标业务数据分块进行数据挖掘。
本实施例中,候选业务数据分区为对数据过滤后业务大数据进行筛选出的初始业务数据分区并基于对初始业务数据分区进一步划分为多个分区业务单元后筛选获得。
在筛选出候选业务数据分区所在的目标业务数据分块之后,即可按照目标数据挖掘类型对应的挖掘策略对目标业务数据分块进行数据挖掘。例如当目标数据挖掘类型为电子商务画像的数据挖掘类型时,可以通过预先训练的电子商务画像的数据挖掘类型对应的数据挖掘模型对目标业务数据分块进行数据挖掘。又例如,当目标数据挖掘类型为新闻浏览画像的数据挖掘类型时,可以通过预先训练的新闻浏览画像的数据挖掘类型对应的数据挖掘模型对目标业务数据分块进行数据挖掘。具体数据挖掘模型的配置过程可以参照对应数据挖掘类型的常规训练方式即可,以挖掘出对应的用户画像。可以理解,挖掘用户画像的实现方式可以参照现有技术中任意可以实现的方案即可,本实施例不对此进行赘述。
基于上述步骤,本实施例可以从数据过滤后业务大数据中筛选出初始业务数据分区,并基于对初始业务数据分区进一步划分为多个分区业务单元来检测得到目标业务数据分块,因此整个数据挖掘过程更有针对性,对云计算资源的占用较低,从而提高了数据挖掘效率,满足实时快速挖掘的需求,并且可以对多个数据过滤后业务大数据进行处理及精准筛选候选业务数据分区所在的业务数据分块进行目标数据挖掘类型的针对性挖掘,提高了大数据挖掘的准确性和针对性。
在一种可能的设计示例中,对于步骤S120,可以通过以下示例性的子步骤实现。
子步骤S121,分别从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的业务数据分块,得到多个初始业务数据分区。
本实施例中,在得到多个数据过滤后业务大数据后,可以从分别从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的业务数据分块,例如,可以检测将每个数据过滤后业务大数据分别划分为多个分区业务单元,然后检测每个分区业务单元内的业务特征分布,根据区域内的业务特征分布确定该区域属于目标数据挖掘类型的置信度,并从多个分区业务单元中筛选出置信度大于预设置信度阈值的业务数据分块,该筛选出的业务数据分块为符合目标数据挖掘类型的业务数据分块,从而可以将筛选出的业务数据分块作为初始业务数据分区,得到多个初始业务数据分区。
例如,当目标数据挖掘类型为电子商务画像的数据挖掘类型时,可以从每个数据过滤后业务大数据中筛选符合电子商务画像的数据挖掘类型的业务数据分块,得到多个初始业务数据分区。当目标数据挖掘类型为新闻浏览画像的数据挖掘类型时,可以从每个数据过滤后业务大数据中筛选符合新闻浏览画像的数据挖掘类型的业务数据分块,得到多个初始业务数据分区。当目标数据挖掘类型为社区会话画像的数据挖掘类型时,可以从每个数据过滤后业务大数据中筛选符合社区会话画像的数据挖掘类型的业务数据分块,得到多个初始业务数据分区。
在一些可能的设计示例中,分别从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的业务数据分块,得到多个初始业务数据分区可以包括:获取每个数据过滤后业务大数据上预设的多个初始定位数据对象。调用训练后的第一分类模型,并通过训练后的第一分类模型对每个初始定位数据对象内的业务数据分块进行分类,得到每个初始定位数据对象对应的业务标签信息。根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
为了提高数据挖掘的精度,可以利用初始定位数据对象的形式划分数据过滤后业务大数据,并对每个初始定位数据对象内的业务数据分块进行检测,其中,可以在每个数据过滤后业务大数据上预先设置多个初始定位数据对象,该初始定位数据对象可以用于将数据过滤后业务大数据划分为多个分区业务单元,该初始定位数据对象的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置,例如,每个初始定位数据对象的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以不同,或者初始定位数据对象之间可以存在部分重合等。当需要进行挖掘时,可以可以获取每个数据过滤后业务大数据上预设的多个初始定位数据对象,以便对初始定位数据对象内的业务数据分块进行分类等。
需要说明的是,也可以在待挖掘业务大数据上预先设置多个初始定位数据对象,当对待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理时,该多个初始定位数据对象也随着待挖掘业务大数据进行相应的数据过滤处理,从而得到的多个数据过滤后业务大数据上也会存在多个初始定位数据对象,此时可以获取每个数据过滤后业务大数据上预设的多个初始定位数据对象。
在一些可能的设计示例中,获取每个数据过滤后业务大数据上预设的多个初始定位数据对象可以包括:在每个数据过滤后业务大数据上分别设置预设个数的初始定位数据对象。当每个数据过滤后业务大数据上预设个数的初始定位数据对象未能覆盖数据过滤后业务大数据时,按照预设策略增加初始定位数据对象,直至多个初始定位数据对象能覆盖数据过滤后业务大数据,得到多个初始定位数据对象。
由于多个初始定位数据对象之间的业务差异可能较大,或者业务区域较小的初始定位数据对象分布较为稀疏等,使得数据过滤后业务大数据上较多业务节点没有得到初始定位数据对象的覆盖,导致挖掘效果不好等,因此,为了提高挖掘精度及提升挖掘效果,可以对初始定位数据对象进行优化操作。例如,在每个数据过滤后业务大数据上分别设置预设个数的初始定位数据对象后,可以判断数据过滤后业务大数据上的预设个数的初始定位数据对象是否可以覆盖该数据过滤后业务大数据,如果可以覆盖,则不需要执行初始定位数据对象的优化操作。当数据过滤后业务大数据上预设个数的初始定位数据对象未能覆盖该数据过滤后业务大数据时,可以执行初始定位数据对象的优化操作,初始定位数据对象的优化过程可以是按照预设策略在已经设置预设个数的初始定位数据对象的基础上增加初始定位数据对象,直至多个初始定位数据对象能覆盖数据过滤后业务大数据,得到多个初始定位数据对象。
其中,该预设策略可以根据实际需要进行灵活设置。例如,当某个初始定位数据对象的相关区域存在未被覆盖的大数据区域时,可以直接在该初始定位数据对象周围在未被覆盖的大数据区域增加一个或多个初始定位数据对象。或者,以该初始定位数据对象为参照对象,复制该初始定位数据对象,并按照预设业务范围(例如预设个业务特征分布)向未被覆盖的大数据区域移动复制后的初始定位数据对象,得到一个新增的初始定位数据对象,以此类推,复制并移动其它初始定位数据对象,直至多个初始定位数据对象能覆盖数据过滤后业务大数据。
在得到每个数据过滤后业务大数据上预设的多个初始定位数据对象后,可以调用训练后的第一分类模型,该第一分类模型的类型可以根据实际需要进行灵活设置,该第一分类模型的网络模型可以根据实际计算资源的要求进行模型优化和网络层筛选,该第一分类模型还可以包括业务标签分类和业务节点分类等功能,该第一分类模型用于筛选符合目标数据挖掘类型的初始业务数据分区。
此时,可以通过训练后的第一分类模型对每个初始定位数据对象内的业务数据分块进行分类。例如,可以将每个数据过滤后业务大数据分别输入训练后的第一分类模型,通过训练后的第一分类模型依次执行特征提取操作,输出每个数据过滤后业务大数据对应特征向量,然后基于特征向量对每个初始定位数据对象内的业务数据分块进行分类,得到每个初始定位数据对象对应的业务标签信息,该业务标签信息可以包括所属的类别和属于该类别的置信度等。
例如,当初始定位数据对象A内的业务数据分块所属的类别为电子商务画像的数据挖掘类型时,可以计算出该区域内属于电子商务画像的数据挖掘类型的置信度和不属于电子商务画像的数据挖掘类型的置信度等,当初始定位数据对象B内的业务数据分块所属的类别为新闻浏览画像的数据挖掘类型时,可以计算出该区域内属于新闻浏览画像的数据挖掘类型的置信度和不属于新闻浏览画像的数据挖掘类型的置信度等。通过训练后的第一分类模型进行分类,可以快速及准确检测出业务标签信息。
本实施例中,在得到每个初始定位数据对象对应的业务标签信息后,可以根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
例如,若需要对电子商务画像的数据挖掘类型进行检测,则可以根据每个初始定位数据对象内区域所属电子商务画像的数据挖掘类型类别和属于电子商务画像的数据挖掘类型类别的置信度等业务标签信息,从每个数据过滤后业务大数据中筛选属于电子商务画像的数据挖掘类型类别的置信度小于预设参数范围(预设值可以根据实际需要进行灵活设置)的初始定位数据对象,筛选出的该初始定位数据对象符合电子商务画像的数据挖掘类型数据挖掘节点,此时可以将提取筛选出的符合电子商务画像的数据挖掘类型数据挖掘节点的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
又例如,若需要对新闻浏览画像的数据挖掘类型进行检测,则可以根据每个初始定位数据对象内区域所属新闻浏览画像的数据挖掘类型类别和属于新闻浏览画像的数据挖掘类型类别的置信度等业务标签信息,从每个数据过滤后业务大数据中筛选属于新闻浏览画像的数据挖掘类型类别的置信度小于预设参数范围(预设值可以根据实际需要进行灵活设置)的初始定位数据对象,筛选出的该初始定位数据对象符合新闻浏览画像的数据挖掘类型数据挖掘节点,此时可以将提取筛选出的符合新闻浏览画像的数据挖掘类型数据挖掘节点的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
在一些可能的设计示例中,根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区可以包括:根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象,得到目标初始定位数据对象。通过训练后的第一分类模型对每个目标初始定位数据对象进行业务节点分类,得到每个目标初始定位数据对象对应的业务节点信息,根据业务节点信息从每个数据过滤后业务大数据中,提取出目标初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
为了能够精准提取出所需的初始业务数据分区,可以通过训练后的第一分类模型对初始定位数据对象进行业务节点分类来获取业务节点信息。例如,可以根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象,得到目标初始定位数据对象。例如,可以根据每个初始定位数据对象内区域所属电子商务画像的数据挖掘类型类别和属于电子商务画像的数据挖掘类型类别的置信度等业务标签信息,从每个数据过滤后业务大数据中筛选属于电子商务画像的数据挖掘类型数据挖掘节点的初始定位数据对象,得到目标初始定位数据对象。
然后,通过训练后的第一分类模型对每个目标初始定位数据对象进行业务节点分类,得到每个目标初始定位数据对象对应的业务节点信息,该业务节点信息可以根据实际需要进行灵活设置,例如,可以获取每个目标初始定位数据对象的业务主题的主题信息,以及目标初始定位数据对象的摘要信息,根据该主题信息和摘要信息即可确定每个目标初始定位数据对象对应的业务节点信息。此时,可以根据业务节点信息从每个数据过滤后业务大数据中,提取出目标初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
在一些可能的设计示例中,通过训练后的第一分类模型对每个初始定位数据对象内的业务数据分块进行分类,得到每个初始定位数据对象对应的业务标签信息之前,用于云计算业务的大数据挖掘方法还可以包括:获取多个匹配目标数据挖掘类型的标定业务大数据,并在每个标定业务大数据上分别设置多个标记定位数据对象。通过第一分类模型计算每个标定业务大数据上每个标记定位数据对象内的业务数据分块对应的业务标签信息和业务节点信息,得到预测业务标签信息和预测业务节点信息。获取每个标定业务大数据上每个标记定位数据对象对应的真实业务标签信息和真实业务节点信息。采用第三目标差异计算函数对预测业务标签信息和真实业务标签信息进行差异计算,以及采用第四目标差异计算函数对预测业务节点信息和真实业务节点信息进行差异计算,以对第一分类模型进行训练,得到训练后的第一分类模型。
值得说明的是,为了提高第一分类模型进行挖掘的准确性及可靠性,在应用第一分类模型进行挖掘之前,可以先对第一分类模型进行训练,具体地,首先获取多个匹配目标数据挖掘类型的标定业务大数据,例如,可以通过预先配置的数据采集程序采集多个标定业务大数据,或者是,可以从终端本地或服务器上获取多个标定业务大数据等。其中,该目标数据挖掘类型可以包括电子商务画像的数据挖掘类型区域、新闻浏览画像的数据挖掘类型区域、社区会话画像的数据挖掘类型区域等中的任意一种或多种组合,即当仅需要对电子商务画像的数据挖掘类型进行检测时,标定业务大数据中包含电子商务画像的数据挖掘类型区域。当需要对电子商务画像的数据挖掘类型和新闻浏览画像的数据挖掘类型进行检测时,标定业务大数据中包含电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域,此时可以为电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域设置不同的标签,以区分电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域。
例如,当目标数据挖掘类型为电子商务画像的数据挖掘类型区域时,可以采集多个用户的电子商务画像的数据挖掘类型大数据,为了提高对第一分类模型训练的精准性,可以获取多个服务对象切不同电商直播间的电子商务画像的数据挖掘类型大数据,以及获取包括好评或者差评的电子商务画像的数据挖掘类型大数据等,并将得到的电子商务画像的数据挖掘类型大数据作为标定业务大数据,从而可以丰富标定业务大数据,以便更好地对第一分类模型进行训练。
又例如,当目标数据挖掘类型为新闻浏览画像的数据挖掘类型区域时,可以采集多种类型的新闻浏览画像的数据挖掘类型大数据,包括不同新闻类型的大数据信息等,以及包括不同用户年龄层次的新闻浏览画像的数据挖掘类型大数据等,并将得到的新闻浏览画像的数据挖掘类型大数据作为标定业务大数据,从而可以丰富标定业务大数据,以便提高第一分类模型训练的精准性。
又例如,当目标数据挖掘类型为社区会话画像的数据挖掘类型区域时,可以采集多种类型的社区会话画像的数据挖掘类型大数据,包括不同社区类型的大数据等,以及包括用户年龄层次的社区会话画像的数据挖掘类型大数据等,并将得到的社区会话画像的数据挖掘类型大数据作为标定业务大数据,从而可以标定业务大数据的多样性,以便提高第一分类模型训练的精准性。
在得到标定业务大数据后,可以在每个标定业务大数据上分别设置多个标记定位数据对象,该标记定位数据对象可以用于将标定业务大数据划分为多个分区业务单元,该标记定位数据对象的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置,例如,每个初始定位数据对象的对象标签、对象覆盖区域(即业务区域)等可以不同。然后,通过第一分类模型分别计算每个标定业务大数据上每个标记定位数据对象内的业务数据分块对应的业务标签信息,得到预测业务标签信息,以及通过第一分类模型分别计算每个标定业务大数据上每个标记定位数据对象内的业务数据分块对应的业务节点信息,得到预测业务节点信息。以及,需要获取每个标定业务大数据上每个标记定位数据对象内区域实际的业务标签信息,得到真实业务标签信息,并且,获取每个标定业务大数据上每个标记定位数据对象内区域实际的业务节点信息,得到真实业务节点信息,该真实业务标签信息和真实业务节点信息可以是预先得到的准确的信息。
其次,采用第三目标差异计算函数对预测业务标签信息和真实业务标签信息进行差异计算,例如,通过调整第一分类模型的参数或权重等至合适数值,降低预测业务标签信息和真实业务标签信息之间的误差,以及采用第四目标差异计算函数对预测业务节点信息和真实业务节点信息进行差异计算,例如,通过调整第一分类模型的参数或权重等至合适数值,降低预测业务节点信息和真实业务节点信息之间的误差,从而可以对第一分类模型进行训练,最后可以得到训练后的第一分类模型。其中,该第三目标差异计算函数和第四目标差异计算函数可以根据实际应用需求进行灵活设置。
子步骤S122,将每个初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度。
在得到多个初始业务数据分区,可以将每个初始业务数据分区分别划分为多个分区业务单元,例如,可以在每个初始业务数据分区上设置多个初始定位数据对象,每个初始定位数据对象内的业务数据分块即为初始业务数据分区所划分的分区业务单元,该分区业务单元的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置,例如,可以划分为4个分区业务单元,每个分区业务单元之间可以存在重合的部分或不存在重合的部分等。然后,检测每个分区业务单元内的业务特征分布,根据区域内的业务特征分布确定该区域属于目标数据挖掘类型的置信度,例如,可以从多个分区业务单元中筛选出属于目标数据挖掘类型的置信度大于预设置信度阈值的业务数据分块,该筛选出的业务数据分块为符合目标数据挖掘类型的业务数据分块,从而可以得到属于目标数据挖掘类型的置信度。
例如,当目标数据挖掘类型为电子商务画像的数据挖掘类型区域时,可以将每个初始业务数据分区划分为多个分区业务单元,并获取每个分区业务单元属于电子商务画像的数据挖掘类型区域的置信度。当目标数据挖掘类型为新闻浏览画像的数据挖掘类型区域时,可以将每个初始业务数据分区划分为多个分区业务单元,并获取每个分区业务单元属于新闻浏览画像的数据挖掘类型区域的置信度。当目标数据挖掘类型为社区会话画像的数据挖掘类型区域时,可以将每个初始业务数据分区划分为多个分区业务单元,并获取每个分区业务单元属于社区会话画像的数据挖掘类型区域的置信度。
在一些可能的设计示例中,将每个初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度可以包括:对多个初始业务数据分区进行业务区域统一,得到业务区域相同的多个统一后的初始业务数据分区。将每个统一后的初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度。
由于得到的多个初始业务数据分区的业务区域可能不同,因此为了提高对初始业务数据分区的挖掘效率及准确性,可以对多个初始业务数据分区进行业务区域统一,得到业务区域相同的多个统一后的初始业务数据分区。其中,统一后的初始业务数据分区的业务区域可以根据实际需要进行灵活设置。此时,后续仅需要对统一后的初始业务数据分区进行处理,即将每个统一后的初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度,大大提高了对初始业务数据分区的挖掘效率。
在一些可能的设计示例中,将每个统一后的初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度可以包括:将每个统一后的初始业务数据分区分别划分为多个分区业务单元。调用训练后的第二分类模型,并通过训练后的第二分类模型对每个分区业务单元进行分类,得到每个分区业务单元对应的业务标签信息。根据每个分区业务单元对应的业务标签信息确定每个分区业务单元属于目标数据挖掘类型的置信度。
为了提高挖掘精度,可以利用训练后的第二分类模型获取业务标签信息,具体地,首先将每个统一后的初始业务数据分区分别划分为多个分区业务单元,该区域的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置,然后,调用训练后的第二分类模型,该训练后的第二分类模型的类型可以根据实际需要进行灵活设置。该第二分类模型还可以包括分类和业务节点分类等功能,该第二分类模型用于计算初始业务数据分区上每个分区业务单元属于目标数据挖掘类型的置信度,并筛选出符合条件的候选业务数据分区。
此时,可以通过训练后的第二分类模型对每个统一后的初始业务数据分区上划分的每个分区业务单元进行分类,例如,可以将每个统一后的初始业务数据分区分别输入训练后的第二分类模型,通过训练后的第二分类模型依次执行特征提取,输出每个统一后的初始业务数据分区对应特征向量,然后基于特征向量对每个统一后的初始业务数据分区上划分的每个分区业务单元进行分类,得到每个分区业务单元对应的业务标签信息,该业务标签信息可以包括所属的类别和属于该类别的置信度等。最后可以根据每个分区业务单元对应的业务标签信息确定每个分区业务单元属于目标数据挖掘类型的置信度,例如,当分区业务单元A所属的类别为电子商务画像的数据挖掘类型时,可以计算出该分区业务单元A属于电子商务画像的数据挖掘类型的置信度,当分区业务单元B所属的类别为新闻浏览画像的数据挖掘类型时,可以计算出该分区业务单元B属于新闻浏览画像的数据挖掘类型的置信度等。通过训练后的第二分类模型进行分类,可以快速及准确检测出各区域属于目标数据挖掘类型的置信度。
子步骤S123,从每个初始业务数据分区中提取出置信度大于预设阈值的分区业务单元,得到多个候选业务数据分区。
在一些可能的设计示例中,从每个初始业务数据分区中提取出置信度大于预设阈值的分区业务单元,得到多个候选业务数据分区可以包括:通过训练后的第二分类模型对每个分区业务单元进行业务节点分类,得到每个分区业务单元对应的业务节点信息。根据业务节点信息确定置信度大于预设阈值的分区业务单元在每个初始业务数据分区中的业务节点。根据业务节点从每个初始业务数据分区中提取出置信度大于预设阈值的分区业务单元,得到多个候选业务数据分区。
在得到每个初始业务数据分区上各个分区业务单元属于目标数据挖掘类型的置信度后,可以从每个初始业务数据分区中提取出置信度大于预设阈值的分区业务单元,该预设阈值可以根据实际需要进行灵活设置。为了能够精准提取出所需的候选业务数据分区,可以通过训练后的第二分类模型对初始业务数据分区上各个分区业务单元进行业务节点分类来获取业务节点信息,具体地,可以通过训练后的第二分类模型对每个分区业务单元进行业务节点分类,得到每个分区业务单元对应的业务节点信息,该业务节点信息可以根据实际需要进行灵活设置,可以参照以上描述的实施例即可,此次不再赘述。此时,可以根据业务节点信息确定置信度大于预设阈值的分区业务单元在每个初始业务数据分区中的业务节点,从而可以根据该位置从每个初始业务数据分区中提取出置信度大于预设阈值的分区业务单元,得到多个候选业务数据分区,提高了提取满足条件的候选业务数据分区的精准性。
在一些可能的设计示例中,通过训练后的第二分类模型对每个分区业务单元进行分类,得到每个分区业务单元对应的业务标签信息之前,用于云计算业务的大数据挖掘方法还可以包括:获取多个匹配目标数据挖掘类型的标定业务大数据,并将每个标定业务大数据划分为多个分区业务单元。调用预设的第一分类模型,并通过第一分类模型筛选出符合目标数据挖掘类型的业务数据分块,得到多个目标业务数据分区。通过第二分类模型计算每个目标业务数据分区对应的业务标签信息和业务节点信息,得到预测业务标签信息和预测业务节点信息。获取每个目标业务数据分区对应的真实业务标签信息和真实业务节点信息。采用第一目标差异计算函数对预测业务标签信息和真实业务标签信息进行差异计算,以及采用第二目标差异计算函数对预测业务节点信息和真实业务节点信息进行差异计算,以对第二分类模型进行训练,得到训练后的第二分类模型。
为了提高第二分类模型进行挖掘的准确性及可靠性,在应用第二分类模型进行挖掘之前,可以先对第二分类模型进行训练。例如,首先获取多个匹配目标数据挖掘类型的标定业务大数据,例如,可以通过预先配置的数据采集程序采集多个标定业务大数据,或者是,可以从本地存储空间获取多个标定业务大数据等。该目标数据挖掘类型可以包括电子商务画像的数据挖掘类型区域、新闻浏览画像的数据挖掘类型区域、社区会话画像的数据挖掘类型区域等中的任意一种或多种组合,即当仅需要对电子商务画像的数据挖掘类型进行检测时,标定业务大数据中包含电子商务画像的数据挖掘类型区域。当需要对电子商务画像的数据挖掘类型和新闻浏览画像的数据挖掘类型进行检测时,标定业务大数据中包含电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域,此时可以为电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域设置不同的标签,以区分电子商务画像的数据挖掘类型区域和新闻浏览画像的数据挖掘类型区域。
当目标数据挖掘类型为电子商务画像的数据挖掘类型区域时,可以采集多个用户的电子商务画像的数据挖掘类型大数据,为了提高对第二分类模型训练的精准性,可以获取多个服务对象切不同电商直播间的电子商务画像的数据挖掘类型大数据,以及获取包括好评或者差评的电子商务画像的数据挖掘类型大数据等,并将得到的电子商务画像的数据挖掘类型大数据作为标定业务大数据,从而可以丰富标定业务大数据,以便更好地对第二分类模型进行训练。
又例如,当目标数据挖掘类型为新闻浏览画像的数据挖掘类型区域时,可以采集多种类型的新闻浏览画像的数据挖掘类型大数据,包括不同新闻类型的大数据信息等,以及包括不同用户年龄层次的新闻浏览画像的数据挖掘类型大数据等,并将得到的新闻浏览画像的数据挖掘类型大数据作为标定业务大数据,从而可以丰富标定业务大数据,以便提高第二分类模型训练的精准性。
又例如,当目标数据挖掘类型为社区会话画像的数据挖掘类型区域时,可以采集多种类型的社区会话画像的数据挖掘类型大数据,包括不同社区类型的大数据等,以及包括用户年龄层次的社区会话画像的数据挖掘类型大数据等,并将得到的社区会话画像的数据挖掘类型大数据作为标定业务大数据,从而可以标定业务大数据的多样性,以便提高第二分类模型训练的精准性。
在得到标定业务大数据后,可以将每个标定业务大数据划分为多个分区业务单元,例如,可以在每个标定业务大数据上分别设置多个标记定位数据对象,该标记定位数据对象可以用于将标定业务大数据划分为多个分区业务单元,该标记定位数据对象的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置。然后,调用预设的第一分类模型,并通过第一分类模型筛选出符合目标数据挖掘类型的业务数据分块,得到多个目标业务数据分区,例如,筛选出符合电子商务画像的数据挖掘类型数据挖掘节点的业务数据分块,得到多个电子商务画像的数据挖掘类型业务数据分区。其中,第一分类模型与上述提及的第一分类模型一致,该第一分类模型与第二分类模型进行级联,该第一分类模型可以是训练后的第一分类模型,或者是,该第一分类模型可以是与第二分类模型一起正在训练。
其次,将每个目标业务数据分区划分为多个分区业务单元,该区域的对象标签、对象覆盖区域(即业务区域)、数量及业务节点等可以根据实际需要进行灵活设置,通过第二分类模型分别计算每个目标业务数据分区上各个分区业务单元对应的业务标签信息,得到预测业务标签信息,以及通过第二分类模型分别计算每个目标业务数据分区上各个分区业务单元对应的业务节点信息,得到预测业务节点信息。以及,需要获取每个目标业务数据分区上各个分区业务单元实际的业务标签信息,得到真实业务标签信息,并且,获取每个目标业务数据分区上各个分区业务单元实际的业务节点信息,得到真实业务节点信息,该真实业务标签信息和真实业务节点信息可以是预先得到的准确的信息。
最后,采用第一目标差异计算函数对预测业务标签信息和真实业务标签信息进行差异计算,例如,通过调整第二分类模型的参数或权重等至合适数值,降低预测业务标签信息和真实业务标签信息之间的误差,以及采用第二目标差异计算函数对预测业务节点信息和真实业务节点信息进行差异计算,例如,通过调整第二分类模型的参数或权重等至合适数值,降低预测业务节点信息和真实业务节点信息之间的误差,从而可以对第二分类模型进行训练,可以得到训练后的第二分类模型。其中,该第一目标差异计算函数和第二目标差异计算函数可以根据实际应用需求进行灵活设置。
需要说明的是,第一分类模型和第二分类模型,可以根据实际需要更换成其它网络结构,具体不作限定。
子步骤S124,将多个候选业务数据分区映射至待挖掘业务大数据上,并根据多个候选业务数据分区之间的业务关联性参数筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块。
本实施例中,在得到多个候选业务数据分区后,可以基于多个候选业务数据分区在待挖掘业务大数据上确定目标业务数据分块。
在一些可能的设计示例中,将多个候选业务数据分区映射至待挖掘业务大数据上,并根据多个候选业务数据分区之间的业务关联性参数筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块可以包括:将多个候选业务数据分区的业务数据排布方式分别调整为待挖掘业务大数据的业务数据排布方式一致,得到目标候选业务数据分区。从待挖掘业务大数据上查找与每个目标候选业务数据分区匹配的业务数据分块,得到多个匹配业务数据分块。根据多个匹配业务数据分块之间的业务关联性参数,筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块。
具体地,由于在获取到待挖掘业务大数据后,已经对待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据,并对数据过滤后业务大数据进行后续的处理得到候选业务数据分区,因此,后续得到的候选业务数据分区是从数据过滤后业务大数据上提取下来的,此时,为了能够在待挖掘业务大数据上确定出目标业务数据分块,需要将多个候选业务数据分区的业务数据排布方式分别调整为待挖掘业务大数据的预设业务数据排布方式一致,得到目标候选业务数据分区。
然后,从待挖掘业务大数据上查找与每个目标候选业务数据分区匹配的业务数据分块,得到多个匹配业务数据分块,例如,可以将目标候选业务数据分区上的业务特征分布值与待挖掘业务大数据的业务特征分布值进行比较,查找与目标候选业务数据分区上所有业务特征分布值之间相似度最高的业务数据分块,得到匹配业务数据分块。其次,在得到每个目标候选业务数据分区对应的匹配业务数据分块后,可以计算各个匹配业务数据分块之间的业务关联性参数,最后可以根据各个匹配业务数据分块之间的业务关联性参数,筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块。其中,预设条件可以根据实际需要进行灵活设置,例如,可以采用非极大值抑制算法来筛选出目标数据挖掘类型。
在一些可能的设计示例中,根据多个匹配业务数据分块之间的业务关联性参数,筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块可以包括:获取每个匹配业务数据分块属于目标数据挖掘类型的置信度,并从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块,作为当前匹配业务数据分块。分别计算多个匹配业务数据分块中除了当前匹配业务数据分块外的其它匹配业务数据分块,与当前匹配业务数据分块之间的业务关联性参数,得到多个业务关联性参数。根据多个业务关联性参数,从其它匹配业务数据分块中去除业务关联性参数小于预设参数范围的业务数据分块,返回执行从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块作为当前匹配业务数据分块的操作,直至剩下预设数量的匹配业务数据分块,汇总得到目标业务数据分块。
例如,由于可以获取到初始业务数据分区上各个分区业务单元属于目标数据挖掘类型的置信度,且候选业务数据分区为初始业务数据分区上置信度大于预设阈值的分区业务单元,因此可以将候选业务数据分区属于目标数据挖掘类型的置信度,作为与其对应的匹配业务数据分块属于目标数据挖掘类型的置信度,在得到每个匹配业务数据分块属于目标数据挖掘类型的置信度后,可以从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块,作为当前匹配业务数据分块,当置信度最高的匹配业务数据分块存在多个时,可以随机将其中一个置信度最高的匹配业务数据分块作为当前匹配业务数据分块。然后,获取多个匹配业务数据分块中除了当前匹配业务数据分块外的其它匹配业务数据分块,并分别计算其它匹配业务数据分块与当前匹配业务数据分块之间的业务关联性参数,两个分区业务单元之间的业务关联性参数计算公式可以如下:
其中,G(A,B)表示分区业务单元A和分区业务单元B之间的业务关联性参数,|A∩B|表示分区业务单元A和分区业务单元B之间的重合业务区域,该重合业务区域即为分区业务单元A和分区业务单元B之间重合部分的数据区域,|A∪B|表示分区业务单元A和分区业务单元B之间的拼接数据区域,该拼接数据区域即为分区业务单元A和分区业务单元B之间并集的数据区域。
在得到业务关联性参数后,可以判断该业务关联性参数是否小于预设参数范围,该预设参数范围可以根据实际需要进行灵活设置,若该业务关联性参数小于预设参数范围,则去除该业务关联性参数小于预设参数范围对应的其它匹配业务数据分块,保留当前匹配业务数据分块。若该业务关联性参数大于预设值,则保留当前匹配业务数据分块和该业务关联性参数大于预设参数范围对应的其它匹配业务数据分块。
例如,当分区业务单元A为置信度最高的匹配业务数据分块时,将分区业务单元A即为当前匹配业务数据分块,此时计算分区业务单元A和分区业务单元B之间的业务关联性参数,若判定该业务关联性参数小于预设参数范围,则将分区业务单元B去除,保留分区业务单元A。
若判定该业务关联性参数大于或等于预设值,则将分区业务单元A和分区业务单元B保留。
在计算各个其它匹配业务数据分块与当前匹配业务数据分块之间的业务关联性参数后,可以得到多个业务关联性参数,然后按照上述方式基于得到的多个业务关联性参数,从其它匹配业务数据分块中去除业务关联性参数小于预设参数范围的业务数据分块,返回执行从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块作为当前匹配业务数据分块的操作,直至剩下预设数量的匹配业务数据分块,汇总得到目标业务数据分块。通过该方式可以快速确定出目标业务数据分块,当然,目标业务数据分块的确定方式还可以是其它的方式,具体内容在此处不作限定。
这样,可以从数据过滤后业务大数据中筛选出初始业务数据分区,并基于对初始业务数据分区进一步划分为多个分区业务单元来检测得到目标业务数据分块,因此整个数据挖掘过程更有针对性,对云计算资源的占用较低,从而提高了数据挖掘效率,满足实时快速挖掘的需求,并且可以对多个数据过滤后业务大数据进行处理及精准筛选候选业务数据分区所在的业务数据分块进行目标数据挖掘类型的针对性挖掘,提高了大数据挖掘的准确性和针对性。
在一种可能的设计示例中,进一步针对步骤S110,在获取完成大数据去噪的待挖掘业务大数据的具体实现方式,可以通过以下示例性的子步骤实现。
步骤S111,获取待去噪的业务大数据,并获取业务大数据所映射的多个信息推送服务的信息推送配置信息。
本实施例中,业务大数据可以是指业务操作数据的集合,业务操作数据可以是软件应用业务的发起操作、软件应用业务的浏览操作、软件应用业务的互动操作和软件应用业务中的相关设置信息的变更操作等,但不限于此。
其中,信息推送服务是意图需求元素中具有信息推送意义的连成一片的意图需求元素集合配置而成的信息推送服务,可以用于控制信息推送的数据源。比如,信息推送服务的信息推送配置信息是意图需求元素在不同推送规则下的配置信息,例如数据源索引配置信息、推送频率配置信息等。
在一种可能的设计示例中,业务大数据中包含业务主题和业务主题内容等。不同业务主题下的业务主题内容属于不同的信息推送服务。云计算金融服务器100可从业务大数据的意图需求元素名称开始扫描,将当前扫描到的业务主题内容归属于前次扫描到的业务主题下的业务主题内容,可通过获取业务大数据中的多个业务主题,来对应获取多个信息推送服务的信息推送配置信息。
在一种可能的设计示例中,云计算金融服务器100可获取多个信息推送服务各自对应的服务调用节点(如针对订单支付页面的订单信息推送服务的服务调用节点A),按照服务调用节点,从业务大数据中确定相应的信息推送服务(如针对服务调用节点A的订单信息推送服务),并从确定的多个信息推送服务中获取信息推送配置信息(如从订单信息推送服务中获得对应的信息推送配置信息)。
步骤S112,解析信息推送配置信息为相应的推送元素集合,将推送元素集合输入已训练的大数据去噪决策模型中的对应决策单元。其中,每个决策单元至少包含一个决策模型,每个决策单元的决策模型处理一个信息推送服务相应的推送元素集合。
其中,推送元素集合是具有排列顺序的意图需求元素集合。例如,云计算金融服务器100可在获取到业务大数据所映射的多个信息推送服务的信息推送配置信息后,采用意图需求拆分的方式对信息推送配置信息进行意图需求拆分。云计算金融服务器100对信息推送配置信息进行意图需求拆分后,将意图需求拆分得到的意图需求元素进行意图需求元素进行意图链构建,得到与信息推送配置信息相应的推送元素集合。
其中,意图需求拆分方式有多种,比如,基于字符串匹配的意图需求拆分算法、基于语义分析的意图需求拆分算法或者基于统计的意图需求拆分算法等。基于字符串匹配的意图需求拆分算法如正向最大匹配算法、逆向最大匹配算法、最少切分算法或者双向最大匹配算法。
在一种可能的设计示例中,云计算金融服务器100可将意图需求拆分所得的意图需求元素,按照在信息推送配置信息中的关联关系进行意图需求元素进行意图链构建,得到与信息推送配置信息相应的推送元素集合。在一种可能的设计示例中,云计算金融服务器100可将意图需求拆分所得的意图需求元素,以随机序列的方式进行意图需求元素进行意图链构建,得到与信息推送配置信息相应的推送元素集合。
其中,决策模型可以包括卷积层,在决策模型的卷积层中,存在多个特征向量,每个特征向量包括多个神经元,同一个特征向量的所有神经元共用一个卷积核。卷积核就是相应神经元的权值,卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中将学习得到合理的卷积核,卷积层可以减少神经网络中各层之间的连接,同时又降低了过拟合的风险。在本实施例中,卷积层可以有一层也可以有多层。
大数据去噪决策模型是可以具有多组决策单元,可以输入多组数据。从每一组决策单元输入的数据都有单独的决策模型进行处理,最后,预测模块将不同决策单元的输出融合到一起作为预测模块的输入。
本实施例所采用的大数据去噪决策模型中可将前置层输出的特征矩阵映射为对应于每一预设大数据去噪标签的数据,从而通过回归层输出输入的多组推送元素集合所属的大数据去噪标签。
例如,云计算金融服务器100可获取到与推送元素集合相应的信息推送配置信息所属的信息推送服务相对应的决策单元,再将推送元素集合输入已训练的大数据去噪决策模型中的对应决策单元。其中,每个决策单元至少包含一个决策模型,每个决策单元的决策模型处理一个信息推送服务相应的推送元素集合。
在一种可能的设计示例中,云计算金融服务器100在训练大数据去噪决策模型时,可预先设置输入的推送元素集合与决策单元的对应关系。比如,在推送元素集合中添加与相应的信息推送服务对应的标识,再设置大数据去噪决策模型中不同的决策单元分别只能输入一个标识所对应的推送元素集合。这样,可以保证在大数据去噪决策模型的训练过程中,对应的决策单元的训练算法可以正确地训练对应的数据。将推送元素集合输入已训练的大数据去噪决策模型中的决策单元时,根据预先设置的输入的推送元素集合与决策单元的对应关系,将推送元素集合输入对应的决策单元。
步骤S113,通过大数据去噪决策模型中的预测模块,根据多个决策单元所输出的大数据去噪决策特征进行预测,输出业务大数据所属的大数据去噪标签。
例如,云计算金融服务器100可将多个决策单元所输出的大数据去噪决策特征进行融合,得到融合大数据去噪决策特征,将融合大数据去噪决策特征作为已训练的大数据去噪决策模型中的预测模块的输入,通过预测模块输出业务大数据所属的大数据去噪标签。
在一种可能的设计示例中,云计算金融服务器100可通过已训练的大数据去噪决策模型中的预测模块输出业务大数据所属的每个预设大数据去噪标签的去噪相关性参数,将待去噪的业务大数据预测到最大去噪相关性参数所对应的大数据去噪标签。
步骤S114,根据业务大数据所属的大数据去噪标签,对业务大数据进行大数据去噪。
基于上述步骤,将待去噪的业务大数据所映射的多个信息推送服务的信息推送配置信息解析为相应的推送元素集合,通过将推送元素集合分别输入已训练的大数据去噪决策模型中的,与推送元素集合所属的信息推送服务相对应的决策单元,每个决策单元的决策模型处理一个信息推送服务相应的推送元素集合,可对待去噪的业务大数据的多组推送元素集合进行卷积处理。再通过大数据去噪决策模型中的预测模块,根据多个决策单元所输出的大数据去噪决策特征进行预测,输出业务大数据所属的大数据去噪标签。这样,可充分利用待去噪的业务大数据所映射的多个信息推送服务的信息推送配置信息,通过结合实际应用过程中的不同信息推送服务进行针对性地去噪标签预测,使得各个信息推送服务的信息推送配置信息可以利用到后续的去噪过程中的相互去噪互补,大大提高了去噪准确率。
在一种可能的设计示例中,进一步针对步骤S114,可以通过以下示例性的子步骤实现,详细描述如下。
步骤S1141,获取去噪服务发送的包括至少一个业务数据区域的待去噪业务数据,并获取业务数据区域的噪声业务特征数据,并根据噪声业务特征数据,分别获取业务数据区域基于软件服务去噪模式和非软件服务去噪模式的全局去噪运行规则和初始分块去噪运行规则。
本实施例中,云计算金融服务器100中运行有多个基于云计算实现的去噪服务,去噪服务用于对异常行为信息进行去噪并上报。
其中,全局去噪运行规则可以是用于描述业务数据区域全局信息的去噪运行规则,全局去噪运行规则能表征全局的去噪信息,其关注去噪的全局性,噪声较强。分块去噪运行规则可以是用于描述业务数据区域单元信息的去噪运行规则,可以是至少一个单元过程对应的去噪运行规则,分块去噪运行规则的规则属性可以少于全局去噪运行规则,分块去噪运行规则所关注的业务数据分块更小,旨在生成更多的去噪细节。
在一种可能的实现方式中,以隐私授权数据区域为例,全局去噪运行规则可以是表征全局隐私授权数据元素的情况的隐私授权数据元素的全局去噪运行规则,该隐私授权数据元素的全局去噪运行规则包含有模糊的全局隐私授权数据元素的信息,分块去噪运行规则可以是表征业务访问单元、业务读取单元、业务写入单元的关键去噪节点去噪运行规则,这个关键去噪节点去噪运行规则包含有更明确的单元区域细节信息。
在一种可能的实现方式中,基于软件服务去噪模式的全局去噪运行规则可以为全局软件服务去噪模式的去噪运行规则,基于非软件服务去噪模式的全局去噪运行规则可以为全局非软件服务去噪模式的去噪运行规则。基于软件服务去噪模式的初始分块去噪运行规则可以为初始分块软件服务去噪模式的去噪运行规则,基于非软件服务去噪模式的初始分块去噪运行规则可以为初始单元非软件服务去噪模式的去噪运行规则。
在一种可能的实现方式中,可以根据软件服务去噪模式特征信息获取业务数据区域的全局软件服务去噪模式的去噪运行规则和初始分块软件服务去噪模式的去噪运行规则,根据非软件服务去噪模式特征信息获取业务数据区域的全局非软件服务去噪模式的去噪运行规则和初始单元非软件服务去噪模式的去噪运行规则。
步骤S1142,对初始分块去噪运行规则进行去噪标签补充处理,得到目标分块去噪运行规则。
本实施例中,对初始分块去噪运行规则进行去噪标签补充处理,去噪标签补充处理之后得到的去噪作为目标分块去噪运行规则。例如,可以是分别对初始分块软件服务去噪模式的去噪运行规则和初始单元非软件服务去噪模式的去噪运行规则进行去噪标签补充处理,得到目标分块软件服务去噪模式的去噪运行规则和目标单元非软件服务去噪模式的去噪运行规则,作为该目标分块去噪运行规则。
其中,去噪标签补充处理可以指对去噪过程进行补充去噪标签集进行补充处理。该补充处理可以是进行去噪标签的相似去噪标签增加处理。去噪标签可以是指恶意信息去噪过程中生成的去噪标签描述信息,然而在很多情况下,很多去噪标签都具有相类似的其它关联去噪标签,因此通过对去噪过程进行补充去噪标签集进行补充处理来进行后续的去噪模型更新,可以增加更多的去噪标签维度的数据信息。
步骤S1143,分别基于软件服务去噪模式和非软件服务去噪模式,对全局去噪运行规则和目标分块去噪运行规则进行规则拼接,得到目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息。
其中,目标软件服务去噪规则配置信息为整合了全局软件服务去噪模式特征和分块软件服务去噪模式特征得到的软件服务去噪规则配置信息,目标非软件服务去噪规则配置信息为整合了全局非软件服务去噪模式特征和单元非软件服务去噪模式特征得到的非软件服务去噪规则配置信息。此外,目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息均可以为策略节点配置集。
本实施例中,对全局去噪运行规则和目标分块去噪运行规则进行规则拼接,可以得到包含全局特征和单元特征的目标去噪信息,该目标去噪信息包括目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息。
在一种可能的实现方式中,本步骤基于软件服务去噪模式对全局去噪运行规则和目标分块去噪运行规则进行规则拼接得到目标软件服务去噪规则配置信息,基于非软件服务去噪模式对全局去噪运行规则和目标分块去噪运行规则进行规则拼接得到目标非软件服务去噪规则配置信息。
在一种可能的实现方式中,可以对全局去噪运行规则也进行去噪标签补充处理,并对去噪标签补充处理之后的全局去噪运行规则与目标分块去噪运行规则进行规则拼接,得到对应的目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息。
步骤S1144,根据目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息进行去噪模型更新处理,得到目标去噪模型,并将目标去噪模型对待去噪业务数据进行去噪。
在一种可能的实现方式中,分块去噪运行规则的模板内容往往少于全局去噪运行规则,而要将全局去噪运行规则和分块去噪运行规则进行规则拼接,就需要使得两者模板内容相同,进而对同一模板节点上的运行规则片段进行融合,得到融合有全局特征和单元特征的去噪信息。基于此,需要对分块去噪运行规则进行规则属性的统一,以使分块去噪运行规则与全局去噪运行规则模板内容一致。
基于上述步骤,本实施例根据噪声业务特征数据分别获取业务数据区域基于软件服务去噪模式和非软件服务去噪模式的全局去噪运行规则和初始分块去噪运行规则,并对初始分块去噪运行规则进行去噪标签补充处理,得到目标分块去噪运行规则,分别基于软件服务去噪模式和非软件服务去噪模式,对全局去噪运行规则和目标分块去噪运行规则进行规则拼接,得到去噪标签补充的目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息,从而使得根据目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息更新得到的目标去噪模型,可以补充更多的去噪标签维度的数据信息,提高后续去噪效果。
在一种可能的设计示例中,针对步骤S1142,在对初始分块去噪运行规则进行去噪标签补充处理,得到目标分块去噪运行规则的流程中,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S11421,获取初始分块去噪运行规则的去噪标签分布。
子步骤S11422,从预先配置的去噪标签分布预设集合中匹配与去噪标签分布存在关联关系的目标去噪标签分布。
本实施例中,存在关联关系可以是指存在层级关系或者并列关系,如针对去噪标签A而言,与其存在关联关系的目标去噪标签可以是指去噪标签A1上一层级下的其它去噪标签A2、去噪标签A3等,去噪标签A1可以与去噪标签A2、去噪标签A3存在并列关系,或者去噪标签A1的上一层级的去噪标签A也可以是与其存在关联关系的目标去噪标签。
子步骤S11423,根据目标去噪标签分布对初始分块去噪运行规则进行与目标去噪标签分布匹配的去噪运行规则的补充,获得目标分块去噪运行规则。
本实施例中,可以将该去噪服务对应的目标去噪标签分布的匹配的去噪运行规则补充到初始分块去噪运行规则,获得目标分块去噪运行规则。
在一种可能的设计示例中,业务数据区域可以为隐私授权数据区域,目标分块去噪运行规则可以包括隐私授权数据元素的关键去噪节点对应的关键去噪节点去噪运行规则。这样,在步骤S1143中,可以分别对各个关键去噪节点去噪运行规则的补充运行规则分区进行规则属性统一,以得到与全局去噪运行规则模板内容相同的统一关键去噪节点去噪运行规则,将各个统一关键去噪节点去噪运行规则进行合并,得到隐私授权数据元素的成员去噪运行规则,分别基于软件服务去噪模式和非软件服务去噪模式,对全局去噪运行规则和隐私授权数据元素的成员去噪运行规则进行规则拼接,得到目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息。
再例如,在另一种可能的设计示例中,全局去噪运行规则包括全局软件服务去噪模式的去噪运行规则和全局非软件服务去噪模式的去噪运行规则,目标分块去噪运行规则包括分块软件服务去噪模式的去噪运行规则和单元非软件服务去噪模式的去噪运行规则。这样,在步骤S1143中,可以对全局软件服务去噪模式的去噪运行规则和分块软件服务去噪模式的去噪运行规则进行规则拼接,对规则拼接的去噪运行规则进行配置以对全局软件服务去噪模式特征和分块软件服务去噪模式特征进行整合,得到目标软件服务去噪规则配置信息,在各个去噪启用流程内对全局非软件服务去噪模式的去噪运行规则和单元非软件服务去噪模式的去噪运行规则进行规则拼接,对各个去噪启用流程规则拼接的去噪运行规则进行配置以对全局非软件服务去噪模式特征和单元非软件服务去噪模式特征进行整合,得到目标非软件服务去噪规则配置信息。
其中,全局去噪运行规则和目标分块去噪运行规则均可对应有至少一个去噪启用流程,这样,可以在各个去噪启用流程内对全局软件服务去噪模式的去噪运行规则和分块软件服务去噪模式的去噪运行规则进行规则拼接,对各个去噪启用流程规则拼接的去噪运行规则进行配置以对全局软件服务去噪模式特征和分块软件服务去噪模式特征进行整合,得到目标软件服务去噪规则配置信息。
在一种可能的设计示例中,针对步骤S1141,在获取业务数据区域的噪声业务特征数据的流程中,可以对业务数据区域进行逐数据项目的去噪特征提取,然后根据逐数据项目的去噪特征提取的结果得到业务数据区域的软件服务去噪模式特征信息和非软件服务去噪模式特征信息,作为噪声业务特征数据。
在一种可能的设计示例中,仍旧针对步骤S1141,在根据噪声业务特征数据,分别获取业务数据区域基于软件服务去噪模式和非软件服务去噪模式的全局去噪运行规则和初始分块去噪运行规则的流程中,可以由全局去噪索引模型根据噪声业务特征数据对业务数据区域进行去噪索引,得到全局去噪运行规则,并由单元去噪索引模型根据噪声业务特征数据对业务数据区域进行去噪索引,得到初始分块去噪运行规则。
其中,单元去噪索引模型可以包括隐私授权数据元素的关键去噪节点去噪索引模型。 去噪索引是指从原始的去噪记录数据日志中捕捉出对应关键去噪节点的去噪运行规则,具体可以参照现有技术中的数据定位和索引方案,此次不作限定。
这样,在由单元去噪索引模型根据噪声业务特征数据对业务数据区域进行去噪索引,得到初始分块去噪运行规则的过程中,可以由隐私授权数据元素的关键去噪节点去噪索引模型,根据噪声业务特征数据对业务数据区域进行去噪索引,将得到的关键去噪节点去噪运行规则确定为初始分块去噪运行规则。
在一种可能的设计示例中,针对步骤S1144,在根据目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息进行去噪模型更新处理,得到目标去噪模型的流程中,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S11441,将目标软件服务去噪规则配置信息和目标非软件服务去噪规则配置信息按照每个去噪节点组合映射为目标去噪规则配置信息,获取目标去噪规则配置信息所包括的至少两个去噪节点,获取至少两个去噪节点中的每个去噪节点的去噪特征信息。
子步骤S11442,基于每个去噪节点的去噪特征信息,确定针对目标去噪规则配置信息的全局加权去噪特征信息。
子步骤S11443,基于每个去噪节点的去噪特征信息在去噪分布标签上的去噪特征标签分量,确定目标去噪规则配置信息在去噪分布标签上的分布式去噪特征信息。
子步骤S11444,根据全局加权去噪特征信息和分布式去噪特征信息,确定目标去噪规则配置信息针对与去噪分布标签相关联的去噪调用操作的深度学习去噪模型,基于深度学习去噪模型进行去噪模型更新处理,得到目标去噪模型,并将目标去噪模型对待去噪业务数据进行去噪。
如此,可以根据目标去噪规则配置信息的分布式去噪特征信息与全局加权去噪特征信息之间的关系来确定对目标去噪规则配置信息相关的深度学习去噪模型,从而进行去噪模型更新,便于对去噪模型进行多重安全去噪系统之间的去噪配合规则的迭代更新,进而提高去噪效果。
在一种可能的设计示例中,针对子步骤S11442,可以通过以下示例性的实施方式来实现:
(1)获取每个去噪节点的去噪特征信息分别包括的结构化去噪分布标签的标签特征向量和非结构化去噪分布标签的标签特征向量。
(2)基于每个去噪节点分别对应的结构化去噪分布标签的标签特征向量和非结构化去噪分布标签的标签特征向量,确定每个去噪节点分别对应的单元标签特征向量分布。
(3)根据每个去噪节点分别对应的单元标签特征向量分布、以及至少两个去噪节点的节点数量,确定全局加权去噪特征信息。
在一种可能的设计示例中,去噪分布标签可以包括结构化去噪分布标签,每个去噪节点的去噪特征信息在去噪分布标签上的去噪特征标签分量,包括结构化去噪分布标签的标签特征向量。
这样,针对子步骤S11443,可以通过以下示例性的实施方式来实现:
(1)获取每个去噪节点的去噪特征信息分别在结构化去噪分布标签上的结构化去噪分布标签的标签特征向量。
(2)根据每个去噪节点分别在结构化去噪分布标签上的结构化去噪分布标签的标签特征向量,确定每个去噪节点分别对应的结构化去噪分布标签值。
(3)根据每个去噪节点分别对应的结构化去噪分布标签值、以及至少两个去噪节点的节点数量,确定分布式去噪特征信息。
在一种可能的设计示例中,去噪分布标签还可以包括非结构化去噪分布标签,每个去噪节点的去噪特征信息在去噪分布标签上的去噪特征标签分量,包括非结构化去噪分布标签的标签特征向量。
这样,针对子步骤S11443,可以通过以下示例性的实施方式来实现:
(4)获取每个去噪节点的去噪特征信息分别在非结构化去噪分布标签上的非结构化去噪分布标签的标签特征向量。
(5)根据每个去噪节点分别在非结构化去噪分布标签上的非结构化去噪分布标签的标签特征向量,确定每个去噪节点分别对应的非结构化去噪分布标签值。
(6)根据每个去噪节点分别对应的非结构化去噪分布标签值、以及至少两个去噪节点的节点数量,确定分布式去噪特征信息。
图3为本公开实施例提供的用于云计算业务的大数据挖掘装置300的功能模块示意图,本实施例可以根据上述云计算金融服务器100执行的方法实施例对该用于云计算业务的大数据挖掘装置300进行功能模块的划分,也即该用于云计算业务的大数据挖掘装置300所对应的以下各个功能模块可以用于执行上述云计算金融服务器100执行的各个方法实施例。其中,该用于云计算业务的大数据挖掘装置300可以包括过滤模块310和挖掘模块320,下面分别对该用于云计算业务的大数据挖掘装置300的各个功能模块的功能进行详细阐述。
过滤模块310,用于获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据。其中,过滤模块310可以用于执行上述的步骤S110,关于过滤模块310的详细实现方式可以参照上述针对步骤S110的详细描述即可。
挖掘模块320,用于根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘。其中,挖掘模块320可以用于执行上述的步骤S120,关于挖掘模块320的详细实现方式可以参照上述针对步骤S120的详细描述即可
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理业务状态对象上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现。也可以全部以硬件的形式实现。还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,过滤模块310可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上过滤模块310的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图4示出了本公开实施例提供的用于实现上述的用于云计算业务的大数据挖掘方法的云计算金融服务器100的硬件结构示意图,如图4所示,云计算金融服务器100可包括处理器110、机器可读存储介质120、总线130以及收发器140。
在具体实现过程中,至少一个处理器110执行机器可读存储介质120存储的计算机执行指令(例如图3中所示的用于云计算业务的大数据挖掘装置300包括的过滤模块310和挖掘模块320),使得处理器110可以执行如上方法实施例的用于云计算业务的大数据挖掘方法,其特征在于,处理器110、机器可读存储介质120以及收发器140通过总线130连接,处理器110可以用于控制收发器140的收发动作,从而可以与前述的信息服务终端200进行数据收发。
处理器110的具体实现过程可参见上述云计算金融服务器100执行的各个方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图4所示的实施例中,应理解,处理器可以是中央处理器(英文:CentralProcessing Unit,CPU),还可以是其它通用处理器、数字信号处理器(英文:DigitalSignal Processor,DSP)、专用集成电路(英文:Application SpecificIntegratedCircuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
机器可读存储介质120可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线130可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或补充工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上用于云计算业务的大数据挖掘方法。
最后,应当理解的是,本说明书中实施例仅用以说明本说明书实施例的原则。其它的变形也可能属于本说明书范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (10)
1.一种用于云计算业务的大数据挖掘方法,其特征在于,应用于云计算金融服务器,所述云计算金融服务器与多个信息服务终端通信连接,所述云计算金融服务器根据云计算平台实现,所述方法包括:
获取待去噪的业务大数据,并从所述业务大数据的意图需求元素名称开始扫描,将当前扫描到的业务主题内容归属于前次扫描到的业务主题下的业务主题内容,通过获取业务大数据中的多个业务主题,来对应获取所述业务大数据所映射的多个信息推送服务的信息推送配置信息,其中,所述业务大数据为基于云计算业务收集的业务数据集合,所述业务大数据中包含业务主题和业务主题内容,不同业务主题下的业务主题内容属于不同的信息推送服务,所述信息推送服务是意图需求元素中具有信息推送意义的连成一片的意图需求元素集合配置而成的信息推送服务,用于控制信息推送的数据源;
解析所述信息推送配置信息为相应的推送元素集合,将所述推送元素集合输入已训练的大数据去噪决策模型中的对应决策单元;其中,每个决策单元至少包含一个决策模型,每个决策单元的决策模型处理一个信息推送服务相应的推送元素集合;
对所述大数据去噪决策模型中的将多个决策单元所输出的大数据去噪决策特征进行融合,得到融合大数据去噪决策特征,将融合大数据去噪决策特征作为已训练的大数据去噪决策模型中的预测模块的输入,通过预测模块输出业务大数据所属的每个预设大数据去噪标签的去噪相关性参数,将待去噪的业务大数据预测到最大去噪相关性参数所对应的大数据去噪标签;
根据所述业务大数据所属的大数据去噪标签,对所述业务大数据进行大数据去噪,获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据;
根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘,其中,所述候选业务数据分区为对所述数据过滤后业务大数据进行筛选出的初始业务数据分区并基于对初始业务数据分区进一步划分为多个分区业务单元后筛选获得。
2.根据权利要求1所述的用于云计算业务的大数据挖掘方法,其特征在于,所述解析所述信息推送配置信息为相应的推送元素集合的步骤,包括:
采用意图需求拆分的方式对信息推送配置信息进行意图需求拆分,对信息推送配置信息进行意图需求拆分后,将意图需求拆分得到的意图需求元素进行意图需求元素进行意图链构建,得到与信息推送配置信息相应的推送元素集合,其中,所述意图需求拆分方式包括基于字符串匹配的意图需求拆分算法、基于语义分析的意图需求拆分算法或者基于统计的意图需求拆分算法。
3.根据权利要求1所述的用于云计算业务的大数据挖掘方法,其特征在于,所述大数据去噪决策模型在训练时预先设置有输入的推送元素集合与决策单元的对应关系;所述预先设置有输入的推送元素集合与决策单元的对应关系的步骤,包括:
在推送元素集合中添加与相应的信息推送服务对应的标识,再设置大数据去噪决策模型中不同的决策单元分别只能输入一个标识所对应的推送元素集合。
4.根据权利要求1所述的用于云计算业务的大数据挖掘方法,其特征在于,所述根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘的步骤,包括:
分别从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的业务数据分块,得到多个初始业务数据分区;
将每个初始业务数据分区分别划分为多个分区业务单元,并获取每个分区业务单元属于目标数据挖掘类型的置信度,从每个初始业务数据分区中提取出所述置信度大于预设阈值的分区业务单元,得到多个候选业务数据分区;
将所述多个候选业务数据分区映射至所述待挖掘业务大数据上,并根据所述多个候选业务数据分区之间的业务关联性参数筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘。
5.根据权利要求2所述的用于云计算业务的大数据挖掘方法,其特征在于,所述分别从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的业务数据分块,得到多个初始业务数据分区的步骤,包括:
获取每个数据过滤后业务大数据上预设的多个初始定位数据对象;
调用训练后的第一分类模型,并通过所述训练后的第一分类模型对每个初始定位数据对象内的业务数据分块进行分类,得到每个初始定位数据对象对应的业务标签信息;
根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区;
其中,所述获取每个数据过滤后业务大数据上预设的多个初始定位数据对象的步骤,包括:
在每个数据过滤后业务大数据上分别设置预设个数的初始定位数据对象;
当每个数据过滤后业务大数据上预设个数的初始定位数据对象未能覆盖所述数据过滤后业务大数据时,按照预设策略增加初始定位数据对象,直至多个初始定位数据对象能覆盖所述数据过滤后业务大数据,得到多个初始定位数据对象;
其中,所述根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区的步骤,包括:
根据每个初始定位数据对象对应的业务标签信息,从每个数据过滤后业务大数据中筛选符合目标数据挖掘类型的初始定位数据对象,得到目标初始定位数据对象;
通过所述训练后的第一分类模型对每个目标初始定位数据对象进行业务节点分类,得到每个目标初始定位数据对象对应的业务节点信息;
根据所述业务节点信息从每个数据过滤后业务大数据中,提取出所述目标初始定位数据对象所在的业务数据分块,得到多个初始业务数据分区。
6.根据权利要求5所述的用于云计算业务的大数据挖掘方法,其特征在于,所述通过所述训练后的第一分类模型对每个初始定位数据对象内的业务数据分块进行分类,得到每个初始定位数据对象对应的业务标签信息的步骤之前,所述方法还包括:
获取多个匹配目标数据挖掘类型的标定业务大数据,并在每个标定业务大数据上分别设置多个标记定位数据对象;
通过第一分类模型计算每个标定业务大数据上每个标记定位数据对象内的业务数据分块对应的业务标签信息和业务节点信息,得到预测业务标签信息和预测业务节点信息;
获取每个标定业务大数据上每个标记定位数据对象对应的真实业务标签信息和真实业务节点信息;
采用第三目标差异计算函数对所述预测业务标签信息和所述真实业务标签信息进行差异计算,以及采用第四目标差异计算函数对所述预测业务节点信息和所述真实业务节点信息进行差异计算,以对所述第一分类模型进行训练,得到训练后的第一分类模型。
7.根据权利要求6所述的用于云计算业务的大数据挖掘方法,其特征在于,当所述目标数据挖掘类型为电子商务画像的数据挖掘类型区域时,采集多个用户的电子商务画像的数据挖掘类型大数据,获取多个服务对象切不同电商直播间的电子商务画像的数据挖掘类型大数据,以及获取包括好评或者差评的电子商务画像的数据挖掘类型大数据等,并将得到的电子商务画像的数据挖掘类型大数据作为标定业务大数据;
当目标数据挖掘类型为新闻浏览画像的数据挖掘类型区域时,采集多种类型的新闻浏览画像的数据挖掘类型大数据,包括不同新闻类型的大数据信息等,以及包括不同用户年龄层次的新闻浏览画像的数据挖掘类型大数据等,并将得到的新闻浏览画像的数据挖掘类型大数据作为标定业务大数据;
当目标数据挖掘类型为社区会话画像的数据挖掘类型区域时,采集多种类型的社区会话画像的数据挖掘类型大数据,包括不同社区类型的大数据等,以及包括用户年龄层次的社区会话画像的数据挖掘类型大数据等,并将得到的社区会话画像的数据挖掘类型大数据作为标定业务大数据。
8.根据权利要求4-7中任意一项所述的用于云计算业务的大数据挖掘方法,其特征在于,所述将所述多个候选业务数据分区映射至所述待挖掘业务大数据上,并根据所述多个候选业务数据分区之间的业务关联性参数筛选出符合预设条件的候选业务数据分区所在的业务数据分块,得到目标业务数据分块的步骤,包括:
将所述多个候选业务数据分区的业务数据排布方式分别调整为所述待挖掘业务大数据的业务数据排布方式一致,得到目标候选业务数据分区;
从所述待挖掘业务大数据上查找与每个目标候选业务数据分区匹配的业务数据分块,得到多个匹配业务数据分块;
获取每个匹配业务数据分块属于目标数据挖掘类型的置信度,并从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块,作为当前匹配业务数据分块;
分别计算多个匹配业务数据分块中除了当前匹配业务数据分块外的其它匹配业务数据分块,与所述当前匹配业务数据分块之间的业务关联性参数,得到多个业务关联性参数;
根据所述多个业务关联性参数,从所述其它匹配业务数据分块中去除业务关联性参数小于预设参数范围的业务数据分块,返回执行从多个匹配业务数据分块中筛选出置信度最高的匹配业务数据分块作为当前匹配业务数据分块的操作,直至剩下预设数量的匹配业务数据分块,汇总得到目标业务数据分块。
9.一种用于云计算业务的大数据挖掘系统,其特征在于,所述用于云计算业务的大数据挖掘系统包括云计算金融服务器以及与所述云计算金融服务器通信连接的多个信息服务终端;
所述云计算金融服务器,用于:
获取待去噪的业务大数据,并从所述业务大数据的意图需求元素名称开始扫描,将当前扫描到的业务主题内容归属于前次扫描到的业务主题下的业务主题内容,通过获取业务大数据中的多个业务主题,来对应获取所述业务大数据所映射的多个信息推送服务的信息推送配置信息,其中,所述业务大数据为基于云计算业务收集的业务数据集合,所述业务大数据中包含业务主题和业务主题内容,不同业务主题下的业务主题内容属于不同的信息推送服务,所述信息推送服务是意图需求元素中具有信息推送意义的连成一片的意图需求元素集合配置而成的信息推送服务,用于控制信息推送的数据源;
解析所述信息推送配置信息为相应的推送元素集合,将所述推送元素集合输入已训练的大数据去噪决策模型中的对应决策单元;其中,每个决策单元至少包含一个决策模型,每个决策单元的决策模型处理一个信息推送服务相应的推送元素集合;
对所述大数据去噪决策模型中的将多个决策单元所输出的大数据去噪决策特征进行融合,得到融合大数据去噪决策特征,将融合大数据去噪决策特征作为已训练的大数据去噪决策模型中的预测模块的输入,通过预测模块输出业务大数据所属的每个预设大数据去噪标签的去噪相关性参数,将待去噪的业务大数据预测到最大去噪相关性参数所对应的大数据去噪标签;
根据所述业务大数据所属的大数据去噪标签,对所述业务大数据进行大数据去噪,获取完成大数据去噪的待挖掘业务大数据,并对所述待挖掘业务大数据按照不同预设挖掘模式分别进行数据过滤处理,得到多个数据过滤后业务大数据;
根据所述数据过滤后业务大数据筛选出候选业务数据分区所在的目标业务数据分块,并按照所述目标数据挖掘类型对应的挖掘策略对所述目标业务数据分块进行数据挖掘,其中,所述候选业务数据分区为对所述数据过滤后业务大数据进行筛选出的初始业务数据分区并基于对初始业务数据分区进一步划分为多个分区业务单元后筛选获得。
10.一种云计算金融服务器,其特征在于,所述云计算金融服务器包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相连,所述网络接口用于与至少一个信息服务终端通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-9中任意一项的用于云计算业务的大数据挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110833214.7A CN113590601A (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011605279.8A CN112711580B (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及云计算金融服务器 |
CN202110833214.7A CN113590601A (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011605279.8A Division CN112711580B (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及云计算金融服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590601A true CN113590601A (zh) | 2021-11-02 |
Family
ID=75547027
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110833214.7A Withdrawn CN113590601A (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及系统 |
CN202011605279.8A Active CN112711580B (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及云计算金融服务器 |
CN202110833198.1A Withdrawn CN113590600A (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的模型训练方法及云计算金融服务器 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011605279.8A Active CN112711580B (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的大数据挖掘方法及云计算金融服务器 |
CN202110833198.1A Withdrawn CN113590600A (zh) | 2020-12-30 | 2020-12-30 | 用于云计算业务的模型训练方法及云计算金融服务器 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN113590601A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070111A (zh) * | 2022-11-17 | 2023-05-05 | 北京东方通科技股份有限公司 | 一种基于ai的大数据挖掘的辅助决策方法及系统 |
CN117131244A (zh) * | 2023-10-26 | 2023-11-28 | 环球数科集团有限公司 | 一种新型分布式大数据筛选过滤系统 |
CN117726468A (zh) * | 2023-12-07 | 2024-03-19 | 深圳市电票科技有限公司 | 一种ai财税机器人的财税管理方法、系统及应用 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174344B2 (en) * | 2002-05-10 | 2007-02-06 | Oracle International Corporation | Orthogonal partitioning clustering |
US7756881B2 (en) * | 2006-03-09 | 2010-07-13 | Microsoft Corporation | Partitioning of data mining training set |
CN102141988B (zh) * | 2010-01-28 | 2014-09-10 | 中国移动通信集团公司 | 一种数据挖掘系统中数据聚类的方法、系统及装置 |
CN110427341A (zh) * | 2019-06-11 | 2019-11-08 | 福建奇点时空数字科技有限公司 | 一种基于路径排序的知识图谱实体关系挖掘方法 |
CN110263061A (zh) * | 2019-06-17 | 2019-09-20 | 郑州阿帕斯科技有限公司 | 一种数据查询方法及系统 |
CN111708785B (zh) * | 2020-06-27 | 2021-01-05 | 深圳市创世易明科技有限公司 | 大数据挖掘处理方法、装置及云平台 |
CN112035549B (zh) * | 2020-08-31 | 2023-12-08 | 中国平安人寿保险股份有限公司 | 数据挖掘方法、装置、计算机设备及存储介质 |
-
2020
- 2020-12-30 CN CN202110833214.7A patent/CN113590601A/zh not_active Withdrawn
- 2020-12-30 CN CN202011605279.8A patent/CN112711580B/zh active Active
- 2020-12-30 CN CN202110833198.1A patent/CN113590600A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070111A (zh) * | 2022-11-17 | 2023-05-05 | 北京东方通科技股份有限公司 | 一种基于ai的大数据挖掘的辅助决策方法及系统 |
CN116070111B (zh) * | 2022-11-17 | 2023-08-04 | 北京东方通科技股份有限公司 | 一种基于ai的大数据挖掘的辅助决策方法及系统 |
CN117131244A (zh) * | 2023-10-26 | 2023-11-28 | 环球数科集团有限公司 | 一种新型分布式大数据筛选过滤系统 |
CN117131244B (zh) * | 2023-10-26 | 2024-02-13 | 环球数科集团有限公司 | 一种新型分布式大数据筛选过滤系统 |
CN117726468A (zh) * | 2023-12-07 | 2024-03-19 | 深圳市电票科技有限公司 | 一种ai财税机器人的财税管理方法、系统及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN112711580A (zh) | 2021-04-27 |
CN112711580B (zh) | 2021-11-05 |
CN113590600A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112711580B (zh) | 用于云计算业务的大数据挖掘方法及云计算金融服务器 | |
CN111080304B (zh) | 一种可信关系识别方法、装置及设备 | |
CN112711578B (zh) | 用于云计算业务的大数据去噪方法及云计算金融服务器 | |
CN111931049B (zh) | 基于大数据和人工智能的业务处理方法及区块链金融系统 | |
CN111861463A (zh) | 基于区块链和人工智能的信息智能识别方法及大数据平台 | |
CN111931050B (zh) | 基于智能识别和大数据的信息推送方法及区块链金融服务器 | |
Nguyen-Trang | A new efficient approach to detect skin in color image using Bayesian classifier and connected component algorithm | |
CN114221991B (zh) | 基于大数据的会话推荐反馈处理方法及深度学习服务系统 | |
CN113051346A (zh) | 基于云计算的热点信息处理方法及区块链金融云中心 | |
CN115035347A (zh) | 图片识别方法、装置及电子设备 | |
CN112613072B (zh) | 基于档案大数据的信息管理方法、管理系统及管理云平台 | |
CN110516713A (zh) | 一种目标群体识别方法、装置及设备 | |
Nekrasov et al. | Ugains: Uncertainty guided anomaly instance segmentation | |
CN111597966B (zh) | 一种表情图像识别方法、装置及系统 | |
CN112671774A (zh) | 基于云计算和区块链的大数据分析方法及数字金融系统 | |
Shi et al. | Objective object segmentation visual quality evaluation: Quality measure and pooling method | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN111984714B (zh) | 基于智能在线通信和大数据的信息生成方法及云服务平台 | |
CN112764839B (zh) | 一种用于管理服务平台的大数据配置方法及系统 | |
CN112927004A (zh) | 用于大数据画像的信息云计算分析方法及信息推送服务器 | |
CN112685007A (zh) | 结合大数据画像的信息云计算推送方法及数字内容服务器 | |
CN112733134A (zh) | 基于大数据和区块链的信息安全防护方法及数字金融平台 | |
CN114443803A (zh) | 一种文本信息挖掘方法、装置、电子设备和存储介质 | |
CN112732398B (zh) | 一种基于人工智能的大数据可视化管理方法及系统 | |
Guarino et al. | On Analyzing Third-party Tracking via Machine Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211102 |