具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了解决现有技术中存在由于没有根据用户并发访问量和数据特征进行数据库的部署,进而导致出现数据库不能支撑大量用户进行访问的技术问题,本公开的发明人经过创造性的劳动,得到了本公开的一种基于人工智能的大数据处理方法及系统。
实施例一
图1为本申请实施例提供的一种基于人工智能的大数据处理方法图,所述方法应用于人工智能的大数据处理系统,所述系统包括多维特征识别模型,如图1所示,所述方法包括:
步骤S100:连接所述大数据处理系统接收待处理数据集;
具体而言,在本实施例中,上述的大数据处理系统是用于对数据集进行处理的智能化系统平台,连接大数据处理系统接收待处理数据集,待处理数据集即为需要进行数据处理的数据集,就是可能出现并发数高的现象,也可以理解为同一时刻访问量较高的现象,出现这种现象时,即为需要进行数据处理,连接大数据处理系统,接收待处理数据集。
步骤S200:对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
其中,如图2所示,本申请实施例步骤S200还包括:
步骤S210:获取所述大数据处理系统的数据接收源;
步骤S220:对所述数据接收源进行分析,得到各个数据接收源对应的数据量;
步骤S230:对所述各个数据接收源对应的数据量进行分析,得到多个并发数指标,其中,所述多个并发数指标与所述各个数据接收源一一对应;
步骤S240:根据所述多个并发数指标,得到所述并发指标阈值。
具体而言,对待处理数据集进行并发数指标计算,得到并发指标阈值,并发指标阈值是指并发的访问量,并发指标阈值包括下限并发指标和上限并发指标,下限并发指标即指并发的访问量谷值,上限并发指标即指并发的访问量峰值,举例如,火车票售票网站、淘宝、微博等,它们的并发访问量在峰值时能达到上百万,峰值时的并发访问量即为它们的上限并发指标。
具体地,获取大数据处理系统的数据接收源,数据接收源是指数据的来源,比如,医疗网站、企业数据、电商、建筑等,对数据接收源进行分析,得到各个数据接收源对应的数据量,换句话说,每一个数据接收源都有其对应的数据量,一个数据接收源可能对应几条、几百条、甚至上万条数据,这就是数据接收源对应的数据量,对各个数据接收源对应的数据量进行分析,得到多个并发数指标,简单来说,就是同一时刻,可能会有成千上万的用户进行访问和操作,同一时刻访问和操作的用户数量即为并发数指标,就可以得到多个并发数指标,其中,多个并发数指标与各个数据接收源一一对应,也就是说,每个数据接收源都会对应多个并发数指标,根据多个并发数指标,得到并发指标阈值,并发指标阈值即为并发的访问操作量,包括访问量峰值和访问量谷值,通过获取待处理数据集的并发指标阈值,为后续的数据处理提供基础数据。
步骤S300:判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
其中,本申请实施例步骤S300还包括:
步骤S310:得到所述大数据处理系统用于进行数据访存的实时数据库;
步骤S320:获取所述实时数据库的属性参数,包括存储格式、存储容量和存储速率;
步骤S330:根据所述存储格式、所述存储容量和所述存储速率进行负载计算,得到所述实时数据库对应的负载指标;
步骤S340:基于所述实时数据库对应的负载指标,生成所述预设上限并发指标。
其中,步骤S340之后还有步骤S350,所述判断所述上限并发指标是否大于预设上限并发指标,本申请实施例步骤S350还包括:
步骤S351:若所述上限并发指标大于所述预设上限并发指标,获取并发指标差向量;
步骤S352:将所述并发指标差向量作为部署目标,输入所述大数据处理系统的数据采集终端进行响应,得到第一响应结果,其中,所述第一响应结果为数据库部署数量的响应结果。
具体而言,预设上限并发指标是根据实际情况自行设定的,用于判断上限并发指标是否过大,获取到上限并发指标后,判断上限并发指标是否大于预设上限并发指标,如果上限并发指标大于预设上限并发指标,说明并发的访问量过大,获取部署指令,部署指令是在并发的访问量过高的情况下,生成的用于解决这种情况的一个指令,部署指令包括需要部署的数据库数量。
具体地,得到大数据处理系统用于进行数据访存的实时数据库,数据访存指数据的访问和存储,实时数据库即为进行数据访问、存储的数据库,这是大数据处理系统自带的功能,进一步地,获取实时数据库的属性参数,属性参数包括存储格式、存储容量和存储速率,存储格式即为数据存储格式,不同数据存储格式也不同,比如,图像文件的存储格式一般为JPEG格式,还有.txt格式等,存储容量一般是以字长或字节为单位,存储速率就是数据传输的速率,根据存储格式、存储容量和存储速率进行负载计算,就是计算数据库极限状态下的访问量和存储量,进而得到实时数据库对应的负载指标,负载指标就是实时数据库允许达到的最大访问量或操作量,基于实时数据库对应的负载指标,生成预设上限并发指标,预设上限并发指标就是实时数据库允许达到的最大访问量或操作量,通过计算获取预设上限并发指标,从而判断待处理数据集的上限并发指标是否过大,进而进行数据库的部署。
具体地,如果上限并发指标大于预设上限并发指标,获取并发指标差向量,并发指标差向量即为上限并发指标与预设上限并发指标的差值,将并发指标差向量作为部署目标,就是说,部署的目的是为了解决并发指标差向量,使得用户访问量较高的情况下,也可以正常访问,将部署目标输入大数据处理系统的数据采集终端进行响应,数据采集终端是大数据处理系统中用以采集访问、存储数据的终端,得到第一响应结果,其中,第一响应结果为数据库部署数量的响应结果,简单来说,就是根据并发指标差向量,确定需要部署多少个数据库,才能使用户可以正常访问和操作,通过获取并发指标差向量,确定数据库的部署数量,解决并发的访问量过高的问题。
步骤S400:获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
具体而言,获取大数据处理系统的数据采集终端,数据采集终端是大数据处理系统中用以采集访问、存储数据的终端,按照部署指令,在数据采集终端部署多个数据库。
步骤S500:连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
其中,如图3所示,本申请实施例步骤S500还包括:
步骤S510:基于所述待处理数据集,生成样本数据集;
步骤S520:对所述样本数据集进行样本特征分析,得到样本特征强度;
步骤S530:判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
步骤S540:将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征。
其中,本申请实施例步骤S540还包括:
步骤S541:将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
步骤S542:将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果。
具体而言,多维特征识别模型是用于识别数据集的多维特征的功能模型,嵌于大数据处理系统,用以获取待处理数据集的数据特征。
具体地,多维特征识别模型为机器学习中的,可以不断进行自我迭代优化的神经网络模型,多维特征识别模型通过以样本数据集作为训练数据得到的,以样本数据集作为输入信息,经过对样本数据集的分析,输出数据特征。
具体地,基于待处理数据集,生成样本数据集,样本数据集为待处理数据集的一部分,示例性的,可以随机将待处理数据集的60%的数据作为样本数据集,对样本数据集进行样本特征分析,分析样本数据集中包含的数据有何特征,特征有几种,进而得到样本特征强度,样本特征强度是指样本数据集中的数据特征的数量,判断样本特征强度是否大于预设样本特征强度,预设样本特征强度是根据实际情况自行设定的,如果样本特征强度大于预设样本特征强度,激活多维特征识别模型,将样本数据集输入多维特征识别模型,获取待处理数据集的数据特征。
具体地,将样本数据集输入多维特征识别模型,其中,多维特征识别模型包括数据类型特征、数据量特征和数据关联特征,数据类型特征即为数据的类型,包括图像、视频、字节、数据等,数据量特征即为数据的多少,数据关联特征即为数据之间的关联性关系,比如,某一个数据升高,另一个数据也会随之升高或降低,将数据类型特征、数据量特征和数据关联特征作为多维特征识别模型的输出结果。通过多维特征识别模型输出待处理数据集的数据特征,为后续进行多个数据库的属性配置提供数据支持。
步骤S600:根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
其中,所述根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置,本申请实施例步骤S600还包括:
步骤S610:根据所述数据类型特征对所述多个数据库进行存储格式的参数配置;
步骤S620:根据所述数据量特征对所述多个数据库进行存储大小的参数配置;
步骤S630:根据所述数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构。
具体而言,在步骤S400中部署了多个数据库,根据待处理数据集的数据特征对多个数据库的属性进行配置,包括数据类型特征、数据量特征和数据关联特征的配置。
具体地,根据数据类型特征对多个数据库进行存储格式的参数配置,不同的数据类型特征对应的存储格式不同,由于数据类型包括但不限于包括图像、视频、字节、数据等,基于不同的数据类型可以配置数据库的存储格式,提高数据库中的存储利用率,特殊的,当某一数据类型的占比较高且存在持续性,可将数据库整体的存储格式进行限制,仅存储当前所数据类型的数据库,比如,图像数据的存储格式一般是JPEG格式,根据数据量特征对多个数据库进行存储大小的参数配置,就是根据数据量特征确定数据库的存储容量,根据数据关联特征对多个数据库进行连接关系配置,搭建多个数据库的拓扑结构,就是根据数据关联特征,确定数据库之间的关系,比如,一个数据库中的数据变化,会引起另一个数据库中的数据发生变化,拓扑结构是指互联各种东西的物理布局,就是将各种结点和结点的相互关系,通过图表示出来,在本实施例中,就是将多个数据库的连接关系通过拓扑结构进行连接,从而能够根据数据特征对数据库的连接关系进行标识,便于相关联数据进行调用时其数据库之间的交互。通过根据待处理数据集的数据特征,对多个数据库的存储格式、存储大小、连接关系进行配置,从而对数据集进行处理,使得在并发的访问量较高的情况下,用户也可以正常进行访问和操作。
基于上述分析可知,本公开提供了一种基于人工智能的大数据处理方法,在本实施例中,通过对待处理数据集进行并发数指标计算,得到并上限并发指标,对上限并发指标进行判断,进而获取部署指令,根据部署指令在数据采集终端部署多个数据库,进一步通过多维特征识别模型,获取待处理数据集的数据特征,进而对多个数据库的属性进行配置,达到对大数据集进行处理,使得在并发的访问量较高的情况下,用户也可以正常进行访问和操作的技术效果。
实施例二
基于与前述实施例中一种基于人工智能的大数据处理方法同样的发明构思,如图4所示,本申请还提供了一种基于人工智能的大数据处理系统,所述系统包括多维特征识别模型,所述系统包括:
数据集接收模块11,所述数据集接收模块11用于连接所述大数据处理系统接收待处理数据集;
并发数指标计算模块12,所述并发数指标计算模块12用于对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
上限并发指标判断模块13,所述上限并发指标判断模块13用于判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
数据库部署模块14,所述数据库部署模块14用于获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
多维特征识别模块15,所述多维特征识别模块15用于连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
属性配置模块16,所述属性配置模块16用于根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
进一步而言,所述系统还包括:
数据接收源获取模块,所述数据接收源获取模块用于获取所述大数据处理系统的数据接收源;
接收源分析模块,所述接收源分析模块用于对所述数据接收源进行分析,得到各个数据接收源对应的数据量;
数据量分析模块,所述数据量分析模块用于对所述各个数据接收源对应的数据量进行分析,得到多个并发数指标,其中,所述多个并发数指标与所述各个数据接收源一一对应;
并发指标阈值获取模块,所述并发指标阈值获取模块用于根据所述多个并发数指标,得到所述并发指标阈值。
进一步而言,所述系统还包括:
实时数据库获取模块,所述实时数据库获取模块用于得到所述大数据处理系统用于进行数据访存的实时数据库;
属性参数获取模块,所述属性参数获取模块用于获取所述实时数据库的属性参数,包括存储格式、存储容量和存储速率;
负载指标获取模块,所述负载指标获取模块用于根据所述存储格式、所述存储容量和所述存储速率进行负载计算,得到所述实时数据库对应的负载指标;
预设上限并发指标生成模块,所述预设上限并发指标生成模块用于基于所述实时数据库对应的负载指标,生成所述预设上限并发指标。
进一步而言,所述系统还包括:
并发指标差向量获取模块,所述并发指标差向量获取模块用于若所述上限并发指标大于所述预设上限并发指标,获取并发指标差向量;
第一响应结果获取模块,所述第一响应结果获取模块用于将所述并发指标差向量作为部署目标,输入所述大数据处理系统的数据采集终端进行响应,得到第一响应结果,其中,所述第一响应结果为数据库部署数量的响应结果。
进一步而言,所述系统还包括:
样本数据集生成模块,所述样本数据集生成模块用于基于所述待处理数据集,生成样本数据集;
样本特征分析模块,所述样本特征分析模块用于对所述样本数据集进行样本特征分析,得到样本特征强度;
样本特征强度判断模块,所述样本特征强度判断模块用于判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
数据特征获取模块,所述数据特征获取模块用于将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征。
进一步而言,所述系统还包括:
样本数据集输入模块,所述样本数据集输入模块用于将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
数据多维特征输出模块,所述数据多维特征输出模块用于将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果。
进一步而言,所述系统还包括:
参数配置模块,所述参数配置模块用于根据所述数据类型特征对所述多个数据库进行存储格式的参数配置;
存储大小配置模块,所述存储大小配置模块用于根据所述数据量特征对所述多个数据库进行存储大小的参数配置;
连接关系配置模块,所述连接关系配置模块用于根据所述数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构。
前述实施例一中的一种基于人工智能的大数据处理方法具体实例同样适用于本实施例的一种基于人工智能的大数据处理系统,通过前述对一种基于人工智能的大数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于人工智能的大数据处理系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
实施例三
图5是根据本公开第三实施例的示意图,如图5所示,本公开中的电子设备800可以包括:处理器801和存储器802。
存储器802,用于存储程序;存储器802,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random AccessMemory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flash memory)。存储器802用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指令、数据等可以被处理器801调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指据等可以被处理器801调用。
处理器801,用于执行存储器802存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器801和存储器802可以是独立结构,也可以是集成在一起的集成结构。当处理器801和存储器802是独立结构时,存储器802、处理器801可以通过总线803耦合连接。
本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行,也可以顺序地执行也可以不同的次序执行,
只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。