CN116166639B - 一种基于人工智能的大数据处理方法及系统 - Google Patents

一种基于人工智能的大数据处理方法及系统 Download PDF

Info

Publication number
CN116166639B
CN116166639B CN202310226867.8A CN202310226867A CN116166639B CN 116166639 B CN116166639 B CN 116166639B CN 202310226867 A CN202310226867 A CN 202310226867A CN 116166639 B CN116166639 B CN 116166639B
Authority
CN
China
Prior art keywords
data
data set
index
concurrency
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310226867.8A
Other languages
English (en)
Other versions
CN116166639A (zh
Inventor
祁铠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Kuaiyu Technology Co ltd
Original Assignee
Xi'an Kuaiyu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Kuaiyu Technology Co ltd filed Critical Xi'an Kuaiyu Technology Co ltd
Priority to CN202310226867.8A priority Critical patent/CN116166639B/zh
Publication of CN116166639A publication Critical patent/CN116166639A/zh
Application granted granted Critical
Publication of CN116166639B publication Critical patent/CN116166639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3404Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for parallel or distributed programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于人工智能的大数据处理方法及系统,涉及数据处理技术领域,该方法包括:连接大数据处理系统接收待处理数据集;对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;若所述上限并发指标大于预设上限并发指标,获取部署指令;获取所述大数据处理系统的数据采集终端,并部署多个数据库;连接所述多维特征识别模型,获取所述待处理数据集的数据特征;根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置,解决了现有技术中存在的由于没有根据用户并发访问量和数据特征进行数据库的部署,进而导致出现数据库不能支撑大量用户进行访问的技术问题。

Description

一种基于人工智能的大数据处理方法及系统
技术领域
本公开涉及数据处理技术领域,具体涉及一种基于人工智能的大数据处理方法及系统。
背景技术
随着互联网技术的飞速发展,用户可以通过各类搜索引擎、网站、APP满足日常的工作和生活需要,大数据的发展使得数据服务器的数据处理功能得到了进一步地优化,使得目前的搜索引擎能够将大量数据信息进行展示以供用户浏览或者使用,但是随着互联网的发展,用户的数量也是越来越多,一些网站或者APP的访问量有时候突然大量增多,可能会导致系统的崩溃。
目前,现有技术中存在由于没有根据用户并发访问量和数据特征进行数据库的部署,进而导致出现数据库不能支撑大量用户进行访问的技术问题。
发明内容
本公开提供了一种基于人工智能的大数据处理方法及系统,用以解决现有技术中存在的由于没有根据用户并发访问量和数据特征进行数据库的部署,进而导致出现数据库不能支撑大量用户进行访问的技术问题。
根据本公开的第一方面,提供了一种基于人工智能的大数据处理方法,包括:连接所述大数据处理系统接收待处理数据集;对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
根据本公开的第二方面,提供了一种基于人工智能的大数据处理系统,包括:数据集接收模块,所述数据集接收模块用于连接所述大数据处理系统接收待处理数据集;并发数指标计算模块,所述并发数指标计算模块用于对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;上限并发指标判断模块,所述上限并发指标判断模块用于判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;数据库部署模块,所述数据库部署模块用于获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;多维特征识别模块,所述多维特征识别模块用于连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;属性配置模块,所述属性配置模块用于根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开采用的一种基于人工智能的大数据处理方法,连接所述大数据处理系统接收待处理数据集;对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。本公开通过对待处理数据集进行并发数指标计算,得到并上限并发指标,对上限并发指标进行判断,进而获取部署指令,根据部署指令在数据采集终端部署多个数据库,进一步通过多维特征识别模型,获取待处理数据集的数据特征,进而对多个数据库的属性进行配置,达到对大数据集进行处理,使得在并发的访问量较高的情况下,用户也可以正常进行访问和操作的技术效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于人工智能的大数据处理方法的流程示意图;
图2为本发明实施例中得到并发指标阈值的流程示意图;
图3为本发明实施例中获取待处理数据集的数据特征的流程示意图;
图4为本发明实施例提供的一种基于人工智能的大数据处理系统的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
附图标记说明:数据集接收模块11,并发数指标计算模块12,上限并发指标判断模块13,数据库部署模块14,多维特征识别模块15,属性配置模块16,电子设备800,处理器801,存储器802,总线803。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了解决现有技术中存在由于没有根据用户并发访问量和数据特征进行数据库的部署,进而导致出现数据库不能支撑大量用户进行访问的技术问题,本公开的发明人经过创造性的劳动,得到了本公开的一种基于人工智能的大数据处理方法及系统。
实施例一
图1为本申请实施例提供的一种基于人工智能的大数据处理方法图,所述方法应用于人工智能的大数据处理系统,所述系统包括多维特征识别模型,如图1所示,所述方法包括:
步骤S100:连接所述大数据处理系统接收待处理数据集;
具体而言,在本实施例中,上述的大数据处理系统是用于对数据集进行处理的智能化系统平台,连接大数据处理系统接收待处理数据集,待处理数据集即为需要进行数据处理的数据集,就是可能出现并发数高的现象,也可以理解为同一时刻访问量较高的现象,出现这种现象时,即为需要进行数据处理,连接大数据处理系统,接收待处理数据集。
步骤S200:对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
其中,如图2所示,本申请实施例步骤S200还包括:
步骤S210:获取所述大数据处理系统的数据接收源;
步骤S220:对所述数据接收源进行分析,得到各个数据接收源对应的数据量;
步骤S230:对所述各个数据接收源对应的数据量进行分析,得到多个并发数指标,其中,所述多个并发数指标与所述各个数据接收源一一对应;
步骤S240:根据所述多个并发数指标,得到所述并发指标阈值。
具体而言,对待处理数据集进行并发数指标计算,得到并发指标阈值,并发指标阈值是指并发的访问量,并发指标阈值包括下限并发指标和上限并发指标,下限并发指标即指并发的访问量谷值,上限并发指标即指并发的访问量峰值,举例如,火车票售票网站、淘宝、微博等,它们的并发访问量在峰值时能达到上百万,峰值时的并发访问量即为它们的上限并发指标。
具体地,获取大数据处理系统的数据接收源,数据接收源是指数据的来源,比如,医疗网站、企业数据、电商、建筑等,对数据接收源进行分析,得到各个数据接收源对应的数据量,换句话说,每一个数据接收源都有其对应的数据量,一个数据接收源可能对应几条、几百条、甚至上万条数据,这就是数据接收源对应的数据量,对各个数据接收源对应的数据量进行分析,得到多个并发数指标,简单来说,就是同一时刻,可能会有成千上万的用户进行访问和操作,同一时刻访问和操作的用户数量即为并发数指标,就可以得到多个并发数指标,其中,多个并发数指标与各个数据接收源一一对应,也就是说,每个数据接收源都会对应多个并发数指标,根据多个并发数指标,得到并发指标阈值,并发指标阈值即为并发的访问操作量,包括访问量峰值和访问量谷值,通过获取待处理数据集的并发指标阈值,为后续的数据处理提供基础数据。
步骤S300:判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
其中,本申请实施例步骤S300还包括:
步骤S310:得到所述大数据处理系统用于进行数据访存的实时数据库;
步骤S320:获取所述实时数据库的属性参数,包括存储格式、存储容量和存储速率;
步骤S330:根据所述存储格式、所述存储容量和所述存储速率进行负载计算,得到所述实时数据库对应的负载指标;
步骤S340:基于所述实时数据库对应的负载指标,生成所述预设上限并发指标。
其中,步骤S340之后还有步骤S350,所述判断所述上限并发指标是否大于预设上限并发指标,本申请实施例步骤S350还包括:
步骤S351:若所述上限并发指标大于所述预设上限并发指标,获取并发指标差向量;
步骤S352:将所述并发指标差向量作为部署目标,输入所述大数据处理系统的数据采集终端进行响应,得到第一响应结果,其中,所述第一响应结果为数据库部署数量的响应结果。
具体而言,预设上限并发指标是根据实际情况自行设定的,用于判断上限并发指标是否过大,获取到上限并发指标后,判断上限并发指标是否大于预设上限并发指标,如果上限并发指标大于预设上限并发指标,说明并发的访问量过大,获取部署指令,部署指令是在并发的访问量过高的情况下,生成的用于解决这种情况的一个指令,部署指令包括需要部署的数据库数量。
具体地,得到大数据处理系统用于进行数据访存的实时数据库,数据访存指数据的访问和存储,实时数据库即为进行数据访问、存储的数据库,这是大数据处理系统自带的功能,进一步地,获取实时数据库的属性参数,属性参数包括存储格式、存储容量和存储速率,存储格式即为数据存储格式,不同数据存储格式也不同,比如,图像文件的存储格式一般为JPEG格式,还有.txt格式等,存储容量一般是以字长或字节为单位,存储速率就是数据传输的速率,根据存储格式、存储容量和存储速率进行负载计算,就是计算数据库极限状态下的访问量和存储量,进而得到实时数据库对应的负载指标,负载指标就是实时数据库允许达到的最大访问量或操作量,基于实时数据库对应的负载指标,生成预设上限并发指标,预设上限并发指标就是实时数据库允许达到的最大访问量或操作量,通过计算获取预设上限并发指标,从而判断待处理数据集的上限并发指标是否过大,进而进行数据库的部署。
具体地,如果上限并发指标大于预设上限并发指标,获取并发指标差向量,并发指标差向量即为上限并发指标与预设上限并发指标的差值,将并发指标差向量作为部署目标,就是说,部署的目的是为了解决并发指标差向量,使得用户访问量较高的情况下,也可以正常访问,将部署目标输入大数据处理系统的数据采集终端进行响应,数据采集终端是大数据处理系统中用以采集访问、存储数据的终端,得到第一响应结果,其中,第一响应结果为数据库部署数量的响应结果,简单来说,就是根据并发指标差向量,确定需要部署多少个数据库,才能使用户可以正常访问和操作,通过获取并发指标差向量,确定数据库的部署数量,解决并发的访问量过高的问题。
步骤S400:获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
具体而言,获取大数据处理系统的数据采集终端,数据采集终端是大数据处理系统中用以采集访问、存储数据的终端,按照部署指令,在数据采集终端部署多个数据库。
步骤S500:连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
其中,如图3所示,本申请实施例步骤S500还包括:
步骤S510:基于所述待处理数据集,生成样本数据集;
步骤S520:对所述样本数据集进行样本特征分析,得到样本特征强度;
步骤S530:判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
步骤S540:将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征。
其中,本申请实施例步骤S540还包括:
步骤S541:将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
步骤S542:将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果。
具体而言,多维特征识别模型是用于识别数据集的多维特征的功能模型,嵌于大数据处理系统,用以获取待处理数据集的数据特征。
具体地,多维特征识别模型为机器学习中的,可以不断进行自我迭代优化的神经网络模型,多维特征识别模型通过以样本数据集作为训练数据得到的,以样本数据集作为输入信息,经过对样本数据集的分析,输出数据特征。
具体地,基于待处理数据集,生成样本数据集,样本数据集为待处理数据集的一部分,示例性的,可以随机将待处理数据集的60%的数据作为样本数据集,对样本数据集进行样本特征分析,分析样本数据集中包含的数据有何特征,特征有几种,进而得到样本特征强度,样本特征强度是指样本数据集中的数据特征的数量,判断样本特征强度是否大于预设样本特征强度,预设样本特征强度是根据实际情况自行设定的,如果样本特征强度大于预设样本特征强度,激活多维特征识别模型,将样本数据集输入多维特征识别模型,获取待处理数据集的数据特征。
具体地,将样本数据集输入多维特征识别模型,其中,多维特征识别模型包括数据类型特征、数据量特征和数据关联特征,数据类型特征即为数据的类型,包括图像、视频、字节、数据等,数据量特征即为数据的多少,数据关联特征即为数据之间的关联性关系,比如,某一个数据升高,另一个数据也会随之升高或降低,将数据类型特征、数据量特征和数据关联特征作为多维特征识别模型的输出结果。通过多维特征识别模型输出待处理数据集的数据特征,为后续进行多个数据库的属性配置提供数据支持。
步骤S600:根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
其中,所述根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置,本申请实施例步骤S600还包括:
步骤S610:根据所述数据类型特征对所述多个数据库进行存储格式的参数配置;
步骤S620:根据所述数据量特征对所述多个数据库进行存储大小的参数配置;
步骤S630:根据所述数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构。
具体而言,在步骤S400中部署了多个数据库,根据待处理数据集的数据特征对多个数据库的属性进行配置,包括数据类型特征、数据量特征和数据关联特征的配置。
具体地,根据数据类型特征对多个数据库进行存储格式的参数配置,不同的数据类型特征对应的存储格式不同,由于数据类型包括但不限于包括图像、视频、字节、数据等,基于不同的数据类型可以配置数据库的存储格式,提高数据库中的存储利用率,特殊的,当某一数据类型的占比较高且存在持续性,可将数据库整体的存储格式进行限制,仅存储当前所数据类型的数据库,比如,图像数据的存储格式一般是JPEG格式,根据数据量特征对多个数据库进行存储大小的参数配置,就是根据数据量特征确定数据库的存储容量,根据数据关联特征对多个数据库进行连接关系配置,搭建多个数据库的拓扑结构,就是根据数据关联特征,确定数据库之间的关系,比如,一个数据库中的数据变化,会引起另一个数据库中的数据发生变化,拓扑结构是指互联各种东西的物理布局,就是将各种结点和结点的相互关系,通过图表示出来,在本实施例中,就是将多个数据库的连接关系通过拓扑结构进行连接,从而能够根据数据特征对数据库的连接关系进行标识,便于相关联数据进行调用时其数据库之间的交互。通过根据待处理数据集的数据特征,对多个数据库的存储格式、存储大小、连接关系进行配置,从而对数据集进行处理,使得在并发的访问量较高的情况下,用户也可以正常进行访问和操作。
基于上述分析可知,本公开提供了一种基于人工智能的大数据处理方法,在本实施例中,通过对待处理数据集进行并发数指标计算,得到并上限并发指标,对上限并发指标进行判断,进而获取部署指令,根据部署指令在数据采集终端部署多个数据库,进一步通过多维特征识别模型,获取待处理数据集的数据特征,进而对多个数据库的属性进行配置,达到对大数据集进行处理,使得在并发的访问量较高的情况下,用户也可以正常进行访问和操作的技术效果。
实施例二
基于与前述实施例中一种基于人工智能的大数据处理方法同样的发明构思,如图4所示,本申请还提供了一种基于人工智能的大数据处理系统,所述系统包括多维特征识别模型,所述系统包括:
数据集接收模块11,所述数据集接收模块11用于连接所述大数据处理系统接收待处理数据集;
并发数指标计算模块12,所述并发数指标计算模块12用于对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
上限并发指标判断模块13,所述上限并发指标判断模块13用于判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
数据库部署模块14,所述数据库部署模块14用于获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
多维特征识别模块15,所述多维特征识别模块15用于连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
属性配置模块16,所述属性配置模块16用于根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置。
进一步而言,所述系统还包括:
数据接收源获取模块,所述数据接收源获取模块用于获取所述大数据处理系统的数据接收源;
接收源分析模块,所述接收源分析模块用于对所述数据接收源进行分析,得到各个数据接收源对应的数据量;
数据量分析模块,所述数据量分析模块用于对所述各个数据接收源对应的数据量进行分析,得到多个并发数指标,其中,所述多个并发数指标与所述各个数据接收源一一对应;
并发指标阈值获取模块,所述并发指标阈值获取模块用于根据所述多个并发数指标,得到所述并发指标阈值。
进一步而言,所述系统还包括:
实时数据库获取模块,所述实时数据库获取模块用于得到所述大数据处理系统用于进行数据访存的实时数据库;
属性参数获取模块,所述属性参数获取模块用于获取所述实时数据库的属性参数,包括存储格式、存储容量和存储速率;
负载指标获取模块,所述负载指标获取模块用于根据所述存储格式、所述存储容量和所述存储速率进行负载计算,得到所述实时数据库对应的负载指标;
预设上限并发指标生成模块,所述预设上限并发指标生成模块用于基于所述实时数据库对应的负载指标,生成所述预设上限并发指标。
进一步而言,所述系统还包括:
并发指标差向量获取模块,所述并发指标差向量获取模块用于若所述上限并发指标大于所述预设上限并发指标,获取并发指标差向量;
第一响应结果获取模块,所述第一响应结果获取模块用于将所述并发指标差向量作为部署目标,输入所述大数据处理系统的数据采集终端进行响应,得到第一响应结果,其中,所述第一响应结果为数据库部署数量的响应结果。
进一步而言,所述系统还包括:
样本数据集生成模块,所述样本数据集生成模块用于基于所述待处理数据集,生成样本数据集;
样本特征分析模块,所述样本特征分析模块用于对所述样本数据集进行样本特征分析,得到样本特征强度;
样本特征强度判断模块,所述样本特征强度判断模块用于判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
数据特征获取模块,所述数据特征获取模块用于将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征。
进一步而言,所述系统还包括:
样本数据集输入模块,所述样本数据集输入模块用于将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
数据多维特征输出模块,所述数据多维特征输出模块用于将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果。
进一步而言,所述系统还包括:
参数配置模块,所述参数配置模块用于根据所述数据类型特征对所述多个数据库进行存储格式的参数配置;
存储大小配置模块,所述存储大小配置模块用于根据所述数据量特征对所述多个数据库进行存储大小的参数配置;
连接关系配置模块,所述连接关系配置模块用于根据所述数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构。
前述实施例一中的一种基于人工智能的大数据处理方法具体实例同样适用于本实施例的一种基于人工智能的大数据处理系统,通过前述对一种基于人工智能的大数据处理方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于人工智能的大数据处理系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
实施例三
图5是根据本公开第三实施例的示意图,如图5所示,本公开中的电子设备800可以包括:处理器801和存储器802。
存储器802,用于存储程序;存储器802,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random AccessMemory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flash memory)。存储器802用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指令、数据等可以被处理器801调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器802中。并且上述的计算机程序、计算机指据等可以被处理器801调用。
处理器801,用于执行存储器802存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器801和存储器802可以是独立结构,也可以是集成在一起的集成结构。当处理器801和存储器802是独立结构时,存储器802、处理器801可以通过总线803耦合连接。
本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行,也可以顺序地执行也可以不同的次序执行,
只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (6)

1.一种基于人工智能的大数据处理方法,其特征在于,所述方法应用于人工智能的大数据处理系统,所述系统包括多维特征识别模型,所述方法包括:
连接所述大数据处理系统接收待处理数据集;
对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置,包括:
根据数据类型特征对所述多个数据库进行存储格式的参数配置;
根据数据量特征对所述多个数据库进行存储大小的参数配置;
根据数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构;
其中,所述方法还包括:
基于所述待处理数据集,生成样本数据集;
对所述样本数据集进行样本特征分析,得到样本特征强度;
判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征;
将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述大数据处理系统的数据接收源;
对所述数据接收源进行分析,得到各个数据接收源对应的数据量;
对所述各个数据接收源对应的数据量进行分析,得到多个并发数指标,其中,所述多个并发数指标与所述各个数据接收源一一对应;
根据所述多个并发数指标,得到所述并发指标阈值。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
得到所述大数据处理系统用于进行数据访存的实时数据库;
获取所述实时数据库的属性参数,包括存储格式、存储容量和存储速率;
根据所述存储格式、所述存储容量和所述存储速率进行负载计算,得到所述实时数据库对应的负载指标;
基于所述实时数据库对应的负载指标,生成所述预设上限并发指标。
4.如权利要求3所述的方法,其特征在于,判断所述上限并发指标是否大于预设上限并发指标,方法还包括:
若所述上限并发指标大于所述预设上限并发指标,获取并发指标差向量;
将所述并发指标差向量作为部署目标,输入所述大数据处理系统的数据采集终端进行响应,得到第一响应结果,其中,所述第一响应结果为数据库部署数量的响应结果。
5.一种基于人工智能的大数据处理系统,其特征在于,所述系统包括多维特征识别模型,所述系统包括:
数据集接收模块,所述数据集接收模块用于连接所述大数据处理系统接收待处理数据集;
并发数指标计算模块,所述并发数指标计算模块用于对所述待处理数据集进行并发数指标计算,得到并发指标阈值,其中,所述并发指标阈值包括下限并发指标和上限并发指标;
上限并发指标判断模块,所述上限并发指标判断模块用于判断所述上限并发指标是否大于预设上限并发指标,若所述上限并发指标大于所述预设上限并发指标,获取部署指令;
数据库部署模块,所述数据库部署模块用于获取所述大数据处理系统的数据采集终端,按照所述部署指令,在所述数据采集终端部署多个数据库;
多维特征识别模块,所述多维特征识别模块用于连接所述多维特征识别模型,获取所述待处理数据集的数据特征,其中,所述多维特征识别模型嵌于所述大数据处理系统;
属性配置模块,所述属性配置模块用于根据所述待处理数据集的数据特征对所述多个数据库的属性进行配置;
样本数据集生成模块,所述样本数据集生成模块用于基于所述待处理数据集,生成样本数据集;
样本特征分析模块,所述样本特征分析模块用于对所述样本数据集进行样本特征分析,得到样本特征强度;
样本特征强度判断模块,所述样本特征强度判断模块用于判断所述样本特征强度是否大于预设样本特征强度,若所述样本特征强度大于所述预设样本特征强度,激活所述多维特征识别模型;
数据特征获取模块,所述数据特征获取模块用于将所述样本数据集输入所述多维特征识别模型,获取所述待处理数据集的数据特征;
样本数据集输入模块,所述样本数据集输入模块用于将所述样本数据集输入所述多维特征识别模型,其中,所述多维特征识别模型包括数据类型特征、数据量特征和数据关联特征;
数据多维特征输出模块,所述数据多维特征输出模块用于将所述数据类型特征、所述数据量特征和所述数据关联特征作为所述多维特征识别模型的输出结果;
参数配置模块,所述参数配置模块用于根据所述数据类型特征对所述多个数据库进行存储格式的参数配置;
存储大小配置模块,所述存储大小配置模块用于根据所述数据量特征对所述多个数据库进行存储大小的参数配置;
连接关系配置模块,所述连接关系配置模块用于根据所述数据关联特征对所述多个数据库进行连接关系配置,搭建所述多个数据库的拓扑结构。
6.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
CN202310226867.8A 2023-03-03 2023-03-03 一种基于人工智能的大数据处理方法及系统 Active CN116166639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226867.8A CN116166639B (zh) 2023-03-03 2023-03-03 一种基于人工智能的大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226867.8A CN116166639B (zh) 2023-03-03 2023-03-03 一种基于人工智能的大数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN116166639A CN116166639A (zh) 2023-05-26
CN116166639B true CN116166639B (zh) 2024-04-26

Family

ID=86418325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226867.8A Active CN116166639B (zh) 2023-03-03 2023-03-03 一种基于人工智能的大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN116166639B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991190A (zh) * 2017-04-11 2017-07-28 广东浪潮大数据研究有限公司 一种数据库自动创建子数据库系统
CN108182475A (zh) * 2017-12-29 2018-06-19 中南大学 一种基于自动编码机-超限学习机的多维度数据特征识别方法
CN109101589A (zh) * 2018-07-25 2018-12-28 青岛聚看云科技有限公司 一种自动调整内存数据库空间大小的方法、装置及系统
CN111881579A (zh) * 2020-07-27 2020-11-03 成都安世亚太科技有限公司 一种复杂动态数据模型管理方法
CN112035258A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及介质
CN114443619A (zh) * 2022-01-27 2022-05-06 中国电信股份有限公司 数据库扩容方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331150B (zh) * 2016-09-18 2018-05-18 北京百度网讯科技有限公司 用于调度云服务器的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991190A (zh) * 2017-04-11 2017-07-28 广东浪潮大数据研究有限公司 一种数据库自动创建子数据库系统
CN108182475A (zh) * 2017-12-29 2018-06-19 中南大学 一种基于自动编码机-超限学习机的多维度数据特征识别方法
CN109101589A (zh) * 2018-07-25 2018-12-28 青岛聚看云科技有限公司 一种自动调整内存数据库空间大小的方法、装置及系统
CN111881579A (zh) * 2020-07-27 2020-11-03 成都安世亚太科技有限公司 一种复杂动态数据模型管理方法
CN112035258A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据处理方法、装置、电子设备及介质
CN114443619A (zh) * 2022-01-27 2022-05-06 中国电信股份有限公司 数据库扩容方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116166639A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
JP6634515B2 (ja) 自動質問応答システムにおける質問クラスタリング処理方法及び装置
US20200019881A1 (en) Feature processing method and feature processing system for machine learning
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
US20200125996A1 (en) Automated software selection using a vector-trained deep learning model
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
CN117150050B (zh) 一种基于大语言模型的知识图谱构建方法及系统
CN109710224B (zh) 页面处理方法、装置、设备及存储介质
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
CN114138977A (zh) 日志处理方法、装置、计算机设备和存储介质
CN115687810A (zh) 网页搜索方法、装置及相关设备
CN116166639B (zh) 一种基于人工智能的大数据处理方法及系统
CN113849679A (zh) 图像检索方法、装置、电子设备及存储介质
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN117909505B (zh) 事件论元的抽取方法及相关设备
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法
US20230394361A1 (en) Machine learning model search using meta data
CN118152571A (zh) 文本分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240402

Address after: Room 701, Building 7, Dahua Group Xi'an Shuzhi Industrial Park, No. 789 Tiangu 6th Road, High tech Zone, Xi'an City, Shaanxi Province, 710000

Applicant after: Xi'an Kuaiyu Technology Co.,Ltd.

Country or region after: China

Address before: Room 01-3, Floor 3, Building 4, International Enterprise Center, No. 1, Guanshan 2nd Road, Donghu New Technology Development Zone, Wuhan, Hubei Province, 430000 (Wuhan area of the Free Trade Zone)

Applicant before: Wuhan Junxinda Information Consulting Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant