CN115983377A - 基于图神经网络的自动学习方法、装置、计算设备及介质 - Google Patents

基于图神经网络的自动学习方法、装置、计算设备及介质 Download PDF

Info

Publication number
CN115983377A
CN115983377A CN202211684251.7A CN202211684251A CN115983377A CN 115983377 A CN115983377 A CN 115983377A CN 202211684251 A CN202211684251 A CN 202211684251A CN 115983377 A CN115983377 A CN 115983377A
Authority
CN
China
Prior art keywords
optimal
automatic
file
model structure
hyper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211684251.7A
Other languages
English (en)
Inventor
郭熹
贺鸣
张珂珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202211684251.7A priority Critical patent/CN115983377A/zh
Publication of CN115983377A publication Critical patent/CN115983377A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于图神经网络的自动学习方法、装置、计算设备及存储介质,涉及数据处理技术领域,该方法包括:图数据自动处理步骤,自动对图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;网络模型结构自动搜索步骤,自动搜索最优网络模型结构,以获得最优模型结构文件;超参数自动搜索步骤,基于最优模型结构文件,自动搜索最优初始超参数,以获得最优超参数文件;以及最优模型自动训练步骤,利用获得的新图数据、最优模型结构文件和最优超参数文件进行训练,自动获得最优模型文件。本发明提供的技术方案,利用特征、模型和超参数统一进行训练,全自动进行训练和部署,降低了人工和时间成本。

Description

基于图神经网络的自动学习方法、装置、计算设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于图神经网络的自动学习方法、一种基于图神经网络的自动学习装置、一种计算设备以及一种计算机可读存储介质。
背景技术
机器学习是人工智能的一个子集,旨在为系统提供从数据中学习和改进的能力,以及通过经验自动学习和提高技能的计算机算法。机器学习不需要显式设计,它在许多不同的应用中都取得了令人印象深刻的结果,特别是当显式地定义规则来解决特定任务较为困难的或不可行的时候。同时,自动机器学习(AutoML)已被广泛研究,以减少开发和部署机器学习模型的人力。完整的AutoML管道有潜力实现机器学习的每一步自动化,包括自动特征工程、自动模型选择和自动超参数选择等。由于深度学习模型的普及,超参数优化(HPO)和神经结构搜索(NAS)研究最为广泛。AutoML在计算机视觉、自然语言处理等领域通过无人工干预的方式训练模型,其性能已经远远超过了人类。
近年来,人们对将机器学习应用于图结构数据的兴趣日益浓厚,主要目标是自动学习合适的表示,以做出预测,发现新的模式,并以一种比“传统”机器学习方法更好的方式理解复杂的动态。尽管图机学习算法非常流行,但大量使用人工超参数或架构设计来获得最佳性能,导致在各种图任务中出现大量模型,同时需要耗费大量人力。
发明内容
为了至少部分解决现有技术中存在的在各种图任务中出现大量模型,同时需要耗费大量人力的技术问题而完成了本发明。
根据本发明的一方面,提供一种基于图神经网络的自动学习方法,该方法包括以下步骤:图数据自动处理步骤,自动对图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;网络模型结构自动搜索步骤,自动搜索网络模型结构,自动找出最优网络模型结构,以获得最优模型结构文件;超参数自动搜索步骤,基于所述最优模型结构文件,自动搜索(特征网络模型的)最优初始超参数,以获得最优超参数文件;以及最优模型自动训练步骤,利用获得的所述新图数据、所述最优模型结构文件和所述最优超参数文件进行训练,自动获得最优模型文件。
可选地,在所述图数据自动处理步骤中,所述特征压缩包括,根据所述图数据的应用场景和特征类型对所述图数据进行特征重要性分析,获得每一维度特征的重要性排名,删除低方差特征,并形成压缩后特征;所述特征生成包括,复制一份所述压缩后特征,进行归一化处理,并生成新特征;并且所述特征拼接包括,将所述压缩后特征与生成的所述新特征进行拼接。
可选地,所述网络模型结构自动搜索步骤包括:设定所述网络模型结构的搜索空间;选择搜索算法;确定搜索评估指标;开始所述网络模型结构的搜索;生成所述最优模型结构文件。
可选地,所述超参数自动搜索步骤包括:导入所述最优模型结构文件;设定超参数的搜索空间;配置搜索策略;确定搜索评估指标;开始所述超参数搜索;生成所述最优超参数文件。
可选地,所述最优模型自动训练步骤包括:自动导入所述新图数据、所述最优模型结构文件和所述最优超参数文件;配置相关的训练资源;训练模型;自动生成所述最优模型文件。
可选地,所述网络模型结构的搜索算法包括DARTS、ENAS、Random和RL中的一种或多种;并且所述超参数的搜索算法包括Grid、Random、Bayesian、Hyoerband、Tree ofParzen Estimators、Covariance Matrix Adapataiton Evolution Strateg中的一种或多种。
可选地,所述网络模型结构的搜索评估指标和所述超参数的搜索评估指标均包括准确率(Accuracy)、损失值(Loss)、AUC值(AUC)、接收机操作特性(ROC)、F1值(F1 Score)、排序值(Ranking Score)中的一种或多种。
根据本发明的另一方面,提供一种基于图神经网络的自动学习装置,该装置包括:图数据自动处理模块,其自动对所述图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;网络模型结构自动搜索模块,其自动搜索网络模型结构,自动找出最优网络模型结构,以获得最优模型结构文件;超参数自动搜索模块,其基于所述最优模型结构文件,自动搜索(特征网络模型的)最优的初始超参数,以获得最优超参数文件;以及最优模型自动训练模块,其利用获得的所述新图数据、所述最优模型结构文件和所述最优超参数文件进行训练,自动获得最优模型文件。
根据本发明的又一方面,提供一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行前述自动学习方法。
根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述自动学习方法。
本发明提供的技术方案可以包括以下有益效果:
本发明提供的基于图神经网络的自动学习方法,通过图数据的自动特征工程、自动超参数搜索、自动神经网络模型结构搜索和自动模型训练,减少图机器学习中人工的参与,在提高模型性能的同时,能极大减少人工成本,加快项目的落地速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的基于图神经网络的自动学习方法的流程图;
图2为本发明实施例提供的基于图神经网络的自动学习装置的示意图;
图3为本发明实施例提供的计算设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参考图1,本发明的一个方面提供一种基于图神经网络的自动学习方法,该方法包括以下步骤:图数据自动处理步骤(图数据自动预处理),自动对图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;网络模型结构自动搜索步骤(神经结构搜索),自动搜索网络模型结构,自动找出最优网络模型结构,以获得最优模型结构文件;超参数自动搜索步骤,基于最优模型结构文件,自动搜索(特征网络模型的)最优初始超参数,以获得最优超参数文件;以及最优模型自动训练步骤(图网络神经自动训练),利用获得的新图数据、最优模型结构文件和最优超参数文件进行训练,自动获得最优模型文件。
下面结合图1对基于图神经网络的自动学习方法中的各个步骤进行更详细的描述。
图数据自动处理步骤
图数据自动处理步骤这里也称为自动化图特征工程,在图数据自动处理步骤中,对图数据进行特征压缩、特征生成和特征拼接。特征压缩包括,根据图数据的应用场景和特征类型对图数据进行特征重要性分析,获得每一维度特征的重要性排名,删除低方差特征,并形成压缩后特征;特征生成包括,复制一份压缩后特征,进行归一化处理,并生成新特征;并且特征拼接包括,将压缩后特征与生成的新特征进行拼接。
进一步地,图数据自动处理步骤主要用于对获取的图数据中节点/边/图特征的自动压缩、归一化和新特征生成,提高特征的紧密性和高效性。在图数据自动处理步骤中,对各项数据进行筛选、分析和归一化处理,根据图数据中的节点/边/图特征生成新的特征,支持对特征进行压缩,该步骤主要包含以下多种自动数据预处理方法:自动根据节点和边的特征生成新的特征;自动统计所有节点的local graphlet—节点构成的基础子图的数据形成新的节点特征;自动将Pagerank分数拼接在原始节点特征上;自动计算和统计节点所有的出入特征;自动计算节点特征的时序特征。图数据自动处理还提供节点特征和边特征的归一化,以及基于随机森林、XGboost、CART(Classification And Regression Trees)、GBDT(Gradient Boosting Decision Tree)等方法进行特征重要性分析和特征压缩。
更进一步地,在图数据自动处理步骤中,自动完成三个步骤,第一个步骤是特征压缩,根据数据的应用场景和特征类型从基于随机森林、XGboost、CART、GBDT四种方法选择一种进行特征重要性分析,获得每一维度特征的重要性排名,删除低方差特征;第二个步骤是特征生成,复制一份压缩后的特征,并进行归一化处理,从local graphlet生成方法、Page_rank生成方法、出入度特征生成方法和时序特征生成方法中选择一种进行新特征的生成;第三个步骤是特征拼接,将压缩后的特征与生成的新特征进行拼接,存入数据集仓库(将在后文中描述)进行版本管理。
网络模型结构自动搜索步骤
网络模型结构自动搜索步骤主要用于在不同场景下对图神经网络模型结构进行自动探索,以获得该场景下最优性能的模型结构,搜索的主要目标是模型的具体结构,包括不同的网络层结构,每层网络层的具体参数和层与层之间的连接方式等。
网络模型结构自动搜索步骤包括:设定网络模型结构的搜索空间;选择搜索算法;确定搜索评估指标;以及进行网络模型结构的搜索,并生成最优模型结构文件。
进一步地,网络模型结构自动搜索步骤主要用于最优网络结构的自动搜索,其中包含多任务并行策略的设置,搜索算法的选择,搜索空间的定义和搜索目标的确定:多任务并行策略需要设定并行的实验数,最大实验次数和最多失败数;神经网络结构自动搜索的算法包括但不限于DARTS(Differentiable Architecture Search)、ENAS(EfficientNeural Architecture Search)、Random和RL(Reinforcement Learning)中的一种或多种;搜索空间定义的范围包括不同的网络层结构,多个网络层构成的结构基元,每层网络层的具体参数和层与层之间的连接方式;搜索目标即满足设定的评估指标,评估指标包括但不限于Accuracy、Loss、AUC(Area Under Curve)、ROC(Receiver OperatingCharacteristic)、F1 Score和Ranking Score等中的一种或多种。
更进一步地,在网络模型结构自动搜索步骤中,通过四个步骤完成该部分的全自动流程,第一个步骤是设定基于该场景下图神经网络模型结构的搜索空间,搜索空间主要的基元结构包括不同的网络层结构,每层网络层的具体参数和层与层之间的连接方式等;第二个步骤是根据任务目标和数据所在场景选择搜索算法,支持DARTS、ENAS、Random和RL等自动搜索算法;第三个步骤是配置训练资源,固定模型训练中的所有超参数,导入自动生成新数据;第四个步骤是确定搜索的评估准则,开始进行神经网络结构搜索,生成最优模型的模型结构文件(如pytorch的.pt模型文件),通过可视化工具在网页上渲染网络结构,使用户对生成的最优网络有一个更清晰的了解。
超参数自动搜索步骤
超参数自动搜索步骤主要用于自动化寻找机器学习中的特征网络模型的最优初始超参数组合。更具体地,超参数自动搜索步骤包括:导入最优模型结构文件;设定超参数的搜索空间;配置搜索策略;确定搜索评估指标;以及进行超参数搜索,并生成最优超参数文件。
进一步地,超参数自动搜索步骤主要用于搜索特征网络模型的最优的初始超参数,其中包含多任务并行策略设置,数据导入,搜索策略和搜索空间定义:多任务并行策略需要设定并行的实验数,最大实验次数和最多失败次数;超参数搜索空间通过参数名称,参数类型和参数范围的定义来确定。参数范围的定义有两种方式,第一种为取值区间,设定该参数的最大和最小范围,每次搜索遵从搜索算法的规则选择区间中的某个值,第二种为可选区间,定义可选项,每次搜索遵从自动搜索选择其中之一;超参数自动搜索的算法包括但不限于:Grid、Random、Bayesian、Hyoerband、Tree of Parzen Estimators、CovarianceMatrix Adapataiton Evolution Strategy等中的一种或多种;评估器和评估指标包括但不限于Accuracy、Loss、AUC、ROC、F1 Score、Ranking Score等中的一种或多种。
更进一步地,在超参数自动搜索步骤中,通过五个步骤完成该部分的全自动流程,第一个步骤是导入自动搜索出的最优网络模型文件;第二个步骤是设定模型的超参数搜索空间,包含学习率,优化器和数据预处理方法中需要的参数等,参数选择需要确定三个字段,分别为参数名称、参数类型和参数范围,当参数类型为int/double时,参数范围填写最大值最小值,当参数类型为Categorical,参数范围填写可选列表,将所有可以的选项都写在列表中;第三个步骤是配置训练资源,设定实验的并行策略,包括最大并行数,最大试验次数和最多失败次数;第四个步骤配置搜索策略,包含Grid、Random、Bayesian、Hyoerband、Tree of Parzen Estimators、Covariance Matrix Adapataiton Evolution Strategy等策略;第五个步骤是确定评估指标,进行超参数搜索实验,生成并保存成最优超参数文件(Json格式文件)。
最优模型自动训练步骤
最优模型自动训练步骤包括:自动导入上述新图数据、上述最优模型结构文件和上述最优超参数文件;配置相关的训练资源;以及训练模型,生成最优模型文件。
进一步地,最优模型自动训练步骤将搜索出的网络结构进行超参数搜索获得最优的超参数组合,最大程度降低人工干预,完成模型结构和超参数组合的全自动训练,将网络模型结构自动搜索模块生成的文件和超参数自动搜索模块得到的超参数组合一起放入训练模块,训练模块会自动生成该模型,同时使用超参搜索的结果初始化训练参数,配置完成后自动训练模型,并生成对应的模型文件供后续评估和部署使用。
最优模型自动训练步骤主要用于图机器自动学习的全流程自动化,完成对特征工程,神经网络结构搜索和超参数搜索的统一,通过自动化的方式获得特定场景下的最优模型文件(如pytorch的.pt模型文件)。
更进一步地,在最优模型自动训练步骤中,通过三个步骤自动完成该部分的全自动流程,第一个步骤是自动导入图数据自动处理步骤生成的新数据、网络模型结构自动搜索步骤生成的最优模型结构文件和超参数自动搜索步骤得到的最优超参数文件;第二个步骤是配置相关的训练资源,包括GPU、CPU和内存资源;第三个步骤是训练模型,生成模型文件(如pytorch的.pt模型文件),并保存到模型仓库(将在后文中描述)中进行管理。
参考图2,本发明还提供一种基于图神经网络的自动学习装置10,该装置10可以包括:图数据自动处理模块13(即,图数据处理模块),其自动对图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;网络模型结构自动搜索模块14(即,神经网络结构自动搜索模块),其自动搜索网络模型结构,自动找出最优网络模型结构,以获得最优模型结构文件;超参数自动搜索模块15,其基于最优模型结构文件,自动搜索(特征网络模型的)最优初始超参数,以获得最优超参数文件;以及最优模型自动训练模块16(即,模型自动训练模块),其利用获得的新图数据、最优模型结构文件和最优超参数文件进行训练,自动获得最优模型文件。
此外,基于图神经网络的自动学习装置10还可以包括:图数据库模12,其用于存储数据;图数据映射和上传模块11,其将表数据转换成图数据,并将图数据上传至图数据库模块12;模型仓库模块17,其用于对获得的最优模型文件进行存储和版本管理;以及模型评估和部署模块18,其用于对最优模型文件进行评估报告和应用部署。
下面结合图2对本发明的基于图神经网络的自动学习装置10进行更详细地描述。
图数据映射和上传模块11
图数据映射和上传模块11主要通过知识定义将表数据中信息转换为图数据,生成图数据集,以及支持用户自定义上传数据,存入图数据库。图数据映射和上传模块11支持通过节点和关系的知识定义进行表数据向图数据的转换,用户需要定义同构图节点的主键,节点属性列和节点之间的关系,通过列名映射的方法自动将图表数据转化为表数据,同时自主上传OGB标准格式的图数据,映射和生成的数据集将被保存到数据集仓库模块,进行数据的版本控制。
图数据库模12
图数据库模12主要用于图数据集的版本控制,管理图数据映射上传和用户自定义上传,存储图数据处理模块生成的新版本数据集,是后续功能模块的数据集仓库。换言之,图数据库模12主要用于图数据集的版本控制,进行数据集的上传,新增,生成和删除,支撑后续的功能和数据集的不断迭代。
图数据处理模块13
图数据处理模块13主要用于对获取的各项数据进行筛选、分析和归一化处理,根据图数据中的节点/边/图特征生成新的特征,支持对特征进行压缩。
图数据处理模块13自动完成三个步骤,第一个步骤是特征压缩,根据数据的应用场景和特征类型从基于随机森林、XGboost、CART、GBDT四种方法选择一种进行特征重要性分析,获得每一维度特征的重要性排名,删除低方差特征;第二个步骤是特征生成,复制一份压缩后的特征,并进行归一化处理,从local graphlet生成方法、Page_rank生成方法、出入度特征生成方法和时序特征生成方法中选择一种进行新特征的生成;第三个步骤是特征拼接,将压缩后的特征与生成的新特征进行拼接,存入数据集仓库进行版本管理。
网络模型结构自动搜索模块14
网络模型结构自动搜索模块14主要用于最优网络结构的自动搜索,其中包含资源配置、数据导入、搜索策略和搜索空间定义四个板块。
网络模型结构自动搜索模块14通过四个步骤完成该部分的全自动流程,第一个步骤是设定基于该场景下图神经网络模型结构的搜索空间,搜索空间主要的基元结构包括不同的网络层结构,每层网络层的具体参数和层与层之间的连接方式等;第二个步骤是根据任务目标和数据所在场景选择搜索算法,支持DARTS、ENAS、Random和RL等自动搜索算法;第三个步骤是配置训练资源,固定模型训练中的所有超参数,导入自动生成新数据;第四个步骤是确定搜索的评估准则,开始进行神经网络结构搜索,生成最优模型的模型结构文件(如pytorch的.pt模型文件),通过可视化工具在网页上渲染网络结构,使用户对生成的最优网络有一个更清晰的了解。
超参数自动搜索模块15
超参数自动搜索模块15主要用于模型的最优超参数组合搜索,超参数搜索的目标,包括学习率,优化器和数据预处理方法中需要的参数等。
超参数自动搜索模块15通过五个步骤完成该部分的全自动流程,第一个步骤是导入自动搜索出的最优网络模型文件;第二个步骤是设定模型的超参数搜索空间,包含学习率,优化器和数据预处理方法中需要的参数等,参数选择需要确定三个字段,分别为参数名称、参数类型和参数范围,当参数类型为int/double时,参数范围填写最大值最小值,当参数类型为Categorical,参数范围填写可选列表,将所有可以的选项都写在列表中;第三个步骤是配置训练资源,设定实验的并行策略,包括最大并行数,最大试验次数和最多失败次数;第四个步骤配置搜索策略,包含Grid、Random、Bayesian、Hyoerband、Tree of ParzenEstimators、Covariance Matrix Adapataiton Evolution Strategy等策略;第五个步骤是确定评估指标,进行超参数搜索实验,生成并保存成最优超参数文件(Json格式文件)。
最优模型自动训练模块16
最优模型自动训练模块16主要用于图机器自动学习的全流程自动化,完成对特征工程,神经网络结构搜索和超参数搜索的统一,通过完全自动化的方式获得特定场景下的最优模型文件(如pytorch的.pt模型文件)。
最优模型自动训练模块16通过三个步骤自动完成该部分的全自动流程,第一个步骤是自动导入图数据自动处理模块13生成的新数据、网络模型结构自动搜索模块14生成的最优模型结构文件和超参数自动搜索模块15得到的最优超参数文件;第二个步骤是配置相关的训练资源,包括GPU、CPU和内存资源;第三个步骤是训练模型,生成模型文件(如pytorch的.pt模型文件),并保存到模型仓库中进行管理。
模型仓库模块17
模型仓库模块17主要用于生成模型的存储和版本管理,根据任务场景区分模型类型,支持模型上传、部署和删除。
模型评估和部署模块18
模型评估和部署模块18主要用于生成模型的评估报告,评估报告的主要内容包括性能、响应时间和业务性能,同时支持对已有模型进行快速部署和自定义部署。
模型评估报告的主要内容包括性能、响应时间和业务性能等,其中性能评估包括Accuracy、Loss、AUC、ROC、F1 Score、Ranking Score等指标,业务性能需要用户提供相应的指标接口才能使用。模型评估具体包括三个步骤,第一个步骤是从模型仓库中选择需要测试的模型;第二个步骤是选择测试数据集,可选择数据集会自动被限定在模型的场景类型中;第三个步骤是选择需要评估的性能指标,可以在性能、响应时间和业务性能中同时选择多个性能指标。应用部署具体操作包括选择模型仓库中存储的模型和需要的版本,选择部署所需要的部署资源(GPU、CPU和内存),选择部署方案,完成后会生成一个API连接地址和传参示例,用户根据传参示例传入自己的数据,即可返回所需结果。
基于相同的技术构思,本发明实施例相应还提供一种计算设备20,如图3所示,计算设备20包括存储器21和处理器22,存储器21中存储有计算机程序,当处理器22运行存储器21存储的计算机程序时,处理器22执行前述自动学习方法。
基于相同的技术构思,本发明实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,处理器执行前述自动学习方法。
本发明提出了表数据向图数据的自动转化。常见的数据存储方式是以表的方式,但是无法直接存储数据中节点与节点的关系,表数据中查询、搜索和计算的时间复杂度高,效率低下。因此以预定义节点关系的方式,将表数据转换为格式更优的图数据存储方式,扩大图神经网络数据来源的范围,图数据的转换自动化,提高了转换和计算的速度。
本发明提出了基于图数据的一种通用的自动特征工程方法。图数据中节点/边的原始特征拥有信息有效率是不确定的,本发明提出的方法首先对原始特征进行特征重要性分析,删除重要性较低特征,加强特征空间的紧密性,然后根据应用场景自动生成多种特征,使用同一模型和参数进行评估,选出其中最优的特征,保存到数据集仓库并生成新的版本。
本发明还提出了基于图数据的全自动模型训练方法,包含特征工程、神经网络结构搜索、超参数搜索和最优模型自动训练。常规的基于专家的图神经网络训练过程中,需要专家手动设计图特征、网络模型结构和超参数组合,并根据事实的测试结构不断优化上述的三个步骤,其时间成本比较高。本发明提出的全自动模型训练方法,会自动进行特征工程,压缩并生成高质量的节点/边特征,并且可自动探索网络模型结构,自动找出当前场景下的最优网络结构,在最优网络结构的基础上进行超参数搜索,完成后利用特征,模型和超参数统一进行训练,全自动进行训练和部署,降低人工和时间成本。
本专利提出一种基于图神经网络的自动学习方法和装置,通过图谱定义将图表数据自动转化为图数据,使用特征工程模块处理原始特征,生成质量高的新的数据集,使用神经网络结构自动搜索和超参数自动搜索完成对最优模型和最优超参数组合的探索,减少人工参与,降低人工智能领域的门槛,最后通过自动训练模块完成对特征、模型和超参数组合的统一训练和部署,为现实中的项目部署的高质量快速落地建立支撑。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于图神经网络的自动学习方法,其特征在于,包括以下步骤:
图数据自动处理步骤,自动对图数据进行特征压缩、特征生成和特征拼接,以获得新的图数据;
网络模型结构自动搜索步骤,自动搜索最优网络模型结构,以获得最优模型结构文件;
超参数自动搜索步骤,基于所述最优模型结构文件,自动搜索最优初始超参数,以获得最优超参数文件;以及
最优模型自动训练步骤,利用获得的所述新的图数据、所述最优模型结构文件和所述最优超参数文件进行训练,自动获得最优模型文件。
2.根据权利要求1所述的自动学习方法,其特征在于,在所述图数据自动处理步骤中,
所述特征压缩包括,根据所述图数据的应用场景和特征类型对所述图数据进行特征重要性分析,获得每一维度特征的重要性排名,删除低方差特征,并形成压缩后特征;
所述特征生成包括,复制一份所述压缩后特征,进行归一化处理,并生成新特征;并且
所述特征拼接包括,将所述压缩后特征与所述新特征进行拼接。
3.根据权利要求1所述的自动学习方法,其特征在于,所述网络模型结构自动搜索步骤包括:设定网络模型结构的搜索空间;选择搜索算法;确定搜索评估指标;开始所述网络模型结构的搜索;生成所述最优模型结构文件。
4.根据权利要求1所述的自动学习方法,其特征在于,所述超参数自动搜索步骤包括:导入所述最优模型结构文件;设定超参数的搜索空间;配置搜索策略;确定搜索评估指标;开始所述超参数的搜索;生成所述最优超参数文件。
5.根据权利要求1所述的自动学习方法,其特征在于,所述最优模型自动训练步骤包括:自动导入所述新的图数据、所述最优模型结构文件和所述最优超参数文件;配置训练资源;训练模型;自动生成所述最优模型文件。
6.根据权利要求3或4所述的自动学习方法,其特征在于,
所述网络模型结构的搜索算法包括DARTS、ENAS、Random和RL中的一种或多种;并且
所述超参数的搜索算法包括Grid、Random、Bayesian、Hyoerband、Tree of ParzenEstimators、Covariance Matrix Adapataiton Evolution Strateg中的一种或多种。
7.根据权利要求3或4所述的自动学习方法,其特征在于,
所述网络模型结构的搜索评估指标和所述超参数的搜索评估指标均包括准确率、损失值、AUC值、接收机操作特性、F1值、排序值中的一种或多种。
8.一种基于图神经网络的自动学习装置,其特征在于,包括:
图数据自动处理模块,其自动对图数据进行特征压缩、特征生成和特征拼接,以获得新图数据;
网络模型结构自动搜索模块,其自动搜索最优网络模型结构,以获得最优模型结构文件;
超参数自动搜索模块,其基于所述最优模型结构文件,自动搜索最优初始超参数,以获得最优超参数文件;以及
最优模型自动训练模块,其利用获得的所述新图数据、所述最优模型结构文件和所述最优超参数文件进行训练,自动获得最优模型文件。
9.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1至7中任一项所述的自动学习方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,所述处理器执行根据权利要求1至7中任一项所述的自动学习方法。
CN202211684251.7A 2022-12-27 2022-12-27 基于图神经网络的自动学习方法、装置、计算设备及介质 Pending CN115983377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211684251.7A CN115983377A (zh) 2022-12-27 2022-12-27 基于图神经网络的自动学习方法、装置、计算设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211684251.7A CN115983377A (zh) 2022-12-27 2022-12-27 基于图神经网络的自动学习方法、装置、计算设备及介质

Publications (1)

Publication Number Publication Date
CN115983377A true CN115983377A (zh) 2023-04-18

Family

ID=85969566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211684251.7A Pending CN115983377A (zh) 2022-12-27 2022-12-27 基于图神经网络的自动学习方法、装置、计算设备及介质

Country Status (1)

Country Link
CN (1) CN115983377A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116370A (zh) * 2023-08-11 2023-11-24 广州标智未来科学技术有限公司 一种化学反应产率预测方法及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116370A (zh) * 2023-08-11 2023-11-24 广州标智未来科学技术有限公司 一种化学反应产率预测方法及电子设备

Similar Documents

Publication Publication Date Title
US12099906B2 (en) Parallel development and deployment for machine learning models
Miao et al. Towards unified data and lifecycle management for deep learning
WO2020010251A1 (en) Automated machine learning system
US20230139783A1 (en) Schema-adaptable data enrichment and retrieval
US10268749B1 (en) Clustering sparse high dimensional data using sketches
CN116702835A (zh) 神经网络推理加速方法、目标检测方法、设备及存储介质
CN110706015A (zh) 一种面向广告点击率预测的特征选取方法
EP4339843A1 (en) Neural network optimization method and apparatus
CN110737805A (zh) 图模型数据的处理方法、装置和终端设备
Miao et al. Modelhub: Towards unified data and lifecycle management for deep learning
CN115983377A (zh) 基于图神经网络的自动学习方法、装置、计算设备及介质
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
US11797577B2 (en) Smart data warehouse for cloud-based reservoir simulation
CN115730507A (zh) 模型引擎的构建、核函数处理方法、设备及存储介质
CN115858725B (zh) 一种基于无监督式图神经网络的文本噪声筛选方法及系统
CN116958608A (zh) 对象识别模型的更新方法、装置、设备、介质及程序产品
CN114780443A (zh) 微服务应用自动化测试方法、装置、电子设备及存储介质
US20230018525A1 (en) Artificial Intelligence (AI) Framework to Identify Object-Relational Mapping Issues in Real-Time
US11829735B2 (en) Artificial intelligence (AI) framework to identify object-relational mapping issues in real-time
CN114826921B (zh) 基于抽样子图的网络资源动态分配方法、系统及介质
US20230385181A1 (en) Re-usable web-objects for use with automation tools
US20240004932A1 (en) Automated query modification using graphical query representations
US20230394098A1 (en) Feature recommendation based on user-generated content
CN116610360A (zh) 信息的提取方法和装置、处理器及电子设备
CN115422245A (zh) 一种用于图数据局部性挖掘的重排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination