CN114897154A - 数据预测方法及装置 - Google Patents
数据预测方法及装置 Download PDFInfo
- Publication number
- CN114897154A CN114897154A CN202210295429.2A CN202210295429A CN114897154A CN 114897154 A CN114897154 A CN 114897154A CN 202210295429 A CN202210295429 A CN 202210295429A CN 114897154 A CN114897154 A CN 114897154A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- data prediction
- prediction model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 263
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开实施例公开了一种数据预测方法及装置,所述方法包括:确定目标数据;获取所述目标数据的特征数据;将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。该技术方案能够明确每层神经网络训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
Description
技术领域
本公开实施例涉及机器学习技术领域,具体涉及一种数据预测方法及装置。
背景技术
随着科学技术的发展和进步,对于数据进行分类或预测的需求越来越广泛,而具有多层结构的神经网络等深度学习模型也由于分类预测效果较好而得到广泛的应用,比如将一段新闻文本输入至神经网络中可得到对于该新闻文本领域的相对准确的分类结果。现有技术在设计或者训练所述深度学习模型时,或者依靠经验基于现有的方案组建模型,比如利用一些经典通用的模型来进行组建,或者使用大范围搜索的方式来找到优化的模型结构,这些设计和训练方法大多是以整个模型作为整体,借助一种近乎黑盒的方式通过反向传播算法来训练得到各层模型的参数,这将会丧失每层神经网络训练的目标性,进而使得模型训练的效率低下,阻碍训练模型准确率的提高。
发明内容
本公开实施例提供一种数据预测方法及装置。
第一方面,本公开实施例中提供了一种数据预测方法。
具体的,所述数据预测方法,包括:
确定目标数据;
获取所述目标数据的特征数据;
将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
结合第一方面,本公开实施例在第一方面的第一种实现方式中,还包括:
训练所述数据预测模型。
结合第一方面和第一方面的第一种实现方式,本公开实施例在第一方面的第二种实现方式中,所述训练所述数据预测模型,包括:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
结合第一方面、第一方面的上述实现方式,本公开在第一方面的第三种实现方式中,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型,包括:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
结合第一方面、第一方面的上述实现方式,本公开在第一方面的第四种实现方式中,所述对于所述多层数据预测子模型分别进行正交初始化,包括:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
结合第一方面、第一方面的上述实现方式,本公开在第一方面的第五种实现方式中,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型,包括:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
第二方面,本公开实施例中提供了一种数据预测装置。
具体的,所述数据预测装置,包括:
确定模块,被配置为确定目标数据;
获取模块,被配置为获取所述目标数据的特征数据;
预测模块,被配置为将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
结合第二方面,本公开实施例在第二方面的第一种实现方式中,还包括:
训练模块,被配置为训练所述数据预测模型。
结合第二方面和第二方面的第一种实现方式,本公开实施例在第二方面的第二种实现方式中,所述训练模块被配置为:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
结合第二方面、第二方面的上述实现方式,本公开在第二方面的第三种实现方式中,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型的部分,被配置为:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
结合第二方面、第二方面的上述实现方式,本公开在第二方面的第四种实现方式中,所述对于所述多层数据预测子模型分别进行正交初始化的部分,被配置为:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
结合第二方面、第二方面的上述实现方式,本公开在第二方面的第五种实现方式中,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型的部分,被配置为:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持数据预测装置执行上述数据预测方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据预测装置还可以包括通信接口,用于数据预测装置与其他设备或通信网络通信。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储数据预测装置所用的计算机指令,其包含用于执行上述数据预测方法为数据预测装置所涉及的计算机指令。
本公开实施例提供的技术方案可包括以下有益效果:
上述技术方案使用基于分层正交化机制训练得到的数据预测模型来实现数据的预测。该技术方案能够明确每层神经网络训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的数据预测方法的流程图;
图2示出根据本公开一实施方式的数据预测装置的结构框图;
图3示出根据本公开一实施方式的电子设备的结构框图;
图4是适于用来实现根据本公开一实施方式的数据预测方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。
本公开实施例提供的技术方案使用基于分层正交化机制训练得到的数据预测模型来实现数据的预测。该技术方案能够明确每层神经网络训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
图1示出根据本公开一实施方式的数据预测方法的流程图,如图1所示,所述数据预测方法包括以下步骤S101-S103:
在步骤S101中,确定目标数据;
在步骤S102中,获取所述目标数据的特征数据;
在步骤S103中,将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
上文提及,随着科学技术的发展和进步,对于数据进行分类或预测的需求越来越广泛,而具有多层结构的神经网络等深度学习模型也由于分类预测效果较好而得到广泛的应用,比如将一段新闻文本输入至神经网络中可得到对于该新闻文本领域的相对准确的分类结果。现有技术在设计或者训练所述深度学习模型时,或者依靠经验基于现有的方案组建模型,比如利用一些经典通用的模型来进行组建,或者使用大范围搜索的方式来找到优化的模型结构,这些设计和训练方法大多是以整个模型作为整体,借助一种近乎黑盒的方式通过反向传播算法来训练得到各层模型的参数,这将会丧失每层神经网络训练的目标性,进而使得模型训练的效率低下,阻碍训练模型准确率的提高。
考虑到上述问题,在该实施方式中,提出一种数据预测方法,该方法使用基于分层正交化机制训练得到的数据预测模型来实现数据的预测。该技术方案能够明确每层神经网络训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
在本公开一实施方式中,所述数据预测方法可适用于可执行数据预测的计算机、计算设备、电子设备、服务器、服务集群等。
在本公开一实施方式中,所述目标数据指的是需要对其进行预测的数据,比如需要预测其领域分类的新闻文本等等。
在本公开一实施方式中,所述目标数据的特征数据指的是能够体现所述目标数据特征的数据,其中,所述目标数据的特征数据及其类型可根据实际应用的需要来确定,本公开对于特征数据的内容和类型不作特别限定。
在本公开一实施方式中,所述数据预测模型指的是基于训练数据预先训练得到的、能够实现对于数据进行预测的功能的、包括顺次连接的多层数据预测子模型的模型,将提取得到的所述目标数据的特征数据输入至所述数据预测模型中,可得到对于所述目标数据的预测或分类结果。其中,所述数据预测模型是基于分层正交化机制训练得到的,所述分层正交化机制指的是,对于所述数据预测模型包含的两层或多层子模型分别进行正交初始化,使得每层子模型输出所包含的各个元素相互正交。
考虑到深度学习分类或预测任务的目的是将输入数据通过向量表示映射到不同的标签上,也就是说,将不同的输入数据划分为多个独立的分区,因此,若所述数据预测模型所包括的多层数据预测子模型中的每一层数据预测子模型的输出结果的组成元素之间均为相互正交,则可实现输入数据独立分区的目的,也就自然能够提高模型训练的效率,提升训练模型的准确率。因此,在该实施方式中,使用分层正交化机制训练所述数据预测模型,使得所述数据预测模型中每层子模型输出所包含的各个元素尽量相互正交,并最终基于训练得到的数据预测模型对于目标数据进行预测和分类,得到准确率较高的预测和分类结果,从而明确了每层子模型训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
在本公开一实施方式中,所述方法还可包括以下步骤:
训练所述数据预测模型。
在本公开一实施方式中,所述训练所述数据预测模型的步骤,可包括以下步骤:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
在该实施方式中,在训练所述数据预测模型时,首先确定一个数据预测模型原型,比如由不同非线性变换层组成的或者说包括顺次连接的多层数据预测子模型的、模型参数需借助后续训练来确定的最初的神经网络模型,其中,所述数据预测模型原型可根据实际应用的需要进行选择,在后续初始化操作之前,所述数据预测模型原型的模型参数可取为随机值;然后对于所述数据预测模型原型进行初始化,即确定所述数据预测模型原型的初始化参数,得到初始数据预测模型,其中,所述初始化参数的确定能够有效节省数据预测模型的训练时间和训练成本,加快数据预测模型的训练进程;然后获取包括训练数据的特征数据和与所述训练数据对应的标签数据的训练数据集合,其中,所述训练数据对应的标签数据指的是已知的、所述训练数据对应的预测数据或分类数据;然后将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出所述初始数据预测模型进行训练,待到训练结果收敛时,即可得到所述数据预测模型。
在本公开一实施方式中,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型的步骤,可包括以下步骤:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
为了明确每层数据预测子模型训练的目标性,使得每层数据预测子模型输出所包含的各个元素相互正交,进而使得每层数据预测子模型输出的准确性均有效提高,在该实施方式中,对于所述多层数据预测子模型分别进行正交初始化,即对于每一层数据预测子模型均基于正交化机制进行初始化,进而得到正交初始化后的多层数据预测子模型;然后再将正交初始化后的多层数据预测子模型按照所述数据预测子模型的连接顺序顺次连接起来,即可得到进行分层正交初始化后的初始数据预测模型。
在本公开一实施方式中,所述对于所述多层数据预测子模型分别进行正交初始化的步骤,可包括以下步骤:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
在该实施方式中,对于所述多层数据预测子模型中的每一数据预测子模型分别进行正交初始化,具体地:
首先确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵Xin,比如,若所述训练输入数据为一向量,则可先将其写成一列向量,再写成一行向量,然后将列向量与行向量相乘,即可得到与所述训练输入数据对应的训练输入方阵。
然后设置所述数据预测子模型的原始参数。在本公开一实施方式中,所述数据预测子模型的原始参数可设置为随机数。
然后将所述训练输入方阵Xin输入至所述数据预测子模型中,得到训练输出方阵Xout,假设所述数据预测子模型可表示为非线性激活函数F,则训练输出方阵Xout可表示为:Xout=F(XinW+B),其中,W和B为所述数据预测子模型的模型参数矩阵。
然后获取所述训练输出方阵的本征值。在本公开一实施方式中,可借助QR迭代法、Rayleigh商迭代、正交迭代等方式拟合得到所述训练输出方阵Xout的精度较高的本征值矩阵Λ,本征值矩阵Λ主对角线上的元素即为所述训练输出方阵Xout的本征值,其中,当使用QR迭代法时,所述本征值矩阵Λ可表示为:Λ=QR(Xout)。
然后基于所述训练输出方阵的本征值计算得到所述训练输出方阵本征值的正则项。在本公开一实施方式中,可借助本征值的l1范数计算得到所述训练输出方阵本征值的正则项lΛ,其中,所述正则项lΛ可表示为:lΛ=||diag(Λ)||l。
然后设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获得所述数据预测子模型的子模型参数,该参数即可作为对于所述数据预测子模型进行初始化后得到的初始参数。在本公开一实施方式中,所述第一目标函数可设置为使所述正则项最小。
至此,即完成某一数据预测子模型的正交初始化,对于所述数据预测模型原型中的所有数据预测子模型均进行类似的正交初始化,即可完成所述数据预测模型原型的正交初始化操作,得到初始数据预测模型。
在本公开一实施方式中,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型的步骤,可包括以下步骤:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
在该实施方式中,在获取得到初始数据预测模型之后,即可基于训练数据对于所述初始数据预测模型进行训练,以得到最终可执行数据预测的数据预测模型,具体地:
首先,基于上述获得的两个或多个数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数。在本公开一实施方式中,所述第二目标函数可设置为损失函数最小,所述损失函数可表示为:
其中,Cross Entropy(Yout,Label)表示所述数据预测模型基于训练数据的输出Yout与所述训练数据对应的正确预测或分类标签Label之间的交叉熵,表示各层正则项lΛ的和,i表示第i层数据预测子模型,loss表示损失函数。
然后将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,得到各层数据预测子模型最终的参数,最终可得到训练好的所述数据预测模型。在进行迭代训练时,可将所述训练数据的特征数据至输入所述初始数据预测模型的第一层,然后使用反向传播的方式根据所述训练数据对应的正确的标签数据调整所述初始数据预测模型中的参数即可完成所述数据预测模型的训练。
接下来以对于新闻文本进行分类预测为例对于本公开方案进行解释和说明。在对于新闻文本进行分类之前,首先训练得到对于新闻文本进行分类的数据预测模型,具体地,在训练所述数据预测模型时,首先确定一个包括顺次连接的多层数据预测子模型的数据预测模型原型,此时,所述数据预测模型原型的模型参数可取为随机值;然后对于所述数据预测模型原型中的多层数据预测子模型均基于正交化机制进行初始化后顺次连接,得到所述初始数据预测模型;然后获取训练数据集合,其中,所述训练数据集合中包括训练新闻文本数据的特征数据和与所述训练新闻文本数据对应的分类标签数据;然后将所述训练数据的特征数据作为输入,将与所述训练数据对应的分类标签数据作为输出对于所述初始数据预测模型进行训练,待到训练结果收敛时,即可得到所述数据预测模型。最后将提取得到的待分类的新闻文本与所述训练新闻文本数据的特征数据一致的特征数据输入至训练得到的数据预测模型中,即可得到对于所述新闻文本的分类预测结果,比如,所述新闻文本是属于体育类新闻文本、娱乐类新闻文本还是社会类新闻文本等等。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图2示出根据本公开一实施方式的数据预测装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图2所示,所述数据预测装置包括:
确定模块201,被配置为确定目标数据;
获取模块202,被配置为获取所述目标数据的特征数据;
预测模块203,被配置为将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
上文提及,随着科学技术的发展和进步,对于数据进行分类或预测的需求越来越广泛,而具有多层结构的神经网络等深度学习模型也由于分类预测效果较好而得到广泛的应用,比如将一段新闻文本输入至神经网络中可得到对于该新闻文本领域的相对准确的分类结果。现有技术在设计或者训练所述深度学习模型时,或者依靠经验基于现有的方案组建模型,比如利用一些经典通用的模型来进行组建,或者使用大范围搜索的方式来找到优化的模型结构,这些设计和训练方法大多是以整个模型作为整体,借助一种近乎黑盒的方式通过反向传播算法来训练得到各层模型的参数,这将会丧失每层神经网络训练的目标性,进而使得模型训练的效率低下,阻碍训练模型准确率的提高。
考虑到上述问题,在该实施方式中,提出一种数据预测装置,该装置使用基于分层正交化机制训练得到的数据预测模型来实现数据的预测。该技术方案能够明确每层神经网络训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
在本公开一实施方式中,所述数据预测装置可实现为可执行数据预测的计算机、计算设备、电子设备、服务器、服务集群等。
在本公开一实施方式中,所述目标数据指的是需要对其进行预测的数据,比如需要预测其领域分类的新闻文本等等。
在本公开一实施方式中,所述目标数据的特征数据指的是能够体现所述目标数据特征的数据,其中,所述目标数据的特征数据及其类型可根据实际应用的需要来确定,本公开对于特征数据的内容和类型不作特别限定。
在本公开一实施方式中,所述数据预测模型指的是基于训练数据预先训练得到的、能够实现对于数据进行预测的功能的、包括顺次连接的多层数据预测子模型的模型,将提取得到的所述目标数据的特征数据输入至所述数据预测模型中,可得到对于所述目标数据的预测或分类结果。其中,所述数据预测模型是基于分层正交化机制训练得到的,所述分层正交化机制指的是,对于所述数据预测模型包含的两层或多层子模型分别进行正交初始化,使得每层子模型输出所包含的各个元素相互正交。
考虑到深度学习分类或预测任务的目的是将输入数据通过向量表示映射到不同的标签上,也就是说,将不同的输入数据划分为多个独立的分区,因此,若所述数据预测模型所包括的多层数据预测子模型中的每一层数据预测子模型的输出结果的组成元素之间均为相互正交,则可实现输入数据独立分区的目的,也就自然能够提高模型训练的效率,提升训练模型的准确率。因此,在该实施方式中,使用分层正交化机制训练所述数据预测模型,使得所述数据预测模型中每层子模型输出所包含的各个元素尽量相互正交,并最终基于训练得到的数据预测模型对于目标数据进行预测和分类,得到准确率较高的预测和分类结果,从而明确了每层子模型训练的目标性,避免使用黑盒方式通过反向传播算法来训练各层模型参数而带来的模型训练效率低下,阻碍训练模型准确率提高的问题。
在本公开一实施方式中,所述装置还可包括:
训练模块,被配置为训练所述数据预测模型。
在本公开一实施方式中,所述训练模块可被配置为:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
在该实施方式中,在训练所述数据预测模型时,首先确定一个数据预测模型原型,比如由不同非线性变换层组成的或者说包括顺次连接的多层数据预测子模型的、模型参数需借助后续训练来确定的最初的神经网络模型,其中,所述数据预测模型原型可根据实际应用的需要进行选择,在后续初始化操作之前,所述数据预测模型原型的模型参数可取为随机值;然后对于所述数据预测模型原型进行初始化,即确定所述数据预测模型原型的初始化参数,得到初始数据预测模型,其中,所述初始化参数的确定能够有效节省数据预测模型的训练时间和训练成本,加快数据预测模型的训练进程;然后获取包括训练数据的特征数据和与所述训练数据对应的标签数据的训练数据集合,其中,所述训练数据对应的标签数据指的是已知的、所述训练数据对应的预测数据或分类数据;然后将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出所述初始数据预测模型进行训练,待到训练结果收敛时,即可得到所述数据预测模型。
在本公开一实施方式中,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型的部分,可被配置为:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
为了明确每层数据预测子模型训练的目标性,使得每层数据预测子模型输出所包含的各个元素相互正交,进而使得每层数据预测子模型输出的准确性均有效提高,在该实施方式中,对于所述多层数据预测子模型分别进行正交初始化,即对于每一层数据预测子模型均基于正交化机制进行初始化,进而得到正交初始化后的多层数据预测子模型;然后再将正交初始化后的多层数据预测子模型按照所述数据预测子模型的连接顺序顺次连接起来,即可得到进行分层正交初始化后的初始数据预测模型。
在本公开一实施方式中,所述对于所述多层数据预测子模型分别进行正交初始化的部分,可被配置为:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
在该实施方式中,对于所述多层数据预测子模型中的每一数据预测子模型分别进行正交初始化,具体地:
首先确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵Xin,比如,若所述训练输入数据为一向量,则可先将其写成一列向量,再写成一行向量,然后将列向量与行向量相乘,即可得到与所述训练输入数据对应的训练输入方阵。
然后设置所述数据预测子模型的原始参数。在本公开一实施方式中,所述数据预测子模型的原始参数可设置为随机数。
然后将所述训练输入方阵Xin输入至所述数据预测子模型中,得到训练输出方阵Xout,假设所述数据预测子模型可表示为非线性激活函数F,则训练输出方阵Xout可表示为:Xout=F(XinW+B),其中,W和B为所述数据预测子模型的模型参数矩阵。
然后获取所述训练输出方阵的本征值。在本公开一实施方式中,可借助QR迭代法、Rayleigh商迭代、正交迭代等方式拟合得到所述训练输出方阵Xout的精度较高的本征值矩阵Λ,本征值矩阵Λ主对角线上的元素即为所述训练输出方阵Xout的本征值,其中,当使用QR迭代法时,所述本征值矩阵Λ可表示为:Λ=QR(Xout)。
然后基于所述训练输出方阵的本征值计算得到所述训练输出方阵本征值的正则项。在本公开一实施方式中,可借助本征值的l1范数计算得到所述训练输出方阵本征值的正则项lΛ,其中,所述正则项lΛ可表示为:lΛ=||diag(Λ)||l。
然后设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获得所述数据预测子模型的子模型参数,该参数即可作为对于所述数据预测子模型进行初始化后得到的初始参数。在本公开一实施方式中,所述第一目标函数可设置为使所述正则项最小。
至此,即完成某一数据预测子模型的正交初始化,对于所述数据预测模型原型中的所有数据预测子模型均进行类似的正交初始化,即可完成所述数据预测模型原型的正交初始化操作,得到初始数据预测模型。
在本公开一实施方式中,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型的部分,可被配置为:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
在该实施方式中,在获取得到初始数据预测模型之后,即可基于训练数据对于所述初始数据预测模型进行训练,以得到最终可执行数据预测的数据预测模型,具体地:
首先,基于上述获得的两个或多个数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数。在本公开一实施方式中,所述第二目标函数可设置为损失函数最小,所述损失函数可表示为:
其中,Cross Entropy(Yout,Label)表示所述数据预测模型基于训练数据的输出Yout与所述训练数据对应的正确预测或分类标签Label之间的交叉熵,表示各层正则项lΛ的和,i表示第i层数据预测子模型,loss表示损失函数。
然后将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,得到各层数据预测子模型最终的参数,最终可得到训练好的所述数据预测模型。在进行迭代训练时,可将所述训练数据的特征数据至输入所述初始数据预测模型的第一层,然后使用反向传播的方式根据所述训练数据对应的正确的标签数据调整所述初始数据预测模型中的参数即可完成所述数据预测模型的训练。
本公开还公开了一种电子设备,图3示出根据本公开一实施方式的电子设备的结构框图,如图3所示,所述电子设备300包括存储器301和处理器302;其中,
所述存储器301用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器302执行以实现上述方法步骤。
图4是适于用来实现根据本公开一实施方式的数据预测方法的计算机系统的结构示意图。
如图4所示,计算机系统400包括处理单元401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述实施方式中的各种处理。在RAM403中,还存储有系统400操作所需的各种程序和数据。处理单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中,所述处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述数据预测方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种数据预测方法,包括:
确定目标数据;
获取所述目标数据的特征数据;
将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
2.根据权利要求1所述的方法,所述方法进一步包括:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
3.根据权利要求2所述的方法,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型,包括:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
4.根据权利要求3所述的方法,所述对于所述多层数据预测子模型分别进行正交初始化,包括:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
5.根据权利要求4所述的方法,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型,包括:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
6.一种数据预测装置,包括:
确定模块,被配置为确定目标数据;
获取模块,被配置为获取所述目标数据的特征数据;
预测模块,被配置为将所述特征数据输入至预先训练得到的数据预测模型中,得到对于所述目标数据的预测结果,其中,所述数据预测模型包括顺次连接的多层数据预测子模型,且所述数据预测模型是基于分层正交化机制训练得到的。
7.根据权利要求6所述的装置,所述装置进一步包括训练模块,所述训练模块被配置为:
确定数据预测模型原型,其中,所述数据预测模型原型包括顺次连接的多层数据预测子模型;
对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型;
获取训练数据集合,其中,所述训练数据集合中包括训练数据的特征数据和与所述训练数据对应的标签数据;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型。
8.根据权利要求7所述的装置,所述对于所述数据预测模型原型进行正交初始化,得到初始数据预测模型的部分,被配置为:
对于所述多层数据预测子模型分别进行正交初始化,得到正交初始化后的数据预测子模型;
将正交初始化后的数据预测子模型顺次连接,得到所述初始数据预测模型。
9.根据权利要求8所述的装置,所述对于所述多层数据预测子模型分别进行正交初始化的部分,被配置为:
对于每一数据预测子模型,确定所述数据预测子模型的训练输入数据,并将所述训练输入数据转换为训练输入方阵;
设置所述数据预测子模型的原始参数;
将所述训练输入方阵输入至所述数据预测子模型中,得到训练输出方阵;
获取所述训练输出方阵的本征值;
计算得到所述训练输出方阵本征值的正则项;
设置所述正则项的第一目标函数,在所述第一目标函数的约束下,迭代获取所述数据预测子模型的子模型参数,作为所述数据预测子模型的初始参数。
10.根据权利要求9所述的装置,所述将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出对于所述初始数据预测模型进行训练,得到数据预测模型的部分,被配置为:
基于所述数据预测子模型对应的正则项,设置所述数据预测模型的第二目标函数;
将所述训练数据的特征数据作为输入,将与所述训练数据对应的标签数据作为输出,在所述第二目标函数的约束下,对于所述初始数据预测模型进行迭代训练,确定所述数据预测子模型的参数,得到所述数据预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210295429.2A CN114897154A (zh) | 2022-03-23 | 2022-03-23 | 数据预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210295429.2A CN114897154A (zh) | 2022-03-23 | 2022-03-23 | 数据预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114897154A true CN114897154A (zh) | 2022-08-12 |
Family
ID=82715021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210295429.2A Pending CN114897154A (zh) | 2022-03-23 | 2022-03-23 | 数据预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897154A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282435A (zh) * | 1997-12-15 | 2001-01-31 | 联想冠群软件有限公司 | 通过均衡正交映射可视化和自组织多维数据 |
CN107451624A (zh) * | 2017-09-04 | 2017-12-08 | 西安交通大学 | 基于正交化局部连接网络的机械装备健康状态识别方法 |
CN108171319A (zh) * | 2017-12-05 | 2018-06-15 | 南京信息工程大学 | 网络连接自适应深度卷积模型的构建方法 |
CN108875779A (zh) * | 2018-05-07 | 2018-11-23 | 深圳市恒扬数据股份有限公司 | 神经网络的训练方法、装置及终端设备 |
CN110807529A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 一种机器学习模型的训练方法、装置、设备及存储介质 |
US20200125820A1 (en) * | 2018-10-23 | 2020-04-23 | Samsung Electronics Co., Ltd. | Data recognition apparatus and method, and training apparatus and method |
CN111242285A (zh) * | 2020-01-06 | 2020-06-05 | 宜通世纪物联网研究院(广州)有限公司 | 一种深度学习模型的训练方法、系统、装置及存储介质 |
US20200218932A1 (en) * | 2018-11-30 | 2020-07-09 | Prowler.Io Limited | Method and system for classification of data |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111656373A (zh) * | 2017-12-01 | 2020-09-11 | 皇家飞利浦有限公司 | 训练神经网络模型 |
CN111666500A (zh) * | 2020-06-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法及相关设备 |
US20210383239A1 (en) * | 2019-02-25 | 2021-12-09 | Institute Of Automation, Chinese Academy Of Sciences | Feature extraction system, method and apparatus based on neural network optimization by gradient filtering |
CN114638283A (zh) * | 2022-02-11 | 2022-06-17 | 华南理工大学 | 一种基于张量优化空间的正交卷积神经网络图像识别方法 |
-
2022
- 2022-03-23 CN CN202210295429.2A patent/CN114897154A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1282435A (zh) * | 1997-12-15 | 2001-01-31 | 联想冠群软件有限公司 | 通过均衡正交映射可视化和自组织多维数据 |
CN107451624A (zh) * | 2017-09-04 | 2017-12-08 | 西安交通大学 | 基于正交化局部连接网络的机械装备健康状态识别方法 |
CN111656373A (zh) * | 2017-12-01 | 2020-09-11 | 皇家飞利浦有限公司 | 训练神经网络模型 |
CN108171319A (zh) * | 2017-12-05 | 2018-06-15 | 南京信息工程大学 | 网络连接自适应深度卷积模型的构建方法 |
CN108875779A (zh) * | 2018-05-07 | 2018-11-23 | 深圳市恒扬数据股份有限公司 | 神经网络的训练方法、装置及终端设备 |
US20200125820A1 (en) * | 2018-10-23 | 2020-04-23 | Samsung Electronics Co., Ltd. | Data recognition apparatus and method, and training apparatus and method |
US20200218932A1 (en) * | 2018-11-30 | 2020-07-09 | Prowler.Io Limited | Method and system for classification of data |
US20210383239A1 (en) * | 2019-02-25 | 2021-12-09 | Institute Of Automation, Chinese Academy Of Sciences | Feature extraction system, method and apparatus based on neural network optimization by gradient filtering |
CN110807529A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 一种机器学习模型的训练方法、装置、设备及存储介质 |
CN111242285A (zh) * | 2020-01-06 | 2020-06-05 | 宜通世纪物联网研究院(广州)有限公司 | 一种深度学习模型的训练方法、系统、装置及存储介质 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111666500A (zh) * | 2020-06-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法及相关设备 |
CN114638283A (zh) * | 2022-02-11 | 2022-06-17 | 华南理工大学 | 一种基于张量优化空间的正交卷积神经网络图像识别方法 |
Non-Patent Citations (2)
Title |
---|
SHUAI LI 等: "Orthogonal Deep Neural Networks", 《IEEE》, 30 April 2021 (2021-04-30), pages 1352 - 1365 * |
杨柳青: "基于深度神经网络的砂岩储层孔隙度预测方法", 《中国科技论文》, 31 January 2020 (2020-01-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210004663A1 (en) | Neural network device and method of quantizing parameters of neural network | |
US20210166112A1 (en) | Method for neural network and apparatus performing same method | |
US20200104640A1 (en) | Committed information rate variational autoencoders | |
US20190340499A1 (en) | Quantization for dnn accelerators | |
KR102655950B1 (ko) | 뉴럴 네트워크의 고속 처리 방법 및 그 방법을 이용한 장치 | |
US20220164666A1 (en) | Efficient mixed-precision search for quantizers in artificial neural networks | |
CN113392359A (zh) | 多目标预测方法、装置、设备及存储介质 | |
CN112200296B (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
EP4318313A1 (en) | Data processing method, training method for neural network model, and apparatus | |
US20210264279A1 (en) | Learned step size quantization | |
US20220121999A1 (en) | Federated ensemble learning from decentralized data with incremental and decremental updates | |
CN114780768A (zh) | 一种视觉问答任务处理方法、系统、电子设备及存储介质 | |
CN111008689B (zh) | 使用softmax近似来减少神经网络推理时间 | |
CN111260074B (zh) | 一种超参数确定的方法、相关装置、设备及存储介质 | |
CN110276413B (zh) | 一种模型压缩方法及装置 | |
Zerrouk et al. | Evolutionary algorithm for optimized CNN architecture search applied to real-time boat detection in aerial images | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN116340635A (zh) | 物品推荐方法、模型训练方法、装置及设备 | |
CN112532251A (zh) | 一种数据处理的方法及设备 | |
CN114897154A (zh) | 数据预测方法及装置 | |
CN114065913A (zh) | 模型量化方法、装置及终端设备 | |
CN114298961A (zh) | 图像处理方法、装置、设备及存储介质 | |
Wang et al. | CAW: A Remote‐Sensing Scene Classification Network Aided by Local Window Attention | |
CN114254618B (zh) | 基于动态路由注意力机制的视觉问答方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |