CN109886402B - 深度学习模型训练方法、装置、计算机设备及存储介质 - Google Patents
深度学习模型训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109886402B CN109886402B CN201910023779.1A CN201910023779A CN109886402B CN 109886402 B CN109886402 B CN 109886402B CN 201910023779 A CN201910023779 A CN 201910023779A CN 109886402 B CN109886402 B CN 109886402B
- Authority
- CN
- China
- Prior art keywords
- sample set
- word segmentation
- deep learning
- activated
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 87
- 238000012549 training Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 72
- 230000004913 activation Effects 0.000 claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims description 91
- 239000013598 vector Substances 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 12
- 230000003213 activating effect Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000001994 activation Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种深度学习模型训练方法、装置、计算机设备及存储介质。其中,该方法属于人工智能技术,该方法包括:将输入样本集合输入到待训练深度学习模型的输入层,并将输入层的输出结果作为待调整样本集合;对待调整样本集合进行非线性激活处理以得到激活样本集合;对激活样本集合进行批标准化处理以得到标准样本集合;将待训练深度学习模型的下一层作为目标层,并将标准样本集合输入到所述目标层中;将目标层的输出结果作为新的待调整样本集合,并继续对待调整样本集合进行非线性激活处理以得到激活样本集合,从而批标准化处理直接作用于深度学习模型的下一层结构,获得了对下一层结构更好的控制,提高了训练效果。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种深度学习模型训练方法、装置、计算机设备及存储介质。
背景技术
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等数据。
深度学习模型,例如,卷积神经网络(Convolutional Neural Network,CNN)需经大量数据训练后才能实际使用。在深度学习模型的训练过程中,大多选择用批标准化(Batch Normalization,BN)的方法对深度学习模型的各层进行处理,使得网络在每一层传递的过程中样本的差异性有所降低,然而现有的处理方法对下一层网络的控制不够,导致深度学习模型的训练效果不佳。
发明内容
本发明实施例提供了一种深度学习模型训练方法、装置、计算机设备及存储介质,旨在提高深度学习模型的训练效果。
第一方面,本发明实施例提供了一种深度学习模型训练方法,其包括:
将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
对所述激活样本集合进行批标准化处理以得到标准样本集合;
将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
第二方面,本发明实施例还提供了一种深度学习模型训练装置,其包括:
第一输入单元,用于将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
第一激活单元,用于对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
第一批标准化单元,用户对所述激活样本集合进行批标准化处理以得到标准样本集合;
第二输入单元,用于将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
通知单元,用于将所述目标层的输出结果作为新的待调整样本集合,并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种深度学习模型训练方法、装置、计算机设备及存储介质。其中,所述方法包括:将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;对所述待调整样本集合进行非线性激活处理以得到激活样本集合;对所述激活样本集合进行批标准化处理以得到标准样本集合;将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。本发明实施例中,通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性),从而批标准化处理直接作用于深度学习模型的下一层结构,能够获得对于下一层结构更好的控制,提高了对待训练深度学习模型的训练效果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种深度学习模型训练方法的流程示意图;
图2为本发明实施例提供的一种深度学习模型训练方法的子流程示意图;
图3为本发明实施例提供的一种深度学习模型训练方法的子流程示意图;
图4为本发明另一实施例提供的一种深度学习模型训练方法的流程示意图;
图5为本发明实施例提供的一种深度学习模型训练方法的子流程示意图;
图6为本发明实施例提供的一种深度学习模型训练装置的示意性框图;
图7为本发明实施例提供的一种深度学习模型训练装置的第一激活单元单元的示意性框图;
图8为本发明实施例提供的一种深度学习模型训练装置的第一批标准化单元的示意性框图;
图9为本发明实施例提供的一种深度学习模型训练装置的第一批标准化单元的获取单元的示意性框图;
图10为本发明另一实施例提供的一种深度学习模型训练装置的示意性框图;
图11为本发明另一实施例提供的一种深度学习模型训练装置的第一分词单元的示意性框图;以及
图12为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的一种深度学习模型训练方法的流程示意图。如图所示,该方法包括以下步骤S1-S5:
S1,将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合。
在本发明实施例中,通过输入样本集合来对待训练深度学习模型进行训练。待训练深度学习模型包括输入层、多个隐藏层以及输出层。
具体实施中,将输入样本集合输入到待训练深度学习模型的输入层,以对待训练深度学习模型的输入层进行训练。
在本发明实施例中,输入层输出结果时,将输入层的输出结果作为待调整样本集合,并对待调整样本集合进行调整后再输入到待训练深度学习模型的下一层中。
S2,对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
具体实施中,对所述待调整样本集合进行非线性激活处理以得到激活样本集合。通过对所述待调整样本集合进行非线性激活处理能够提高待训练深度学习模型的非线性因素,提高待训练深度学习模型的表现力。
在一实施例中,以上步骤S4具体包括如下步骤:
通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
需要说明的是,常用的非线性激活函数包括:Sigmoid函数、Tanh函数以及ReLU(Rectified Linear Unit,修正线性单元)函数,本发明对此不作具体限定。
S3,对所述激活样本集合进行批标准化处理以得到标准样本集合。
具体实施中,通过对所述激活样本集合进行批标准化处理以得到标准样本集合。批标准化处理能够降低样本在深度学习模型的各层传递过程中的差异性,从而提高了模型的训练效果。
在本发明实施例中,先对待调整样本集合进行非线性激活处理得到激活样本集合后,再对激活样本集合进行批标准化处理以得到标准样本集合。通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性),能够获得对于下一层网络更好的控制,从而提高了对待训练深度学习模型的训练效果。
在一实施例中,参见图2,以上步骤S3包括如下步骤S31-S32:
S31,获取所述激活样本集合中各样本的均值以及方差。
具体实施中,对激活样本集合进行批标准化处理需要用到激活样本集合中各样本的均值以及方差,为此首先计算激活样本集合中各样本的均值以及方差。
在一实施例中,参见图3,以上步骤S31具体包括如下步骤S311-S312:
S311,通过以下公式计算激活样本集合中各样本的均值μ。
具体实施中,通过以下公式计算激活样本集合中各样本的均值μ,其中,i为样本的序号,m为样本的数量,xi为样本的值。
S312,通过以下公式计算激活样本集合中各样本的方差σ。
具体实施中,通过公式计算激活样本集合中各样本的方差σ。
其中,i为样本的序号,m为样本的数量,xi为样本的值。
S32,根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。
具体实施中,在获取了激活样本集合中各样本的均值以及方差后,根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。
在本发明实施例中,批标准化公式为其中,在以上公式中,i为样本的序号,xi为激活样本集合中的样本的数值,yi为相应的标准样本集合中的样本的数值,μ为激活样本集合中各样本的均值,σ为激活样本集合中各样本的方差,m为激活样本集合中样本的数量,w、γ、β以及ε为待训练深度学习模型的参数,以上随机初始化生成,然后训练过程中通过迭代来更新这些参数。
S4,将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中。
具体实施中,将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中,以对所述目标层进行训练。
S5,将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
本发明的方案中,将目标层的输出结果作为新的待调整样本集合,并且返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤,然后再对激活样本集合进行批标准化处理以得到标准样本集合,之后再将待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中,以对所述目标层进行训练。以此类推直到所述待训练深度学习模型输出结果。
通过以上方法,可实现对待训练深度学习模型的上一层的输出结果先后进行非线性激活处理以及批标准化处理后,再输入到待训练深度学习模型的下一层中,直到待训练深度学习模型的输出层时,直接输出结果。
本发明实施例中,通过将批标准化处理调整到非线性激活处理之后(非线性激活处理会提高样本的差异性),从而批标准化处理直接作用于深度学习模型的下一层结构,能够获得对于下一层结构更好的控制,提高了对待训练深度学习模型的训练效果。
图4是本发明另一实施例提供的一种深度学习模型训练方法的流程示意图。如图4所示,本实施例的深度学习模型训练方法包括步骤S41-S47。其中步骤S43-S47与上述实施例中的步骤S1-S5类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S41-S42。
S41,对训练文本进行分词处理以得到分词样本集合,其中,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合。
在本实施例中,训练文本为预存在终端中的文本,可直接调用获取。
具体实施中,分词指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词是文本处理中的一个基础步骤。
通过对训练文本进行分词处理以得到分词样本集合,其中,分词样本集合为对所述训练文本进行分词后得到的样本(词语)组成的集合。
在一实施例中,在一实施例中,参见图5,以上步骤S41具体包括如下步骤S411-S412:
S411,通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合。
具体实施中,常用的分词工具为结巴分词工具。本实施例中,采用结巴分词工具对训练文本进行分词处理以得到初始分词样本集合。或者,在其他实施例中,可采用其他分词工具来对训练文本进行分词处理,本发明对此不作具体限定。
S412,将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。
具体实施中,将所述初始分词样本集合中的停止词去除以得到分词样本集合。需要说明的是,停止词(stop word),常为介词、副词或连词等。例如,"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。
S42,通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,其中,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
具体实施中,采用word2vec作为词向量工具,word2vec是一种自然语言处理工具,其作用就是将自然语言中的字词转为计算机可以理解的词向量。
传统的词向量容易受维数灾难的困扰,且任意两个词之间都是孤立的,不能体现词和词之间的关系,因此本实施例采用word2vec来得到词向量,其可通过计算向量之间的距离来体现词与词之间的相似性。
本实施例中,通过word2vec对分词样本集合中的样本进行词向量训练以得到各样本的词向量。将分词样本集合中个样本的词向量组合得到输入样本集合。
或者,在其他实施例中,可采用其他词向量工具对所述分词样本集合中的样本进行词向量训练,本发明对此不作具体限定。
图6是本发明实施例提供的一种深度学习模型训练装置60的示意性框图。如图6所示,对应于以上深度学习模型训练方法,本发明还提供一种深度学习模型训练装置60。该深度学习模型训练装置60包括用于执行上述深度学习模型训练方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图6,该深度学习模型训练装置60包括第一输入单元61、第一激活单元62、第一批标准化单元63、第二输入单元64以及通知单元65。
第一输入单元61,用于将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
第一激活单元62,用于对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
第一批标准化单元63,用户对所述激活样本集合进行批标准化处理以得到标准样本集合;
第二输入单元64,用于将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
通知单元65,用于将所述目标层的输出结果作为新的待调整样本集合,并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
在一实施例中,参见图7,第一激活单元62包括第二激活单元621。
第二激活单元621,用于通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
在一实施例中,参见图8,第一批标准化单元63包括获取单元631以及第二批标准化单元632。
获取单元631,用于获取所述激活样本集合中各样本的均值以及方差;
第二批标准化单元632,用于根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。
在一实施例中,参见图9,获取单元631包括第一计算单元6311以及第二计算单元6312。
第一计算单元6211,用于通过以下公式计算激活样本集合中各样本的均值μ;
第二计算单元6312,用于通过以下公式计算激活样本集合中各样本的方差σ;
其中,i为样本的序号,m为样本的数量,xi为样本的值。
图10是本发明另一实施例提供的一种深度学习模型训练装置60的示意性框图。如图10所示,本实施例的深度学习模型训练装置60是上述实施例的基础上增加了第一分词单元66以及训练单元67。
第一分词单元66,用于对训练文本进行分词处理以得到分词样本集合,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合;
训练单元67,用于通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
在一实施例中,参见图11,第一分词单元66包括第二分词单元661以及去除单元662。
第二分词单元661,用于通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合;
去除单元662,用于将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述深度学习模型训练装置60和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述深度学习模型训练装置60可以实现为一种计算机程序的形式,该计算机程序可以在如图12所示的计算机设备上运行。
请参阅图12,图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图12,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种深度学习模型训练方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种深度学习模型训练方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
对所述激活样本集合进行批标准化处理以得到标准样本集合;
将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
在一实施例中,处理器502在实现所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合步骤时,具体实现如下步骤:
通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
在一实施例中,处理器502在实现所述对所述激活样本集合进行批标准化处理以得到标准样本集合步骤时,具体实现如下步骤:
获取所述激活样本集合中各样本的均值以及方差;
根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。
在一实施例中,处理器502在实现所述获取所述激活样本集合中各样本的均值以及方差步骤时,具体实现如下步骤:
通过以下公式计算激活样本集合中各样本的均值μ;
通过以下公式计算激活样本集合中各样本的方差σ;
其中,i为样本的序号,m为样本的数量,xi为样本的值。
在一实施例中,处理器502在实现所述将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合步骤之前,还实现如下步骤:
对训练文本进行分词处理以得到分词样本集合,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合;
通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
在一实施例中,处理器502在实现所述对训练文本进行分词处理以得到分词样本集合步骤时,具体实现如下步骤:
通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合;
将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
对所述激活样本集合进行批标准化处理以得到标准样本集合;
将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合步骤时,具体实现如下步骤:
通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述激活样本集合进行批标准化处理以得到标准样本集合步骤时,具体实现如下步骤:
获取所述激活样本集合中各样本的均值以及方差;
根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取所述激活样本集合中各样本的均值以及方差步骤时,具体实现如下步骤:
通过以下公式计算激活样本集合中各样本的均值μ;
通过以下公式计算激活样本集合中各样本的方差σ;
其中,i为样本的序号,m为样本的数量,xi为样本的值。
在一实施例中,所述处理器在执行所述计算机程序而实现所述将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合步骤之前,还实现如下步骤:
对训练文本进行分词处理以得到分词样本集合,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合;
通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对训练文本进行分词处理以得到分词样本集合步骤时,具体实现如下步骤:
通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合;
将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种深度学习模型训练方法,其特征在于,包括:
将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
对所述激活样本集合进行批标准化处理以得到标准样本集合;
将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
将所述目标层的输出结果作为新的待调整样本集合,并返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤;
述对所述激活样本集合进行批标准化处理以得到标准样本集合,包括:
获取所述激活样本集合中各样本的均值以及方差;
根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理;
所述将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合之前,所述方法还包括:
对训练文本进行分词处理以得到分词样本集合,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合;
通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
2.根据权利要求1所述的方法,其特征在于,所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合,包括:
通过预设的非线性激活函数对所述待调整样本集合进行非线性激活处理以得到激活样本集合。
3.根据权利要求1所述的方法,其特征在于,所述获取所述激活样本集合中各样本的均值以及方差,包括:
通过以下公式计算激活样本集合中各样本的均值μ;
通过以下公式计算激活样本集合中各样本的方差σ;
其中,i为样本的序号,m为样本的数量,xi为样本的值。
4.根据权利要求1所述的方法,其特征在于,所述对训练文本进行分词处理以得到分词样本集合,包括:
通过预设的分词工具对训练文本进行分词处理以得到初始分词样本集合;
将所述初始分词样本集合中的停止词去除以得到所述分词样本集合。
5.一种深度学习模型训练装置,其特征在于,包括:
第一输入单元,用于将输入样本集合输入到待训练深度学习模型的输入层,并将所述输入层的输出结果作为待调整样本集合;
第一激活单元,用于对所述待调整样本集合进行非线性激活处理以得到激活样本集合;
第一批标准化单元,用户对所述激活样本集合进行批标准化处理以得到标准样本集合;
第二输入单元,用于将所述待训练深度学习模型的下一层作为目标层,并将所述标准样本集合输入到所述目标层中;
通知单元,用于将所述目标层的输出结果作为新的待调整样本集合,并通知激活单元返回所述对所述待调整样本集合进行非线性激活处理以得到激活样本集合的步骤;
所述第一批标准化单元包括:
获取单元,用于获取所述激活样本集合中各样本的均值以及方差;
第二批标准化单元,用于根据预设的批标准化公式以及所述激活样本集合中各样本的均值以及方差对所述激活样本集合进行批处理化处理;
第一分词单元,用于对训练文本进行分词处理以得到分词样本集合,所述分词样本集合为对所述训练文本进行分词后得到的样本组成的集合;
训练单元,用于通过预设词向量工具对所述分词样本集合中的样本进行词向量训练以得到所述输入样本集合,所述输入样本集合为所述分词样本集合中的样本的词向量组成的集合。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-4中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023779.1A CN109886402B (zh) | 2019-01-10 | 2019-01-10 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
PCT/CN2019/117310 WO2020143303A1 (zh) | 2019-01-10 | 2019-11-12 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023779.1A CN109886402B (zh) | 2019-01-10 | 2019-01-10 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109886402A CN109886402A (zh) | 2019-06-14 |
CN109886402B true CN109886402B (zh) | 2024-05-14 |
Family
ID=66925884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910023779.1A Active CN109886402B (zh) | 2019-01-10 | 2019-01-10 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109886402B (zh) |
WO (1) | WO2020143303A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886402B (zh) * | 2019-01-10 | 2024-05-14 | 平安科技(深圳)有限公司 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
CN110490202B (zh) * | 2019-06-18 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 检测模型训练方法、装置、计算机设备和存储介质 |
CN112084551A (zh) * | 2020-07-03 | 2020-12-15 | 邱宇 | 一种基于对抗生成网络的建筑立面识别与生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
CN108334943A (zh) * | 2018-01-03 | 2018-07-27 | 浙江大学 | 基于主动学习神经网络模型的工业过程半监督软测量建模方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010095960A (ko) * | 2000-04-14 | 2001-11-07 | 유인균 | 인공지능형 아파트 구현을 위한 인공신경망 제어기 |
CN107168952B (zh) * | 2017-05-15 | 2021-06-04 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108734193A (zh) * | 2018-03-27 | 2018-11-02 | 合肥麟图信息科技有限公司 | 一种深度学习模型的训练方法及装置 |
CN108898218A (zh) * | 2018-05-24 | 2018-11-27 | 阿里巴巴集团控股有限公司 | 一种神经网络模型的训练方法、装置、及计算机设备 |
CN108959265A (zh) * | 2018-07-13 | 2018-12-07 | 深圳市牛鼎丰科技有限公司 | 跨领域文本情感分类方法、装置、计算机设备及存储介质 |
CN109886402B (zh) * | 2019-01-10 | 2024-05-14 | 平安科技(深圳)有限公司 | 深度学习模型训练方法、装置、计算机设备及存储介质 |
-
2019
- 2019-01-10 CN CN201910023779.1A patent/CN109886402B/zh active Active
- 2019-11-12 WO PCT/CN2019/117310 patent/WO2020143303A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
CN108334943A (zh) * | 2018-01-03 | 2018-07-27 | 浙江大学 | 基于主动学习神经网络模型的工业过程半监督软测量建模方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2020143303A1 (zh) | 2020-07-16 |
CN109886402A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goceri | Analysis of deep networks with residual blocks and different activation functions: classification of skin diseases | |
CN107169454B (zh) | 一种人脸图像年龄估算方法、装置及其终端设备 | |
US20220036135A1 (en) | Method and apparatus for determining image to be labeled and model training method and apparatus | |
Gorban et al. | How deep should be the depth of convolutional neural networks: a backyard dog case study | |
CN109886402B (zh) | 深度学习模型训练方法、装置、计算机设备及存储介质 | |
CN111951805A (zh) | 一种文本数据处理方法及装置 | |
CN109947931B (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
KR20160053612A (ko) | 영상 학습 모델을 이용한 영상 생성 방법 및 장치 | |
US10747961B2 (en) | Method and device for identifying a sentence | |
CN109117474B (zh) | 语句相似度的计算方法、装置及存储介质 | |
CN112418059B (zh) | 一种情绪识别的方法、装置、计算机设备及存储介质 | |
CN107480196A (zh) | 一种基于动态融合机制的多模态词汇表示方法 | |
EP3916597A1 (en) | Detecting malware with deep generative models | |
CN111160049B (zh) | 文本翻译方法、装置、机器翻译系统和存储介质 | |
CN110390307B (zh) | 表情识别方法、表情识别模型训练方法及装置 | |
KR102469679B1 (ko) | 인공지능 기반의 맞춤형 음식 추천 방법 및 장치 | |
CN114925320B (zh) | 一种数据处理方法及相关装置 | |
WO2021042544A1 (zh) | 基于去网纹模型的人脸验证方法、装置、计算机设备及存储介质 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
CN111222327A (zh) | 一种词嵌入表示方法、装置及设备 | |
CN112132281B (zh) | 一种基于人工智能的模型训练方法、装置、服务器及介质 | |
CN115759226A (zh) | 一种视觉网络模型的训练方法、装置、设备及存储介质 | |
CN111832815A (zh) | 科研热点预测方法及系统 | |
Gao et al. | An optimized seven-layer convolutional neural network with data augmentation for classification of chinese fingerspelling sign language | |
CN111160487A (zh) | 人脸图像数据集的扩充方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |