CN111402860B - 一种参数管理方法、系统、介质和设备 - Google Patents
一种参数管理方法、系统、介质和设备 Download PDFInfo
- Publication number
- CN111402860B CN111402860B CN202010182188.1A CN202010182188A CN111402860B CN 111402860 B CN111402860 B CN 111402860B CN 202010182188 A CN202010182188 A CN 202010182188A CN 111402860 B CN111402860 B CN 111402860B
- Authority
- CN
- China
- Prior art keywords
- neural network
- weight matrix
- information
- sound
- parameter management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 56
- 238000000034 method Methods 0.000 claims description 36
- 230000000873 masking effect Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 description 21
- 238000012549 training Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种参数管理方法、系统、介质和设备,包括:获取神经网络处理参数;对所述处理参数中的权重进行筛选,并根据筛选后的权重对输入的声音信息进行处理,获取声音合成信息;本发明可有效提高神经网络的处理速度且便于问题追溯及定位。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种参数管理方法、系统、介质和设备。
背景技术
由于合成的目标声音信号在时间维度上具有很强的关联性,因此包括Tacotron2在内的seq2seq的声音合成方案会使用解码器上一时刻的输出声音的频域信息作为注意力机制的查询变量获取下一时刻声音合成的上下文作为输入信息。一般情形下,会在查询之前使用一个小网络对上一时刻输出的声音频域信息进行抽取来获得更加有效的信息,这个前置的小网络称作pre-net。
在模型训练初期,解码器输出的上一时刻声音的频域信息误差非常大,而seq2seq解码器使用的包括循环神经网络(RNN)、卷积神经网络(CNN)等时序建模网络具有比较长的时间跨度,使得在时间方向上具有严重的误差累积效应,最终导致模型收敛比较困难。
为克服模型收敛困难这一问题,通常采用老师强制方法(teacher-forced)来训练,即使用真实的有效值(ground truth)来代替上一时刻的输出声音的频域信息,但这会使得神经网络在训练时依赖于teacher-forced使用的ground truth和神经网络过拟合等问题。因此,在前置小网络里引入dropout算子来引入噪声扰动迫使前置网络克服这种依赖行为,使其转而更多从prenet中抽取更加本质的信息和从encoder的memory中学习。
由于dropout算子推理时计算特性不再引入噪声扰动,使得推理时解码器完全依赖于上一时刻声音的频域信息,而seq2seq的起始状态是零状态,这种过分的依赖性使得解码器很难进入到可以正常工作的状态。Tacotron2论文声称为了声音合成的随机性,在模型推理时dropout算子依旧使用训练时的计算方法,这将导致实际生产的多个问题:(1)声音合成时每次得到的结果具有随机性,一旦声音合成失败,问题复现将会非常困难,不利于定位问题。(2)随机数生成具有一定的开销和与此关联的权重内存分布不连续等原因导致推理速度偏慢。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种参数管理方法、系统、介质和设备,主要解决声音合成随机性难以定位问题且推理速度慢的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种参数管理方法,包括:
获取神经网络处理参数;
对所述处理参数中的权重进行筛选,并根据筛选后的权重对输入的声音信息进行处理,获取声音合成信息。
可选地,所述处理参数包至少包括神经网络各层权重、各层的网络节点数。
可选地,所述神经网络包含多个全连接层,在对所述处理参数中的权重进行筛选之前,根据所述多个全连接层的权重创建权重矩阵,并根据所述权重矩阵进行权重筛选。
可选地,对所述权重矩阵进行屏蔽处理,获取筛选后的权重矩阵。
可选地,所述屏蔽处理包括对所述权重矩阵中指定行或列进行屏蔽。
可选地,通过设置屏蔽概率的方式对所述权重矩阵中的行或列进行屏蔽。
可选地,所述神经网络包括循环神经网络、卷积神经网络、长短期记忆神经网络中的一种。
可选地,所述声音信息包括文本信息或声音频域信息。
可选地,所述声音信息为文本信息时,通过所述神经网络的卷积层对所述文本信息进行特征提取,获取声音文本特征,并建立所述声音文本特征与声音频域信息的映射关系;
通过所述神经网络对所述声音频域信息进行处理。
一种参数管理系统,包括:
参数获取模块,用于获取神经网络处理参数;
声音处理模块,用于对所述处理参数中的权重进行筛选,并根据筛选后的权重对输入的声音信息进行处理,获取声音合成信息。
可选地,所述处理参数包至少包括神经网络各层权重、各层的网络节点数。
可选地,包括权重矩阵创建模块,用于所述神经网络包含多个全连接层,在对所述处理参数中的权重进行筛选之前,根据所述多个全连接层的权重创建权重矩阵,并根据所述权重矩阵进行权重筛选。
可选地,包括屏蔽模块,用于对所述权重矩阵进行屏蔽处理,获取筛选后的权重矩阵。
可选地,所述屏蔽处理包括对所述权重矩阵中指定行或列进行屏蔽。
可选地,包括屏蔽概率设置模块,用于通过设置屏蔽概率的方式对所述权重矩阵中的行或列进行屏蔽
可选地,所述神经网络包括循环神经网络、卷积神经网络、长短期记忆神经网络中的一种。
可选地,所述声音信息包括文本信息或声音频域信息。
可选地,包括文本预处理模块,用于所述声音信息为文本信息时,通过所述神经网络的卷积层对所述文本信息进行特征提取,获取声音文本特征,并建立所述声音文本特征与声音频域信息的映射关系;通过所述神经网络对所述声音频域信息进行处理。
一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行所述的参数管理方法。
一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行所述的参数管理方法。
如上所述,本发明一种参数管理方法、系统、介质和设备,具有以下有益效果。
通过对权重进行筛选的方式,可引入噪声的同时,提高推理速度;根据筛选后的权重进行声音处理,可以方便问题追溯及复现;操作简单,可有效降低推理代码内存布局的难度。
附图说明
图1为本发明一实施例中参数管理方法的流程图。
图2为本发明一实施例中参数管理系统的模块图。
图3为本发明一实施例中终端设备的结构示意图。
图4为本发明另一实施例中终端设备的结构示意图。
图5为本发明dropout算子作用于神经网络前后的神经网络结构示意图。
图6位本发明权重矩阵与神经网络结构关系的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种参数管理方法,包括步骤S01-S02。
在步骤S01中,获取神经网络处理参数:
在一实施例中,可预先对神经网络进行训练,获取经过训练的神经网络的处理参数。处理参数至少包括神经网络各层权重、各层的网络节点数。
在一实施例中,神经网络可采用循环神经网络(RNN)、卷积神经网络(CNN)、长短期记忆神经网络(LSTM)中的一种,也可采用其它神经网络构建初始训练模型。以LSTM为例,可采用seq2seq框架创建初始训练模型。其中,seq2seq框架是一种encoder-decoder框架,包括编码器和解码器两部分。通过编码器将不定长度的输入序列映射到固定长度的声音频域向量;再通过解码器结合编码器的隐藏状态,将声音频域向量合成不定长度的音频信息。具体地,在编码器中通过一个LSTM网络对文本或音频对应的频域信息进行编码,再通过解码器中的一个LSTM获取合成音频信息。
在神经网络训练过程中,可采用标准的dropout算子作用于神经网络,神经网络通常包含多个网络层,每个网络层包含多个网络节点,每个网络节点即为一个神经元。在神经网络进行前向传播时,让某个神经元的激活值以一定的概率P停止工作,这样可以使模型泛化性更强,不会太依赖于某些局部特征。具体可参阅图5,图中a表示标准的神经网络结构,图b表示经过dropout算子处理后的神经网络。dropout算子作用于神经网络的过程如下:
首先,如图5(b)中所示,随机屏蔽多个神经元;假设输入为x,输出为y,将x通过修改后的神经网络前向传播,然后将得到的损失结果通过修改后的网络反向传播,经过小批量样本执行前述过程后,在没有被屏蔽的神经元上按随机梯度下降法更新神经元节点间的连接权重w和误差b;然后恢复被屏蔽的神经元,再重新随机选择神经元进行屏蔽处理,重复前述步骤进而得到神经网络模型。
dropout算子可表示为:
m~Bernoulli(p)
其中m是由Bernoulli函数生成的向量,即随机生成一个[0,1]的向量.
从数学上来说,神经网络层训练过程中使用的标准dropout算子可以表示为:
y′=m*y
y=f(W*x)
其中f(·)为激活函数,y为经过激活函数后得到的神经元输出,x是神经网络全连接层的输入,W是对应全连接层的的权重矩阵,y’为对应全连接层的输出,而m则为全连接层的dropout掩膜(mask),mask中每个元素为0的概率为p。
让某个神经元以概率P停止工作,实质上是将激活函数的激活值以概率p变为0。
在一实施例中,可采集文本或音频信息构建创建训练数据集。通过训练数据及对神经网络进行训练。
神经网络可包括多个全连接层,在进行神经网络训练时,dropout算子主要作用于解码器中的神经网络,通过dropout算子修改后的神经网络对上一时刻输出的声音频域信息进行抽取。以LSTM网络为例,在进行抽取时,将LSTM某一层全连接层的输出与dropout算子相乘,屏蔽掉该全连接层的一个或多个神经元,进而通过dropout的mask对该全连接层与下一全连接层的连接权重进行筛选。
在一实施例中,可设置dropout算子的屏蔽概率,根据屏蔽概率选择性的丢弃对应全连接层的部分权重。如可设置屏蔽概率为0.5,则随机选择全连接层的一半神经元的连接权重进行置零,并根据剩下的权重建立该全连接层与下一层全连接层的连接,减少计算量。每经过一个epoch的训练,恢复被屏蔽的神经元,重新通过dropout按照设定屏蔽概率以筛选全连接层神经元,获取新的参与计算的权重。
在一实施例中,可分别设置多个dropout算子分别作用于不同的全连接层,当存在连续两层全连接层的dropout算子相连时,可同时通过对应的dropout算子对全连接层进行屏蔽处理,按设定的屏蔽概率选择性屏蔽全连接层的权重,而不必按照神经网络层结构的先后顺序,依次将全连接层的输出与对应dropout算子进行计算,可有效提高训练效率。例如,设神经网络包含3层全连接层,且每层全连接层包含5个网络节点(即5个神经元),可设置第一层全连接层dropout算子的屏蔽概率为0.2,第二层全连接层的屏蔽概率为0.6,第三层全连接层的屏蔽概率为0.4,则可直接预先屏蔽第一层的一个神经元,第二层的3个神经元和第三层的2个神经元,并根据屏蔽后的神经网络权重进行训练,而不必逐层进行dropout算子计算。
经过多次迭代训练seq2seq框架,获取训练完成的神经网络,进而获取神经网络的各网络层的权重等处理参数。
在步骤S02中,对处理参数中的权重进行筛选,并根据筛选后的权重对输入的声音信息进行处理,获取声音合成信息:
在应用过程中对声音信息进行处理时,仍采用训练时dropout算子计算方法,容易导致声音合成时每次得到的结果具有随机性,一旦出现问题,问题复现及定位困难;且随机dropout算子容易导致权重分布不连续进而影响推理速度。因此,通常会采用全连接层输出乘以一个特定的概率对训练的模型进行测试,而不是随机生成dropout的屏蔽概率。
然而这种方法,计算量大,且所有权重均参与计算,没有引入噪声扰动,从而使声音合成模型的解码器在测试时完全依赖上一刻声音的频域信息。这会导致上一刻误差直接累积到当前的处理流程中,误差不断放大,导致模型无法收敛。
因而,本实施例通过指定部分权重参与计算,不仅方便问题追溯,还可因为不完全的权重而引入扰动噪声。
在一实施例中,神经网络至少包括多层全连接层,可根据训练后的神经网络的多个全连接层的连接权重创建权重矩阵,具体地,将神经网络的中每层网络结构对应的权重作为权重矩阵的一行或一列,以此构建所有全连接层权重组成的权重矩阵。如图6所示,设神经元A与下一层全连接层的连接权重为(a1,a2,a3),B与下一层全连接层的连接权重为(b1,b2,b3),神经元C与下一层全连接层的连接权重为(c1,c2,c3),则权重矩阵的第一行用来表示第一层全连接层的权重,则可表示为(a1,a2,a3,b1,b2,b3,c1,c2,c3),以此类推,权重矩阵的第二行用来表示第二层全连接层的权重,进而构建权重矩阵。
进一步地,根据创建的权重矩阵对神经网络的权重进行筛选。具体地,可对权重矩阵进行屏蔽处理,选择性地屏蔽权重矩阵的指定行或列权重,如权重矩阵为3行9列的矩阵,可指定屏蔽权重矩阵的1、2、3列或7,8,9列。具体地可通过随机指定或固定指定的方式确定权重矩阵中需要屏蔽的的行或列。如随机指定屏蔽两行权重,随机选中屏蔽第4到6列,则在后续对神经网络进行有限次样本数据迭代处理过程中,固定只有1-3列和7-9列的全连接层权重参与计算。在另一实施例中,也可在进行屏蔽处理时指定屏蔽概率,如设置屏蔽概率为0.5,则在首次屏蔽掉权重矩阵中的一半行或列后,剩余一半行或列将固定参与后续声音处理过程,这一方式有利于声音处理结果的追溯,区别于训练过程中每一个epoch屏蔽不同的权重导致声音难以追溯的问题,且参与计算的数据量减少可进一步提高效率。
在一实施例中,若训练过程中两连续的全连接层分别通过一个dropout算子进行屏蔽处理,则在模型测试过程中,去除对应的两个连续的全连接层的dropout算子后,通过同时指定屏蔽两个全连接层对应神经元的权重,获取修改后的全连接层及连接关系。具体地,可根据对应的两个连续的全连接层的权重创建权重矩阵,指定屏蔽该权重矩阵的行或列。根据该权重矩阵中保留的权重重新确定该两个连续的全连接层参与后续计算的权重。以此方法,对声音信息进行处理,获取声音合成信息。
在一实施例中,可从训练数据集中抽取一定数量的样本输入训练后的神经网络中进行测试,以保证神经网络输出结果的准确率。
在一实施例中,输入的声音信息可包括文本信息或声音频域信息。
具体地,声音信息可包括实时采集的音频,通过训练后的神经网络,对实时音频中的音调进行调节,获取合成的音频信息。
请参阅图2,本实施例中提供了一种参数管理系统,用于执行前述方法实施例中所述的参数管理方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
在一实施例中,参数管理系统包括参数获取模块10和声音处理模块11,参数获取模块10用于辅助执行前述方法实施例介绍的步骤S01;声音获取模块11用于辅助执行前述方法实施例介绍的步骤S02。
在一实施例中,处理参数包至少包括神经网络各层权重、各层的网络节点数。
在一实施例中,系统包括权重矩阵创建模块,神经网络包含多个全连接层,在对处理参数中的权重进行筛选之前,权重矩阵创建模块根据多个全连接层的权重创建权重矩阵,并根据权重矩阵进行权重筛选。
在一实施例中,系统包括屏蔽模块,用于对权重矩阵进行屏蔽处理,获取筛选后的权重矩阵。在一实施例中,屏蔽处理包括对权重矩阵中指定行或列进行屏蔽。
在一实施例中,系统包括包括屏蔽概率设置模块,用于通过设置屏蔽概率的方式对权重矩阵中的行或列进行屏蔽。
在一实施例中,神经网络包括循环神经网络、卷积神经网络、长短期记忆神经网络中的一种。
在一实施例中,声音信息包括文本信息或声音频域信息。
在一实施例中,系统包括文本预处理模块,用于声音信息为文本信息时,通过所述神经网络的卷积层对所述文本信息进行特征提取,获取声音文本特征,并建立所述声音文本特征与声音频域信息的映射关系;通过所述神经网络对所述声音频域信息进行处理。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中参数管理方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第一处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
综上所述,本发明一种参数管理方法、系统、介质和设备,通过指定屏蔽的方式解决了神经网络在应用过程中时原有技术方案声音合成的随机性,有利于实际生产中问题的复现和定位;减少seq2seq中解码时的随机数生成开销、内存使用开销和计算量,提高推理速度;对权重矩阵W采用一次性指定屏蔽的处理方式操作简单方便,更有利于神经网络算法代码的内存布局的开发难度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (14)
1.一种参数管理方法,其特征在于,包括:
获取神经网络处理参数;
所述神经网络包含多个全连接层,根据所述多个全连接层的权重创建权重矩阵,并根据所述权重矩阵进行权重筛选,对所述权重矩阵进行屏蔽处理,获取筛选后的权重矩阵;其中,所述屏蔽处理包括对所述权重矩阵中指定行或列进行屏蔽;
并根据筛选后的权重矩阵对输入的声音信息进行处理,获取声音合成信息。
2.根据权利要求1所述的参数管理方法,其特征在于,所述处理参数包至少包括神经网络各层权重、各层的网络节点数。
3.根据权利要求1所述的参数管理方法,其特征在于,通过设置屏蔽概率的方式对所述权重矩阵中的行或列进行屏蔽。
4.根据权利要求1所述的参数管理方法,其特征在于,所述神经网络包括循环神经网络、卷积神经网络、长短期记忆神经网络中的一种。
5.根据权利要求1所述的参数管理方法,其特征在于,所述声音信息包括文本信息或声音频域信息。
6.根据权利要求5所述的参数管理方法,其特征在于,所述声音信息为文本信息时,通过所述神经网络的卷积层对所述文本信息进行特征提取,获取声音文本特征,并建立所述声音文本特征与声音频域信息的映射关系;
通过所述神经网络对所述声音频域信息进行处理。
7.一种参数管理系统,其特征在于,包括:
参数获取模块,用于获取神经网络处理参数;
权重矩阵创建模块,用于所述神经网络包含多个全连接层,根据所述多个全连接层的权重创建权重矩阵,并根据所述权重矩阵进行权重筛选,对所述权重矩阵进行屏蔽处理,获取筛选后的权重矩阵;其中,所述屏蔽处理包括对所述权重矩阵中指定行或列进行屏蔽;
声音处理模块,根据筛选后的权重矩阵对输入的声音信息进行处理,获取声音合成信息。
8.根据权利要求7所述的参数管理系统,其特征在于,所述处理参数包至少包括神经网络各层权重、各层的网络节点数。
9.根据权利要求7所述的参数管理系统,其特征在于,包括屏蔽概率设置模块,用于通过设置屏蔽概率的方式对所述权重矩阵中的行或列进行屏蔽。
10.根据权利要求7所述的参数管理系统,其特征在于,所述神经网络包括循环神经网络、卷积神经网络、长短期记忆神经网络中的一种。
11.根据权利要求7所述的参数管理系统,其特征在于,所述声音信息包括文本信息或声音频域信息。
12.根据权利要求11所述的参数管理系统,其特征在于,包括文本预处理模块,用于所述声音信息为文本信息时,通过所述神经网络的卷积层对所述文本信息进行特征提取,获取声音文本特征,并建立所述声音文本特征与声音频域信息的映射关系;通过所述神经网络对所述声音频域信息进行处理。
13.一种参数管理设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-6中任一所述的方法。
14.一种机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182188.1A CN111402860B (zh) | 2020-03-16 | 2020-03-16 | 一种参数管理方法、系统、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182188.1A CN111402860B (zh) | 2020-03-16 | 2020-03-16 | 一种参数管理方法、系统、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402860A CN111402860A (zh) | 2020-07-10 |
CN111402860B true CN111402860B (zh) | 2021-11-02 |
Family
ID=71430939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182188.1A Active CN111402860B (zh) | 2020-03-16 | 2020-03-16 | 一种参数管理方法、系统、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402860B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107483920A (zh) * | 2017-08-11 | 2017-12-15 | 北京理工大学 | 一种基于多层级质量因子的全景视频评估方法及系统 |
WO2018022821A1 (en) * | 2016-07-29 | 2018-02-01 | Arizona Board Of Regents On Behalf Of Arizona State University | Memory compression in a deep neural network |
CN108510058A (zh) * | 2018-02-28 | 2018-09-07 | 中国科学院计算技术研究所 | 神经网络中的权重存储方法以及基于该方法的处理器 |
CN109785823A (zh) * | 2019-01-22 | 2019-05-21 | 中财颐和科技发展(北京)有限公司 | 语音合成方法及系统 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
-
2020
- 2020-03-16 CN CN202010182188.1A patent/CN111402860B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018022821A1 (en) * | 2016-07-29 | 2018-02-01 | Arizona Board Of Regents On Behalf Of Arizona State University | Memory compression in a deep neural network |
CN107483920A (zh) * | 2017-08-11 | 2017-12-15 | 北京理工大学 | 一种基于多层级质量因子的全景视频评估方法及系统 |
CN108510058A (zh) * | 2018-02-28 | 2018-09-07 | 中国科学院计算技术研究所 | 神经网络中的权重存储方法以及基于该方法的处理器 |
CN109785823A (zh) * | 2019-01-22 | 2019-05-21 | 中财颐和科技发展(北京)有限公司 | 语音合成方法及系统 |
CN110738984A (zh) * | 2019-05-13 | 2020-01-31 | 苏州闪驰数控系统集成有限公司 | 人工智能cnn、lstm神经网络语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111402860A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136744B (zh) | 一种音频指纹生成方法、设备及存储介质 | |
JP7084457B2 (ja) | 画像の生成方法、生成装置、電子機器、コンピュータ可読媒体およびコンピュータプログラム | |
US20210201550A1 (en) | Method, apparatus, device and storage medium for animation interaction | |
Tisan et al. | An end-user platform for FPGA-based design and rapid prototyping of feedforward artificial neural networks with on-chip backpropagation learning | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
JP2021121966A (ja) | 画像処理方法、装置、電子機器及び記憶媒体 | |
CN110532447A (zh) | 一种业务数据处理方法、装置、介质和设备 | |
CN105446489B (zh) | 语音双模控制方法、装置及用户终端 | |
CN106774028A (zh) | 一种基于时间轴的机器人控制方法与装置 | |
WO2023138498A1 (zh) | 生成风格化图像的方法、装置、电子设备及存储介质 | |
CN110379411A (zh) | 针对目标说话人的语音合成方法和装置 | |
JP2021167977A (ja) | 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体 | |
CN112949172A (zh) | 一种数据处理方法、装置、机器可读介质及设备 | |
CN110838306B (zh) | 语音信号检测方法、计算机存储介质及相关设备 | |
CN106484614A (zh) | 一种核对图片处理效果的方法、装置及移动终端 | |
Tian et al. | Multi‐cue combination network for action‐based video classification | |
CN111402860B (zh) | 一种参数管理方法、系统、介质和设备 | |
CN108460364B (zh) | 用于生成信息的方法和装置 | |
CN111722700A (zh) | 一种人机交互方法及人机交互设备 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
WO2023273621A1 (zh) | 脚本生成方法、装置、设备及介质 | |
CN110299148A (zh) | 基于Tensorflow的语音融合方法、电子装置及存储介质 | |
US20220059074A1 (en) | Method for evaluating satisfaction with voice interaction, device, and storage medium | |
CN110209880A (zh) | 视频内容检索方法、视频内容检索装置及存储介质 | |
CN114265500A (zh) | 一种基于传感器技术的虚拟现实增强方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |