CN109326278A - 一种声学模型构建方法及装置、电子设备 - Google Patents

一种声学模型构建方法及装置、电子设备 Download PDF

Info

Publication number
CN109326278A
CN109326278A CN201710640216.8A CN201710640216A CN109326278A CN 109326278 A CN109326278 A CN 109326278A CN 201710640216 A CN201710640216 A CN 201710640216A CN 109326278 A CN109326278 A CN 109326278A
Authority
CN
China
Prior art keywords
deep learning
model
residual vector
learning model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710640216.8A
Other languages
English (en)
Other versions
CN109326278B (zh
Inventor
刘利娟
江源
胡国平
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710640216.8A priority Critical patent/CN109326278B/zh
Publication of CN109326278A publication Critical patent/CN109326278A/zh
Application granted granted Critical
Publication of CN109326278B publication Critical patent/CN109326278B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种声学模型构建方法及装置、电子设备,所述方法包括如下步骤:步骤一,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;步骤二,利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量;步骤三,利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型,本发明使声学模型构建时,其输入特征与输出特征包含的信息更匹配,有效提高了建模的精度。

Description

一种声学模型构建方法及装置、电子设备
技术领域
本发明涉及语音信号处理及机器学习领域,尤其涉及一种基于深度学习模型的声学模型构建方法及装置、电子设备。
背景技术
近年来随着深度学习技术的不断突破,越来越多的应用领域使用深度学习方法提升应用效果,如语音合成应用领域一般使用深度学习技术构建声学模型,提升建模精度;因此,深度学习方法具有广阔的研究和应用价值,越来越多的研究人员开始关注深度学习方法,研究如何提升深度学习模型的建模精度,尤其是语音合成等应用领域声学模型的构建。
现有的基于深度学习的声学模型构建方法在利用深度学习模型进行声学模型构建时存在输入层与输出层特征不匹配的问题,严重影响建模精度。
发明内容
为克服上述现有技术存在的不足,本发明的目的在于提供一种声学模型构建方法及装置、电子设备,以在利用深度学习模型进行声学模型构建时,使深度学习模型的输入特征与输出特征包含的信息更匹配,有效提高建模的精度。
为达上述目的,本发明提供的技术方案如下:
一种声学模型构建方法,包括如下步骤:
步骤一,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;
步骤二,利用所述初始深度学习模型构建所述文本特征与语音数据的声学特征之间的残差向量;
步骤三,利用构建得到的残差向量对所述初始深度学习模型进行更新,得到更新后的深度学习模型。
进一步地,步骤一包括:
确定深度学习网络的拓扑结构,以提取的文本特征作为深度学习模型的输入特征,以语音数据的声学特征作为深度学习模型的输出特征,进行模型训练,得到对应的模型参数。
进一步地,步骤二包括:
确定残差向量的维数,初始化残差向量;
利用所述初始深度学习模型对初始化后的残差向量进行更新。
进一步地,所述确定残差向量的维数,初始化残差向量的步骤以句子或音素或音节为单位初始化残差向量,先对训练数据中所有句子/音素/音节进行编号;再将句子/音素/音节编号映射成高维特征向量,向量中每个元素作为每个句子/音素/音节的影响因子,将所述高维特征向量作为残差向量。
进一步地,所述利用所述初始深度学习模型对初始化后的残差向量进行更新的步骤包括:
使用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接,获得残差深度学习模型结构;
初始化所述连接矩阵;
根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵。
进一步地,所述根据所述残差深度学习模型结构进行模型参数更新的步骤为将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入,利用收集的大量训练数据进行模型参数更新。
进一步地,所述根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵的步骤如下:
固定步骤一模型训练后的初始深度学习模型的模型参数不变,更新所述连接矩阵及残差向量;
进行模型训练,以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标,进行模型参数的更新,直到模型参数变化小于预设阈值时,模型训练结束,得到最终的残差向量及连接该残差向量的矩阵,所述残差向量中包含声学特征没有被文本特征表征的信息。
进一步地,步骤三包括:
根据所述残差深度学习模型结构,利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新;
参数更新时,保持所述残差向量及相应连接矩阵的取值不变,更新所述初始深度学习模型的模型参数。
为达到上述目的,本发明还提供一种声学模型构建装置,包括:
初始深度学习模型构建单元,用于收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;
残差向量构建单元,用于利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量;
模型更新单元,用于利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型。
进一步地,所述初始深度学习模型构建单元进一步包括:
特征提取单元,用于分别提取所收集文本的文本特征和语音数据的声学特征;
模型构建单元,用于确定深度学习网络的拓扑结构,根据提取的文本特征和声学特征构建所述初始深度学习模型。
进一步地,所述残差向量构建单元包括
残差向量初始化单元,用于确定残差向量的维数,并初始化残差向量;
残差向量更新单元,用于利用所述初始深度学习模型对初始化后的残差向量进行更新。
进一步地,所述残差向量更新单元包括:
残差向量连接单元,用于利用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接,获得残差深度学习模型结构;
连接矩阵初始化单元,用于初始化所述连接矩阵;
模型参数更新单元,用于根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵。
进一步地,所述模型更新单元通过如下步骤实现:
根据所述残差深度学习模型结构,利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新;
参数更新时,保持所述残差向量及相应连接矩阵的取值不变,更新初始深度学习模型的模型参数。
本发明还提供一种电子设备,所述电子设备包括;
存储介质,存储有多条指令,所述指令由处理器加载,执行上述声学模型构建方法的步骤;以及
处理器,用于执行所述存储介质中的指令。
与现有技术相比,本发明一种声学模型构建方法及装置、电子设备的有益效果在于:
本发明一种声学模型构建方法及装置、电子设备通过收集大量文本与语音数据构建初始深度学习模型,利用该初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量,并利用构建得到的残差向量对初始深度学习模型进行更新,从而获得更新后的深度学习模型,本发明考虑了发音人在录制语音数据时,情绪、环境或时间差异等不同状态下引起的发音上的变化信息,并将该信息用于深度学习模型的训练中,从而使建模时,输入特征与输出特征包含的信息更匹配,有效提高了建模精度。
附图说明
图1为本发明一种声学模型构建方法的一个实施例步骤流程图;
图2为本发明具体实施例中步骤101的细部流程图;
图3为本发明具体实施例中深度学习模型的结构图;
图4为本发明具体实施例中步骤102的细部流程图;
图5为本发明具体实施例中步骤S22的细部流程图
图6为本发明具体实施例中残差深度学习模型网络结构图;
图7为本发明一种声学模型构建装置的一个实施例的系统架构图;
图8为本发明具体实施例中初始深度学习模型构建单元的细部结构图;
图9为本发明具体实施例中残差向量构建单元的细部结构图;
图10为本发明具体实施例中残差向量更新单元的细部结构图;
图11为本发明用于声学模型构建方法的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,本发明一种声学模型构建方法,包括如下步骤:
步骤101,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型。在本发明中,所述文本与语音数据相对应。
具体地,如图2所示,步骤101进一步包括:
步骤S11,分别提取所收集文本的文本特征和语音数据的声学特征。在本发明具体实施例中,可采用传统方法分别提取文本特征和语音数据的声学特征,例如,所述文本特征可根据收集的文本与语音数据通过标注的方法提取得到,一般为音素、声调以及不同层级的韵律特征,所述声学特征一般指语音数据的频谱、非周期谐波成份、基频、清浊等声学特征;
步骤S12,确定深度学习网络的拓扑结构,根据提取的文本特征和声学特征构建初始深度学习模型。具体构建时,如语音合成时,以提取的文本特征作为深度学习模型的输入特征,以语音数据的声学特征作为深度学习模型的输出特征,进行模型的训练,得到对应的模型参数。所述深度学习模型一般采用神经网络模型,如深度神经网络模型、循环神经网络模型、卷积神经网络模型等,具体本发明不作限定。在本发明具体实施例中,深度学习模型一般包含输入层、隐层、输出层,其中,隐层一般有一或多层,如深度神经网络模型,如图3所示为深度学习模型的结构图。这里的模型训练采用的是现有技术的训练方法,在此不予赘述。
步骤102,利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量。这里的残差向量指的是在相同文本内容时影响不同声学特征的因子,如发音人在读同一段文本时,说话的语气或情绪有可能不同,从而造成声学特征发生变化,其用于描述发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下,在发音上的变化信息。
具体地,如图4所示,步骤102进一步包括:
步骤S21,初始化残差向量。
具体地,首先确定残差向量的维数后再进行初始化,在本发明具体实施例中,例如使用1024维残差向量,具体初始化残差向量的方案如下:
为了防止深度学习模型的自由度过大,导致训练过程不稳定,本发明提出两种初始化残差向量的方法,一种以句子为单位初始化残差向量,另一种以音素为单位初始化残差向量,以下将分别说明:
一、以句子为单位初始化残差向量
一般人在说一句话时,状态都比较稳定,而在说不同句文本时,经常会因为情绪等因素导致发音状态发生变化,为了更符合人的发音状态,可以以句子为单位初始化残差向量。具体地,每个句子使用一个单独的影响因子表示,对于句子内部每个字或每个音素影响因子相同,从而使得句子与句子之间,即使发音人在读相同的文本,提取的声学特征也不同,将每个句子的影响因子初始化为残差向量的每个元素;
每个句子的影响因子可以通过训练数据中每个句子的编号得到,具体地,先对训练数据中每个句子进行编号,然后将句子编号映射成高维的特征向量,具体映射方法与现有技术相同,向量中每个元素作为每个句子的影响因子,将所述高维特征向量作为残差向量。
二、以音素为单位初始化残差向量
为了提升模型的精度,可以以更小单位构建残差向量,例如以音素为单位,即发音人说话时,每个音素使用一个单独的影响因子表示,音素与音素之间影响因子不同,音素内部的语音数据影响因子相同,该方法构建的残差特征向量更加精细,描述的发音变化信息更准确。以音素为单位的残差向量初始化方法与以句子为单位的残差向量初始化方法类似,即先对训练数据中所有音素进行编号;再将音素编号映射成高维特征向量,向量中每个元素作为每个音素的影响因子,将所述高维特征向量作为残差向量。
这里的需要说明的是,除了以句子或音素为单位初始化残差向量,本发明还可以以其它单位初始化残差向量,如以音节为单位,具体残差向量的初始化方法与以句子或音素为单位的初始化方法类似,在此具体不再详述。
步骤S22,利用初始深度学习模型对初始化后的残差向量进行更新。
具体地,如图5所示,步骤S22进一步包括:
步骤S221,将初始化的残差向量与初始深度学习模型结构相连接。具体连接时,使用连接矩阵W将初始化的残差向量连接到初始深度学习模型的隐层,连接残差向量后的模型结构输入层包含初始深度学习模型输入的文本特征和残差向量两部分,称为残差深度学习模型结构,如图6所示;
步骤S222,初始化连接矩阵W,具体可以采用随机初始化方法,这里不予赘述;
步骤S223,根据所述残差深度学习模型结构进行模型参数更新,获得最终残差向量及连接该残差向量的矩阵。具体地,将步骤101训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入,利用收集的大量训练数据进行模型参数更新。具体参数更新时,固定初始深度学习模型参数不变,即初始深度学习模型参数取值为步骤101中模型训练后的参数取值不变,更新连接矩阵W及残差向量,具体更新方法与现有模型训练方法相同,即以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标,进行模型参数的更新,直到模型参数变化小于预设阈值时,模型训练结束,得到最终残差向量及连接该残差向量的矩阵,所述残差向量中包含声学特征没有被文本特征表征的信息。
步骤103,利用步骤102构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型。
由于所述残差向量中包含声学特征中没有被文本特征表征的信息,利用该信息可以提升声学模型准确度;又由于初始深度模型中包含文本特征中的信息,因此利用得到的残差向量对初始深度学习模型进行更新,更新时,可以使得输入特征与输出特征包含的信息更匹配,提升建模精度,具体地,步骤103进一步包括如下步骤:
根据残差深度学习模型结构,利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新;
参数更新时,保持残差向量及相应连接矩阵的取值不变,即全部为步骤102训练得到的最终残差向量及连接矩阵取值,更新初始深度学习模型参数,初始深度学习模型参数初值为步101模型训练后得到的参数取值,在模型参数更新时,加入了残差向量中信息,使得建模时,输入特征与输出特征包含信息更匹配,从而提升建模精度。
在本发明的一个实施例中,如图7所示,本发明一种声学模型构建装置,包括:
初始深度学习模型构建单元70,用于收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型。在本发明中,所述文本与语音数据相对应。
具体地,如图8所示,初始深度学习模型构建单元70进一步包括:
特征提取单元701,用于分别提取所收集文本的文本特征和语音数据的声学特征。在本发明具体实施例中,特征提取单元701可采用传统方法分别提取文本特征和语音数据的声学特征,例如,所述文本特征可根据收集的文本与语音数据通过标注的方法提取得到,一般为音素、声调以及不同层级的韵律特征,所述声学特征一般指语音数据的频谱、非周期谐波成份、基频、清浊等声学特征;
模型构建单元702,用于确定深度学习网络的拓扑结构,根据提取的文本特征和声学特征构建初始深度学习模型。具体构建时,如语音合成时,模型构建单元702以提取的文本特征作为深度学习模型的输入特征,以语音数据的声学特征作为深度学习模型的输出特征,进行模型的训练,得到对应模型参数。所述深度学习模型一般采用神经网络模型,如深度神经网络模型、循环神经网络模型、卷积神经网络模型等,具体本发明不作限定。在本发明具体实施例中,深度学习模型一般包含输入层、隐层、输出层,其中,隐层一般有一或多层,如深度神经网络模型。
残差向量构建单元71,利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量。这里的残差向量指的是在相同文本内容时影响不同声学特征的因子,如发音人在读同一段文本时,说话的语气或情绪有可能不同,从而造成声学特征发生变化,其用于描述发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下,在发音上的变化信息。
具体地,如图9所示,残差向量构建单元71进一步包括:
残差向量初始化单元710,用于初始化残差向量。
具体地,残差向量初始化单元710首先确定残差向量的维数后再进行初始化,在本发明具体实施例中,残差向量初始化单元710确定使用1024维残差向量,其具体初始化方案如下:
为了防止深度学习模型的自由度过大,导致训练过程不稳定,残差向量初始化单元710可采用以下两种初始化残差向量的方法,一种以句子为单位初始化残差向量,另一种以音素为单位初始化残差向量,以下将分别说明:
一、以句子为单位初始化残差向量
一般人在说一句话时,状态都比较稳定,而在说不同句文本时,经常会因为情绪等因素导致发音状态发生变化,为了更符合人的发音状态,可以以句子为单位初始化残差向量。具体地,每个句子使用一个单独的影响因子表示,对于句子内部每个字或每个音素影响因子相同,从而使得句子与句子之间,即使发音人在读相同的文本,提取的声学特征也不同,将每个句子的影响因子初始化为残差向量的每个元素;
每个句子的影响因子可以通过训练数据中每个句子的编号得到,具体地,先对训练数据中每个句子进行编号,然后将句子编号映射成高维的特征向量,具体映射方法与现有技术相同,向量中每个元素作为每个句子的影响因子,将所述高维特征向量作为残差向量。
二、以音素为单位初始化残差向量
为了提升模型的精度,可以以更小单位构建残差向量,例如以音素为单位,即发音人说话时,每个音素使用一个单独的影响因子表示,音素与音素之间影响因子不同,音素内部的语音数据影响因子相同,该方法构建的残差特征向量更加精细,描述的发音变化信息更准确。以音素为单位的残差向量初始化方法与以句子为单位的残差向量初始化方法类似,即先对训练数据中所有音素进行编号;再将音素编号映射成高维特征向量,向量中每个元素作为每个音素的影响因子,将所述高维特征向量作为残差向量。
这里的需要说明的是,除了以句子或音素为单位初始化残差向量,本发明还可以以其它单位初始化残差向量,如以音节为单位,具体残差向量的初始化方法与以句子或音素为单位的初始化方法类似,在此具体不再详述。
残差向量更新单元711,用于利用初始深度学习模型对初始化后的残差向量进行更新。
具体地,如图10所示,残差向量更新单元711进一步包括:
残差向量连接单元7111,用于将初始化的残差向量与初始深度学习模型结构相连接。具体连接时,使用连接矩阵W将初始化的残差向量连接到初始深度学习模型的隐层,连接残差向量后的模型结构输入层包含初始深度学习模型输入的文本特征和残差向量两部分,称为残差深度学习模型结构;
连接矩阵初始化单元7112,用于初始化连接矩阵W,具体可以采用随机初始化方法;
模型参数更新单元7113,用于根据所述残差深度学习模型结构进行模型参数更新,得到最终的残差向量及连接该残差向量的矩阵。具体地,模型参数更新单元7113将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入,利用收集的大量训练数据进行模型参数更新。具体参数更新时,固定初始深度学习模型参数不变,即初始深度学习模型参数取值为初始深度学习模型构建单元70中模型训练后的参数取值,更新连接矩阵W及残差向量,具体更新方法与现有模型训练方法相同,即以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标,进行模型参数的更新,直到模型参数变化小于预设阈值时,模型训练结束,得到最终残差向量及连接该残差向量的矩阵,所述残差向量中包含声学特征没有被文本特征表征的信息。
模型更新单元72,用于利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型。
由于所述残差向量中包含声学特征中没有被文本特征表征的信息,利用该信息可以提升声学模型准确度;又由于初始深度模型中包含文本特征中的信息,因此利用得到的残差向量对初始深度学习模型进行更新,更新时,输入特征与输出特征包含的信息更匹配,提升建模精度,具体地,模型更新单元72通过如下步骤实现:
根据残差深度学习模型结构,利用收集的训练数据对所述结构中初始深度学习模型参数进行更新;
参数更新时,保持残差向量及相应连接矩阵的取值不变,即全部为残差向量构建单元71训练得到的最终残差向量及连接矩阵取值,更新初始深度学习模型参数,初始深度学习模型参数初值为初始深度学习模型构建单元70模型训练后得到的参数取值,在模型参数更新时,加入了残差向量中信息,使得建模时,输入特征与输出特征包含信息更匹配,从而提升了建模精度。
参见图11,示出了本发明用于建模方法的电子设备300的结构示意图。参照图11,电子设备300包括处理组件301,其进一步包括一个或多个处理器,以及由存储介质302所代表的存储设备资源,用于存储可由处理组件301的执行的指令,例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件301被配置为执行指令,以执行上述声学模型构建方法的各步骤。
电子设备300还可以包括一个电源组件303,被配置为执行电子设备300的电源管理;一个有线或无线网络接口304,被配置为将电子设备300连接到网络;和一个输入输出(I/O)接口305。电子设备300可以操作基于存储在存储介质302的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
综上所述,本发明一种声学模型构建方法及装置、电子设备通过收集大量文本与语音数据构建初始深度学习模型,利用该初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量,并利用构建得到的残差向量对初始深度学习模型进行更新,从而获得更新后的深度学习模型,本发明考虑了发音人在录制语音数据时,情绪、环境或时间差异等不同状态下引起的发音上的变化信息,并将该信息用于深度学习模型的训练中,从而使建模时,输入特征与输出特征包含的信息更匹配,有效提高了建模精度。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种声学模型构建方法,包括如下步骤:
步骤一,收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;
步骤二,利用所述初始深度学习模型构建所述文本特征与语音数据的声学特征之间的残差向量;
步骤三,利用构建得到的残差向量对所述初始深度学习模型进行更新,得到更新后的深度学习模型。
2.如权利要求1所述的一种声学模型构建方法,其特征在于:步骤一进一步包括:
确定深度学习网络的拓扑结构,以提取的文本特征作为深度学习模型的输入特征,以语音数据的声学特征作为深度学习模型的输出特征,进行模型训练,得到对应的模型参数。
3.如权利要求1所述的一种声学模型构建方法,其特征在于,步骤二进一步包括:
确定残差向量的维数,初始化残差向量;
利用所述初始深度学习模型对初始化后的残差向量进行更新。
4.如权利要求3所述的一种声学模型构建方法,其特征在于:所述确定残差向量的维数,初始化残差向量的步骤以句子或音素或音节为单位初始化残差向量,先对训练数据中所有句子/音素/音节进行编号;再将句子/音素/音节编号映射成高维特征向量,向量中每个元素作为每个句子/音素/音节的影响因子,将所述高维特征向量作为残差向量。
5.如权利要求3所述的一种声学模型构建方法,其特征在于:所述利用所述初始深度学习模型对初始化后的残差向量进行更新的步骤进一步包括:
使用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接,获得残差深度学习模型结构;
初始化所述连接矩阵;
根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵。
6.如权利要求5所述的一种声学模型构建方法,其特征在于:所述根据所述残差深度学习模型结构进行模型参数更新的步骤为将训练后的初始深度学习模型输入层参数及初始化后的残差向量作为模型输入,利用收集的大量训练数据进行模型参数更新。
7.如权利要求6所述的一种声学模型构建方法,其特征在于:所述根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵的步骤如下:
固定步骤一模型训练后的初始深度学习模型的模型参数不变,更新所述连接矩阵及残差向量;
进行模型训练,以最小化模型预测的参数值和训练数据中提取的真实值之间的差值最小为目标,进行模型参数的更新,直到模型参数变化小于预设阈值时,模型训练结束,得到最终的残差向量及连接该残差向量的矩阵,所述残差向量中包含声学特征没有被文本特征表征的信息。
8.如权利要求5所述的一种声学模型构建方法,其特征在于:步骤三进一步包括:
根据所述残差深度学习模型结构,利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新;
参数更新时,保持所述残差向量及相应连接矩阵的取值不变,更新所述初始深度学习模型的模型参数。
9.一种声学模型构建装置,包括:
初始深度学习模型构建单元,用于收集大量文本与语音数据,提取所收集文本的文本特征和语音数据的声学特征,利用所述文本特征和声学特征构建初始深度学习模型;
残差向量构建单元,用于利用初始深度学习模型构建文本特征与语音数据的声学特征之间的残差向量;
模型更新单元,用于利用构建得到的残差向量对初始深度学习模型进行更新,得到更新后的深度学习模型。
10.如权利要求9所述的一种声学模型构建装置,其特征在于,所述初始深度学习模型构建单元进一步包括:
特征提取单元,用于分别提取所收集文本的文本特征和语音数据的声学特征;
模型构建单元,用于确定深度学习网络的拓扑结构,根据提取的文本特征和声学特征构建所述初始深度学习模型。
11.如权利要求9所述的一种声学模型构建装置,其特征在于,所述残差向量构建单元包括
残差向量初始化单元,用于确定残差向量的维数,并初始化残差向量;
残差向量更新单元,用于利用所述初始深度学习模型对初始化后的残差向量进行更新。
12.如权利要求11所述的一种声学模型构建装置,其特征在于,所述残差向量更新单元包括:
残差向量连接单元,用于利用连接矩阵将初始化的残差向量与所述初始深度学习模型结构相连接,获得残差深度学习模型结构;
连接矩阵初始化单元,用于初始化所述连接矩阵;
模型参数更新单元,用于根据所述残差深度学习模型结构进行模型参数更新,得到最终残差向量及连接该残差向量的连接矩阵。
13.如权利要求12所述的一种声学模型构建装置,其特征在于,所述模型更新单元通过如下步骤实现:
根据所述残差深度学习模型结构,利用收集的训练数据对所述残差深度学习模型结构中初始深度学习模型的模型参数进行更新;
参数更新时,保持所述残差向量及相应连接矩阵的取值不变,更新初始深度学习模型的模型参数。
14.一种电子设备,其特征在于,所述电子设备包括:
存储介质,存储有多条指令,所述指令由处理器加载,执行权利要求1至8任一项所述方法的步骤;以及
处理器,用于执行所述存储介质中的指令。
CN201710640216.8A 2017-07-31 2017-07-31 一种声学模型构建方法及装置、电子设备 Active CN109326278B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710640216.8A CN109326278B (zh) 2017-07-31 2017-07-31 一种声学模型构建方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710640216.8A CN109326278B (zh) 2017-07-31 2017-07-31 一种声学模型构建方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN109326278A true CN109326278A (zh) 2019-02-12
CN109326278B CN109326278B (zh) 2022-06-07

Family

ID=65244931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710640216.8A Active CN109326278B (zh) 2017-07-31 2017-07-31 一种声学模型构建方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN109326278B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统
CN111133506A (zh) * 2019-12-23 2020-05-08 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN113053357A (zh) * 2021-01-29 2021-06-29 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009387A (en) * 1997-03-20 1999-12-28 International Business Machines Corporation System and method of compression/decompressing a speech signal by using split vector quantization and scalar quantization
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009387A (en) * 1997-03-20 1999-12-28 International Business Machines Corporation System and method of compression/decompressing a speech signal by using split vector quantization and scalar quantization
CN101814159A (zh) * 2009-02-24 2010-08-25 余华 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN105529023A (zh) * 2016-01-25 2016-04-27 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN106484674A (zh) * 2016-09-20 2017-03-08 北京工业大学 一种基于深度学习的中文电子病历概念抽取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统
CN110473516A (zh) * 2019-09-19 2019-11-19 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
CN110473516B (zh) * 2019-09-19 2020-11-27 百度在线网络技术(北京)有限公司 语音合成方法、装置以及电子设备
US11417314B2 (en) 2019-09-19 2022-08-16 Baidu Online Network Technology (Beijing) Co., Ltd. Speech synthesis method, speech synthesis device, and electronic apparatus
CN111133506A (zh) * 2019-12-23 2020-05-08 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
WO2021127821A1 (zh) * 2019-12-23 2021-07-01 深圳市优必选科技股份有限公司 语音合成模型的训练方法、装置、计算机设备及存储介质
CN113053357A (zh) * 2021-01-29 2021-06-29 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质
CN113053357B (zh) * 2021-01-29 2024-03-12 网易(杭州)网络有限公司 语音合成方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN109326278B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN104575490B (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN105869624B (zh) 数字语音识别中语音解码网络的构建方法及装置
CN104538024B (zh) 语音合成方法、装置及设备
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
CN104756182B (zh) 组合听觉注意力线索与音位后验得分以用于音素/元音/音节边界检测
KR20180071029A (ko) 음성 인식 방법 및 장치
CN110444191A (zh) 一种韵律层级标注的方法、模型训练的方法及装置
CN109326278A (zh) 一种声学模型构建方法及装置、电子设备
CN105206258A (zh) 声学模型的生成方法和装置及语音合成方法和装置
CN109147774B (zh) 一种改进的延时神经网络声学模型
CN104765996B (zh) 声纹密码认证方法及系统
CN1835075B (zh) 一种结合自然样本挑选与声学参数建模的语音合成方法
CN106057192A (zh) 一种实时语音转换方法和装置
CN102426834B (zh) 测试英文口语韵律水平的方法
CN106683666A (zh) 一种基于深度神经网络的领域自适应方法
WO2017166625A1 (zh) 用于语音识别的声学模型训练方法、装置和电子设备
CN113393828A (zh) 一种语音合成模型的训练方法、语音合成的方法及装置
Hu et al. A DNN-based acoustic modeling of tonal language and its application to Mandarin pronunciation training
JP2002156993A (ja) 複数の学習話者を表現する固有空間の特定方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN108175426B (zh) 一种基于深度递归型条件受限玻尔兹曼机的测谎方法
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN112017690B (zh) 一种音频处理方法、装置、设备和介质
CN102880906B (zh) 一种基于diva神经网络模型的汉语元音发音方法
Chen et al. An investigation of implementation and performance analysis of DNN based speech synthesis system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant