CN113990296B - 语音声学模型的训练方法、后处理方法和相关设备 - Google Patents

语音声学模型的训练方法、后处理方法和相关设备 Download PDF

Info

Publication number
CN113990296B
CN113990296B CN202111593501.1A CN202111593501A CN113990296B CN 113990296 B CN113990296 B CN 113990296B CN 202111593501 A CN202111593501 A CN 202111593501A CN 113990296 B CN113990296 B CN 113990296B
Authority
CN
China
Prior art keywords
neural network
data
label
training
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111593501.1A
Other languages
English (en)
Other versions
CN113990296A (zh
Inventor
徐泓洋
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202111593501.1A priority Critical patent/CN113990296B/zh
Publication of CN113990296A publication Critical patent/CN113990296A/zh
Application granted granted Critical
Publication of CN113990296B publication Critical patent/CN113990296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语音声学模型的训练方法、后处理方法和相关设备,在进行模型训练时,将基于CTC的语音序列预测任务(即第一神经网络的处理任务)和基于多标签分类任务(即第二神经网络的处理任务)结合,进行多任务学习(即联合模型训练),从而有效优化语音声学模型的识别效果。在此基础上,使用训练所得的语音声学模型进行后处理时,用多标签分类的输出来调整序列预测任务输出的概率分布特征,从而将序列预测任务输出中可能漏掉的部分内容加权放大,使其更容易被识别解码出来,从而简化了解码所需的计算,大幅度降低对硬件设备的资源需求。

Description

语音声学模型的训练方法、后处理方法和相关设备
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音声学模型的训练方法、后处理方法和相关设备。
背景技术
智能语音的很多任务中都要用到“声学模型”,比如语音识别和关键词识别。语音识别一般包含声学模型和语言模型两个模块,其中声学模型用于识别,语言模型用于解码。现有语音识别为了保证具有较高的识别效果,其声学模型和语言模型的体量都比较大,无法应用于资源有限的硬件设备。
发明内容
本申请的主要目的为提供一种语音声学模型的训练方法、后处理方法和相关设备,旨在解决现有的语音识别的声学模型和语音模型体量较大的弊端。
为实现上述目的,本申请提供了一种语音声学模型的训练方法,包括:
获取样本数据和所述样本数据对应的标签数据;
将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
本申请还提供了一种后处理方法,包括:
获取用户输入的语音数据;
将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
对所述概率序列进行解码,得到所述语音数据包含的内容。
本申请还提供了一种语音声学模型的训练装置,包括:
第一获取模块,用于获取样本数据和所述样本数据对应的标签数据;
训练模块,用于将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
本申请还提供了一种命令词的识别装置,包括:
第二获取模块,用于获取用户输入的语音数据;
预测模块,用于将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
加权模块,用于将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
解码模块,用于对所述概率序列进行解码,得到所述语音数据包含的内容。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种语音声学模型的训练方法、后处理方法和相关设备,模型训练时,首先获取样本数据和该样本数据对应的标签数据,然后将样本数据和标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练。在模型训练过程中,标签数据作为样本数据的监督学习目标,训练数据作为第一神经网络的输入,第一神经网络模型使用的损失函数为CTC loss;第一神经网络的输出作为第二神经网络的输入,第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所需的语音声学模型。模型应用时,将语音声学模型部署到终端设备上,终端设备获取用户输入的语音数据,将语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量;再将概率向量的各个元素与初始概率序列的对应行进行乘积计算,得到加权后的概率序列。最后对概率序列进行解码,得到语音数据包含的内容。本申请中,在进行模型训练时,将基于CTC的语音序列预测任务(即第一神经网络的处理任务)和基于多标签分类任务(即第二神经网络的处理任务)结合,进行多任务学习(即联合模型训练),从而有效优化语音声学模型的识别效果。在此基础上,在进行后处理时,用多标签分类的输出来调整序列预测任务输出的概率分布特征,从而将序列预测任务输出中可能漏掉的部分内容加权放大,使其更容易被识别解码出来,从而简化了解码所需的计算,大幅度降低对硬件设备的资源需求。
附图说明
图1是本申请一实施例中语音声学模型的训练方法的步骤示意图;
图2是本申请一实施例中后处理方法的步骤示意图;
图3是本申请一实施例中语音声学模型的训练装置的整体结构框图;
图4是本申请一实施例中后处理装置的整体结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种语音声学模型的训练方法,包括:
S1:获取样本数据和所述样本数据对应的标签数据;
S2:将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
本实施例中,训练系统首先调取预先录入的样本数据,该样本数据为大规模词表的语音数据,包含多个单词语音数据(即单个词语的语音数据)。训练系统将样本数据中的各个单词语音数据转化为音素,得到各个单词语音数据分别对应改的单词音素序列。最后,将这些单词音素序列进行汇总,形成样本数据对应的标签数据。训练系统将样本数据和标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,其中,第一神经网络可以是CNN/RNN等神经网络,样本数据经特征提取后得到对应的声学特征序列,声学特征序列进经第一神经网络处理后得到足够长的数据序列,满足CTC(ConnectionistTemporal Classification)计算需求即可;第二神经网络则为具有学习时序特征能力的神经网络。在模型训练过程中,分为语音序列预测任务和多标签分类任务。具体地,语音序列预测任务对应第一神经网络,样本数据和标签数据作为训练数据输入第一神经网络中进行模型训练,标签数据转化为标签数据中各个单音素对应的单音素向量,作为样本数据的监督学习目标,并使用CTC方法计算得到表征样本数据和标签数据之间差距的第一损失值。多标签分类任务对应第一神经网络加上第二神经网络,样本数据和标签数据同样作为训练数据首先输入第一神经网络中进行模型训练,标签数据转化为标签数据中各个单词音素序列对应的多音素向量,作为样本数据的监督学习目标,训练样本输入第一神经网络后处理,得到标签概率序列;再将标签概率序列输入第二神经网络使用统一多标签交叉熵损失函数计算得到第二损失值。模型训练过程中,语音序列预测任务和多标签分类任务同步进行,梯度计算和反向传播同步处理,根据每次计算所得的第一损失值和第二损失值的总和对第一神经网络的参数和第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到语音声学模型。
本实施例中,在进行模型训练时,将基于CTC的语音序列预测任务(即第一神经网络的处理任务)和基于多标签分类任务(即第二神经网络的处理任务)结合,进行多任务学习(即联合模型训练),用多标签分类任务来辅助序列预测任务的训练,从而有效优化语音声学模型的识别效果。
进一步的,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
S101:获取所述样本数据,所述样本数据包括多个单词语音数据;
S102:将各所述单词语音数据转化为音素,得到各所述单词语音数据分别对应的单词音素序列;
S103:将各所述单词音素序列进行汇总,得到所述标签数据。
本实施例中,训练系统获取大规模词表的语音数据形成的样本数据,该样本数据包括多个单词语音数据。训练系统将样本数据中的各个单词语音数据转化为音素,得到各个单词语音数据分别对应的单词音素序列(比如样本数据中包含单词“你好”、“空调”,“你好”转化后对应的单词音素序列为[n,i,h,ao],“空调”转化后对应的单词音素序列为[k,ong,t,i,ao])。训练系统将各个单词音素序列进行汇总,得到样本数据对应的标签数据。
进一步的,所述将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练的步骤,包括:
S201:将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
S202:将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
S203:根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型。
本实施例中,训练系统在联合模型训练过程中,同步进行语音序列预测任务和多标签分类任务。具体地,在进行语音序列预测任务时,训练系统对样本数据进行特征提取得到音频的声学特征序列;并对标签数据进行独热编码,得到标签数据中各个单音素对应的单音素向量。然后,训练系统将声学特征序列和各个单音素向量输入第一神经网络中,各个单音素向量作为声学特征序列的监督学习目标,使用CTC方法计算得到声学特征序列和各个单音素向量之间的第一损失值。在进行多标签分类任务时,训练系统对样本数据进行特征提取,得到音频的声学特征序列;并对标签数据进行独热编码,得到标签数据中各个单词音素序列对应的多音素向量。训练系统将声学特征序列和各个多音素向量输入第一神经网络进行处理,得到标签概率序列。然后将标签概率序列输入第二神经网络,使用统一多标签交叉熵损失函数进行计算,得到第二损失值。训练系统每得到一个第一损失值和第二损失值,则计算第一损失值和第二损失值的损失值总和,并使用该损失值综合对第一神经网络的参数和第二神经网络的参数进行优化。训练系统训练迭代上述的联合模型训练,直至模型收敛,得到语音声学模型。
进一步的,所述将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值的步骤,包括:
S2011:对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
S2012:将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
本实施例中,训练系统首先对样本数据进行特征提取,从而得到音频的声学特征序列。并且,训练系统将标签数据转化为音素的索引列表,得到标签数据中各个单音素对应的单音素向量(比如样本数据中的单词“你好”转化后对应的单词音素序列为[n,i,h,ao],则音素“n”对应的单音素向量为[1,0,0,0],音素“i”对应的单音素向量为[0,1,0,0],音素“h”对应的单音素向量为[0,0,1,0],音素“ao”对应的单音素向量为[0,0,0,1])。训练系统将声学特征序列和各个单音素向量输入第一神经网络,使用CTC方法计算得到表征声学特征序列和各个单音素向量之间的第一损失值。
进一步的,所述将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值的步骤,包括:
S2021:对所述样本数据进行特征提取,得到声学特征序列;对所述标签数据进行转化,得到所述标签数据中各个单词音素序列对应的多音素向量;
S2022:将所述声学特征序列和各所述多音素向量输入第一神经网络进行处理,得到所述标签概率序列;
S2023:将所述标签概率序列输入所述第二神经网络,使用所述统一多标签交叉熵损失函数进行计算,得到所述第二损失值。
本实施例中,训练系统首先对样本数据进行特征提取,得到音频的声学特征序列;并将标签数据处理成音素的k-hot向量,得到标签数据中各个单词音素序列对应的多音素向量(比如样本数据中的单词“你好”转化后对应的单词音素序列为[n,i,h,ao],则该单词“你好”对应的多音素向量为[1,1,1,1])。训练系统将样本数据的声学特征序列和各个多音素向量输入第一神经网络进行处理,得到标签概率序列。然后将第一神经网络输出的标签概率序列输入第二神经网络中,使用同一多标签交叉熵损失函数进行损失计算(在多标签分类任务的处理过程中,第一神经网络和第二神经网络视为一个完整的模型网络,即第一神经网络和第二神经网络均为该模型网络的其中一部分),得到多标签分类任务对应的第二损失值。
参照图2,本申请一实施例还提供了一种后处理方法,包括:
A1:获取用户输入的语音数据;
A2:将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
A3:将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
A4:对所述概率序列进行解码,得到所述语音数据包含的内容。
本实施例中,上述语音声学模型的训练方法训练所得的语音声学模型应用时,部署在硬件设备上。硬件设备的识别系统实时采集用户输入的语音数据,然后将语音数据输入该语音声学模型中,首先通过基于CTC的序列预测任务处理得到初始概率序列,该初始概率序列的每一列都输出当前列对应到每一个音素的概率值;并通过多标签分类任务处理得到概率向量,从中得到音频中最优可能存在的N个音素,以及N个音素各自对应的概率值。进一步的;将多标签分类任务所得的概率向量的每个元素与序列预测任务所得的初始概率序列的对应行进行乘积计算,从而得到加权后的新的概率序列(该新的概率序列即为语音声学模型最终输出的概率序列)。具体地,识别系统将用户的语音数据输入语音声学模型中,首先通过基于CTC的序列预测任务进行处理得到初始概率序列,该初始概率序列的每一列都输出当前列对应到每一个音素的概率值。并同步通过多标签分类任务处理得到概率向量,从中得到音频中最优可能存在的N个音素,以及N个音素各自对应的概率值。再将概率向量的各个元素与初始概率序列的对应行进行乘积计算,从而得到加权计算后新的概率序列。比如总共有9个音素标签,语音数据的音频内容为[1,6,7,8],通过多标签分类任务预测出了1、6、7、8四个音素标签出现的概率较大,其他类别的音素标签概率很小。在将概率向量的各个元素与序列预测任务所得的初始概率序列的对应行(比如概率向量中音素标签“1”与初始概率序列中音素标签“1”对应行)进行加权运算,从而使得序列中音素标签1、6、7、8的概率被放大,而其他行的概率被缩小,进而更容易找到加权计算后新的概率序列中最该概率的解码路径,大幅度降低后续在概率序列上进行解码的难度。
同样的,在联合模型训练过程中,由于第一神经网络是由多标签分类任务和序列预测任务共同优化的(即根据第一损失值和第二损失值的总和对第一神经网络的参数进行优化),多标签分类任务会促使第一神经网络学习到命令词的音素标签相关的内容,从而诱导序列预测任务相比单独训练时可以更多注意被漏掉的内容。比如序列预测任务单独训练时,只能识别到1、6、8的概率较大,遗漏了音素标签“7”。在多标签分类任务的诱导下,序列预测任务会更多注意到音素标签“7”的信息内容,从而使得音素标签“7”更容易被识别出来,提高最终训练所得的语音声学模型的识别准确度。
识别系统使用较为简单的解码算法(比如维特比解码算法、贪婪算法)对该概率序列进行解码,从而得到概率序列中具有最大概率值的解码路径,进而根据该解码路径得到用户输入的语音数据中所包含的命令词(或者说语音数据中所包含的单词)。
本实施例中,在进行后处理时,用多标签分类的输出来调整序列预测任务输出的概率分布特征,从而将序列预测任务输出中可能漏掉的部分内容加权放大,使其更容易被识别解码出来,因此在进行解码时不需要使用复杂的语言模型,而是使用简单的解码算法即可,从而简化了解码所需的计算,大幅度降低对硬件设备的资源需求,以及提高了语音识别的速度。
参照图3,本申请一实施例中还提供了一种语音声学模型的训练装置,包括:
第一获取模块1,用于获取样本数据和所述样本数据对应的标签数据;
训练模块2,用于将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
进一步的,所述第一获取模块1,包括:
获取单元,用于获取所述样本数据,所述样本数据包括多个单词语音数据;
转化单元,用于将各所述单词语音数据转化为音素,得到各所述单词语音数据分别对应的单词音素序列;
汇总单元,用于将各所述单词音素序列进行汇总,得到所述标签数据。
进一步的,所述训练模块2,包括:
第一计算单元,用于将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
第二计算单元,用于将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
优化单元,用于根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型。
进一步的,所述第一计算单元,包括:
第一编码子单元,用于对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
第一计算子单元,用于将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
进一步的,所述第二计算单元,包括:
第二编码子单元,用于对所述样本数据进行特征提取,得到声学特征序列;对所述标签数据进行转化,得到所述标签数据中各个单词音素序列对应的多音素向量;
处理子单元,用于将所述声学特征序列和各所述多音素向量输入第一神经网络进行处理,得到所述标签概率序列;
第二计算子单元,用于将所述标签概率序列输入所述第二神经网络,使用所述统一多标签交叉熵损失函数进行计算,得到所述第二损失值。
本实施例中,语音声学模型的训练装置中各模块、单元、子单元用于对应执行与上述语音声学模型的训练方法中的各个步骤,其具体实施过程在此不做详述。
参照图4,本申请一实施例中还提供了一种后处理别装置,包括:
第二获取模块3,用于获取用户输入的语音数据;
预测模块4,用于将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
加权模块5,用于将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
解码模块6,用于对所述概率序列进行解码,得到所述语音数据包含的内容。
本实施例中,命令词的识别装置中各模块用于对应执行与上述后处理方法中的各个步骤,其具体实施过程在此不做详述。
本实施例提供的一种语音声学模型的训练装置和后处理装置,模型训练时,首先获取样本数据和该样本数据对应的标签数据,然后将样本数据和标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练。在模型训练过程中,标签数据作为样本数据的监督学习目标,训练数据作为第一神经网络的输入,第一神经网络模型使用的损失函数为CTC loss;第一神经网络的输出作为第二神经网络的输入,第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所需的语音声学模型。模型应用时,将语音声学模型部署到终端设备上,终端设备获取用户输入的语音数据,然后将语音数据输入语音声学模型进行处理,得到概率序列。最后对该概率序列进行解码,得到当前次的语音数据包含的命令词。本申请中,在进行模型训练时,将基于CTC的语音序列预测任务(即第一神经网络的处理任务)和基于多标签分类任务(即第二神经网络的处理任务)结合,进行多任务学习(即联合模型训练),从而有效优化语音声学模型的识别效果。在此基础上,在进行后处理时,用多标签分类的输出来调整序列预测任务输出的概率分布特征,从而将序列预测任务输出中可能漏掉的部分内容加权放大,使其更容易被识别解码出来,从而简化了解码所需的计算,大幅度降低对硬件设备的资源需求。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音声学模型的训练方法和一种后处理方法。
上述处理器执行上述语音声学模型的训练方法的步骤:
S1:获取样本数据和所述样本数据对应的标签数据;
S2:将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
进一步的,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
S101:获取所述样本数据,所述样本数据包括多个单词语音数据;
S102:将各所述单词语音数据转化为音素,得到各所述单词语音数据分别对应的单词音素序列;
S103:将各所述单词音素序列进行汇总,得到所述标签数据。
进一步的,所述将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练的步骤,包括:
S201:将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
S202:将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
S203:根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型。
进一步的,所述将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值的步骤,包括:
S2011:对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
S2012:将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
进一步的,所述将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值的步骤,包括:
S2021:对所述样本数据进行特征提取,得到声学特征序列;对所述标签数据进行转化,得到所述标签数据中各个单词音素序列对应的多音素向量;
S2022:将所述声学特征序列和各所述多音素向量输入第一神经网络进行处理,得到所述标签概率序列;
S2023:将所述标签概率序列输入所述第二神经网络,使用所述统一多标签交叉熵损失函数进行计算,得到所述第二损失值。
上述处理器执行上述后处理方法的步骤:
A1:获取用户输入的语音数据;
A2:将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
A3:将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
A4:对所述概率序列进行解码,得到所述语音数据包含的内容。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音声学模型的训练方法和一种后处理方法,所述语音声学模型的训练方法具体为:
S1:获取样本数据和所述样本数据对应的标签数据;
S2:将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络模型使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型。
进一步的,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
S101:获取所述样本数据,所述样本数据包括多个单词语音数据;
S102:将各所述单词语音数据转化为音素,得到各所述单词语音数据分别对应的单词音素序列;
S103:将各所述单词音素序列进行汇总,得到所述标签数据。
进一步的,所述将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练的步骤,包括:
S201:将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
S202:将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
S203:根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型。
进一步的,所述将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值的步骤,包括:
S2011:对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
S2012:将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
进一步的,所述将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值的步骤,包括:
S2021:对所述样本数据进行特征提取,得到声学特征序列;对所述标签数据进行转化,得到所述标签数据中各个单词音素序列对应的多音素向量;
S2022:将所述声学特征序列和各所述多音素向量输入第一神经网络进行处理,得到所述标签概率序列;
S2023:将所述标签概率序列输入所述第二神经网络,使用所述统一多标签交叉熵损失函数进行计算,得到所述第二损失值。
上述处理器执行上述后处理方法的步骤:
A1:获取用户输入的语音数据;
A2:将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为如上所述的语音声学模型的训练方法训练得到的模型;
A3:将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
A4:对所述概率序列进行解码,得到所述语音数据包含的内容。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种语音声学模型的训练方法,其特征在于,包括:
获取样本数据和所述样本数据对应的标签数据;
将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络使用的损失函数为CTCloss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型;
所述将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练的步骤,包括:
将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型;
所述将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值的步骤,包括:
对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
2.根据权利要求1所述的语音声学模型的训练方法,其特征在于,所述获取样本数据和所述样本数据对应的标签数据的步骤,包括:
获取所述样本数据,所述样本数据包括多个单词语音数据;
将各所述单词语音数据转化为音素,得到各所述单词语音数据分别对应的单词音素序列;
将各所述单词音素序列进行汇总,得到所述标签数据。
3.根据权利要求1所述的语音声学模型的训练方法,其特征在于,所述将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值的步骤,包括:
对所述样本数据进行特征提取,得到声学特征序列;对所述标签数据进行转化,得到所述标签数据中各个单词音素序列对应的多音素向量;
将所述声学特征序列和各所述多音素向量输入第一神经网络进行处理,得到所述标签概率序列;
将所述标签概率序列输入所述第二神经网络,使用所述统一多标签交叉熵损失函数进行计算,得到所述第二损失值。
4.一种后处理方法,其特征在于,包括:
获取用户输入的语音数据;
将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为权利要求1—3中任一所述的语音声学模型的训练方法训练得到的模型;
将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
对所述概率序列进行解码,得到所述语音数据包含的内容。
5.一种语音声学模型的训练装置,其特征在于,包括:
第一获取模块,用于获取样本数据和所述样本数据对应的标签数据;
训练模块,用于将所述样本数据和所述标签数据作为训练数据输入第一神经网络和第二神经网络进行联合模型训练,在模型训练过程中,所述标签数据作为所述样本数据的监督学习目标,所述训练数据作为所述第一神经网络的输入,所述第一神经网络使用的损失函数为CTC loss;所述第一神经网络的输出作为所述第二神经网络的输入,所述第二神经网络使用的损失函数为统一多标签交叉熵损失函数;循环迭代联合模型训练直至模型收敛,得到所述语音声学模型;
所述训练模块,包括:
第一计算单元,用于将所述样本数据和所述标签数据输入所述第一神经网络,使用CTC方法计算得到第一损失值;
第二计算单元,用于将所述第一神经网络输出的标签概率序列输入所述第二神经网络,使用统一多标签交叉熵损失函数计算得到第二损失值;
优化单元,用于根据所述第一损失值和所述第二损失值的总和对所述第一神经网络的参数和所述第二神经网络的参数进行优化,循环迭代联合模型训练,直至模型收敛,得到所述语音声学模型;
所述第一计算单元,包括:
第一编码子单元,用于对所述样本数据进行特征提取,得到声学特征序列;并对所述标签数据进行转化,得到所述标签数据中各个单音素对应的单音素向量;
第一计算子单元,用于将所述声学特征序列和各所述单音素向量输入所述第一神经网络,使用CTC方法计算得到所述声学特征序列和各所述单音素向量之间的第一损失值。
6.一种后处理装置,其特征在于,包括:
第二获取模块,用于获取用户输入的语音数据;
预测模块,用于将所述语音数据输入语音声学模型中,通过序列预测得到初始概率序列,并通过多标签分类得到概率向量,其中,所述语音声学模型为权利要求1—3中任一所述的语音声学模型的训练方法训练得到的模型;
加权模块,用于将所述概率向量的各个元素与所述初始概率序列的对应行进行乘积计算,得到加权后的概率序列;
解码模块,用于对所述概率序列进行解码,得到所述语音数据包含的内容。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN202111593501.1A 2021-12-24 2021-12-24 语音声学模型的训练方法、后处理方法和相关设备 Active CN113990296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111593501.1A CN113990296B (zh) 2021-12-24 2021-12-24 语音声学模型的训练方法、后处理方法和相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593501.1A CN113990296B (zh) 2021-12-24 2021-12-24 语音声学模型的训练方法、后处理方法和相关设备

Publications (2)

Publication Number Publication Date
CN113990296A CN113990296A (zh) 2022-01-28
CN113990296B true CN113990296B (zh) 2022-05-27

Family

ID=79734148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593501.1A Active CN113990296B (zh) 2021-12-24 2021-12-24 语音声学模型的训练方法、后处理方法和相关设备

Country Status (1)

Country Link
CN (1) CN113990296B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453507B (zh) * 2023-02-21 2023-09-08 北京数美时代科技有限公司 基于置信度模型的语音识别优化方法、系统和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN112037798A (zh) * 2020-09-18 2020-12-04 中科极限元(杭州)智能科技股份有限公司 基于触发式非自回归模型的语音识别方法及系统
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
WO2021117089A1 (ja) * 2019-12-09 2021-06-17 日本電信電話株式会社 モデル学習装置、音声認識装置、それらの方法、およびプログラム
CN113393828A (zh) * 2020-11-24 2021-09-14 腾讯科技(深圳)有限公司 一种语音合成模型的训练方法、语音合成的方法及装置
CN113470626A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种语音识别模型的训练方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
WO2021117089A1 (ja) * 2019-12-09 2021-06-17 日本電信電話株式会社 モデル学習装置、音声認識装置、それらの方法、およびプログラム
CN112037798A (zh) * 2020-09-18 2020-12-04 中科极限元(杭州)智能科技股份有限公司 基于触发式非自回归模型的语音识别方法及系统
CN112509564A (zh) * 2020-10-15 2021-03-16 江苏南大电子信息技术股份有限公司 基于连接时序分类和自注意力机制的端到端语音识别方法
CN113393828A (zh) * 2020-11-24 2021-09-14 腾讯科技(深圳)有限公司 一种语音合成模型的训练方法、语音合成的方法及装置
CN113470626A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 一种语音识别模型的训练方法、装置及设备

Also Published As

Publication number Publication date
CN113990296A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN111933114B (zh) 语音唤醒混合模型的训练方法、使用方法和相关设备
CN113963688B (zh) 语音唤醒模型的训练方法、唤醒词的检测方法和相关设备
CN112735389A (zh) 基于深度学习的语音训练方法、装置、设备以及存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN114120978A (zh) 情绪识别模型训练、语音交互方法、装置、设备及介质
CN113506575B (zh) 流式语音识别的处理方法、装置和计算机设备
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN114360522B (zh) 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN113990296B (zh) 语音声学模型的训练方法、后处理方法和相关设备
CN113327575A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN114333799B (zh) 相近音误识别的检测方法、装置和计算机设备
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
US20210073645A1 (en) Learning apparatus and method, and program
CN112733911A (zh) 实体识别模型的训练方法、装置、设备和存储介质
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN114360521B (zh) 语音识别模型的训练方法、语音误识别的检测方法及设备
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN117672176A (zh) 基于语音自监督学习表征的重读可控语音合成方法及装置
CN113571052B (zh) 一种噪声提取及指令识别方法和电子设备
CN111933125B (zh) 联合模型的语音识别方法、装置和计算机设备
CN112365886B (zh) 语音识别模型的训练方法、装置和计算机设备
CN117275484A (zh) 命令词识别方法、装置、设备和介质
CN115101063B (zh) 低算力语音识别方法、装置、设备及介质
CN116343791A (zh) 业务执行方法、装置、计算机设备及其存储介质
Deng et al. History utterance embedding transformer lm for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Training methods, post-processing methods, and related equipment for speech acoustic models

Granted publication date: 20220527

Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd.

Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd.

Registration number: Y2024980029366

PE01 Entry into force of the registration of the contract for pledge of patent right