CN113744727A - 模型训练方法、系统、终端设备及存储介质 - Google Patents

模型训练方法、系统、终端设备及存储介质 Download PDF

Info

Publication number
CN113744727A
CN113744727A CN202110806047.7A CN202110806047A CN113744727A CN 113744727 A CN113744727 A CN 113744727A CN 202110806047 A CN202110806047 A CN 202110806047A CN 113744727 A CN113744727 A CN 113744727A
Authority
CN
China
Prior art keywords
voice
model
self
training
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110806047.7A
Other languages
English (en)
Other versions
CN113744727B (zh
Inventor
徐敏
肖龙源
叶志坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202110806047.7A priority Critical patent/CN113744727B/zh
Publication of CN113744727A publication Critical patent/CN113744727A/zh
Application granted granted Critical
Publication of CN113744727B publication Critical patent/CN113744727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种模型训练方法、系统、终端设备及存储介质,该方法包括:对样本语音进行抽样得到抽样语音,对抽样语音进行语音标注,得到转写文本,对剩余样本语音进行切分得到切分语音,根据切分语音设置自监督学习模型的回归任务标签;对切分语音进行采样得到样本对,将样本对输入自监督学习模型进行模型训练;根据自监督学习模型训练声纹识别模型;根据转写文本训练语言模型,根据抽样语音和收敛后的自监督学习模型训练声学模型;根据训练后的声学模型和语言模型构建语音识别模型。本发明采用自监督学习的方式进行语音识别模型的构建和声纹识别模型的训练,无需大量的已标注数据,降低了数据标注的工作量,提高了模型训练效率。

Description

模型训练方法、系统、终端设备及存储介质
技术领域
本发明属于人工智能领域,尤其涉及一种模型训练方法、系统、终端设备及存储介质。
背景技术
声纹识别和语音识别是语音领域最为重要两个应用,但由于声纹识别偏重于说话人特性,轻说话内容,本质上是一种分类问题,而语音识别偏重于说话内容,轻说话人特性,而且语音识别需要考虑语音和文本前后之间的关系,因此,两种识别方式应用一直都是相互独立进行研究。
现有的语音识别和声纹识别过程中,均是分别进行模型的构建和训练,使得语音识别模型和声纹识别模型的训练,均需要大量的已标注数据进行模型训练,导致模型训练繁琐,降低了模型训练效率。
发明内容
本发明实施例的目的在于提供一种模型训练方法、系统、终端设备及存储介质,旨在解决现有的语音识别模型和声纹识别模型的训练过程中,由于均需要大量的已标注数据进行模型训练,所导致的模型训练效率低下的问题。
本发明实施例是这样实现的,一种模型训练方法,所述方法包括:
对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;
对剩余样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签;
对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛;
根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛;
根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型;
根据训练后的声学模型和所述语言模型构建语音识别模型。
更进一步的,所述将所述样本对输入所述自监督学习模型进行模型训练,包括:
将所述样本对输入所述自监督学习模型中的编码器进行编码,得到编码数据,并将所述编码数据输入所述自监督学习模型中的鉴别器进行数据鉴别;
将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算,得到模型损失参数;
根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,直至所述编码器和所述鉴别器收敛,输出收敛后的所述自监督学习模型。
更进一步的,所述样本对包括正样本对和负样本对,所述对切分语音进行采样,得到样本对,包括:
对所述切分语音进行采样,得到采样语音,且当同一轮采样到的各采样语音来自同一条语音,则将采样到的各采样语音设置为所述正样本对;
当同一轮采样到的各采样语音来自不同语音,则将采样到的各采样语音设置为所述负样本对。
更进一步的,所述根据所述切分语音设置自监督学习模型的回归任务标签,包括:
分别提取所述切分语音的MFCC特征、MFCC一阶差分特征、MFCC二阶差分特征、Fbank特征、LPC特征、韵律特征、时间弯折特征和频率掩码特征;
将所述切分语音、所述MFCC特征、所述MFCC一阶差分特征、所述MFCC二阶差分特征、所述Fbank特征、所述LPC特征、所述韵律特征、所述时间弯折特征和所述频率掩码特征,分别设置为所述自监督学习模型的回归任务标签。
更进一步的,所述将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算所采用的损失函数为:
Figure BDA0003166424620000031
其中,Θ是所述编码器的参数,Φ是所述鉴别器的参数,下标p表示正样本,n表示负样本,(x1,x2)表示所述正样本对,(x1,xrnd)表示所述负样本对,g函数表示所述鉴别器的输出,L(Θ,Φ)是所述模型损失参数。
更进一步的,所述根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,包括:
根据后向传播算法,计算所述编码器和所述鉴别器的偏微分;
根据所述偏微分和最大所述模型损失参数,采用梯度下降算法更新所述编码器和所述鉴别器的参数。
更进一步的,所述对剩余样本语音进行切分,得到切分语音,包括:
若任一剩余所述样本语音的语音时长小于预设时长,则删除所述样本语音;
根据预设时间间隔对剩余所述样本语音进行切分,得到所述切分语音。
本发明实施例的另一目的在于提供一种模型训练系统,所述系统包括:
回归任务标签设置模块,用于对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;对剩余所述样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签;
语音采样模块,用于对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛;
声纹模型训练模块,用于根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛;
声学模型训练模块,用于根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型;
语音模型训练模块,用于根据训练后的声学模型和所述语言模型构建语音识别模型,并将待识别语音输入所述语音识别模型进行语音识别,得到语音识别结果。
本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例,通过切分语音设置自监督学习模型的回归任务标签,提高了收敛后自监督学习模型的抗噪、抗混响和抗变形失真能力,本发明实施例采用自监督学习的方式进行语音识别模型的构建和声纹识别模型的训练,基于同一个收敛后的自监督学习模型,可以分别训练或构建声纹识别模型和语音识别模型,提高了模型训练效率,无需大量的已标注数据,降低了数据标注的工作量,进一步提高了模型训练效率。
附图说明
图1是本发明第一实施例提供的模型训练方法的流程图;
图2是本发明第二实施例提供的模型训练方法的流程图;
图3是本发明第三实施例提供的模型训练系统的结构示意图;
图4是本发明第四实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的模型训练方法的流程图,该模型训练方法可以应用与任一终端设备,该终端设备包括服务器、手机、平板或可穿戴智能设备等,该模型训练方法包括步骤:
步骤S10,对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;
其中,采用多个不同说话人的语音,以得到该样本语音,该样本语音包括目标语种和至少一个待识别语种,该目标语音和待识别语种均可以根据需求进行设置,本实施例中,该目标语种为普通话,该待识别语种为闽南,可选的,该步骤中,该样本语音还包括编码转换语音,该编码转换语音为待识别语种穿插有目标语种的语音;
该步骤中,对样本语音进行抽样的抽样数量可以根据需求进行设置,该步骤中,通过构建语音识别发音词典,基于构建后的语音识别发音词典,对抽样语音进行语音标注,得到各抽样语音对应的转写文本;
步骤S20,对剩余样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签;
其中,通过对剩余样本语音进行切分,提高了后续各个模型训练数据的数据量。
该步骤中,所述对剩余样本语音进行切分之前还包括:分别确定各剩余样本语音的语音时长;若任一剩余样本语音的语音时长小于预设时长时,则删除该样本语音;
其中,该预设时长可以根据需求进行设置,例如,该预设时长可以设置为1秒、2秒或3秒等,该步骤中,通过删除语音时长小于预设时长的样本语音,确保了每条样本语音中均可以携带有较多的语音信息。
进一步地,该步骤中,根据预设时间间隔对分别对各样本语音进行切分,得到该切分语音,该预设时间间隔可以根据需求进行设置,例如,该预设时间间隔可以设置为1秒、2秒或3秒等。
可选的,该步骤中,所述根据所述切分语音设置自监督学习模型的回归任务标签,包括:
分别提取所述切分语音的梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC)特征、MFCC一阶差分特征、MFCC二阶差分特征、Fbank特征、语音信号线性预测特征(LPC)、韵律特征、时间弯折特征和频率掩码特征;
将所述切分语音、所述MFCC特征、所述MFCC一阶差分特征、所述MFCC二阶差分特征、所述Fbank特征、所述LPC特征、所述韵律特征、所述时间弯折特征和所述频率掩码特征,分别设置为所述自监督学习模型的回归任务标签;
其中,通过将MFCC特征、MFCC一阶差分特征、MFCC二阶差分特征、Fbank特征、LPC特征、韵律特征、时间弯折特征和频率掩码特征,分别设置为自监督学习模型的回归任务标签,提高了自监督学习模型训练的准确性,是为了让自监督学习模型学习到提取这些特征的参数,且该步骤中,通过将切分语音设置为自监督学习模型的回归任务标签,提高了收敛后自监督学习模型的抗噪、抗混响和抗变形失真能力。
步骤S30,对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛;
其中,该自监督学习模型中包括编码器、鉴别器和分类器,该编码器用于对输入自监督学习模型的样本对进行特征编码,该鉴别器用于鉴别经编码器编码后的特征是否来自同一个说话人,该分类器对该鉴别器的鉴别结果进行损失计算,以得到表征该编码器和鉴别器参数误差的模型损失参数。
可选的,该步骤中,所述样本对包括正样本对和负样本对,所述对切分语音进行采样,得到样本对,包括:
对所述切分语音进行采样,得到采样语音,且当同一轮采样到的各采样语音来自同一条语音,则将采样到的各采样语音设置为所述正样本对;
其中,每轮采样的数量均可以根据需求进行设置,该步骤中,每轮采样的数量为两个,即,在不同的切分语音中随机采样两个语音,得到两个采样语音,并当同一轮采样中的两个采样语音来自同一条语音时,将采样到的两个采样语音设置为正样本对;
当同一轮采样到的各采样语音来自不同语音,则将采样到的各采样语音设置为所述负样本对;
其中,当同一轮采样到的两个采样语音来自不同语音,则将采样到的两个采样语音设置为负样本对,该步骤中,基于同一轮采样过程中,各采样语音是否来自同一条语音的判断,以提高对样本对的样本设置,基于设置后的正样本对和负样本对,提高了后续自监督学习模型训练的准确性。
进一步地,该步骤中,所述将所述样本对输入所述自监督学习模型进行模型训练,包括:
将所述样本对输入所述自监督学习模型中的编码器进行编码,得到编码数据,并将所述编码输入输入所述自监督学习模型中的鉴别器进行数据鉴别;
将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算,得到模型损失参数;
根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,直至所述编码器和所述鉴别器收敛,输出收敛后的所述自监督学习模型。
其中,所述将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算所采用的损失函数为:
Figure BDA0003166424620000071
其中,Θ是所述编码器的参数,Φ是所述鉴别器的参数,下标p表示正样本,n表示负样本,(x1,x2)表示所述正样本对,(x1,xrnd)表示所述负样本对,g函数表示所述鉴别器的输出,L(Θ,Φ)是所述模型损失参数。
更进一步地,该步骤中,所述将所述样本对输入所述自监督学习模型进行模型训练包括:
将样本对输入自监督学习模型中的CNN网络,其中,CNN网络中的激活函数采用sinc函数,通过采用sinc函数,使得CNN网络中的参数数量不会随着卷积核的变化而变化,因此,CNN网络中的卷积核可以设为更大的尺寸,捕获更大区间的上下文信息,另一方面sinc函数可以更好地捕获说话人特性,有利于提升声纹识别效果;
将CNN网络的输出输入至自监督学习模型中的34层残差神经网络(ResNet网络),并将ResNet网络的输出输入至自监督学习模型中的三层全连接层;
将全连接层的输出作为声学嵌入特征,将声学嵌入特征分别用于训练自监督学习任务后,通过后向传播算法和梯度下降法迭代更新所有神经网络参数,直至该自监督学习模型收敛。
步骤S40,根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛;
其中,基于收敛后的声纹识别模型,能有效地对输入的待识别声纹数据进行声纹识别。
步骤S50,根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型;
其中,通过根据转写文本训练语言模型,使得训练后的语言模型能有效地将输入的句子的概率拆解成其中每个词的概率之积,通过根据抽样语音和收敛后的自监督学习模型训练声学模型,使得训练后的声学模型能有效地计算出输入的文字对应的发声概率。
步骤S60,根据训练后的声学模型和所述语言模型构建语音识别模型;
其中,将待识别语音输入所述语音识别模型进行语音识别,得到语音识别结果,通过根据训练后的声学模型和语言模型构建语音识别模型,使得构建后的语音识别模型,能有效地对输入的待识别语音进行语音识别,得到对应的语音识别结果。
本实施例,通过切分语音设置自监督学习模型的回归任务标签,提高了收敛后自监督学习模型的抗噪、抗混响和抗变形失真能力,本发明实施例采用自监督学习的方式进行语音识别模型的构建和声纹识别模型的训练,基于同一个收敛后的自监督学习模型,可以分别训练或构建声纹识别模型和语音识别模型,提高了模型训练效率,无需大量的已标注数据,降低了数据标注的工作量,进一步提高了模型训练效率。
实施例二
请参阅图2,是本发明第二实施例提供的模型训练方法的流程图,该实施例用于对步骤S30作进一步细化,包括步骤:
步骤S31,根据后向传播算法,计算所述编码器和所述鉴别器的偏微分;
其中,通过采用后向传播算法,迭代地处理样本对,将每个样本对的网络预测与真实结果相比较进行学习,对于每个样本对,修改编码器和鉴别器的权重,使得自监督学习模型的预测和结果之间的误差最小。
步骤S32,根据所述偏微分和最大所述模型损失参数,采用梯度下降算法更新所述编码器和所述鉴别器的参数;
其中,可以采用全梯度下降算法(Full gradient descent),随机梯度下降算法(Stochastic gradient descent),随机平均梯度下降算法(Stochastic averagegradient descent)或小批量梯度下降算法(Mini-batch gradient descent)的方式,更新编码器和鉴别器的参数,梯度下降算法用于正确地调节编码器和鉴别器中的权重向量,通过为每个权重计算一个梯度,从而更新权值,使目标函数尽可能最小化。
本实施例中,通过计算编码器和鉴别器的偏微分,基于偏微分和最大模型损失参数,能有效地对编码器和鉴别器中的参数进行更新,以达到更新自监督学习模型的效果,直至自监督学习模型收敛,提高了自监督学习模型的准确性。
实施例三
请参阅图3,是本发明第三实施例提供的模型训练系统100的结构示意图,包括:回归任务标签设置模块10、语音采样模块11、声纹模型训练模块12、声学模型训练模块13和语音模型训练模块14,其中:
回归任务标签设置模块10,用于对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;对剩余所述样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签。
其中,该回归任务标签设置模块10还用于:分别提取所述切分语音的MFCC特征、MFCC一阶差分特征、MFCC二阶差分特征、Fbank特征、LPC特征、韵律特征、时间弯折特征和频率掩码特征;
将所述切分语音、所述MFCC特征、所述MFCC一阶差分特征、所述MFCC二阶差分特征、所述Fbank特征、所述LPC特征、所述韵律特征、所述时间弯折特征和所述频率掩码特征,分别设置为所述自监督学习模型的回归任务标签。
进一步的,该回归任务标签设置模块10还用于:若任一剩余所述样本语音的语音时长小于预设时长,则删除所述样本语音;
根据预设时间间隔对剩余所述样本语音进行切分,得到所述切分语音。
语音采样模块11,用于对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛。
其中,该语音采集模块11还用于:将所述样本对输入所述自监督学习模型中的编码器进行编码,得到编码数据,并将所述编码输入输入所述自监督学习模型中的鉴别器进行数据鉴别;
将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算,得到模型损失参数;
根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,直至所述编码器和所述鉴别器收敛,输出收敛后的所述自监督学习模型。
优选的,该语音采集模块11还用于:根据后向传播算法,计算所述编码器和所述鉴别器的偏微分;
根据所述偏微分和最大所述模型损失参数,采用梯度下降算法更新所述编码器和所述鉴别器的参数。
进一步地,所述将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算所采用的损失函数为:
Figure BDA0003166424620000111
其中,Θ是所述编码器的参数,Φ是所述鉴别器的参数,下标p表示正样本,n表示负样本,(x1,x2)表示所述正样本对,(x1,xrnd)表示所述负样本对,g函数表示所述鉴别器的输出,L(Θ,Φ)是所述模型损失参数。
可选的,该语音采集模块11还用于:对所述切分语音进行采样,得到采样语音,且当同一轮采样到的各采样语音来自同一条语音,则将采样到的各采样语音设置为所述正样本对;
当同一轮采样到的各采样语音来自不同语音,则将采样到的各采样语音设置为所述负样本对。
声纹模型训练模块12,用于根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛。
声学模型训练模块13,用于根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型。
语音模型训练模块14,用于根据训练后的声学模型和所述语言模型构建语音识别模型,并将待识别语音输入所述语音识别模型进行语音识别,得到语音识别结果。
其中,该语音模型训练模块14还用于:根据训练后的声学模型和所述第三语言模型构建语音识别模型。
本实施例,通过切分语音设置自监督学习模型的回归任务标签,提高了收敛后自监督学习模型的抗噪、抗混响和抗变形失真能力,本发明实施例采用自监督学习的方式进行语音识别模型的构建和声纹识别模型的训练,基于同一个收敛后的自监督学习模型,可以分别训练或构建声纹识别模型和语音识别模型,提高了模型训练效率,无需大量的已标注数据,降低了数据标注的工作量,进一步提高了模型训练效率。
实施例四
图4是本申请第四实施例提供的一种终端设备2的结构框图。如图4所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如模型训练方法的程序。处理器20执行所述计算机程序23时实现上述各个模型训练方法各实施例中的步骤,例如图1所示的S10至S50,或者图2所示的S31至S32。或者,所述处理器20执行所述计算机程序22时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元10至14的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成回归任务标签设置模块10、语音采样模块11、声纹模型训练模块12、声学模型训练模块13和语音模型训练模块14,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图4仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种模型训练方法,其特征在于,所述方法包括:
对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;
对剩余所述样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签;
对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛;
根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛;
根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型;
根据训练后的声学模型和所述语言模型构建语音识别模型。
2.如权利要求1所述的模型训练方法,其特征在于,所述将所述样本对输入所述自监督学习模型进行模型训练,包括:
将所述样本对输入所述自监督学习模型中的编码器进行编码,得到编码数据,并将所述编码输入输入所述自监督学习模型中的鉴别器进行数据鉴别;
将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算,得到模型损失参数;
根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,直至所述编码器和所述鉴别器收敛,输出收敛后的所述自监督学习模型。
3.如权利要求1所述的模型训练方法,其特征在于,所述样本对包括正样本对和负样本对,所述对切分语音进行采样,得到样本对,包括:
对所述切分语音进行采样,得到采样语音,且当同一轮采样到的各采样语音来自同一条语音,则将采样到的各采样语音设置为所述正样本对;
当同一轮采样到的各采样语音来自不同语音,则将采样到的各采样语音设置为所述负样本对。
4.如权利要求1所述的模型训练方法,其特征在于,所述根据所述切分语音设置自监督学习模型的回归任务标签,包括:
分别提取所述切分语音的MFCC特征、MFCC一阶差分特征、MFCC二阶差分特征、Fbank特征、LPC特征、韵律特征、时间弯折特征和频率掩码特征;
将所述切分语音、所述MFCC特征、所述MFCC一阶差分特征、所述MFCC二阶差分特征、所述Fbank特征、所述LPC特征、所述韵律特征、所述时间弯折特征和所述频率掩码特征,分别设置为所述自监督学习模型的回归任务标签。
5.如权利要求2所述的模型训练方法,其特征在于,所述将所述鉴别器的鉴别结果输入所述自监督学习模型中的分类器进行损失计算,得到模型损失参数:
Figure FDA0003166424610000021
其中,Θ是所述编码器的参数,Φ是所述鉴别器的参数,下标p表示正样本,n表示负样本,(x1,x2)表示所述正样本对,(x1,xrnd)表示所述负样本对,g函数表示所述鉴别器的输出,L(Θ,Φ)是所述模型损失参数。
6.如权利要求2所述的模型训练方法,其特征在于,所述根据所述模型损失参数对所述编码器和所述鉴别器进行参数更新,包括:
根据后向传播算法,计算所述编码器和所述鉴别器的偏微分;
根据所述偏微分和最大所述模型损失参数,采用梯度下降算法更新所述编码器和所述鉴别器的参数。
7.如权利要求1所述的模型训练方法,其特征在于,所述对剩余样本语音进行切分,得到切分语音,包括:
若任一剩余所述样本语音的语音时长小于预设时长,则删除所述样本语音;
根据预设时间间隔对剩余所述样本语音进行切分,得到所述切分语音。
8.一种模型训练系统,其特征在于,所述系统包括:
回归任务标签设置模块,用于对样本语音进行抽样,得到抽样语音,并对所述抽样语音进行语音标注,得到转写文本;对剩余所述样本语音进行切分,得到切分语音,并根据所述切分语音设置自监督学习模型的回归任务标签;
语音采样模块,用于对所述切分语音进行采样,得到样本对,并将所述样本对输入所述自监督学习模型进行模型训练,直至所述自监督学习模型收敛;
声纹模型训练模块,用于根据所述抽样语音和收敛后的所述自监督学习模型训练声纹识别模型,直至声纹识别模型收敛;
声学模型训练模块,用于根据所述转写文本训练语言模型,并根据所述抽样语音和收敛后的所述自监督学习模型训练声学模型;
语音模型训练模块,用于根据训练后的声学模型和所述语言模型构建语音识别模型。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202110806047.7A 2021-07-16 2021-07-16 模型训练方法、系统、终端设备及存储介质 Active CN113744727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110806047.7A CN113744727B (zh) 2021-07-16 2021-07-16 模型训练方法、系统、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110806047.7A CN113744727B (zh) 2021-07-16 2021-07-16 模型训练方法、系统、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN113744727A true CN113744727A (zh) 2021-12-03
CN113744727B CN113744727B (zh) 2023-12-26

Family

ID=78728711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110806047.7A Active CN113744727B (zh) 2021-07-16 2021-07-16 模型训练方法、系统、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN113744727B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统
WO2024011902A1 (zh) * 2022-07-14 2024-01-18 京东科技信息技术有限公司 语音识别模型的训练方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009333A1 (en) * 1996-11-22 2003-01-09 T-Netix, Inc. Voice print system and method
CN110570869A (zh) * 2019-08-09 2019-12-13 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009333A1 (en) * 1996-11-22 2003-01-09 T-Netix, Inc. Voice print system and method
CN110570869A (zh) * 2019-08-09 2019-12-13 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘建: "基于深度学习的小样本声纹识别", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, pages 7 - 52 *
周锦章: "基于语义特征的关键词提取算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 6, pages 7 - 48 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011902A1 (zh) * 2022-07-14 2024-01-18 京东科技信息技术有限公司 语音识别模型的训练方法、装置、存储介质及电子设备
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统

Also Published As

Publication number Publication date
CN113744727B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN112002308A (zh) 一种语音识别方法及装置
CN113744727B (zh) 模型训练方法、系统、终端设备及存储介质
CN113035231A (zh) 关键词检测方法及装置
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN114495904B (zh) 语音识别方法以及装置
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
Picheny et al. Trends and advances in speech recognition
Hassan et al. Improvement in automatic speech recognition of south asian accent using transfer learning of deepspeech2
CN116778967B (zh) 基于预训练模型的多模态情感识别方法及装置
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
US20220319501A1 (en) Stochastic future context for speech processing
CN113257230B (zh) 语音处理方法及装置、计算机可存储介质
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN111199750B (zh) 一种发音评测方法、装置、电子设备及存储介质
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN113192495A (zh) 语音识别方法及装置
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
CN113763939B (zh) 基于端到端模型的混合语音识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant