CN112786028B - 声学模型处理方法、装置、设备和可读存储介质 - Google Patents

声学模型处理方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN112786028B
CN112786028B CN202110179892.6A CN202110179892A CN112786028B CN 112786028 B CN112786028 B CN 112786028B CN 202110179892 A CN202110179892 A CN 202110179892A CN 112786028 B CN112786028 B CN 112786028B
Authority
CN
China
Prior art keywords
acoustic model
audio data
sample
audio
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110179892.6A
Other languages
English (en)
Other versions
CN112786028A (zh
Inventor
唐浩雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202110179892.6A priority Critical patent/CN112786028B/zh
Publication of CN112786028A publication Critical patent/CN112786028A/zh
Application granted granted Critical
Publication of CN112786028B publication Critical patent/CN112786028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种声学模型处理方法、装置、设备和可读存储介质,属于互联网技术领域。该方法包括:获取多个样本音频数据,将样本音频数据分别输入原始声学模型和对应的专用声学模型,得到第一语音识别结果和第二语音识别结果,根据第一语音识别结果与第二语音识别结果之间的第一误差数据,以及样本标签和第一语音识别结果之间的第二误差数据对原始声学模型进行训练,得到通用声学模型。在声学模型的训练过程中,将不同音频场景对应的专用声学模型的识别结果作为模型的学习目标,可以使训练得到的声学模型能够对不同音频场景下的音频数据进行准确的识别,使声学模型具有比较高的泛化能力。

Description

声学模型处理方法、装置、设备和可读存储介质
技术领域
本发明属于互联网技术领域,特别是涉及一种声学模型处理方法、装置、 设备和可读存储介质。
背景技术
随着互联网技术的发展,手机、电脑、可穿戴设备和电子门禁等电子设 备都可以提供音频输入和识别功能,通过语音识别系统对用户输入的音频数 据进行识别,可以得到对应的识别结果。声学模型作为语音识别系统的组成 部分之一,对识别结果的准确性起到非常重要的作用。
在语音识别过程中,音频数据所属的音频场景不同时,音频数据具有的 音频特征不同。例如,电子设备在室内和室外时所处地噪声环境不同,使用 户输入电子设备的音频数据所处地音频场景不同,不同音频场景下的音频数 据具有不同的音频特征。
在先技术中,为了提高声学模型对不同音频场景下的音频数据的识别能 力,在声学模型的训练过程中,一般是先获取不同音频场景下的多个样本音 频数据,通过不同音频场景下的样本音频数据对声学模型进行训练,提高声 学模型对不同音频场景下的音频数据的识别能力。然而,通过不同音频场景 下的多个样本音频数据对声学模型进行训练时,声学模型无法准确学习每个音频场景下的样本音频数据的音频特征,导致声学模型无法准确的识别不同 音频场景下的音频数据,声学模型的泛化能力较弱。
发明内容
有鉴于此,本发明提供一种声学模型处理方法、装置、设备和可读存储 介质,在一定程度上解决了声学模型无法准确的识别不同音频场景下的音频 数据,泛化能力较弱的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种声学模型处理方法,该方法包括:
获取多个样本音频数据和所述样本音频数据的样本标签;所述多个样本 音频数据中包括多个不同音频场景下的样本音频数据;
将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专 用声学模型,得到对应的第一语音识别结果和第二语音识别结果;所述专用 声学模型为预先训练得到的、用于识别对应音频场景下的所述样本音频数据 的声学模型;
确定所述第二语音识别结果与所述第一语音识别结果之间的第一误差 数据,以及确定所述样本音频数据的样本标签与所述第一语音识别结果之间 的第二误差数据;
根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行 训练,得到用于识别所述音频场景下的音频数据的通用声学模型。
第二方面,本申请实施例提供了一种声学模型处理装置,该装置包括:
获取模块,用于获取多个样本音频数据和所述样本音频数据的样本标签; 所述多个样本音频数据中包括多个不同音频场景下的样本音频数据;
输入模块,用于将所述样本音频数据分别输入原始声学模型和所属音频 场景对应的专用声学模型,得到对应的第一语音识别结果和第二语音识别结 果;所述专用声学模型为预先训练得到的、用于识别对应音频场景下的所述 样本音频数据的声学模型;
确定模块,用于确定所述第二语音识别结果与所述第一语音识别结果之 间的第一误差数据,以及确定所述样本音频数据的样本标签与所述第一语音 识别结果之间的第二误差数据;
训练模块,用于根据所述第一误差数据和所述第二误差数据对所述原始 声学模型进行训练,得到用于识别所述音频场景下的音频数据的通用声学模 型。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、 存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述 程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质 上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的 方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信 接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令, 实现如第一方面所述的方法。
在本申请实施例中,获取多个样本音频数据和样本音频数据的样本标签, 将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模 型,得到对应的第一语音识别结果和第二语音识别结果,确定第一语音识别 结果与第二语音识别结果之间的第一误差数据,以及确定样本音频数据的样 本标签和第一语音识别结果之间的第二误差数据,根据第一误差数据和第二误差数据对原始声学模型进行训练,得到用于识别音频场景下的音频数据的 通用声学模型。在声学模型的训练过程中,通过不同音频场景的样本音频数 据对声学模型进行训练,并且在训练过程中将不同音频场景对应的专用声学 模型的识别结果作为模型的学习目标,可以使训练得到的声学模型能够对不 同音频场景下的音频数据进行准确的识别,使声学模型具有比较高的泛化能 力。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1是本申请实施例提供的一种声学模型处理方法的步骤流程图;
图2是本申请实施例提供的另一种声学模型处理方法的步骤流程图;
图3是本申请实施例提供的一种知识蒸馏训练框架的结构示意图;
图4是本申请实施例提供的一种声学模型处理装置的框图;
图5是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示 了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本申请实施例提供的一种声学模型处理方法的步骤流程图,如图 1所示,该方法可以包括:
步骤101、获取多个样本音频数据和样本音频数据的样本标签。
其中,多个样本音频数据中包括多个不同音频场景下的样本音频数据。
本实施例中,声学模型处理方法可以由计算机或服务器等电子设备执行, 电子设备首先可以获取多个样本音频数据,以及每个样本音频数据的样本标 签,以通过样本音频数据和对应的样本标签,对原始声学模型进行语音识别 训练。样本音频数据例如一定时间长度的语音片段,样本标签可以是人工预 先对样本音频数据进行标注得到的文本序列。
在一种实施例中,音频场景表示音频数据产生时的外部环境。例如,音 频场景可以分为室内场景和室外场景,室内环境和室外环境中的噪声、回声 和声音的传播路径等因素不同,导致说话者在室内环境说话时产生的音频数 据与室外环境说话时产生的音频数据具有不同的音频特征,因此可以根据音 频数据产生时的外部环境为室内环境或室外环境,将音频场景分为室内场景或室外场景。
在另一种实施例中,音频场景表示音频数据的来源。例如,音频场景可 以按方言类型划分为不同的方言场景,不同方言场景对应不同方言地区的方 言。不同方言地区的人在说话时的方式和习惯不同,导致不同方言地区的人 说话产生的音频数据具有不同的音频特征,因此可以根据音频数据的来源, 将音频场景分为不同的方言场景。
在另一种实施例中,音频场景表示音频数据的采集距离。例如,音频场 景可以按麦克风与声源之间的距离划分为远端场景和近端场景,麦克风与说 话者之间的距离越远,声音的传播路径越长,麦克风采集到的音频数据受传 播路径的影响越大,位于不同采集距离的说话者产生的音频数据具有不同的 音频特征,因此可以根据音频数据的采集距离,将音频场景分为远端场景和近端场景。以上仅为示例性举例,音频场景的具体划分方法可以根据实际需 求设置,本实施例对此不做限制。
示例性地,多个样本音频数据中包括属于室内场景的A类样本音频数据 和属于室外场景的B类样本音频数据,属于室内场景的A类样本音频数据 为在室内环境采集到的音频数据,属于室外场景的B类样本音频数据为在室 外环境采集到的音频数据。用户可以预先获取并在电子设备中存储A类样本 音频数据和对应的样本标签,得到样本音频数据集A,样本音频数据集A中 包括室内场景下的多个样本音频数据。同理,可以预先获取并在电子设备中存储B类样本音频数据和对应的样本标签,得到样本音频数据集B,样本音 频数据集B中包括室外场景下多个样本音频数据。其中,每个样本音频数据 集中的样本音频数据的数量可以根据需求设置,获取样本音频数据的具体方法可以根据需求设置,本实施例对此不做限制。
步骤102、将样本音频数据分别输入原始声学模型和所属音频场景对应 的专用声学模型,得到对应的第一语音识别结果和第二语音识别结果。
其中,专用声学模型为预先训练得到的、用于识别对应音频场景下的样 本音频数据的声学模型。原始声学模型为未训练的声学模型,为具有时序处 理能力的神经网络(Neural Network)模型,例如可以为语音转换器 (speech-transformer)和循环神经网络(Recurrent Neural Network,RNN), 原始声学模型的具体类型可以根据需求设置,本实施例对此不做限制。
本实施例中,基于知识蒸馏(Knowledge Distillation)的训练策略来对 声学模型进行训练。知识蒸馏训练框架由教师模型(Teacher Model,TM) 和学生模型(StudentModel,SM)组成,在训练过程中,可以由教师模型 对样本音频数据进行识别得到识别结果,并将得到的识别结果作为样本音频 数据的软标签,软标签中包括样本音频数据中的音频特征。通过样本音频数据和软标签对学生模型进行训练,可以提高学生模型对音频特征的识别能力。 在本实施例中,专用声学模型为教师模型,原始声学模型为学生模型,在声 学模型训练之前,针对每个音频场景,可以预先训练得到对应的专用声学模 型,以对对应音频场景下的样本音频数据进行识别,得到样本音频数据的软 标签。
可选地,在步骤102之前,该方法还可以包括:
分别通过每个音频场景下的样本音频数据对原始专用模型进行语音识 别训练,得到每个音频场景分别对应的专用声学模型。
其中,原始专用模型为未训练的声学模型,原始专用模型和原始声学模 型可以为相同的神经网络模型。
结合上述举例,在获取到样本音频数据集A和样本音频数据集B之后, 可以使用样本音频数据集A中的样本音频数据对原始专用模型进行语音识 别训练,得到专用声学模型A。具体的,首先可以将样本音频数据集A中的 样本音频数据输入原始专用模型,得到原始专用模型的识别结果,然后利用 预先设置的损失函数计算识别结果与样本音频数据的样本标签之前的损失 值,最后根据损失值调整原始专用模型的模型参数,完成对原始专用模型的 一次训练。与此同时,可以设置与样本音频数据集A对应的验证样本集,验证样本集中包括多个样本音频数据。重复对原始专用模型进行多次训练,直 至原始专用模型对验证样本集中的样本音频数据的识别率符合预设条件时 结束训练,将原始专用模型作为训练好的专用声学模型A。由于专用声学模 型A通过室内场景下的A类样本音频数据训练得到,因此专用声学模型A 具有针对性,可以准确的提取室内场景下的样本音频数据中的音频特征,对 室内场景下的样本音频数据进行准确的识别。同理,可以使用样本音频数据 集B中的样本音频数据对原始专用模型进行语音识别训练,得到专用声学模 型B,以对室外场景下的B类样本音频数据进行准确的识别。
实际应用中,可以在模型处理之前训练得到专用声学模型或者在模型训 练过程中训练得到专用声学模型,也可以通过其他方式训练得到专用声学模 型,本实施例专用声学模型的具体训练过程不做限制。通过对应音频场景下 的样本音频数据训练得到专用声学模型,可以提高专用声学模型对对应音频 场景下的样本音频数据的识别能力,以更准确的提取样本音频数据中的音频特征。
在一种实施例中,在原始声学模型的训练过程中,可以从多个样本音频 数据中分批次的选择样本音频数据,以对原始声学模型进行分批次训练。结 合上述举例,每个批次可以随机的从样本音频数据集A中选择10个A类样 本音频数据,以及从样本音频数据集B中选择10个B类样本音频数据,得 到包括室内场景下的A类样本音频数据和室外场景下的B类样本音频数据。 在选择得到样本音频数据之后,针对每个样本音频数据,可以将样本音频数据输入原始声学模型,通过原始声学模型对样本音频数据进行语音识别,得 到原始声学模型输出的文本序列,即第一语音识别结果。与此同时,可以将 样本音频数据输入所属音频场景对应的专用声学模型,例如若样本音频数据为A类样本音频数据,可以将样本音频数据输入专用声学模型A,通过专用 声学模型A对样本音频数据进行语音识别,得到专用声学模型A输出的文本序列,即第二语音识别结果。同理,若样本音频数据为B类样本音频数据,可以将样本音频数据输入专用声学模型B,通过专用声学模型B对样本音频 数据进行语音识别,得到专用声学模型B输出的第二语音识别结果。
实际应用中,也可以通过其他方式从样本音频数据集中选择样本音频数 据,具体选择样本音频数据,并将样本音频数据输入原始声学模型和所属音 频场景对应的专用声学模型的过程可以根据需求设置,本实施例对此不做限 制。
步骤103、确定第二语音识别结果与第一语音识别结果之间的第一误差 数据,以及确定样本音频数据的样本标签与第一语音识别结果之间的第二误 差数据。
步骤104、根据第一误差数据和第二误差数据对原始声学模型进行训练, 得到用于识别音频场景下的音频数据的通用声学模型。
本实施例中,在得到第一语音识别结果和第二语音识别结果之后,可以 基于第一语音识别结果和第二语音识别结果对原始声学模型的模型参数进 行调整。结合上述举例,可以将第二语音识别结果作为样本音频数据的软标 签,将样本音频数据的样本标签作为硬标签,将软标签和硬标签同时作为原 始声学模型的学习目标。具体的,首先可以利用预先设置的损失函数,根据第一语音识别结果和软标签计算第一损失值,即第一误差数据,以及根据第 一语音识别结果和硬标签计算第二损失值,即第二误差数据。然后,根据第 一损失值和第二损失值计算总的损失值,通过总的损失值调整原始声学模型 的模型参数,完成对原始声学模型的一次训练。与此同时,可以设置与原始 声学模型对应的验证样本集,验证样本集中包括A类样本音频数据和B类 样本音频数据,循环执行步骤102至步骤104,直至原始声学模型对验证样 本集中的样本音频数据的识别率符合预设结束条件时结束训练,将原始声学 模型作为训练好的通用声学模型。其中,总的损失值的具体计算方法可以根据需求设置,本实施例对此不做限制。
实际应用中,由于通用声学模型通过不同音频场景下的样本音频数据训 练得到,并且在训练过程中,通过每个音频场景对应的专用声学模型识别得 到软标签,将软标签作为原始声学模型的学习目标,因此通用声学模型可以 识别不同音频场景下的音频数据,具有比较高的泛化能力。
综上所述,本实施例中,获取多个样本音频数据和样本音频数据的样本 标签,将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声 学模型,得到对应的第一语音识别结果和第二语音识别结果,确定第一语音 识别结果与第二语音识别结果之间的第一误差数据,以及确定样本音频数据 的样本标签和第一语音识别结果之间的第二误差数据,根据第一误差数据和第二误差数据对原始声学模型进行训练,得到用于识别音频场景下的音频数 据的通用声学模型。在声学模型的训练过程中,通过不同音频场景的样本音 频数据对声学模型进行训练,并且在训练过程中将不同音频场景对应的专用 声学模型的识别结果作为模型的学习目标,可以使训练得到的声学模型能够 对不同音频场景下的音频数据进行准确的识别,使声学模型具有比较高的泛化能力。
图2是本申请实施例提供的另一种声学模型处理方法的步骤流程图,如 图2所示,该方法可以包括
步骤201、获取多个样本音频数据和样本音频数据的样本标签。
步骤202、通过多个样本音频数据对原始专用模型进行语音识别训练, 得到对应多个不同音频场景的中间声学模型。
其中,中间声学模型用于识别多个不同音频场景下的样本音频数据。原 始专用模型和原始声学模型可以为相同的神经网络模型。
本实施例中,在专用声学模型的训练过程中,首先可以训练得到中间声 学模型,然后对中间声学模型进行调节,得到每个场景分别对应的专用声学 模型。
示例性地,如图3所示,图3是本申请实施例提供的一种知识蒸馏训练 框架的结构示意图,在获取到室内场景下的样本音频数据集A和室外场景下 的样本音频数据集B之后,可以分批次的从样本音频数据集A和样本音频 数据集B中选择样本音频数据,每个批次中同时包括样本音频数据集A和 样本音频数据集B中的样本音频数据,将选择的样本音频数据输入原始专用 模型中,得到原始专用模型输出的语音识别结果,然后利用损失函数计算语 音识别结果和样本标签之间的损失值,根据损失值调整原始专用模型的模型 参数。循环执行选取样本音频数据,对原始专用模型进行训练的过程,直至 原始专用模型符合设定的结束条件时结束训练,将原始专用模型作为中间声学模型。由于中间声学模型采用不同场景下的样本音频数据训练得到,因此 中间声学模型可以识别不同音频场景下的样本音频数据。中间声学模型的具 体训练过程可以根据需求设置,本实施例对此不做限制。
步骤203、分别通过每个音频场景下的样本音频数据对中间声学模型进 行调节训练,得到每个音频场景对应的专用声学模型。
本实施例中,在得到中间声学模型之后,可以对中间声学模型进行调节 训练,得到不同音频场景分别对应的声学模型。如图3所示,在得到中间声 学模型之后,首先可以从样本音频数据集A中选择样本音频数据,将选择的 样本音频数据输入中间声学模型,得到中间声学模型的识别结果,然后根据 识别结果和样本标签计算损失值,根据损失值调节中间声学模型的模型参数, 直至中间声学模型达到预设的结束条件时结束训练,将中间声学模型作为室内场景对应的专用声学模型A。同理,可以通过样本音频数据集B中的样本 音频数据对中间声学模型进行调节训练,得到对应室外场景的专用声学模型 B。对中间声学模型进行调节训练,得到专用声学模型方法可以包括但不限于通过对应音频场景下的样本音频数据进行调节训练的方法,本实施例对中 间声学模型的具体训练方法不做具体限制。
实际应用中,先训练得到对应多个音频场景的中间声学模型,中间声学 模型可以识别不同音频场景下的样本音频数据,然后对中间声学模型进行调 节训练,得到对应音频场景的专用声学模型。专用声学模型不仅可以具有识 别其他音频场景的音频数据的能力,而且可以准确识别对应音频场景下的音 频数据。并且,先训练得到针对每个音频场景的中间声学模型,然后调节得到每个音频场景分别对应的专用声学模型,可以缩短专用声学模型的训练时 间,提高训练效率。
可选地,该方法还可以包括:
控制中间声学模型的学习率的数值范围,以保持专用声学模型对不同音 频场景下的样本音频数据的识别能力。
在一种实施例中,在中间声学模型的调节训练过程中,可以控制中间声 学模型的学习率,以在每次调节中间声学模型的模型参数时,小幅度的调节 模型参数,避免大幅度的对模型参数进行调节,保持专用声学模型对不同音 频场景下的样本音频数据的识别能力。示例地,在调节训练过程中,每次计 算得到中间声学模型的损失值之后,可以给损失值乘以一个小的权重系数,例如乘以0.01,得到较小的目标损失值,通过较小的目标损失值小幅度的调 节中间声学模型的模型参数,降低中间声学模型的学习率。或者,在计算得 到损失值,反向传导损失值对模型参数进行调节时,可以设置较小的传导系 数,以减小每次调节的幅度,降低中间声学模型的学习率。控制学习率的数 值范围的具体方法可以根据需求设置,本实施例对此不做限制。
实际应用中,控制中间声学模型的学习率的数值范围,保持专用声学模 型对不同音频场景下的样本音频数据的识别能力,可以使专用声学模型既能 准确识别对应音频场景的音频数据,又具有识别其他音频场景下的音频数据 的能力,可以提高专用声学模型的泛化能力,进一步的可以提高通用声学模 型的泛化能力。
可选地,在控制中间声学模型的学习率的数值范围时,该方法还可以包 括:
若音频场景为预先设置的目标音频场景,则控制中间声学模型的学习率 不低于预设学习率,以提高目标音频场景对应的专用声学模型对目标音频场 景下的样本音频数据的识别能力。
本实施例中,在训练针对目标音频场景的专用声学模型时,可以使中间 声学模型具有较高的学习率,以提高专用声学模型对目标音频场景下的样本 音频数据的识别能力,进一步的可以提高通用声学模型对目标音频场景下音 频数据的识别能力。如图3所示,目标音频场景可以为室内场景,在训练专用声学模型A时,可以使中间声学模型的学习率不低于预设学习率,以使训 练得到的专用声学模型A可以准确的识别A类样本音频数据,也即降低专 专用声学模型A的泛化能力,提高声学模型A对室内场景下的样本音频数 据的识别能力。进一步的,在训练通用声学模型时,专用声学模型A识别得 到的软标签可以包括更准确的关于室内场景的音频特征,从而可以使训练得 到的通用声学模型可以更准确的识别室内场景的音频数据,对室内场景的音 频数据具有更好的针对性。预设学习率的具体数值可以根据需求设置,本实 施对此不做限制。
实际应用中,控制中间声学模型的学习率不低于预设学习率,提高目标 音频场景对应的专用声学模型对目标音频场景下的样本音频数据的识别能 力,可以提高通用声学模型对目标音频场景下的音频数据的识别能力,使通 用声学模型可以针对性的识别一些音频场景下的音频数据。
步骤204、将样本音频数据分别输入原始声学模型和所属音频场景对应 的专用声学模型,得到对应的第一语音识别结果和第二语音识别结果。
本实施例中,在原始声学模型的训练过程中,可以将室内场景下的A类 样本音频数据输入对应的专用声学模型A,得到专用声学模型A输出的第二 语音识别结果,将第二语音识别结果作为软标签,以及将A类样本音频数据 的样本标签作为硬标签,对原始声学模型进行训练。同理,可以将室内场景 下的B类样本音频数据输入对应的专用声学模型B,得到专用声学模型B输 出的第二语音识别结果,将第二语音识别结果作为软标签,以及将B类样本 音频数据的样本标签作为硬标签,对原始声学模型进行训练。
步骤205、确定第一语音识别结果与第二语音识别结果之间的第一误差 数据,以及确定样本音频数据的样本标签和第一语音识别结果之间的第二误 差数据。
步骤206、根据第一误差数据和第二误差数据对原始声学模型进行训练, 得到用于识别音频场景下的音频数据的通用声学模型。
可选的,该方法还可以包括:
控制第二误差数据的作用大于第一误差数据的作用。
本实施例中,在对原始声学模型进行训练的过程中,可以控制第二误差 数据的调节作用大于第一误差数据的调节作用,使原始声学模型更偏向于学 习样本标签对应的音频特征。示例地,可以通过线性差值的方法计算总的损 失值,总的损失值可以通过如下方式表示:
其中,为根据第一识别结果和软标签计算得到的第一损失值, βt(l)为根据第一识别结果和硬标签计算得到的第二损失值。ωhard表示硬标 签的权重,即原始声学模型对硬标签给予的偏重度,取值范围可以为(0,1); (1-ωhard)表示软标签的权重,即原始声学模型对软标签给予的偏重度。 δt(l|x)可以看作是第一损失值与第二损失值的线性插值,也即总的损失值。 可以设置βt(l)的权重大于/>的权重,以使第二误差数据的调节作用大于 第一误差数据的调节作用,在对原始声学模型的模型参数进行调节时,可以使原始声学模型更侧重的学习样本标签对应的音频特征。
实际应用中,也可以通过其他方式计算总的损失值。在模型训练过程中, 控制第二误差数据的作用大于第一误差数据的作用,可以使原始声学模型更 加侧重学习硬标签对应的音频特征,即每个音频场景下的样本音频数据的音 频特征,可以提高通用声学模型对不同音频场景下的音频数据的识别能力, 提高通用声学模型的泛化能力。
综上所述,本实施例中,获取多个样本音频数据和样本音频数据的样本 标签,将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声 学模型,得到对应的第一语音识别结果和第二语音识别结果,确定第一语音 识别结果与第二语音识别结果之间的第一误差数据,以及确定样本音频数据 的样本标签和第一语音识别结果之间的第二误差数据,根据第一误差数据和第二误差数据对原始声学模型进行训练,得到用于识别音频场景下的音频数 据的通用声学模型。在声学模型的训练过程中,通过不同音频场景的样本音 频数据对声学模型进行训练,并且在训练过程中将不同音频场景对应的专用 声学模型的识别结果作为模型的学习目标,可以使训练得到的声学模型能够 对不同音频场景下的音频数据进行准确的识别,使声学模型具有比较高的泛 化能力。
可选地,在步骤204之前,该方法还可以包括:
通过样本音频数据对原始声学模型进行预训练,以提高原始声学模型对 样本音频数据的识别能力。
在一种实施例中,在对原始声学模型进行正式训练之前,可以对原始声 学模型进行预训练,提高原始声学模型的识别能力,缩短模型训练时间。结 合上述举例,在训练专用声学模型的同时,可以将样本音频数据输入原始声 学模型,得到原始声学模型输出的识别结果,并根据识别结果和样本音频数 据的样本标签计算损失值,根据损失值对原始声学模型的模型参数进行调整,完成对原始声学模型的预先训练。在完成专用声学模型的训练之后,可以正 式开始对原始声学模型进行训练。
实际应用中,在正式训练之前,可以预先对原始声学模型进行训练,提 高原始声学模型的识别能力,可以在正式训练过程中,可以缩短声学模型的 训练时间,提高训练效率。
图4是本申请实施例提供的一种声学模型处理装置的框图,如图4所示, 该装置400可以包括:获取模块401、输入模块402、确定模块403和训练 模块404。
获取模块401用于获取多个样本音频数据和样本音频数据的样本标签; 多个样本音频数据中包括多个不同音频场景下的样本音频数据。
输入模块402用于将样本音频数据分别输入原始声学模型和所属音频场 景对应的专用声学模型,得到对应的第一语音识别结果和第二语音识别结果; 专用声学模型为预先训练得到的、用于识别对应音频场景下的样本音频数据 的声学模型。
确定模块403用于确定第二语音识别结果与第一语音识别结果之间的第 一误差数据,以及确定样本音频数据的样本标签与第一语音识别结果之间的 第二误差数据。
训练模块404用于根据第一误差数据和第二误差数据对原始声学模型进 行训练,得到用于识别音频场景下的音频数据的通用声学模型。
在本申请实施例中,获取多个样本音频数据和样本音频数据的样本标签, 将样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模 型,得到对应的第一语音识别结果和第二语音识别结果,确定第一语音识别 结果与第二语音识别结果之间的第一误差数据,以及确定样本音频数据的样 本标签和第一语音识别结果之间的第二误差数据,根据第一误差数据和第二误差数据对原始声学模型进行训练,得到用于识别音频场景下的音频数据的 通用声学模型。在声学模型的训练过程中,通过不同音频场景的样本音频数 据对声学模型进行训练,并且在训练过程中将不同音频场景对应的专用声学 模型的识别结果作为模型的学习目标,可以使训练得到的声学模型能够对不 同音频场景下的音频数据进行准确的识别,使声学模型具有比较高的泛化能力。
可选地,训练模块404还用于通过多个样本音频数据对原始专用模型进 行语音识别训练,得到对应多个不同音频场景的中间声学模型;中间声学模 型用于识别多个不同音频场景下的样本音频数据;分别通过每个音频场景下 的样本音频数据对中间声学模型进行调节训练,得到每个音频场景分别对应的专用声学模型。
可选地,训练模块404还用于控制中间声学模型的学习率的数值范围, 以保持专用声学模型对不同音频场景下的样本音频数据的识别能力。
可选地,训练模块404还用于若音频场景为预先设置的目标音频场景, 则控制中间声学模型的学习率不低于预设学习率,以提高目标音频场景对应 的专用声学模型对目标音频场景下的样本音频数据的识别能力。
可选地,训练模块404还用于分别通过每个音频场景下的样本音频数据 对原始专用模型进行语音识别训练,得到每个音频场景分别对应的专用声学 模型。
可选地,训练模块404还用于通过样本音频数据对原始声学模型进行预 训练,以提高原始声学模型对样本音频数据的识别能力。
可选地,训练模块404还用于控制第二误差数据的作用大于第一误差数 据的作用。
本申请实施例提供的声学模型处理装置具备执行声学模型处理方法相 应的功能模块,可执行本申请实施例所提供的声学模型处理方法,且能达到 相同的有益效果。
在本发明提供的又一实施例中,还提供了一种电子设备,电子设备可以 包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的 计算机程序,所述处理器执行所述程序时实现上述声学模型处理方法实施例 的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
示例的,如图5所示,图5是本申请实施例提供的一种电子设备的硬件 结构示意图,该电子设备具体可以包括:处理器501、存储装置502、具有 触摸功能的显示屏503、输入装置504、输出装置505以及通信装置506。该 电子设备中处理器501的数量可以是一个或者多个,图5中以一个处理器501 为例。该电子设备的处理器501、存储装置502、显示屏503、输入装置504、输出装置505以及通信装置506可以通过总线或者其他方式连接。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该 计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执 行上述实施例中任一所述的声学模型处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产 品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的声学 模型处理方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示 这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列 要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的 要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描 述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范 围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均 包含在本发明的保护范围内。

Claims (8)

1.一种声学模型处理方法,其特征在于,包括:
获取多个样本音频数据和所述样本音频数据的样本标签;所述多个样本音频数据中包括多个不同音频场景下的样本音频数据;
将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型,得到对应的第一语音识别结果和第二语音识别结果;所述专用声学模型为预先训练得到的、用于识别对应音频场景下的所述样本音频数据的声学模型;
确定所述第二语音识别结果与所述第一语音识别结果之间的第一误差数据,以及确定所述样本音频数据的样本标签与所述第一语音识别结果之间的第二误差数据;
根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行训练,得到用于识别所述音频场景下的音频数据的通用声学模型;
在所述将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型之前,还包括:
通过所述多个样本音频数据对原始专用模型进行语音识别训练,得到对应所述多个不同音频场景的中间声学模型;所述中间声学模型用于识别所述多个不同音频场景下的所述样本音频数据;
分别通过每个所述音频场景下的所述样本音频数据对所述中间声学模型进行调节训练,得到每个所述音频场景分别对应的所述专用声学模型;
在所述分别通过每个所述音频场景下的所述样本音频数据对所述中间声学模型进行调节训练,得到每个所述音频场景分别对应的所述专用声学模型时,包括:
控制所述中间声学模型的学习率的数值范围,以保持所述专用声学模型对不同所述音频场景下的所述样本音频数据的识别能力。
2.根据权利要求1所述的方法,其特征在于,在所述控制所述中间声学模型的学习率的数值范围时,包括:
若所述音频场景为预先设置的目标音频场景,则控制所述中间声学模型的学习率不低于预设学习率,以提高所述目标音频场景对应的专用声学模型对所述目标音频场景下的样本音频数据的识别能力。
3.根据权利要求1所述的方法,其特征在于,在所述将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型之前,还包括:
分别通过每个所述音频场景下的所述样本音频数据对原始专用模型进行语音识别训练,得到每个所述音频场景分别对应的所述专用声学模型。
4.根据权利要求1所述的方法,其特征在于,在所述将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型之前,还包括:
通过所述样本音频数据对所述原始声学模型进行预训练,以提高所述原始声学模型对所述样本音频数据的识别能力。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行训练,得到用于识别所述音频场景下的音频数据的通用声学模型时,包括:
控制所述第二误差数据的作用大于所述第一误差数据的作用。
6.一种声学模型处理装置,其特征在于,包括:
获取模块,用于获取多个样本音频数据和所述样本音频数据的样本标签;所述多个样本音频数据中包括多个不同音频场景下的样本音频数据;
输入模块,用于将所述样本音频数据分别输入原始声学模型和所属音频场景对应的专用声学模型,得到对应的第一语音识别结果和第二语音识别结果;所述专用声学模型为预先训练得到的、用于识别对应音频场景下的所述样本音频数据的声学模型;
确定模块,用于确定所述第二语音识别结果与所述第一语音识别结果之间的第一误差数据,以及确定所述样本音频数据的样本标签与所述第一语音识别结果之间的第二误差数据;
训练模块,用于根据所述第一误差数据和所述第二误差数据对所述原始声学模型进行训练,得到用于识别所述音频场景下的音频数据的通用声学模型;
所述训练模块还用于通过所述多个样本音频数据对原始专用模型进行语音识别训练,得到对应多个不同音频场景的中间声学模型;所述中间声学模型用于识别所述多个不同音频场景下的样本音频数据;分别通过每个音频场景下的样本音频数据对所述中间声学模型进行调节训练,得到每个音频场景分别对应的所述专用声学模型;
所述训练模块还用于控制所述中间声学模型的学习率的数值范围,以保持所述专用声学模型对所述不同音频场景下的样本音频数据的识别能力。
7.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5中任一项所述的声学模型处理方法的步骤。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的声学模型处理方法的步骤。
CN202110179892.6A 2021-02-07 2021-02-07 声学模型处理方法、装置、设备和可读存储介质 Active CN112786028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110179892.6A CN112786028B (zh) 2021-02-07 2021-02-07 声学模型处理方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110179892.6A CN112786028B (zh) 2021-02-07 2021-02-07 声学模型处理方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112786028A CN112786028A (zh) 2021-05-11
CN112786028B true CN112786028B (zh) 2024-03-26

Family

ID=75761436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110179892.6A Active CN112786028B (zh) 2021-02-07 2021-02-07 声学模型处理方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112786028B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035177B (zh) * 2021-03-11 2024-02-09 平安科技(深圳)有限公司 声学模型训练方法及装置
CN115662401B (zh) * 2022-12-14 2023-03-10 国家电网有限公司客户服务中心 一种基于持续学习的客服通话语音识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020042658A1 (zh) * 2018-08-31 2020-03-05 华为技术有限公司 数据处理方法、装置、设备和系统
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN111627428A (zh) * 2020-05-15 2020-09-04 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111739535A (zh) * 2019-03-21 2020-10-02 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN112466318A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语音处理方法、装置及语音处理模型的生成方法、装置
CN116013274A (zh) * 2023-01-19 2023-04-25 蔚来汽车科技(安徽)有限公司 语音识别的方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US11416741B2 (en) * 2018-06-08 2022-08-16 International Business Machines Corporation Teacher and student learning for constructing mixed-domain model
US11586930B2 (en) * 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020042658A1 (zh) * 2018-08-31 2020-03-05 华为技术有限公司 数据处理方法、装置、设备和系统
CN111739535A (zh) * 2019-03-21 2020-10-02 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN111627428A (zh) * 2020-05-15 2020-09-04 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN112466318A (zh) * 2020-10-27 2021-03-09 北京百度网讯科技有限公司 语音处理方法、装置及语音处理模型的生成方法、装置
CN116013274A (zh) * 2023-01-19 2023-04-25 蔚来汽车科技(安徽)有限公司 语音识别的方法、装置、计算机设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Investigation of a Knowledge Distillation Method for CTC Acoustic Models;Ryoichi Takashima,等;《2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;全文 *
Distilling Task-Specific Knowledge from BERT into Simple Neural Networks;Raphael Tang,等;《https://arxiv.org/pdf/1903.12136.pdf》;第3-4页 *
基于知识蒸馏的中文自动语音识别的建模方法;舒真瀚,等;《现代计算机》;全文 *

Also Published As

Publication number Publication date
CN112786028A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN109712611B (zh) 联合模型训练方法及系统
CN112966712B (zh) 语言模型训练方法、装置、电子设备和计算机可读介质
US9779730B2 (en) Method and apparatus for speech recognition and generation of speech recognition engine
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN109817201B (zh) 一种语言学习方法、装置、电子设备及可读存储介质
CN112786028B (zh) 声学模型处理方法、装置、设备和可读存储介质
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN103559894A (zh) 口语评测方法及系统
CN103594087A (zh) 提高口语评测性能的方法及系统
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN103258533A (zh) 远距离语音识别中的模型域补偿新方法
JP2022537000A (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN102203852A (zh) 建立语音模型的方法
CN110610698A (zh) 一种语音标注方法及装置
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN114913859B (zh) 声纹识别方法、装置、电子设备和存储介质
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN110610697B (zh) 一种语音识别方法及装置
KR20220030120A (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN114400006A (zh) 语音识别方法和装置
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
CN113674745B (zh) 语音识别方法及装置
CN114049891A (zh) 一种信息生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant