CN111833847A - 语音处理模型训练方法和装置 - Google Patents

语音处理模型训练方法和装置 Download PDF

Info

Publication number
CN111833847A
CN111833847A CN201910297777.1A CN201910297777A CN111833847A CN 111833847 A CN111833847 A CN 111833847A CN 201910297777 A CN201910297777 A CN 201910297777A CN 111833847 A CN111833847 A CN 111833847A
Authority
CN
China
Prior art keywords
layer
hidden layer
training
data
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910297777.1A
Other languages
English (en)
Other versions
CN111833847B (zh
Inventor
霍昱光
徐扬凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910297777.1A priority Critical patent/CN111833847B/zh
Publication of CN111833847A publication Critical patent/CN111833847A/zh
Application granted granted Critical
Publication of CN111833847B publication Critical patent/CN111833847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语音处理模型训练方法和装置,其中,方法包括:通过获取目标语音识别场景的训练数据;训练数据包含第一类语音数据和第二类语音数据,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度;生成联合模型结构;将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练;根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。

Description

语音处理模型训练方法和装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种语音处理模型训练方法和装置。
背景技术
目前,模型微调训练通常是全部数据采用单输出层的策略,也就是将全部数据输入到训练模型中的输入层、共享隐层和输出层进行训练输出全部数据标签,然而,全部数据中存在部分数据为与目标场景的语音特征低程度匹配,导致模型训练结果有偏差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种语音处理模型训练方法和装置,用于解决现有技术中全部数据中存在部分数据为与目标场景的语音特征低程度匹配,导致模型训练结果有偏差的技术问题,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。
为达上述目的,本申请第一方面实施例提出了一种语音处理模型训练方法,包括:
获取目标语音识别场景的训练数据;其中,所述训练数据包含第一类语音数据和第二类语音数据,其中,所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度;
生成联合模型结构,其中,所述联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层;
将所述训练数据输入所述联合模型结构,通过所述输入层和所述共享隐层对所述训练数据进行训练,并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练,且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练;
根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。
本实施例的语音处理模型训练方法,通过获取目标语音识别场景的训练数据;训练数据包含第一类语音数据和第二类语音数据,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度;生成联合模型结构;将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练;根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。
为达上述目的,本申请第二方面实施例提出了一种语音处理模型训练装置,包括:
获取模块,用于获取目标语音识别场景的训练数据;其中,所述训练数据包含第一类语音数据和第二类语音数据,其中,所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度;
生成模块,用于生成联合模型结构,其中,所述联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层;
训练模块,用于将所述训练数据输入所述联合模型结构,通过所述输入层和所述共享隐层对所述训练数据进行训练,并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练,且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练;
处理模块,用于根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。
本实施例的语音处理模型训练装置,通过获取目标语音识别场景的训练数据;训练数据包含第一类语音数据和第二类语音数据,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度;生成联合模型结构;将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练;根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的语音处理模型训练方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的语音处理模型训练方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的语音处理模型训练方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种语音处理模型训练方法的流程示意图;
图2为现有技术的语音处理模型训练的示例图;
图3为本申请实施例所提供的一种语音处理模型训练方法的示例图;
图4为本申请实施例所提供的另一种语音处理模型训练方法的流程示意图;
图5为本申请实施例所提供的一种语音处理模型训练装置的结构示意图;以及
图6为本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语音处理模型训练方法和装置。
图1为本申请实施例所提供的一种语音处理模型训练方法的流程示意图。
如图1所示,该语音处理模型训练方法可以包括以下步骤:
步骤101,获取目标语音识别场景的训练数据;其中,训练数据包含第一类语音数据和第二类语音数据,其中,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度。
具体地,如图2所示,现有技术中将全部训练数据特征输入到输入层、共享隐层和输出层进行训练输出全部训练数据标签。这种方式在全部训练数据特征中存在部分数据与目标语音识别场景的语音特征差距比较大的情况下,导致模型训练结果有偏差,最终后续语音识别结果不准确。
针对上述问题,本申请提出一种语音处理模型训练方法,通过生成联合模型结构,在隐层便开始对训练数据进行拆分训练,从而避免了模型训练结果出现偏差,提高语音处理模型训练的准确性,提高语音处理结果的准确性,最终提升用户使用体验。
首先,获取目标语音识别场景的训练数据,可以理解的是,不同的目标语音识别场景对应不同的训练数据,以及获取目标语音识别场景的训练数据的方式有很多种,举例说明如下:
第一种示例,获取多个语音数据,并获取每一个语音数据的背景噪声,背景噪声与目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为第一类语音数据,背景噪声与目标语音识别场景的背景噪音匹配度小于第一预设阈值对应的语音数据确定为第二类语音数据,根据第一类语音数据和第二类语音数据生成目标语音识别场景的训练数据。
第二种示例,获取多个语音数据,并获取每一个语音数据的语句长度和语句语法特征,语句长度和语句语法特征与目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为第一类语音数据,语句长度和语句语法特征与目标语音识别场景的语句长度和语句语法特征匹配度小于第二预设阈值对应的语音数据确定为第二类语音数据,根据第一类语音数据和第二类语音数据生成目标语音识别场景的训练数据。
也就是说,在获取多个语音数据后,获取目标语音识别场景的语音特征,比如背景噪音、应用场景、语音的语句长度和语句语法特征等,分析各个语音数据中的语音特征与目标语音识别场景的语音特征的相似度,选择相似度比较高的作为第一类语音数据,相似度比较低的作为第二类语音数据。
其中,目标语音识别场景不同其语音特征也不同,比如目标语音识别场景为车载语音识别场景,背景噪音比较大,再比如目标语音识别场景为输入法语音识别场景,背景噪音比较小,还比如目标语音识别场景为机器人对话语音识别场景,语音的语句长度比较长和语句语法特征比较复杂等。
步骤102,生成联合模型结构,其中,联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层。
具体地,可以采用很多种方式生成联合模型结构,举例说明如下:
第一种示例,直接生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的联合模型结构。
第二种示例,获取预设的神经网络模型,其中,预设的神经网络模型包括:输入层、共享隐层和输出层,复制共享隐层中的最后一个隐层,以及复制输出层生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的联合模型结构。
步骤103,将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和所述第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练。
步骤104,根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。
具体地,将训练数据也就是第一类语音数据和第二类语音数据随机混合输入到联合模型结构中进行联合训练,为了本领域人员更加清楚如何训练,下面结合图3举例说明,比如图3中所示的对最后一个隐层和输出层进行复制生成的联合模型结构,对第一类语音数据使用输入层、共享隐层、拆分后的第一个最后一层隐层、第一输出层进行联合训练;对第二类语音数据使用输入层、共享隐层、拆分后的第二个最后一层隐层、第二输出层进行联合训练,在训练结束后,将使用输入层、共享隐层、拆分后的第一个最后一层隐层、第一个输出层对应训练的模型参数生成语音处理模型。
其中,根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型的方式有很多种,作为一种可能实现方式,获取第一输出层对应的第一目标函数和第二输出层对应的第二目标函数,根据第一目标函数对第一隐层输出的语音数据进行训练,以及根据第二目标函数对第二隐层输出的语音数据进行训练,当训练满足预设条件时,确定输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数,根据模型参数生成语音处理模型。
其中,不同的模型参数生成不同的语音处理模型,比如语音的识别特征参数等生成语音识别模型。
本实施例的语音处理模型训练方法,通过获取目标语音识别场景的训练数据;训练数据包含第一类语音数据和第二类语音数据,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度;生成联合模型结构;将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练;根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。
图4为本申请实施例所提供的另一种语音处理模型训练方法的流程示意图。
如图4所示,该语音处理模型训练方法可以包括以下步骤:
步骤201,获取多个语音数据,并获取每一个语音数据的背景噪声。
步骤202,背景噪声与目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为第一类语音数据,背景噪声与目标语音识别场景的背景噪音匹配度小于第一预设阈值对应的语音数据确定为第二类语音数据。
步骤203,根据第一类语音数据和第二类语音数据生成目标语音识别场景的训练数据。
具体地,目标语音识别场景的语音特征为背景噪声,分析每一个语音数据的背景噪声,背景噪声与目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据表示该语音数据与目标语音识别场景的语音特征的匹配程序比较高,背景噪声与目标语音识别场景的背景噪音匹配度小于第一预设阈值对应的语音数据表示该语音数据与目标语音识别场景的语音特征的匹配程序比较低。
还需要说明的是,与目标语音识别场景相同或者相似产生的语音数据和目标语音识别场景的语音特征匹配程度高,比如同源(车载产品线)或相近产品线(如地图产品线,与车载产品线训练数据相近)语音数据,相反,与目标语音识别场景不相同或者不相似产生的语音数据和目标语音识别场景的语音特征匹配程度低。
需要说明的是,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度。
步骤204,获取预设的神经网络模型,其中,所述预设的神经网络模型包括:输入层、共享隐层和输出层。
步骤205,复制共享隐层中的最后一个隐层,以及复制输出层生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的联合模型结构。
具体地,对单输出层的预设的神经网络模型进行处理,从指定的隐层到输出层进行复制,即复制共享隐层中的最后一个隐层,以及复制输出层得到联合模型结构。
步骤206,将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和所述第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练。
步骤207,获取第一输出层对应的第一目标函数和第二输出层对应的第二目标函数。
步骤208,根据第一目标函数对第一隐层输出的语音数据进行训练,以及根据第二目标函数对第二隐层输出的语音数据进行训练。
步骤209,当训练满足预设条件时,确定输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数,根据模型参数生成语音处理模型。
具体地,每一输出层都有其对应的目标函数来对隐层输出的数据进行计算,该目标函数可以是一个预设的计算公式或者算法,因此,可以获取第一输出层对应的第一目标函数和第二输出层对应的第二目标函数。
进而,根据第一目标函数对第一隐层输出的语音数据进行训练,以及根据第二目标函数对第二隐层输出的语音数据进行训练,比如通过预设公式对第一隐层输出的语音数据进行计算得到语音特征向量A,以及根据第二目标函数对第二隐层输出的语音数据进行训练得到语音特征向量B,判断特征向量A和特征向量B是否满足预设条件比如在预设向量范围内等,在训练满足预设条件时,确定输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数,根据模型参数生成语音处理模型。
由此,通过生成联合模型结构,在隐层便开始对训练数据进行拆分训练,从而避免了模型训练结果出现偏差,提高语音处理模型训练的准确性,提高语音处理结果的准确性,最终提升用户使用体验。
为了实现上述实施例,本申请还提出一种语音处理模型训练装置。
图5为本申请实施例所提供的一种语音处理模型训练装置的结构示意图。
如图5所示,该语音处理模型训练装置可以包括:获取模块510、生成模块520、训练模块530和处理模块540。其中,
获取模块510,用于获取目标语音识别场景的训练数据;其中,训练数据包含第一类语音数据和第二类语音数据,其中,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度。
生成模块520,用于生成联合模型结构,其中,联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层。
训练模块530,用于将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练。
处理模块540,用于根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。
在本申请实施例一种可能的实现方式中,获取模块510,具体用于:获取多个语音数据,并获取每一个语音数据的背景噪声,背景噪声与目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为第一类语音数据,背景噪声与目标语音识别场景的背景噪音匹配度小于第一预设阈值对应的语音数据确定为第二类语音数据,根据第一类语音数据和第二类语音数据生成目标语音识别场景的训练数据。
在本申请实施例一种可能的实现方式中,获取模块510,具体用于:获取多个语音数据,并获取每一个语音数据的语句长度和语句语法特征,语句长度和语句语法特征与目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为第一类语音数据,语句长度和语句语法特征与目标语音识别场景的语句长度和语句语法特征匹配度小于第二预设阈值对应的语音数据确定为第二类语音数据,根据第一类语音数据和第二类语音数据生成目标语音识别场景的训练数据。
在本申请实施例一种可能的实现方式中,生成模块520,具体用于:获取预设的神经网络模型,其中,预设的神经网络模型包括:输入层、共享隐层和输出层;复制所述共享隐层中的最后一个隐层,以及复制输出层生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的联合模型结构。
在本申请实施例一种可能的实现方式中,处理模块540,具体用于:获取第一输出层对应的第一目标函数和第二输出层对应的第二目标函数;根据第一目标函数对第一隐层输出的语音数据进行训练,以及根据第二目标函数对第二隐层输出的语音数据进行训练;当训练满足预设条件时,确定输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数;根据模型参数生成语音处理模型。
需要说明的是,前述对语音处理模型训练方法实施例的解释说明也适用于该实施例的语音处理模型训练装置,其实现原理类似,此处不再赘述。
本申请实施例的语音处理模型训练装置,通过获取目标语音识别场景的训练数据;训练数据包含第一类语音数据和第二类语音数据,第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度;生成联合模型结构;将训练数据输入联合模型结构,通过输入层和共享隐层对训练数据进行训练,并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练,且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练;根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此,通过在隐层就开始对训练数据进行拆分训练,提高了语音处理模型训练的准确性。
通过为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器和存储器。其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的语音处理模型训练方法。
图6为本申请实施例所提供的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图6显示的计算机设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。
总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该终端设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用以及语音处理模型训练,例如实现前述实施例中提及的语音处理模型训练方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述实施例所述的语音处理模型训练方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述实施例所述的语音处理模型训练方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种语音处理模型训练方法,其特征在于,包括以下步骤:
获取目标语音识别场景的训练数据;其中,所述训练数据包含第一类语音数据和第二类语音数据,其中,所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度;
生成联合模型结构,其中,所述联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层;
将所述训练数据输入所述联合模型结构,通过所述输入层和所述共享隐层对所述训练数据进行训练,并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练,且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练;
根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。
2.如权利要求1所述的方法,其特征在于,所述获取目标语音识别场景的训练数据,包括:
获取多个语音数据,并获取每一个语音数据的背景噪声;
所述背景噪声与所述目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为所述第一类语音数据;
所述背景噪声与所述目标语音识别场景的背景噪音匹配度小于所述第一预设阈值对应的语音数据确定为所述第二类语音数据;
根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。
3.如权利要求1所述的方法,其特征在于,所述获取目标语音识别场景的训练数据,包括:
获取多个语音数据,并获取每一个语音数据的语句长度和语句语法特征;
所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为所述第一类语音数据;
所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度小于所述第二预设阈值对应的语音数据确定为所述第二类语音数据;
根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。
4.如权利要求1所述的方法,其特征在于,所述生成联合模型结构,包括:
获取预设的神经网络模型,其中,所述预设的神经网络模型包括:输入层、共享隐层和输出层;
复制所述共享隐层中的最后一个隐层,以及复制所述输出层生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的所述联合模型结构。
5.如权利要求1所述的方法,其特征在于,所述根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型,包括:
获取所述第一输出层对应的第一目标函数和所述第二输出层对应的第二目标函数;
根据所述第一目标函数对所述第一隐层输出的语音数据进行训练,以及根据所述第二目标函数对所述第二隐层输出的语音数据进行训练;
当训练满足预设条件时,确定所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数;
根据所述模型参数生成语音处理模型。
6.一种语音处理模型训练装置,其特征在于,包括以下步骤:
获取模块,用于获取目标语音识别场景的训练数据;其中,所述训练数据包含第一类语音数据和第二类语音数据,其中,所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度;
生成模块,用于生成联合模型结构,其中,所述联合模型结构包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层;
训练模块,用于将所述训练数据输入所述联合模型结构,通过所述输入层和所述共享隐层对所述训练数据进行训练,并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练,且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练;
处理模块,用于根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。
7.如权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
获取多个语音数据,并获取每一个语音数据的背景噪声;
所述背景噪声与所述目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为所述第一类语音数据;
所述背景噪声与所述目标语音识别场景的背景噪音匹配度小于所述第一预设阈值对应的语音数据确定为所述第二类语音数据;
根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。
8.如权利要求6所述的装置,其特征在于,所述获取模块,具体用于:
获取多个语音数据,并获取每一个语音数据的语句长度和语句语法特征;
所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为所述第一类语音数据;
所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度小于所述第二预设阈值对应的语音数据确定为所述第二类语音数据;
根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。
9.如权利要求6所述的装置,其特征在于,所述生成模块,具体用于:
获取预设的神经网络模型,其中,所述预设的神经网络模型包括:输入层、共享隐层和输出层;
复制所述共享隐层中的最后一个隐层,以及复制所述输出层生成包括:输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的所述联合模型结构。
10.如权利要求6所述的方法,其特征在于,所述处理模块,具体用于:
获取所述第一输出层对应的第一目标函数和所述第二输出层对应的第二目标函数;
根据所述第一目标函数对所述第一隐层输出的语音数据进行训练,以及根据所述第二目标函数对所述第二隐层输出的语音数据进行训练;
当训练满足预设条件时,确定所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数;
根据所述模型参数生成语音处理模型。
11.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的语音处理模型训练方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的语音处理模型训练方法。
CN201910297777.1A 2019-04-15 2019-04-15 语音处理模型训练方法和装置 Active CN111833847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910297777.1A CN111833847B (zh) 2019-04-15 2019-04-15 语音处理模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910297777.1A CN111833847B (zh) 2019-04-15 2019-04-15 语音处理模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN111833847A true CN111833847A (zh) 2020-10-27
CN111833847B CN111833847B (zh) 2023-07-25

Family

ID=72914464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910297777.1A Active CN111833847B (zh) 2019-04-15 2019-04-15 语音处理模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN111833847B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489637A (zh) * 2020-11-03 2021-03-12 北京百度网讯科技有限公司 语音识别方法和装置
CN112767916A (zh) * 2021-02-05 2021-05-07 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US20140257805A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Multilingual deep neural network
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN107330908A (zh) * 2017-06-28 2017-11-07 陕西师范大学 一种基于卷积受限玻尔兹曼机的形状建模方法及相关装置
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
CN109308895A (zh) * 2018-12-04 2019-02-05 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质
CN109616102A (zh) * 2019-01-09 2019-04-12 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109616101A (zh) * 2019-02-12 2019-04-12 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、计算机设备和可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140257805A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Multilingual deep neural network
CN103400577A (zh) * 2013-08-01 2013-11-20 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN108701453A (zh) * 2016-03-04 2018-10-23 微软技术许可有限责任公司 模块化深度学习模型
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN107330908A (zh) * 2017-06-28 2017-11-07 陕西师范大学 一种基于卷积受限玻尔兹曼机的形状建模方法及相关装置
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN109308895A (zh) * 2018-12-04 2019-02-05 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质
CN109616102A (zh) * 2019-01-09 2019-04-12 百度在线网络技术(北京)有限公司 声学模型的训练方法、装置及存储介质
CN109616101A (zh) * 2019-02-12 2019-04-12 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、计算机设备和可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEVIN HOESEN ET AL.: "Shared-hidden-layer Deep Neural Network for Under-resourced Language the Content", TELKOMNIKA *
杨沛;谭琦;丁月华;: "一种面向非线性回归的迁移学习模型", 计算机科学, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489637A (zh) * 2020-11-03 2021-03-12 北京百度网讯科技有限公司 语音识别方法和装置
CN112489637B (zh) * 2020-11-03 2024-03-26 北京百度网讯科技有限公司 语音识别方法和装置
CN112767916A (zh) * 2021-02-05 2021-05-07 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品
CN112767916B (zh) * 2021-02-05 2024-03-01 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品

Also Published As

Publication number Publication date
CN111833847B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US20200334457A1 (en) Image recognition method and apparatus
CN110197658B (zh) 语音处理方法、装置以及电子设备
US10867618B2 (en) Speech noise reduction method and device based on artificial intelligence and computer device
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN108984679B (zh) 对话生成模型的训练方法和装置
US20180366107A1 (en) Method and device for training acoustic model, computer device and storage medium
CN108922564B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN110175335B (zh) 翻译模型的训练方法和装置
CN108846124B (zh) 训练方法、装置、计算机设备和可读存储介质
CN109616101B (zh) 声学模型训练方法、装置、计算机设备和可读存储介质
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN110704597B (zh) 对话系统可靠性校验方法、模型生成方法及装置
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
CN111833847B (zh) 语音处理模型训练方法和装置
CN116433692A (zh) 一种医学图像分割方法、装置、设备和存储介质
CN111753996A (zh) 一种方案确定模型的优化方法、装置、设备及存储介质
CN110909889A (zh) 一种基于特征分布的训练集生成、模型训练方法及装置
US10991363B2 (en) Priors adaptation for conservative training of acoustic model
US10650803B2 (en) Mapping between speech signal and transcript
CN111815748B (zh) 一种动画处理方法、装置、存储介质及电子设备
CN112241629A (zh) 结合rpa及ai的拼音标注文本生成方法及装置
CN110246486B (zh) 语音识别模型的训练方法、装置及设备
US9384758B2 (en) Derivation of probabilistic score for audio sequence alignment
CN108897872B (zh) 对话处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant