CN111081223A - 一种语音识别方法、装置、设备和存储介质 - Google Patents

一种语音识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111081223A
CN111081223A CN201911410013.5A CN201911410013A CN111081223A CN 111081223 A CN111081223 A CN 111081223A CN 201911410013 A CN201911410013 A CN 201911410013A CN 111081223 A CN111081223 A CN 111081223A
Authority
CN
China
Prior art keywords
noise
audio data
model
data set
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911410013.5A
Other languages
English (en)
Other versions
CN111081223B (zh
Inventor
胡正伦
傅正佳
李安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201911410013.5A priority Critical patent/CN111081223B/zh
Publication of CN111081223A publication Critical patent/CN111081223A/zh
Application granted granted Critical
Publication of CN111081223B publication Critical patent/CN111081223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

本发明公开了一种语音识别方法、装置、设备和存储介质,其中,该方法包括将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;获取所述预设语音识别模型输出的语音识别结果。本发明实施例的技术方案,通过抗噪模型预先对语音数据进行处理,降低噪声对语音信号的识别,提高语音数据的识别准确率。

Description

一种语音识别方法、装置、设备和存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种语音识别方法、装置、设备和存储介质。
背景技术
随着移动互联网技术的快速发展,计算机技术被广泛的应用到社会各个领域,在计算机技术的应用的过程中数据变得愈发重要,其中,语音数据的处理是计算机技术中重要的一环。处理语音数据的语音识别技术得到了长足的发展,然而由于语音数据常采集于嘈杂的环境中,语音数据中的噪声干扰较大,语音识别技术的识别率较低。
为了解决上述问题,现有技术中通过采集更多噪声数据加入到训练集中,提高语音识别模型的鲁棒性,或者,通过提高采集到的语音数据的信噪比,提高语音识别模型的识别率,但是噪音仍能对语音识别产生干扰,无法真正解决噪音导致识别率降低的问题。
发明内容
本发明提供一种语音识别方法、装置、设备和存储介质,以解决噪音导致语音识别率降低的问题,去除噪音对语音数据的影响,提高语音识别的准确性。
第一方面,本发明实施例提供了一种语音识别方法,该方法包括:
将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;
根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;
获取所述预设语音识别模型输出的语音识别结果。
第二方面,本发明实施例还提供了一种语音识别装置,该装置包括:
抗噪处理模块,用于将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;
语音识别模块,用于根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;
结果获取模块,用于获取所述预设语音识别模型输出的语音识别结果。
第三方面,本发明实施例还提供了一种设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的语音识别方法。
第四方面,本发明实施例还提供了一种计算可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如本发明实施例中任一所述的语音识别方法。
本发明实施例的技术方案,通过预先训练的抗噪模型对采集到的语音数据进行抗噪处理,将经过抗噪处理后的语音数据通过语音识别模型进行识别,获取该语音识别模型输出的语音识别结果,通过预先训练的抗噪模型对语音数据进行抗噪处理,降低噪音对语音识别的影响,提高语音识别的准确率。
附图说明
图1是现有技术中的一种语音识别方法的示例图;
图2是现有技术中的一种语音识别方法的示例图;
图3是本发明实施例一提供的语音识别方法的步骤流程图;
图4是本发明实施例一提供的语音数据的示例图;
图5是本发明实施例二提供的语音识别方法的步骤流程图;
图6是本发明实施例二提供的抗噪模型训练示例图;
图7是本发明实施例二提供的一种语音识别方法的示例图;
图8是本发明实施例三提供的语音识别装置的结构示意图;
图9是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
人类语音识别对的准确率会被噪音干扰导致识别率下降,现有技术中为了提高语音识别的准确性,常通过采集更改噪音数据的形式提高机器识别的鲁棒性,从而提高语音识别的准确性,图1是现有技术中的一种语音识别方法的示例图,参见图1,通过采集大量的噪声数据提取特征值用于训练机器识别模型,用于提高机器识别模型的鲁棒性,增强对噪声数据的分辨能力,然而,这种方式实质上不能改变噪声数据对语音识别准确率的影响。此外,还可以在进行语音识别时通过提高在线语音数据的信噪比的方式提高语音识别率,图2是现有技术中的一种语音识别方法的示例图,参见图2,通过对在线语音数据进行处理提高信噪比,将在线环境贴近训练环境的方式提高语音识别的准确率,但是对在线语音数据的处理过程复杂,且并不能真实达到训练环境的水平,语音识别率的提高水平有限。本发明实施例中,通过将语音数据进行抗噪处理,使得包含噪声的语音数据在进行语音识别时与不包含噪声的语音数据具有相同的语音特征,从而实现噪声的去除,提高语音识别的准确性。
实施例一
图3是本发明实施例一提供的语音识别方法的步骤流程图,本实施例可适用于包含噪音的语音数据识别的情况,该方法可以由语音识别装置来执行,该装置可以采用硬件和/或软件的方式来实现,参见图3,本发明实施例的技术方案具体包括如下步骤:
步骤101、将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理。
其中,语音数据可以是在使用环境中采集到的用户语音信息,语音数据可以在嘈杂环境中采集,该语音数据内可以包括噪音信息,语音数据可以是信噪比低的数据,噪音信息可以对用户语音产生较大影响。图4是本发明实施例一提供的语音数据的示例图,参见图4,语音数据可以是信噪比较低的数据,语音数据中信号与噪声的比值较低,噪声可以对信号产生较大干扰。
具体的,抗噪模型可以是经过预先训练的神经网络模型,具体可以是深度神经网络模型,抗噪模型可以对输入的语音数据进行处理,可以对语音数据中噪声进行处理,降低噪声对提取语音数据特征的影响。其中,抗噪模型可以通过大量具有相同语音信息的干净音频数据和干扰音频数据训练实现。
步骤1002、根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据。
其中,预设语音识别模型可以是进行语音识别的神经网络模型,语音模型可以识别出语音数据中的人类语言和特殊音频等,例如,语音识别模型可以识别出炸房音频和语音指令等不同语音。抗噪语音数据可以是经过抗噪处理的语音数据,抗噪语音数据可以是不被噪声影响的语音数据。
具体的,可以获取抗噪模型输出的抗噪语音数据,可以将抗噪语音数据输入到语音识别模型中进行语音识别,可以理解的是,抗噪模型输出的抗噪语音数据可以是去除噪声影响的数据,抗噪语音数据提取的语音特征可以与不包含噪声的语音数据提取的语音特征相同。
步骤103、获取所述预设语音识别模型输出的语音识别结果。
其中,语音识别结果可以是语音数据的识别结果,根据应用的业务场景不同,语音识别结果的表示方式可以不同,语音识别结果具体可以是鉴黄娇喘检测、语音检测、语音识别、炸房音频检测、语种识别等业务的识别结果。
在本发明实施中,预设语音识别模型可以根据应用的业务场景的不同,可以具有不同的语音识别方法,预设语音识别模型可以通过对抗噪语音数据的识别获取到语音识别结果,可以根据语音识别结果确定业务场景下对应的功能,例如,在炸房音频检测的场景下,若语音识别结果为是,则确定识别到炸房音频,可以确定语音数据为炸房音频,该语音数据可以对直播间的网络稳定性产生影响。
本发明实施例的技术方案,通过预先训练的抗噪模型对语音数据进行抗噪处理,通过语音识别模型对经过抗噪模型处理后生成的抗噪语音数据进行识别,获取到语音数据对应的语音识别结果,通过抗噪模型降低噪声对语音数据的干扰,提高语音识别的准确性。
实施例二
图5是本发明实施例二提供的语音识别方法的步骤流程图,本发明实施例中对抗噪模型的预先训练进行了具体化,参见图5,本发明实施例提供的语音识别方法包括:
步骤201、获取高信噪比的干净音频数据集和低信噪比的混噪音频数据集,其中,所述混噪音频数据集通过调整所述干净音频数据集的信噪比生成。
其中,干净音频数据集和混噪音频数据集可以是用于训练抗噪模型的数据集,干净音频数据集和混噪音频数据集可以是以不同信噪比、不同类型的噪声制作的数据集,干净音频数据集可以是不包含噪声的音频数据集合,干净音频数据集中音频可以具有高信噪比,信号相比噪声的占比较大,混噪音频数据集可以是包含噪声的音频数据集合,混噪音频数据集中音频可以具有低信噪比,信号相比噪声的占比较小。
具体的,可以预先获取干净音频数据集和混噪音频数据集,干净音频数据集中的音频信号可以与混噪音频数据集中的音频信号相同,在获取混噪音频书集时,可以通过在干净音频数据集的基础上加上不同类型和不同大小的噪声生成。
步骤202、根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型;其中,所述训练目标至少包括将所述干净音频数据集和所述混噪音频数据集内的音频数据识别为相同音频数据。
其中,训练目标可以是训练抗噪模型时的停止条件,训练抗噪模型的过程可以具体为训练神经网络的过程。
具体的,可以将干净音频数据集合混噪音频数据集中的音频数据输入到抗噪模型中进行训练,抗噪模型可以对输入的音频数据进行处理生成分布方差,可以根据获取到的分布方差进行验证确定是否满足训练目标,若满足训练目标,可以确定抗噪模型训练成功,若不满足训练目标可以调整抗噪模型中的网络模型参数,可以根据调整后的网络模型参数重新对干净音频数据集合混噪音频数据集中的音频数据进行处理,直到生成的分布方差满足训练目标。
本发明实施例中,训练目标可以具体是抗噪模型无法区分干净音频数据集和混噪音频数据集内的音频数据,当抗噪模型完成训练时,可以去除噪声对音频数据的影响。混噪音频数据集可以根据混噪音频数据集生成,混噪音频数据集中的语音信号可以与干净音频数据集中的语音信号相同,当混噪音频数据集经过抗噪模型处理后,无法确定该音频数据属于干净音频数据集,还是属于混噪音频数据集时,可以确定抗噪模型达到训练目标完成训练。
示例性的,图6是本发明实施例二提供的抗噪模型训练示例图,参见图6,可以先对采集到的语音数据进行频域转换,可以提取语音数据的声学特征,可以将音频特征输入到抗噪模型E,可以经过抗噪模型E生成抗噪声音嵌入z,可以通过抗噪声音嵌入输出到分类器C和判别器D,可以通过分类器C和判别器D分别对抗噪模型E的神经网络参数进行调整,实现抗噪模型E的训练。
步骤203、将时域信号的语音数据转换为频域信号的语音数据。
其中,时域信号可以是按照时间域排列的语音信号,可以是直接采集到的语音数据,频域信号可以是经过傅里叶变换后的时域信号可以反应出语音数据在频率上的变换情况。
具体的,为便于处理语音数据,可以对语音数据进行傅里叶变换,将时域信号的语音数据转换为频域信号的语音数据。
步骤204、对所述语音数据进行预处理获取音频特征。
具体的,可以对语音数据进行预处理生成特征集合,可以通过采用不同的预处理方式提取语音数据中的特征值,可以将在不同预处里方式下提取到的特征值作为特征集合中的组成元素,可以将特征集合作为该语音数据的音频特征,可以理解的是,音频特征可以具体是一个特征矩阵,特征矩阵中每个特征值可以通过不同的预处方式生成。
一种实施方式中,所述预处理包括:快速傅里叶变换处理、梅尔倒频谱处理、线性预测处理和滤波器组处理中至少一种。
在本发明实施例中,可以通过对快速傅里叶变换处理、梅尔倒频谱处理、线性预测处理和滤波器组处理对语音数据进行处理生成不同的特征值,可以将各特征值组合生成音频特征。
步骤205、将所述音频特征输入到所述预先训练的抗噪模型进行抗噪处理。
具体的,可以将存储音频特征的特征矩阵作为抗噪模型的输入,可以由抗噪模型对特征矩阵进行处理生成音频数据对应的抗噪语音数据。
步骤206、根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据。
在本发明实施例中,可以获取抗噪模型输出的抗噪语音数据,可以将抗噪语音数据输入到语音识别模型中进行语音识别。
步骤207、获取所述预设语音识别模型输出的语音识别结果。
具体的,可以对预设识别模型进行监测以获取到输出的语音识别结果。
本发明实施例的技术方案,通过高信噪比的干净音频数据集和低信噪比的混噪音频数据集对抗噪模型进行训练直到抗噪模型达到预设训练目标,将时域信号的语音数据转换为频域信号的语音数据,并对语音数据预处理生成音频特征,将音频特征输入到抗噪模型获取抗噪语音数据,通过预设语音识别模型对抗噪语音数据进行识别获取语音识别结果,降低噪声对语音信号的影响,提高语音识别的准确性,增强用户的体验程度。
进一步的,在上述发明实施例的基础上,根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型,包括:
根据分类器模型对所述干净音频数据集和所述混噪音频数据集内的音频数据进行分类处理;获取所述干净音频数据集内音频数据经过分类的干净分类结果和所述混噪音频数据集内音频数据经过分类的混噪分类结果;若所述干净分类结果与所述混噪分类结果相同,则所述抗噪模型训练完成,若所述干净分类结果与所述混噪分类结果不同,则根据所述干净分类结果和所述混噪分类结果更新所述抗噪模型的权重继续训练。
在本发明实施例中,分类器模型是经过训练的神经网络模型,在抗噪模型的训练过程中可以对抗噪模型输出的抗噪语音数据进行分类。在抗噪模型的训练过程中,抗噪模型可以对干净音频数据集内的音频数据和混噪音频数据集内的音频数据进行处理生成抗噪语音数据,可以将抗噪语音数据输入到分类器进行分类,例如,可以对干净音频数据集Xi以及混噪音频数据集Yi经过抗噪模型处理的抗噪语音数据经过分类器模型将分类结果映射到不同的分布方差的表征空间。可以理解的是,在对抗噪模型进行训练时,可以重复抗噪模型根据干净音频数据集和混噪音频数据集内的音频数据生成的抗噪音频数据进行分类。可以对干净音频数据集内的音频数据对应的抗噪音频数据经过分类器分类生成的分类结果为干净分类结果,混噪音频数据集内的音频数据经过分类器分类生成的分类结果为混噪分类结果,可以将干净分类结果和混噪分类结果进行对比,若分类结果相同,可以确定抗噪模型达到预设训练目标,例如,干净音频数据集Xi与混噪音频数据集Yi的分布方差的表征空间相同。若分类结果不同,可以根据干净分类结果和混噪分类结果对抗噪模型内的网络模型参数的网络权重进行增大或者减小的调整,使得干净分类结果和混噪分类结果不断接近,进一步的,分类器和抗噪模型可以进行对抗训练,可以先固定分类器的权重参数不动,对抗噪模型进行训练,然后再固定抗噪模型的权重参数不动,对分类器进行训练,重复这个训练的过程,直到抗噪模型输出的抗噪音频数据经过分类后分布到相同的表征空间。
进一步的,在上述发明实施例的基础上,根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型,包括:
在所述干净音频数据集和所述混噪音频数据集内提取样本数据;通过判别器模型区分所述样本数据的来源;若所述样本数据的来源判断失败,则确定所述抗噪模型训练完成,若所述样本数据的来源判断成功,则更新权重继续训练所述抗噪模型。
在本发明实施例中,判别器模型可以是神经网络模型,可以对抗噪模型输出的抗噪语音数据进行判断,确定该抗噪语音数据来自干净音频数据集,还是来自混噪音频数据集。在训练抗噪模型时,可以通过抗噪模型对干净音频数据集和混噪音频数据集内的音频数据进行抗噪处理作为样本数据,可以通过判别器判断样本数据的来源,若判别器模型无法区分样本数据的来源是干净音频数据集还是混噪音频数据集时,可以确定抗噪模型训练成功,否则,则更新抗噪模型的权重重新对抗噪模型进行训练,直到无法准确判断样本数据的来源,完成抗噪模型的训练。进一步的,在对抗噪模型训练时,可以采用对抗训练的方式,可以先固定判别器模型的权重参数,对抗噪模型输出的抗噪语音数据的来源进行判别,可以根据判别结果更新抗噪模型的权重参数,然后可以固定抗噪模型的权重参数,对判别器模型的权重参数进行调整,重复上述的过程,直到判别器无法准确判断抗噪模型输出的抗噪音频数据可以完成对抗噪模型的训练。
图7是本发明实施例二提供的一种语音识别方法的示例图,以抗噪模型为编码器E为例,参见图7,语音识别方法可以包括离线训练和线上使用两个阶段。在离线训练节点可以人为以不同信噪比、不同类型噪声而制作干净音频数据集x及混噪音频数据集y。输入编码器E的音频特征可以是频域特征或时域特征,当音频特征为频域特征时,可以通过fft、mfcc、fban和lpc等方式提取,当音频特征为时域特征时,可以通过pcm方式提取,可以通过编码器E生成抗噪语音数据。
在离线训练阶段,可以同时使用分类器C和判别器D对编码器E进行训练,分类器C可以分类高信噪比的干净音频数据集x或低信噪比的混噪音频数据集y经过编码器E的抗噪声音嵌入z分类至正确类别,并且判别器D可以无法区分经编码器E输出的抗噪声音嵌入z是来自干净音频数据集x或混噪音频数据集y。训练抗噪模型的方式可以包括以下两个方式:
a.编码器E和分类器C可以配对学习:本发明实施例可以通过编码器E配合使用的分类器C进行训练,训练目标可以是最小化损失函数以提取不受信噪比影响的声音分类特征。最终编码器E经由分类器C的反馈使得最终干净声音类别xi,以及噪声类别yi经过编码器E都能映射到分布方差小的表征空间,最终分类器C能将干净声音类别xi及带噪声音类别yi归在同一类,不受环境噪声影响。
b.编码器E和判别器D可以配对学习:透过反复学习和反馈直至判别器D无法判别经过变器E的干净数据样本E(x)和噪声数据样本E(y)的区别时,则编码器E训练成功。编码器E可以将不同信噪比的特征分布差异最小化映射至分布方差低的声音嵌入,使噪声判别器D无法正确区分高信噪比x或低信噪比y特征。
经过离线训练阶段后,编码器E可以将权值调整到最佳,此时可以进入线上使用阶段,此时可以将编码器E在线上使用以生成抗噪语音数据。可以通过编码器E对在线噪声数据进行处理获取到抗噪语音数据,可以根据语音识别模型对抗噪语音数据进行识别获取语音识别结果。
实施例三
图8是本发明实施例三提供的语音识别装置的结构示意图,可执行本发明任意实施例提供的语音识别方法,具备执行方法相应的功能模块和有益效果。该装置可以由软件和/或硬件实现,具体包括:抗噪处理模块301、语音识别模块302和结果获取模块303。
抗噪处理模块301,用于将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理。
语音识别模块302,用于根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据。
结果获取模块303,用于获取所述预设语音识别模型输出的语音识别结果。
本发明实施例的技术方案,通过抗噪处理模块预先训练的抗噪模型对语音数据进行抗噪处理,语音识别模块通过语音识别模型对经过抗噪模型处理后生成的抗噪语音数据进行识别,结果获取模块获取到语音数据对应的语音识别结果,通过抗噪模型降低噪声对语音数据的干扰,提高语音识别的准确性。
进一步的,在上述发明实施的基础上,还包括:
训练集模块,用于获取高信噪比的干净音频数据集和低信噪比的混噪音频数据集,其中,所述混噪音频数据集通过调整所述干净音频数据集的信噪比生成。
训练模块,用于根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型;其中,所述训练目标至少包括将所述干净音频数据集和所述混噪音频数据集内的音频数据识别为相同音频数据。
进一步的,在上述发明实施例的基础上,训练模块具体用于:
根据分类器模型对所述干净音频数据集和所述混噪音频数据集内的音频数据进行分类处理;
获取所述干净音频数据集内音频数据经过分类的干净分类结果和所述混噪音频数据集内音频数据经过分类的混噪分类结果;
若所述干净分类结果与所述混噪分类结果相同,则所述分类器模型训练完成,若所述干净分类结果与所述混噪分类结果不同,则根据所述干净分类结果和所述混噪分类结果更新所述抗噪模型的权重继续训练。
进一步的,在上述发明实施例的基础上,训练模块还具体用于:
在所述干净音频数据集和所述混噪音频数据集内提取样本数据;通过判别器模型区分所述样本数据的来源;
若所述样本数据的来源判断失败,则确定所述抗噪模型训练完成,若所述样本数据的来源判断成功,则更新所述抗噪模型的权重进行训练。
进一步的,在上述发明实施例的基础上,该装置还包括:
数据处理模块,用于将时域信号的语音数据转换为频域信号的语音数据。
进一步的,在上述发明实施例的基础上,抗噪处理模块包括:
特征提取单元,用于对所述语音数据进行预处理获取音频特征。
数据处理单元,用于将所述音频特征输入到所述预先训练的抗噪模型进行抗噪处理。
进一步的,在上述发明实施例的基础上,特征提取单元中的预处理包括:
快速傅里叶变换处理、梅尔倒频谱处理、线性预测处理和滤波器组处理中至少一种。
实施例四
图9是本发明实施例四提供的一种设备的结构示意图,如图9所示,该设备包括处理器40、存储器41、输入装置42和输出装置43;设备中处理器40的数量可以是一个或多个,图9中以一个处理器40为例;设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音识别方法对应的程序模块(例如,语音识别装置中的抗噪处理模块301、语音识别模块302和结果获取模块303)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的语音识别方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置42可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音识别方法,该方法包括:
将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;
根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;
获取所述预设语音识别模型输出的语音识别结果。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;
根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;
获取所述预设语音识别模型输出的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述抗噪模型的预先训练过程,包括:
获取高信噪比的干净音频数据集和低信噪比的混噪音频数据集,其中,所述混噪音频数据集通过调整所述干净音频数据集的信噪比生成;
根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型;
其中,所述训练目标至少包括将所述干净音频数据集和所述混噪音频数据集内的音频数据识别为相同音频数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型,包括:
根据分类器模型对所述干净音频数据集和所述混噪音频数据集内的音频数据进行分类处理;
获取所述干净音频数据集内音频数据经过分类的干净分类结果和所述混噪音频数据集内音频数据经过分类的混噪分类结果;
若所述干净分类结果与所述混噪分类结果相同,则所述抗噪模型训练完成,若所述干净分类结果与所述混噪分类结果不同,则根据所述干净分类结果和所述混噪分类结果更新所述抗噪模型的权重继续训练。
4.根据权利要求2所述的方法,其特征在于,所述根据所述干净音频数据集、所述混噪音频数据集和预设训练目标训练所述抗噪模型,包括:
在所述干净音频数据集和所述混噪音频数据集内提取样本数据;
通过判别器模型区分所述样本数据的来源;
若所述样本数据的来源判断失败,则确定所述抗噪模型训练完成,若所述样本数据的来源判断成功,则更新所述抗噪模型的权重继续训练。
5.根据权利要求1所述的方法,其特征在于,在所述将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理之前,还包括:
将时域信号的语音数据转换为频域信号的语音数据。
6.根据权利要求1所述的方法,其特征在于,所述将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理,包括:
对所述语音数据进行预处理获取音频特征;
将所述音频特征输入到所述预先训练的抗噪模型进行抗噪处理。
7.根据权利要求6所述的方法,其特征在于,所述预处理包括:快速傅里叶变换处理、梅尔倒频谱处理、线性预测处理和滤波器组处理中至少一种。
8.一种语音识别装置,其特征在于,包括:
抗噪处理模块,用于将采集到的语音数据输入到预先训练的抗噪模型进行抗噪处理;
语音识别模块,用于根据预设语音识别模型识别所述抗噪模型输出的抗噪语音数据;
结果获取模块,用于获取所述预设语音识别模型输出的语音识别结果。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的语音识别方法。
10.一种计算可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的语音识别方法。
CN201911410013.5A 2019-12-31 2019-12-31 一种语音识别方法、装置、设备和存储介质 Active CN111081223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410013.5A CN111081223B (zh) 2019-12-31 2019-12-31 一种语音识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410013.5A CN111081223B (zh) 2019-12-31 2019-12-31 一种语音识别方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111081223A true CN111081223A (zh) 2020-04-28
CN111081223B CN111081223B (zh) 2023-10-13

Family

ID=70320879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410013.5A Active CN111081223B (zh) 2019-12-31 2019-12-31 一种语音识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111081223B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899729A (zh) * 2020-08-17 2020-11-06 广州市百果园信息技术有限公司 一种语音模型的训练方法、装置、服务器和存储介质
CN112002306A (zh) * 2020-08-26 2020-11-27 阳光保险集团股份有限公司 语音类别的识别方法、装置、电子设备及可读存储介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113345399A (zh) * 2021-04-30 2021-09-03 桂林理工大学 一种强噪声环境下的机器设备声音监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110491404A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音处理方法、装置、终端设备及存储介质
CN110503968A (zh) * 2018-05-18 2019-11-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110544469A (zh) * 2019-09-04 2019-12-06 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110503968A (zh) * 2018-05-18 2019-11-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110491404A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音处理方法、装置、终端设备及存储介质
CN110544469A (zh) * 2019-09-04 2019-12-06 秒针信息技术有限公司 语音识别模型的训练方法及装置、存储介质、电子装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899729A (zh) * 2020-08-17 2020-11-06 广州市百果园信息技术有限公司 一种语音模型的训练方法、装置、服务器和存储介质
CN111899729B (zh) * 2020-08-17 2023-11-21 广州市百果园信息技术有限公司 一种语音模型的训练方法、装置、服务器和存储介质
CN112002306A (zh) * 2020-08-26 2020-11-27 阳光保险集团股份有限公司 语音类别的识别方法、装置、电子设备及可读存储介质
CN112002306B (zh) * 2020-08-26 2024-04-05 阳光保险集团股份有限公司 语音类别的识别方法、装置、电子设备及可读存储介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113345399A (zh) * 2021-04-30 2021-09-03 桂林理工大学 一种强噪声环境下的机器设备声音监测方法

Also Published As

Publication number Publication date
CN111081223B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN111081223B (zh) 一种语音识别方法、装置、设备和存储介质
EP1210711B1 (en) Sound source classification
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与系统
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN111429935B (zh) 一种语音话者分离方法和装置
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN110265035B (zh) 一种基于深度学习的说话人识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN112786057B (zh) 一种声纹识别方法、装置、电子设备及存储介质
CN108899033B (zh) 一种确定说话人特征的方法及装置
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN111933148A (zh) 基于卷神经网络的年龄识别方法、装置及终端
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN112885330A (zh) 一种基于低资源音频的语种识别方法及系统
CN112420056A (zh) 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN112002307B (zh) 一种语音识别方法和装置
CN113035230A (zh) 认证模型的训练方法、装置及电子设备
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Tahliramani et al. Performance analysis of speaker identification system with and without spoofing attack of voice conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant