CN115602158A - 一种基于电话信道的语音识别声学模型构建方法及系统 - Google Patents
一种基于电话信道的语音识别声学模型构建方法及系统 Download PDFInfo
- Publication number
- CN115602158A CN115602158A CN202211243374.7A CN202211243374A CN115602158A CN 115602158 A CN115602158 A CN 115602158A CN 202211243374 A CN202211243374 A CN 202211243374A CN 115602158 A CN115602158 A CN 115602158A
- Authority
- CN
- China
- Prior art keywords
- voice data
- voice
- data set
- data
- telephone channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 17
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000005070 sampling Methods 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012952 Resampling Methods 0.000 claims abstract description 38
- 238000002156 mixing Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 206010026749 Mania Diseases 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种基于电话信道的语音识别声学模型构建方法及系统,方法包括:对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集;分别对重采样录音数据和电话信道语音数据进行数据增强处理,生成对应的扩展语音数据集;将重采样录制语音数据集、电话信道语音数据集、以及对应的扩展语音数据集混合,生成混合训练数据集;基于混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。本发明能够充分利用数据采集成本较低的录制语音数据,避免人工标注大量电话信道语音数据需要花费巨额的时间成本和经济成本的问题,既有效地提高电话信道语音识别精度,同时具有较好的鲁棒性。
Description
技术领域
本发明涉及人工智能语音识别领域,更具体地,涉及一种基于电话信道的语音识别声学模型构建方法及系统。
背景技术
随着社会信息化的发展,人们对信息获取的移动性的需求不断增加,信息交流与查询变得越来越重要。语音识别,是人工智能技术的重要组成部分。语音识别的作用是将人类的语音转换为对应文本内容的一种技术,这项技术让机器获得了类似人类听觉的能力。进入21世纪,得益于深度学习技术的出现,语音识别技术开始进入大规模实用化。语音识别技术的快速发展使得语音识别的准确率有了巨大的进步,在多个行业完成了落地,越来越多的语音技术产品进入了人们的生活。
电话是人们生活中应用最广泛、最快捷的通信工具,由于电话网络的普及性,电话语音识别有着广阔的前景。电话语音识别系统面临的问题一方面在于话机拾音设备及电话线路网络的复杂性所造成的训练集与测试集语音数据的失配,由于电话线路有其独特的信噪比和频率响应,因此电话语音会受到瞬时干扰和非线性畸变的影响,另外,电话机本身质量及线路和网络状况的不同,一般通过电话网传输的语音都有不同程度的变化;另一方面是语音特征的不稳定性和说话人的多样性,因为电话作为广泛普通的通信终端,用户群体广泛,话者口音、发音方式千变万化。这些问题都给电话语音识别带来了挑战。
由于自动语音识别系统是由数据驱动的,因此,训练数据的规模和领域覆盖程度对其识别性能影响很大。电话信道语音,由于训练数据少、附加噪声、发声习惯差异大等,都严重影响了电话信道语音识别准确率,但是手工标注大量的电话语音是昂贵且费时的。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于电话信道的语音识别声学模型构建方法及系统。
根据本发明的第一方面,提供了一种基于电话信道的语音识别声学模型构建方法,包括:
对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据;
在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集;
基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,包括:
录制语音采样率为Fs,电话信道采用率为Fc,Fs>Fc,重采样因子P/Q为电话信道采样率Fc和录制语音采样率Fs之间的比例,即P/Q=Fc/Fs,且P/Q为大于0小于1的分数;
当P=1且Q为整数时,重采样过程为:
对录制语音数据进行下采样,对录制语音数据每隔(Q-1)个点抽取一个数据点;
当P>1且Q为整数时,通过重采样因子P/Q对录制语音数据进行重采样,对于采样率为Fs、长度为M个采样点的录制语音数据x[n],重采样过程为:
(a)上采样:在原录制语音数据相邻两点内插入P-1个零点,即创建有P(M-1)+1个采样点的信号xu[n],当n=1,2,…,M时,xu[P(n-1)+1]=x[n];否则,xu[n]=0;
(b)插值滤波:xu[n]和一个低通插值滤波器h[n]作卷积:xi[n]=xu[n]h[n]。
(c)下采样:对插值滤波后的录制语音数据,每隔(Q-1)个点抽取一个数据点,即创建有(P(M-1)+1)/Q+1个点的信号xd[n],下采样信号y[n]=xd[n],对下采样后的语音数据进行滤波处理,最终重采样为采用率为Fc的录制语音数据。
可选的,所述通过语音采集终端采用录音方式录制的语音数据的录音文本,其文本内容专业领域覆盖所需识别电话语音信号的专业领域,且专业词汇读音与电话信道中电话语音数据专业词汇读音具有一致性;
对于电话信道语音数据和重采样语音数据的文本标注为采用相同的分词方式和分词词典进行标注。
可选的,所述在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集,包括:
分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
其中,所述第一扩展语音数据集的总时长与所述重采样录音数据的总时长的比例近似为1,所述第二扩展语音数据集的总时长和所述电话信道语音数据的总时长的比例近似为1。
可选的,所述分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集,包括:
将所述重采样录音数据和电话信道语音数据分别随机平均划分为七份,选取其中五份将每一份语音数据分别采用五种语音数据增强方式中的一种进行语音数据增强处理,选取剩余的两份中的一份语音数据先进行速度扰动语音数据增强处理后进行音量扰动数据增强处理,将剩余的最后一份先进行语音加噪数据增强处理后进行语音加混响数据增强处理,最后将进行语音数据增强数据处理的七份语音数据重新合并,分别生成第一扩展语音数据集和第二扩展语音数据集。
可选的,所述语音加躁数据增强处理包括:
选取不同的噪声数据;
利用信噪比分布函数,向需要进行加噪的语音数据叠加所述噪声数据。
可选的,将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集,包括:
将所述重采样录制语音数据集及其对应的第一扩展语音数据集进行充分混合,生成录音数据集,将所述录音数据集进行切分,得到N份重采样录音训练数据集,所述N为正整数;
将所述电话信道语音数据集及其对应的第二扩展语音数据集进行充分混合,生成电话信道语音训练数据集,将所述电话信道语音训练数据集分别与每一份所述重采样录音训练数据集进行混合,得到N份混合语音训练数据集。
可选的,所述基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型,包括:
对每一份混合语音训练数据集进行数据预处理和特征提取,获取每一份混合语音训练数据集中每一个语音训练数据的语音特征向量;
将语音特征向量作为深度神经网络的输入,语音训练数据对应的语音文本标注作为深度神经网络的输出,使用梯度下降方法优化所述深度神经网络的目标函数,直到所述深度神经网络符合预先设定的收敛条件,生成电话信道语音识别声学模型。
根据本发明的第二方面,提供一种基于电话信道的语音识别声学模型构建系统,包括:
重采样模块,用于对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据;
增强处理模块,用于在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
混合模块,用于将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集;
训练模块,用于基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于电话信道的语音识别声学模型构建方法的步骤。
根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于电话信道的语音识别声学模型构建方法的步骤。
本发明提供的一种基于电话信道的语音识别声学模型构建方法及系统,采用标注少量电话信道语音混合经过重采样的大量录制语音数据的方法来生成电话信道语音识别训练数据,在节省昂贵的电话语音数据标注的经济成本和时间成本的同时,还可以充分利用已有录音数据。同时在进行模型训练前对训练语音数据进行数据增强,在保准电话信道语音识别模型准确率的同时,提高了模型鲁棒性。
附图说明
图1为本发明提供的一种基于电话信道的语音识别声学模型构建方法流程图;
图2为语音数据重采样方法流程示意图;
图3为混合语音训练数据集的生成方法流程示意图;
图4为对深度神经网络训练流程示意图;
图5为本发明提供的一种基于电话信道的语音识别声学模型构建系统的结构示意图;
图6为本发明提供的一种可能的电子设备的硬件结构示意图;
图7为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外,本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技术方案,这种结合不受步骤先后次序和/或结构组成模式的约束,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提供了一种基于电话信道的语音识别声学模型构建方法,用以提高电话信道语音识别准确率,减少获取电话信道声学模型训练数据经济成本和时间成本,提高模型的鲁棒性。
图1为本发明提供的一种基于电话信道的语音识别声学模型的构建方法流程图,如图1所示,该构建方法主要包括:
S1,对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据。
可理解的是,少量的电话信道语音数据构成的训练数据集的数据量太少,因此,本发明基于语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据,称为录制语音数据。其中,通过语音采集终端采用录音方式录制的语音数据的录音文本,其文本内容专业领域覆盖所需识别电话语音信号的专业领域,且专业词汇读音与电话信道中电话语音数据专业词汇读音具有一致性;对于电话信道语音数据和重采样语音数据的文本标注为采用相同的分词方式和分词词典进行标注。
由于录制语音数据的采样率高于电话信道的采样率,因此,需要对录制语音数据进行重采样,使得重采样后的重采样录制语音数据的采样率与电话信道语音数据的采样率相同。
可理解的是,图2为对录制语音数据进行重采样的流程示意图,重采样的过程包括:
201、计算重采样因子:获取录音数据采样率Fs,根据电话信道语音频率Fc,计算采样因子P/Q=Fc/Fs;
202、上采样:对原信号相邻两点插入(P-1)个零点;
203、插值滤波:插值后的原信号使用低通插值滤波器进行滤波;
204、下采样:对插值滤波后的信号每隔(Q-1)个点抽取一个点进行下采样;
205、低通滤波:下采样后信号使用低通滤波器进行滤波,最终录音信号重采样为采样率Fc的语音。
重采样具体过程如下:
录制语音采样率为Fs,电话信道采用率Fc为8000Hz,重采样因子P/Q为电话信道采样率Fc和录制语音采样率Fs之间的比例,即P/Q=Fc/Fs,且P/Q为大于0小于1的分数。
当P=1且Q为整数时,重采样过程只需要对录制语音进行下采样,对录音语音信号每隔Q-1个点抽取一个点。
当P>1,Q为整数时,重采样过程如下:
通过重采样因子P/Q进行重采样,由于P/Q小于1,这个信号的样本数会减少。对于采样率为Fs,长度为M个采样点的音频信号x[n],该过程可以分为如下三个步骤:
(a)上采样:在原信号相邻两点内插入P-1个零点,即创建一个有P(M-1)+1个采样点的信号xu[n],当n=1,2,…,M时,xu[P(n-1)+1]=x[n];否则,xu[n]=0。
(b)插值滤波:xu[n]和一个低通插值滤波器h[n]作卷积:xi[n]=xu[n]h[n]。
(c)下采样:每隔Q-1个点抽取一个点,即创建有(P(M-1)+1)/Q+1个点的信号xd[n],下采样信号y[n]=xd[n],对下采样后的语音数据进行滤波处理,最终重采样为采用率为Fc的语音。
例如,假设录制语音采样率Fs=16000Hz,则P/Q=8000/15000=1/2,此时为整数,此时只需要对录音数据进行下采样,对录音数据语音信号每隔1个点取1个点,然后再通过低通滤波器进行滤波,即可将采用率Fs=16000Hz的录制语音重采样为采用率Fc=8000Hz的电话信道语音数据。
S2,在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集。
作为实施例,所述在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集,包括:分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;其中,所述第一扩展语音数据集的总时长与所述重采样录音数据的总时长的比例近似为1,所述第二扩展语音数据集的总时长和所述电话信道语音数据的总时长的比例近似为1。
可理解的是,对于重采样录音语音数据和电话信道语音数据,分别进行语音数据增强处理,其中,语音数据增强处理包括语音速度扰动、音量扰动、频率扰动、加噪和混响五种语音数据增强方式,使用数据增强的方法获得扩展语音数据的详细过程如下:
首先将需要进行语音数据增强的电话信道语音和重采样录音数据,分别随机平均划分为七份;其次,选取其中五份将每一份语音分别采用上述五种数据增强方式中的一种进行数据增强处理;然后,选取剩余的两份中的一份数据先进行速度扰动语音数据增强处理,得到对应的结果后同时进行音量扰动数据增强,将剩余的最后一份先进行加噪处理,然后得到的处理结果再进行语音混响处理;最后,将进行语音增强数据处理的七份语音数据重新合并,生成扩展语音训练集。
其中的语音加躁数据增强处理包括:选取不同的噪声数据;利用信噪比分布函数,向需要进行加噪的语音数据叠加所述噪声数据。
需要说明的是,采用不同的数据增强处理方式处理后的扩展数据集的音频总时长大致相等,也就是说上述的七份语音数据的时长大致相等。
采用上述数据增强处理方式分别对重采样录音语音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集。
S3,将重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集。
可理解的是,图3为混合语音训练数据生成方法的流程示意图,主要包括:
301、重采样录音语音数据及其对应的第一扩展语音数据进行充分混合,生成录音数据集;
302、将录音数据集进行切分,得到N分重采样录音训练数据集,所述N为正整数;
303、将电话信道语音及其对应的扩展语音数据进行充分混合,生成电话信道语音数据集,将电话信道语音数据集分别与每一份重采样录音训练数据集进行混合,得到N份混合语音训练数据集。
S4,基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
可理解的是,上述步骤得到N份混合语音训练数据集后,将每一份混合语音训练数据集分别用于训练深度神经网络过程中的一次迭代。
其中,图4为利用混合训练数据集训练深度神经网络,生成电话信道语音识别声学模型的流程示意图,训练过程包括:
401、获取混合训练数据集的语音特征向量;
402、将语音特征向量作为深度神经网络的输入,语音训练数据对应的语音文本标注作为深度神经网络的输出;
403、使用梯度下降方法优化目标函数,直到该语音识别声学模型符合预先设定的收敛条件,生成电话信道语音识别声学模型。
将语音特征向量从深度神经网络的输入层输入,得到深度神经网络的输出概率,其中,输出概率与期望输出概率之间的误差即为优化目标函数,使用梯度下降算法优化目标函数,更新深度神经网络的参数。
其中,深度神经网络包括一个输入层、多个隐层以及一个输出层。输入层用于根据输入所述深度神经网络的语音特征向量计算输入至最底层的隐层单元的输出值。隐层用于根据本层的加权值对来自下一层隐层的输入值进行加权求和,计算向上一层隐层输出的输出值。输出层用于根据本层的加权值对来自最上层的隐层单元的输出值进行加权求和,并根据加权求和的结果计算输出概率。输出概率是输出单元输出的,表示输入的语音特征向量是所述输出单元对应的语音标识的概率。
输入层包括多个输入单元,输入单元用于根据输入的语音特征向量计算输出至最底层的隐层的输出值。将语音特征向量输入至输入单元后,输入单元根据自身的加权值利用输入至输入单元的语音特征向量计算向最底层的隐层输出的输出值。
多个隐层,其中,每个隐层包括多个隐层单元。隐层单元接收来自于下一层隐层中的隐层单元的输入值,根据本层的加权值对来自于下一层隐层中的隐层单元的输入值进行加权求和,并将加权求和的结果作为输出至上一层隐层的隐层单元的输出值。
输出层包括多个输出单元,每个输出层的输出单元的数量与语音所包括的语音标识的个数相同。输出单元接收来自于最上层隐层中的隐层单元的输入值,根据本层的加权值对来自于最上层隐层中的隐层单元的输入值进行加权求和,再根据加权求和的结果利用softmax函数计算输出概率。输出概率表示输入声学模型的语音特征向量属于输出单元所对应的语音标识的概率。
在根据不同的输出单元的输出概率判断语音特征向量是哪个语音标识后,经过其他附加模块的处理,可以输出语音特征向量对应的文本数据。
在确定了电话信道语音识别声学模型的结构,即深度神经网络的结构以后,需要确定深度神经网络的参数,即各层的权值向量。权值向量包括输入层的权值向量、多层隐层的各层权值向量、以及输出层的权值向量。也就是说,需要对深度神经网络进行训练。计算输出概率与期望输出概率之间的误差作为优化目标函数,并根据目标函数使用梯度下降算法调整并更新深度神经网络的参数。
参数更新过程是通过不断迭代实现的,在迭代的过程中,不断修正参数更新策略的参数设置并对迭代的收敛性进行判断,直至迭代收敛则停止迭代过程。其中,N份混合语音训练数据中的每一份混合语音训练数据分别用于训练深度神经网络过程中的一次迭代。
其中,梯度下降算法采用随机梯度算法,作为利用目标函数调整并更新深度神经网络的权值向量的算法。
在生成电话信道语音识别声学模型之后,还可以包括以下步骤:根据电话信道语音识别声学模型对电话信道语音进行识别。
参见图5,为本发明提供的一种基于电话信道的语音识别声学模型构建系统,主要包括重采样模块501、增强处理模块502、混合模块503和训练模块504,其中:
重采样模块501,用于对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据;
增强处理模块502,用于在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
混合模块503,用于将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集;
训练模块504,用于基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
可以理解的是,本发明提供的一种基于电话信道的语音识别声学模型构建系统与前述各实施例提供的基于电话信道的语音识别声学模型构建方法相对应,基于电话信道的语音识别声学模型构建系统的相关技术特征可参考基于电话信道的语音识别声学模型构建方法的相关技术特征,在此不再赘述。
请参阅图6,图6为本发明实施例提供的电子设备的实施例示意图。如图6所示,本发明实施例提了一种电子设备600,包括存储器610、处理器620及存储在存储器610上并可在处理器620上运行的计算机程序611,处理器620执行计算机程序611时实现基于电话信道的语音识别声学模型构建方法的步骤。
请参阅图7,图7为本发明提供的一种计算机可读存储介质的实施例示意图。如图7所示,本实施例提供了一种计算机可读存储介质700,其上存储有计算机程序711,该计算机程序711被处理器执行时实现基于电话信道的语音识别声学模型构建方法的步骤。
本发明提供的基于电话信道的语音识别声学模型构建方法利用已有的录音终端录制的语音数据进行重采样后生成的数据作为电话信道语音识别声学模型训练数据的主要来源,通过对重采样后的录音数据及其通过数据增强方式得到的扩展语音数据进行正则化处理,可以有效防止录音数据在整个训练集占比过高导致的声学模型过拟合;既节省了对电话信道语音进行大量标注的标注成本,又显著地改善了电话信道语音识别的效果。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (10)
1.一种基于电话信道的语音识别声学模型构建方法,其特征在于,包括:
对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据;
在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集;
基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
2.根据权利要求1所述的构建方法,其特征在于,所述对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,包括:
录制语音采样率为Fs,电话信道采用率为Fc,Fs>Fc,重采样因子P/Q为电话信道采样率Fc和录制语音采样率Fs之间的比例,即P/Q=Fc/Fs,且P/Q为大于0小于1的分数;
当P=1且Q为整数时,重采样过程为:
对录制语音数据进行下采样,对录制语音数据每隔(Q-1)个点抽取一个数据点;
当P>1且Q为整数时,通过重采样因子P/Q对录制语音数据进行重采样,对于采样率为Fs、长度为M个采样点的录制语音数据x[n],重采样过程为:
(a)上采样:在原录制语音数据相邻两点内插入(P-1)个零点,即创建有P(M-1)+1个采样点的信号xu[n],当n=1,2,…,M时,xu[P(n-1)+1]=x[n];否则,xu[n]=0;
(b)插值滤波:xu[n]和一个低通插值滤波器h[n]作卷积:xi[n]=xu[n]h[n]。
(c)下采样:对插值滤波后的录制语音数据,每隔(Q-1)个点抽取一个数据点,即创建有(P(M-1)+1)/Q+1个点的信号xd[n],下采样信号y[n]=xd[n],对下采样后的语音数据进行滤波处理,最终重采样为采用率为Fc的录制语音数据。
3.根据权利要求1所述的构建方法,其特征在于,所述通过语音采集终端采用录音方式录制的语音数据的录音文本,其文本内容专业领域覆盖所需识别电话语音信号的专业领域,且专业词汇读音与电话信道中电话语音数据专业词汇读音具有一致性;
对于电话信道语音数据和重采样语音数据的文本标注为采用相同的分词方式和分词词典进行标注。
4.根据权利要求1所述的构建方法,其特征在于,所述在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集,包括:
分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
其中,所述第一扩展语音数据集的总时长与所述重采样录音数据的总时长的比例近似为1,所述第二扩展语音数据集的总时长和所述电话信道语音数据的总时长的比例近似为1。
5.根据权利要求4所述的构建方法,其特征在于,所述分别通过语音速度扰动、音量扰动、频率扰动、语音加噪和语音加混响五种语音数据增强方式对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集,包括:
将所述重采样录音数据和电话信道语音数据分别随机平均划分为七份,选取其中五份将每一份语音数据分别采用五种语音数据增强方式中的一种进行语音数据增强处理,选取剩余的两份中的一份语音数据先进行速度扰动语音数据增强处理后进行音量扰动数据增强处理,将剩余的最后一份先进行语音加噪数据增强处理后进行语音加混响数据增强处理,最后将进行语音数据增强数据处理的七份语音数据重新合并,分别生成第一扩展语音数据集和第二扩展语音数据集。
6.根据权利要求5所述的构建方法,其特征在于,所述语音加躁数据增强处理包括:
选取不同的噪声数据;
利用信噪比分布函数,向需要进行加噪的语音数据叠加所述噪声数据。
7.根据权利要求1所述的构建方法,其特征在于,将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集,包括:
将所述重采样录制语音数据集及其对应的第一扩展语音数据集进行充分混合,生成录音数据集,将所述录音数据集进行切分,得到N份重采样录音训练数据集,所述N为正整数;
将所述电话信道语音数据集及其对应的第二扩展语音数据集进行充分混合,生成电话信道语音训练数据集,将所述电话信道语音训练数据集分别与每一份所述重采样录音训练数据集进行混合,得到N份混合语音训练数据集。
8.根据权利要求7所述的构建方法,其特征在于,所述基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型,包括:
对每一份混合语音训练数据集进行数据预处理和特征提取,获取每一份混合语音训练数据集中每一个语音训练数据的语音特征向量;
将语音特征向量作为深度神经网络的输入,语音训练数据对应的语音文本标注作为深度神经网络的输出,使用梯度下降方法优化所述深度神经网络的目标函数,直到所述深度神经网络符合预先设定的收敛条件,生成电话信道语音识别声学模型。
9.一种基于电话信道的语音识别声学模型构建系统,其特征在于,包括:
重采样模块,用于对录音语音数据进行重采样,获取采样率与电话信道采样率相同的重采样录制语音数据集,所述录音语音数据为通过语音采集终端采用录音的方式录制的采样率高于电话信道采样率的语音数据;
增强处理模块,用于在语音文本标注不改变的基础上,分别对所述重采样录音数据和电话信道语音数据进行数据增强处理,生成第一扩展语音数据集和第二扩展语音数据集;
混合模块,用于将所述重采样录制语音数据集、电话信道语音数据集、第一扩展语音数据集和第二扩展语音数据集混合,生成混合训练数据集;
训练模块,用于基于所述混合训练数据集,训练深度神经网络模型,构建电话信号语音识别声学模型。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-8任一项所述的基于电话信道的语音识别声学模型构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243374.7A CN115602158A (zh) | 2022-10-11 | 2022-10-11 | 一种基于电话信道的语音识别声学模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211243374.7A CN115602158A (zh) | 2022-10-11 | 2022-10-11 | 一种基于电话信道的语音识别声学模型构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115602158A true CN115602158A (zh) | 2023-01-13 |
Family
ID=84847194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211243374.7A Pending CN115602158A (zh) | 2022-10-11 | 2022-10-11 | 一种基于电话信道的语音识别声学模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115602158A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765951A (zh) * | 2023-09-21 | 2024-03-26 | 南京龙垣信息科技有限公司 | 用于电话语音识别的信息处理方法及装置 |
-
2022
- 2022-10-11 CN CN202211243374.7A patent/CN115602158A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765951A (zh) * | 2023-09-21 | 2024-03-26 | 南京龙垣信息科技有限公司 | 用于电话语音识别的信息处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN111429932A (zh) | 语音降噪方法、装置、设备及介质 | |
CN110176237A (zh) | 一种语音识别方法及装置 | |
CN111508524B (zh) | 语音来源设备的识别方法和系统 | |
CN113488060B (zh) | 一种基于变分信息瓶颈的声纹识别方法及系统 | |
CN115602158A (zh) | 一种基于电话信道的语音识别声学模型构建方法及系统 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN117174105A (zh) | 一种基于改进型深度卷积网络的语音降噪与去混响方法 | |
CN112614504A (zh) | 单声道语音降噪方法、系统、设备及可读存储介质 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
CN112735466B (zh) | 一种音频检测方法及装置 | |
CN113921041A (zh) | 基于分组卷积注意力网络的录音设备识别方法及系统 | |
CN113763966A (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
CN106887226A (zh) | 一种基于人工智能识别的语音识别算法 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN115171710A (zh) | 基于多角度判别的生成对抗网络的语音增强方法及系统 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN113707172A (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
CN113393858B (zh) | 语音分离方法和系统、电子设备及可读存储介质 | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
CN117894306B (zh) | 一种语音处理方法、装置、计算机设备及存储介质 | |
CN117524252B (zh) | 一种基于醉汉模型的轻量化声学场景感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |