CN112331182A - 语音数据生成方法、装置、计算机设备及存储介质 - Google Patents

语音数据生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112331182A
CN112331182A CN202011153538.8A CN202011153538A CN112331182A CN 112331182 A CN112331182 A CN 112331182A CN 202011153538 A CN202011153538 A CN 202011153538A CN 112331182 A CN112331182 A CN 112331182A
Authority
CN
China
Prior art keywords
sample
voice data
voice
data
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011153538.8A
Other languages
English (en)
Inventor
罗剑
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011153538.8A priority Critical patent/CN112331182A/zh
Priority to PCT/CN2020/136366 priority patent/WO2021189980A1/zh
Publication of CN112331182A publication Critical patent/CN112331182A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明公开了一种语音数据生成方法、装置、计算机设备及存储介质,涉及人工智能技术领域,主要在于能够基于少数样本用户的样本语音数据,生成少数样本用户更多的语音数据,从而使得样本库中的不同用户的语音数据达到平衡。其中方法包括:获取目标用户的样本语音数据;对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。本发明采用了机器学习技术,主要适用于语音数据的生成。

Description

语音数据生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种语音数据生成方法、装置、计算机设备及存储介质。
背景技术
在语音识别技术中,对于分类器来说,如果样本库中不同用户的语音数据量差距过大,分类器很难有良好的表现,会影响分类器识别的准确率,因此,为了确保语音识别的准确率,需要保证样本语音数据的平衡。
目前,对于不平衡的样本语音数据,通常采用欠采样的方式对多数样本语音数据进行数据消除,或者人为采集少数样本用户的语音数据进行数据补充。然而,如果消除多数样本语音数据中的部分数据,很可能会丢失有价值的用户信息,进而影响用户的语音识别精度,此外,对于补充语音数据的方式,由于受到用户隐私和安全因素的限制,很难获得少数样本用户的大量语音数据,且这种这种人为采集语音数据的方式,操作较为不便。
发明内容
本发明提供了一种语音数据生成方法、装置、计算机设备及存储介质,主要在于能够基于少数样本用户的样本语音数据,生成少数样本用户更多的语音数据,从而使得样本库中的不同用户的语音数据达到平衡,同时能够避免丢失有价值的用户信息,操作更加方便。
根据本发明的第一个方面,提供一种语音数据生成方法,包括:
获取目标用户的样本语音数据;
对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;
基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
根据本发明的第二个方面,提供一种语音数据生成装置,包括:
获取单元,用于获取目标用户的样本语音数据;
提取单元,用于对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
第一确定单元,用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的,
第二确定单元,用于基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取目标用户的样本语音数据;
对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;
基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取目标用户的样本语音数据;
对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;
基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
本发明提供的一种语音数据生成方法、装置、计算机设备及存储介质,与目前采用欠采样的方式对多数样本语音数据进行数据消除的方式相比,本发明能够获取目标用户的样本语音数据;并对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;与此同时,根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;并基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据,由此通过提取样本数据量匮乏的目标用户的语音特征,能够计算样本语音数据对应的注意力分值,并依据该注意力分值生成目标用户的验证语音数据,从而能够根据目标用户的少数样本语音数据,生成更多的语音数据,使不同用户的样本语音数据达到平衡,避免采用欠采用的方式丢失掉有价值的用户信息,同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语音数据生成方法流程图;
图2示出了本发明实施例提供的另一种语音数据生成方法流程图;
图3示出了本发明实施例提供的一种语音数据生成装置的结构示意图;
图4示出了本发明实施例提供的另一种语音数据生成装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,对于不平衡的样本语音数据,通常采用欠采样的方式对多数样本语音数据进行数据消除,或者人为采集少数样本用户的语音数据进行数据补充。然而,如果消除多数样本语音数据中的部分数据,很可能会丢失有价值的用户信息,进而影响用户的语音识别精度,此外,对于补充语音数据的方式,由于受到用户隐私和安全因素的限制,很难获得少数样本用户的大量语音数据,且这种这种人为采集语音数据的方式,操作较为不便。
为了解决上述问题,本发明实施例提供了一种语音数据生成方法,如图1所示,所述方法包括:
101、获取目标用户的样本语音数据。
其中,目标用户为样本语音数据匮乏的用户,该目标用户的样本语音数据的数据量小于预设数据量,目标用户的样本语音数据为预设样本库中已经存在的语音数据,具体可以通过搜集不同用户的语音数据,构建预设样本库,在语音搜集的过程中,可能由于隐私和安全因素的限制,有些用户的样本语音数据量相比其他用户较少,为了确保训练的语音识别模型的语音识别精度,需要保证预设样本库不同用户的语音数据达到平衡,因此需要利用目标用户已有的样本语音数据,生成更多的样本语音数据,以达到预设样本库中不同用户的样本语音数据的平衡,确保后续的预设语音识别模型的语音识别精度,本发明实施例主要适用于语音数据的生成,本发明实施例的执行主体为能够生成目语音数据的装置或设备,具体可以设置在客户端或者服务器一侧。
对于本发明实施例,为了筛选预设样本库中的目标用户,首选确定预设样本库各个用户对应的语音数据,基于各个用户对应的语音数据,统计各个用户对应的语音数据量,之后根据各个用户对应的语音数据量,统计预设样本库的语音数据量均值,将该语音数据量均值确定为预设数据量,接着分别将各个用户对应的语音数据量与预设数据量进行比对,并将语音数据量小于预设数据量的用户确定为目标用户,若用户的语音数据量小于预设数据量说明,该用户的语音数据量与预设样本库中其他用户的语音数据量相比较少,因此将语音数据量小于预设数据量的用户确定为目标用户,同时将预设样本库中目标用户的语音数据确定为目标用户的样本语音数据,以便根据该样本语音数据,生成目标用户除样本语音数据之后的新增样本数据,以到达样本语音数据的平衡。
102、对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征。
其中,可以将样本语音数据对应的梅尔倒谱系数作为样本语音数据对应的语音特征,具体地,在对样本语音数据进行特征提取之前需要对样本语音数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得目标用户的样本语音数据变得平坦,即将样本语音数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对目标用户的样本语音数据进行预处理之后,需要对预处理后的样本语音数据进行快速傅里叶转化,得到转换后的语音数据,之后将转换后的语音数据输入Mel滤波器,计算转换后的语音数据通过Mel滤波器后的语音能量,接着根据样本语音数据对应的语音能量,计算样本语音数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为目标用户的样本语音数据对应的语音特征,以便依据样本语音数据对应的语音特征,生成目标用户更多的语音数据,以便到预设样本库中样本语音数据的平衡。
103、根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值。
其中,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的,对于本发明实施例,为了基于目标用户的样本语音数据,生成目标用户样本语音数据之外的验证语音数据,可以利用预设语音数据生成模型来生成更多目标用户的语音数据,由于目标用户的语音数据为时序数据,而GPT-2模型能够很好的处理时序数据,因此预设语音数据生成模型具体可以为预设GPT-2模型,该预设GPT-2模型中包括注意力层和神经网络层,具体地,将提取的样本语音数据对应的语音特征输入至预设GPT-2模型中进行语音数据生成,在预设GPT-2模型进行语音数据生成的过程中,首选将样本语音数据对应的语音特征输入至注意力层,利用该注意力层计算已有语音特征对应的注意力分值,具注意力层具体计算语音特征对应的注意力分值时,可以获取训练好的GPT-2模型中的嵌入矩阵,之后根据该嵌入矩阵计算该语音特征对应的查询向量、键向量和值向量,接着根据计算的查询向量、键向量和值向量,计算语音特征对应的注意力分值。
104、基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
对于本发明实施例,将计算出的语音特征对应的注意力分值输入至神经网络层进行语音数据的生成,具体地,目标用户通常具有多个语音特征,在确定多个语音特征对应的注意力分值分值之后,将注意力分值输入至神经网络层,该神经网络层会筛选注意力分值较高的语音特征,语音特征的注意力分值越高,说明该语音特征与待生成语音数据的关联性越高,进而利用注意力分值较高的语音特征来生成目标用户的语音数据。
本发明实施例提供的一种语音数据生成方法,与目前采用欠采样的方式对多数样本语音数据进行数据消除的方式相比,本发明能够获取目标用户的样本语音数据;并对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;与此同时,根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;并基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。由此通过提取样本数据量匮乏的目标用户的语音特征,能够计算样本语音数据对应的注意力分值,并依据该注意力分值生成目标用户的验证语音数据,从而能够根据目标用户的少数样本语音数据,生成更多的语音数据,使不同用户的样本语音数据达到平衡,避免采用欠采用的方式丢失掉有价值的用户信息,同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。
进一步的,为了更好的说明上述语音数据的生成过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语音数据生成方法,如图2所示,所述方法包括:
201、获取目标用户的样本语音数据。
其中,样本语音数据为预设样本库中已经存在的语音数据,目标用户为预设样本库中样本语音数据匮乏的用户,对于本发明实施例,为了确定目标用户,可以预先设定预设语音数据量,该预设语音数据量具体可以根据构建预设语音数据生成模型所需的训练样本量进行确定,之后确定预设样本库中各个用户对应的语音数据量,并将各个用户对应的语音数据量分别与预设语音数据量进行对比,根据对比结果筛选目标用户,具体可以将语音数据量小于预设语音数据量的用户确定为目标用户,此外,还可以根据各个用户对应的语音数据量,计算预设样本库的语音数据量均值,并将各个用户对应的语音数据量分别与语音数据量均值进行对比,根据对比结果筛选目标用户,具体可以将语音数据量小于语音数据量均值的用户确定为目标用户,由此能够确定预设样本库中数据量匮乏的目标用户,以便根据目标用户的样本语音数据,生成目标用户更多的语音数据,以达到预设样本库中语音数据的平衡。
202、对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征。
其中,样本语音数据对应的语音特征具体可以为样本语音数据对应的梅尔倒谱系数,对于本发明实施例,为了提取样本语音数据对应的语音特征,步骤202具体包括:对所述样本语音数据进行滤波处理,得到所述样本语音数据对应的语音能量;对所述语音能量进行离散余弦化处理,得到所述样本语音数据对应的语音特征。
具体地,在对样本语音数据进行特征提取之前需要对样本语音数据进行预处理,该预处理过程具体包括预加重、分帧和加窗函数处理,从而使得目标用户的样本语音数据变得平坦,即将样本语音数据的每N个采用点合成一个观测单位(帧),帧的左右端具有连续性,在对目标用户的样本语音数据进行预处理之后,需要对预处理后的样本语音数据进行快速傅里叶转化,得到转换后的语音数据,之后将转换后的语音数据输入Mel滤波器,计算转换后的语音数据通过Mel滤波器后的语音能量,接着根据样本语音数据对应的语音能量,计算样本语音数据对应的梅尔倒谱系数,并将该梅尔倒谱系数确定为目标用户的样本语音数据对应的语音特征,梅尔倒谱系数的具体计算公式如下:
Figure BDA0002741984420000081
其中,s(m)代表语音数据经过第m个滤波器后输出的语音能量,M为滤波器的总个数,C(n)为梅尔倒谱系数,n代表梅尔倒谱系数的阶数,L通常可取12-16,s(m)语音能量的具体计算公式如下:
Figure BDA0002741984420000082
其中,
Figure BDA0002741984420000083
为对语音数据的频谱取模平方得到语音数据的功率谱,Hm(k)为滤波器的频率,K为傅里叶变换的点数。由此按照上述公式,能够计算出目标用户样本语音数据对应的梅尔倒谱系数,并将其确定为样本语音数据对应的语音特征,以便根据该样本语音数据,生成目标用户除样本语音数据之外的新增样本数据,以到达样本语音数据的平衡。
203、根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值。
其中,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的,对于本发明实施例,为了获取目标用户更多的语音数据,以达到样本语音数据的平衡,将样本语音数据对应的语音特征输入至预设语音数据生成模型进行数据生成,得到目标用户样本语音数据之外的验证语音数据,其中,预设语音数据生成模型具体可以为已经训练好的GPT-2模型,具体利用GPT-2模型生成目标用户更多的语音数据时,步骤203具体包括:根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量;将所述语音特征对应的查询向量和与其对应的键向量相乘,得到所述语音特征对应的权重值;根据所述语音特征对应的权重值和值向量,计算所述语音特征对应的注意力分值。
具体地,预设嵌入矩阵是由训练好的GPT-2模型确定的,即通过训练GPT-2模型能够得到预设嵌入矩阵,之后根据该预设嵌入矩阵能够确定语音特征对应的查询向量、键向量和值向量,之后在GPT-2模型中的注意力层根据语音特征对应的查询向量和键向量,计算语音特征对应的权重值,接着根据语音特征对应的权重值和值向量,计算语音特征对应的注意力分值并输出,该注意力分值的具体计算公式如下:
Figure BDA0002741984420000091
其中,Attention(Q,K,V)为已有特征对应的注意力分值,Q为查询向量,K为键向量,V为值向量,dK为为键向量的维数,通常取64。由此能够得到语音特征对应的注意力得分,
204、基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
对于本发明实施例,将该注意力得分输入至GPT-2模型中的神经网络层,生成目标用户除样本语音数据之外的验证语音数据,以确保样本库中不同用户的语音数据量达到平衡。
205、将所述目标用户的样本语音数据和验证语音数据,以及预设样本库中其他用户的样本语音数据确定为第一训练样本。
其中,其他用户为语音数据量不匮乏的用户,即其他用户对应的语音数据量大于预设数据量,对于本方实施例,生成目标用户更多的语音数据后,样本库中不同用户的语音数据量达到平衡,可以将样本库中的语音数据作为训练样本,构建预设语音识别模型,具体地,将目标用户的样本语音数据和验证语音数据,以及预设样本库中其他用户的样本语音数据共同作为第一训练样本,以便根据该第一训练样本构建预设语音室识别模型。
206、利用预设神经网络算法对所述第一训练样本进行训练,构建预设语音识别模型。
对于本发明实施例,预设语音识别模型具体可以为预设神经网络模型,该预设神经网络模型包括多个隐藏层,给定预设神经网络模型的初始参数,之后将第一训练样本输入至预设神经网络模型中进行训练,即对预设神经网络模型中的初始参数进行调整,构建预设语音识别模型。
进一步地,为了确保预设语音识别模型能够对真实的语音数据有更好的识别效果,还可以利用目标用户的样本语音数据以及预设样本库中其他用户的语音数据对构建的预设语音识别模型进行调整,基于此,所述方法还包括:将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本;利用所述第二训练样本对所述预设语音识别模型进行调整,得到调整后的预设语音识别模型。由此调整后的预设语音识别模型能够对真实的语音数据有更好的识别效果。
进一步地,为了保证调整的预设语音识别模型的识别精度,所述方法还包括:利用测试样本对所述调整后的预设语音识别模型进行测试,得到所述调整后的预设语音识别模型对应的测试结果;根据所述测试结果,确定所述调整后的预设语音识别模型对应的语音识别准确率;若所述语音识别准确率小于预设语音识别准确率,对所述整后的预设语音识别模型中的参数进行调整,直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。具体地,获取多个用户的测试样本,将测试样本输入至调整后的预设语音识别模型进行测试,能够得到调整后的预设语音识别模型的测试结果,根据该测试结果,统计测试样本中识别结果正确的样本数量和样本总数,并根据识别结果正确的样本数量和样本总数,计算调整后的预设语音识别模型对应的语音识别准确率,如果计算的语音识别准确率未达到预设语音识别准确率,则确定调整后的预设语音识别模型的识别精度未达到要求,不可以进行语音识别,需要继续进行训练;如果计算的语音识别准确率达到预设语音识别准确率,则确定调整后的预设语音识别模型的识别精度得到要求,可以用来进行语音识别,基于此,所述方法还包括:获取待识别用户的语音数据;将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别,确定所述待识别用户对应的语音识别结果。
具体地,将待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别,该调整后的预设语音识别模型中的隐藏层会提取待识别用户的语音数据对应的语音特征,并将待识别用户对应的语音特征与预设特征库中其他用户对应的语音特征进行比对,根据比对结果输出待识别用户对应的语音识别结果,即利用调整后的预设语音识别模型能够对待识别用户的身份进行识别。
本发明实施例提供的另一种语音数据生成方法,与目前采用欠采样的方式对多数样本语音数据进行数据消除的方式相比,本发明能够获取目标用户的样本语音数据;并对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;与此同时,根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的,并基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。由此通过提取样本数据量匮乏的目标用户的语音特征,能够计算样本语音数据对应的注意力分值,并依据该注意力分值生成目标用户的验证语音数据,从而能够根据目标用户的少数样本语音数据,生成更多的语音数据,使不同用户的样本语音数据达到平衡,避免采用欠采用的方式丢失掉有价值的用户信息,同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。
进一步地,作为图1的具体实现,本发明实施例提供了一种语音数据生成装置,如图3所示,所述装置包括:获取单元31、提取单元32、第一确定单元33和第二确定单元34。
所述获取单元31,可以用于获取目标用户的样本语音数据。所述获取单元31是本装置中获取获取目标用户的样本语音数据的主要功能模块。
所述提取单元32,可以用于对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征。所述提取单元32是本装置中对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征的主要功能模块,也是核心模块。
所述第一确定单元33,可以用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的。所述确定单元33是本装置中根据根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值的主要功能模块,也是核心模块。
所述第二确定单元34,可以用于基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。所述第二确定单元是本装置中基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据的主要功能模块,也是核心模块。
进一步地,为了计算所述样本语音数据对应的注意力分值,如图4所示,所述第一确定单元33,包括:确定模块331、相乘模块332和计算模块333。
所述确定模块331,可以用于确定所述语音特征对应的嵌入矩阵,并根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量。
所述相乘模块332,可以用于分别将所述语音特征对应的查询向量和与其对应的键向量相乘,得到所述语音特征对应的权重值。
所述计算模块333,可以用于根据所述语音特征对应的权重值和值向量,计算所述语音特征对应的注意力分值。
进一步地,为了提取样本语音数据对应的语音特征,所述提取单元32,包括:滤波模块321和离散模块322。
所述滤波模块321,可以用于对所述样本语音数据进行滤波处理,得到所述样本语音数据对应的语音能量。
所述离散模块332,可以用于对所述语音能量进行离散余弦化处理,得到所述样本语音数据对应的语音特征。
进一步地,为了构建预设语音识别模型,所述装置还包括构建单元35。
所述第一确定单元33,还可以用于将所述目标用户的样本语音数据和验证语音数据,以及预设样本库中其他用户的样本语音数据确定为第一训练样本。
所述构建单元35,可以用于利用预设神经网络算法对所述第一训练样本进行训练,构建预设语音识别模型。
进一步地,为了提高预设语音识别模型的识别精度,所述装置还包括:调整单元36。
所述第一确定单元33,还可以用于将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本。
所述调整单元36,可以用于利用所述第二训练样本对所述预设语音识别模型进行调整,得到调整后的预设语音识别模型。
进一步地,为了对调整后的预设语音识别模型进行测试,所述装置还包括测试单元37。
所述测试单元37,可以用于利用测试样本对所述调整后的预设语音识别模型进行测试,得到所述调整后的预设语音识别模型对应的测试结果。
所述第一确定单元33,还可以用于根据所述测试结果,确定所述调整后的预设语音识别模型对应的语音识别准确率。
所述调整单元36,还可以用于若所述语音识别准确率小于预设语音识别准确率,对所述整后的预设语音识别模型中的参数进行调整,直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。
进一步地,为了对待识别用户进行语音识别,所述装置还包括:识别单元38。
所述获取单元31,还可以用于获取待识别用户的语音数据。
所述识别单元38,可以用于将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别,确定所述待识别用户对应的语音识别结果。
需要说明的是,本发明实施例提供的一种语音数据生成装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取目标用户的样本语音数据;对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取目标用户的样本语音数据;对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
通过本发明的技术方案,本发明能够获取获取目标用户的样本语音数据;并对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;与此同时,根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;并基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据,由此通过提取样本数据量匮乏的目标用户的语音特征,能够计算样本语音数据对应的注意力分值,并依据该注意力分值生成目标用户的验证语音数据,从而能够根据目标用户的少数样本语音数据,生成更多的语音数据,使不同用户的样本语音数据达到平衡,避免采用欠采用的方式丢失掉有价值的用户信息,同时依据该样本语音数据训练的预设语音识别模型的语音识别精度也得到了提高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种语音数据生成方法,其特征在于,包括:
获取目标用户的样本语音数据;
对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;
基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,包括:
根据所述嵌入矩阵确定所述语音特征对应的查询向量、键向量和值向量;
将所述语音特征对应的查询向量和键向量相乘,得到所述语音特征对应的权重值;
根据所述语音特征对应的权重值和值向量,计算所述语音特征对应的注意力分值。
3.根据权利要求1所述的方法,其特征在于,所述对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征,包括:
对所述样本语音数据进行滤波处理,得到所述样本语音数据对应的语音能量;
对所述语音能量进行离散余弦化处理,得到所述样本语音数据对应的语音特征。
4.根据权利要求1所述的方法,其特征在于,在所述基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据之后,所述方法还包括:
将所述目标用户的样本语音数据和验证语音数据,以及预设样本库中其他用户的样本语音数据确定为第一训练样本;
利用预设神经网络算法对所述第一训练样本进行训练,构建预设语音识别模型。
5.根据权利要求4所述的方法,其特征在于,在所述利用预设神经网络算法对所述第一训练样本进行训练,构建预设语音识别模型之后,所述方法还包括:
将所述目标用户的样本语音数据和所述其他用户的样本语音数据确定为第二训练样本;
利用所述第二训练样本对所述预设语音识别模型进行调整,得到调整后的预设语音识别模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用测试样本对所述调整后的预设语音识别模型进行测试,得到所述调整后的预设语音识别模型对应的测试结果;
根据所述测试结果,确定所述调整后的预设语音识别模型对应的语音识别准确率;
若所述语音识别准确率小于预设语音识别准确率,对所述整后的预设语音识别模型中的参数进行调整,直至所述调整后的预设语音识别模型对应的语音识别准确率达到预设语音识别准确率。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取待识别用户的语音数据;
将所述待识别用户的语音数据输入至调整后的预设语音识别模型进行语音识别,确定所述待识别用户对应的语音识别结果。
8.一种语音数据生成装置,其特征在于,包括:
获取单元,用于获取目标用户的样本语音数据;
提取单元,用于对所述样本语音数据进行特征提取,得到所述样本语音数据对应的语音特征;
第一确定单元,用于根据所述样本语音数据对应的语音特征和预先构建的嵌入矩阵,计算所述样本语音数据对应的注意力分值,所述嵌入矩阵是通过对所述样本语音数据进行训练得到的;
第二确定单元,用于基于所述注意力分值,确定所述目标用户样本语音数据之外的验证语音数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011153538.8A 2020-10-26 2020-10-26 语音数据生成方法、装置、计算机设备及存储介质 Pending CN112331182A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011153538.8A CN112331182A (zh) 2020-10-26 2020-10-26 语音数据生成方法、装置、计算机设备及存储介质
PCT/CN2020/136366 WO2021189980A1 (zh) 2020-10-26 2020-12-15 语音数据生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011153538.8A CN112331182A (zh) 2020-10-26 2020-10-26 语音数据生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112331182A true CN112331182A (zh) 2021-02-05

Family

ID=74311673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011153538.8A Pending CN112331182A (zh) 2020-10-26 2020-10-26 语音数据生成方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112331182A (zh)
WO (1) WO2021189980A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343269B1 (en) * 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN110992938A (zh) * 2019-12-10 2020-04-10 同盾控股有限公司 语音数据处理方法、装置、电子设备及计算机可读介质
CN111429938B (zh) * 2020-03-06 2022-09-13 江苏大学 一种单通道语音分离方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343269B1 (en) * 1998-08-17 2002-01-29 Fuji Xerox Co., Ltd. Speech detection apparatus in which standard pattern is adopted in accordance with speech mode
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡婷婷等: ""基于注意力机制的LSTM语音情感主要特征选择"", 《声学技术》, vol. 38, no. 4, pages 414 - 421 *

Also Published As

Publication number Publication date
WO2021189980A1 (zh) 2021-09-30

Similar Documents

Publication Publication Date Title
TWI641965B (zh) 基於聲紋識別的身份驗證的方法及系統
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN110310647B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
WO2019100606A1 (zh) 电子装置、基于声纹的身份验证方法、系统及存储介质
CN102737633B (zh) 一种基于张量子空间分析的说话人识别方法及其装置
CN104887263B (zh) 一种基于心音多维特征提取的身份识别算法及其系统
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN103794207A (zh) 一种双模语音身份识别方法
CN109036437A (zh) 口音识别方法、装置、计算机装置及计算机可读存储介质
CN112669820B (zh) 基于语音识别的考试作弊识别方法、装置及计算机设备
CN109817222A (zh) 一种年龄识别方法、装置及终端设备
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN111128229A (zh) 语音分类方法、装置及计算机存储介质
CN111402922B (zh) 基于小样本的音频信号分类方法、装置、设备及存储介质
CN110797033A (zh) 基于人工智能的声音识别方法、及其相关设备
CN108630208B (zh) 服务器、基于声纹的身份验证方法及存储介质
CN112466311B (zh) 声纹识别方法、装置、存储介质及计算机设备
Mallikarjunan et al. Text-independent speaker recognition in clean and noisy backgrounds using modified VQ-LBG algorithm
CN112331182A (zh) 语音数据生成方法、装置、计算机设备及存储介质
CN112735477B (zh) 语音情感分析方法和装置
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
CN113855065B (zh) 基于浅层学习和深度学习融合的心音识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination