CN114049881A - 语音性别识别方法、装置、存储介质和计算机设备 - Google Patents
语音性别识别方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN114049881A CN114049881A CN202111397363.XA CN202111397363A CN114049881A CN 114049881 A CN114049881 A CN 114049881A CN 202111397363 A CN202111397363 A CN 202111397363A CN 114049881 A CN114049881 A CN 114049881A
- Authority
- CN
- China
- Prior art keywords
- audio
- gender
- training
- audio data
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000001514 detection method Methods 0.000 claims abstract description 31
- 230000000694 effects Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 96
- 230000003595 spectral effect Effects 0.000 claims description 36
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 22
- 239000011295 pitch Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 description 12
- 230000004044 response Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种语音性别识别方法,包括:获取待识别性别的音频数据;对所述音频数据进行语音活性检测,得到有效音频;对所述有效音频进行音频特征提取,得到音频特征向量;将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。该语音性别识别方法通过对待识别性别的音频数据进行语音活性检测,区分了静音部分和有效声音部分,再对有效声音部分进行音频特征提取并将提取到的音频特征向量基于预先训练的性别识别模型得到性别识别结果,能够有效提高性别识别模型对要音频数据的性别识别准确率。
Description
技术领域
本发明涉及语音识别技术领域,具体而言,本发明涉及一种语音性别识别方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着科技的日益发展,语音识别技术也逐步被应用在人类生活的方方面面,可以为人类的生活带来便利。其中,语音性别识别技术的应用场景十分广泛,例如在夜间打车时,由于女性比男性受到潜在威胁的机率更大,可通过语音识别性别之后提前预警,又例如酒店订房等语音机器人,可通过语音判别性别后提供更有针对性的服务。
现有技术中,语音性别识别可分为模型训练和预测两阶段,在模型训练完成以后,使用该训练好的模型对输入的语音进行预测,实现对该语音的性别识别。但在实际应用中,语音并不一定是持续有声的,会出现静音部分,在该情况下传统的模型训练及预测方法无法保证语音性别识别的准确率。
发明内容
为至少能解决上述的技术缺陷之一,本发明提供了以下技术方案的语音性别识别方法及对应的装置、计算机可读存储介质和计算机设备。
本发明的实施例根据一个方面,提供了一种语音性别识别方法,包括如下步骤:
获取待识别性别的音频数据;
对所述音频数据进行语音活性检测,得到有效音频;
对所述有效音频进行音频特征提取,得到音频特征向量;
将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
优选地,所述性别识别模型基于前馈神经网络预先训练生成。
优选地,所述性别识别模型通过以下步骤训练生成:
获取训练数据集,所述训练数据集包括训练用音频数据和对应的性别标注;
对所述训练用音频数据进行语音活性检测,得到训练用有效音频;
对所述训练用有效音频进行特征提取,得到训练用音频特征向量;
根据所述训练用音频特征向量和对应的性别标注对原始的前馈神经网络进行训练,得到性别识别模型。
优选地,所述性别识别模型包括特征输入层、第一前馈神经网络层、第二前馈神经网络层和性别分类输出层,所述性别分类输出层基于sigmoid函数计算所述音频数据对应男性和女性的概率并得到性别识别结果。
优选地,所述对所述音频数据进行语音活性检测,得到有效音频,包括:
基于高斯模型计算所述音频数据每一帧中多个子带的能量;
根据所述多个子带的能量,计算所述音频数据中静音和语音的分布概率;
根据所述分布概率,从所述音频数据中确定有效音频。
优选地,所述对所述有效音频进行音频特征提取,得到音频特征向量,包括:
根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量。
优选地,所述与区分语音性别相关联的声音特性包括:梅尔频率倒谱系数、谱质心、谱对比度和音高;
所述根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量,包括:
根据梅尔频率倒谱系数、谱质心、谱对比度和音高对所述有效音频进行特征提取,得到20维的音频特征向量;所述20维的音频特征向量包括:对应梅尔频率倒谱系数提取的13维音频特征向量、对应谱质心提取的1维音频特征向量、对应谱对比度提取的5维音频特征向量和对应音高提取的1维音频特征向量。
此外,本发明的实施例根据另一个方面,提供了一种语音性别识别装置,包括:
数据获取模块,用于获取待识别性别的音频数据;
声音检测模块,用于对所述音频数据进行语音活性检测,得到有效音频;
特征提取模块,用于对所述有效音频进行音频特征提取,得到音频特征向量;
性别识别模块,用于将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
本发明的实施例根据又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音性别识别方法。
本发明的实施例根据再一个方面,提供了一种计算机设备,所述计算机包括一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行上述的语音性别识别方法。
本发明与现有技术相比,具有以下有益效果:
本发明提供的语音性别识别方法、装置、计算机可读存储介质和计算机设备,通过对待识别性别的音频数据进行语音活性检测,区分了静音部分和有效声音部分,再对有效声音部分进行音频特征提取并将提取到的音频特征向量基于预先训练的性别识别模型得到性别识别结果,能够有效提高性别识别模型对要音频数据的性别识别准确率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的语音性别识别方法的方法流程图;
图2为本发明实施例提供的训练性别识别模型的方法流程图;
图3为本发明实施例提供的语音性别识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例提供了一种语音性别识别方法,如图1所示,该方法包括:
步骤S110:获取待识别性别的音频数据。
在实际应用场景中,通过对声音的性别进行预测,确定声音对应的性别是男性或是女性后,能够做进一步广泛的应用,例如女性安全预警、性别差异的针对性服务等。其中,所述音频数据即为数字化的声音数据,所述待识别性别的音频数据可以是实时数据,也可以是离线数据。所述音频数据可以以预定音频采样率采样得到,例如音频数据的音频采样率为16kHz,取20ms为一帧。
对于本实施例,可在响应语音性别识别请求或者根据程序设定自动发起语音性别识别动作时,获取待识别性别的音频数据。
步骤S120:对所述音频数据进行语音活性检测,得到有效音频。
对于本实施例,对于音频数据进行语音活性检测,即检测音频数据中的有效声音部分,由此区分音频数据中的有效声音部分与静音部分,得到仅包含有效声音部分的有效音频。
步骤S130:对所述有效音频进行音频特征提取,得到音频特征向量。
对于本实施例,仅对音频数据中的有效声音部分进行音频特征提取,得到有效音频的音频特征向量,当基于预先训练的性别识别模型确定当前音频数据的性别时,所述有效音频的音频特征向量用于作为性别识别模型的输入数据。
步骤S140:将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
对于本实施例,将有效音频的音频特征向量输入预先训练的性别识别模型,模型对当前音频数据的性别进行识别,得到该音频数据的性别识别结果。
其中,所述性别识别模型在预先训练时的训练用输入数据,也是经由语音活性检测之后得到的训练用有效音频。通过确保性别识别模型训练阶段和预测识别阶段的输入数据均经由语音活性检测处理,能够保证训练阶段和预测识别阶段的一致性,若模型的输入数据没有经由语音活性检测处理,或是仅训练阶段和预测识别阶段其中一阶段的输入数据经由语音活性检测处理,会很大程度上影响性别识别模型预测识别的准确率。
在本发明提供的语音性别识别方法,通过对待识别性别的音频数据进行语音活性检测,区分了静音部分和有效声音部分,再对有效声音部分进行音频特征提取并将提取到的音频特征向量基于预先训练的性别识别模型得到性别识别结果,能够有效提高性别识别模型对要音频数据的性别识别准确率。
在一些实施例中,所述步骤S120包括:基于高斯模型计算所述音频数据每一帧中多个子带的能量;根据所述多个子带的能量,计算所述音频数据中静音和语音的分布概率;根据所述分布概率,从所述音频数据中确定有效音频。
对于本实施例,将音频数据中的静音部分和有效声音部分看作两个不同的分布,分别求静音的分布概率和有效声音的分布概率。通过高斯模型计算音频数据每一帧中多个子带的能量,其中,可预先根据音频的频谱划分得六个子带,分别为80Hz~250Hz、250Hz~500Hz、500Hz~1K、1K~2K、2K~3K和3K~4K,则每一帧中包括六个子带的能量。然后,计算静音和有效声音的分布概率,对音频数据每一帧的每个子带的能量计算其似然比,并计算加权对数似然比,若一个帧中六个子带的能量有其中一个超过了预先设定的能量阈值,则确定该帧为有效声音,从而能够从音频数据中确定有效音频。
在本实施例中,通过语音活性检测处理实现音频数据中静音部分和有效声音部分的区分,只需要采用高斯模型建模,直接计算音频数据中每一帧中多个子带的能量,无需像常规处理方法,如音素对齐处理那样需要耗费大量时间和人力对数据进行标注,能够显著提高处理静音部分的效率,为提高语音性别识别的效率提供了有力的技术支持,且能够有效满足对实时音频数据进行语音性别识别的应用需求。
在一些实施例中,步骤S130,包括:根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量。
对于本实施例,在对有效音频进行音频特征提取时,有针对性地选取与性别相关性非常高的声音特性,并对应不同的声音特性合理地选取相应的特征维数,最后将对应所述声音特性提取得到的预定维数的音频特征向量进行拼接,将拼接得到的音频特征向量用于作为性别识别模型的输入数据,该方法能够显著提高性别识别模型预测识别的准确率,且合理地对应不同声音特性提取相应的特征维数,相比现有技术减少了特征维度,能够避免冗余的运算量,加快运算效率,进而加快模型响应速度,实现语音性别识别的高效便捷,有效满足对实时音频数据进行语音性别识别的应用需求。
在一个可能的实现方式中,所述与区分语音性别相关联的声音特性包括:梅尔频率倒谱系数、谱质心、谱对比度和音高。
梅尔频率倒谱系数是组成梅尔频率倒谱的系数,梅尔频率倒谱在声音处理领域中是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。
谱质心是描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。谱质心是声音信号的频率分布和能量分布的重要信息。主观感知层面上,谱质心能够描述声音的明亮度,低沉的声音其谱质心相对较低,明亮的声音则质谱心相对较高。
谱对比度将频谱的每帧都分为子带。对于每个子带,通过将顶部分位数的平均能量,即峰值能量与底部分位数的平均能量,即谷能量进行比较来估计能量对比。
音高是基音的震动频率,采用基音周期作为判决男声女声的特性之一。
在一个可能的实现方式中,对应梅尔频率倒谱系数提取的13维音频特征向量、对应谱质心提取的1维音频特征向量、对应谱对比度提取的5维音频特征向量和对应音高提取的1维音频特征向量,将上述对应各个声音特性提取得到的预定维数的音频特征向量进行拼接,得到20维的音频特征向量,将拼接得到的20维音频特征向量用于作为性别识别模型的输入数据。
在本实施例中,有针对性地选取与性别相关性非常高的梅尔频率倒谱系数、谱质心、谱对比度和音高,能够显著提高性别识别模型预测识别的准确率,且合理地对应不同声音特性提取相应的特征维数,20维的音频特征向量相比现有技术减少了特征维度,能够避免冗余的运算量,加快运算效率,进而加快模型响应速度,实现语音性别识别的高效便捷,有效满足对实时音频数据进行语音性别识别的应用需求。
在一些实施例中,所述性别识别模型基于前馈神经网络预先训练生成。
现有技术中,常见的能够实现分类的模型包括传统的分类模型以及深度学习模型,传统的分类模型对一段输入语音预测的响应速度快,但是识别准确率较低,而深度学习模型响应速度慢,但识别准确率较高。
对于本实施例,性别识别模型采用的是前馈神经网络,相比于传统的分类模型和深度学习模型,本发明实施例采用的模型结构简单,结合用于输入该性别识别模型的音频特征向量,能够有效保证模型响应速度快且识别准确率高。此外,基于前馈神经网络的性别识别模型所需的存储空间很小,能够应用于实时场景。
在一个可能的实现方式中,所述性别识别模型包括特征输入层、第一前馈神经网络层、第二前馈神经网络层和性别分类输出层,所述性别分类输出层基于sigmoid函数计算所述音频数据对应男性和女性的概率并得到性别识别结果。
对于本实施例,所述性别识别模型的特征输入层输入的是音频特征向量,例如上述实施例提取得到的20维音频特征向量,第一层前馈神经网络层共有128个神经元节点,第二前馈神经网络层共有64个神经元节点,最后一层为性别分类输出层,共有2个节点,分别代表男性和女性,所述性别分类输出层基于sigmoid函数计算所述音频数据对应男性和女性的概率并得到性别识别结果。
在一些实施例中,如图2所示,所述性别识别模型通过以下步骤训练生成:
步骤S210:获取训练数据集,所述训练数据集包括训练用音频数据和对应的性别标注。
对于本实施例,预先搜集男女声音频,并按男女性别样本1:1比例采样,音频采样率可以是16kHz,取20ms为一帧,得到训练用音频数据,并对男女声音频进行标注,例如男性声音的标注为1,女性声音的标注为0,得到对应各个训练用音频数据的性别标注,根据训练用音频数据和对应的性别标注得到训练数据集。当进行模型训练时,则获取预先准备好的训练数据集。
步骤S220:对所述训练用音频数据进行语音活性检测,得到训练用有效音频。
对于本实施例,对于训练用音频数据进行语音活性检测,即检测训练用音频数据中的有效声音部分,由此区分训练用音频数据中的有效声音部分与静音部分,得到仅包含有效声音部分的训练用有效音频。
步骤S230:对所述训练用有效音频进行特征提取,得到训练用音频特征向量。
对于本实施例,仅对训练用音频数据中的有效声音部分进行音频特征提取,得到训练用有效音频的音频特征向量,将其作为训练性别识别模型的训练输入数据。
步骤S240:根据所述训练用音频特征向量和对应的性别标注对原始的前馈神经网络进行训练,得到性别识别模型。
对于本实施例,根据所述训练用音频特征向量和对应的性别标注对原始的前馈神经网络进行训练,确定模型参数,得到性别识别模型。
在本实施例中,性别识别模型基于结构简单的前馈神经网络训练生成,且性别识别模型在训练阶段和预测识别阶段均对音频数据进行语音活性检测处理,且作为模型输入数据的音频特征向量均根据相同的声音特性和对应的特征维数提取得到,能够保证训练阶段和预测识别阶段的一致性,同时保证识别准确率和模型响应速度。
在一些实施例中,所述步骤S220包括:基于高斯模型计算所述训练用音频数据每一帧中多个子带的能量;根据所述训练用音频数据每一帧中多个子带的能量,计算所述训练用音频数据中静音和语音的分布概率;根据所述训练用音频数据中静音和语音的分布概率,从所述训练用音频数据中确定训练用有效音频。
对于本实施例,将训练用音频数据中的静音部分和有效声音部分看作两个不同的分布,分别求静音的分布概率和有效声音的分布概率。通过高斯模型计算训练用音频数据每一帧中多个子带的能量,其中,可预先根据音频的频谱划分得六个子带,分别为80Hz~250Hz、250Hz~500Hz、500Hz~1K、1K~2K、2K~3K和3K~4K,则每一帧中包括六个子带的能量。然后,计算静音和有效声音的分布概率,对训练用音频数据每一帧的每个子带的能量计算其似然比,并计算加权对数似然比,若一个帧中六个子带的能量有其中一个超过了预先设定的能量阈值,则确定该帧为有效声音,从而能够从训练用音频数据中确定训练用有效音频。该方法通过确保性别识别模型训练阶段和预测识别阶段的输入数据均经由语音活性检测处理,能够保证训练阶段和预测识别阶段的一致性,若模型的输入数据没有经由语音活性检测处理,或是仅训练阶段和预测识别阶段其中一阶段的输入数据经由语音活性检测处理,会很大程度上影响性别识别模型预测识别的准确率。
在一些实施例中,所述步骤S230,包括:根据与区分语音性别相关联的声音特性对所述训练用有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的训练用音频特征向量。
对于本实施例,在对训练用有效音频进行音频特征提取时,有针对性地选取与性别相关性非常高的声音特性,并对应不同的声音特性合理地选取相应的特征维数,最后将对应所述声音特性提取得到的预定维数的音频特征向量进行拼接,将拼接得到的音频特征向量用于作为训练性别识别模型的训练输入数据,该方法能够显著提高训练得到的性别识别模型预测识别的准确率,且合理地对应不同声音特性提取相应的特征维数,相比现有技术减少了特征维度,能够避免冗余的运算量,加快运算效率,进而加快模型训练速度及响应速度,实现语音性别识别的高效便捷,为有效满足对实时音频数据进行语音性别识别的应用需求提供有力的技术支持。
在一个可能的实现方式中,所述与区分语音性别相关联的声音特性包括:梅尔频率倒谱系数、谱质心、谱对比度和音高。
梅尔频率倒谱系数是组成梅尔频率倒谱的系数,梅尔频率倒谱在声音处理领域中是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。
谱质心是描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。谱质心是声音信号的频率分布和能量分布的重要信息。主观感知层面上,谱质心能够描述声音的明亮度,低沉的声音其谱质心相对较低,明亮的声音则质谱心相对较高。
谱对比度将频谱的每帧都分为子带。对于每个子带,通过将顶部分位数的平均能量,即峰值能量与底部分位数的平均能量,即谷能量进行比较来估计能量对比。
音高是基音的震动频率,采用基音周期作为判决男声女声的特性之一。
在一个可能的实现方式中,对应梅尔频率倒谱系数提取的13维音频特征向量、对应谱质心提取的1维音频特征向量、对应谱对比度提取的5维音频特征向量和对应音高提取的1维音频特征向量,将上述对应各个声音特性提取得到的预定维数的音频特征向量进行拼接,得到20维的音频特征向量,将拼接得到的20维音频特征向量用于作为训练性别识别模型的训练输入数据。
在本实施例中,有针对性地选取与性别相关性非常高的梅尔频率倒谱系数、谱质心、谱对比度和音高,能够显著提高性别识别模型预测识别的准确率,且合理地对应不同声音特性提取相应的特征维数,20维的音频特征向量相比现有技术减少了特征维度,能够避免冗余的运算量,加快运算效率,进而加快模型训练速度及响应速度,实现语音性别识别的高效便捷,为有效满足对实时音频数据进行语音性别识别的应用需求提供有力的技术支持。
此外,本发明实施例提供了一种语音性别识别装置,如图3所示,所述装置包括:
数据获取模块31,用于获取待识别性别的音频数据;
声音检测模块32,用于对所述音频数据进行语音活性检测,得到有效音频;
特征提取模块33,用于对所述有效音频进行音频特征提取,得到音频特征向量;
性别识别模块34,用于将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
在一些实施例中,所述性别识别模型基于前馈神经网络预先训练生成。
在一些实施例中,所述性别识别模型通过以下步骤训练生成:
获取训练数据集,所述训练数据集包括训练用音频数据和对应的性别标注;
对所述训练用音频数据进行语音活性检测,得到训练用有效音频;
对所述训练用有效音频进行特征提取,得到训练用音频特征向量;
根据所述训练用音频特征向量和对应的性别标注对原始的前馈神经网络进行训练,得到性别识别模型。
在一些实施例中,所述性别识别模型包括特征输入层、第一前馈神经网络层、第二前馈神经网络层和性别分类输出层,所述性别分类输出层基于sigmoid函数计算所述音频数据对应男性和女性的概率并得到性别识别结果。
在一些实施例中,所述声音检测模块32,具体用于:
基于高斯模型计算所述音频数据每一帧中多个子带的能量;
根据所述多个子带的能量,计算所述音频数据中静音和语音的分布概率;
根据所述分布概率,从所述音频数据中确定有效音频。
在一些实施例中,所述特征提取模块33,具体用于:
根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量。
在一些实施例中,所述与区分语音性别相关联的声音特性包括:梅尔频率倒谱系数、谱质心、谱对比度和音高;
所述根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量,包括:
根据梅尔频率倒谱系数、谱质心、谱对比度和音高对所述有效音频进行特征提取,得到20维的音频特征向量;所述20维的音频特征向量包括:对应梅尔频率倒谱系数提取的13维音频特征向量、对应谱质心提取的1维音频特征向量、对应谱对比度提取的5维音频特征向量和对应音高提取的1维音频特征向量。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以上任一实施例所述的语音性别识别方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSSMemory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明方法实施例的内容均适用于本存储介质实施例,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例还提供了一种计算机设备,本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括:一个或多个处理器,存储器,一个或多个计算机程序,其中所述一个或多个计算机程序被存储在存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行以上任一实施例所述的语音性别识别方法。
本发明方法实施例的内容均适用于本计算机设备实施例,本计算机设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,具体请参见方法实施例中的说明,在此不再赘述。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语音性别识别方法,其特征在于,包括如下步骤:
获取待识别性别的音频数据;
对所述音频数据进行语音活性检测,得到有效音频;
对所述有效音频进行音频特征提取,得到音频特征向量;
将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
2.根据权利要求1所述的语音性别识别方法,其特征在于,所述性别识别模型基于前馈神经网络预先训练生成。
3.根据权利要求2所述的语音性别识别方法,其特征在于,所述性别识别模型通过以下步骤训练生成:
获取训练数据集,所述训练数据集包括训练用音频数据和对应的性别标注;
对所述训练用音频数据进行语音活性检测,得到训练用有效音频;
对所述训练用有效音频进行特征提取,得到训练用音频特征向量;
根据所述训练用音频特征向量和对应的性别标注对原始的前馈神经网络进行训练,得到性别识别模型。
4.根据权利要求2所述的语音性别识别方法,其特征在于,所述性别识别模型包括特征输入层、第一前馈神经网络层、第二前馈神经网络层和性别分类输出层,所述性别分类输出层基于sigmoid函数计算所述音频数据对应男性和女性的概率并得到性别识别结果。
5.根据权利要求1所述的语音性别识别方法,其特征在于,所述对所述音频数据进行语音活性检测,得到有效音频,包括:
基于高斯模型计算所述音频数据每一帧中多个子带的能量;
根据所述多个子带的能量,计算所述音频数据中静音和语音的分布概率;
根据所述分布概率,从所述音频数据中确定有效音频。
6.根据权利要求1所述的语音性别识别方法,其特征在于,所述对所述有效音频进行音频特征提取,得到音频特征向量,包括:
根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量。
7.根据权利要求6所述的语音性别识别方法,其特征在于,所述与区分语音性别相关联的声音特性包括:梅尔频率倒谱系数、谱质心、谱对比度和音高;
所述根据与区分语音性别相关联的声音特性对所述有效音频进行音频特征提取,得到对应所述声音特性提取的预定维数的音频特征向量,包括:
根据梅尔频率倒谱系数、谱质心、谱对比度和音高对所述有效音频进行特征提取,得到20维的音频特征向量;所述20维的音频特征向量包括:对应梅尔频率倒谱系数提取的13维音频特征向量、对应谱质心提取的1维音频特征向量、对应谱对比度提取的5维音频特征向量和对应音高提取的1维音频特征向量。
8.一种语音性别识别装置,其特征在于,包括:
数据获取模块,用于获取待识别性别的音频数据;
声音检测模块,用于对所述音频数据进行语音活性检测,得到有效音频;
特征提取模块,用于对所述有效音频进行音频特征提取,得到音频特征向量;
性别识别模块,用于将所述音频特征向量输入预先训练的性别识别模型,得到所述音频数据的性别识别结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的语音性别识别方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行根据权利要求1至7任一项所述的语音性别识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111397363.XA CN114049881A (zh) | 2021-11-23 | 2021-11-23 | 语音性别识别方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111397363.XA CN114049881A (zh) | 2021-11-23 | 2021-11-23 | 语音性别识别方法、装置、存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049881A true CN114049881A (zh) | 2022-02-15 |
Family
ID=80211493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111397363.XA Pending CN114049881A (zh) | 2021-11-23 | 2021-11-23 | 语音性别识别方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049881A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111814A (zh) * | 2019-05-20 | 2019-08-09 | 国家计算机网络与信息安全管理中心 | 网络类型识别方法及装置 |
CN110136726A (zh) * | 2019-06-20 | 2019-08-16 | 厦门市美亚柏科信息股份有限公司 | 一种语音性别的估计方法、装置、系统及存储介质 |
CN110265012A (zh) * | 2019-06-19 | 2019-09-20 | 泉州师范学院 | 基于开源硬件可交互智能语音家居控制装置及控制方法 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
CN113257279A (zh) * | 2021-03-24 | 2021-08-13 | 厦门大学 | 一种基于gtcn的实时语音情感识别方法及应用装置 |
-
2021
- 2021-11-23 CN CN202111397363.XA patent/CN114049881A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110111814A (zh) * | 2019-05-20 | 2019-08-09 | 国家计算机网络与信息安全管理中心 | 网络类型识别方法及装置 |
CN110265012A (zh) * | 2019-06-19 | 2019-09-20 | 泉州师范学院 | 基于开源硬件可交互智能语音家居控制装置及控制方法 |
CN110136726A (zh) * | 2019-06-20 | 2019-08-16 | 厦门市美亚柏科信息股份有限公司 | 一种语音性别的估计方法、装置、系统及存储介质 |
CN111161713A (zh) * | 2019-12-20 | 2020-05-15 | 北京皮尔布莱尼软件有限公司 | 一种语音性别识别方法、装置及计算设备 |
CN113257279A (zh) * | 2021-03-24 | 2021-08-13 | 厦门大学 | 一种基于gtcn的实时语音情感识别方法及应用装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Venkataramanan et al. | Emotion recognition from speech | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
La Mura et al. | Human-machine interaction personalization: a review on gender and emotion recognition through speech analysis | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
KR101065188B1 (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
Bagul et al. | Text independent speaker recognition system using GMM | |
Zou et al. | Improved voice activity detection based on support vector machine with high separable speech feature vectors | |
Shareef et al. | Gender voice classification with huge accuracy rate | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Singh et al. | High level speaker specific features modeling in automatic speaker recognition system. | |
CN111429919A (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
CN116543797A (zh) | 基于语音的情感识别方法和装置、电子设备及存储介质 | |
Akinrinmade et al. | Creation of a Nigerian voice corpus for indigenous speaker recognition | |
CN114049881A (zh) | 语音性别识别方法、装置、存储介质和计算机设备 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Rajesh | Performance analysis of ML algorithms to detect gender based on voice | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
CN118379986B (zh) | 基于关键词的非标准语音识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |