CN109616099A - 一种基于基音频率及平滑处理的男女语音性别识别方法 - Google Patents
一种基于基音频率及平滑处理的男女语音性别识别方法 Download PDFInfo
- Publication number
- CN109616099A CN109616099A CN201811522085.4A CN201811522085A CN109616099A CN 109616099 A CN109616099 A CN 109616099A CN 201811522085 A CN201811522085 A CN 201811522085A CN 109616099 A CN109616099 A CN 109616099A
- Authority
- CN
- China
- Prior art keywords
- voice
- women
- male
- parameter
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 238000009499 grossing Methods 0.000 title claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 5
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 230000009897 systematic effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供一种基于基音频率及平滑处理的男女语音性别识别方法,包括:首先进行男女语音训练,对男性和女性语音进行预处理,提取其基音频率,建立匹配模型;然后是男女语音性别测试,采集一段男性/女性语音,与经过训练的匹配模型进行对比,从而判断出该声音为男性/女性,以此达到男女语音性别识别的目的;本发明通过平滑处理使得声音辨别的准确性更高,并且引入系统学习功能,即每次测试完毕后,新的语音均会加入模型库,随着数据的不断增长,测试的稳定性和准确性会越来越高。
Description
技术领域
本发明属于音频信号处理领域,尤其涉及一种基于基音频率及平滑处理的男女语音性别识别方法。
背景技术
在语音信号处理中,语音信号参数提取的准确性非常重要,只有获得准确的参数,才能利用这些参数进行高效的处理。而在许多参数提取中,基音周期的提取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面。所以,准确可靠地估计并提取基音周期对语音信号处理至关重要,它直接影响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。
为了提高基音检测的准确性,降低计算复杂度,人们已经开发了许多基音检测算法。从具体检测方法上来看,大致可以分为三类:(1)波形估计法:直接有声音波形来估计基音周期,分析出波形上的周期峰值。包括并行处理法、数据减少法等。(2)相关处理法:这种方法在语音限号处理中广泛使用,这是因为相关处理法抗波形的相位失真能力强,另外它在硬件处理上结构简单。包括波形自相关法、平均幅值差分函数法(AMDF)、简化逆滤波法(SIFT)等。(3)变换法:将语音信号变换到频域或者倒谱域来估计基音周期,利用同态分析方法将声道的影响消除,得到属于激励部分的信息,进一步求取基音周期。比如倒谱法,虽然倒谱法分析算法比较复杂,但是基因周期估计效果好。
发明内容
针对上述问题,本发明所要解决的技术问题是提供种一种基于基音频率及平滑处理的男女语音性别识别方法,依据倒谱法,以应用于男女性别识别,也可应用于语音分析应用的多个方面。
为实现上述技术目的,达到上述技术效果,本发明的方法包括为:
S1:男女语音训练阶段,对男性和女性语音进行预处理,然后提取其基音频率,建立匹配模型;
S2:男女语音采集阶段,采集男性/女性的语音,利用与S1相同的方法提取其基音频率,进行分析;
S3:平滑处理阶段,去除更多与所需参数无关的干扰,使得最终结果更具准确性;
S4:性别识别对比模块,将S2采集到的语音信号参数经过平滑处理后与S1建立的模型进行比对,得出性别判别结果。
进一步地,在S1中建立的模型是由大量男性女性语音经过提取得到的基音频率组成,其关键参数是男性和女性独立的基音频率的均值。
进一步地,本发明所用的语音信号文件的格式为.wav文件。
进一步地,本发明通过MATLAB软件来初步实现。
进一步地,根据S1建立的模型,系统会通过求均值的方法得到一个特征值,该特征值随测试数据的不断增多会越发趋于稳定以及准确。然后进行比对,若该性别特征值与S1所得的基音频率参数相比,大于S1所得的基音频率参数,则判定该语音信号是由女性发出的,若小于S1所得的基音频率参数,则判定该语音信号是由男性发出的。
进一步地,该性别特征比对模块将比对结果通过窗口形式即时显示,即直接显示输出性别判别结果。
有益效果
本发明提出了一种基于基音频率及平滑处理的男女语音性别识别方法,经过实际测试以及理论推导,本发明的判断准确性较高,实用性较强,可以经改善后应用于各种与语音信号有关的实际应用中。
附图说明
图1是本发明基于基音频率及平滑处理的男女语音性别识别方法的系统架构图;
图2是本发明男性/女性语音信号采集及软件实现的流程图;
图3是本发明的系统学习原理图;
图4是本发明的MATLAB图像显示样例;
图5是本发明的样例结果。
具体实施方式
以下结合附图说明本发明的实施方式,本发明可通过多种平台实现,也可在其他项目中加以应用。本说明书中的各项细节亦可基于不同的观点与应用,在不背离本发明的精神下进行各种修饰与变更。
根据图1所示的基于基音频率及平滑处理的男女语音性别识别方法的系统架构图,具体实施步骤如下:
(1)男女语音训练阶段;
(2)男女语音采集阶段;
(3)平滑处理阶段;
(4)性别识别对比模块。
步骤(1)中,要建立匹配模型,具体步骤如下:
11)手机采集音频文件;
12)将音频文件传到电脑以.wav文件格式保存,建立样本库;
13)获取关键基音频率参数;
14)获取最终建立的初始模型的判别值。
通过手机的录音功能,预先在安静的条件下录制好1000个人的语音,这一千人男女比例均衡,年龄层次符合大致的正态分布,即大部分人群的年龄在18-40之间,另外少部分的儿童及老人均考虑在内,地域分布方面,尽可能的按照全国各省份的人口比例来寻找合适的人群。如此,考虑的因素较多较全面,有利于提高系统判定的准确性和容错率,否则如果都找身边同年龄段的人分析训练,那么测试一个老人的声音时,错误率较高。
将录音文件全部导入电脑,要求文件格式为.wav文件,按顺序编号存入一个文件夹中,该文件夹即为样本库,初始存放1000个语音文件,之后每次测试都把测试的语音文件加入到此库中。
通过测试,发现绝大多数人发出声音的基音频率范围为50Hz-400Hz,正常情况下,男性发出声音的基音频率范围为50Hz-200Hz,女性发出声音的基音频率范围为150Hz-400Hz。然后获取第一个重要指标,对男性女性语音分别进行操作,对所有男性语音进行平滑处理后得到基音频率参数,对其求均值可以得到男性语音的基音频率的平均参数134.47Hz,同理,对所有女性语音进行平滑处理后得到基音频率参数,对其求均值可以得到女性语音的基音频率的平均参数241.31Hz。第二个重要指标,男性基音频率的最大值和女性基音频率的最小值,如果单纯地将这两个因素直接加入考虑,其偶然性较高,会导致错误率上升不少,所以,考虑到概率论与数理统计中的“3σ”准则,取出边缘对整体几乎没有影响的值,在剩下的值中选取男性基音频率的最大值189.75Hz和女性基音频率的最小值170.11Hz。
综合考虑男性女性基音频率的分布以及重要指标参数,得到最终建立的初始模型的判别值为179.49Hz。
其中平滑处理的目的是减小外界噪声,声音本身抖动不稳定等多种因素导致的波形不稳定以及所导致的误差,经平滑处理后所得的波形更加稳定,基音频率参数更加准确。
平滑处理的核心原理如下:
线性平滑处理是用滑动窗进行线性滤波处理,即
,
式中,x(n)是线性平滑处理之前的波形,y(n)是线性平滑处理之后的波形,其中n代表离散波形在各整数点处的取值;且{z(k)}(k=-N,-N+1,…,N)为2N+1点平滑窗,且满足;其中k代表平滑窗函数在各整数点处的取值,N决定平滑窗的长度,即2N+1点的平滑窗。
本实施例随机采样一个人的语音,将语音文件导入电脑,经过MATLAB中写好的函数并通过平滑处理,分析得到该语音的基音频率参数,将该参数与判别值比较,若大于判别值,则判定该语音信号是由女性发出的,若小于判别值,则判定该语音信号是由男性发出的。
在第一次进行测试时,通过分析得到的基音频率参数会和179.49Hz比较,大于此值则判断为女性,小于此值则判断为男性,判断完之后会将此基音频率参数加入库中,若该人为男性,则男性基音频率的平均值和最大值均有可能发生改变,若该人为女性,则女性基音频率的平均值和最小值均有可能发生改变。之后最终的判别值也会因此而改变。之后是第二次,第三次,第N次测试,每次测试都会导致判别值发生微小的变化,同时库中的样本越来越多。该判别值随测试数据的不断增多会越发趋于稳定以及准确。由此实现一种系统学习的效果。
综上所述,本发明一种基于基音频率及平滑处理的男女语音性别识别方法通过手机进行录音,并将音频文件传到电脑以.wav文件格式保存,通过分析得到其基音频率参数,并与之前的大量数据模型分析得到的参数进行比对,从而判断出发出声音者的性别。经过实际测试以及理论推导,本发明的判断准确性较高,实用性较强,可以经改善后应用于各种与语音信号有关的实际应用中。
上述方法仅用于说明本发明的原理及功能,而非用于限制本发明。任何本领域技术人员可在不违背本发明的精神及范畴下,对上述方法进行修饰与改变。
Claims (6)
1.一种基于基音频率及平滑处理的男女语音性别识别方法,其特征在于:所述方法是利用基音进行检测分析,提取基音频率,再通过平滑处理获得匹配模型的判别值,实现男女性别识别。
2.根据权利要求1所述的方法,其特征在于:包括如下步骤:
S1:男女语音训练阶段,先对男性和女性语音进行预处理,然后提取其基音频率,建立匹配模型;
S2:男女语音采集分析阶段,采集男性/女性的语音,利用与步骤S1相同的方法提取其基音频率,进行分析;
S3:平滑处理,去除更多与所需参数无关的干扰,使得最终结果更具准确性;
S4:性別识别比对模块,利用步骤S1建立的模型,将步骤S2采集到的语音信号经过处理后获得的参数经过步骤S3平滑处理后与步骤S1建立的模型进行比对,得出性别判别结果。
3.根据权利要求2所述的方法,其特征在于:上述平滑处理的核心是用滑动窗进行线性滤波处理,即
,
式中,x(n)是线性平滑处理之前的波形,y(n)是线性平滑处理之后的波形,其中n代表离散波形在各整数点处的取值;且{z(k)}(k=-N,-N+1,…,N)为2N+1点平滑窗,且满足;其中k代表平滑窗函数在各整数点处的取值;N决定平滑窗的长度,即2N+1点的平滑窗。
4.根据权利要求2所述的方法,其特征在于:所述步骤S1中,所建立的模型是由大量男性女性语音经过提取得到的多个关键基音频率参数组成:
A.对所有男性语音进行平滑处理后得到基音频率参数,对其求均值可以得到男性语音的基音频率的平均参数134.47Hz;
B.对所有女性语音进行平滑处理后得到基音频率参数,对其求均值可以得到女性语音的基音频率的平均参数241.31Hz;
C.根据概率论与数理统计中的“3σ”准则,取出边缘对整体几乎没有影响的值,在剩下的男性基音频率参数中选取最大值189.75Hz;
D.根据概率论与数理统计中的“3σ”准则,取出边缘对整体几乎没有影响的值,在剩下的女性基音频率参数中选取最小值170.11Hz;
E. 综合考虑男性女性基音频率的分布以及重要指标参数,得到最终建立的初始模型的判别值为179.49Hz。
5.根据权利要求4所述的方法,其特征在于:所述步骤E中,每次测试完毕后,新的语音均会加入模型库,求得的判别值随测试数据的不断增多会越发趋于稳定以及准确,即系统学习的过程。
6.根据权利要求2所述的方法,其特征在于:所述步骤S4中,通过步骤S2得到的语音信号并经步骤S3处理获取到的基音频率参数与步骤S1所得的判别值对比,若该基音频率参数大于判别值,则判定该语音信号是由女性发出的,若基音频率参数小于判别值,则判定该语音信号是由男性发出的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522085.4A CN109616099A (zh) | 2018-12-13 | 2018-12-13 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811522085.4A CN109616099A (zh) | 2018-12-13 | 2018-12-13 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109616099A true CN109616099A (zh) | 2019-04-12 |
Family
ID=66008428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811522085.4A Pending CN109616099A (zh) | 2018-12-13 | 2018-12-13 | 一种基于基音频率及平滑处理的男女语音性别识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616099A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN112614503A (zh) * | 2020-12-14 | 2021-04-06 | 北京远鉴信息技术有限公司 | 心音信号的处理方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080077880A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 |
US20110153317A1 (en) * | 2009-12-23 | 2011-06-23 | Qualcomm Incorporated | Gender detection in mobile phones |
CN102693721A (zh) * | 2012-06-26 | 2012-09-26 | 苏州科技学院 | 简易语音性别检测装置及方法 |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN103680518A (zh) * | 2013-12-20 | 2014-03-26 | 上海电机学院 | 基于虚拟仪器技术的语音性别识别方法及系统 |
CN105185385A (zh) * | 2015-08-11 | 2015-12-23 | 东莞市凡豆信息科技有限公司 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
-
2018
- 2018-12-13 CN CN201811522085.4A patent/CN109616099A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080077880A (ko) * | 2007-02-21 | 2008-08-26 | 인하대학교 산학협력단 | 피치 특징 벡터와 서포트 벡터머신을 이용한 음성신호에기초한 성별 인식 방법 |
US20110153317A1 (en) * | 2009-12-23 | 2011-06-23 | Qualcomm Incorporated | Gender detection in mobile phones |
US20130268273A1 (en) * | 2012-04-10 | 2013-10-10 | Oscal Tzyh-Chiang Chen | Method of recognizing gender or age of a speaker according to speech emotion or arousal |
CN102693721A (zh) * | 2012-06-26 | 2012-09-26 | 苏州科技学院 | 简易语音性别检测装置及方法 |
CN103680518A (zh) * | 2013-12-20 | 2014-03-26 | 上海电机学院 | 基于虚拟仪器技术的语音性别识别方法及系统 |
CN105185385A (zh) * | 2015-08-11 | 2015-12-23 | 东莞市凡豆信息科技有限公司 | 基于性别预判与多频段参数映射的语音基音频率估计方法 |
Non-Patent Citations (4)
Title |
---|
尹巧萍,赵力: "利用语音基音统计特征的说话人性别判识的研究", 《2007’促进西部发展声学学术交流会论文集》 * |
李祥等: "一种基于MATLAB实现的男女声识别算法", 《仪表技术》 * |
王治平,赵力,邹采荣: "基于基音参数规整及统计分布模型距离的语音情感识别", 《声学学报》 * |
马英等: "一种基音周期检测中减小中值平滑误差的方法", 《新疆师范大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN112614503A (zh) * | 2020-12-14 | 2021-04-06 | 北京远鉴信息技术有限公司 | 心音信号的处理方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dibazar et al. | Feature analysis for automatic detection of pathological speech | |
CN100418480C (zh) | 基于心音分析的心脏病自动分类系统及其心音分段方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN105976809A (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN112259104B (zh) | 一种声纹识别模型的训练装置 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN105448291A (zh) | 基于语音的帕金森症检测方法及检测系统 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN105869658B (zh) | 一种采用非线性特征的语音端点检测方法 | |
Reggiannini et al. | A flexible analysis tool for the quantitative acoustic assessment of infant cry | |
US20180277146A1 (en) | System and method for anhedonia measurement using acoustic and contextual cues | |
CN109285551A (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
CN113221673B (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
CN110070888A (zh) | 一种基于卷积神经网络的帕金森语音识别方法 | |
CN110299141A (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
Gold et al. | Issues and opportunities: The application of the numerical likelihood ratio framework to forensic speaker comparison | |
CN109616099A (zh) | 一种基于基音频率及平滑处理的男女语音性别识别方法 | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
Li | Automatic language identification using syllabic spectral features | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
Jena et al. | Gender recognition of speech signal using knn and svm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190412 |