CN106782568A - 一种频率极值和均值结合的声纹过滤方法 - Google Patents
一种频率极值和均值结合的声纹过滤方法 Download PDFInfo
- Publication number
- CN106782568A CN106782568A CN201611029653.8A CN201611029653A CN106782568A CN 106782568 A CN106782568 A CN 106782568A CN 201611029653 A CN201611029653 A CN 201611029653A CN 106782568 A CN106782568 A CN 106782568A
- Authority
- CN
- China
- Prior art keywords
- frequency
- average
- vocal print
- voiceprint recognition
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 9
- 230000001755 vocal effect Effects 0.000 title claims description 9
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000036632 reaction speed Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Alarm Systems (AREA)
Abstract
本发明的目的是提供一种通过提取目标用户声谱图中非空的最高频率、最低频率和均值,来进行声纹识别前的初步筛选,降低声纹模型的计算量,提高声纹识别效率。
Description
技术领域
本发明属于声波通讯领域,是一种通过采集声谱图的频率极值和均值结合对声纹数据进行初步过滤的方法。
背景技术
声纹的识别作为一项可靠的技术在人们日常生活中发挥越来越重要的作用。例如可以通过声纹识别犯罪分子,声纹也可以用来考勤,门禁出入管理等。
但是都有一个共同的问题,声纹数据采集量大,比对模型运算量大,反应速度慢,影响实际使用中用户体验。特别是应用于广大民用设备上的时候,方便快捷是使用过程中必须要考虑的问题。
目前解决的主要技术包括:
1、利用一个人鼻音、带深呼吸音、沙哑音、笑声等辅助判断;
2、利用受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等辅助判断;
3、利用个人特点如韵律、节奏、速度、语调、音量等特征。
发明内容
本发明的目的是提供一种通过声谱图的最高频率、最低频率以及频率均值对声纹数据进行初步过滤的方法。简单易用,初步过滤快速。所述方法包括:
1、首先将目标样本(说话人)的语音生成一个声谱图,记录说话人声音;
2、将这段语音按照一定时间段(如0.1秒)进行分割,分为很多帧;
2、分析每一帧声谱图中最高频率E1和最低频率E2和平均频率E3,并记录保存;
4、对测试样本中的所有语音进行步骤1-3的操作,得到每一帧的最高频率E1`和最低频率E2`和平均频率E3`:
5、计算测试样本和目标样本E1、E2、E3之间的偏差,小于设定的阈值为合格样本,不合格的样本将直接剔除。这样减少声纹比对模型的运算量,提高识别效率。
本发明提供了一种声纹识别的过滤方法,其创新点包括:
1、提取目标样本声谱图的极值和均值数据进行初步过滤;
2、分析每一帧声谱图中非空最高频率、最低频率和频率均值作为对比数据。
附图说明
图1 是本发明目标用户数据提取示意图;
图2 是本发明声谱图比对流程示意图;
图3 是本发明目标用户数据提取流程图。
具体实施方式
结合附图给出本发明的一个具体实施例。
本发明的目的是提供一种通过提取目标用户声谱图中非空的最高频率、最低频率和均值,来进行声纹识别前的初步筛选,降低声纹模型的计算量,提高声纹识别效率。
首先,我们警察通过声纹识别的场景。
罪犯张三(目标用户)说了一段话,我们通过录音设备记录下来,首先形成频谱图,然后按照一定时间段(如0.1秒)进行分割,分为很多帧。通过FFT变换形成声谱图。
我们对每一帧的非空频率(即这个频率段有声强数据),提取其最大频率、最小频率,并对所有非空频率进行平均得到频率均值。假设得到的数据为:
0-0.1秒这一帧 {最高频率,最低频率,均值}为{3500,1200 ,3000}
0.1-0.2秒这一帧 {最高频率,最低频率,均值}为{1500,200 ,1000}
…
…
2.9-3.0秒这一帧 {最高频率,最低频率,均值}为{4500,2200 ,3000}
将这些数据记录下来,以备后面的对比运算。
现在有一批犯罪嫌疑人(测试用户)的声音数据,我们对其进行FFT变换分别提取每一个人的最高频率,最低频率,均值。
假设李四的数据为:
0-0.1秒这一帧 {最高频率,最低频率,均值}为{9500,3200 ,6000}
0.1-0.2秒这一帧 {最高频率,最低频率,均值}为{7500,1200 ,3000}
…
…
2.9-3.0秒这一帧 {最高频率,最低频率,均值}为{14500,2200 ,9000}
王五的数据为:
0-0.1秒这一帧 {最高频率,最低频率,均值}为{3700,1100 ,2800}
0.1-0.2秒这一帧 {最高频率,最低频率,均值}为{1600,300 ,1000}
…
…
2.9-3.0秒这一帧 {最高频率,最低频率,均值}为{4800,2000 ,4000}
计算犯罪嫌疑人的数据和罪犯数据的方差,(E1`-E1)2+(E2`-E2)2+(E3`-E3)2。当其值小于设定值(如10000)为合格数据,可以通过初步筛选。反之,直接排除,不参加后面的声纹模型识别。
Claims (2)
1.本发明的目的是提供一种提高声纹识别效率的方法,其特征在于:通过提取目标用户声谱图中极值和均值,来进行声纹识别前的初步筛选,降低声纹模型的计算量,提高声纹识别效率。
2.根据权利要求1所述的一种提高声纹识别效率的方法,其特征在于:分析每一帧声谱图中非空最高频率、最低频率和频率均值作为对比数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611029653.8A CN106782568A (zh) | 2016-11-22 | 2016-11-22 | 一种频率极值和均值结合的声纹过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611029653.8A CN106782568A (zh) | 2016-11-22 | 2016-11-22 | 一种频率极值和均值结合的声纹过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782568A true CN106782568A (zh) | 2017-05-31 |
Family
ID=58970323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611029653.8A Pending CN106782568A (zh) | 2016-11-22 | 2016-11-22 | 一种频率极值和均值结合的声纹过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782568A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101884551A (zh) * | 2009-05-15 | 2010-11-17 | 深圳迈瑞生物医疗电子股份有限公司 | 提高超声多普勒成像自动调整性能的方法及其超声系统 |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
WO2015191140A2 (en) * | 2014-03-24 | 2015-12-17 | Taylor Thomas Jason | Voice-key electronic commerce |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
-
2016
- 2016-11-22 CN CN201611029653.8A patent/CN106782568A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101884551A (zh) * | 2009-05-15 | 2010-11-17 | 深圳迈瑞生物医疗电子股份有限公司 | 提高超声多普勒成像自动调整性能的方法及其超声系统 |
WO2015191140A2 (en) * | 2014-03-24 | 2015-12-17 | Taylor Thomas Jason | Voice-key electronic commerce |
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN106128465A (zh) * | 2016-06-23 | 2016-11-16 | 成都启英泰伦科技有限公司 | 一种声纹识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
杨义先等: "《中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集上》", 30 September 2008, 国防工业出版社 * |
石柱: "声纹识别的应用与矢量量化算法研究", 《电声技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322886A (zh) * | 2018-03-29 | 2019-10-11 | 北京字节跳动网络技术有限公司 | 一种音频指纹提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101894548B (zh) | 一种用于语种识别的建模方法及装置 | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
CN103280220A (zh) | 一种实时的婴儿啼哭声识别方法 | |
CN104021789A (zh) | 一种利用短时时频值的自适应端点检测方法 | |
CN110931022B (zh) | 基于高低频动静特征的声纹识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
Shokouhi et al. | Robust overlapped speech detection and its application in word-count estimation for prof-life-log data | |
CN104064196B (zh) | 一种基于语音前端噪声消除的提高语音识别准确率的方法 | |
CN106548786A (zh) | 一种音频数据的检测方法及系统 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
Chamoli et al. | Detection of emotion in analysis of speech using linear predictive coding techniques (LPC) | |
CN111540368A (zh) | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 | |
Thomas et al. | Acoustic and data-driven features for robust speech activity detection | |
CN106782568A (zh) | 一种频率极值和均值结合的声纹过滤方法 | |
CN106128480A (zh) | 一种对带噪语音进行语音活动检测的方法 | |
Ruinskiy et al. | Spectral and textural feature-based system for automatic detection of fricatives and affricates | |
CN105336327B (zh) | 音频数据的增益控制方法及装置 | |
Galgali et al. | Speaker profiling by extracting paralinguistic parameters using mel frequency cepstral coefficients | |
Islam et al. | A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 | |
CN108172234A (zh) | 一种基于svm的音频噪声检测方法 | |
Mittal et al. | Multiclass SVM based Spoken Hindi Numerals Recognition. | |
CN109841229A (zh) | 一种基于动态时间规整的新生儿哭声识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |