CN110197657B - 一种基于余弦相似度的动态音声特征提取方法 - Google Patents
一种基于余弦相似度的动态音声特征提取方法 Download PDFInfo
- Publication number
- CN110197657B CN110197657B CN201910430464.9A CN201910430464A CN110197657B CN 110197657 B CN110197657 B CN 110197657B CN 201910430464 A CN201910430464 A CN 201910430464A CN 110197657 B CN110197657 B CN 110197657B
- Authority
- CN
- China
- Prior art keywords
- voice
- frequency domain
- signal
- domain signal
- cosine similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000009432 framing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于余弦相似度的动态音声特征提取方法,包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT‑Cepstrum Coefficient)倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度的两列最大相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征;S6:将语音特征以直方图形式表示。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于余弦相似度的动态音声特征提取方法。
背景技术
语音识别由语音特征提取、语音识别模型建立和说话人识别三个部分组成。其中语音特征提取在整个说话人识别过程中至关重要,有效地提取出表示说话人本质特点的语音特征将使得模型的语音分类识别更为准确,识别率更高。目前常用的特征有MFCC(梅尔频率倒谱系数)、Fbank(Filterbank feature)、PLP(Linear Predictive Coding)等,目前这一领域使用MFCC作为语音特征的应用较为多见。
虽然MFCC是最受欢迎的音声特征表现,但它有两个主要的缺点。第一,它们是从10ms到50ms的窗函数估计的,因此不能捕获信号中的长期特征。第二,MFCC认为语音信号的相邻帧间相互独立,这样导致特征提取过程中丢失了语音信号的动态特征。本发明介绍的新方法是以动态结合方法获得说话人的频率分布,不仅抗噪声干扰能力强,还能体现出语音信号的动态特性和语音信号中所含有的类别信息。
发明内容
根据现有语音特征提取过程中存在的问题,本发明公开了一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:
S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;
S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT-Cepstrum Coefficient)倒谱系数;
S3:对语音的频域信号进行相邻维之间的余弦相似度计算;
S4:找到余弦相似度最大的两列相邻维进行合并;
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-Cepstrum Coefficient):
C(q)=IDCT{log|DCT{x(k)}|} q=1…,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的320维的IDCT CepstrumCoefficient语音特征。
进一步的,采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
本发明公开的一种基于余弦相似度的动态音声特征提取方法,基于遮掩效应本发明公开的方法是利用人耳听觉模型建立的IDCT倒谱系数,并将IDCT倒谱系数进行降维。本发明将320维IDCT-Cepstrum Coefficient根据相邻维的余弦相似度进行合并,最终从320维语音频域信号得到14维的语音特征向量,我们称之为C-Vector。C-Vector的语音特征不仅在说话人识别精度上更高,且在识别速度上也更快。本发明的语音特征提取方法在说话人识别精度方面比传统的MFCC语音特征高,其有效性在多人文本无关语音集下表现得更为明显。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的实施流程图;
图2为经过频域变换的320维IDCT-Cepstrum Coefficient
图3为基于余弦相似度的层次聚类分析
图4为本发明提出的14维语音频域特征向量C-Vector
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:
S1:采用预加重、分帧和加窗方法对时域语音信号进行预处理,采用窗口函数将语音信号分解为一定长度的帧。预处理是在提取特征之前对时域语音信号所做的一些预处理,具体采用的方式如下。
①预加重:由于人体构造和发音特点等原因,频率高于800Hz的频段会有6dB的衰减,预加重就是来弥补这部分的损失,预加重过程采用传递函数为式(3)的数字滤波器进行实现。
H(z)=1-uz-1 (3)
其中u为常数,通常取u=0.97。
②分帧:由于语音信号有短时平稳特性,可以把语音信号分为一些短段来进行处理,这就是分帧。为了保证语音信号的连续性,实现相邻帧之间的平滑过渡,一般会让前后两帧之间有一定的交叠。由于语音信号不具有长时平稳性,因而需要对语音信号分帧以利用其短时平稳性。本发明取帧长为320,帧移为100。
③加窗实现方法是采用不断移动的有限长度的窗口与原始信号相乘,所得结果就是各个分帧数据,一般窗函数选用汉明窗。其中本发明使用汉明窗。
汉明窗的窗函数:
S2:将语音时域信号转换成频域信号,获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数,具体分为三个步骤。
S21:离散余弦变换,将前面经过预处理的语音信号,即时域信号进行离散余弦变换(DCT),求出线性频谱X(k);
S22:然后将X(k)经过对数能量处理,得到对数频谱S(m);
S23:将S(m)经过离散余弦反变换(IDCT)得到倒谱频域。得到320维IDCT-CepstrumCoefficient。如图2所示,其中,vi,vj是相邻的两维。
S3:分别计算320维语音频域信号的相邻维的余弦相似度,如表1所示,l1表示第一维数据与第二维数据的余弦相似度,以此类推l2是第二维与第三维的余弦相似度。
表1如下:
cosθ<sub>1</sub> | cosθ<sub>2</sub> | cosθ<sub>3</sub> | ...... | cosθ<sub>317</sub> | cosθ<sub>318</sub> | cosθ<sub>319</sub> | 最大值 |
I<sub>1</sub> | L<sub>2</sub> | L<sub>3</sub> | L<sub>317</sub> | L<sub>318</sub> | L<sub>319</sub> | L<sub>2</sub> |
S4:,找出余弦相似度最大的相邻两维进行合并,进而得到319维的特征。处理过程如图3所示。
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数:
C(g)=IDCT{log|DCT{x(k)}|} q=1...,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的IDCT-CepstrumCoefficient语音特征。
进一步的,采用余弦公式计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
Claims (1)
1.一种基于余弦相似度的动态音声特征提取方法,其特征在于包括以下步骤:
S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,利用窗口函数将语音信号分解为一定长度的帧;
S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换IDCT倒谱系数;
S3:对语音的频域信号进行相邻维之间的余弦相似度计算;
S4:找到余弦相似度最大的两列相邻维进行合并;
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示;
采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-CepstrumCoefficient):
C(q)=IDCT{log|DCT{x(k)}|}q=1…,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的IDCT CepstrumCoefficient语音特征;
采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910430464.9A CN110197657B (zh) | 2019-05-22 | 2019-05-22 | 一种基于余弦相似度的动态音声特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910430464.9A CN110197657B (zh) | 2019-05-22 | 2019-05-22 | 一种基于余弦相似度的动态音声特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197657A CN110197657A (zh) | 2019-09-03 |
CN110197657B true CN110197657B (zh) | 2022-03-11 |
Family
ID=67751640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910430464.9A Active CN110197657B (zh) | 2019-05-22 | 2019-05-22 | 一种基于余弦相似度的动态音声特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197657B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556126B (zh) * | 2019-09-16 | 2024-01-05 | 平安科技(深圳)有限公司 | 语音识别方法、装置以及计算机设备 |
CN112945376B (zh) * | 2021-03-24 | 2023-05-16 | 东风汽车集团股份有限公司 | 车辆外后视镜镜片调节电机噪音检测方法、系统及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
CN1773606A (zh) * | 2004-11-12 | 2006-05-17 | 中国科学院声学研究所 | 一种基于混淆网络的语音解码方法 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109767756A (zh) * | 2019-01-29 | 2019-05-17 | 大连海事大学 | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2950943C (en) * | 2011-12-22 | 2019-06-04 | Samsung Electronics Co., Ltd. | Video encoding method using offset adjustment according to classification of pixels by maximum encoding units and apparatus thereof, and video decoding method and apparatus thereof |
-
2019
- 2019-05-22 CN CN201910430464.9A patent/CN110197657B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
CN1773606A (zh) * | 2004-11-12 | 2006-05-17 | 中国科学院声学研究所 | 一种基于混淆网络的语音解码方法 |
CN108564954A (zh) * | 2018-03-19 | 2018-09-21 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109767756A (zh) * | 2019-01-29 | 2019-05-17 | 大连海事大学 | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 |
Non-Patent Citations (1)
Title |
---|
"Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients";S.Al-Rawahy et al;《International Journal of Knowledge-Based in Intelligent Engineering Systems》;20120531;第141-161页、附图6,9 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197657A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Këpuska et al. | Robust speech recognition system using conventional and hybrid features of MFCC, LPCC, PLP, RASTA-PLP and hidden Markov model classifier in noisy conditions | |
Hidayat et al. | Denoising speech for MFCC feature extraction using wavelet transformation in speech recognition system | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
WO2019232826A1 (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN105679321B (zh) | 语音识别方法、装置及终端 | |
Hidayat et al. | A Modified MFCC for Improved Wavelet-Based Denoising on Robust Speech Recognition. | |
Kumar et al. | Hindi speech recognition in noisy environment using hybrid technique | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
CN106128480B (zh) | 一种对带噪语音进行语音活动检测的方法 | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
Abka et al. | Speech recognition features: Comparison studies on robustness against environmental distortions | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Zhang et al. | Robust Speaker Recognition Using Improved GFCC and Adaptive Feature Selection | |
CN112750451A (zh) | 一种提升语音听感的降噪方法 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Indumathi et al. | An efficient speaker recognition system by employing BWT and ELM | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
CN117711419B (zh) | 用于数据中台的数据智能清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |