CN110197657A - 一种基于余弦相似度的动态音声特征提取方法 - Google Patents

一种基于余弦相似度的动态音声特征提取方法 Download PDF

Info

Publication number
CN110197657A
CN110197657A CN201910430464.9A CN201910430464A CN110197657A CN 110197657 A CN110197657 A CN 110197657A CN 201910430464 A CN201910430464 A CN 201910430464A CN 110197657 A CN110197657 A CN 110197657A
Authority
CN
China
Prior art keywords
voice
signal
dimension
cosine similarity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910430464.9A
Other languages
English (en)
Other versions
CN110197657B (zh
Inventor
左毅
艾佳琪
李铁山
陈俊龙
肖杨
贺培超
刘君霞
马赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN201910430464.9A priority Critical patent/CN110197657B/zh
Publication of CN110197657A publication Critical patent/CN110197657A/zh
Application granted granted Critical
Publication of CN110197657B publication Critical patent/CN110197657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于余弦相似度的动态音声特征提取方法,包括以下步骤:S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT‑Cepstrum Coefficient)倒谱系数;S3:对语音的频域信号进行相邻维之间的余弦相似度计算;S4:找到余弦相似度的两列最大相邻维进行合并;S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征;S6:将语音特征以直方图形式表示。

Description

一种基于余弦相似度的动态音声特征提取方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于余弦相似度的动态音声特征提取方法。
背景技术
语音识别由语音特征提取、语音识别模型建立和说话人识别三个部分组成。其中语音特征提取在整个说话人识别过程中至关重要,有效地提取出表示说话人本质特点的语音特征将使得模型的语音分类识别更为准确,识别率更高。目前常用的特征有MFCC(梅尔频率倒谱系数)、Fbank(Filterbank feature)、PLP(Linear Predictive Coding)等,目前这一领域使用MFCC作为语音特征的应用较为多见。
虽然MFCC是最受欢迎的音声特征表现,但它有两个主要的缺点。第一,它们是从10ms到50ms的窗函数估计的,因此不能捕获信号中的长期特征。第二,MFCC认为语音信号的相邻帧间相互独立,这样导致特征提取过程中丢失了语音信号的动态特征。本发明介绍的新方法是以动态结合方法获得说话人的频率分布,不仅抗噪声干扰能力强,还能体现出语音信号的动态特性和语音信号中所含有的类别信息。
发明内容
根据现有语音特征提取过程中存在的问题,本发明公开了一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:
S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,采用窗口函数将语音信号分解为一定长度的帧;
S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换(IDCT-Cepstrum Coefficient)倒谱系数;
S3:对语音的频域信号进行相邻维之间的余弦相似度计算;
S4:找到余弦相似度最大的两列相邻维进行合并;
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-Cepstrum Coefficient):
C(q)=IDCT{log|DCT{x(k)}|} q=1…,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的320维的IDCT CepstrumCoefficient语音特征。
进一步的,采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
本发明公开的一种基于余弦相似度的动态音声特征提取方法,基于遮掩效应本发明公开的方法是利用人耳听觉模型建立的IDCT倒谱系数,并将IDCT倒谱系数进行降维。本发明将320维IDCT-Cepstrum Coefficient根据相邻维的余弦相似度进行合并,最终从320维语音频域信号得到14维的语音特征向量,我们称之为C-Vector。C-Vector的语音特征不仅在说话人识别精度上更高,且在识别速度上也更快。本发明的语音特征提取方法在说话人识别精度方面比传统的MFCC语音特征高,其有效性在多人文本无关语音集下表现得更为明显。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的实施流程图;
图2为经过频域变换的320维IDCT-Cepstrum Coefficient
图3为基于余弦相似度的层次聚类分析
图4为本发明提出的14维语音频域特征向量C-Vector
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于余弦相似度的动态音声特征提取方法,具体包括以下步骤:
S1:采用预加重、分帧和加窗方法对时域语音信号进行预处理,采用窗口函数将语音信号分解为一定长度的帧。预处理是在提取特征之前对时域语音信号所做的一些预处理,具体采用的方式如下。
①预加重:由于人体构造和发音特点等原因,频率高于800Hz的频段会有6dB的衰减,预加重就是来弥补这部分的损失,预加重过程采用传递函数为式(3)的数字滤波器进行实现。
H(z)=1-uz-1 (3)
其中u为常数,通常取u=0.97。
②分帧:由于语音信号有短时平稳特性,可以把语音信号分为一些短段来进行处理,这就是分帧。为了保证语音信号的连续性,实现相邻帧之间的平滑过渡,一般会让前后两帧之间有一定的交叠。由于语音信号不具有长时平稳性,因而需要对语音信号分帧以利用其短时平稳性。本发明取帧长为320,帧移为100。
③加窗实现方法是采用不断移动的有限长度的窗口与原始信号相乘,所得结果就是各个分帧数据,一般窗函数选用汉明窗。其中本发明使用汉明窗。
汉明窗的窗函数:
S2:将语音时域信号转换成频域信号,获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数,具体分为三个步骤。
S21:离散余弦变换,将前面经过预处理的语音信号,即时域信号进行离散余弦变换(DCT),求出线性频谱X(k);
S22:然后将X(k)经过对数能量处理,得到对数频谱S(m);
S23:将S(m)经过离散余弦反变换(IDCT)得到倒谱频域。得到320维IDCT-CepstrumCoefficient。如图2所示,其中,vi,vj是相邻的两维。
S3:分别计算320维语音频域信号的相邻维的余弦相似度,如表1所示,l1表示第一维数据与第二维数据的余弦相似度,以此类推l2是第二维与第三维的余弦相似度。
表1如下:
cosθ<sub>1</sub> cosθ<sub>2</sub> cosθ<sub>3</sub> ...... cosθ<sub>317</sub> cosθ<sub>318</sub> cosθ<sub>319</sub> 最大值
I<sub>1</sub> L<sub>2</sub> L<sub>3</sub> L<sub>317</sub> L<sub>318</sub> L<sub>319</sub> L<sub>2</sub>
S4:,找出余弦相似度最大的相邻两维进行合并,进而得到319维的特征。处理过程如图3所示。
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
进一步的,采用如下算法获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数:
C(g)=IDCT{log|DCT{x(k)}|} q=1...,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的IDCT-CepstrumCoefficient语音特征。
进一步的,采用余弦公式计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。

Claims (3)

1.一种基于余弦相似度的动态音声特征提取方法,其特征在于包括以下步骤:
S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号,利用窗口函数将语音信号分解为一定长度的帧;
S2:将语音时域信号转换成频域信号,获取每帧语音频域信号的320维的离散余弦反变换IDCT倒谱系数;
S3:对语音的频域信号进行相邻维之间的余弦相似度计算;
S4:找到余弦相似度最大的两列相邻维进行合并;
S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量;
S6:将语音特征向量以直方图形式表示。
2.根据权利要求1所述的一种基于余弦相似度的动态音声特征提取方法,其特征还在于:采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-CepstrumCoefficient):
C(q)=IDCT{log|DCT{x(k)}|} q=1…,M-1 (1)
其中:x(k)为时域信号,C(q)为倒谱系数,C(q)就是得到的IDCT CepstrumCoefficient语音特征。
3.根据权利要求1所述的一种基于余弦相似度的动态音声特征提取方法,其特征还在于:采用余弦公式(2)计算相邻维的特征向量之间的相似度,其中余弦相似度计算公式如下:
其中:νi代表第i维特征向量,νj代表第j维特征向量。
CN201910430464.9A 2019-05-22 2019-05-22 一种基于余弦相似度的动态音声特征提取方法 Active CN110197657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430464.9A CN110197657B (zh) 2019-05-22 2019-05-22 一种基于余弦相似度的动态音声特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430464.9A CN110197657B (zh) 2019-05-22 2019-05-22 一种基于余弦相似度的动态音声特征提取方法

Publications (2)

Publication Number Publication Date
CN110197657A true CN110197657A (zh) 2019-09-03
CN110197657B CN110197657B (zh) 2022-03-11

Family

ID=67751640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430464.9A Active CN110197657B (zh) 2019-05-22 2019-05-22 一种基于余弦相似度的动态音声特征提取方法

Country Status (1)

Country Link
CN (1) CN110197657B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051572A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 语音识别方法、装置以及计算机设备
CN112945376A (zh) * 2021-03-24 2021-06-11 东风汽车集团股份有限公司 车辆外后视镜镜片调节电机噪音检测方法、系统及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US20150189296A1 (en) * 2011-12-22 2015-07-02 Samsung Electronics Co., Ltd. Video encoding method using offset adjustment according to classification of pixels by maximum encoding units and apparatus thereof, and video decoding method and apparatus thereof
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108877809A (zh) * 2018-06-29 2018-11-23 北京中科智加科技有限公司 一种说话人语音识别方法及装置
CN109767756A (zh) * 2019-01-29 2019-05-17 大连海事大学 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法
US20150189296A1 (en) * 2011-12-22 2015-07-02 Samsung Electronics Co., Ltd. Video encoding method using offset adjustment according to classification of pixels by maximum encoding units and apparatus thereof, and video decoding method and apparatus thereof
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108877809A (zh) * 2018-06-29 2018-11-23 北京中科智加科技有限公司 一种说话人语音识别方法及装置
CN109767756A (zh) * 2019-01-29 2019-05-17 大连海事大学 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.AL-RAWAHY ET AL: ""Text-independent speaker identification system based on the histogram of DCT-cepstrum coefficients"", 《INTERNATIONAL JOURNAL OF KNOWLEDGE-BASED IN INTELLIGENT ENGINEERING SYSTEMS》 *
谷重阳: ""基于词汇语义信息的文本相似度计算"", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051572A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 语音识别方法、装置以及计算机设备
CN112945376A (zh) * 2021-03-24 2021-06-11 东风汽车集团股份有限公司 车辆外后视镜镜片调节电机噪音检测方法、系统及介质

Also Published As

Publication number Publication date
CN110197657B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN109192213B (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
CN110909613A (zh) 视频人物识别方法、装置、存储介质与电子设备
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
Hidayat et al. Denoising speech for MFCC feature extraction using wavelet transformation in speech recognition system
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
WO2014153800A1 (zh) 语音识别系统
KR20000004972A (ko) 음성 반응 장치에서 사용하기 위한 특징 발생 방법과 장치 및음성 인식 방법과 장치
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN106782500A (zh) 一种基于基音周期和mfcc的融合特征参数提取方法
CN110197657A (zh) 一种基于余弦相似度的动态音声特征提取方法
CN108172214A (zh) 一种基于Mel域的小波语音识别特征参数提取方法
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
CN110875037A (zh) 语音数据处理方法、装置及电子设备
Kim et al. Speech recognition using hidden markov models in embedded platform
Zhang et al. Robust Speaker Recognition Using Improved GFCC and Adaptive Feature Selection
CN114550741A (zh) 一种语义识别的方法和系统
Rahman et al. Continuous bangla speech segmentation, classification and feature extraction
Iswarya et al. Speech query recognition for Tamil language using wavelet and wavelet packets
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Indumathi et al. An efficient speaker recognition system by employing BWT and ELM
KR101047104B1 (ko) 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant