KR20050051435A - 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 - Google Patents

잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 Download PDF

Info

Publication number
KR20050051435A
KR20050051435A KR1020030085223A KR20030085223A KR20050051435A KR 20050051435 A KR20050051435 A KR 20050051435A KR 1020030085223 A KR1020030085223 A KR 1020030085223A KR 20030085223 A KR20030085223 A KR 20030085223A KR 20050051435 A KR20050051435 A KR 20050051435A
Authority
KR
South Korea
Prior art keywords
filter bank
log
energy
correlation
feature vector
Prior art date
Application number
KR1020030085223A
Other languages
English (en)
Other versions
KR100571427B1 (ko
Inventor
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030085223A priority Critical patent/KR100571427B1/ko
Publication of KR20050051435A publication Critical patent/KR20050051435A/ko
Application granted granted Critical
Publication of KR100571427B1 publication Critical patent/KR100571427B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 잡음 환경에서의 음성 인식을 위한 음성 신호의 특징 벡터 추출 장치 및 상기 장치에 적용되는 역상관 필터링 방법에 관한 것이다. 본 발명에 따른 음성 신호의 특징 벡터 추출 장치는 특징 벡터를 추출할 때 잡음으로 인한 영향을 최소화하기 위하여 로그 필터뱅크 에너지에 대해 역상관 필터링을 수행함으로써 음성 신호에 비해 비교적 느린 변화 성분을 갖는 잡음과 화자의 고유 성분을 제거할 수 있다. 이렇게 함으로써, 잡음 환경에서의 불특정 화자를 대상으로 하는 화자독립 음성인식 시스템에서 잡음 및 화자 변이의 영향을 줄여서 인식 성능을 향상시킬 수 있다. 따라서, 본 발명은 잡음 처리 외에 화자독립 음성인식 시스템의 인식 성능을 향상시키는 이점도 얻을 수 있다.

Description

잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치 및 역상관 필터링 방법{APPARATUS FOR EXTRACTING FEATURE VECTORS FOR SPEECH RECOGNITION IN NOISY ENVIRONMENT AND METHOD OF DECORRELATION FILTERING}
본 발명은 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치 및 역상관 필터의 설계 방법에 관한 것으로서, 더욱 상세하게는 음성 인식 분야의 잡음 환경에서 멜주파수 켑스트럼 계수(MFCC : Mel-Frequency Cepstrum Coeffients, 이하 'MFCC'라 함)와 같은 음성 특징 벡터를 추출하기 위한 장치와, 이러한 장치에서 고역 통과 필터(high pass filter)로 사용되는 역상관 필터(decorrelation filter)의 설계 방법에 관한 것이다.
음성 인식 기술에서 최종적인 인식 성능은 음성 특징 벡터의 추출 성능에 크게 의존한다. 최근, 이산 푸리에 변환(discrete Fourier Transform)을 이용하여 음성 신호의 특징을 표현하는 음성 특징 벡터로서 MFCC가 많이 사용되고 있다. 음성 신호로부터 음성 특징 벡터를 추출할 때에는 주변의 잡음 환경이 가장 변수가 된다. 즉, 음성 특징 벡터를 추출할 때, 주변 잡음이 상기 추출된 음성 특징 벡터에 영향을 미치지 않도록 하기 위한 대책이 요구된다.
이러한 잡음으로 인한 영향을 최소화하기 위하여, 잡음에 강한 음성 특징 벡터를 추출하는 방법과, 추출된 특징에 잡음으로 인한 영향을 보상하는 방법과, 음향 모델(acoustic model)에 잡음으로 인한 영향을 보상하는 방법이 알려져 있다.
상기 첫 번째 방법은 대부분 인간의 청각 모델(auditory model)을 기반으로 하며, 청각 특성의 복잡한 메커니즘을 그대로 적용하거나 상기 메커니즘을 간략화시켜서 적용한다. 그러나, 상기 첫 번째 방법은 많은 계산량을 유발하는데 비해 성능 향상은 크지 않다. 상기 두 번째 및 세 번째 방법은 잡음에 대한 통계치를 이용한다. 이들 방법은 알려진 잡음에 대해서는 좋은 성능을 보이지만, 실제 잡음 환경에서 매 순간마다 잡음의 정확한 통계치를 구하는 것이 매우 어려우므로, 실제 응용하기에는 어느 정도 한계가 있다.
따라서, 상기 방법들 중에서 음향학적 지식에 기반하여 잡음에 강인한 음성 특징 벡터를 추출하는 방법이 가장 단순하며, 잡음에 대처하는 것도 효과적이다.
현재의 음성 인식 기술은 실험실과 같은 환경에서는 안정된 성능을 보이지만, 실제 응용 환경에서는 잡음의 영향으로 인해 성능이 급격히 감소하는 경향이 있다. 이러한 잡음 문제를 해결하기 위하여, 위에서 설명된 바와 같은 다양한 방법들이 제시되어 왔으나, 잡음을 모델화하기가 쉽지 않고 잡음의 특성이 자주 변할 수 있다고 하는 문제는 여전히 존재한다. 따라서, 통계학적인 방법보다는 음향학적인 방법을 통해 잡음의 일반적인 특징을 이용하는 방법이 효과적이며, 잡음에 강한 음성 특징 벡터를 추출하는 방법이 그 해답이 될 수 있다. 본 발명은 현재 음성 특징 벡터로서 널리 사용되고 있는 MFCC 특징을 추출하는 장치에 관한 것이며, 이러한 MFCC 특징이 잡음에 강한 특성을 갖도록 한다.
도 1에는 종래의 음성 인식을 위한 특징 벡터 추출 장치가 개략적으로 도시되어 있으며, 상기 도 1의 장치에서 추출되는 음성 특징 벡터는 MFCC 특징 벡터이다.
상기 도 1에 도시된 바와 같이, 종래의 특징 벡터 추출 장치는 프레임 형성부(110), 전처리부(120), 푸리에 변환부(130), 멜주파수(Mel-frequency) 기반 필터뱅크 에너지(filter-bank energy) 추출부(140), 비선형 변환부(150) 및 이산코사인(discrete cosine) 변환부(160)로 구성되어 있다.
상기 프레임 형성부(110)는 음성 신호의 연속적인 단시간 스펙트럼 정보를 얻기 위해서 입력되는 음성 신호를 대략 10 msec마다 20 ~ 30 msec 길이의 프레임으로 분리한다.
상기 전처리부(120)는 각 프레임의 음성 신호에 대해 프리엠퍼시스(pre-emphasis) 처리와 해밍 윈도우(Hamming window) 처리를 수행한다. 상기 프리엠퍼시스 처리는 입력 신호의 고주파 성분을 강조하는 동작이며, 상기 해밍 윈도우 처리는 각 프레임의 경계에서의 불연속성을 최소화하기 위해 상기 프리엠퍼시스 처리된 음성 신호에 윈도우 함수를 곱하는 동작이다.
상기 푸리에 변환부(130)는 상기 전처리부(120)를 통과한 프레임별 음성 신호에 대해 푸리에 변환(Fourier transform)을 수행하여 스펙트럼 정보를 출력한다.
상기 멜주파수 기반 필터뱅크 에너지 추출부(140)는 상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성한다.
상기 비선형 변환부(150)는 상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 출력한다. 마지막으로, 상기 이산코사인 변환부(160)는 상기 로그 필터뱅크 에너지로부터 최종적인 MFCC 특징 벡터를 추출한다.
상기 설명된 MFCC 특징 벡터를 추출하기 위한 장치에서, 로그 필터뱅크 에너지(log filter-bank energy)에 대해 직접적인 고역 통과 필터(high pass filter)를 적용하여 잡음을 감소시키는 방법이 C.Nadeu et al.에 의해 "Time and frequency filtering of filter-bank energies for robust HMM speech recognition"(Speech communication Vol., No.34, pp.93-114, 2001)라는 명칭의 논문으로 발표되어 있다. 상기 선행 논문에서 제안된 방법은 일종의 주파수 필터링(frequency filtering)으로서, 로그 필터뱅크 에너지에 고역 통과 필터를 적용하여 잡음을 줄이고, 이렇게 얻어진 로그 필터뱅크 에너지를 음성 신호의 특징 벡터로서 사용한다. 그러나, 이러한 방법은 잡음 환경에 효과적으로 적용될 수 있으나, 적용되는 필터가 최적화된 것이 아니며, 로그 필터뱅크 에너지를 특징 벡터로 사용함으로 인해 음성 인식을 위한 파라미터의 수가 증가되는 문제점 있다.
본 발명은 상기 설명한 종래의 기술적 문제점을 해결하기 위한 것으로서, 고역 통과 필터로서 역상관 필터를 사용하여 MFCC 특징 벡터를 추출함으로써 잡음 환경에서도 인식 성능을 향상시킬 수 있는 특징 벡터 추출 장치 및 역상관 필터의 설계 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 특징 벡터 추출 장치는, 음성 신호를 입력받아 소정 길이를 갖는 복수의 프레임으로 분리하는 프레임 형성부; 상기 각 프레임의 음성 신호에 대해 프리엠퍼시스 처리와 해밍 윈도우 처리를 수행하는 전처리부; 상기 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 출력하는 푸리에 변환부; 상기 푸리에 변환을 통해 얻어진 스펙트럼에 복수의 구간을 설정하고, 각 구간별 에너지를 계산함으로써 필터뱅크 에너지를 생성하는 필터뱅크 에너지 추출부; 상기 생성된 필터뱅크 에너지에 로그 함수를 적용하여 로그 필터뱅크 에너지를 출력하는 비선형 변환부; 상기 로그 필터뱅크 에너지에 대해 고역 통과 필터링을 수행하여 잡음 성분을 제거하는 고역 통과 필터 적용부; 및, 상기 잡음 성분이 제거된 로그 필터뱅크 에너지로부터 특징 벡터를 추출하는 이산 코사인 변환부를 포함하는 것을 특징으로 한다.
또한, 상기 목적을 달성하기 위한 본 발명의 중요한 특징인 역상관 필터링 방법은 음성 신호를 푸리에 변환하여 스펙트럼 정보를 출력하고, 상기 스펙트럼에 설정된 구간별 에너지를 계산하여 필터뱅크 에너지를 얻으며, 상기 필터뱅크 에너지에 로그 함수를 적용하여 얻어진 로그 필터뱅크 에너지에 대해 역상관 필터링을 수행하기 위한 방법에 관한 것으로서,
특징 벡터의 차수별 분산을 추정하는 단계; 상기 추정된 특징 벡터의 차수별 분산을 이용하여 로그 필터뱅크 에너지의 파워 스펙트럼을 추정하는 단계; 상기 로그 필터뱅크 에너지의 상관 관계를 모델링하는 단계; 상기 상관 관계를 역수를 이용하여 역상관 함수를 구하는 단계; 및, 상기 역상관 함수에 대해 바이리니어 변환을 적용하여 역상관 필터링 응답 특성을 구하는 단계를 포함하는 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세하게 설명한다.
도 2에는 본 발명의 실시예에 따른 음성 인식을 위한 특징 벡터 추출 장치가 개략적으로 도시되어 있다.
상기 도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 특징 벡터 추출 장치는 프레임 형성부(110), 전처리부(120), 푸리에 변환부(130), 멜주파수(Mel-frequency) 기반 필터뱅크 에너지(filter-bank energy) 추출부(140), 비선형 변환부(150), 고역 통과 필터 적용부(210) 및 이산코사인(discrete cosine) 변환부(160)로 구성되어 있다. 도 3에는 상기 고역 통과 필터 적용부(210)가 보다 상세하게 도시되어 있으며, 상기 고역 통과 필터 적용부(210)는 상기 비선형 변환부(150)에서 출력된 로그 필터뱅크 에너지로부터 잡음 성분을 제거하기 위한 역상관 필터(211)를 포함하고 있다.
상기 프레임 형성부(110)는 음성 신호의 연속적인 단시간 스펙트럼 정보를 얻기 위해서 입력되는 음성 신호를 대략 10 msec마다 20 ~ 30 msec 길이의 프레임으로 분리한다.
상기 전처리부(120)는 각 프레임의 음성 신호에 대해 프리엠퍼시스(pre-emphasis) 처리와 해밍 윈도우(Hanmming window) 처리를 수행한다. 상기 프리엠퍼시스 처리는 입력 신호의 고주파 성분을 강조하는 동작이며, 상기 해밍 윈도우 처리는 각 프레임의 경계에서의 불연속성을 최소화하기 위해 상기 프리엠퍼시스 처리된 음성 신호에 윈도우 함수를 곱하는 동작이다.
상기 푸리에 변환부(130)는 상기 전처리부(120)를 통과한 프레임별 음성 신호에 대해 푸리에 변환(Fourier transform)을 수행하여 스펙트럼 정보를 출력한다. 상기 멜주파수 기반 필터뱅크 에너지 추출부(140)는 상기 푸리에 변환을 통해 얻어진 스펙트럼에 여러 개의 구간을 설정하고, 각 구간별 에너지를 구하여 필터뱅크 에너지를 생성한다.
상기 비선형 변환부(150)는 상기 생성된 필터뱅크 에너지에 로그(log) 함수를 적용하여 로그 필터뱅크 에너지를 출력한다. 상기 고역 통과 필터 적용부(210)는 상기 로그 필터뱅크 에너지에 대해 일종의 주파수 필터링으로서의 역상관 필터링을 적용한다. 도 3에는 고역 통과 필터로서 적용된 역상관 필터(211)가 도시되어 있으며, 상기 역상관 필터(211)는 비선형 변환부(150)에서 출력되는 로그 필터뱅크 에너지에서 잡음 성분을 제거한다. 상기 역상관 필터(211)는 로그 필터뱅크 에너지들 사이의 상관 관계를 없애는 것이며, 느린 변화 성분이 큰 상관 관계를 가지므로 결국 고역 통과 필터의 특성을 가진다.
마지막으로, 상기 이산코사인 변환부(160)는 상기 고역 통과 필터 적용부(210)에 의해 잡음 성분이 제거된 로그 필터뱅크 에너지로부터 최종적인 MFCC 특징 벡터를 추출한다.
현재 음성 인식 기술 분야에서 널리 사용되고 있는 MFCC 특징 벡터는 각 프레임당 12차의 벡터로 표현되며, MFCC 특징 벡터의 각 차수별 분포를 살펴보면, 저차(low order)의 분산이 고차(high order)의 분산에 비해 훨씬 큰 특성을 가진다. 이로 인해, 초기의 인식 기법인 DTW(Dynamic Time Warping) 방식에서는 저차의 값에 낮은 가중치를 고차의 값에 높은 가중치를 주는 방법이 제안된 바 있다. 그러나, 현재 많이 사용되는 인식 기법인 연속분포 HMM(Hidden Markov Model) 방식에서는 가우스 분포(Gaussian distribution)에 의존한 확률값에 따라 분류를 하므로, 자체적으로 분산의 정규화(normalization)가 이루어져 가중치를 주는 방법이 별 도움이 되지 않는다. 이러한 가중치 적용 방법은 MFCC 특징 벡터의 각 차수별 기여도를 동일시하는 이점도 있지만, 저차의 계수가 잡음에 약해 잡음에 강한 특징 벡터를 생성해내는 이점도 있다.
본 발명은 잡음에 강한 특징 벡터를 추출함으로써, 이러한 가중치 적용 방법을 현재 널리 사용되는 연속분포 HMM 인식 기법에서도 효과적으로 사용될 수 있도록 한다. MFCC 특징 벡터에서 가중치 효과를 주기 위해서, 본 발명에서는 도 2 및 도 3에 도시된 바와 같이 로그 필터뱅크 에너지에 대해 일종의 고역 통과 필터링인 역상관 필터링을 적용한 것에 특징이 있다. 다음으로, 도 4를 참조하여 본 발명의 실시예에 따른 특징 벡터 추출 장치에 적용되는 역상관 필터링 방법에 대해 설명한다.
앞서 설명한 바와 같이, 본 발명에서 적용되는 고역 통과 필터는 로그 필터뱅크 에너지에 대해 역상관(decorrelation) 관계를 갖도록 필터링 동작을 수행하는 역상관 필터이다.
상기 도 4에 도시된 바와 같이, 역상관 필터를 설계하기 위해 MFCC 특징 벡터의 특성이 분석된다. 즉, MFCC 특징 벡터의 차수별 분산 추정 단계(S10)가 수행된다. 상기 MFCC 특징 벡터는 저차일수록 큰 분산을 가지며, 이것은 아래의 수학식 1과 같이 표현될 수 있다.
상기 수학식 1에서 q는 MFCC 특징 벡터의 차수별 지수를 나타내며, C2(q)는 로그 필터뱅크 에너지의 파워 스펙트럼을 의미한다. 상기 C2(q)는 로그 필터뱅크 에너지의 상관 관계를 나타내는 척도이다.
다음으로, 상기 수학식 1을 적용하여 로그 필터뱅크 에너지의 파워 스펙트럼을 추정하는 단계(S20)가 수행된다. 이어서, 상기 수학식 1을 이용하여 로그 필터뱅크 에너지의 상관 관계를 모델링하는 단계(S30)가 수행된다.
다음으로, 상기 로그 필터뱅크 에너지의 상관 관계의 역수의 응답 특성을 갖는 필터 즉, 역상관 필터를 설계하는 단계(S40)가 수행된다. 본 발명에 적용되는 역상관 필터링은 이러한 상관 관계를 감소시키는 동작이므로, 역상관 필터의 동작은 아래의 수학식 2와 같이 표현된다.
즉, 상기 수학식 2와 같이 상관 관계의 역수에 의해 역상관 필터가 표현된다.
다음으로, 상기 수학식 2에 의해 표현된 역상관 함수에 대해 바이리니어(bilinear) 변환을 적용하는 단계(S50)가 수행된다. 상기 수학식 2에 대해 디지털 필터를 얻기 위해 바이리니어(bilinear) 변환을 적용하면, 아래의 수학식 3에 표현된 바와 같은 응답 특성이 얻어진다.
상기 수학식 3에서, x는 로그 필터뱅크 에너지이고, y는 역상관 필터링 후의 결과이다. 따라서, 본 발명에서는 로그 필터뱅크 에너지가 수학식 3의 응답 특성을 갖는 역상관 필터를 통과한 후, 상기 도 2의 이산 코사인 변환부(160)에 의해 잡음에 강한 MFCC 특징 벡터가 추출된다.
본 발명의 역상관 필터링은 상기 필터링 방법에 따라 로그 필터뱅크 에너지들 사이의 상관 관계를 없애는 것이며, 상기 역상관 필터링에 의해 로그 필터뱅크 에너지의 느린 변화 성분이 큰 상관 관계를 갖도록 필터링되므로, 결과적으로 상기 역상관 필터는 고역 통과 필터의 특성을 나타낸다. 따라서, 본 발명에서는 로그 필터뱅크 에너지에 있어서 음성 신호에 비해 느린 변화 성분을 갖는 잡음, 화자 고유의 성분을 상대적으로 큰 상관 관계를 갖는 것으로 판단하여, 고역 통과 필터를 직접 설계하는 것보다 역상관에 기반한 필터로 설계하였다. 본 발명에서 제안된 역상관 필터는 임의적인 고역 통과 필터가 아니라 MFCC 특징 벡터의 상관 관계 특성을 기초로 로그 필터뱅크 에너지 정보의 손실을 가장 최소화할 수 있다.
이상으로 설명된 바와 같이, 본 발명에 따른 음성 신호의 특징 벡터 추출 장치는 특징 벡터를 추출할 때 잡음으로 인한 영향을 최소화하기 위하여 로그 필터뱅크 에너지에 대해 역상관 필터링을 수행함으로써 음성 신호에 비해 비교적 느린 변화 성분을 갖는 잡음과 화자의 고유 성분을 제거할 수 있다. 이렇게 함으로써, 실제 응용황경에서 불특정 화자를 대상으로 하는 화자독립 음성인식 시스템에서 잡음 및 화자 변이의 영향을 줄여서 인식 성능을 향상시킬 수 있다. 따라서, 본 발명은 잡음 처리 외에 화자독립 음성인식 시스템의 인식 성능을 향상시키는 이점도 얻을 수 있다.
이상으로 설명한 것은 본 발명에 따른 특징 벡터 추출 장치 및 역상관 필터링 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 미친다고 할 것이다.
도 1은 종래의 음성 인식을 위한 특징 벡터 추출 장치를 개략적으로 나타낸 도면.
도 2는 본 발명의 실시예에 따른 음성 인식을 위한 특징 벡터 추출 장치를 개략적으로 나타낸 도면.
도 3은 상기 도 2의 고역 통과 필터 적용부를 보다 상세하게 나타낸 도면.
도 4는 상기 도 3에 도시된 역상관(decorrelation) 필터링 방법을 나타낸 도면.
<도면의 주요부분에 대한 부호의 설명>
110 : 프레임 형성부 120 : 전처리부
130 : 푸리에 변환부
140 : Mel-주파수기반 필터뱅크에너지 추출부
150 : 비선형 변환부 160 : 이산 코사인 변환부
210 : 고역 통과 필터 적용부 211 : 역상관 필터

Claims (8)

  1. 음성 신호를 입력받아 소정 길이를 갖는 복수의 프레임으로 분리하는 프레임 형성부;
    상기 각 프레임의 음성 신호에 대해 프리엠퍼시스 처리와 해밍 윈도우 처리를 수행하는 전처리부;
    상기 각 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 출력하는 푸리에 변환부;
    상기 푸리에 변환을 통해 얻어진 스펙트럼에 복수의 구간을 설정하고, 각 구간별 에너지를 계산함으로써 필터뱅크 에너지를 생성하는 필터뱅크 에너지 추출부;
    상기 생성된 필터뱅크 에너지에 로그 함수를 적용하여 로그 필터뱅크 에너지를 출력하는 비선형 변환부;
    상기 로그 필터뱅크 에너지에 대해 고역 통과 필터링을 수행하여 잡음 성분을 제거하는 고역 통과 필터 적용부; 및
    상기 잡음 성분이 제거된 로그 필터뱅크 에너지로부터 특징 벡터를 추출하는 이산 코사인 변환부를 포함하는 것을 특징으로 하는
    특징 벡터 추출 장치.
  2. 제1항에 있어서,
    상기 고역 통과 필터 적용부는 상기 로그 필터뱅크 에너지에 대해 역상관 관계를 갖도록 필터링 동작을 수행하는 역상관 필터를 포함하는 것을 특징으로 하는
    특징 벡터 추출 장치.
  3. 제2항에 있어서,
    상기 역상관 필터는 잡음 뿐만 아니라 로그 필터뱅크 에너지에 있어서 음성 신호에 비해 느린 변화 성분을 갖는 화자 고유의 성분도 제거하는 것을 특징으로 하는
    특징 벡터 추출 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 고역 통과 필터는 로그 필터뱅크 에너지의 상관 관계를 추정하고, 상기 추정된 상관 관계의 역수에 의해 역상관 함수를 구하며, 상기 역상관 함수에 대해 바이리니어 변환을 수행하여 역상관 필터링의 응답 특성을 얻는 것을 특징으로 하는
    특징 벡터 추출 장치.
  5. 제4항에 있어서,
    상기 고역 통과 필터는 아래의 수학식을 적용하여 로그 필터뱅크 에너지의 상관 관계를 추정하는 것을 특징으로 하는
    특징 벡터 추출 장치.
    (q는 특징 벡터의 차수별 지수, C2(q)는 로그 필터뱅크 에너지의 파워 스펙트럼)
  6. 제4항에 있어서,
    상기 고역 통과 필터는 아래의 수학식을 이용하여 바이리니어 변환을 수행하는 것을 특징으로 하는
    특징 벡터 추출 장치.
    (x는 로그 필터뱅크 에너지, y는 역상관 필터링 결과)
  7. 제1항 또는 제2항에 있어서,
    상기 특징 벡터는 멜주파수 켑스트럼 계수(MFCC : Mel-Frequency Cepstrum Coeffients) 특징 벡터인 것을 특징으로 하는
    특징 벡터 추출 장치.
  8. 음성 신호를 푸리에 변환하여 스펙트럼 정보를 출력하고, 상기 스펙트럼에 설정된 구간별 에너지를 계산하여 필터뱅크 에너지를 얻으며, 상기 필터뱅크 에너지에 로그 함수를 적용하여 얻어진 로그 필터뱅크 에너지에 대해 역상관 필터링을 수행하기 위한 방법에 있어서,
    특징 벡터의 차수별 분산을 추정하는 단계;
    상기 추정된 특징 벡터의 차수별 분산을 이용하여 로그 필터뱅크 에너지의 파워 스펙트럼을 추정하는 단계;
    상기 로그 필터뱅크 에너지의 상관 관계를 모델링하는 단계;
    상기 상관 관계를 역수를 이용하여 역상관 함수를 구하는 단계; 및
    상기 역상관 함수에 대해 바이리니어 변환을 적용하여 역상관 필터링 응답 특성을 구하는 단계를 포함하는 것을 특징으로 하는
    역상관 필터링 방법.
KR1020030085223A 2003-11-27 2003-11-27 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 KR100571427B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030085223A KR100571427B1 (ko) 2003-11-27 2003-11-27 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030085223A KR100571427B1 (ko) 2003-11-27 2003-11-27 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법

Publications (2)

Publication Number Publication Date
KR20050051435A true KR20050051435A (ko) 2005-06-01
KR100571427B1 KR100571427B1 (ko) 2006-04-17

Family

ID=38666660

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030085223A KR100571427B1 (ko) 2003-11-27 2003-11-27 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법

Country Status (1)

Country Link
KR (1) KR100571427B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치
KR100884312B1 (ko) * 2007-08-22 2009-02-18 광주과학기술원 음장 재현 장치 및 이를 이용한 음장 재현 방법
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
CN112233658A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于对数谱平滑滤波的特征提取方法
KR20210043833A (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101577116B (zh) * 2009-02-27 2012-07-18 北京中星微电子有限公司 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
KR100884312B1 (ko) * 2007-08-22 2009-02-18 광주과학기술원 음장 재현 장치 및 이를 이용한 음장 재현 방법
KR20190125064A (ko) * 2018-04-27 2019-11-06 (주)투미유 음성 유사도 판단 장치 및 음성 유사도 판단 방법
KR20210043833A (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
WO2021075709A1 (ko) * 2019-10-14 2021-04-22 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법
CN112233658A (zh) * 2020-10-14 2021-01-15 河海大学 一种基于对数谱平滑滤波的特征提取方法

Also Published As

Publication number Publication date
KR100571427B1 (ko) 2006-04-17

Similar Documents

Publication Publication Date Title
Shao et al. An auditory-based feature for robust speech recognition
Yegnanarayana et al. Enhancement of reverberant speech using LP residual signal
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
CN106373559B (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
US5806022A (en) Method and system for performing speech recognition
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
Elshamy et al. An iterative speech model-based a priori SNR estimator
Sanches Noise-compensated hidden Markov models
CN110875037A (zh) 语音数据处理方法、装置及电子设备
Alam et al. Regularized minimum variance distortionless response-based cepstral features for robust continuous speech recognition
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
KR20080049385A (ko) 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치
Khan et al. Speaker separation using visual speech features and single-channel audio.
Gordillo et al. Median filtering the temporal probability distribution in histogram mapping for robust continuous speech recognition
Min et al. A perceptually motivated approach via sparse and low-rank model for speech enhancement

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee