KR20170107283A

KR20170107283A - 자연어 음성인식의 성능향상을 위한 데이터 증강방법

Info

Publication number: KR20170107283A
Application number: KR1020160031050A
Authority: KR
Inventors: 이성주; 강병옥; 송화전; 정호영; 정훈
Original assignee: 한국전자통신연구원
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2017-09-25
Also published as: KR102158743B1

Abstract

심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법이 개시된다. 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다. 따라서, 음성인식 시스템의 성능을 향상시킬 수 있다.

Description

자연어 음성인식의 성능향상을 위한 데이터 증강방법{DATA AUGMENTATION METHOD FOR SPONTANEOUS SPEECH RECOGNITION}

본 발명은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 관한 것으로, 더욱 상세하게는 심층신경망을 이용한 자연어 음성인식의 성능향상을 위한 데이터 증강(Data Augmentation) 방법에 관한 것이다.

심층신경망 기반의 음성인식 시스템의 학습을 위해서는 많은 데이터들이 필수적이며 학습에 필요한 음성데이터들은 자연어 조음시 발생되는 발화변이 특성을 충분히 반영하고 있어야 한다.

하지만 현재 음성인식 시스템의 음향모델학습을 위한 음성데이터들은 제한된 환경에서 인위적인 방법으로 수집되는데 이러한 음성데이터들은 인간이 자연어를 말할 때 발생하는 발화변이 특성들을 충분히 반영하지 못하는 단점을 가지고 있다.

심층신경망을 이용한 음성인식 시스템은 수많은 데이터들을 활용하여 심층신경망을 학습하는 과정이 필수적이며 이 과정을 통하여 전체 시스템의 성능이 거의 결정되는 특성을 가지고 있다.

즉, 훈련에 참여한 음성데이터들이 실제 사용자가 응용시스템을 사용하게 될 때 나타나는 다양한 사용자들의 발음변이 특성들을 잘 포함하고 있어야 하는데 이러한 데이터들을 제한된 음성녹음 환경하에서 수집하는 것은 사실상 불가능한 문제점을 가지고 있다. 실제로 제한된 녹음환경에서는 인간의 자연스러운 발성을 기대하기 어렵다.

상기한 바와 같은 문제점을 극복하기 위한 본 발명의 목적은 인간의 자연어 발화변이 특성 중 발화속도변이, 부정확한 발음에 대하여 이들 변이특성을 보완할 수 있도록 한 자연어 음성인식 성능향상을 위한 데이터 증강방법을 제공하는 것이다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다.

상술한 바와 같은 자연어 음성인식의 성능향상을 위한 데이터 증강방법에 따르면, 자연어 음성인식에 있어서 컴퓨터가 인간의 음성을 인식하는데 어려움을 겪는 인간의 발화변이 현상중 발화속도변이와 부정확한 발음에 대한 훈련데이터를 증강시킴으로써 음성인식 시스템의 성능을 보다 효율적으로 향상시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.

인간의 발화속도 변이현상을 나타내는 음성합성방법에서 인간의 자연어 발성시 발화속도 변이현상을 쉽게 관측할 수 있다. 즉, 발화속도가 일정하지 않고 경우에 따라 빨라지거나 느려지는 현상을 말한다.

현재 음성인식 시스템은 이러한 발화속도 변이현상을 잘 모델링하지 못하는 문제점이 있다. 왜냐하면 음성인식 시스템 학습에 사용되는 훈련 데이터들은 일반적으로 제한된 문장을 인간이 낭독하고 이를 녹음하는 과정을 거쳐 수집되기 때문에 이러한 발화속도 변이현상을 효과적으로 반영하기 어렵기 때문이다.

이러한 음성인식 시스템은 빠른 발화속도에 대해서는 그 성능이 크게 저하되는 문제가 있으나 반대로 발화속도가 느려지는 경우에는 상대적으로 그 성능이 강인한 특성을 가진다.

이러한 성능 저하원인은 발화속도가 빨라지는 경우 인간의 조음기관이 어떤 음소를 조음하기 위하여 안정된 상태에 도달하기 전에 이어지는 음소를 조음하기 위해 천이하는 현상으로 인하여 나타나는 발음 변이현상 때문이다. 하기에서는 이러한 발음변이현상을 표현할 수 있는 인위적인 음성합성방법에 대해 설명한다.

도 1은 본 발명의 일 실시예에 따른 발화속도 변환장치의 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 조음 변이를 표현할 수 있는 발화속도 변환장치는 DC 오프셋 제거 필터링부(DC offset removal filtering)(101)와, 백색화 필터부(Pre-emphasis)(102)와, 시그널 프레임부(Signal Framing)(103)와, 시그널 윈도우부(Signal Windowing)(104)와, 음성 판별부(Voice Activity Detection)(105)와, 천이구간 판별부(Transient Portion Detection)(106)와, 켑스트럼 추정부(Cepstrum estimation)(107)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(108)와, 입력신호 분할부(Linear Predictive Analysis)(109)와, 시간축 변환부(Variable Rate TSM(time scale modification))(110)와, LPC 변환부(LPC to LSF conversion)(111)와, LSF 추정부(LSF estimation)(112)와, LSF 변환부(LSF to LPC conversion)(113)와, 성도 필터링부(Vocal Tract Filtering)(114)를 포함한다.

DC 오프셋 제거 필터링부(DC offset removal filtering)(101)는 시간축 입력신호의 DC 성분을 제거할 수 있다.

백색화 필터부(Pre-emphasis)(102)는 입력신호분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.

시그널 프레임부(Signal Framing)(103)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.

시그널 윈도우부(Signal Windowing)(104)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

음성 판별부(Voice Activity Detection)(105)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.

천이구간 판별부(Transient Portion Detection)(106)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.

켑스트럼 추정부(Cepstrum estimation)(107)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

안정구간 판별부(Non-speech, transient and steady portion detection)(108)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.

입력신호 분할부(Linear Predictive Analysis)(109)는 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 줄 수 있다.

시간축 변환부(Variable Rate TSM(time scale modification))(110)는 여기신호를 대상으로 시간축 변환을 수행한다. 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.

LPC 변환부(LPC to LSF conversion)(111)는 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다. 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.

LSF 추정부(LSF estimation)(112)는 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정할 수 있다. 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.

LSF 변환부(LSF to LPC conversion)(113)는 LSF 값을 성도모델계수로 변환할 수 있다.

성도 필터링부(Vocal Tract Filtering)(114)는 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구할 수 있다.

LSF 추정과정(시간축 변환비율 < 1.0 경우)

1. 첫번째 프레임

LSFest=LSF1st

2. 두번째 프레임부터

LSFest=(1-∝)×LSFprv + ∝×LSFcur

3. 마지막 프레임

LSFest=LSFlast

LSF 추정과정(2.0 > 시간축변환비율 > 1.0 경우)

1. 첫번째 프레임부터

LSFest1=LSFcur 합성프레임 첫번째 절반까지

LSFest2=(2-∝)×LSFcur +(∝-1)×LSFlookahead 합성프레임 나머지 절반

2. 마지막 프레임

LSFest=LSFlast

본 발명에서 제안된 방법은 성도모델을 기반한 음성분석방법에 그 기반을 두고 있으며 부정확한 발음을 표현하기 위하여 여기신호를 열화시키는 방법을 취하고 있다.

도 2는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성장치의 구성을 도시한 블록도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.

도 2를 참조하면, 본 발명의 부정확한 발음의 합성장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(201)와, 백색화 필터부(Pre-emphasis)(202)와, 시그널 프레임부(Signal Framing)(203)와, 시그널 윈도우부(Signal Windowing)(204)와, 음성 판별부(Voice Activity Detection)(205)와, 천이구간 판별부(Transient Portion Detection)(206)와, 켑스트럼 추정부(Cepstrum estimation)(207)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(208)와, 입력신호 분할부(Linear Predictive Analysis)(209)와, 파워 스펙트럼 추정부(power spectrum estimation)(210)와, PSD 추정부(speech and noise PSD estimation)(211)와, 위너 필터 추정부(Wiener filter estimation)(212)와, 위너 필터링부(Wiener filtering)(213)와, 성도 필터링부(Vocal Tract Filtering)(214)를 포함한다.

DC 오프셋 제거 필터링부(DC offset removal filter)(201)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.

백색화 필터부(Pre-emphasis)(202)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.

시그널 프레임부(Signal Framing)(203)는 입력신호를 프레임 단위(30ms)로 나눠주는 역할을 수행할 수 있다.

시그널 윈도우부(Signal Windowing)(204)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

음성 판별부(Voice Activity Detection)(205)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.

천이구간 판별부(Transient Portion Detection)(206)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.

켑스트럼 추정부(Cepstrum estimation)(207)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

안정구간 판별부(Non-speech, transient and steady portion detection)(208)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.

입력신호 분할부(Linear Predictive Analysis)(209)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.

파워 스펙트럼 추정부(power spectrum estimation)(210)는 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정할 수 있다.

PSD 추정부(speech and noise PSD estimation)(211)는 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정할 수 있다.

위너 필터 추정부(Wiener filter estimation)(212)는 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정할 수 있다.

위너 필터링부(Wiener filtering)(213)는 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거할 수 있다. 이를 통해 열화된 여기신호를 얻을 수 있다.

성도 필터링부(Vocal Tract Filtering)(214)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다.

도 3은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 장치의 구성을 도시한 블록도이다.

도 3을 참조하면, 본 발명의 부정확한 발성을 합성하는 장치는 DC 오프셋 제거 필터링부(DC offset removal filter)(301)와, 백색화 필터부(Pre-emphasis)(302)와, 시그널 프레임부(Signal Framing)(303)와, 시그널 윈도우부(Signal Windowing)(304)와, 음성 판별부(Voice Activity Detection)(305)와, 천이구간 판별부(Transient Portion Detection)(306)와, 켑스트럼 추정부(Cepstrum estimation)(307)와, 안정구간 판별부(Non-speech, transient and steady portion detection)(308)와, 입력신호 분할부(Linear Predictive Analysis)(309)와, 저해상도 양자화부(Low resolution quantization)(310)와, 성도 필터링부(Vocal Tract Filtering)(311)를 포함한다.

DC 오프셋 제거 필터링부(DC offset removal filter)(301)는 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다.

백색화 필터부(Pre-emphasis)(302)는 입력신호 분석을 위하여 사용되는 백색화(pre-whitening) 필터이다.

시그널 프레임부(Signal Framing)(303)는 입력신호를 프레임단위(30ms)로 나눠주는 역할을 수행할 수 있다.

시그널 윈도우부(Signal Windowing)(304)는 분석 프레임에 윈도우 함수를 곱해준다. 여기서, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

음성 판별부(Voice Activity Detection)(305)는 해당 분석 프레임 신호가 음성인지 아닌지를 판별할 수 있다.

천이구간 판별부(Transient Portion Detection)(306)는 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별할 수 있다.

켑스트럼 추정부(Cepstrum estimation)(307)는 LPC 계수들로부터 켑스트럼을 추정할 수 있다. 이렇게 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

안정구간 판별부(Non-speech, transient and steady portion detection)(308)는 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별할 수 있다.

입력신호 분할부(Linear Predictive Analysis)(309)는 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 줄 수 있다.

저해상도 양자화부(Low resolution quantization)(310)는 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다. 우선 음성구간에 대하여 저해상도 여기신호를 합성해 내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.

성도 필터링부(Vocal Tract Filtering)(311)는 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다.

앞에서 설명한 발화속도변이를 표현할 수 있는 음성합성방법과 부정확한 발음을 표현할 수 있는 음성합성방법을 이용하여 이미 수집된 음성데이터를 증강할 수 있으며, 증강된 음성데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하게 되면 심층신경망의 일반화(generalization) 특성이 향상되어 음성인식 시스템의 성능을 향상시킬 수 있게 된다.

도 4는 본 발명의 일 실시예에 따른 발화속도 변환방법의 흐름도이다.

도 4를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거한다(S401).

이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다. 이때 백색화(pre-whitening) 필터가 사용될 수 있다(S402).

이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S403).

이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S404). 이때, 음성신호분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S405).

이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S406).

이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S407). 이때, 추정된 켑스트럼 정보는 해당 프레임이 천이구간이지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S408).

이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 준다(S409).

이어서, 시간축 변환부(Variable Rate TSM(time scale modification))에서 여기신호를 대상으로 시간축 변환을 수행한다(S410). 여기서, 시간축 변환방법으로 가장 대표적인 것으로 synchronized overlap and add(SOLA) 방법이 있으며, 이를 이용하면 가변적 비율의 발화속도 변환을 용이하게 구성할 수 있다. 즉, 시간축 변환비율(time scale modification rate)을 가변적으로 적용하는 것으로 쉽게 구현할 수 있다. 이때, 천이구간에 대해서는 시간축 변환비율을 1로 두어 천이구간의 정보를 보존한다. 시간축 변환비율이 1보다 작으면 시간축으로 입력신호가 압축되는 것을 의미한다. 예를 들어, 시간축 변환비율이 0.5인 경우 시간축 신호를 두배로 압축하는 의미를 가지며 발화속도 측면에서는 두배 빠르게 발성하는 것을 의미한다. 시간축 변환비율이 1보다 큰 경우는 반대로 발화속도가 느려지는 것을 의미한다.

이어서, LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환한다(S411). 이는 시간축 변환비율에 따른 decimation 혹은 interpolation을 이용한 조음기관 모델의 제어를 위한 것이다. 성도모델 필터계수의 시간적 변화를 LSF를 이용하여 제어함으로써 조음기관의 변이를 표현해줄 수 있게 된다.

이어서, LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정한다(S412). 이를 통해 인간의 조음기관의 변이를 표현할 수 있게 된다.

이어서, LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환한다(S413).

이어서, 성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구한다(S414).

도 5는 본 발명의 일 실시예에 따른 협대역 노이즈 인젝션(narrow-band noise injection) 접근방법과 위너 필터(Wiener filter)를 이용한 부정확한 발음의 합성방법의 흐름도이다. 여기서는 여기신호를 열화시키기 위하여 부가잡음을 삽입하여 음질을 향상시킬 수 있다.

도 5를 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S501).

이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S502). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.

이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S503).

이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S504). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S505).

이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S506).

이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S507). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S508).

이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S509).

이어서, 파워 스펙트럼 추정부(power spectrum estimation)에서 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정한다(S510).

이어서, PSD 추정부(speech and noise PSD estimation)에서 추정된 파워 스펙트럼 정보와 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정한다(S511).

이어서, 위너 필터 추정부(Wiener filter estimation)에서 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정한다(S512).

이어서, 위너 필터링부(Wiener filtering)에서 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 여기신호에 포함되어 있는 배경잡음 성분을 제거한다(S513). 이를 통해 열화된 여기신호를 얻을 수 있다.

이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성해 낼 수 있다(S514).

도 6은 본 발명의 일 실시예에 따른 저해상도 양자화(low resolution quantization) 방법을 이용하여 여기신호를 열화시켜 부정확한 발성을 합성하는 방법의 흐름도이다.

도 6을 참조하면, DC 오프셋 제거 필터링부(DC offset removal filter)에서 입력 시간축 신호에 포함되어 있는 DC 성분을 제거한다(S601).

이어서, 백색화 필터부(Pre-emphasis)에서 입력신호를 분석한다(S602). 이때, 백색화(pre-whitening) 필터를 사용할 수 있다.

이어서, 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위(30ms)로 나눠준다(S603).

이어서, 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해준다(S604). 이때, 음성신호 분석을 위해서는 주로 해밍 윈도우(Hamming window)를 사용할 수 있다.

이어서, 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별한다(S605).

이어서, 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별한다(S606).

이어서, 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정한다(S607). 이때 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 중요한 정보로 사용될 수 있다.

이어서, 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별한다(S608).

이어서, 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 나누어 준다(S609).

이어서, 저해상도 양자화부(Low resolution quantization)에서 안정구간 판별(Non-speech, transient and steady portion detection) 정보를 이용하여 저해상도의 여기신호를 얻을 수 있다(S610). 우선 음성구간에 대하여 저해상도 여기신호를 합성해내며 비음성구간에 대해서는 원래 해상도의 여기신호를 그대로 이용할 수 있다. 이때 천이구간과 정적인 음성구간에 대해 다른 해상도를 적용할 수 있다. 즉, 정적인 음성구간에 대해서는 좀 더 많은 저해상도를 적용하고 천이구간에 대해서는 약간의 저해상도를 적용하여 여기신호를 열화시킬 수 있다.

이어서, 성도 필터링부(Vocal Tract Filtering)에서 LPC 계수와 열화된 여기신호를 합성하여 부정확한 발음을 합성할 수 있다(S611).

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

101 : DC 오프셋 제거 필터링부
102 : 백색화 필터부
103 : 시그널 프레임부
104 : 시그널 윈도우부
105 : 음성 판별부
106 : 천이구간 판별부
107 : 켑스트럼 추정부
108 : 안정구간 판별부
109 : 입력신호 분할부
110 : 시간축 변환부
111 : LPC 변환부
112 : LSF 추정부
113 : LSF 변환부
114 : 성도 필터링부

Claims

심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법으로서,
자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계;
상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계; 및
상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함하는 자연어 음성인식의 성능향상을 위한 데이터 증강방법.