KR100451539B1

KR100451539B1 - 유닛 접합식 ｔｔｓ 음성 합성 방법

Info

Publication number: KR100451539B1
Application number: KR10-2002-0057534A
Authority: KR
Inventors: 석재균
Original assignee: 에스엘투 주식회사
Priority date: 2002-09-23
Filing date: 2002-09-23
Publication date: 2004-10-06
Also published as: KR20040026174A

Abstract

본 발명은 유닛 접합식 ＴＴＳ 음성 합성 방법에 관한 것으로서, 보다 상세하게는 유닛 선택형 TTS 시스템에 있어서 개선된 음소선택 알고리즘을 적용하여 단위음 데이터베이스에서 한층 효과적으로 단위음을 선택하는 한편, 벡터양자화를 통한 압축부호화를 통하여 데이터베이스의 크기를 줄임으로써, 작은 크기의 데이터베이스로써 고품질의 합성음을 생성하도록 하는 유닛 접합식 ＴＴＳ 음성 합성 방법에 관한 것이다.

Description

유닛 접합식 ＴＴＳ 음성 합성 방법{SPEECH SYNTHESIZING METHOD FOR A UNIT SELECTION-BASED TTS SPEECH SYNTHESIS SYSTEM}

본 발명은 유닛 접합식 ＴＴＳ 음성 합성 방법에 관한 것으로서, 보다 상세하게는 유닛 선택형 TTS 시스템에 있어서 개선된 음소선택 알고리즘을 적용하여 단위음 데이터베이스에서 한층 효과적으로 단위음을 선택하는 한편, 벡터 양자화를 통한 압축부호화를 통하여 데이터베이스의 크기를 줄임으로써, 작은 크기의 데이터베이스로써 고품질의 합성음을 생성하도록 하는 유닛 접합식 ＴＴＳ 음성 합성 방법에 관한 것이다.

음성은 인간의 가장 자연스러운 의사 소통 수단이면서 정보 전달 수단이자,언어를 구현하는 수단으로서 인간이 내는 의미 있는 소리이다.

인간과 기계 사이의 음성을 통한 통신 구현에 대한 시도는 과거부터 꾸준히 발전되어 왔는 바, 더욱이 최근 음성 정보를 효과적으로 처리하기 위한 음성 정보 처리 기술(speech information technology;SIT) 분야가 괄목할 만한 발전을 이룩함에 따라 실생활에도 속속 적용이 되고 있다.

이러한 음성 정보 처리 기술을 크게 분류하면, 음성 인식(speech recognition), 음성 합성(speech synthesis), 화자 인증(speaker identification and verification), 음성 코딩(speech coding) 등의 카테고리로 분류될 수 있다.

음성 인식은 발화된 음성을 인식하여 문자열로 변환하는 기술이고, 음성 합성은 문자열을 음성 분석에서 얻어진 데이터나 파라미터를 이용하여 원래의 음성으로 변환하는 기술이며, 화자 인증은 발화된 음성을 통하여 발화자를 추정하거나 인증하는 기술이며 음성 코딩은 음성 신호를 효과적으로 압축하여 부호화하는 기술이다.

이 중에서, 음성 합성 기술의 발전 과정을 간단히 살펴보면, 초기의 음성 합성은 대부분 기계 장치 또는 전자회로를 이용하여 인간의 발성기관을 흉내내는 구조를 채택하였다. 예를 들어, 18세기 볼프강 폰 켐펠렌(Wolfgang von Kempelen)이라는 자는 고무로 만들어진 입과 콧구멍을 가지며 성도의 변화를 흉내낼 수 있도록 한, 풀무로 만든 음성 합성 기계를 고안한 바 있다. 이후, 전기적 분석 방법을 이용한 음성 합성 기술로 발전하여, 1930년대에는 더들리(Dudley)가 초기 형태의 보코더(vocoder)를 선보이기도 하였다.

오늘날에는 컴퓨터의 급속한 발달에 힘입어, 컴퓨터 기반 음성 합성 방식이 음성 합성 방식의 주류를 이루게 되었으며, 시스템 모델 방식(조음 합성 (articulary synthesis) 등)이나 신호 모델 방식(규칙기반 포만트 합성 또는 단위음 결합 합성) 등의 다양한 방식이 개발되고 있다.

특히, 최근의 음성 합성 기술에서는 고품질의 음성을 생성하기 위하여, 미리 대규모의 단위음 데이터베이스를 구축하여 두고, 각각의 주어진 텍스트에 대하여 가장 적절한 음성 단위음들을 이 데이터베이스에서 선택하여 연결함으로써 음성을 합성하는 연결 합성 방식(Unit Selection-Based TTS)이 주로 사용되고 있다.

도 1은 전형적인 유닛 접합식 음성 합성기의 음성 합성 과정을 나타낸 흐름도이다.

유닛 접합식 음성 합성기(Unit Selection-Based TTS)에서는 도 1의 신호합성단계에서 단위음 데이터베이스로부터 단위음을 선택하여 합성하는 알고리즘에 따라 합성음의 음질이 크게 좌우되므로, 효율적인 단위음 선택 알고리즘의 개발이 매우 중요하다.

유닛 접합식 음성합성기에서의 단위음의 선택(Unit Selection)에 있어서 고려하여야 할 사항으로는, 첫째로 처리되어야 할 텍스트(text)로부터 얻어지는 운율 정보 및 음소 정보와, 둘째로 보다 자연스러운 음성을 생성하기 위하여 연결되는 각 단위음 사이의 스펙트럼 거리(spectral distance)가 있다. 즉, 텍스트로부터 얻어지는 운율 정보 및 음소 정보를 최대한 합성 과정에 반영함과 동시에, 단위음 사이의 스펙트럼 거리를 최소화하는 것이다.

한편, 시간 영역(time domain)에서의 음성 신호 x[t]에 대응되는 주파수 영역(frequency domain)에서의 스펙트럼 X(ω)는 다음과 같이 정의된다.

따라서, 두 단위음 x[t]와 y[t]의 스펙트럼 거리는 X(ω)와 Y(ω) 사이의 거리를 의미하게 된다. 그러나, 각 단위음에 대하여 전체 스펙트럼 정보를 저장하기에는 데이터베이스의 용량이 실용화 불가능할 정도로 커지기 때문에, 스펙트럼 정보에 대한 압축이 필요하게 된다.

종래 기술에 의한 음성 합성기는 스펙트럼 정보를 압축하기 위하여 주로 MFCC(mel-frequency cepstrun coefficient) 알고리즘을 사용하였다. 여기에서는 두 단위음 x[t], y[t]의 스펙트럼 거리가 다음과 같은 각각의 MFCC C_k,x, C_k,y사이의 유클리드 거리(euclidean distance)로 정의된다.

이러한 단위음 간의 스펙트럼 거리를 구하는 계산방법에는 MS-LSD법, EFD법, PL법, LR법, MFCC법 등 여러 가지가 있으며, 각 계산방법의 알고리즘에 따라 스펙트럼 거리 계산의 결과가 달라진다. 그 중에서, 최적의 알고리즘은 단위음 데이터베이스로부터 선택된 단위음(unit)의 운율 및 음소 정보를 최대한 반영하면서도 단위음 사이의 스펙트럼 거리가 최소화되도록 하는 알고리즘이다.

따라서, 스펙트럼 거리를 구하는 계산방법 중에서 현재 가장 널리 사용되는 계산방법은 MFCC법이지만, 앞으로도 더욱 최적의 스펙트럼 거리를 구할 수 있는 계산방법이 창안될 여지가 많다.

다음으로, TTS 시스템의 데이터베이스에 단위음을 저장하는 방식에 대하여 살펴본다.

TTS 시스템의 데이터베이스가 모든 단위음에 대한 MFCC 및 포락 정보를 저장하는 것은 데이터베이스의 유지를 위한 물리적 저장장치 공간의 낭비와 직결된다. 데이터베이스에는 중복된 정보 또는 무의미한 정보 등이 포함될 수 있기 때문이다.

따라서, 단위음으로부터 추출할 수 있는 정보 중에서 유의미한 정보만을 적절히 선택하고, 정보의 특성을 고려하여 압축부호화하는 작업이 필요하지만, 종래 기술에 의한 TTS 시스템에서는 상기한 모든 단위음에 대한 MFCC 및 포락정보를 저장함으로써 단위음의 검색시간이 지나치게 소요되고, 물리적 저장장치 공간이 막대하게 소요되는 문제점이 있었다.

따라서, TTS 시스템의 물리적 크기는 이 데이터베이스의 정보를 처리할 수 있는 충분한 성능을 제공할 수 있는 컴퓨터 시스템 정도가 되어야 하는 바, 소형화된 TTS 시스템의 구현에 장애가 되는 문제점이 있었으며, 또한 데이터베이스에 저장되는 단위음의 개수를 무한정 증가시키기 곤란하므로 단위음의 개수와 밀접한 관련이 있는 합성음성의 품질에도 일정한 한계가 존재하였다.

따라서, 더욱 작은 데이터베이스의 크기로 더욱 고품질의 음성을 합성할 수있는 유닛 접합식(Unit Selection-Based) TTS 시스템의 제공을 위하여, 지금까지의 MFCC 방법보다도 개선된 스펙트럼 거리 산출 알고리즘 및 단위음 데이터베이스의 성능을 유지하면서도 크기를 저감시킬 수 있는 적절한 방법에 관한 요청이 꾸준히 제기되어 왔다.

본 발명은 상기와 같은 요청에 부응하여 착안된 것으로서, 유닛 접합식 ＴＴＳ 음성 합성 시스템에 있어서 개선된 음소선택 알고리즘인 대칭 쿨백-라이플러 공식을 적용하여 단위음 데이터베이스에서 한층 효과적으로 단위음을 선택하는 한편, 벡터양자화를 통한 압축부호화를 통하여 데이터베이스의 크기를 줄임으로써, 작은 크기의 데이터베이스로써 고품질의 합성음을 생성하도록 하는 유닛 접합식 ＴＴＳ 음성 합성 방법을 제공하는 것을 목적으로 한다.

도 1은 전형적인 유닛 접합식 음성 합성기의 음성 합성 과정을 나타낸 흐름도,

도 2는 벡터 양자화를 이용하여 단위음 데이터베이스에 구축될 각 단위음의 단위음 정보를 압축하는 과정을 나타낸 흐름도,

도 3은 각종 스펙트럼 거리 계산법의 성능을 비교한 그래프이다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 유닛 접합식 ＴＴＳ 음성 합성 방법은, 언어처리 단계와, 운율생성 단계 및 신호합성 단계를 포함하고,

상기 언어처리 단계는, 음성 합성의 대상이 되는 전자문서에 대한 전처리(前處理)를 수행하는 전처리 단계와; 형태소 사전을 참조하여 상기 전자문서 내용 중의 각 형태소를 분석하는 형태소 분석 단계와; 예외발음 사전을 참조하여 상기 전자문서 내용 중 예외적으로 발음되어야 하는 문자에 대한 발음표기를 변환하는 발음표기 변환단계와; 구문분석용 문법 알고리즘을 적용하여 상기 전자문서의 내용에 대한 구문분석을 수행하는 구문분석단계를 더 포함하며,

상기 운율생성 단계는, 상기 언어처리 단계에서 분석된 상기 전자문서의 상기 구문으로부터 운율구를 추출하는 운율구 추출단계와; 추출된 각각의 상기 운율구의 지속시간을 설정하는 지속시간 조절단계와, 지속시간이 설정된 각각의 상기 운율구의 억양을 설정하는 억양 조절단계를 더 포함하며,

상기 신호합성 단계는 후보 단위음 간 스펙트럼 거리를 계산하여 후보 단위음으로부터 단위음을 선택하는 합성단위 생성단계와, 단위음 데이터베이스로부터 상기 선택된 단위음을 접합하여 음성신호를 합성하는 음성신호 합성단계를 더 포함하여 이루어지는 것을 특징으로 한다.

이 때, 상기 신호합성 단계의 상기 단위음 데이터베이스 내의 각 단위음 정보는, 특정 단위음으로부터 제1 차수(次數)를 가지는 MFCC(Mel-Frequency Cepstrum Coefficient) 정보와 제2 차수를 가지는 포락 정보를 추출하는 단위음 정보 추출단계와, 상기 단위음 정보를 벡터 양자화를 통하여 압축정보화하는 단위음 정보 압축단계를 포함하여 구축되는 것이 좋다.

또한, 상기 신호합성 단계의 상기 합성단위 생성단계는, 대칭 쿨백-라이플러(Symmetrical Kullback-Leibler) 거리를 구함으로써 스펙트럼 거리를 계산하는 것이 좋다.

나아가, 상기 신호합성 단계의 상기 합성단위 생성단계는, 상기 제1 차수를 가지는 MFCC 정보와 상기 제2 차수를 가지는 포락정보를 동시에 이용하여 스펙트럼 거리를 계산하는 것이 바람직하다.

이하, 첨부된 도면을 참조하여 더욱 상세하게 설명하기로 한다.

도 2는 벡터 양자화를 이용하여 단위음 데이터베이스에 구축될 각 단위음의 단위음 정보를 압축하는 과정을 나타낸 흐름도이다.

상술한 바와 같이, 종래 기술에 의한 TTS 시스템에서는 상기한 모든 단위음에 대한 MFCC 및 포락정보를 저장함으로써 단위음의 검색시간이 지나치게 소요되고, 물리적 저장장치 공간이 막대하게 소요되는 문제점이 있었다.

이에, 본 발명자는 벡터 양자화를 이용함으로써 이러한 문제를 해결하고 데이터베이스의 용량을 줄이도록 하였다.

벡터 양자화 방법은 패턴 대체(pattern substitution)의 특별한 경우로서, 일반적인 벡터 양자화의 과정은 아래와 같다.

- 데이타 스트림을 먼저 '벡터'라고 부르는 블럭으로 나눈다. 또한 모든 벡터의 크기는 일정하고 v바이트로 구성할 수 있다.

- 각각 v바이트로 구성한 패턴의 집합으로 이루어지는 코드북(code-book)을 만든다. 이 코드북은 참조표라고도 하며, 단위음 정보의 압축과 복원시에 모두 사용한다. 이 코드표는 미리 정의할 수도 있고, 동적으로 구성할 수도 있다.

- 코드표에서 각각의 벡터와 일치하는 패턴을 찾는다.

- 일치하는 패턴을 찾으면 코드표에서의 인덱스값으로 그 벡터값을 기술한다.

이러한 벡터 양자화 과정을 요약해 보면 다음과 같다.

먼저 각 단위음의 비트 스트림을 벡터들로 나눈다. 비트 스트림의 실재값을 전송하는 대신에 코드표에서 일치하는 패턴의 인덱스값을 전송한다. 만일 코드표에서 실재값과 일치하는 패턴이 없으면 가장 유사한 패턴의 인덱스 값과 차이값을 전송한다. 이런 차이값들은 양자화 할 수도 있다. 차이값을 전송하느냐 안하느냐에 따라, 어떤 양자화 방법을 사용하느냐에 따라 무손실 기법이 될 수도 있고, 손실 기법이 될 수도 있다.

도 2에 나타난 본 발명에 의한 유닛 접합식 ＴＴＳ 음성 합성 방법에서 단위음 정보를 양자화하는 과정은 다음과 같다.

먼저, 단위음의 MFCC 정보는 기존의 방법으로 제1 차수를 가지는 MFCC 벡터(이하 n1차 MFCC 벡터라 한다)를 추출한다. 그리고, 포락 정보는 SEEVOC 방식을 적용하여 추출하는데, 이때 포락의 주파수 대역을 멜-스케일(mel-scale)로 줄임으로써 제2 차수를 가지는 포락 벡터(이하 n2차 포락 벡터)로서 포락 정보를 표현한다.

결국, 각 단위음마다에 대하여 n1차(MFCC 벡터) + n2차(포락 벡터)인 (n1 + n2)차 벡터를 추출한다. 여기에서, n1, n2는 단위음 데이터베이스의 용량 및 스펙트럼 거리 계산의 정확성 등을 고려하여 적절히 변경할 수 있다.

다음으로, 각 단위음으로부터 추출된 상기 (n1 + n2)차 벡터를 양자화하게 된다.

벡터 양자화를 함으로써, 각 단위음에 대한 벡터가 데이터베이스를 차지하는 용량을 줄일 수 있게 된다.

예를 들어, 100,000개의 단위음에 대하여 30차 벡터(12차 MFCC벡터 + 18차 포락벡터)를 추출했을 경우, 한 벡터 요소를 나타내기 위하여 8 바이트(byte)가 필요하다면, 벡터 양자화를 하지 않은 경우에 전체 단위음 데이터베이스의 크기는 다음과 같다.

(단위음 데이터베이스의 크기) = 100,000 ×30 ×8 = 24,000,000 바이트.

즉, 전체 단위음 데이터베이스의 크기는 약 24MB가 된다.

한편, 벡터의 각 요소를 4비트(bit)로 양자화하는 경우, 표현 가능한 벡터의 수는,

(표현 가능한 벡터의 수) = (2⁴)³⁰= 2¹²⁰≒ 1000¹²개 (≫100,000)

가 되므로, 총 단위음의 수에 비하여 충분하며, 또한 이때 벡터 양자화된 전체 단위음 데이터베이스의 크기는,

(단위음 데이터베이스의 크기) = (단위음 벡터의 크기) + (코드북의 크기)

= 100,000 × 2⁴×0.5(byte) + 30 ×2⁴×8(byte)

= 1,503,840 바이트.

즉, 전체 단위음 데이터베이스의 크기가 약 1.5MB가 되므로, 벡터 양자화하지 않은 경우에 비해서 단위음 데이터베이스의 크기를 무려 1/6로 줄일 수 있게 되는 것이다.

다음은, 이처럼 벡터 양자화되어 구축된 단위음 데이터베이스로부터 스펙트럼 거리를 계산하여 적절한 단위음을 선택하고 이를 음성신호로 합성(복호화)하는 과정에 대하여 살펴본다.

스펙트럼 정보 중에서 포락(envelope) 정보만을 추출하여, 포락 사이의 대칭쿨백-라이플러 거리(Symmetrical Kullback-Leibler Distance;D_SKL)를 구하는 것으로써 단위음 사이의 스펙트럼 거리를 보다 효과적으로 측정할 수 있음이 여러 논문을 통하여 최근 알려졌으나, 대칭 쿨백-라이플러 거리를 구함으로써 단위음 사이의 스펙트럼 거리를 계산하도록 하는 음성 합성 시스템은 아직 개발되지 않았다.

도 3(a) 내지 도 3(f)는 각종 스펙트럼 거리 계산법에 따른 스펙트럼 거리 계산의 결과를 나타낸 그래프로서, 도 3(a)는 SKL 방법, 도 3(b)는 PL 방법, 도 3(c)는 MS-LSD 방법, 도 3(d)는 LR 방법, 도 3(e)는 EFD 방법, 도 3(f)는 MFCC 방법을 각각 적용한 것이다.

도 3의 여러 결과들에서 곡선이 높을수록, 또한 왼쪽으로 많이 휘어질수록 스펙트럼 거리를 효과적으로 측정할 수 있게 된다.

한편, 두 단위음 x[n], y[n]에 대한 파워-노멀라이즈드 포락(power-normalized envelope)을 각각 X'(ω), Y'(ω)라 할 때, 대칭 쿨백-라이플러 거리 D_SKL은 다음과 같이 정의된다.

따라서, 본 발명에서는 스펙트럼 정보로부터 포락 정보만을 추출하여, 이를 토대로 스펙트럼 거리를 계산함으로써 도 3에서 확인되는 바와 같은 향상된 음질의 합성음을 얻을 수 있게 된다.

이 때, 스펙트럼 정보로부터 포락 정보를 구하는 방법으로는 LPC 계수로부터포락을 추출하는 방법이나, 스펙트럼으로부터 직접 포락 정보를 추출하는 SEEVOC 방법 등이 사용될 수 있다.

나아가, 본 발명에서는 상술한 바와 같은 MFCC 정보와 포락 정보를 함께 가지는 (n1차 + n2차)벡터를 각 단위음을 대표하는 특성 파라미터로 사용하여, 이를 토대로 스펙트럼 거리를 계산할 수 있도록 하였다.

즉, TTS 시스템이 단위음 데이터베이스에서 단위음을 선택하기 위하여 단위음 A와 단위음 B의 연결을 고려할 경우, 양 단위음의 양자화된 벡터를 이용하여 스펙트럼 거리를 계산하는 방법은 다음과 같다.

먼저, A,B 각각에 대한 양자화된 벡터를 a, b라 할 때, 코드북에서 a,b에 대한 실제 벡터 a′,b′를 가져온다.

다음으로, 벡터가 n1차 MFCC 벡터(c_i)와 n2차 포락 벡터(p_i)로 이루어져 있다고 할 때,

의 식에 의하여 스펙트럼 거리를 구할 수 있게 되는 것이다.

이상, 본 발명자에 의하여 이루어진 발명을 발명의 실시 형태에 기초하여 구체적으로 설명하였으나, 본 발명은 상기 실시 형태에 한정되는 것이 아니라, 그 요지를 일탈하지 아니하는 범위에서 다양하게 변경 가능한 것은 말할 것도 없다.

이상에서 설명한 바와 같은 본 발명에 의한 유닛 접합식 ＴＴＳ 음성 합성 방법을 사용하면 다음과 같은 효과를 얻을 수 있다.

즉, 개선된 음소선택 알고리즘인 대칭 쿨백-라이플러 공식을 적용하여 단위음 데이터베이스에서 한층 효과적으로 단위음을 선택할 수 있다.

또한, 벡터 양자화를 통한 압축부호화를 통하여 데이터베이스의 크기를 줄임으로써, 작은 크기의 데이터베이스로써 고품질의 합성음을 생성할 수 있다.

Claims

언어처리 단계와, 운율생성 단계 및 신호합성 단계를 포함하는 유닛 접합식 ＴＴＳ 음성 합성 방법으로서,

상기 언어처리 단계는, 음성 합성의 대상이 되는 전자문서에 대한 전처리(前處理)를 수행하는 전처리 단계와; 형태소 사전을 참조하여 상기 전자문서 내용 중의 각 형태소를 분석하는 형태소 분석 단계와; 예외발음 사전을 참조하여 상기 전자문서 내용 중 예외적으로 발음되어야 하는 문자에 대한 발음표기를 변환하는 발음표기 변환단계와; 구문분석용 문법 알고리즘을 적용하여 상기 전자문서의 내용에 대한 구문분석을 수행하는 구문분석단계를 더 포함하며,

상기 운율생성 단계는, 상기 언어처리 단계에서 분석된 상기 전자문서의 상기 구문으로부터 운율구를 추출하는 운율구 추출단계와; 추출된 각각의 상기 운율구의 지속시간을 설정하는 지속시간 조절단계와, 지속시간이 설정된 각각의 상기 운율구의 억양을 설정하는 억양 조절단계를 더 포함하며,

상기 신호합성 단계는 후보 단위음 간 스펙트럼 거리를 계산하여 후보 단위음으로부터 단위음을 선택하는 합성단위 생성단계와, 단위음 데이터베이스로부터 상기 선택된 단위음을 접합하여 음성신호를 합성하는 음성신호 합성단계를 더 포함하여 이루어지는 것을 특징으로 하는 유닛 접합식 ＴＴＳ 음성 합성 방법.
제 1항에 있어서,

상기 신호합성 단계의 상기 단위음 데이터베이스 내의 각 단위음 정보는,

특정 단위음으로부터 제1 차수(次數)를 가지는 MFCC(Mel-Frequency Cepstrum Coefficient) 정보와 제2 차수를 가지는 포락 정보를 추출하는 단위음 정보 추출단계와,

상기 단위음 정보를 벡터 양자화를 통하여 압축정보화하는 단위음 정보 압축단계를 포함하여 구축되는 것을 특징으로 하는 유닛 접합식 ＴＴＳ 음성 합성 방법.
제 1항에 있어서,

상기 신호합성 단계의 상기 합성단위 생성단계는, 대칭 쿨백-라이플러(Symmetrical Kullback-Leibler) 거리를 구함으로써 스펙트럼 거리를 계산하는 것을 특징으로 하는 유닛 접합식 ＴＴＳ 음성 합성 방법.
제 2항에 있어서,

상기 신호합성 단계의 상기 합성단위 생성단계는, 상기 제1 차수를 가지는 MFCC 정보와 상기 제2 차수를 가지는 포락정보를 동시에 이용하여 스펙트럼 거리를 계산하는 것을 특징으로 하는 유닛 접합식 ＴＴＳ 음성 합성 방법.