KR19990033536A

KR19990033536A - 텍스트/음성변환기에서의 최적 합성단위열 선정 방법

Info

Publication number: KR19990033536A
Application number: KR1019970054911A
Authority: KR
Inventors: 이정철; 김상훈
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1997-10-24
Filing date: 1997-10-24
Publication date: 1999-05-15
Also published as: KR100259777B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 텍스트/음성변환기에서의 최적 합성단위열 선정 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 주변 음운 환경이 일치하는 트라이폰 단위를 합성단위로 사용하고, 복수 후보의 합성단위로부터 비터비 탐색을 통해 최적 합성단위열을 찾아 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법을 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 복수 후보중 최적 트라이폰 합성단위를 선정하는 텍스트/음성변환기에서의 최적 합성단위 선정 방법에 있어서, 임의의 어절을 합성하기 위해 입력된 텍스트를 트라이폰 열로 변환하고, 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 1 단계; 및 상기 각 트라이폰의 상태간 경로를 제약하여 최소 누적 왜곡을 갖는 최적 경로를 선정하여 합성음을 생성하는 제 2 단계를 포함한다.

4. 발명의 중요한 용도

본 발명은 음성합성기에 이용됨.

Description

텍스트/음성변환기에서의 최적 합성단위열 선정 방법

본 발명은 음성 합성 시스템에서 합성음의 명료도와 자연성을 위해 트라이폰(Triphone) 단위를 기본 합성단위로 하고, 합성음 생성시 연결 구간에서의 왜곡을 최소화하기 위해 최장일치를 고려한 트라이폰 데이터베이스 구조와 비터비 탐색을 이용하여 복수개의 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법에 관한 것이다.

일반적으로, 음성 인식기인 히든 마르코프 모델(HMM : Hidden Markov Model)을 음송 단위로 훈련한 후 합성시 각 음소 모델을 연결하여 디코딩하므로써 합성음을 생성하거나 단어열의 발생 확률값으로부터 비터비 탐색(Viterbi Search)을 이용하여 가장 확률이 높은 단어열을 문장으로 출력하는 방법을 사용한다. 이는 훈련된 음소의 단일 후보를 단순히 연결하여 파라미터 합성 방식으로 합성음을 생성하거나 비터비 탐색을 통해 단어발생 확률을 이용하여 최적 단어열을 찾는다.

종래의 반음절 단위를 기본으로 하는 합성기는 음운환경이 한국어에서만 발생되는 주요 변이음만을 고려한 합성단위를 사용하였으므로 합성음의 명료도 및 자연성에 문제가 있었다. 또한, 반음절 단위를 접합하여 합성할 때 비록 모음의 안정구간에서 연결된다 하더라도 스펙트럼, 에너지, 및 피치의 불일치가 발생하여 합성음의 울림현상이 크고 명료도를 저해하였다.

특히, 음절의 핵을 이루는 모음이 초성 및 종성 자음에 비해 에너지가 크므로 청취시 가장 두드러지게 되어 이 부분의 왜곡이 전체 합성음의 왜곡중 대부분을 차지하였다. 또한, 최장일치를 고려하여 결합가능한 음소열을 사전에 등록하는 경우에 20개의 음소로 이루어진 단어를 합성할 때 524,288개의 연결 가능한 경우의 수가 발생하여 이로부터 복수후보를 고려한다면 합성기의 실시간 구현이 어려울 뿐만아니라 최적 합성단위를 선정하는데 어려운 문제점이 있었다.

상기와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 주변 음운 환경이 일치하는 트라이폰 단위를 합성단위로 사용하고, 복수 후보의 합성단위로부터 비터비 탐색을 통해 최적 합성단위열을 찾아 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법을 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 음성 합성시스템의 개략적인 일실시예 블록 구성도.

도 2 는 본 발명에 따른 특징 벡터의 추출 위치 및 트라이폰 단위 데이터베이스의 일실시예 구조도.

도 3 은 본 발명에 따른 최적 트라이폰 선정 절차에 대한 일실시예 흐름도.

도 4 는 도 3의 비터비 탐색을 나타낸 일실시예 설명도.

*도면의 주요 부분에 대한 부호의 설명

11 : 문장 입력 블록 12 : 언어 처리 블록

13 : 운율 처리 블록 14 : 합성단위 선정 및 연결 블록

15 : 신호 처리 블록

상기 목적을 달성하기 위한 본 발명은, 복수 후보중 최적 트라이폰 합성단위를 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법에 있어서, 임의의 어절을 합성하기 위해 입력된 텍스트를 트라이폰 열로 변환하고, 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 1 단계; 및 상기 각 트라이폰의 상태간 경로를 제약하여 최소 누적 왜곡을 갖는 최적 경로를 선정하여 합성음을 생성하는 제 2 단계를 포함한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 음성 합성시스템의 개략적인 일실시예 블록 구성도이다.

음성 합성시스템은 문장 입력 블록(11)과, 문장의 읽기 변환 및 문장 구조를 분석하기 위한 언어 처리 블록(12)과, 억양, 지속시간, 및 에너지를 제어하는 운율 처리 블록(13)과, 합성단위 선정 및 연결 블록(14)과, 실제 음성파형을 생성하는 신호처리 블록(15)을 구비한다. 여기서, 최적 합성단위 선정은 합성단위 선정 및 연결 블록(14)에서 이루어진다.

합성단위로 사용되는 트라이폰은 음성인식에서 사용하는 단위와 동일하다. 이는 음소를 기준으로 좌우 음운환경이 다르면 하나의 트라이폰이 된다.

세그멘테이션(Segmentation)은 음소의 경계를 구분하는데 사용되고, 합성단위의 연결은 음소의 경계에서 이루어진다. 또한, 구축된 합성 데이타베이스는 31,013개의 트라이폰으로 구성되며, 그중 고유한 트라이폰은 10,243개 발생된다. 따라서, 각 고유한 트라이폰은 평균 3.03개의 복수 트라이폰을 갖는다.

따라서, 트라이폰의 복수 후보중 연결점에서 왜곡이 최소인 최적 트라이폰열을 찾고, 합성단위열의 연결은 시간 영역에서 파형을 직접 연결하여 합성음을 생성한다. 또한, 비터비 탐색을 통해 스펙트럼, 피치, 에너지, 및 지속시간 등의 정보를 이용한다.

트라이폰 단위로 최장일치를 보장하기 위해서는 트라이폰 주변의 음운환경에 관련된 스펙트럼 정보를 이용하여 최장 트라이폰열이 연결 가능하도록 합성 데이타베이스를 구축한다. 또한, 복수개의 트라이폰 후보중 최적 합성단위를 선정하기 위해서는 에너지(energy), 피치(pitch), 및 지속시간(duration) 정보를 추출하여 데이타베이스에 포함시킨다.

도 2 는 본 발명에 따른 특징 벡터의 추출 위치 및 트라이폰 단위 데이터베이스의 일실시예 구조도이다.

합성단위는 약 9,000 어절로 구성된 텍스트를 녹음한 후 각 어절을 음소 단위로 세그멘테이션하여 구축된다. 따라서, 각 어절에는 다수개의 트라이폰이 포함되어 있고, 이들 트라이폰이 합성단위로 사용된다.

한 어절이 트라이폰(a,b,c)의 열을 포함하는 경우에, 트라이폰(b)은 왼쪽 음소(a)의 경계에 해당하는 1프레임(300샘플)에 대한 켑스트럼값과 음소(a)의 안정구간에서의 피치값, 그 피치의 에너지, 및 음소(a)의 지속시간으로 구성된 왼쪽 음소(a)의 음운환경을 저장한다. 또한, 오른쪽 음운환경에는 현재 음소(b)의 경계에 해당하는 켑스트럼값과 음소(b)의 안정구간에서의 피치값, 그 피치의 에너지, 및 현재 음소(b)의 지속시간을 저장한다.

각 트라이폰(a,b,c)은 어절내에 인접 트라이폰의 켑스트럼값을 저장하고 있으므로 무작위로 구성된 최종 트라이폰 합성 데이터베이스로부터 좌우 음운환경 정보를 이용하여 트라이폰열이 최장일치가 되도록 트라이폰을 선정할 수 있다. 또한, 에너지, 피치, 및 지속시간 정보를 이용하여 어절을 합성하는 경우에 음소간 운율변화를 고려할 수 있는 트라이폰을 선정할 수 있다.

도 3 은 본 발명에 따른 최적 트라이폰 선정 절차에 대한 일실시예 흐름도이다.

먼저, 텍스트가 입력되면(301) 텍스트에서 임의의 어절을 합성하기 위해 발음변환 규칙을 사용하여 트라이폰열로 변환하고(302), 각 트라이폰의 복수 후보 트라이폰을 합성 데이터베이스로부터 가져와 메모리에 저장한다(303).

트라이폰당 평균 3개 정도의 복수 후보가 있으므로 상태간 평균 9개의 경로가 생기게 되는데, 이들 경로로부터 다수개의 트라이폰중 가장 왜곡이 적은 경로를 찾기 위해 비터비 탐색을 수행한다(304).

이후, 가장 왜곡이 적은 경로를 선정하여(305) 이로부터 합성음을 생성한다(306). 여기서, 왜곡은 각 상태간 유클리디언 거리(Euclidean distance)를 사용하여 최종 상태까지 누적한다.

가장 왜곡이 적은 경로를 구하기 위해 적용되는 원리를 수학식으로 표현하면 수학식 1과 같다.

여기서, Distance는 유클리디언 거리 누적, Pitch는 피치, Power는 에너지, Dur은 지속시간, Cep는 켑스트럼, STATE는 상태개수, 및 n은 경로개수를 각각 나타낸다.

유클리디언 거리를 계산할 때 각 특징 벡터간 가중치(w_pitch, w_power, w_dur, w_cep)를 가하고, 각 가중치는 지각(perception) 실험에 의해 시행착오(trial and error)를 통해 결정한다(307).

도 4 는 도 3의 비터비 탐색을 나타낸 일실시예 설명도이다

합성하고자 하는 어절이 트라이폰(a,b,c,d)으로 이루어진 경우에 비터비 탐색의 수행 절차를 설명하면 다음과 같다.

전방향 경로(forward path) 과정에서, 각 상태에서의 트라이폰 복수 후보들은 다음 상태의 트라이폰과 왜곡을 계산하여 최종 상태에서 후방향 경로(backward path)로 최소 누적왜곡을 갖는 최적 경로(Optimal path)를 탐색한다(304 내지 307). 이때, 왜곡이 상태간 영(zero)인 경우에는 같은 어절에서 인접하여 발생하는 트라이폰임을 알 수 있으며, 어절내 트라이폰열의 누적 왜곡이 최소인 경로를 찾을 수 있으므로 이 경로에 제약을 가하면 쉽게 최장일치가 되는 트라이폰을 선정할 수 있다.

따라서, 본 발명은 비터비 탐색시 상태간 왜곡이 영일 때 복소 후보중 이 상태에 해당하는 단위가 선정되도록 조건을 부여하므로써 복수 후보가 고려된 최장일치 합성단위를 용이하게 선정할 수 있다.

비터비 탐색을 이용하여 어절내 왜곡이 최소화되는 트라이폰열을 선정했을 때, 최장일치되는 음소길이 및 개수가 표 1에 도시된 바와같다.

음소열이 3인 경우에는 1개의 트라이폰이 선정되며, 음소열이 4인 경우에는 2개의 인접 트라이폰을 사용한다. 여기서, 인접 트라이폰은 같은 연이어 발생되는 트라이폰을 말한다.

이 결과는 297만 어절에 포함되지 않은 164,460개 어절중에서 고유 어절을 추출하여 사용하며, 고유 어절 개수는 47,828개이다. 따라서, 총 트라이폰의 수는 311,149개가 된다.

각 어절은 평균 6.51개의 트라이폰열로 이루어지며, 비터비 탐색을 이용하면 각 어절당 4.66개의 3음소열, 0.92개의 4음소열, 0.48개의 5음소열, 및 0.27개의 6음소열 등으로 최장일치된다.

합성하고자 하는 텍스트가 "바람과"인 경우에, 이를 음소열로 변환하면 다음과 같다.

/#//b//a//r//a//M//g//wa//#/

이를 비터비 탐색을 이용하여 선정한 합성단위열로 나타내면 표 2와 같다.

트라이폰 단위의 비터비 탐색을 이용하는 경우에, 각 트라이폰당 발생하는 복수 후보의 개수와 복수 후보중 가장 왜곡이 적은 경로를 선정하면 다음과 같다.

35(511) ⇒ 1(864) ⇒ 23(0) ⇒ 3(401) ⇒ 0(0) ⇒ 0(0) ⇒ 0(0)

트라이폰(35(511))인 경우에, 35는 복수후보 트라이폰 58개중 35번째 트라이폰이 최적으로 선정됨을 의미한다. 또한, 괄호내의 511은 상태간 유클리디언 거리(=왜곡)값이다.

따라서, 거리가 영인 경우(예: 23(0)), 0(0)), 동일한 어절내에서 발생한 인접 트라이폰이 연결됨을 나타낸다.

음운환경을 고려한 음절단위 합성기의 경우에, 음절의 구조를 유지하기 위해서 트라이폰열이 음절을 이루도록 상태간 경로에 제약을 가하게되면 비터비 탐색을 이용한 최적 단위 선정 방식은 상태간 경로의 제약에 따라 합성단위를 변경할 수 있어 적응성이 있으며, 실시간에 합성이 가능하다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

상기와 같은 본 발명은, 다양한 음운환경을 고려할 수 있으며, 복수개의 트라이폰중 접합점에서의 왜곡이 최소인 최적 트라이폰을 선정하므로써 합성음의 명료도와 자연성을 향상시킬 수 있는 효과가 있다.

Claims

복수 후보중 최적 트라이폰 합성단위를 선정하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법에 있어서,

임의의 어절을 합성하기 위해 입력된 텍스트를 트라이폰 열로 변환하고, 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 1 단계; 및

상기 각 트라이폰의 상태간 경로를 제약하여 최소 누적 왜곡을 갖는 최적 경로를 선정하여 합성음을 생성하는 제 2 단계

를 포함하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 1 항에 있어서,

상기 제 1 단계는,

외부로부터 텍스트가 입력되는 제 3 단계;

입력된 텍스트에서 임의의 어절을 합성하기 위해 발음변환 규칙을 사용하여 상기 트라이폰열로 변환하는 제 4 단계; 및

합성 데이터베이스로부터 전송된 상기 각 트라이폰의 복수 후보 트라이폰을 메모리에 저장하는 제 5 단계

를 포함하여 이루어진 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 1 항 또는 제 2 항에 있어서,

상기 제 2 단계는,

상기 각 트라이폰을 비터비 탐색을 수행하여 검색하는 제 6 단계; 및

수행된 비터비 탐색 결과에 따라 상기 각 트라이폰중 최소 왜곡을 갖는 경로를 선정하여 합성음을 생성하는 제 7 단계

를 포함하여 이루어진 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 3 항에 있어서,

상기 제 7 단계의 최소 왜곡을 갖는 경로 거리는,

각 상태간 유클리디언 거리(Euclidean distance)를 사용하여 최종 상태까지 누적하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 1항 또는 제 4 항에 있어서,

상기 제 2 단계는,

유클리디언 거리 계산시 각 특징간 가중치를 가하는 제 8 단계

를 더 포함하여 이루어진 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 5 항에 있어서,

상기 제 8 단계의 가중치는,

지각 실험에 의해 시행착오로 결정하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 2 항에 있어서,

상기 제 5 단계의 합성 데이터베이스는,

일음운환경에는 다른 음소의 경계에 해당하는 켑스트럼값, 피치값, 피치 에너지, 및 지속시간이 저장되고, 다른 음운환경에는 현재 음소의 경계에 해당하는 켑스트럼값, 피치값, 피치 에너지, 및 지속시간이 저장된 다수개의 트라이폰으로 구성되어 합성단위로 사용되고, 음운환경을 이용하여 트라이폰열이 최장일치가 되도록 트라이폰을 선정하고 어절을 합성하는 경우에 음소간 운율변화를 교려할 수 있는 트라이폰을 선정하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.
제 3 항에 있어서,

상기 제 6 단계의 비터비 탐색을 수행하는 과정은,

전방향 경로(Forward path) 과정에서 각 상태에서의 트라이폰 복수 후보들이 다음 상태의 트라이폰과 왜곡을 계산하며, 후방향 경로(Backward path)에서 최소 누적 왜곡을 갖는 최적 경로를 탐색하는 것을 특징으로 하는 텍스트/음성변환기에서의 최적 합성단위열 선정 방법.