KR100438826B1

KR100438826B1 - 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법

Info

Publication number: KR100438826B1
Application number: KR10-2001-0067623A
Authority: KR
Inventors: 이기승; 김정수; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2001-10-31
Filing date: 2001-10-31
Publication date: 2004-07-05
Also published as: EP1308928A3; JP2003150187A; EP1308928A2; DE60228381D1; EP1308928B1; JP4202090B2; US7277856B2; US20030083878A1; KR20030035522A

Abstract

스무딩 필터를 이용한 음성 합성 시스템 및 그 방법이 개시된다. 스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡 처리부를 포함하는 것을 특징으로 하며, 스무딩 필터는 예측된 불연속 정도와 실제 불연속 정도의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성의 불연속 정도가 예측된 불연속 정도를 추종하도록 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.

Description

스무딩 필터를 이용한 음성 합성 시스템 및 그 방법{System for speech synthesis using a smoothing filter and method thereof}

본 발명은 음성 합성 시스템에 관한 것으로, 특히, 합성된 음성 유닛의 연결부위에 스무딩 기법을 적용하여 불연속 왜곡을 방지하는 음성 합성 시스템 및 그방법에 관한 것이다.

음성 합성 시스템(Text-To-Speech:TTS)은 사용자가 임의로 입력한 문장을 컴퓨터등을 이용하여 자동적으로 음성을 생성하여 청취자에게 들려주는 시스템을 말한다. 음성 합성 시스템은 자동 안내 시스템과 같은 응용분야에 널리 이용되고 있으며, 인간과 기계와의 대화를 구현하기 위한 핵심 기술의 하나이다. 이러한, 음성합성 시스템은 1990년대 대용량 데이터 베이스를 기반으로 하는 코퍼스 기반(corpus-based) TTS가 소개된 이후, 인간의 음성에 보다 가까운 합성음을 생성하게 되었다. 또한, 데이터-드리븐(data-driven) 기법이 적용된 운율 예측 기법의 성능이 향상되어 보다 생동감 넘치는 음성을 얻게 되었다.

그러나, 이러한 발전에도 불구하고 음성 합성기에 있어서 해결되어야 할 문제가 있는데, 이는 합성 단위의 연결부위에서 발생되는 불연속성이라 할 수 있다. 음성 합성기는 기본적으로, 유닛단위로 분할된 각 조각 음성 신호들을 음소열에 따라 연결시켜 연속음을 생성한다. 따라서, 인접된 조각 음성들이 서로 상이한 특성을 갖는 경우, 청취상의 왜곡을 가져올 수 있다. 이러한, 청위상의 왜곡은 스펙트럼의 급격한 변동과 불연속성, 어색하게 변동하는 운율, 파형의 크기 변동으로 인한 울렁거림 등의 형태로 나타난다.

한편, 유닛간 연결부위의 불연속성을 제거하기 위해 크게 두가지 방법이 이용되고 있다. 첫 번째 방법은 유닛의 선택시에 미리 연결될 유닛간의 차이를 측정하여 이 차이를 최소화하도록 유닛들을 선택하는 것이다. 두 번째 방법은 합성된 음성에 대해서 유닛의 연결부위에 스무딩(smoothing)을 적용하는 것이다.

첫 번째 방법에 대해서는 현재까지 꾸준한 연구가 진행되어 최근에는 귀의 특성을 반영하는 불연속 왜곡의 최소화 기법등이 개발되었으며 성공적으로 TTS에 적용되고 있다. 반면, 두 번째 방법에 대해서는 첫 번째 방법에 비해 활발한 연구가 진행되고 있지 못하고 있다. 그 이유는 스무딩 기법이 신호 처리 기술에 기반을 둔 음성 합성보다는 음성 부호화 기술에 보다 중요한 요소로 인식되고 있다는 점과 스무딩 기법 자체가 음성 신호에 왜곡을 불러일으킬 수 있기 때문이다.

현재 음성 합성기에 적용되는 스무딩 방법은 대체적으로 음성 부호화에 사용되는 방법을 그대로 사용하고 있다. 도 1에는 음성 부호화에서 적용되는 여러 가지 스무딩 방법을 그대로 음성 합성에 적용한 경우의 자연성(Naturalness) 및 명료성(Intelligibility) 면에서의 왜곡에 대한 결과를 나타내는 도면이다. 그리고, 적용된 스무딩 기법은 WI-기반 기법, LP-폴(pole) 기법 및 연속 효과(continuity effects)이다. 도 1을 참조하면, 여러 가지 스무딩 기법을 적용했을 때보다 스무딩을 적용하지 않은 경우(No smoothing)에 자연성 및 명료성에서의 왜곡이 오히려 작아 음질적 우위를 보인다(IEEE Tran. on Speech and Audio, JAN/2000 pp.39-40 참조). 결국, 음성 합성에 스무딩 기법을 적용하는 것보다 적용하지 않는 것이 보다 효과적이므로 음성 부호화기에 적용되는 스무딩 기법을 그대로 음성 합성에 적용하는 것은 부적절함을 알 수 있다.

음성 부호화기에 있어서의 왜곡은 대부분 양자화 에러등에 의해 발생하며, 이 때 스무딩 기법 또한 이러한 양자화 에러등을 최소화하기 위한 것이다. 그러나, 음성 합성기에 있어서는 녹음된 음성 신호 자체를 사용하므로 음성 부호화기에서와같은 양자화 오차는 존재하지 않으며, 왜곡은 잘못된 유닛의 선택이나 유닛과 유닛간의 급격한 변동, 불연속성에 의한 것이다. 즉, 음성 부호화와 음성 합성기는 왜곡을 유발시키는 원인이 다르므로 음성 부호화기에서 적용되던 스무딩 기법이 음성 합성기에서는 효과적이지 못하다.

본 발명이 이루고자 하는 제1기술적 과제는 스무딩 필터의 계수를 적응적으로 변화시켜 불연속 왜곡을 감소시키는 음성합성 시스템 및 그 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 제2기술적 과제는 상기 음성합성 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록한 기록매체를 제공하는 데 있다.

본 발명이 이루고자 하는 제3기술적 과제는 음성합성 시스템에서 스무딩 필터의 계수를 제어하여 그 특성을 제어하는 필터특성 제어장치 및 그 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 제4기술적 과제는 상기 필터특성 제어방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록한 기록 매체를 제공하는 데 있다.

도 1에는 음성 부호화에서 적용되는 여러 가지 스무딩 방법을 그대로 음성 합성에 적용한 경우의 자연성(Naturalness) 및 명료성(Intelligibility) 면에서의 왜곡에 대한 결과를 나타내는 도면이다.

도 2는 본 발명에 따른 스무딩 필터를 이용한 음성합성 시스템의 일실시예를 개략적으로 나타내는 블록도로서, 필터특성 제어부(50), 스무딩 필터(30) 및 필터 계수 결정부(40)를 포함하여 구성된다.

도 3은 도 2에 도시된 불연속 예측부(56)에서 CART 방식에 의해 학습 결과 형성되는 불연속 예측 트리를 나타내는 도면이다.

도 4는 도 3에 도시된 CART의 입력이 되는 음소 경계에 인접한 4개의 표본 음소들과 CART의 출력을 각각 나타내는 도면이다.

상기 제1과제를 이루기 위해, 스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡처리부를 포함하는 것이 바람직하다.

상기 제1과제를 이루기 위해, 본 발명에 따른 음성합성 시스템은 음성합성된 음소간의 경계에서 발생되는 불연속을 필터계수에 상응하여 스무딩하는 스무딩 필터, 음성합성된 음소간의 경계에서 발생되는 불연속 정도와, 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하고, 비교된 결과를 출력하는 필터특성 제어부 및 스무딩 필터가 음성합성된 음소간 불연속 왜곡을 예측된 불연속 정도에 따라 스무딩하도록, 비교 결과에 따라 필터계수를 결정하는 필터계수 결정부를 포함하는 것이 바람직하다.

상기 제1과제를 이루기 위해, 스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 (a)단계, 스무딩 필터가 음성합성된 음소간 불연속 왜곡을 예측된 불연속 정도에 따라 스무딩하도록, (a)단계에서의 비교 결과에 상응하는 필터 계수를 결정하는 (b)단계 및 결정된 필터 계수에 상응하여 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 (c)단계로 이루어지는 것이 바람직하다.

상기 제3과제를 이루기 위해, 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 본 발명에 따른 스무딩 필터 특성 제어장치는 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 불연속측정부, 음소간 불연속 예측이 학습되어 있으며, 음성신호의 합성에 이용되는 표준 음소들이 입력되면 입력된 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도로서 출력하는 불연속 예측부 및 실제의 불연속 정도와 예측된 불연속 정도를 비교하고, 비교 결과를 스무딩 필터의 필터 계수를 결정하는 계수 선택신호로서 발생하는 비교부를 구비하는 것이 바람직하다.

상기 제3과제를 이루기 위해, 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어방법은 표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 (a)단계, 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 (b)단계, 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 (c)단계 및 실제의 불연속 정도와 예측된 불연속 정도에 따라 스무딩 필터의 필터 계수를 결정하는 (d)단계로 이루어지는 것이 바람직하다.

이하, 본 발명에 따른 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법을 첨부한 도면들을 참조하여 상세히 설명한다.

도 2는 본 발명에 따른 스무딩 필터를 이용한 음성합성 시스템의 일실시예를 개략적으로 나타내는 블록도이며, 도시된 음성합성 시스템은 필터특성 제어부(50), 스무딩 필터(30) 및 필터 계수 결정부(40)를 포함하는 불연속 왜곡 처리부(100)로 구비된다.

도 2를 참조하여, 필터특성 제어부(50)는 스무딩 필터(30)의 필터 계수를 제어함으로써, 스무딩 필터(30)의 특성을 제어한다. 구체적으로, 필터특성 제어부(50)는 합성된 음성(IN)의 음소간 경계에서 발생되는 불연속 정도와 학습된 문맥정보에 의해 예측된 불연속 정도를 비교하고, 비교된 결과를 계수 선택신호(R)로서 출력한다. 도 2를 참조하여, 필터특성 제어부(50)는 불연속 측정부(52), 비교부(54) 및 불연속 예측부(56)를 포함하여 구성된다.

불연속 측정부(52)는 합성된 음성(IN)의 음소간의 경계에서 발생되는 실제의 불연속 정도를 구한다.

불연속 예측부(52)는 합성된 음성(IN)의 합성에 이용되는 표준 음소들(Context information, Con)을 이용하여 합성될 음성의 불연속 정도를 예측한다. 여기서, 불연속 예측부(52)는 CART(Classification and Regression Tree)에 의해 예측 가능하며, CART는 사전의 학습과정을 통해 형성된다. 이에 대해서는 도 3 및 도 4를 참조하여 상세히 설명한다.

비교부(54)는 불연속 측정부(52)로부터의 실제의 불연속 정도와 불연속 예측부(56)로부터의 예측된 불연속 정도의 비를 구하고, 그 결과를 계수 선택신호로서 출력한다.

계속해서, 필터계수 결정부(40)는 계수 선택신호(R)에 응답하여 스무딩 필터가 상기 합성된 음성(IN)의 음소간 실제 불연속이 예측된 불연속 정도에 따라 스무딩하도록, 스무딩 정도를 결정하는 필터계수(α)를 결정한다.

스무딩 필터(30)는 필터계수 결정부(40)에서 결정된 필터계수(α)에 상응하여 합성된 음성(IN)의 음소간의 경계에서 발생되는 불연속을 스무딩한다. 여기서, 스무딩 필터(30)의 특성은 다음 수학식 1과 같이 정의될 수 있다.

여기서, W_n ^'및 W_p ^'는 각각 스무딩 필터(30)에 의해 스무딩된 파형을 나타내고, W_p는 각각은 불연속 정도를 측정하고자 하는 음소의 경계면을 기준으로 왼쪽에 위치하는 유닛(음소)의 첫 번째 피치 주기의 음성 파형이고, W_n는 음소 경계면의 오른쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형을 나타낸다. 수학식 1을 참조하면, 필터계수(α)가 1에 가까울수록 스무딩 필터의 스무딩 정도가 약하며, 0에 가까운 값일수록 스무딩 정도가 강해짐을 알 수 있다.

도 3은 도 2에 도시된 불연속 예측부(56)에서 CART 방식에 의해 학습 결과 형성되는 불연속 예측 트리를 나타내는 도면이다. 설명의 편의를 위해, 도 3에서 불연속 예측에 이용되는 변수는 음소가 유성음 여부에 대한 것만 예시하였으나, 실제로 더 정확한 예측을 위해서는 음소 자체 정보, 음소의 음절 구성 성분등 여러 가지 음소의 특성을 고려할 수 있다.

도 4는 도 3에 도시된 CART의 입력이 되는 음소 경계에 인접한 4개의 표본 음소들과 CART의 출력을 각각 나타내는 도면이다. 여기서, 불연속 예측에 이용되는 표본 음소의 개수는 음소 경계를 중심으로 인접한 4개의 음소 즉, 이전의 두 개의 음소(p,pp) 및 이후의 두 개의 음소(n,nn) 총 4개의 음소를 이용하여 불연속을 예측한다. 한편, 불연속 예측에 이용되는 CART의 성능으로 상관값(correlation)과 분산 감소율(variance reduction ratio)이 사용된다. 여기서, 상관값은 CART에 관련된 연구에서 거의 표준화된 성능 척도로 0.75를 상회하는 값이 얻어질 때 CART를 이용한 예측기에 타당성을 부여할 수 있다고 제시된 바 있다. 예컨대, CART 학습에 총 342,899개의 데이터와 성능 평가를 위해 총 85,608개의 테스트 데이터 총 428,507개의 데이터 샘플을 이용하고, 불연속 예측시 음소 경계를 중심으로 인접한 4개의 음소를 이용한 경우, 상관값은 학습 데이터에 대해 0.757, 테스트 데이터에 대해 0.733의 값을 얻을 수 있다. 이 두값 모두가 0.75의 근방에서 얻어지는 값으로 CART를 사용한 예측이 유용함을 보인다. 한편, 인접 음소를 2개만 사용한 경우, 상관값은 학습 데이터의 경우 0.685, 테스트 데이터의 경우 0.681로 4개의 음소를 사용한 경우보다 성능이 저하됨을 보인다. 또한, 음소 경계를 중심으로 6개의 음소를 이용한 경우, 상관값은 학습데이터의 경우 0.750, 테스트 데이터를 이용한 경우 0.727을 얻을 수 있다. 결국, CART를 이용하여 불연속 예측시 CART 입력으로 이용되는 음소의 개수가 4개일 때 최상의 성능을 보인다.

도 4를 참조하여, 음소경계를 전후로 하여 4개의 표준 음소들 pp,p,n,nn이 도 3에 도시된 CART로 입력되면, 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형 W_p와 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형 W_n의 불연속 예측값이 출력된다. 이처럼 CART에서 출력되는 음성파형 W_p및 W_n을 이용하여 불연속 정도를 다음 수학식 2와 같이 예측할 수 있다.

도 3에 도시된 바와 같이, CART는 계층적인 구조를 갖는 질문(question)에 따라 예측값을 결정하도록 설계된다. 각 원안에 기술된 질문은 CART의 입력값에 따라 결정된다. 그리고, 더 이상의 질문이 없는 터미널 노드들(64,72,68,70)에서 예측값은 결정된다. 먼저 불연속 정도를 예측하고자 하는 음소경계를 중심으로 바로 이전의 음소 p가 유성음인가를 판단하여(60), 유성음이 아니면 수학식 2에 의해 불연속 정도를 A로 예측한다(72). 한편, 음소 p가 유성음이면 음소 pp가 유성음인가를 판단하여(62) 유성음이면 수학식 2에 의해 불연속 정도를 B로 예측한다. 또한, 음소 pp가 유성음이 아니면 음소 n이 유성음인가의 여부에 따라(66) 불연속 정도를 C 또는 D로 예측한다(68,70).

이제, 도 2 내지 도 4를 이용하여 본 발명에 따른 음성 합성 시스템의 동작을 상세히 설명한다.

먼저, 필터특성 제어부(50)는 실제 불연속 측정부(52)를 통해 합성된 음성신호(IN)의 음소간의 경계에서 발생되는 실제 불연속 정도(D_r)를 구하고, 불연속 예측부(56)를 통해 합성된 음성(IN)에 이용되는 표본 음소들(Con)을 이용하여 불연속을 예측하여 예측된 불연속 정도(D_p)를 구한다. 그리고, 다음 수학식 3과 같이, 예측된 불연속 정도(D_p)와 실제 불연속 정도(D_r)의 비율(R)을 구하고, 구해진 비율을 계수선택신호(R)로서 출력한다.

여기서, 불연속 예측부(56)는 전술된 바와 같이, CART 방식에 의해 실제 사람의 음성을 통해 발생되는 문맥정보를 통해 음소간의 불연속이 학습되어 있으며, 음성 합성에 이용되는 표본 음소들(Con)이 입력되면, 학습된 결과에 따른 불연속 정도(D_p)를 구한다. 결국, 예측된 불연속 정도(D_p)는 실제 사람이 발음할 때에 발생되는 불연속을 예측한 결과라 할 수 있다.

필터 계수 결정부(40)는 계수 선택신호(R)에 응답하여 다음 수학식 4와 같이 필터 계수(α)를 결정하고, 결정된 필터 계수(α)를 스무딩 필터(30)로 출력한다.

수학식 4를 참조하여, R이 1보다 크면 즉, 실제 불연속 정도(D_r)가 예측된 불연속 정도(D_p)보다 작으면 스무딩 필터(30)에서 스무딩이 약하게 수행하도록 필터계수(α)를 작게 한다(수학식 1참조). 예측된 불연속 정도(D_p)가 실제 불연속 정도(D_r)보다 크다는 것은 실제 발음상에서 불연속 정도가 큰데 합성된 음성에서는 불연속 정도가 작게 나타난 경우이다. 즉, 실제 발음상에서 불연속 정도가 큰 경우에는 합성된 음성(IN)의 스무딩을 약하게 하여 합성된 음성(IN)이 실제 발음상의불연속 정도를 유지하도록 제어한다. 반면, R이 1보다 작으면 즉, 실제 불연속 정도(D_r)가 예측된 불연속 정도(D_p)보다 크면 스무딩 필터(30)에서 스무딩이 강하게 수행되도록 필터 계수(α)를 크게 한다(수학식 1참조). 이는, 예측된 불연속 정도(D_p)가 실제 불연속 정도(D_r)보다 작다는 것은 실제 발음상에서 불연속 정도가 실제 불연속 정도(D_r)보다 작게 일어나는 경우이다. 따라서, 스무딩을 강하게 하여 합성된 음성(IN)이 실제 발음상의 불연속 정도를 유지하도록 제어한다.

스무딩 필터(30)는 필터계수 결정부(40)에서 결정된 필터 계수(α)에 따라 합성된 음성(IN)을 스무딩한다.

이상에서와 같이, 스무딩 필터(30)는 예측된 불연속 정도(D_p)와 실제 불연속 정도(D_r)의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성(IN)의 불연속 정도가 예측된 불연속 정도(D_p)를 추종하도록 합성된 음성(IN)을 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터네을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 상기 기록매체를 구현하기 위한 각 기능들을 실현할 수 있는 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있는 것이다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

상술한 바와 같이, 본 발명에 따른 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법에 따르면, 스무딩 필터(30)는 예측된 불연속 정도(D_p)와 실제 불연속 정도(D_r)의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성(IN)의 불연속 정도가 예측된 불연속 정도(D_p)를 추종하도록 합성된 음성(IN)을 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.

Claims

스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 있어서,

상기 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 상기 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡 처리부를 포함하는 것을 특징으로 하는 음성합성 시스템.
제1항에 있어서, 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 음성 합성 시스템.
음성합성된 음소간의 경계에서 발생되는 불연속을 필터계수에 상응하여 스무딩하는 스무딩 필터;

음성합성된 음소간의 경계에서 발생되는 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하고, 비교된 결과를 출력하는 필터특성 제어부; 및

상기 스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 비교 결과에 따라 상기 필터계수를 결정하는 필터계수 결정부를 포함하는 것을 특징으로 하는 음성합성 시스템.
제3항에 있어서, 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 음성합성 시스템.
제4항에 있어서, 상기 불연속 예측에 이용되는 표준 음소는 예측하고자 하는 음소 경계를 중심으로 이전의 두 개 음소들과 이후의 두 개 음소들인 것을 특징으로 하는 음성 합성 시스템.
제3항에 있어서, 상기 계수 선택신호(R)는 다음 수학식에 의해 구해지는 것을 특징으로 하는 음성 합성 시스템.

(여기서, D_p는 예측된 불연속 정도이고, D_r은 실제 불연속 정도이다.)
제3항에 있어서, 상기 필터계수 결정부는 상기 계수 선택신호(R)에 응답하여 다음 수학식

에 의해 상기 필터계수(α)를 결정하는 것을 특징으로 하는 음성합성 시스템.
스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 있어서,

(a)상기 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 단계;

(b)상기 스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 (a)단계에서의 비교 결과에 상응하는 필터 계수를 결정하는 단계; 및

(c)상기 결정된 필터 계수에 상응하여 상기 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 단계로 이루어지는 것을 특징으로 하는 음성합성 방법.
스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하기 위하여,

상기 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 제1 기능;

스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 비교 결과에 상응하는 필터 계수를 결정하는 제2 기능; 및

상기 결정된 필터 계수에 상응하여 상기 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 제3 기능을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어장치에 있어서,

상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 불연속 측정부;

음소간 불연속 예측이 학습되어 있으며, 상기 음성신호의 합성에 이용되는 표준 음소들이 입력되면 입력된 상기 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도로서 출력하는 불연속 예측부; 및

상기 실제의 불연속 정도와 상기 예측된 불연속 정도를 비교하고, 비교 결과를 상기 스무딩 필터의 필터 계수를 결정하는 계수 선택신호로서 발생하는 비교부를 구비하는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
제10항에 있어서, 상기 불연속 예측부에서의 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
제11항에 있어서, 상기 불연속 예측에 이용되는 표준 음소는 예측하고자 하는 음소 경계를 중심으로 이전의 두 개 음소들과 이후의 두 개 음소들인 것을 특징으로 하는 스무딩 필터 특성 제어장치.
제12항에 있어서, 상기 실제 불연속 정도(D_r) 및 상기 예측 불연속 정도(D_p)는 다은 수학식들에 의해 각각 구해지는 것을 특징으로 하는 스무딩 필터 특성 제어장치.

(여기서, W_p는 합성된 음성에서 불연속 정도를 구하고자 하는 음소 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형이며, W_n은 상기 음소 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형이다. 또한, W_p ^'는 불연속 정도를 예측하고자 하는 음소 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형이며, W_n ^'은 상기 음소 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형 W_n이다.)
제10항에 있어서, 상기 비교부는 다음 수학식에 의해 상기 계수 선택신호(R)를 구하는 것을 특징으로 하는 스무딩 필터 특성 제어장치.

(여기서, D_p는 예측된 불연속 정도이고, D_r은 실제 불연속 정도이다.)
제10항에 있어서, 상기 필터계수(α)는 상기 계수 선택신호(R)에 상응하여 다음 수학식

에 의해 결정되는 것을 특징으로 하는 스무딩 필터 제어장치.
음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어방법에 있어서,

(a)표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 단계;

(b)상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 단계;

(c)상기 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 상기 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 단계; 및

(d)상기 실제의 불연속 정도와 상기 예측된 불연속 정도에 따라 상기 스무딩 필터의 필터 계수를 결정하는 단계로 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어방법.
제16항에 있어서, 상기 (d)단계는

(d1)상기 예측된 불연속 정도와 상기 실제 불연속 정도의 비(R)를 구하는 단계; 및

(d2)다음 수학식

에 따라 상기 필터계수(α)를 결정하는 단계로 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어방법.
음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키키 위하여,

표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 제1 기능;

상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 제2 기능;

상기 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 상기 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 제3 기능; 및

상기 실제의 불연속 정도와 상기 예측된 불연속 정도에 따라 상기 스무딩 필터의 필터 계수를 결정하는 제4 기능을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.