KR100438826B1 - 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 - Google Patents

스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 Download PDF

Info

Publication number
KR100438826B1
KR100438826B1 KR10-2001-0067623A KR20010067623A KR100438826B1 KR 100438826 B1 KR100438826 B1 KR 100438826B1 KR 20010067623 A KR20010067623 A KR 20010067623A KR 100438826 B1 KR100438826 B1 KR 100438826B1
Authority
KR
South Korea
Prior art keywords
discontinuity
phonemes
degree
synthesized
predicted
Prior art date
Application number
KR10-2001-0067623A
Other languages
English (en)
Other versions
KR20030035522A (ko
Inventor
이기승
김정수
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2001-0067623A priority Critical patent/KR100438826B1/ko
Priority to EP02257456A priority patent/EP1308928B1/en
Priority to DE60228381T priority patent/DE60228381D1/de
Priority to JP2002317332A priority patent/JP4202090B2/ja
Priority to US10/284,189 priority patent/US7277856B2/en
Publication of KR20030035522A publication Critical patent/KR20030035522A/ko
Application granted granted Critical
Publication of KR100438826B1 publication Critical patent/KR100438826B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

스무딩 필터를 이용한 음성 합성 시스템 및 그 방법이 개시된다. 스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡 처리부를 포함하는 것을 특징으로 하며, 스무딩 필터는 예측된 불연속 정도와 실제 불연속 정도의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성의 불연속 정도가 예측된 불연속 정도를 추종하도록 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.

Description

스무딩 필터를 이용한 음성 합성 시스템 및 그 방법{System for speech synthesis using a smoothing filter and method thereof}
본 발명은 음성 합성 시스템에 관한 것으로, 특히, 합성된 음성 유닛의 연결부위에 스무딩 기법을 적용하여 불연속 왜곡을 방지하는 음성 합성 시스템 및 그방법에 관한 것이다.
음성 합성 시스템(Text-To-Speech:TTS)은 사용자가 임의로 입력한 문장을 컴퓨터등을 이용하여 자동적으로 음성을 생성하여 청취자에게 들려주는 시스템을 말한다. 음성 합성 시스템은 자동 안내 시스템과 같은 응용분야에 널리 이용되고 있으며, 인간과 기계와의 대화를 구현하기 위한 핵심 기술의 하나이다. 이러한, 음성합성 시스템은 1990년대 대용량 데이터 베이스를 기반으로 하는 코퍼스 기반(corpus-based) TTS가 소개된 이후, 인간의 음성에 보다 가까운 합성음을 생성하게 되었다. 또한, 데이터-드리븐(data-driven) 기법이 적용된 운율 예측 기법의 성능이 향상되어 보다 생동감 넘치는 음성을 얻게 되었다.
그러나, 이러한 발전에도 불구하고 음성 합성기에 있어서 해결되어야 할 문제가 있는데, 이는 합성 단위의 연결부위에서 발생되는 불연속성이라 할 수 있다. 음성 합성기는 기본적으로, 유닛단위로 분할된 각 조각 음성 신호들을 음소열에 따라 연결시켜 연속음을 생성한다. 따라서, 인접된 조각 음성들이 서로 상이한 특성을 갖는 경우, 청취상의 왜곡을 가져올 수 있다. 이러한, 청위상의 왜곡은 스펙트럼의 급격한 변동과 불연속성, 어색하게 변동하는 운율, 파형의 크기 변동으로 인한 울렁거림 등의 형태로 나타난다.
한편, 유닛간 연결부위의 불연속성을 제거하기 위해 크게 두가지 방법이 이용되고 있다. 첫 번째 방법은 유닛의 선택시에 미리 연결될 유닛간의 차이를 측정하여 이 차이를 최소화하도록 유닛들을 선택하는 것이다. 두 번째 방법은 합성된 음성에 대해서 유닛의 연결부위에 스무딩(smoothing)을 적용하는 것이다.
첫 번째 방법에 대해서는 현재까지 꾸준한 연구가 진행되어 최근에는 귀의 특성을 반영하는 불연속 왜곡의 최소화 기법등이 개발되었으며 성공적으로 TTS에 적용되고 있다. 반면, 두 번째 방법에 대해서는 첫 번째 방법에 비해 활발한 연구가 진행되고 있지 못하고 있다. 그 이유는 스무딩 기법이 신호 처리 기술에 기반을 둔 음성 합성보다는 음성 부호화 기술에 보다 중요한 요소로 인식되고 있다는 점과 스무딩 기법 자체가 음성 신호에 왜곡을 불러일으킬 수 있기 때문이다.
현재 음성 합성기에 적용되는 스무딩 방법은 대체적으로 음성 부호화에 사용되는 방법을 그대로 사용하고 있다. 도 1에는 음성 부호화에서 적용되는 여러 가지 스무딩 방법을 그대로 음성 합성에 적용한 경우의 자연성(Naturalness) 및 명료성(Intelligibility) 면에서의 왜곡에 대한 결과를 나타내는 도면이다. 그리고, 적용된 스무딩 기법은 WI-기반 기법, LP-폴(pole) 기법 및 연속 효과(continuity effects)이다. 도 1을 참조하면, 여러 가지 스무딩 기법을 적용했을 때보다 스무딩을 적용하지 않은 경우(No smoothing)에 자연성 및 명료성에서의 왜곡이 오히려 작아 음질적 우위를 보인다(IEEE Tran. on Speech and Audio, JAN/2000 pp.39-40 참조). 결국, 음성 합성에 스무딩 기법을 적용하는 것보다 적용하지 않는 것이 보다 효과적이므로 음성 부호화기에 적용되는 스무딩 기법을 그대로 음성 합성에 적용하는 것은 부적절함을 알 수 있다.
음성 부호화기에 있어서의 왜곡은 대부분 양자화 에러등에 의해 발생하며, 이 때 스무딩 기법 또한 이러한 양자화 에러등을 최소화하기 위한 것이다. 그러나, 음성 합성기에 있어서는 녹음된 음성 신호 자체를 사용하므로 음성 부호화기에서와같은 양자화 오차는 존재하지 않으며, 왜곡은 잘못된 유닛의 선택이나 유닛과 유닛간의 급격한 변동, 불연속성에 의한 것이다. 즉, 음성 부호화와 음성 합성기는 왜곡을 유발시키는 원인이 다르므로 음성 부호화기에서 적용되던 스무딩 기법이 음성 합성기에서는 효과적이지 못하다.
본 발명이 이루고자 하는 제1기술적 과제는 스무딩 필터의 계수를 적응적으로 변화시켜 불연속 왜곡을 감소시키는 음성합성 시스템 및 그 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 제2기술적 과제는 상기 음성합성 방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록한 기록매체를 제공하는 데 있다.
본 발명이 이루고자 하는 제3기술적 과제는 음성합성 시스템에서 스무딩 필터의 계수를 제어하여 그 특성을 제어하는 필터특성 제어장치 및 그 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 제4기술적 과제는 상기 필터특성 제어방법을 컴퓨터에서 실행 가능한 프로그램 코드로 기록한 기록 매체를 제공하는 데 있다.
도 1에는 음성 부호화에서 적용되는 여러 가지 스무딩 방법을 그대로 음성 합성에 적용한 경우의 자연성(Naturalness) 및 명료성(Intelligibility) 면에서의 왜곡에 대한 결과를 나타내는 도면이다.
도 2는 본 발명에 따른 스무딩 필터를 이용한 음성합성 시스템의 일실시예를 개략적으로 나타내는 블록도로서, 필터특성 제어부(50), 스무딩 필터(30) 및 필터 계수 결정부(40)를 포함하여 구성된다.
도 3은 도 2에 도시된 불연속 예측부(56)에서 CART 방식에 의해 학습 결과 형성되는 불연속 예측 트리를 나타내는 도면이다.
도 4는 도 3에 도시된 CART의 입력이 되는 음소 경계에 인접한 4개의 표본 음소들과 CART의 출력을 각각 나타내는 도면이다.
상기 제1과제를 이루기 위해, 스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡처리부를 포함하는 것이 바람직하다.
상기 제1과제를 이루기 위해, 본 발명에 따른 음성합성 시스템은 음성합성된 음소간의 경계에서 발생되는 불연속을 필터계수에 상응하여 스무딩하는 스무딩 필터, 음성합성된 음소간의 경계에서 발생되는 불연속 정도와, 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하고, 비교된 결과를 출력하는 필터특성 제어부 및 스무딩 필터가 음성합성된 음소간 불연속 왜곡을 예측된 불연속 정도에 따라 스무딩하도록, 비교 결과에 따라 필터계수를 결정하는 필터계수 결정부를 포함하는 것이 바람직하다.
상기 제1과제를 이루기 위해, 스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하는 본 발명에 따른 음성합성 시스템은 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 (a)단계, 스무딩 필터가 음성합성된 음소간 불연속 왜곡을 예측된 불연속 정도에 따라 스무딩하도록, (a)단계에서의 비교 결과에 상응하는 필터 계수를 결정하는 (b)단계 및 결정된 필터 계수에 상응하여 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 (c)단계로 이루어지는 것이 바람직하다.
상기 제3과제를 이루기 위해, 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 본 발명에 따른 스무딩 필터 특성 제어장치는 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 불연속측정부, 음소간 불연속 예측이 학습되어 있으며, 음성신호의 합성에 이용되는 표준 음소들이 입력되면 입력된 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도로서 출력하는 불연속 예측부 및 실제의 불연속 정도와 예측된 불연속 정도를 비교하고, 비교 결과를 스무딩 필터의 필터 계수를 결정하는 계수 선택신호로서 발생하는 비교부를 구비하는 것이 바람직하다.
상기 제3과제를 이루기 위해, 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어방법은 표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 (a)단계, 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 (b)단계, 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 (c)단계 및 실제의 불연속 정도와 예측된 불연속 정도에 따라 스무딩 필터의 필터 계수를 결정하는 (d)단계로 이루어지는 것이 바람직하다.
이하, 본 발명에 따른 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법을 첨부한 도면들을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 스무딩 필터를 이용한 음성합성 시스템의 일실시예를 개략적으로 나타내는 블록도이며, 도시된 음성합성 시스템은 필터특성 제어부(50), 스무딩 필터(30) 및 필터 계수 결정부(40)를 포함하는 불연속 왜곡 처리부(100)로 구비된다.
도 2를 참조하여, 필터특성 제어부(50)는 스무딩 필터(30)의 필터 계수를 제어함으로써, 스무딩 필터(30)의 특성을 제어한다. 구체적으로, 필터특성 제어부(50)는 합성된 음성(IN)의 음소간 경계에서 발생되는 불연속 정도와 학습된 문맥정보에 의해 예측된 불연속 정도를 비교하고, 비교된 결과를 계수 선택신호(R)로서 출력한다. 도 2를 참조하여, 필터특성 제어부(50)는 불연속 측정부(52), 비교부(54) 및 불연속 예측부(56)를 포함하여 구성된다.
불연속 측정부(52)는 합성된 음성(IN)의 음소간의 경계에서 발생되는 실제의 불연속 정도를 구한다.
불연속 예측부(52)는 합성된 음성(IN)의 합성에 이용되는 표준 음소들(Context information, Con)을 이용하여 합성될 음성의 불연속 정도를 예측한다. 여기서, 불연속 예측부(52)는 CART(Classification and Regression Tree)에 의해 예측 가능하며, CART는 사전의 학습과정을 통해 형성된다. 이에 대해서는 도 3 및 도 4를 참조하여 상세히 설명한다.
비교부(54)는 불연속 측정부(52)로부터의 실제의 불연속 정도와 불연속 예측부(56)로부터의 예측된 불연속 정도의 비를 구하고, 그 결과를 계수 선택신호로서 출력한다.
계속해서, 필터계수 결정부(40)는 계수 선택신호(R)에 응답하여 스무딩 필터가 상기 합성된 음성(IN)의 음소간 실제 불연속이 예측된 불연속 정도에 따라 스무딩하도록, 스무딩 정도를 결정하는 필터계수(α)를 결정한다.
스무딩 필터(30)는 필터계수 결정부(40)에서 결정된 필터계수(α)에 상응하여 합성된 음성(IN)의 음소간의 경계에서 발생되는 불연속을 스무딩한다. 여기서, 스무딩 필터(30)의 특성은 다음 수학식 1과 같이 정의될 수 있다.
여기서, Wn '및 Wp '는 각각 스무딩 필터(30)에 의해 스무딩된 파형을 나타내고, Wp는 각각은 불연속 정도를 측정하고자 하는 음소의 경계면을 기준으로 왼쪽에 위치하는 유닛(음소)의 첫 번째 피치 주기의 음성 파형이고, Wn는 음소 경계면의 오른쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형을 나타낸다. 수학식 1을 참조하면, 필터계수(α)가 1에 가까울수록 스무딩 필터의 스무딩 정도가 약하며, 0에 가까운 값일수록 스무딩 정도가 강해짐을 알 수 있다.
도 3은 도 2에 도시된 불연속 예측부(56)에서 CART 방식에 의해 학습 결과 형성되는 불연속 예측 트리를 나타내는 도면이다. 설명의 편의를 위해, 도 3에서 불연속 예측에 이용되는 변수는 음소가 유성음 여부에 대한 것만 예시하였으나, 실제로 더 정확한 예측을 위해서는 음소 자체 정보, 음소의 음절 구성 성분등 여러 가지 음소의 특성을 고려할 수 있다.
도 4는 도 3에 도시된 CART의 입력이 되는 음소 경계에 인접한 4개의 표본 음소들과 CART의 출력을 각각 나타내는 도면이다. 여기서, 불연속 예측에 이용되는 표본 음소의 개수는 음소 경계를 중심으로 인접한 4개의 음소 즉, 이전의 두 개의 음소(p,pp) 및 이후의 두 개의 음소(n,nn) 총 4개의 음소를 이용하여 불연속을 예측한다. 한편, 불연속 예측에 이용되는 CART의 성능으로 상관값(correlation)과 분산 감소율(variance reduction ratio)이 사용된다. 여기서, 상관값은 CART에 관련된 연구에서 거의 표준화된 성능 척도로 0.75를 상회하는 값이 얻어질 때 CART를 이용한 예측기에 타당성을 부여할 수 있다고 제시된 바 있다. 예컨대, CART 학습에 총 342,899개의 데이터와 성능 평가를 위해 총 85,608개의 테스트 데이터 총 428,507개의 데이터 샘플을 이용하고, 불연속 예측시 음소 경계를 중심으로 인접한 4개의 음소를 이용한 경우, 상관값은 학습 데이터에 대해 0.757, 테스트 데이터에 대해 0.733의 값을 얻을 수 있다. 이 두값 모두가 0.75의 근방에서 얻어지는 값으로 CART를 사용한 예측이 유용함을 보인다. 한편, 인접 음소를 2개만 사용한 경우, 상관값은 학습 데이터의 경우 0.685, 테스트 데이터의 경우 0.681로 4개의 음소를 사용한 경우보다 성능이 저하됨을 보인다. 또한, 음소 경계를 중심으로 6개의 음소를 이용한 경우, 상관값은 학습데이터의 경우 0.750, 테스트 데이터를 이용한 경우 0.727을 얻을 수 있다. 결국, CART를 이용하여 불연속 예측시 CART 입력으로 이용되는 음소의 개수가 4개일 때 최상의 성능을 보인다.
도 4를 참조하여, 음소경계를 전후로 하여 4개의 표준 음소들 pp,p,n,nn이 도 3에 도시된 CART로 입력되면, 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형 Wp와 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형 Wn의 불연속 예측값이 출력된다. 이처럼 CART에서 출력되는 음성파형 Wp및 Wn을 이용하여 불연속 정도를 다음 수학식 2와 같이 예측할 수 있다.
도 3에 도시된 바와 같이, CART는 계층적인 구조를 갖는 질문(question)에 따라 예측값을 결정하도록 설계된다. 각 원안에 기술된 질문은 CART의 입력값에 따라 결정된다. 그리고, 더 이상의 질문이 없는 터미널 노드들(64,72,68,70)에서 예측값은 결정된다. 먼저 불연속 정도를 예측하고자 하는 음소경계를 중심으로 바로 이전의 음소 p가 유성음인가를 판단하여(60), 유성음이 아니면 수학식 2에 의해 불연속 정도를 A로 예측한다(72). 한편, 음소 p가 유성음이면 음소 pp가 유성음인가를 판단하여(62) 유성음이면 수학식 2에 의해 불연속 정도를 B로 예측한다. 또한, 음소 pp가 유성음이 아니면 음소 n이 유성음인가의 여부에 따라(66) 불연속 정도를 C 또는 D로 예측한다(68,70).
이제, 도 2 내지 도 4를 이용하여 본 발명에 따른 음성 합성 시스템의 동작을 상세히 설명한다.
먼저, 필터특성 제어부(50)는 실제 불연속 측정부(52)를 통해 합성된 음성신호(IN)의 음소간의 경계에서 발생되는 실제 불연속 정도(Dr)를 구하고, 불연속 예측부(56)를 통해 합성된 음성(IN)에 이용되는 표본 음소들(Con)을 이용하여 불연속을 예측하여 예측된 불연속 정도(Dp)를 구한다. 그리고, 다음 수학식 3과 같이, 예측된 불연속 정도(Dp)와 실제 불연속 정도(Dr)의 비율(R)을 구하고, 구해진 비율을 계수선택신호(R)로서 출력한다.
여기서, 불연속 예측부(56)는 전술된 바와 같이, CART 방식에 의해 실제 사람의 음성을 통해 발생되는 문맥정보를 통해 음소간의 불연속이 학습되어 있으며, 음성 합성에 이용되는 표본 음소들(Con)이 입력되면, 학습된 결과에 따른 불연속 정도(Dp)를 구한다. 결국, 예측된 불연속 정도(Dp)는 실제 사람이 발음할 때에 발생되는 불연속을 예측한 결과라 할 수 있다.
필터 계수 결정부(40)는 계수 선택신호(R)에 응답하여 다음 수학식 4와 같이 필터 계수(α)를 결정하고, 결정된 필터 계수(α)를 스무딩 필터(30)로 출력한다.
수학식 4를 참조하여, R이 1보다 크면 즉, 실제 불연속 정도(Dr)가 예측된 불연속 정도(Dp)보다 작으면 스무딩 필터(30)에서 스무딩이 약하게 수행하도록 필터계수(α)를 작게 한다(수학식 1참조). 예측된 불연속 정도(Dp)가 실제 불연속 정도(Dr)보다 크다는 것은 실제 발음상에서 불연속 정도가 큰데 합성된 음성에서는 불연속 정도가 작게 나타난 경우이다. 즉, 실제 발음상에서 불연속 정도가 큰 경우에는 합성된 음성(IN)의 스무딩을 약하게 하여 합성된 음성(IN)이 실제 발음상의불연속 정도를 유지하도록 제어한다. 반면, R이 1보다 작으면 즉, 실제 불연속 정도(Dr)가 예측된 불연속 정도(Dp)보다 크면 스무딩 필터(30)에서 스무딩이 강하게 수행되도록 필터 계수(α)를 크게 한다(수학식 1참조). 이는, 예측된 불연속 정도(Dp)가 실제 불연속 정도(Dr)보다 작다는 것은 실제 발음상에서 불연속 정도가 실제 불연속 정도(Dr)보다 작게 일어나는 경우이다. 따라서, 스무딩을 강하게 하여 합성된 음성(IN)이 실제 발음상의 불연속 정도를 유지하도록 제어한다.
스무딩 필터(30)는 필터계수 결정부(40)에서 결정된 필터 계수(α)에 따라 합성된 음성(IN)을 스무딩한다.
이상에서와 같이, 스무딩 필터(30)는 예측된 불연속 정도(Dp)와 실제 불연속 정도(Dr)의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성(IN)의 불연속 정도가 예측된 불연속 정도(Dp)를 추종하도록 합성된 음성(IN)을 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터네을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 상기 기록매체를 구현하기 위한 각 기능들을 실현할 수 있는 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있는 것이다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상술한 바와 같이, 본 발명에 따른 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법에 따르면, 스무딩 필터(30)는 예측된 불연속 정도(Dp)와 실제 불연속 정도(Dr)의 비에 상응하여 적응적으로 변화되는 필터계수(α)에 의해, 합성된 음성(IN)의 불연속 정도가 예측된 불연속 정도(Dp)를 추종하도록 합성된 음성(IN)을 스무딩한다. 즉, 합성된 음성(IN)의 불연속이 실제 발음상에서 발생되는 불연속을 추종하도록 스무딩되므로 합성된 음성(IN)이 보다 실제 음성에 가까워지도록 할 수 있다.

Claims (18)

  1. 스무딩 기법을 이용하여 합성된 음성의 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 있어서,
    상기 합성에 이용되는 표준 음소들 간의 불연속을 학습에 의해 예측하고, 예측된 불연속 정도에 상응하여 상기 음성 합성된 음소간의 불연속이 적응적으로 스무딩 되도록 제어하는 불연속 왜곡 처리부를 포함하는 것을 특징으로 하는 음성합성 시스템.
  2. 제1항에 있어서, 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 음성 합성 시스템.
  3. 음성합성된 음소간의 경계에서 발생되는 불연속을 필터계수에 상응하여 스무딩하는 스무딩 필터;
    음성합성된 음소간의 경계에서 발생되는 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하고, 비교된 결과를 출력하는 필터특성 제어부; 및
    상기 스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 비교 결과에 따라 상기 필터계수를 결정하는 필터계수 결정부를 포함하는 것을 특징으로 하는 음성합성 시스템.
  4. 제3항에 있어서, 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 음성합성 시스템.
  5. 제4항에 있어서, 상기 불연속 예측에 이용되는 표준 음소는 예측하고자 하는 음소 경계를 중심으로 이전의 두 개 음소들과 이후의 두 개 음소들인 것을 특징으로 하는 음성 합성 시스템.
  6. 제3항에 있어서, 상기 계수 선택신호(R)는 다음 수학식에 의해 구해지는 것을 특징으로 하는 음성 합성 시스템.
    (여기서, Dp는 예측된 불연속 정도이고, Dr은 실제 불연속 정도이다.)
  7. 제3항에 있어서, 상기 필터계수 결정부는 상기 계수 선택신호(R)에 응답하여 다음 수학식
    에 의해 상기 필터계수(α)를 결정하는 것을 특징으로 하는 음성합성 시스템.
  8. 스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 있어서,
    (a)상기 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 단계;
    (b)상기 스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 (a)단계에서의 비교 결과에 상응하는 필터 계수를 결정하는 단계; 및
    (c)상기 결정된 필터 계수에 상응하여 상기 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 단계로 이루어지는 것을 특징으로 하는 음성합성 방법.
  9. 스무딩 기법을 이용하여 음성 합성된 음소간의 불연속 왜곡을 제어하기 위하여,
    상기 음성합성된 음소간의 경계에서 발생되는 실제 불연속 정도와, 상기 음성합성에 이용된 표준 음소들을 이용하여 소정의 학습 결과에 따라 예측된 불연속 정도를 비교하는 제1 기능;
    스무딩 필터가 상기 음성합성된 음소간 불연속 왜곡을 상기 예측된 불연속 정도에 따라 스무딩하도록, 상기 비교 결과에 상응하는 필터 계수를 결정하는 제2 기능; 및
    상기 결정된 필터 계수에 상응하여 상기 음성합성된 음소간의 경계에서 발생되는 불연속을 스무딩하는 제3 기능을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어장치에 있어서,
    상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 불연속 측정부;
    음소간 불연속 예측이 학습되어 있으며, 상기 음성신호의 합성에 이용되는 표준 음소들이 입력되면 입력된 상기 표준 음소들간의 경계에 대한 불연속을 학습 결과에 따라 예측하여 예측된 불연속 정도로서 출력하는 불연속 예측부; 및
    상기 실제의 불연속 정도와 상기 예측된 불연속 정도를 비교하고, 비교 결과를 상기 스무딩 필터의 필터 계수를 결정하는 계수 선택신호로서 발생하는 비교부를 구비하는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
  11. 제10항에 있어서, 상기 불연속 예측부에서의 상기 학습은 CART(Classification And Regression Tree) 방식에 의해 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
  12. 제11항에 있어서, 상기 불연속 예측에 이용되는 표준 음소는 예측하고자 하는 음소 경계를 중심으로 이전의 두 개 음소들과 이후의 두 개 음소들인 것을 특징으로 하는 스무딩 필터 특성 제어장치.
  13. 제12항에 있어서, 상기 실제 불연속 정도(Dr) 및 상기 예측 불연속 정도(Dp)는 다은 수학식들에 의해 각각 구해지는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
    (여기서, Wp는 합성된 음성에서 불연속 정도를 구하고자 하는 음소 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형이며, Wn은 상기 음소 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형이다. 또한, Wp '는 불연속 정도를 예측하고자 하는 음소 경계면을 기준으로 왼쪽에 위치하는 유닛의 마지막 피치 주기의 음성 파형이며, Wn '은 상기 음소 경계면의 오른쪽에 위치하는 유닛의 첫 번째 피치 주기의 음성 파형 Wn이다.)
  14. 제10항에 있어서, 상기 비교부는 다음 수학식에 의해 상기 계수 선택신호(R)를 구하는 것을 특징으로 하는 스무딩 필터 특성 제어장치.
    (여기서, Dp는 예측된 불연속 정도이고, Dr은 실제 불연속 정도이다.)
  15. 제10항에 있어서, 상기 필터계수(α)는 상기 계수 선택신호(R)에 상응하여 다음 수학식
    에 의해 결정되는 것을 특징으로 하는 스무딩 필터 제어장치.
  16. 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키는 스무딩 필터 특성 제어방법에 있어서,
    (a)표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 단계;
    (b)상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 단계;
    (c)상기 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 상기 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 단계; 및
    (d)상기 실제의 불연속 정도와 상기 예측된 불연속 정도에 따라 상기 스무딩 필터의 필터 계수를 결정하는 단계로 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어방법.
  17. 제16항에 있어서, 상기 (d)단계는
    (d1)상기 예측된 불연속 정도와 상기 실제 불연속 정도의 비(R)를 구하는 단계; 및
    (d2)다음 수학식
    에 따라 상기 필터계수(α)를 결정하는 단계로 이루어지는 것을 특징으로 하는 스무딩 필터 특성 제어방법.
  18. 음성 합성된 음소간의 불연속 왜곡을 제어하는 음성합성 시스템에 이용되는 스무딩 필터의 특성을 음소 경계의 특성에 따라 적응적으로 변화시키키 위하여,
    표준 음소들을 이용하여 음소간 불연속 예측을 학습하는 제1 기능;
    상기 합성된 음성신호의 음소간 경계에서 발생되는 불연속 정도를 실제 불연속 정도로서 구하는 제2 기능;
    상기 음성신호의 합성에 이용되는 표준 음소들간의 경계에 대한 불연속을 상기 학습 결과에 따라 예측하여 예측된 불연속 정도를 구하는 제3 기능; 및
    상기 실제의 불연속 정도와 상기 예측된 불연속 정도에 따라 상기 스무딩 필터의 필터 계수를 결정하는 제4 기능을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2001-0067623A 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 KR100438826B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2001-0067623A KR100438826B1 (ko) 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
EP02257456A EP1308928B1 (en) 2001-10-31 2002-10-28 System and method for speech synthesis using a smoothing filter
DE60228381T DE60228381D1 (de) 2001-10-31 2002-10-28 System und Verfahren zur Sprachsynthese unter Verwendung eines Glattungsfilters
JP2002317332A JP4202090B2 (ja) 2001-10-31 2002-10-31 スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
US10/284,189 US7277856B2 (en) 2001-10-31 2002-10-31 System and method for speech synthesis using a smoothing filter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0067623A KR100438826B1 (ko) 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030035522A KR20030035522A (ko) 2003-05-09
KR100438826B1 true KR100438826B1 (ko) 2004-07-05

Family

ID=19715573

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0067623A KR100438826B1 (ko) 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법

Country Status (5)

Country Link
US (1) US7277856B2 (ko)
EP (1) EP1308928B1 (ko)
JP (1) JP4202090B2 (ko)
KR (1) KR100438826B1 (ko)
DE (1) DE60228381D1 (ko)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8380503B2 (en) 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10319364B2 (en) 2017-05-18 2019-06-11 Telepathy Labs, Inc. Artificial intelligence-based text-to-speech system and method
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
US11450307B2 (en) * 2018-03-28 2022-09-20 Telepathy Labs, Inc. Text-to-speech synthesis system and method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
EP1000499B1 (en) * 1997-07-31 2008-12-31 Cisco Technology, Inc. Generation of voice messages
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Also Published As

Publication number Publication date
EP1308928A3 (en) 2005-03-09
JP2003150187A (ja) 2003-05-23
EP1308928A2 (en) 2003-05-07
DE60228381D1 (de) 2008-10-02
EP1308928B1 (en) 2008-08-20
JP4202090B2 (ja) 2008-12-24
US7277856B2 (en) 2007-10-02
US20030083878A1 (en) 2003-05-01
KR20030035522A (ko) 2003-05-09

Similar Documents

Publication Publication Date Title
KR100438826B1 (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
EP0764937B1 (en) Method for speech detection in a high-noise environment
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
WO2022227935A1 (zh) 语音识别方法、装置、设备、存储介质及程序产品
EP1693826A1 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
US20230252971A1 (en) System and method for speech processing
US20170263239A1 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP4469986B2 (ja) 音響信号分析方法および音響信号合成方法
Slaney et al. Pitch-gesture modeling using subband autocorrelation change detection.
Buhmann et al. Data driven intonation modelling of 6 languages.
JP7088796B2 (ja) 音声合成に用いる統計モデルを学習する学習装置及びプログラム
Kotnik et al. Efficient noise robust feature extraction algorithms for distributed speech recognition (DSR) systems
Furui Toward the ultimate synthesis/recognition system
JPH0772899A (ja) 音声認識装置
Faycal et al. Pitch modification of speech signal using source filter model by linear prediction for prosodic transformations
Rao et al. Robust Voicing Detection and F 0 Estimation Method
RU2101782C1 (ru) Способ распознавания слов в слитной речи и система для его реализации
Shinozaki et al. Dynamic Bayesian network-based acoustic models incorporating speaking rate effects
Rabiner et al. Use of a Computer Voice‐Response System for Wiring Communications Equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee