KR101095867B1 - Apparatus and method for producing speech - Google Patents

Apparatus and method for producing speech Download PDF

Info

Publication number
KR101095867B1
KR101095867B1 KR1020090026451A KR20090026451A KR101095867B1 KR 101095867 B1 KR101095867 B1 KR 101095867B1 KR 1020090026451 A KR1020090026451 A KR 1020090026451A KR 20090026451 A KR20090026451 A KR 20090026451A KR 101095867 B1 KR101095867 B1 KR 101095867B1
Authority
KR
South Korea
Prior art keywords
speech
voice
section
synthesis
synthesized sound
Prior art date
Application number
KR1020090026451A
Other languages
Korean (ko)
Other versions
KR20100062825A (en
Inventor
조훈영
박준
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20100062825A publication Critical patent/KR20100062825A/en
Application granted granted Critical
Publication of KR101095867B1 publication Critical patent/KR101095867B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성합성장치 및 방법에 있어서, 합성음의 명료도를 높이기 위해 소음이 심한 곳 또는 가변적인 소음환경에서는 음성합성장치내 음성인식부에서 1차로 생성된 합성음 중 소음환경에 따라 신뢰도가 낮아진 음성 구간의 파라미터값에 대해 소음환경에 적절한 파라미터값으로 자동으로 재조정하도록 하고, 재조정된 파라미터값에 의해 2차로 합성음을 생성하도록 함으로써, 소음에 대해 명료도가 높은 합성음을 얻을 수 있게 된다.According to the present invention, in the speech synthesis apparatus and method, in order to increase the intelligibility of the synthesized sound, the speech section of which the reliability is lowered according to the noise environment among the synthesized sounds generated primarily by the speech recognition unit in the speech synthesis apparatus in a noisy place or a variable noise environment. By automatically re-adjusting the parameter value to the appropriate parameter value for the noise environment, and generating the synthesized sound in the second order based on the readjusted parameter value, the synthesized sound with high clarity with respect to the noise can be obtained.

음성인식, 합성, 소음, 명료도, 신뢰도 Speech Recognition, Synthesis, Noise, Clarity, Reliability

Description

음성합성장치 및 방법{APPARATUS AND METHOD FOR PRODUCING SPEECH}Speech synthesis device and method {APPARATUS AND METHOD FOR PRODUCING SPEECH}

본 발명은 음성합성 방법에 관한 것으로, 특히 음성합성에 있어서, 소음이 심한 곳 또는 가변적인 소음환경에서는 1차로 합성된 합성음에 대해 소음환경에 적절한 음성의 파라미터(parameter)값으로 재조정하여 재차 합성음을 생성하도록 함으로써, 소음에 대해 보다 명료도(intelligibility)를 높일 수 있도록 하는 음성합성 장치 및 방법에 관한 것이다.The present invention relates to a speech synthesis method, and in particular, in speech synthesis, a synthesized sound is readjusted to a parameter value of a voice suitable for a noise environment for a first synthesized sound in a noisy place or a variable noise environment. The present invention relates to a speech synthesis apparatus and a method for generating greater intelligibility with respect to noise.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].The present invention is derived from the research conducted as part of IT new growth engine technology development project of the Ministry of Knowledge Economy and the Ministry of Information and Communication Research and Development. [Task management number: 2008-S-019-01, Task name: Portable Korean / English automatic interpretation technology Development].

통상적으로, 문자-음성 합성(Text-to-Speech: TTS)은 주어진 텍스트에 대해서 음성 신호처리 기술에 의해 음성 신호로 변환하는 기술로서, 음성 인식과 더불어 음성 신호처리의 주된 기술 분야 가운데 하나이다. 위와 같은, TTS는 지하철의 역명 안내방송과 같이 재생하고자 하는 음성신호를 사전에 녹음한 뒤, 이 중 일부 특정 단어들에 대해서만 해당하는 음성신호들로 교체하는 기본적인 방식에서부터, 임의의 입력 문장에 대해서 자연스런 합성음을 생성해내는 고난이도의 신호처리 방법에 이르기까지 발전되어 왔다. Typically, text-to-speech (TTS) is a technology for converting a given text into a speech signal by speech signal processing technology, which is one of the main technical fields of speech signal processing in addition to speech recognition. As described above, the TTS records a voice signal to be reproduced in advance, such as a subway station announcement, and then replaces the voice signals with only the corresponding voice signals for some specific words. Advances have been made to advanced signal processing methods that produce natural synthesized sounds.

또한, 근래에 들어서는 대용량의 음성 데이터베이스(database)를 수집하고, 이 음성 데이터베이스를 음소(phone) 혹은 유사음소(phone-like) 단위로 분할(segmentation) 및 레이블링(labelling)링 한 뒤, 입력 문장에 대해 가장 적절한 음소 또는 유사 음소열을 탐색하고 이들을 조합하여 합성음을 생성해 내는 방식이 널리 응용되고 있다. 이 방식은 합성음의 품질을 크게 향상시킬 수 있었으나, 음성 데이터베이스의 크기가 매우 커짐에 따라서 소형의 단말기 등에 적용이 어려운 한계가 있었다.In addition, in recent years, a large database of voices is collected, and the voice database is segmented and labeled by phone or phone-like units, and then inputted into the input sentence. Searching for the most appropriate phonemes or strings of similar phonemes and combining them to generate synthesized sounds has been widely applied. This method can greatly improve the quality of synthesized sound. However, as the size of the voice database is very large, it is difficult to apply to a small terminal.

한편, 최근에는 음성인식에서 가장 널리 사용되고 있는 음향 모델링 기법 중의 하나인 은닉 마르코프 모델(hidden Markov model: HMM) 기법을 응용하여, 대용량의 음성 데이터베이스로부터 각각의 합성 단위음에 대한 음향 모델(model)을 학습하고, 이 모델로부터 자연스럽 합성음을 재생해 내는 방식이 활발히 연구되고 있다. Recently, the Hidden Markov Model (HMM) technique, which is one of the most widely used acoustic modeling techniques, is applied to a speech model for each synthesized unit sound from a large-scale speech database. The method of learning and reproducing natural synthesized sound from this model is being actively studied.

도 1은 종래 음성합성 처리 흐름을 도시한 것으로, 먼저, 텍스트 문장이 입력되는 경우(S100), 입력된 텍스트 문장에 대해서 문장 부호 등에 관한 텍스트 전처리를 수행하여(S102), 의문문 또는 평서문 여부 등에 대해 해당되는 합성음 제어 파라미터를 생성한다(S104). 1 illustrates a conventional speech synthesis processing flow. First, when a text sentence is input (S100), text preprocessing regarding a punctuation mark or the like is performed on the input text sentence (S102), and whether a question or a plain sentence is included. A corresponding synthesized sound control parameter is generated (S104).

이어, 입력 문장을 발음나는 대로의 음소열로 표기하는 발음열 변환을 수행하고(S106), HMM 상태열을 생성한다(S108). 이때, HMM 상태열에는 많은 양의 음성에 대해 학습된 형태의 통계적 피치정보, 에너지, 지속길이 정보 및 성도(vocal tract) 특성인 포만트(formant) 정보가 포함되어 있으며, 이러한 값들을 조합하여 최종적인 합성음을 생성해 낸다(S110).Subsequently, a phonetic string conversion is performed in which an input sentence is pronounced as a phoneme string as pronounced (S106), and an HMM state string is generated (S108). In this case, the HMM status sequence includes statistical pitch information, energy, duration information, and formant information, which is a vocal tract characteristic, for a large amount of speech. Produces a synthetic sound (S110).

그러나, 위와 같은 종래 음성합성 방식은 기본적으로 조용한 사용환경을 가정하고 있는 것으로, 소음이 심한 곳에서는 명료도가 떨어지는 문제점이 있다. 이를 위해 소음이 심한 곳에서는 음성 출력 장치의 볼륨 제어를 통해 이를 해결하는 방법 등이 있으나, 이를 위해서는 사람의 개입을 필요로 하여, 우선 사람이 소음이 심하다는 판단을 수행해야 함과 동시에, 소음 환경 가운데서 합성음질이 어떠한지 판단해야하는 문제점이 있었다.However, the conventional speech synthesis method as described above basically assumes a quiet use environment, and there is a problem that the intelligibility falls in a place where the noise is severe. To this end, there are ways to solve the problem by controlling the volume of the voice output device in a noisy place.However, this requires human intervention. Among them, there was a problem of judging what the sound quality is.

따라서, 본 발명은 음성합성에 있어서, 소음이 심한 곳 또는 가변적인 소음환경에서는 1차로 합성된 합성음에 대해 소음환경에 적절한 음성의 파라미터값으로 재조정하여 재차 합성음을 생성하도록 함으로써, 소음에 대해 보다 명료도를 높일 수 있도록 하는 음성합성 장치 및 방법을 제공하고자 한다.Accordingly, in the speech synthesis, the present invention synthesizes the synthesized sound by adjusting the parameter value of the voice suitable for the noise environment to the first synthesized sound in a place where the noise is loud or in a variable noise environment, thereby generating a synthesized sound again. It is intended to provide a speech synthesis apparatus and method that can increase the.

상술한 본 발명은 음성합성장치로서, 입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시키는 문자음성 합성부와, 상기 제1합성음에 대해 주변의 소음을 가산한 상태에서 1차 음성인식을 수행하여, 음성인식 신뢰도값이 일정 기준보다 낮은 음성구간을 검출하고, 해당 구간에 대해서 음성 파라미터값을 재조정시키는 음성인식부와, 상기 음성인식부로부터 인식된 음성과, 상기 신뢰도값이 낮은 음성구간의 변경된 음성합성 파라미터값을 수신하여 2차 음성합성을 통해 제2합성음을 출력시키는 음성합성부를 포함한다.As described above, the present invention provides a speech synthesizer comprising: a text speech synthesizer for synthesizing an input text sentence into a speech and outputting a first synthesized sound; and a first speech recognition in a state where ambient noise is added to the first synthesized sound. The voice recognition unit detects a voice section in which the voice recognition reliability value is lower than a predetermined criterion, and readjusts the voice parameter value for the corresponding section, a voice recognized by the voice recognition unit, and a voice section in which the confidence value is low. And a voice synthesizer configured to receive the changed voice synthesis parameter value and output the second synthesized sound through the second voice synthesis.

또한, 상기 음성인식부는, 상기 주변의 소음이 가산된 제1합성음에 대해 특징 추출을 통한 음성인식을 수행하여 HMM 상태열을 획득한 후, 상기 소음이 가산되기 이전의 합성음 생성시에 사용된 HMM 상태열과의 비교를 통해 상기 음성인식된 음성의 단위 구간별 신뢰도 값을 산출하여 상기 신뢰도값이 일정 기준보다 낮은 음성 구간을 검출하고, 상기 HMM 상태열의 분석을 통해 상기 신뢰도값이 상기 일정 기준보다 낮은 음성 구간의 음성 파라미터값을 추출하여 재조정시키는 것을 특징으로 한다.The voice recognition unit may be configured to perform voice recognition through feature extraction on the first synthesized sound to which the ambient noise is added to obtain an HMM state string, and then use the HMM used when generating the synthesized sound before the noise is added. Computing a reliability value for each unit section of the speech recognition speech through comparison with a status string to detect a speech section whose reliability value is lower than a predetermined criterion, and analyzing the HMM status string, wherein the reliability value is lower than the predetermined criterion. The voice parameter value of the voice section is extracted and readjusted.

또한, 본 발명은 음성합성방법으로서, 입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시키는 단계와, 상기 제1합성음에 주변의 소음을 가산하여 음성인식을 수행한 후, 음성인식 신뢰도값이 일정 기준보다 낮은 음성 구간을 검출하는 단계와, 상기 검출된 음성 구간에 대한 음성 파라미터값을 재조정시키는 단계와, 상기 음성 파라미터값이 재조정된 음성에 대해 제2합성음을 출력시키는 단계를 포함한다.The present invention also provides a speech synthesis method, comprising: synthesizing an input text sentence into a voice to output a first synthesized sound, and performing voice recognition by adding ambient noise to the first synthesized sound, and then using a speech recognition reliability value. Detecting a voice section lower than the predetermined criterion, re-adjusting a voice parameter value for the detected voice section, and outputting a second synthesized sound for the voice whose voice parameter value has been adjusted.

또한, 상기 음성인식 신뢰도값이 낮은 음성 구간을 검출하는 단계는, 상기 주변의 소음이 가산된 제1합성음에 대해 특징 추출을 통한 음성인식을 수행하여 HMM 상태열을 획득하는 단계와, 상기 소음이 가산되기 이전의 합성음 생성시에 사용된 HMM 상태열의 비교를 통해 상기 음성인식된 음성의 단위 구간별 신뢰도 값을 산출하여 상기 일정 기준보다 낮은 음성 구간을 검출하는 단계를 포함한다.The detecting of the speech section having a low speech recognition reliability value may include obtaining a HMM status string by performing speech recognition through feature extraction on the first synthesized sound to which the ambient noise is added. And calculating a confidence value for each unit section of the speech recognized speech by comparing the HMM state string used when generating the synthesized speech before adding, and detecting a speech section lower than the predetermined criterion.

본 발명에서는 음성합성에 있어서, 합성음의 명료도를 높이기 위해 소음이 심한 곳 또는 가변적인 소음환경에서는 음성합성장치내 음성인식부에서 1차로 생성된 합성음 중 소음환경에 따라 신뢰도가 낮아진 음성 구간의 파라미터값에 대해 소음환경에 적절한 파라미터값으로 자동으로 재조정하도록 하고, 재조정된 파라미터값에 의해 2차로 합성음을 생성하도록 함으로써, 소음에 대해 명료도가 높은 합성음을 얻을 수 있다. 이에 따라 지하철, 공항, 주행 중인 자동차 내부 등과 같이 사람이 직접 음성합성장치의 명료도 등을 조절하기 힘든 상황에서 자동으로 높은 명료도를 갖는 합성음성을 용이하게 생성할 수 있는 이점이 있다.In the present invention, in speech synthesis, in order to increase the intelligibility of the synthesized sound, the parameter value of the speech section of which the reliability is lowered according to the noise environment among the synthesized sounds generated primarily by the speech recognition unit in the speech synthesis apparatus in a place where the noise is high or in a variable noise environment. By automatically re-adjusting to a parameter value appropriate to the noise environment and generating a synthesized sound second by the readjusted parameter value, a synthesized sound with high clarity to noise can be obtained. Accordingly, there is an advantage in that it is easy to automatically generate synthesized speech having a high intelligibility in a situation where it is difficult for a person to directly adjust the intelligibility of the voice synthesis apparatus such as a subway, an airport, and a driving car.

이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그 러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. Hereinafter, with reference to the accompanying drawings will be described in detail the operating principle of the present invention. In the following description of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. The following terms are defined in consideration of the functions of the present invention, and may be changed according to the intentions or customs of the user, the operator, and the like. Therefore, the definition should be made based on the contents throughout the specification.

도 2는 본 발명의 실시 예에 따른 음성합성장치의 블록 구성을 도시한 것으로, 본 발명의 음성합성장치는 문자음성 합성부(200), 음성인식부(202), 음성합성부(204), 고대역 통과 필터부(206)를 포함한다.2 is a block diagram of a speech synthesis apparatus according to an embodiment of the present invention. The speech sum growth value of the present invention is a text speech synthesis unit 200, a speech recognition unit 202, a speech synthesis unit 204, A high pass filter 206.

먼저, 문자음성 합성부(200)는 입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시킨다. 음성인식부(202)는 문자음성 합성부(200)에서 출력되는 제1합성음에 대해 주변의 소음을 가산한 상태에서 1차 음성인식을 수행한 후, 음성인식된 음성의 단위 구간별 신뢰도 값을 산출하여 신뢰도값이 미리 설정된 일정 기준보다 낮은 음성 구간을 검출하고, 해당 구간에 대해서 음성 파라미터값을 재조정시킨다.First, the text-voice synthesizer 200 synthesizes an input text sentence into a voice and outputs a first synthesized sound. The speech recognition unit 202 performs first speech recognition in a state where ambient noise is added to the first synthesis sound output from the text speech synthesis unit 200, and then the reliability value for each unit section of the speech recognition speech is determined. The speech section detects a speech section having a reliability value lower than a predetermined reference value and readjusts the speech parameter value for the section.

음성합성부(204)는 음성인식부(202)로부터 인식된 음성과, 신뢰도값이 낮은 음성구간의 변경된 음성 파라미터값을 수신하여 2차 음성합성을 통해 제2합성음을 출력시킨다. 고대역 통과 필터부(high frequency bandwidth filter)(206)는 음성합성부(204)를 통해 재차 합성된 음성에 대해 고주파 대역 필터링을 수행한다.The voice synthesizer 204 receives the voice recognized by the voice recognizer 202 and the changed voice parameter value of the voice section having a low reliability value and outputs the second synthesized sound through the second voice synthesis. The high frequency bandwidth filter 206 performs high frequency band filtering on the speech synthesized again through the speech synthesis unit 204.

이하, 도 2를 참조하여 음성합성장치의 동작을 살펴보기로 한다. Hereinafter, the operation of the speech synthesis apparatus will be described with reference to FIG. 2.

먼저 텍스트 문장이 입력되는 경우, 입력 텍스트 문장에 대해 문자음성 합성부(200)를 이용하여 제1합성음을 생성하여 스피커(speaker)(도시하지 않음)로 출력시킨다. 이때, 주변에 소음이 존재하는 경우에는 음성신호 수준에서 소음이 재생된 제1합성음에 가산되도록 하며, 가산된 음성신호를 음성인식부(202)를 통과시켜 제1합성음의 신뢰도가 미리 설정된 일정 기준보다 낮은 음성구간을 검출하여, 해당 구간에 대해서 음성의 피치(pitch), 지속길이, 에너지(energy) 파라미터(parameter)값을 재조정한다. First, when a text sentence is input, a first synthesized sound is generated by using the text-voice synthesizer 200 with respect to the input text sentence and output to the speaker (not shown). In this case, when noise is present in the vicinity, the noise is reproduced at the voice signal level to be added to the first synthesized sound, and the added voice signal is passed through the voice recognition unit 202 to establish a predetermined standard of reliability of the first synthesized sound. A lower voice section is detected and the pitch, duration, and energy parameter values of the voice are readjusted for that section.

이어, 음성 파라미터값이 재조정된 음성신호를 음성합성부(204)로 전달하게 되며, 음성합성부(204)에서 재조정된 파라미터값을 이용하여 2차 음성합성을 통해 제2합성음을 생성하게 된다. 그런 후, 고대역 통과 필터부(206)를 통해 제2합성음을 고주파 대역 필터링을 수행하여 최종 합성음으로 출력시킨다.Subsequently, the voice signal having the readjusted voice parameter value is transmitted to the voice synthesizer 204, and the second synthesized voice is generated through the second voice synthesizer using the readjusted parameter value. Thereafter, the second synthesized sound is subjected to high frequency band filtering through the high pass filter 206 to output the final synthesized sound.

도 3은 본 발명의 실시 예에 따른 음성합성장치에서 잡음환경에서도 합성음의 명료도를 높일 수 있는 음성합성 동작 제어 흐름을 도시한 것이다. 이하, 도 2 및 도 3을 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.3 is a flowchart illustrating a voice synthesis operation control flow for increasing the intelligibility of synthesized sound even in a noise environment in the speech synthesis device according to an exemplary embodiment of the present invention. Hereinafter, embodiments of the present invention will be described in detail with reference to FIGS. 2 and 3.

먼저, 텍스트 문장이 입력(S300)되는 경우, 문자음성 합성부(200)는 입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시킨다(S302). 위와 같이, 문자음성 합성부(200)를 통해 출력되는 제1합성음은 주변에 소음이 있는 경우 소음이 가산되어(S304), 음성인식부(202)로 입력된다. First, when a text sentence is input (S300), the text-voice synthesizer 200 synthesizes the input text sentence into a voice and outputs a first synthesized sound (S302). As described above, the first synthesized sound output through the text-voice synthesizer 200 is added to the voice recognition unit 202 when the noise is added (S304).

그러면, 음성인식부(202)에서는 주변의 소음이 가산된 제1합성음에 대해 특징 추출을 통해 1차 음성인식을 수행한 후(S306), HMM 상태열을 획득한다. 이어, 음성인식된 음성신호의 단위 구간별 신뢰도값을 산출하여 신뢰도값이 미리 설정된 일정 기준보다 낮은 음성 구간을 검출하고(S308), 신뢰도값이 일정 기준보다 낮은 구간에 대해서는 해당 음성의 피치, 지속길이, 에너지 등의 파라미터값을 재조정시 킨다(S310).Then, the voice recognition unit 202 performs the first voice recognition through feature extraction on the first synthesized sound to which the ambient noise is added (S306), and then obtains the HMM status string. Subsequently, a reliability value for each unit section of the speech recognized speech signal is calculated to detect a speech section having a reliability value lower than a predetermined reference level (S308), and for a section having a reliability value lower than a predetermined reference, the pitch and duration of the corresponding speech are continued. The parameters such as length and energy are readjusted (S310).

즉, 음성인식부(202)는 신뢰도값이 일정 기준보다 낮은 구간에 대해서는 제1합성음 생성시 사용된 음성의 피치값에 대해 재조정된 피치 변경 인자값 P_a, 에너지값에 대해 재조정된 에너지 변경 인자값 E_a 및 제1합성음에서 사용된 지속길이 값에 대해 재조정된 지속길이 변경 인자값 D_a를 음성합성부(204)로 전달한다.That is, the speech recognition unit 202 adjusts the pitch change factor value P_a that is readjusted with respect to the pitch value of the speech used when generating the first synthesized sound, and the energy change factor value that has been readjusted with respect to the energy value for a section in which the reliability value is lower than a predetermined criterion. The duration change factor value D_a readjusted with respect to the duration value used in E_a and the first synthesis sound is transmitted to the speech synthesis unit 204.

그러면, 음성합성부(204)에서는 음성인식부(202)에서 재조정된 음성의 파라미터값을 이용하여 2차 음성합성을 통해 제2합성음을 생성하게 된다(S312).Then, the speech synthesis unit 204 generates the second synthesis sound through the second speech synthesis using the parameter value of the speech readjusted by the speech recognition unit 202 (S312).

예를 들어, 상기 제1합성음 생성시에 특정구간의 합성음성의 피치가 P(t), P(t+1), ..., P(t+N)이라고 하고, 합성음성의 에너지가 E(t), E(t+1), ..., E(t+N)이라고 할 때, 재조정된 피치 및 에너지는 각각, P_a × P(t), P_a × P(t+1), ..., P_a × P(t+N) 및 E_a × E(t), E_a × E(t+1), ..., E_a × E(t+N)처럼 계산될 수 있으며, 지속길이도 이와 유사한 방식으로 변경될 수 있다. P_a, E_a, D_a 는 0부터 상수 K 사이의 실수 값이며, t는 음성의 프레임 인덱스(frame index)를 의미한다.For example, when generating the first synthesized sound, the pitch of the synthesized voice in a specific section is P (t), P (t + 1), ..., P (t + N), and the energy of the synthesized voice is E. When (t), E (t + 1), ..., E (t + N), the readjusted pitch and energy are P_a × P (t), P_a × P (t + 1),. .., P_a × P (t + N) and E_a × E (t), E_a × E (t + 1), ..., E_a × E (t + N) It can be changed in a similar manner. P_a, E_a, and D_a are real values between 0 and K, and t is a frame index of speech.

위와 같이, 음성인식부(202)에 의해 주변의 소음환경이 고려되어 음성 파라미터가 재조정되고, 재조정된 음성 파라미터에 따라 음성합성부(204)에 의해 명료도가 높게 재합성된 제2합성음은 고대역 통과 필터부(206)를 통해 고주파 대역에 대한 필터링이 수행된 후(S314), 최종 합성음으로 출력된다(S316). 이 때, 고주파 대역 통과 필터링을 수행하는 이유는 소음환경에서 음성의 고주파 대역을 강화할 경우, 청취 명료도를 더욱 높일 수 있다고 알려져 있기 때문이다. As described above, the voice parameter is reconsidered by the voice recognition unit 202 considering the surrounding noise environment, and the second synthesized sound recombined with high clarity by the voice synthesizer 204 according to the readjusted voice parameter has a high band. After the filtering for the high frequency band is performed through the pass filter unit 206 (S314), the final synthesized sound is output (S316). In this case, the reason for performing the high frequency band pass filtering is that it is known that the listening intelligibility can be further increased when the high frequency band of the voice is enhanced in the noise environment.

상기한 바와 같이, 본 발명에서는 음성합성장치 및 방법에 있어서, 합성음의 명료도를 높이기 위해 소음이 심한 곳 또는 가변적인 소음환경에서는 음성합성장치내 음성인식부에서 1차로 생성된 합성음 중 소음환경에 따라 신뢰도가 낮아진 음성 구간의 파라미터값에 대해 소음환경에 적절한 파라미터값으로 자동으로 재조정하도록 하고, 재조정된 파라미터값에 의해 2차로 합성음을 생성하도록 함으로써, 소음에 대해 명료도가 높은 합성음을 얻을 수 있게 된다. 또한, 소음 환경이 급격히 변하지 않는 경우에서는, 상기 음성인식과정을 통해 얻어진 에너지, 피치, 지속길이 변경 인자값에 해당하는 E_a, P_a, D_a 값을 동일하게 이용하여, 그 이후의 음성합성에서 음성인식을 별도로 수행하지 않고서도 높은 명료도의 합성음성을 생성할 수 있다. As described above, according to the present invention, in the speech synthesis apparatus and method, in order to increase the intelligibility of the synthesized sound, in the place where the noise is severe or in the variable noise environment, according to the noise environment among the synthesized sounds generated primarily by the speech recognition unit in the speech synthesis apparatus. By automatically re-adjusting the parameter value of the speech section with low reliability to a parameter value suitable for the noise environment, and generating the synthesized sound in the second order based on the readjusted parameter value, a synthesized sound with high clarity with respect to the noise can be obtained. In addition, when the noise environment does not change abruptly, the voice recognition is performed in subsequent speech synthesis using the same values of E_a, P_a and D_a corresponding to the energy, pitch, and duration change factor values obtained through the voice recognition process. It is possible to generate synthesized speech of high clarity without separately performing.

한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.While the invention has been shown and described with reference to certain preferred embodiments thereof, it will be understood by those skilled in the art that various changes and modifications may be made without departing from the spirit and scope of the invention. Accordingly, the scope of the invention should not be limited by the described embodiments but should be defined by the appended claims.

도 1은 종래 음성합성 처리 흐름도,1 is a flowchart of a conventional speech synthesis process;

도 2는 본 발명의 실시 예에 따른 음성합성장치의 상세 블록 구성도,2 is a detailed block diagram of a speech synthesis apparatus according to an embodiment of the present invention;

도 3은 본 발명의 실시 예에 따른 소음환경에서 명료도를 높일 수 있는 음성합성 처리 흐름도.3 is a speech synthesis processing flow diagram that can increase the intelligibility in the noise environment according to an embodiment of the present invention.

<도면의 주요 부호에 대한 간략한 설명><Brief description of the major symbols in the drawings>

200 : 문자음성 합성부 202 : 음성인식부200: text speech synthesis unit 202: speech recognition unit

204 : 음성합성부 206 : 고대역 통과 필터부204: voice synthesizer 206: high pass filter

Claims (10)

입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시키는 문자음성 합성부와,A text-voice synthesis unit for synthesizing the input text sentences into voices and outputting a first synthesis sound; 상기 제1합성음에 대해 주변의 소음을 가산한 상태에서 1차 음성인식을 수행하여, 음성인식 신뢰도값이 일정 기준보다 낮은 음성구간을 검출하고, 해당 구간에 대해서 음성 파라미터값을 재조정시키는 음성인식부와,Speech recognition unit for performing the first speech recognition in the state of adding the ambient noise to the first synthesis sound, detecting a speech section having a lower speech recognition reliability value than a predetermined reference, and readjusts the speech parameter value for the section Wow, 상기 음성인식부로부터 인식된 음성과, 상기 신뢰도값이 낮은 음성구간의 변경된 음성합성 파라미터값을 수신하여 2차 음성합성을 통해 제2합성음을 출력시키는 음성합성부A voice synthesizer which receives the voice recognized by the voice recognition unit and the changed voice synthesis parameter value of the voice section having a low reliability value and outputs a second synthesized sound through the second voice synthesis. 를 포함하는 음성합성장치.Speech synthesis device comprising a. 제 1 항에 있어서,The method of claim 1, 상기 음성인식부는,The voice recognition unit, 상기 주변의 소음이 가산된 제1합성음에 대해 특징 추출을 통한 음성인식을 수행하여 HMM 상태열을 획득한 후, 소음이 가산되기 이전의 합성음 생성시에 사용된 HMM 상태열과의 비교를 통해, 상기 음성인식된 음성의 단위 구간별 신뢰도 값을 산출하여 상기 신뢰도값이 일정 기준보다 낮은 음성 구간을 검출하는 음성합성장치.After obtaining the HMM status string by performing voice recognition through feature extraction on the first synthesized sound to which the ambient noise is added, and comparing it with the HMM status string used when generating the synthesized sound before the noise is added, A speech synthesis apparatus for detecting a speech section having a reliability value lower than a predetermined criterion by calculating a reliability value for each section of a speech recognized speech. 제 2 항에 있어서,The method of claim 2, 상기 음성인식부는,The voice recognition unit, 상기 HMM 상태열의 분석을 통해 상기 신뢰도값이 상기 일정 기준보다 낮은 음성 구간의 음성 파라미터값을 추출하여 합성음의 품질을 재조정시키는 음성합성장치. And a speech parameter value of a speech section in which the reliability value is lower than the predetermined criterion through the analysis of the HMM state sequence to readjust the quality of the synthesized sound. 제 3 항에 있어서,The method of claim 3, wherein 상기 음성 파라미터값은,The voice parameter value is, 상기 음성의 피치, 에너지 또는 지속길이에 대한 파라미터값인 음성합성장치.And a parameter value for pitch, energy or duration of the speech. 제 1 항에 있어서,The method of claim 1, 상기 장치는,The apparatus comprises: 상기 음성합성부를 통해 2차 합성된 음성에 대해 고주파 대역 필터링을 수행하는 고대역 통과 필터부A high pass filter for performing high frequency band filtering on the second synthesized speech through the speech synthesizer. 를 더 포함하는 음성합성장치.Speech synthesis device further comprising. 입력된 텍스트 문장을 음성으로 합성하여 제1합성음을 출력시키는 단계와,Synthesizing the input text sentence into a voice and outputting a first synthesis sound; 상기 제1합성음에 주변의 소음을 가산하여 음성인식을 수행한 후, 음성인식 신뢰도값이 일정 기준보다 낮은 음성 구간을 검출하는 단계와,Detecting a speech section in which the speech recognition reliability value is lower than a predetermined criterion after performing speech recognition by adding ambient noise to the first synthesized sound; 상기 검출된 음성 구간에 대한 음성 파라미터값을 재조정시키는 단계와,Readjusting a voice parameter value for the detected voice section; 상기 음성 파라미터값이 재조정된 음성에 대해 제2합성음을 출력시키는 단계Outputting a second synthesized sound for the voice whose voice parameter value is readjusted; 를 포함하는 음성합성방법.Speech synthesis method comprising a. 제 6 항에 있어서,The method of claim 6, 상기 음성인식 신뢰도값이 낮은 음성 구간을 검출하는 단계는,The detecting of the speech section having a low speech recognition reliability value may include: 상기 주변의 소음이 가산된 제1합성음에 대해 특징 추출을 통한 음성인식을 수행하여 HMM 상태열을 획득하는 단계와,Obtaining a HMM status string by performing voice recognition through feature extraction on the first synthesized sound to which the ambient noise is added; 상기 소음이 가산되기 이전의 합성음 생성시에 사용된 HMM 상태열의 비교를 통해 상기 음성인식된 음성의 단위 구간별 신뢰도 값을 산출하여 상기 일정 기준보다 낮은 음성 구간을 검출하는 단계Detecting a speech section lower than the predetermined criterion by calculating a reliability value for each unit section of the speech recognition speech by comparing the HMM state string used when generating the synthesized sound before the noise is added; 를 포함하는 음성합성방법.Speech synthesis method comprising a. 제 7 항에 있어서,The method of claim 7, wherein 상기 HMM 상태열은,The HMM status string is, 상기 음성에 대한 다수의 음성 파라미터값 정보를 포함하는 음성합성방법.Speech synthesis method comprising a plurality of voice parameter value information for the voice. 제 8 항에 있어서,The method of claim 8, 상기 음성 파라미터값은,The voice parameter value is, 상기 음성의 피치, 에너지 또는 지속길이에 대한 파라미터값인 음성합성방법.And a parameter value for pitch, energy, or duration of the speech. 제 6 항에 있어서,The method of claim 6, 상기 방법은,The method, 상기 제2합성음 출력 단계이후, 상기 제2합성음에 대해 고주파 대역 필터링을 수행하는 단계Performing high frequency band filtering on the second synthesized sound after the outputting of the second synthesized sound 를 더 포함하는 음성합성방법.Speech synthesis method further comprising.
KR1020090026451A 2008-12-01 2009-03-27 Apparatus and method for producing speech KR101095867B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20080120792 2008-12-01
KR1020080120792 2008-12-01

Publications (2)

Publication Number Publication Date
KR20100062825A KR20100062825A (en) 2010-06-10
KR101095867B1 true KR101095867B1 (en) 2011-12-21

Family

ID=42363030

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090026451A KR101095867B1 (en) 2008-12-01 2009-03-27 Apparatus and method for producing speech

Country Status (1)

Country Link
KR (1) KR101095867B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102144344B1 (en) * 2018-08-23 2020-08-13 주식회사 한글과컴퓨터 Parameter-based speech synthesis processing apparatus capable of determining parameters for speech synthesis optimization and operating method thereof

Also Published As

Publication number Publication date
KR20100062825A (en) 2010-06-10

Similar Documents

Publication Publication Date Title
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US9368104B2 (en) System and method for synthesizing human speech using multiple speakers and context
US8886538B2 (en) Systems and methods for text-to-speech synthesis using spoken example
US11562739B2 (en) Content output management based on speech quality
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
US20130041669A1 (en) Speech output with confidence indication
US20070213987A1 (en) Codebook-less speech conversion method and system
CN101359473A (en) Auto speech conversion method and apparatus
CN101114447A (en) Speech translation device and method
CN112581963B (en) Voice intention recognition method and system
CN102201234A (en) Speech synthesizing method based on tone automatic tagging and prediction
CN109616131B (en) Digital real-time voice sound changing method
CN116018638A (en) Synthetic data enhancement using voice conversion and speech recognition models
JP5040778B2 (en) Speech synthesis apparatus, method and program
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US6502073B1 (en) Low data transmission rate and intelligible speech communication
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Sharma et al. Development of Assamese text-to-speech synthesis system
Mishra et al. An Overview of Hindi Speech Recognition
KR101095867B1 (en) Apparatus and method for producing speech
CN113724684A (en) Voice synthesis method and system for air traffic control instruction
CN113658599A (en) Conference record generation method, device, equipment and medium based on voice recognition
JP2006189544A (en) Interpretation system, interpretation method, recording medium with interpretation program recorded thereon, and interpretation program
CN111696530B (en) Target acoustic model obtaining method and device
KR102457822B1 (en) apparatus and method for automatic speech interpretation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee