KR100883649B1 - Text to speech conversion apparatus and method thereof - Google Patents
Text to speech conversion apparatus and method thereof Download PDFInfo
- Publication number
- KR100883649B1 KR100883649B1 KR1020020018503A KR20020018503A KR100883649B1 KR 100883649 B1 KR100883649 B1 KR 100883649B1 KR 1020020018503 A KR1020020018503 A KR 1020020018503A KR 20020018503 A KR20020018503 A KR 20020018503A KR 100883649 B1 KR100883649 B1 KR 100883649B1
- Authority
- KR
- South Korea
- Prior art keywords
- segment
- segments
- candidate
- information
- text
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Abstract
본 발명은 문맥 정보를 토대로 입력된 텍스트 정보에 대한 불연속성을 최소화한 합성음을 생성할 수 있는 텍스트/음성 변환장치 및 방법이다.
본 발명에 따른 텍스트/음성 변환 장치는, 텍스트를 음성으로 변환하는 장치에 있어서, 텍스트에 대한 문맥 정보(형태소, 구문 구조)를 분석하여 합성단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보(형태소, 구문 구조)를 리스팅하는 언어 처리부; 사전에 예측된 세그먼트 단위의 운율 및 음운 정보를 저장하는 저장부; 언어 처리부로부터 전송되는 리스팅 정보를 토대로 저장부에서 각 세그먼트에 대한 후보 세그먼트를 검출하는 검출부; 검출부에서 검출된 후보 세그먼트를 이용하여 텍스트에 대응되는 합성음을 생성하는 합성 처리부를 포함한다.
따라서 생성되는 합성음에서의 불연속 구간을 최소화할 수 있다.
The present invention is a text / voice conversion apparatus and method capable of generating a synthesized sound minimizing discontinuity of input text information based on contextual information.
In the apparatus for converting text into speech, the text / voice conversion apparatus according to the present invention analyzes contextual information (morpheme, syntax structure) of text and recognizes discontinuities between synthesizing units or discontinuities are below a predetermined value. A language processor for dividing the segment into segments and listing context information (morpheme, syntax structure) for each segment; A storage unit which stores rhyme and phonological information of a segment unit predicted in advance; A detector for detecting candidate segments for each segment in the storage based on the listing information transmitted from the language processor; And a synthesis processing unit for generating a synthesis sound corresponding to the text by using the candidate segments detected by the detection unit.
Therefore, it is possible to minimize the discontinuity in the generated synthesized sound.
Description
도 1은 본 발명의 바람직한 실시 예인 텍스트/음성 변환 장치의 블록도이다.1 is a block diagram of a text-to-speech device, which is a preferred embodiment of the present invention.
도 2는 본 발명에 따른 장치의 동작을 설명하기 위한 한글 텍스트 일 예이다.2 is an example of Hangul text for explaining the operation of the device according to the present invention.
도 3은 본 발명에 따른 장치의 동작을 설명하기 위한 영문 텍스트 일 예이다. 3 is an example of English text for explaining the operation of the apparatus according to the present invention.
도 4는 본 발명의 바람직한 실시 예에 따른 텍스트/음성 변환 방법에 대한 동작 흐름 도이다. 4 is a flowchart illustrating an operation of a text / voice conversion method according to an exemplary embodiment of the present invention.
본 발명은 텍스트/음성 변환 장치(이하 TTS(Text-To-Speech) 장치라고 함) 및 방법에 관한 것으로, 특히, 합성음의 불연속성을 최소화하기 위한 텍스트/음성 변환 장치 및 방법에 관한 것이다. The present invention relates to a text-to-speech device (hereinafter referred to as a text-to-speech device) and a method, and more particularly, to a text-to-speech device and a method for minimizing discontinuity of a synthesized sound.
일반적으로 TTS 장치는 텍스트 정보에 대응되는 음성을 제공하는 것으로, 주로 컴퓨터 시스템에서 사용자에게 다양한 형태의 정보를 음성으로 제공하기 위해 사용되고 있다. 이러한 TTS 장치는 주어진 텍스트로부터 고품질의 합성음을 제공할 수 있어야 한다. 고품질의 합성음이란 발음(음가 또는 음운)이 명료하고, 끊어 읽기, 음의 길이, 음의 높이, 음의 세기와 같은 운율적 요소들이 적절히 구현된 자연성이 높은 음을 말한다. In general, the TTS apparatus provides a voice corresponding to text information, and is mainly used to provide various types of information to a user by voice in a computer system. Such a TTS device should be able to provide high quality synthesized sound from a given text. High-quality synthesized sound refers to a high-natural sound that is clearly pronounced (phonetic or phonological) and properly embodied with rhythmic elements such as reading, breaking length, pitch, and loudness.
고품질의 합성음을 제공하기 위하여, 기존의 TTS 장치는 먼저 입력된 텍스트로부터 문장 부호를 포함한 순수 문장 텍스트만을 분리한다. 그리고 분리된 문장으로부터 언어 정보를 추정하고, 발음 변환 과정을 통해 문장을 음소 열로 변환한다. 그리고, 추정된 언어 정보와 음소 열을 토대로 끊어 읽기, 소리의 높낮이, 소리의 강약, 소리의 장단과 관련된 운율 파라미터 값을 계산하고, 계산된 운율 파라미터 값들과 음소 열 정보를 이용하여 합성 단위 데이터 베이스에서 적합한 음편을 선택하여 원하는 합성음을 생성한다. In order to provide a high quality synthesized sound, the existing TTS apparatus first separates pure sentence text including punctuation marks from input text. Language information is estimated from the separated sentences, and the sentences are converted to phoneme strings through the pronunciation conversion process. Based on the estimated linguistic information and the phoneme string, the rhyme parameter values related to reading, pitch, sound intensity, and short and long term sounds are calculated, and the synthesized unit database is calculated using the calculated rhyme parameter values and the phoneme string information. Select the appropriate note in to generate the desired synthesis sound.
그러나 기존의 TTS장치는 사전에 정의된 합성 단위로 연결하여 텍스트에 대한 합성음을 생성함으로써, 단위 연결부분에서 합성음의 불연속이 크게 인지될 가능성이 높다. 상기 불연속이 인지되는 구간은 쉼 구간이나 언어 해석적으로 분절되는 구간이며, 음절 유형과 음성학적 조합에 의해 결정되어지는 부분이다. 그러나, 기존의 TTS 장치에서의 합성 단위는 상술한 불연속이 인지되는 구간과 관계없이 음소 단위로 합성 가능한 조건을 고려하여 정의된 것이다. 따라서 정의된 합성 단위의 길이가 일정하든 일정하지 않든 관계없이 생성되는 합성음에서 상술한 불연속이 인지될 가능성이 높은 것이다.However, the existing TTS apparatus generates a synthesized sound for text by connecting to a predefined synthesis unit, so that the discontinuity of the synthesized sound is highly recognized at the unit connection part. The discontinuity is recognized as a rest period or a language-interpreted segment, and is a part determined by syllable type and phonetic combination. However, the synthesis unit in the conventional TTS apparatus is defined in consideration of the conditions that can be synthesized in phoneme units regardless of the section in which the aforementioned discontinuity is recognized. Therefore, the above-mentioned discontinuity is likely to be recognized in the synthesized sound generated regardless of whether the defined synthesis unit has a constant length or not.
본 발명은 상술한 문제를 해결하기 위한 것으로, 문맥 정보를 토대로 입력된 텍스트 정보에 대한 불연속성을 최소화한 합성음을 생성할 수 있는 텍스트/음성 변환장치 및 방법을 제공하는데 그 목적이 있다. SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problem, and an object thereof is to provide an apparatus and method for converting a text / voice to generate a synthesized sound with a minimum discontinuity of input text information based on contextual information.
본 발명의 다른 목적은 문맥 정보를 토대로 합성 단위간에 불연속이 작게 인지되거나 인지되지 않는 부분(또는 형태소)은 세그먼트 단위로 분절하여 합성음을 생성함으로써, 합성음의 불연속 구간을 최소화할 수 있는 텍스트/음성 변환 장치 및 방법을 제공하는데 있다.It is another object of the present invention to generate a synthesized sound by segmenting segments (or morphemes) that have small or unrecognized discontinuities between synthesis units based on the contextual information, and thus, to minimize the discontinuity of the synthesized sound. An apparatus and method are provided.
본 발명의 또 다른 목적은 문맥 정보를 토대로 사전에 구비된 세그먼테이션(presegmentation) 정보를 이용하여 입력된 텍스트 정보에 대한 운율 및 음운(또는 발음) 정보를 얻음으로써, 운율 생성 및 음운 선택이 용이한 텍스트/음성 변환 장치 및 방법을 제공하는데 있다. It is still another object of the present invention to obtain rhyme and phonetic (or pronunciation) information on input text information by using segmentation information provided in advance based on context information, so that rhythm generation and phonological selection are easy. / Voice conversion apparatus and method.
상기 목적들을 달성하기 위하여 본 발명에 따른 텍스트/음성 변환 장치는, 텍스트를 음성으로 변환하는 장치에 있어서, 텍스트에 대한 문맥 정보를 분석하여합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보를 리스팅하는 언어 처리부; 사전에 예측된 세그먼트 단위의 운율 및 음운 정보를 저장하는 저장부; 언어 처리부로부터 전송되는 리스팅 정보를 토대로 저장부에서 각 세그먼트에 대한 후보 세그먼트를 검출하는 검출부; 검출부에서 검출된 후보 세그먼트를 이용하여 텍스트에 대응되는 합성음을 생성하는 합성 처리부를 포함하는 것이 바람직하다. In order to achieve the above objects, the text / voice conversion apparatus according to the present invention, in the apparatus for converting text into speech, analyzes the contextual information about the text to recognize discontinuities between the synthesis units or to recognize the discontinuities below a predetermined value. A language processor for dividing the segment into segments, and listing context information about each segment; A storage unit which stores rhyme and phonological information of a segment unit predicted in advance; A detector for detecting candidate segments for each segment in the storage based on the listing information transmitted from the language processor; It is preferable to include a synthesis processing unit for generating a synthesis sound corresponding to the text by using the candidate segment detected by the detection unit.
상기 텍스트/음성 변환장치는, 검출부에서 후보 세그먼트가 검출되지 않은 세그먼트는 합성음을 생성하기 위해 필요한 음운을 생성하고 운율을 예측하는 운율 처리부를 더 포함하는 것이 바람직하다. The text-to-speech converter may further include a rhythm processing unit for generating a phonogram necessary for generating a synthesized sound and predicting a rhyme for the segment in which the candidate segment is not detected by the detector.
상기 언어 처리부에서 리스팅되는 정보는 해당 세그먼트의 선행 세그먼트와 후행 세그먼트의 형태소 정보를 포함하는 문맥 정보와 해당 세그먼트의 형태소 정보를 포함하는 것이 바람직하다. The information listed in the language processor may include context information including the stem information of the preceding segment and the following segment of the segment, and the stem information of the segment.
상기 텍스트/음성 변환장치는, 검출부에서 검출된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 결정부를 더 포함하는 것이 바람직하다. If the text / voice conversion apparatus detects a plurality of candidate segments detected by the detector, the candidates of the corresponding segments are based on context information between the candidate segments of the corresponding segments, the candidate segments of the preceding segments of the segments, and the candidate segments of the following segments of the segments. It is preferable to further include a determining unit for determining the best candidate segment by determining the priority of the segments.
상기 결정부는 우선 순위를 토대로 결정된 최적의 후보 세그먼트가 복수개이면, 선행 세그먼트와 후행 세그먼트의 최적의 후보 세그먼트와 결정된 최적의 후보 세그먼트간의 음향 스펙트럼을 토대로 하나의 최적의 후보 세그먼트를 결정하는 것이 바람직하다. When there are a plurality of optimal candidate segments determined based on the priority, the determination unit may determine one optimal candidate segment based on an acoustic spectrum between the best candidate segment of the preceding segment and the following segment and the determined best candidate segment.
상기 목적들을 달성하기 위하여 본 발명에 따른 텍스트/음성 변환 방법은, 텍스트를 음성으로 변환하는 방법에 있어서, 텍스트 정보가 입력되면 문맥 정보를 분석하여 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분을 세그먼트로 구분하고, 구분된 각 세그먼트에 대한 문맥 정보를 리스팅하는 단계; 사전에 음운 및 운율을 예측하여 저장한 세그먼트 관련 정보에서 상기 리스팅 정보를 토대로 각 세그먼트별 후보 세그먼트를 검색하는 단계; 검색된 후보 세그먼트를 이용하여 텍스트 정보에 대한 합성음을 생성하는 단계를 포함하는 것이 바람직하다. In order to achieve the above objects, the text / voice conversion method according to the present invention is a method of converting text to speech, and when text information is input, discontinuity is not recognized or discontinuity is not recognized between synthesis units by analyzing contextual information. Dividing the recognized portion into segments and listing contextual information on each segment; Searching for candidate segments for each segment based on the listing information from segment-related information previously predicted and stored in rhyme and rhyme; Preferably, the method comprises generating a synthesized sound for text information using the retrieved candidate segment.
상기 방법은, 검색단계에서 검색된 후보 세그먼트가 복수개이면, 해당 세그먼트의 후보 세그먼트와 해당 세그먼트의 선행 세그먼트의 후보 세그먼트와 해당 세그먼트의 후행 세그먼트의 후보 세그먼트간의 문맥정보를 토대로 해당 세그먼트의 후보 세그먼트들에 대한 우선 순위를 결정하여 최적의 후보 세그먼트를 결정하는 단계를 더 포함하는 것이 바람직하다. In the method, if there are a plurality of candidate segments searched in the searching step, the candidate segments of the corresponding segments are determined based on the context information between the candidate segments of the corresponding segments, the candidate segments of the preceding segments of the segments, and the candidate segments of the following segments of the segments. Preferably, the method further includes determining a priority candidate to determine an optimal candidate segment.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 설명하기로 한다. Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings.
도 1은 본 발명의 바람직한 실시 예인 텍스트/음성 변환 장치의 블록도로서, 텍스트(101), 언어 처리부(Natural Language Processing, NLP라고 약하기도 함)(102), 후보 세그먼트 검출부(103), 후보 세그먼트 데이터 베이스(DataBase, DB라고 약하기도 함)(104), 최적 후보 세그먼트 결정부(105), 합성 처리부(106) 및 운율 처리부(107)로 구성된다. 1 is a block diagram of a text / voice conversion apparatus according to a preferred embodiment of the present invention, including
텍스트(101)는 음성으로 변환이 요구되는 정보로서, 종이 형태의 문서에 기록되어 있는 정보이거나 컴퓨터에서 사용되는 다양한 형태의 정보일 수 있다. 또한, 텍스트(101)는 한국어나 그 이외의 불연속 구간이 존재하는 다양한 언어로 표현된 정보일 수 있다. 상기 불연속 구간은 상술한 바와 같이 쉼 구간이나 언어 해석적으로 분절되는 구간이며, 음절 유형과 음성학적 조합에 의해 결정되어지는 부 분이다. The
언어 처리부(102)는 텍스트(101)의 문맥 정보를 분석하여 세그먼트 단위로 구분한다. 문맥 정보 분석 방식은 기존에 알려진 방식을 사용한다. 세그먼트는 합성 단위간에 불연속이 인지되지 않거나 불연속이 소정 치 이하로 인지되는 부분이다. 상기 소정 치는 실험적으로 구해지는 값으로서, 합성 단위간의 차(합성 단위간에 존재하는 빈 구간)가 하나의 형태소를 형성하기 위해 연결된 것으로 인정될 수 있는 값이다. The
예를 들어 도 2에 도시된 바와 같이 "정확한 번호를 입력하세요."라는 문장이 텍스트(101) 정보로서 입력되면, 언어 처리부(102)에서 문맥 정보를 분석한 결과, "정"자와 "확"자와 "한"자간은 불연속이 인지되지 않거나 불연속이 소정 치 이하인 형태소로 인식되게 된다. 따라서, "정확한"을 하나의 세그먼트로 구분하게 된다. 또한, "번호를"도 하나의 세그먼트로 구분하고, "입력하세요"로 하나의 세그먼트로 구분하게 된다. 상기 세그먼트는 어절로 표현할 수도 있다. For example, as shown in FIG. 2, when the sentence "Please input the correct number" is input as the
이와 같이 문맥 정보 분석에 따라 텍스트(101)에 대한 세그먼트가 구분되면, 언어 처리부(102)는 구분된 각 세그먼트에 대한 문맥 정보를 토대로 각 세그먼트에 대한 정보를 리스팅(listing)한다. 각 세그먼트에 대한 리스팅 정보는 도 2의 (a)에 표현된 바와 같이 표 1에 정의된 바와 같은 의미를 갖는 기호를 이용하여 정의될 수 있다. When the segments for the
또한, 각 세그먼트의 리스팅 정보는 도 2의 (a)를 통해 알 수 있는 바와 같이 해당되는 세그먼트의 형태소에 대한 정보와 선행 세그먼트와 후행 세그먼트의 형태소에 대한 정보를 포함한다. 그리고 선행 세그먼트와 후행 세그먼트가 존재하지 않으면, 그에 대한 정보도 리스팅 정보에 포함시킨다. 즉, 도 2의 (a)에서 $=$는 선행 세그먼트가 존재하지 않는다는 것을 의미하는 것이고, $:$는 후행 세그먼트가 존재하지 않는다는 것을 의미한다. 따라서 도 2의 (a)에 기재되어 있는 정보를 통해 "정확한 번호를 입력하세요"의 각 세그먼트간의 관계를 파악할 수 있다. In addition, the listing information of each segment includes information on the stem of the corresponding segment and the stem of the preceding segment and the following segment, as can be seen through (a) of FIG. If the leading segment and the trailing segment do not exist, the information about the segment is included in the listing information. That is, in FIG. 2A, $ = $ means that the preceding segment does not exist, and $: $ means that the trailing segment does not exist. Therefore, the relationship between each segment of "Please enter the correct number" can be grasped through the information described in (a) of FIG.
만약 입력되는 텍스트(101)가 도 3에 제시되어 있는 바와 같이 "There were fifteen people present."와 같이 영어로 표현된 정보인 경우에, 텍스트(101)에 대한 문맥 정보 분석은 상술한 한글일 때와 같이 불연속이 인지되지 않거나 불연속이 소정치 이하로 인지되는 부분을 세그먼트로 구분한다. 그리고, 분석된 문맥 정보를 토대로 구분된 세그먼트에 대한 정보를 리스팅한다. 정보를 리스팅할 때, 상기 표 1에 정의되어 있는 기호를 이용할 수 있다. 따라서 상술한 텍스트에 대한 리스팅 정보는 도 3의 (a)에 기재된 바와 같이 정의될 수 있다. If the
이와 같이 입력된 텍스트(101)에 대한 각 세그먼트의 리스팅 정보가 얻어지면, 얻어진 리스팅 정보를 후보 세그먼트 검출부(103)로 전송하면서 해당되는 세그 먼트에 대한 정보는 운율 처리부(107)로 전송한다. When listing information of each segment of the
후보 세그먼트 검출부(103)는 입력된 리스팅 정보를 토대로 각 세그먼트에 대한 후보 세그먼트를 후보 세그먼트 데이터 베이스(104)로부터 검출한다. 후보 세그먼트 데이터 베이스(104)는 사전에 예측된 세그먼트단위로 해당되는 음운 및 운율 정보를 저장한다. 따라서, 상술한 리스팅 정보를 토대로 후보 세그먼트 데이터 베이스(104)로부터 각 세그먼트에 대한 후보 세그먼트를 검출할 때, 해당되는 후보 세그먼트의 음운 및 운율 정보가 후보 세그먼트 검출부(103)로 제공한다. 이 때, 후보 세그먼트 검출부(103)는 후보 세그먼트가 전혀 검출되지 않는 세그먼트에 대해서는 운율 처리부(107)로 이를 통보한다. 예를 들어 후보 세그먼트 검출부(103)는 해당 세그먼트는 "NULL"이라는 의미를 갖는 정보를 운율 처리부(107)로 전송한다. The
그러나, 후보 세그먼트가 복수개 검출되면, 소정의 기준치를 이용하여 검출되는 후보 세그먼트의 개수를 제한할 수 있다. 그리고 복수개의 후보 세그먼트가 검출되면, 선행 세그먼트와 후행 세그먼트에 대한 후보 세그먼트들에 대한 음운 및 운율 정보와 해당되는 후보 세그먼트의 음운 및 운율 정보를 토대로 한 문맥정보를 이용하여 해당되는 후보 세그먼트의 값(cost)을 계산한다. However, if a plurality of candidate segments are detected, the number of candidate segments to be detected may be limited using a predetermined reference value. When a plurality of candidate segments are detected, the values of the corresponding candidate segments are determined using the phonological and rhyme information of the candidate segments for the preceding and following segments and the context information based on the phonological and rhyme information of the corresponding candidate segments ( cost).
이 값은 해당되는 후보 세그먼트의 우선순위에 해당된다. 상기 후보 세그먼트의 값을 계산하기 위하여, 후보 세그먼트 검출부(103)는 예를 들어, 현 세그먼트의 어절 정보(어휘와 어절 태그(tag)와 같은 정보), 선행 세그먼트의 어절 정보(선행 세그먼트의 어휘 및 태그, 선행 세그먼트의 마지막 음소 정보), 후행 세그먼트 의 어절 정보(후행 세그먼트의 어휘 및 태그, 후행 세그먼트의 시작 음소 정보)를 각각 고려한다. 상기 태그는 어절의 대표 품사와 같은 정보이다. 즉, 상기 태그는 어절의 내용 어품사와 기능 어품사를 모두 고려한 값이다. This value corresponds to the priority of the corresponding candidate segment. In order to calculate the value of the candidate segment, the candidate
후보 세그먼트 검출부(103)는 상술한 고려 항목들을 토대로 해당되는 세그먼트의 값을 계산하는데, 각 고려 항목 단위로 해당되는 세그먼트의 리스팅 정보와 비교하여 근접할수록 0에 근사한 값을 갖도록 설정하고, 각 고려 항목에 대해 설정된 값의 총계를 해당되는 세그먼트의 값으로 결정한다. 그리고 결정된 세그먼트의 값과 사전에 설정한 임계값을 비교하여, 임계치 이하인 값을 갖는 후보 세그먼트만을 선택한다. The candidate
이러한 각 세그먼트의 값 결정에 따른 후보 세그먼트의 선택으로 도 2의 (b) 또는 도 3의 (b)에 도시된 바와 같이 후보 세그먼트 데이터 베이스(104)로부터 검색된 후보 세그먼트들중에서 적절한 후보 세그먼트를 선택하게 된다. 즉, 도 2의 (b)에서 "번호들"은 제 1 내지 제 5 후보 어절이 후보 세그먼트로서 검색되었으나, 상술한 값 결정에 따른 후보 세그먼트의 선택으로 제 3 후보 어절과 제 5 후보 어절이 남게 된다. 또, 도 3의 (b)에서 "There"은 제 1 내지 제 3 후보 어절이 후보 세그먼트로서 검색되었으나 상술한 값 결정에 따른 후보 세그먼트의 선택으로 제 1 및 제 2 후보 어절이 후보 세그먼트로서 남게 된다. 이와 같이 남겨진 후보 세그먼트들은 최적의 후보 세그먼트 결정부(105)로 전송된다. The selection of the candidate segment according to the value determination of each segment enables the selection of an appropriate candidate segment among candidate segments retrieved from the
최적 후보 세그먼트 결정부(105)는 후보 세그먼트 검출부(103)에서 선택된 후보 세그먼트에서 최적의 후보 세그먼트를 결정한다. 만약 후보 세그먼트 검출부(103)에서 하나의 후보 세그먼트가 선택된 경우에, 최적의 후보 세그먼트 결정부(105)는 선택된 후보 세그먼트를 해당되는 세그먼트의 최적의 후보 세그먼트로 결정한다. 그러나 후보 세그먼트 검출부(103)에서 선택된 후보 세그먼트가 복수개인 경우에, 최적의 후보 세그먼트 결정부(105)는 선행 세그먼트와 후행 세그먼트의 선택된 후보 세그먼트들과 해당되는 후보 세그먼트간의 음향 스펙트럼을 토대로 최적의 후보 세그먼트를 결정한다. 결정된 후보 세그먼트는 합성 처리부(106)로 전송된다. The best
한편, 후보 세그먼트가 검출되지 않았다는 정보(NULL)가 후보 세그먼트 검출부(103)로부터 전송되면, 운율 처리부(107)는 종래와 같은 방법으로 현재 입력되는 세그먼트(또는 해당되는 세그먼트)에 대해 정해진 합성 단위로 음운을 생성하고 운율을 예측하여 합성 처리부(106)로 전송한다.On the other hand, when information (NULL) that a candidate segment has not been detected is transmitted from the candidate
합성 처리부(106)는 최적의 후보 세그먼트 결정부(105)에서 결정된 후보 세그먼트의 음운 및 운율 정보와 운율 처리부(107)로부터 전송되는 음운 및 운율 정보를 토대로 입력된 텍스트에 대한 합성음을 생성한다. 입력된 운율 정보를 토대로 합성음을 생성하는 방식은 종래의 방식과 동일하게 이루어진다. The
도 4는 본 발명의 바람직한 실시 예에 따른 텍스트/음성 변환 방법에 대한 동작 흐름도이다. 4 is a flowchart illustrating a text / voice conversion method according to an exemplary embodiment of the present invention.
먼저, 제 401 단계에서 입력된 텍스트의 문맥 및 형태소를 분석한다. 분석 방식은 종래와 동일하게 이루어진다. 그 다음, 제 402 단계에서 상술한 텍스트에 대한 문맥 및 형태소 분석 결과를 토대로 입력된 텍스트를 세그먼트로 구분하고, 상술한 문맥 및 형태소 분석 결과를 토대로 각 세그먼트(또는 어절)에 대한 정보를 도 1에서 설명한 바와 같이 리스팅 한다. First, the context and morpheme of the text input in
제 403 단계에서 상술한 각 세그먼트의 리스팅 정보를 토대로 사전에 예측된 세그먼트에 해당되는 세그먼트가 존재하는 지를 검색한다. 제 404 단계에서 적어도 하나의 세그먼트가 검색되면, 제 405 단계에서 검색된 세그먼트를 해당되는 세그먼트의 후보 세그먼트로서 선택한다. 이 때, 선택된 후보 세그먼트는 복수 개일 수 있다. 제 406 단계에서 선택된 후보 세그먼트의 운율 및 음운 정보를 데이터 베이스(104)로부터 가져온다. 그리고 제 407 단계에서 가져온 운율 및 음운 정보를 이용하여 적절한 후보 세그먼트를 결정한다. 이 때, 후보 세그먼트 결정은 도 1의 후보 세그먼트 검출부(103)에서 문맥 정보를 토대로 각 후보 세그먼트에 대한 값(cost)을 계산하여 얻어진 우선순위 정보로 결정하는 방식을 이용할 수 있다. In
제 407 단계에서 결정된 적절한 후보 세그먼트에 대해 제 408 단계에서 최적의 후보 세그먼트를 결정한다. 최적의 후보 세그먼트 결정 방식은 도 1의 최적 후보 세그먼트 결정부(105)에서와 같은 방식으로 이루어진다. 그리고 제 409 단계에서 결정된 최적의 후보 세그먼트를 이용하여 합성음을 생성한다. 합성음 생성방식은 종래와 같은 방식을 사용한다. The optimal candidate segment is determined in
한편, 제 404 단계에서 적어도 하나의 세그먼트도 검색되지 않으면, 제 410 단계에서 종래와 같은 방식으로 구분된 세그먼트에 대해 정해진 합성단위로 음운(발음)을 발생하고, 제 411 단계에서 종래와 같은 방식으로 운율을 추정한다. 그리고 제 409 단계에서 추정된 내용을 토대로 합성음을 생성한다. On the other hand, if at least one segment is not retrieved in
상술한 바와 같이 본 발명은 문맥 정보를 토대로 합성 단위간에 불연속이 인지되지 않거나 불연속이 작게 인지되는 부분을 세그먼트 단위로 분절하여 합성음을 연결함으로써, 생성되는 합성음에서의 불연속 구간을 최소화할 수 있다. As described above, the present invention can minimize the discontinuity in the generated synthesized sound by connecting the synthesized sound by segmenting the portions in which the discontinuity is not recognized or the discontinuity between the synthesized units is segmented on a segment basis based on the contextual information.
사전에 구비한 세그먼테이션(presegmantation) 정보를 이용하여 입력된 텍스트 정보의 세그먼트 단위의 운율 및 음운 정보를 얻어 합성음을 생성함으로써, 운율 생성 및 음운 선택이 용이할 뿐 아니라 발음의 명료성을 보장할 수 있다. By using segmentation information provided in advance to obtain rhyme and phonological information for each segment of the input text information, it is possible to easily generate rhythm and phonological selection, and to ensure clarity of pronunciation.
그리고, 현행 세그먼트와 선행 세그먼트간 및 현행 세그먼트와 후행 세그먼트간의 관계를 고려하여 현행 세그먼트에 대한 후보 세그먼트에서 결정된 최적의 세그먼트로 합성음을 생성함으로써, 세그먼트간의 운율의 자연성을 증가시킨 합성음을 제공할 수 있다. In addition, by considering the relationship between the current segment and the preceding segment and the current segment and the following segment, the synthesized sound is generated by the optimal segment determined from the candidate segment for the current segment, thereby providing a synthesized sound having increased the naturalness of the rhyme between the segments. .
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020018503A KR100883649B1 (en) | 2002-04-04 | 2002-04-04 | Text to speech conversion apparatus and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020020018503A KR100883649B1 (en) | 2002-04-04 | 2002-04-04 | Text to speech conversion apparatus and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030079460A KR20030079460A (en) | 2003-10-10 |
KR100883649B1 true KR100883649B1 (en) | 2009-02-18 |
Family
ID=32377828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020020018503A KR100883649B1 (en) | 2002-04-04 | 2002-04-04 | Text to speech conversion apparatus and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100883649B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11289083B2 (en) | 2018-11-14 | 2022-03-29 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1260704C (en) * | 2003-09-29 | 2006-06-21 | 摩托罗拉公司 | Method for voice synthesizing |
US11488576B2 (en) | 2019-05-21 | 2022-11-01 | Lg Electronics Inc. | Artificial intelligence apparatus for generating text or speech having content-based style and method for the same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990033536A (en) * | 1997-10-24 | 1999-05-15 | 정선종 | How to Select Optimal Synthesis Units in Text / Voice Converter |
KR19990069630A (en) * | 1998-02-11 | 1999-09-06 | 윤종용 | Editing method of recognizer using morphological analysis |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
KR20010018064A (en) * | 1999-08-17 | 2001-03-05 | 정선종 | Apparatus and method for text-to-speech conversion using phonetic environment and intervening pause duration |
-
2002
- 2002-04-04 KR KR1020020018503A patent/KR100883649B1/en not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990033536A (en) * | 1997-10-24 | 1999-05-15 | 정선종 | How to Select Optimal Synthesis Units in Text / Voice Converter |
KR19990069630A (en) * | 1998-02-11 | 1999-09-06 | 윤종용 | Editing method of recognizer using morphological analysis |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
KR20010018064A (en) * | 1999-08-17 | 2001-03-05 | 정선종 | Apparatus and method for text-to-speech conversion using phonetic environment and intervening pause duration |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11289083B2 (en) | 2018-11-14 | 2022-03-29 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20030079460A (en) | 2003-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2614840C (en) | System, program, and control method for speech synthesis | |
US8234118B2 (en) | Method and apparatus for generating dialog prosody structure, and speech synthesis method and system employing the same | |
US7263488B2 (en) | Method and apparatus for identifying prosodic word boundaries | |
US7496498B2 (en) | Front-end architecture for a multi-lingual text-to-speech system | |
US7480612B2 (en) | Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US20020120451A1 (en) | Apparatus and method for providing information by speech | |
Qian et al. | Automatic prosody prediction and detection with conditional random field (crf) models | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US20080221890A1 (en) | Unsupervised lexicon acquisition from speech and text | |
JPH0922297A (en) | Method and apparatus for voice-to-text conversion | |
US20110010175A1 (en) | Text data processing apparatus, text data processing method, and recording medium storing text data processing program | |
JP5343293B2 (en) | Speech editing / synthesizing apparatus and speech editing / synthesizing method | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
KR100883649B1 (en) | Text to speech conversion apparatus and method thereof | |
JP2002149180A (en) | Device and method for synthesizing voice | |
JPH06282290A (en) | Natural language processing device and method thereof | |
JP2000172289A (en) | Method and record medium for processing natural language, and speech synthesis device | |
JP3981619B2 (en) | Recording list acquisition device, speech segment database creation device, and device program thereof | |
JP2008046636A (en) | Japanese speech synthesizing method and system using accent phrase matching prior select | |
Dong et al. | Pitch contour model for Chinese text-to-speech using CART and statistical model | |
Lyes et al. | Building a pronunciation dictionary for the Kabyle language | |
JPH0962286A (en) | Voice synthesizer and the method thereof | |
JP2001343987A (en) | Method and device for voice synthesis | |
Ho et al. | Fast and accurate continuous speech recognition for Chinese language with very large vocabulary. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130115 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140124 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20150116 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |