JP2003036100A - Device and method for revising speech - Google Patents

Device and method for revising speech

Info

Publication number
JP2003036100A
JP2003036100A JP2001221325A JP2001221325A JP2003036100A JP 2003036100 A JP2003036100 A JP 2003036100A JP 2001221325 A JP2001221325 A JP 2001221325A JP 2001221325 A JP2001221325 A JP 2001221325A JP 2003036100 A JP2003036100 A JP 2003036100A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
syllable
operator
duration
fundamental frequency
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001221325A
Other languages
Japanese (ja)
Inventor
Seiichi Amashiro
Toshio Hirai
成一 天白
俊男 平井
Original Assignee
Arcadia:Kk
株式会社アルカディア
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PROBLEM TO BE SOLVED: To provide a speech revising device that can set rhythm information with easy operation. SOLUTION: The speech revising device installs a syllable display part 100 for displaying each syllable consisting of words to be outputted, a scroll bar 110 for setting the time continuance of each syllable, and scroll bars 120 and 130 for setting basic frequency F0 . A slider 112 should be dragged into right direction to make the continuance of 'ko' longer. A slider 132 should be dragged into upward direction to make initial basic frequency F0 of 'ko' larger. A slider 122 should be dragged into downward direction to make final basic frequency F0 of 'ko' (corresponding to initial basic frequency F0 of 'N') smaller. Thereby, the continuance of each syllable and basic frequency F0 are revised and the corrugation of sample speech is revised.

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】この発明は、音声修正装置、 Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is, voice correction device,
音声修正方法および音声修正処理を行うためのプログラムに関し、特に、その操作の容易化に関するものである。 A program for performing the voice correction method and voice correction process, in particular, it relates to facilitating the operation. 【0002】 【従来の技術】グラフィカルユーザインターフェイス(GUI)を用いた音声作成ツールの一例として、信学技報SP99-7(1999-05)(社団法人電子情報通信学会) [0002] As an example of the Prior Art] graphical user interface (GUI) voice creation tool using the IEICE SP99-7 (1999-05) (Institute of Electronics, Information and Communication Engineers)
に記載の音声作成ツール「Sesign99」について説明する。 A description will be given voice creation tool "Sesign99" described in. 【0003】まず、ユーザによってマイク(または録音済みの記録媒体)から自然音声(例えば、「明日の天気はどうかな?」)が入力されると、音声認識処理を行い、基本周波数F 、パワー等の韻律パラメータの抽出を行う。 [0003] First of all, natural sound from a microphone (or a pre-recorded recording medium) by the user (for example, "How Do? Tomorrow's weather") is input, performs speech recognition processing, fundamental frequency F 0, power for extracting a prosodic parameter equal. 図26に、自動抽出した韻律パラメータの変更を行うための韻律パラメータ変更画面を示す。 Figure 26 shows the prosodic parameter change screen for changing the prosodic parameters automatically extracted. この画面において、自由曲線をマウスでドラッグすることにより、基本周波数F の変更を行う。 In this screen, by dragging a free curve with the mouse, to change the fundamental frequency F 0. 【0004】次に、所定のテキストの韻律変形を行うときの処理について説明する。 [0004] Next, a description is given of processing when performing prosody modification of a given text. ユーザによって韻律変形を行うテキスト(例えば、「明日」「どうかな?」)が選択されると、図27に示す韻律変形画面を表示する。 Text to perform the prosody modification by the user (for example, "Tomorrow", "How about?") Is selected, displays the prosody modification screen shown in Figure 27. 【0005】ユーザは、「伸ばす」ボタン500をクリックすることにより継続時間長を長くしたり、「縮める」ボタン510をクリックすることにより継続時間長を短くすることができる。 [0005] The user, it is possible to shorten the duration by clicking or a longer duration, the "Contract" button 510 by clicking the "stretch" button 500. 【0006】 【発明が解決しようとする課題】しかしながら、上記のような音声作成ツールには以下のような問題が生じている。 [0006] The object of the invention is to, however, is the voice creation tool, such as described above has occurred the following problems. 第一に、単語単位でしか韻律を変形することができず、簡単な操作で、特異な音声を形成することができない。 First, it is impossible to deform the prosodic only by word, by a simple operation, it is impossible to form a unique sound. 例えば、「どうかな?」の音節「ど」の継続時間長だけ長くしたいような場合である。 For example, it is the case, such as you want to as long as duration of the syllable "etc." in the "How about?". 【0007】第二に、ノウハウを身につけていないユーザは、各音節の継続時間長や基本周波数を変更することが困難である。 [0007] Second, the user who is not wearing the know-how, it is difficult to change the duration and fundamental frequency of each syllable. 【0008】したがって、この発明はこのような問題を解決して、簡単な操作で韻律情報を設定することにより、特異な音声を生成することができる音声修正装置、 Accordingly, the present invention is to solve this problem, by setting the prosodic information by a simple operation, the audio correction device capable of generating a specific sound,
音声修正のためのプログラムを提供することを目的とする。 An object of the present invention is to provide a program for voice modification. 【0009】 【課題を解決するための手段および発明の効果】(1) [0009] [Effect of the unit and the invention for solving the problems] (1)
この発明の音声修正装置は、文字列を取得する文字列取得手段と、文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、操作者が設定した基本周波数または継続時間長に基づいた音声データを生成する音声データ生成手段とを備えていることを特徴としている。 Audio correction device of this invention, displays a character string acquisition means for acquiring a character string, the prosodic setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the string operator presents the prosodic information setting screen includes a syllable display unit for the operator, and the prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency the operator has set or is characterized by comprising a sound data generating means for generating audio data based on the duration. 【0010】(4) この発明の音声修正装置は、音声データを取得する音声データ取得手段と、音声データを構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、操作者が設定した基本周波数または継続時間長に基づいて音声データを修正する音声データ修正手段とを備えていることを特徴としている。 [0010] (4) audio correction device of the present invention, the prosody setting unit for setting a speech data acquiring means for acquiring speech data, the fundamental frequency or duration of each syllable constituting the audio data to the operator and it presents the prosodic information setting screen includes a syllable display unit for displaying each syllable to the operator, and the prosodic information setting means for acquiring a set value of the fundamental frequency or duration of the syllable from the operator, the operation who is characterized by comprising a voice data correction means for correcting the voice data based on the fundamental frequency or duration set. 【0011】したがって、各音節ごとに基本周波数、継続時間長を設定することができるため、特異な音声を生成することができる。 Accordingly, the fundamental frequency for each syllable, it is possible to set the duration, it is possible to produce a unique sound. 【0012】(7) この発明の音声修正装置等にて、前記音声修正装置は、さらに、波形モデル情報および韻律モデル情報を記憶する波形・韻律モデル情報記憶手段を備え、前記音声データ生成手段は、操作者が設定した基本周波数または継続時間長に基づいて、前記波形・韻律モデル情報記憶手段から取得した前記波形モデル情報を修正して修正波形情報を生成し、当該修正波形情報に基づいて音声データを生成することを特徴としている。 [0012] (7) by the speech correction apparatus or the like of the present invention, the audio correction device further comprises a waveform-prosodic model data storing means for storing waveform model information and prosodic model data, the audio data generating means , based on the fundamental frequency or duration operator has set, by modifying the waveform model information acquired from the waveform-prosodic model information storage unit to generate a modified waveform information, voice based on the corrected waveform information It is characterized in that to generate the data. したがって、波形モデル情報、韻律モデル情報を利用することにより、韻律情報の設定が容易になる。 Thus, by utilizing the waveform model information, the prosodic model data, it is easy to set the prosody information. 【0013】(8) この発明の音声修正装置等にて、前記韻律設定部は、スクロールバーであることを特徴としている。 [0013] (8) by the speech correction apparatus or the like of the present invention, the prosody setting unit is characterized in that a scroll bar. したがって、操作者は、スライダーをドラッグすることにより、容易に基本周波数、継続時間長を設定することができる。 Thus, the operator, by dragging the slider, easily fundamental frequency, it is possible to set the duration. 【0014】(9) この発明の音声修正装置等にて、前記韻律設定部は、基本周波数を操作者に設定させるための第一のスクロールバーと、継続時間長を操作者に設定させるための第二のスクロールバーとを備え、前記第一のスクロールバーは、前記音節表示部の少なくとも左右いずれか一方に設けられた縦方向のスクロールバーであり、前記第二のスクロールバーは、前記音節表示部の少なくとも上下いずれか一方に設けられた横方向のスクロールバーであることを特徴としている。 [0014] (9) by the speech correction apparatus or the like of the present invention, the prosody setting unit includes: a first scroll bar for setting the fundamental frequency to the operator, for setting the duration to the operator and a second scroll bar, the first scroll bar, a vertical scrollbar provided on at least the left or right of the syllable display unit, the second scroll bar, the syllable display it is characterized in that the parts of a scroll bar in the lateral direction provided on at least either up or down. したがって、基本周波数は縦方向で、継続時間長は横方向でその設定値が表示されるため、操作者は視覚的にそれらを捉えることができ、基本周波数や継続時間長の設定値を微調整することが容易になる。 Therefore, the fundamental frequency is the longitudinal direction, since duration is to be displayed the setting value in the horizontal direction, the operator visually can catch them, fine adjustment of the set value of the fundamental frequency and duration it becomes easy to. 【0015】(10) この発明の音声修正装置等にて、前記第一のスクロールバーは、前記音節表示部の左右両側のそれぞれに、各音節の初期の基本周波数を設定するための左側スクロールバーと各音節の終期の基本周波数を設定するための右側スクロールバーとを備えていることを特徴としている。 [0015] (10) by the speech correction apparatus or the like of the present invention, the first scroll bar, the respective left and right sides of the syllable display unit, the left scroll bar for setting an initial fundamental frequency of each syllable It is characterized in that it comprises a and a right scroll bar for setting the fundamental frequency of the end of each syllable. したがって、各音節の初期と終期の基本周波数を設定することができ、より特異な音声を生成することができる。 Therefore, it is possible to set the fundamental frequency of the initial and end of each syllable, it is possible to generate a more unique sound. 例えば、文末音節の終期の基本周波数を大きく設定することにより、疑問文などを作成することができる。 For example, by setting large the fundamental frequency of the end of the sentence end syllables, it can be created such interrogative sentence. 【0016】(11) この発明のの音声修正装置等にて、 [0016] (11) by the speech correction apparatus or the like of the present invention,
第一の音節の終期の基本周波数を設定するための前記右側スクロールバーと、当該第一の音節と隣接する第二の音節の初期の基本周波数を設定するための前記左側スクロールバーは、当該第一の音節の終期の基本周波数と第二の音節の初期の基本周波数を設定するための1のスクロールバーを構成することを特徴としている。 Wherein the right scroll bar for setting the fundamental frequency of the end of the first syllable, the said left scroll bar for setting an initial fundamental frequency of the second syllable and the adjacent first syllable, the second It is characterized in that it constitutes one of the scroll bar for setting the fundamental frequency and the initial fundamental frequency of the second syllable of the end of one syllable. したがって、隣接する音節間の基本周波数を等しい値にすることができ、基本周波数の移行をスムーズにすることができる。 Therefore, it is possible to a value equal to the fundamental frequency between adjacent syllables, can be a smooth transition of the fundamental frequency. 【0017】(12) この発明の音声修正装置等にて、前記韻律設定部は、縦軸を基本周波数、横軸を継続時間長とする斜め方向のスクロールバーであって、その傾きを変更することが可能なスクロールバーであることを特徴としている。 [0017] (12) by the speech correction apparatus or the like of the present invention, the prosody setting unit, the vertical axis the fundamental frequency, a diagonal direction scroll bar to a horizontal axis and duration, to change its inclination it is characterized in that it is a scroll bar that can be. したがって、各音節について、1のスライダーをドラッグすれば、基本周波数と継続時間長を同時に設定することができる。 Thus, for each syllable, by dragging a slider, it is possible to set duration and fundamental frequency at the same time. 【0018】(13) この発明の音声修正装置等にて、前記韻律情報設定画面は、さらに、各音節の音源強度を操作者に設定させるための音源強度設定部を備えていることを特徴としている。 [0018] (13) by the speech correction apparatus or the like of the present invention, the prosodic information setting screen further it is characterized in that it comprises a sound source intensity setting unit for setting the sound source intensity of each syllable to the operator there. したがって、基本周波数、継続時間長とともに、各音節の音源強度を設定することができる。 Therefore, it is the fundamental frequency, with duration, sets the sound source intensity of each syllable. 【0019】なお、この発明において、「文字列取得手段」は、下記の実施形態において、ステップS11に該当する。 [0019] Incidentally, in the present invention, "character string obtaining means" in the following embodiments, it corresponds to step S11. 「韻律情報設定手段」は、下記の実施形態において、ステップS21、S22に該当する。 "Prosodic information setting means" in the following embodiments, corresponds to step S21, S22. 【0020】「韻律情報設定画面」は、下記の実施形態において、図11に示す韻律設定画面に該当する。 [0020] "prosodic information setting screen", in the following embodiments, corresponding to prosodic setting screen shown in FIG. 11. また、図14、図15a、図16、図18に示す韻律設定画面に該当する。 Also, 14, 15a, 16, corresponds to the prosody setting screen shown in FIG. 18. 「韻律設定部」は、下記の実施形態において、図11に示す韻律設定画面のスクロールバー1 "Prosody setting unit" in the following embodiments, the scroll bar 1 prosody setting screen shown in FIG. 11
10、120、130に該当する。 Corresponding to 10,120,130. また、図14に示す韻律設定画面のスクロールバー200、図15aに示す韻律設定画面のスクロールバー210、図16に示す韻律設定画面のスクロールバー220に該当する。 Further, the scroll bar 200 in prosody setting screen shown in FIG. 14, a scroll bar 210 of the prosody setting screen shown in FIG. 15a, it corresponds to the scroll bar 220 in prosody setting screen shown in FIG. 16. 【0021】「音声データ生成手段」は、下記の実施形態において、ステップS24に該当する。 The "voice data generating means" in the following embodiments, corresponds to step S24. 「波形・韻律モデル情報記憶手段」は、下記の実施形態において、解析用辞書50の音節の継続時間長の辞書、子音/母音の有声/無声辞書、音源強度辞書および音声データベース48に該当する。 "Waveform and prosodic model information storage unit" in the following embodiments, duration of dictionaries syllable analysis dictionary 50, the consonant / vowel voiced / unvoiced dictionary, corresponding to the sound source intensity dictionary and speech database 48. 「波形モデル情報」は、音声データベース48のサンプル音声波形に該当する。 "Waveform model information", corresponds to the sample speech waveform of the audio database 48. 「韻律モデル情報」は、解析用辞書50の音節の継続時間長の辞書、 "Prosodic model information", duration of the dictionary of the syllables of the analysis dictionary 50,
子音/母音の有声/無声辞書、音源強度辞書のそれぞれに記録されている情報が該当する。 Consonant / vowel voiced / unvoiced dictionary, information that is recorded in each of the sound source intensity dictionary appropriate. 【0022】「修正波形情報」は、下記の実施形態において、ステップ24にて修正されたサンプル音声波形に該当する。 The "Modify Waveform Information" in the following embodiments, corresponds to a sample speech waveform is corrected in step 24. 【0023】「第一のスクロールバー」は、下記の実施形態において、図11に示す韻律設定画面のスクロールバー120、130に該当する。 The "first scroll bar", in the following embodiments, corresponding to a scroll bar 120, 130 of the prosody setting screen shown in FIG. 11. 「第二のスクロールバー」は、下記の実施形態において、図11に示す韻律設定画面のスクロールバー110に該当する。 "Second scroll bar", in the following embodiments, corresponding to a scroll bar 110 of the prosody setting screen shown in FIG. 11. 【0024】「第一の音節」は、下記の実施形態において、「ko」「N」「ni」「chi」のそれぞれに該当する。 The "first syllable", in the following embodiments, corresponding to each "ko", "N", "ni", "chi".
「第二の音節」は、第一の音節「ko」に対して「N」、 "The second syllable" is "N" with respect to the first syllable "ko",
第一の音節「N」に対して「ni」、第一の音節「ni」に対して「chi」、第一の音節「chi」に対して「wa」に該当する。 "Ni" first for the syllable "N", corresponding to "wa" with respect to the first syllable "ni" for the "chi", the first syllable "chi". 「音源強度設定部」は、下記の実施形態において、図18に示す韻律設定画面のスクロールバー230 "Tone intensity setting unit" in the following embodiments, prosody setting screen scroll bar 230 shown in FIG. 18
に該当する。 Corresponding to. 【0025】「波形データ取得手段」は、下記の実施形態において、ステップS31に該当する。 The "waveform data acquiring means" in the following embodiments, it corresponds to step S31. 「音声データ修正手段」は、下記の実施形態において、ステップS3 "Voice data correction means" in the following embodiments, step S3
8該当する。 8 applicable. 【0026】「プログラムを記録した記録媒体」とは、 [0026] The term "recording medium for recording the program" is,
フレキシブルディスク、CD−ROM、ハードディスク、メモリカード、ROM、パンチカード、テープ等を含む概念である。 Flexible disk, CD-ROM, a hard disk, a memory card, ROM, a punch card, a concept including a tape or the like. また、コンピュータによって直接実行可能なプログラムを記録した記録媒体だけでなく、一旦他の記録媒体(ハードディスク等)にインストールすることによって実行可能となるようなプログラムを記録した記録媒体や、暗号化されたり、圧縮されたりしたプログラムを記録した記録媒体を含む概念である。 Further, not only the recording medium recording a program directly executable by a computer, once or other recording medium recording medium recording a program that becomes executable by installing the (hard disk), or encrypted is a concept including a recording medium recording a program or compressed. 【0027】 【発明の実施の形態】1. 機能ブロック図図1に、一実施形態における音声修正装置10の機能ブロック図を示す。 DETAILED DESCRIPTION OF THE INVENTION 1. FUNCTIONAL BLOCK DIAGRAM shows a functional block diagram of a speech modification apparatus 10 in one embodiment. 波形・韻律モデル情報記憶手段12 Waveform and prosodic model information storage means 12
は、波形モデル情報および韻律モデル情報を記憶する。 Stores waveform model information and prosodic model data.
文字列取得手段14は、文字列を取得し、韻律情報設定手段16は、文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する。 Character string obtaining means 14 obtains the character string, the prosodic information setting means 16, displays the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the string operator prosodic information setting screen includes a syllable display unit for presenting to the operator, to obtain the fundamental frequency or duration of the set value of the syllable from the operator. 音声データ生成手段18は、操作者が設定した基本周波数または継続時間長に基づいて、波形・韻律モデル情報記憶手段12から取得した波形モデル情報を修正して修正波形情報を生成し、当該修正波形情報に基づいて音声データを生成する。 Voice data generating unit 18, based on the fundamental frequency or duration operator has set, and generates the modified waveform information to correct the waveform model information acquired from the waveform-prosodic model information storage unit 12, the corrected waveform It generates audio data based on the information. 【0028】2. 音声修正装置のハードウエア構成図2に、音声修正装置10のハードウエア構成を示す。 [0028] 2. Hardware Configuration Figure 2 of a voice correction device, showing a hardware configuration of the audio correction device 10.
CPU30には、バスラインを介して、メモリ32、キーボード/マウス34、フレキシブルディスクドライブ36(FDD)、CD−ROMドライブ40、ハードディスク44、サウンドカード54/スピーカ56、ディスプレイ58などが接続されている。 The CPU 30, via the bus line, the memory 32, a keyboard / mouse 34, a flexible disk drive 36 (FDD), CD-ROM drive 40, a hard disk 44, the sound card 54 / speaker 56, and display 58 are connected . サウンドカード5 Sound card 5
4は、音声波形データをアナログ音声信号に変換するものである。 4 is for converting the speech waveform data into an analog audio signal. 【0029】ハードディスク44には、テキスト情報から音声情報に変換するための音声合成プログラム46、 [0029] on the hard disk 44, speech synthesis program 46 for converting from text information to voice information,
音声データベース48、解析用辞書50、オペレーティングシステム52(OS)などが記憶されている。 Speech database 48, analysis dictionary 50, such as an operating system 52 (OS) is stored. 解析用辞書50は、後述する単語辞書、音節の継続時間長の辞書、子音/母音の有声/無声辞書、音源強度辞書を備えている。 Analysis dictionary 50 has a word dictionary, which will be described later, duration of the dictionary of syllable, consonant / vowel voiced / unvoiced dictionary, the sound source intensity dictionary. これらの音声データベース48等は、CD− These voice database 48, etc., CD-
ROM42からCD−ROMドライブ40(または、フレキシブルディスク38からフレキシブルディスクドライブ36)を介してインストールされたものである。 CD-ROM drive 40 from the ROM 42 (or a flexible disk drive 36 from the flexible disk 38) in which is installed through. この実施形態では、音声合成プログラム46等は、オペレーティングシステム52と共同して上記機能を実行する。 In this embodiment, the like speech synthesis program 46, in cooperation with the operating system 52 to perform the above functions. 【0030】3. フローチャート図3a、図3bに、音声修正装置10の音声合成処理を示す。 [0030] 3. Flowchart 3a, in FIG. 3b, shows the speech synthesis processing of the audio correction device 10. まず、操作者は、キーボード34から出力しようとする音声に対応する文字列「こんにちは・・・・」を入力する(ステップS11)。 First, the operator inputs the string "Hello ..." corresponding to the voice to be output from the keyboard 34 (step S11). 【0031】CPU30は、文字列「こんにちは・・・ [0031] CPU30, the character string "Hello ...
・」を解析用辞書50の図4に示す単語辞書を参照して、「こんにちは」等の単語に分解し、読み「koNnichi - "referring to the word dictionary shown in FIG. 4 of the analysis dictionary 50, it is decomposed into words such as" Hello ", read" koNnichi
wa」を取得する(形態素の解析処理)(図3aのステップS12)。 Acquires wa "(morpheme analysis) (step S12 in FIG. 3a). この単語辞書には、各単語の品詞、読み、 The word dictionary, each word of the part of speech, reading,
音節、アクセント値等が記録されている。 Syllables, accent values ​​and the like are recorded. 以下、単語「koNnichiwa」に対する処理を一例として説明する。 Hereinafter, the processing for the word "koNnichiwa" as an example. 【0032】CPU30は、図4に示す単語辞書を参照して、単語「koNnichiwa」を構成する各音節「ko」 [0032] CPU30 refers to the word dictionary shown in FIG. 4, each syllable that make up the word "koNnichiwa", "ko"
「N」「ni」「chi」「wa」のアクセント値を取得する(図3aのステップS13)。 Obtaining accent value of "N", "ni", "chi", "wa" (step S13 in FIG. 3a). このアクセント値は、前後の音の環境によって変化するものであるため、CPU Since this accent value is to change the environment before and after the sound, CPU
30は、前後の音素や音節との関係に基づくルール等によってアクセント値を修正する。 30 modifies the accent value by the rules or the like based on the relationship between the front and rear phonemes and syllables. 【0033】次に、CPU30は、解析用辞書50の図5に示す音節の継続時間長の辞書を参照して、各音節の継続時間を取得する(図3aのステップS14)。 [0033] Next, CPU 30 refers to the duration of the dictionary syllables shown in Figure 5 of the analysis dictionary 50, acquires a duration of each syllable (step S14 in FIG. 3a). そして、前後の音素や音節との関係に基づくルール等によって継続時間長を修正し、図6に示すような音節ごとのテーブルを生成する。 Then, correct the duration by a rule or the like based on the relationship between the front and rear phonemes and syllables, generating a table for each syllable, as shown in FIG. このテーブルには、音節の継続時間長やアクセント値等の他に、音節連鎖(例えば、「ko This table, in addition to such duration and accents value syllable, syllable chain (e.g., "ko
N」など)も記録される。 N ", etc.) are also recorded. 【0034】次に、CPU30は、解析用辞書50の図7に示す子音/母音の有声無声辞書を参照して、各音素「k」「o」「N」「n」「i」「ch」「i」「w」「a」の有声無声の区別を行う(図3aのステップS15)。 [0034] Next, CPU30 refers to the voiced unvoiced dictionary of the consonant / vowel shown in FIG. 7 of the analysis dictionary 50, each phoneme "k", "o", "N", "n", "i", "ch" to distinguish voiced unvoiced "i", "w", "a" (step S15 in FIG. 3a). この子音/母音の有声無声辞書には、すべての音素とその有声/無声の区別が記録されている。 The voiced unvoiced dictionary of the consonant / vowel, the distinction between all of the phoneme and the voiced / unvoiced are recorded. 図中のインデックス「V」は母音(有声音)、「CU」は子音の無声音、 Index "V" vowel in the figure (voiced sound), "CU" is consonant unvoiced,
「CV」は子音の有声音を示している。 "CV" indicates a voiced consonant. さらに、CPU In addition, CPU
30は、有声音が無声化するルールに基づいて、無声化する部分を決定する。 30 is based on the rules voiced to unvoiced, determines the portion of unvoiced. 【0035】次に、CPU30は、図6に示すテーブル(特に、アクセント値)に基づいて、図8に示すような基本周波数F の時間的変化を生成する(図3aのステップS16)。 [0035] Then, CPU 30 on the basis of the table (in particular, the accent value) shown in FIG. 6, to generate a temporal change of the fundamental frequency F 0, as shown in FIG. 8 (step S16 in FIG. 3a). なお、基本周波数F が示されていない部分は、無声音の部分である。 The portion of the fundamental frequency F 0 is not shown, a part of the unvoiced. 次に、CPU30は、図9に示す音源強度辞書を参照して、各音節「ko」「N」 Then, CPU 30 refers to the sound source intensity dictionary shown in FIG. 9, each syllable "ko", "N"
「ni」「chi」「wa」について、有声音源強度Av、無声音源強度Afの時間的変化を決定する(図3aのステップS17)。 For "ni", "chi", "wa", determined voiced speech source strength Av, temporal changes in unvoiced sound intensity Af (step S17 in FIG. 3a). さらに、アクセント値や前後の音の環境等に基づいて、その音源強度を修正する。 Furthermore, based on the environment and the accent value and the front and rear of the sound, to correct the sound intensity. また、ステップS14で決定した継続時間長に合致するように、音源強度の時間的変化を修正する。 Further, to match the duration determined in step S14, to correct the temporal change of the sound source intensity. 【0036】次に、CPU30は、各音節「ko」「N」 [0036] Next, CPU30, each syllable "ko", "N"
「ni」「chi」「wa」について、音声データベース48 For the "ni", "chi," "wa", the voice database 48
からサンプル音声波形を取得する(ステップS18)。 To obtain samples speech waveform from (step S18).
この音声データベース48には、図10に示すように、 This speech database 48, as shown in FIG. 10,
実際に発話されたサンプル音声波形が音節ごとの音韻情報とともに記録されており、また、各音節について、音源強度の時間的変化、基本周波数F の時間的変化、継続時間長などの韻律情報が記録されている。 Actually spoken sample speech waveform are recorded along with the phoneme information for each syllable, and each syllable, temporal change of the sound source intensity, temporal change of the fundamental frequency F 0, the prosody information such as duration It is recorded. なお、各音節(例えば、「ko」)について複数のサンプル音声波形が存在するため、前後のつながり等から最も好ましいサンプル音声波形を取得する。 Each syllable (e.g., "ko") for a plurality of sample speech waveform is present on, to obtain the most preferred sample speech waveform from the front and rear ties or the like. 【0037】次に、CPU30は、各音節のサンプル音声波形の継続時間長が、ステップS14において決定した継続時間長と等しくなるように、サンプル音声波形を修正する。 Next, CPU 30 is duration of sample speech waveform of each syllable, to be equal duration and determined in step S14, to correct the sample speech waveform. これは、数ピッチの波形を重複させたり(同じ波形を挿入したり)、削除したりすることによって行う。 This or with overlapping several pitches of the waveform (or insert the same waveform), performed by or deleted. さらに、CPU30は、各音節のサンプル音声波形の音源強度の時間的変化が、ステップS17において決定した音源強度の時間的変化と等しくなるように、サンプル音声波形を修正する。 Further, CPU 30 is the temporal change of the sound source intensity of the sample speech waveform of each syllable, so equal to the temporal change of the sound source intensity determined in step S17, to correct the sample speech waveform. さらに、CPU30は、各音節のサンプル音声波形の基本周波数F の時間的変化が、ステップS16において決定した基本周波数F の時間的変化と等しくなるように、サンプル音声波形を修正する(図3aのステップS19)。 Further, CPU 30 is the temporal change of the fundamental frequency F 0 of the sample speech waveform of each syllable, to be equal to the time variation of the fundamental frequency F 0 which is determined in step S16, to correct the sample speech waveform (Figure 3a step S19 of). 【0038】次に、CPU30は、図11に示す韻律設定画面を生成し(図3bのステップS21)、これをディスプレイ58に表示する(ステップS22)。 Next, CPU 30 generates prosody setting screen shown in FIG. 11 (step S21 in FIG. 3b), and displays it on the display 58 (step S22). この韻律設定画面について、以下に説明する。 About this prosody setting screen will be described below. 【0039】各音節「ko」「N」「ni」「chi」「wa」を表示する音節表示部100が設けられており、それぞれの下側には、各音節の継続時間長を設定するためのスクロールバー110が横方向に設けられている。 [0039] A syllable display unit 100 for displaying each syllable "ko", "N", "ni", "chi", "wa" is provided, each of the lower, to set the duration of each syllable scroll bar 110 is provided in the lateral. このスクロールバー110の右端をステップS14において決定した各音節の継続時間長の10倍、左端をその0.1倍として、ログスケールを採用している。 The right end 10x duration of each syllable determined in step S14 of the scroll bar 110, as a 0.1-fold left, employs a logarithmic scale. また、このスライダー112は、当初において中央(1倍)に位置するものとする。 Further, this slider 112 is assumed to be located at the center (1 fold) at the beginning. 例えば、音節「ko」の継続時間長を長くしたい場合には、スライダー112を右方向にドラッグする。 For example, if you want to increase the duration of the syllable "ko" drags the slider 112 to the right. 【0040】また、各音節間には、基本周波数F を設定するためのスクロールバー120が縦方向に設けられている。 Further, between each syllable, and a scroll bar 120 for setting the fundamental frequency F 0 is provided in the longitudinal direction. また、両端の音節「ko」「wa」のそれぞれ左側、右側にも、基本周波数F を設定するためのスクロールバー130、140が縦方向に設けられている。 Further, each left ends of the syllable "ko", "wa", to the right, and scroll bars 130 and 140 for setting the fundamental frequency F 0 is provided in the longitudinal direction. なお、スクロールバー120、130、140の上端を5 In addition, the upper end of the scroll bar 120, 130, 140 5
00Hz、下端を30Hzとし、スライダー122、1 00Hz, the lower end of a 30Hz, slider 122,
32は、当初においてステップS16において決定した値に位置している。 32 is located to the value determined in step S16 at the beginning. 例えば、音節「ko」の初期の基本周波数F を大きくしたい場合には、スライダー132を上方向にドラッグする。 For example, if you want to increase the fundamental frequency F 0 initial syllable "ko" drags the slider 132 upward. さらに、音節「ko」の終期の基本周波数F (これは、音節「N」の初期の基本周波数F に該当する)を小さくしたい場合には、スライダー122を下方向にドラッグする。 Furthermore, it syllable fundamental frequency F 0 of the end of "ko" (which, syllable corresponds to the fundamental frequency F 0 initial "N") when it is desired to reduce the drag the slider 122 downward. なお、「synth」ボタン150は、音声合成を指令するためのものである。 Incidentally, "synth" button 150 is for instructing the speech synthesis. 【0041】図11に示すように、ユーザによって基本周波数F と継続時間長が設定されると(図3bのステップS23)、CPU30は、ステップS14、S16 As shown in FIG. 11, the duration and fundamental frequency F 0 by the user is set (step S23 in FIG. 3b), CPU 30, the steps S14, S16
において決定した継続時間長と基本周波数F の修正を行う(図3bのステップS24)。 Performing duration and modifying the fundamental frequency F 0 determined in (step S24 in FIG. 3b). 例えば、音節「ko」 For example, the syllable "ko"
について、初期の基本周波数F 「400Hz」、終期の基本周波数F 「200Hz」、継続時間長「5倍」 For the initial fundamental frequency F 0 "400Hz", the fundamental frequency F 0 "200Hz" in the end, duration "five-fold"
に設定されると、「ko」の基本周波数F のグラフを図12Aに示すように修正し、「ko」の継続時間長を18 When set to, modified to show a graph of the fundamental frequency F 0 of "ko" in FIG. 12A, the duration of "ko" 18
8ms×5=940msに修正する。 To correct the 8ms × 5 = 940ms. また、音節「N」 In addition, the syllable "N"
について、初期の基本周波数F 「200Hz」(これは「ko」の終期の基本周波数F と等しい)、終期の基本周波数F 「250Hz」、継続時間長「1倍」に設定されると、「N」の基本周波数F のグラフを図12 For the initial fundamental frequency F 0 "200Hz" (which is equal to the fundamental frequency F 0 of the end of "ko"), the fundamental frequency F 0 "250Hz" telophase, when set to duration "x 1" , 12 a graph of the fundamental frequency F 0 of the "N"
Bに示すように修正し、「N」の継続時間長を92ms Modified as shown in B, and duration of the "N" 92ms
×1=92msに修正する。 × corrected to 1 = 92ms. このように各音節について、基本周波数F 、継続時間長の修正を行う。 Thus for each syllable, the fundamental frequency F 0, to correct the duration. 修正後の単語「koNnichiwa」の基本周波数F の時間的変化を図13に示す。 The temporal change of the fundamental frequency F 0 of the words the modified "koNnichiwa" shown in FIG. 13. なお、基本周波数F が示されていない部分は、無声音の部分である。 The portion of the fundamental frequency F 0 is not shown, a part of the unvoiced. 【0042】そして、CPU30は、各音節についての修正後の継続時間長、基本周波数F [0042] Then, CPU30, the duration of the post-correction for each syllable, fundamental frequency F の時間的変化と、 And the temporal change of 0,
修正前の継続時間長、基本周波数F の時間的変化間の差に基づいて、図10に示すサンプル音声波形を修正する。 Duration before correction, based on the difference between the temporal change of the fundamental frequency F 0, to modify the sample speech waveform shown in FIG. 10. 例えば、音節「ko」ついて、図10と図12に示す基本周波数F 間の差および継続時間長間の差(188 For example, with the syllable "ko", and the difference in the duration difference of Choma between the fundamental frequency F 0 shown in FIG. 10 and FIG. 12 (188
ms(修正前)、940ms(修正後))に基づいて、 ms (before correction), on the basis of 940ms (revised)),
図10に示す「ko」のサンプル音声波形を修正する。 FIG 10 corrects the sample speech waveform of "ko". 【0043】次に、CPU30は、音節ごとにサンプル音声波形を修正して得られた波形を接続し、合成音声波形を生成する(図3bのステップS25)。 Next, CPU 30 connects the waveform obtained by modifying the sample speech waveform for each syllable, and generates a synthesized speech waveform (step S25 in FIG. 3b). そして、この合成音声波形をサウンドカード54に出力する(ステップS26)。 Then, it outputs the synthesized speech waveform to the sound card 54 (step S26). サウンドカード54は、これをアナログ信号に変換し、スピーカ56から音声として出力する。 Sound card 54, which was converted into an analog signal, and outputs it as sound from the speaker 56. 【0044】4. 他の実施形態(1) なお、上述の実施形態における図11に示す韻律設定画面において、各音節表示部100の下側に継続時間長を設定するためのスクロールバー110を、左右両側に基本周波数F を設定するためのスクロールバー120、 [0044] 4. Other embodiments (1) Note that in prosody setting screen shown in FIG. 11 in the above embodiment, the scroll bar 110 for setting the duration under each syllable display unit 100, scroll bar 120 for setting the fundamental frequency F 0 on the left and right sides,
130を設けている。 It is provided with a 130. しかしながら、これらに限られるものではなく、図14、図15aまたは図16に示すような韻律設定画面であってもよい。 However, not limited thereto, FIG. 14, it may be a prosody setting screen as shown in Figure 15a or Figure 16. これらの韻律設定画面について、以下に説明する。 These prosodic setting screen will be described below. 【0045】図14に示す韻律設定画面では、各音節表示部100の下側に、継続時間長を設定するためのスクロールバー110と平行して基本周波数F を設定するためのスクロールバー200を設けてもよい。 [0045] In the prosody setting screen shown in FIG. 14, the lower side of each syllable display unit 100, a scroll bar 200 for setting the fundamental frequency F 0 in parallel with the scroll bar 110 for setting the duration it may be provided. 【0046】図15a、図15bに示す韻律設定画面では、縦軸に基本周波数、横軸を継続時間長とする傾きが可変の斜め方向のスクロールバー210が設けられている。 [0046] Figure 15a, in prosody setting screen shown in Figure 15b, the fundamental frequency on the vertical axis, the inclination of the horizontal axis and duration scroll bar 210 of the variable oblique direction is provided. 例えば、スライダー212を所定の位置にドラッグすることにより、基本周波数と継続時間長を同時に設定することができる。 For example, by dragging the slider 212 to a predetermined position, it is possible to set duration and fundamental frequency at the same time. 【0047】図16に示す韻律設定画面では、各音節ごとに一つの基本周波数F を設定するためのスクロールバー220が設けられている。 [0047] In the prosody setting screen shown in FIG. 16, a scroll bar 220 for setting one of the fundamental frequency F 0 is provided for each syllable. 例えば、「ko」の基本周波数F が400Hzに設定されると、基本周波数F For example, if the fundamental frequency F 0 of "ko" is set to 400Hz, the fundamental frequency F 0
のグラフは図17Aに示すように修正される。 The graph is modified as shown in FIG. 17A. また、図17Bに示すように、「ko」の基本周波数F が平均的に400Hzになるように修正してもよい。 Further, as shown in FIG. 17B, the fundamental frequency F 0 may be modified to be 400Hz average, of "ko". 【0048】また、上述の実施形態における図11に示す韻律設定画面において、継続時間長および基本周波数F を設定するためのスクロールバー110、120、 [0048] Further, in the prosody setting screen shown in FIG. 11 in the above embodiment, the scroll bar 110, 120 for setting the duration and fundamental frequency F 0,
130を設けている。 It is provided with a 130. しかしながら、継続時間長または基本周波数F のいずれか一方のみのスクロールバーしか設けないものであってもよい。 However, it may be one which is not provided only either one scroll bar of duration or fundamental frequency F 0. また、図11に示す韻律設定画面において、縦方向または横方向のどちらか一方を、音源強度を設定するためのスクロールバーとして用いてもよい。 Further, the prosody setting screen shown in FIG. 11, either the longitudinal or transverse direction may be used as a scroll bar for setting the sound intensity. また、継続時間長等を数値で設定するものであってもよい(例えば、「500ms」、「5倍」 Also, which may be used to set the duration such as a numerical value (e.g., "500ms", "5 times"
など)。 Such). 【0049】また、上述の実施形態では、各音節の音源強度は、図9に示す音源強度辞書に基づいて設定している。 [0049] In the embodiment described above, the sound source intensity of each syllable is set based on the sound source intensity dictionary shown in FIG. しかしながら、図18に示すように音源強度を設定するためのスクロールバー230を設け、ユーザが任意に設定できるようにしてもよい。 However, the scroll bar 230 for setting the sound intensity as shown in FIG. 18 may be provided to allow users to arbitrarily set. 【0050】また、音節の母音が無音声化した場合、つまり基本周波数F が現れない場合には、基本周波数F [0050] In addition, in the case vowel syllables if it has no voice of, in other words that do not appear fundamental frequency F 0 is the fundamental frequency F
を設定するためのスクロールバーの操作ができないことを示すようにしてもよい(例えば、スクロールバーを変色させる)。 0 may be set to indicate the inability scroll bar operation is for setting (e.g., to discolor the scroll bars). 【0051】また、図11に示す継続時間長を設定するためのスクロールバー110に加えて、音節の切り出しの端点の位置を指定するための横方向のスクロールバーを設けてもよい。 [0051] In addition to the scroll bar 110 for setting the duration shown in Figure 11, it may be provided horizontal scroll bars for specifying the location of the endpoints of the cut-out syllables. また、音節の切り出しの端点の位置を指定するためのスクロールバーに代えて、二次元のポインティングツールを設けてもよい。 In place of the scroll bar to specify the position of the end point of the clipping of syllables may be provided for two-dimensional pointing tool. 【0052】また、上述の実施形態では、多数のサンプル音声波形を音節を文字列として記録した音声データベース48(音声コーパス)を備えている。 [0052] In the aforementioned embodiment, and includes a number of speech database 48 of the sample speech waveform was recorded syllables as a string (voice corpus). しかしながら、音素を文字列として記録したデータベースを用いてもよい。 However, it may be used a database that records the phoneme as a string. 【0053】また、複数の音節が明瞭な区分に乏しく連続している場合には、そのような音節を1かたまりとして扱うようにしてもよい(拡張音節)。 [0053] When a plurality of syllables are poor continuously clear segment may also be handling such syllables as one mass (Extended CV). この場合に用いられる定義表を図19に示す。 Showing a definition table used in this case in FIG. 19. これは、軽音節よりも重音節が優先して切り出され、重音節よりも超重音節が優先して切り出される。 This heavy syllable is cut out in preference to a light syllable, superheavy syllable is cut in preference to the heavy syllable. すなわち、超重音節に該当する場合には、その一部が重音節として切り出されることはない。 That is, when the true superheavy syllables will not be part of it is cut out as heavy syllables. これにより、接続する不自然さを排除することができる。 Thus, it is possible to eliminate unnaturalness of connecting. なお、少なくとも軽音節と重音節を用いることが好ましい。 It is preferable to use at least light syllables and heavy syllables. 【0054】また、上述の実施形態では、音声コーパスを用いているが、各音節(または音素、拡張音節)について1の音声波形データを記録した音声データベースを用いてもよい。 [0054] Further, in the embodiment described above, but using a speech corpus, each syllable (or phoneme, Extended CV) for or using the voice database recording the first speech waveform data. また、各音節(または音素、拡張音節) Each syllable (or phoneme, Extended CV)
ごとに、1ピッチだけの音声波形データを記録した音声データベースを用いてもよい。 Each may be used speech database recording the voice waveform data of just one pitch. 【0055】また、上述の実施形態では、継続時間長を設定するためのスクロールバー110の右端をステップS14において決定した継続時間長の10倍、左端を0.1倍としているが、これらの数値に限られるものではない。 [0055] In the embodiment described above, 10 times the duration determined in step S14 the right edge of the scroll bar 110 for setting the duration, but the left edge is set to 0.1 times, these numbers the present invention is not limited to. また、スクロールバー110の右端を○○m Moreover, the right edge of the scroll bar 110 ○○ m
s、左端を○○msとしてもよく、この場合、解析用辞書50の音節の継続時間長の辞書を用いる必要はない。 s, the left may be as a ○○ ms, in this case, it is not necessary to use the duration of the dictionary of the syllables of the analysis dictionary 50.
なお、図14、図15a、図16に示す韻律設定画面における継続時間長を設定するためのスクロールバーについても同様である。 Incidentally, FIG. 14, FIG. 15a, is the same for a scroll bar for setting the duration of the prosody setting screen shown in FIG. 16. 【0056】また、上述の実施形態では、基本周波数F [0056] In the embodiment described above, the fundamental frequency F
を設定するためのスクロールバー120、130、1 Scroll bar 120,130,1 for setting the 0
40の上端を500Hz、下端を30Hzとしているが、これらの数値に限られるものではない。 40 500 Hz the upper end of, although a 30Hz lower end, is not limited to these numerical values. また、ステップS16において決定した基本周波数F を基準に、 Further, based on the fundamental frequency F 0 which is determined in step S16,
スクロールバー120、130、140の上端をその○ That the upper end of the scroll bar 120,130,140 ○
○%、下端をその○○%としてもよい。 ○%, lower or as a ○○% of. 例えば、「ko」 For example, "ko"
の初期の基本周波数F 「150%」、終期の基本周波数F 「50%」に設定された場合、図10に示す初期と終期の基本周波数F (図20A)を基準に、初期と終期の基本周波数F を決定し、これに応じて図20A The fundamental frequency F 0 "150%" in the early, when it is set to the fundamental frequency F 0 "50%" of the end, to the fundamental frequency F 0 reference (FIG. 20A) of the initial and final illustrated in FIG. 10, the initial and determining the fundamental frequency F 0 of the end, Figure 20A in accordance with this
に示す基本周波数F を全体にわたって修正する(図2 Modifying throughout the fundamental frequency F 0 shown in (FIG. 2
0B参照)。 See 0B). なお、図14、図15a、図16に示す韻律設定画面における基本周波数F を設定するためのスクロールバーについても同様である。 Incidentally, FIG. 14, FIG. 15a, is the same for a scroll bar for setting the fundamental frequency F 0 in prosody setting screen shown in FIG. 16. 【0057】また、上述の実施形態では、初期の基本周波数F 「400Hz」、終期の基本周波数F 「20 [0057] In the above embodiments, the initial fundamental frequency F 0 "400Hz", the fundamental frequency of the end F 0 "20
0Hz」に設定された場合に、図10に示す「ko」の基本周波数F の時間的変化を、図12Aに示すように修正している。 If it is set to 0Hz ", the temporal change of the fundamental frequency F 0 of" ko "shown in FIG. 10, it is modified as shown in FIG. 12A. しかしながら、図10に示す基本周波数F However, the fundamental frequency F shown in FIG. 10
(図20A)の初期値と終期値をユーザが設定した値(400Hz、200Hz)に決定し、これに応じて図20Aに示す基本周波数F を全体にわたって修正してもよい(図20C参照)。 0 (Figure 20A) initial and final values the value set by the user (400 Hz, 200 Hz) of determining, the modified may be (see FIG. 20C throughout the fundamental frequency F 0 shown in FIG. 20A in accordance with this ). 【0058】また、上述の実施形態では、操作者は、出力しようとする音声に対応する文字列をキーボード34 [0058] In the embodiment described above, the operator, a character string corresponding to the voice to be output keyboard 34
から入力している。 It is input from. しかしながら、フレキシブルディスク38に記録されている当該文字列を、フレキシブルディスクドライブ36を介して入力してもよい。 However, the character string recorded in the flexible disk 38 may be input via a flexible disk drive 36. また、他のコンピュータから、当該文字列をネットワークを介して送信してもよい。 Further, from another computer, it may send the string via the network. 【0059】また、上述の実施形態では、音声合成プログラム46は、オペレーティングシステム52と共同して上記機能を実行している。 [0059] In the embodiment described above, the speech synthesis program 46 cooperates with the operating system 52 running above functions. しかしながら、その機能の一部または全部を、音声合成プログラム46が単独で実行するようにしてもよい。 However, some or all of its functionality may be speech synthesis program 46 is executed independently. 【0060】5. 他の実施形態(2) また、上述の実施形態では、初期の基本周波数F 「4 [0060] 5. Other embodiments (2) In the above embodiments, the initial fundamental frequency F 0 '4
00Hz」、終期の基本周波数F 「200Hz」に設定された場合に、図10に示す「ko」の基本周波数F 00Hz ", when it is set to the fundamental frequency F 0" 200Hz "telophase, the fundamental frequency F 0 of" ko "shown in FIG. 10
の時間的変化(図21A)を、図12A(図21B)に示すように修正している。 Temporal changes (FIG. 21A), is modified as shown in FIG. 12A (FIG. 21B). しかしながら、図21Cに示すように修正してもよい。 However, it may be modified as shown in Figure 21C. これについて以下に説明する。 This will be described below. 【0061】まず、韻律設定画面においてユーザにより初期の基本周波数F 「400Hz」、終期の基本周波数F 「200Hz」が設定されると、図21Bに示す基本周波数F のグラフを生成する。 [0061] First, the initial fundamental frequency F 0 "400Hz" by the user in prosody setting screen, the fundamental frequency F 0 "200Hz" telophase is set to generate a graph of the fundamental frequency F 0 shown in FIG. 21B. そして、各時刻における図21Bに示す基本周波数F と図21Aに示す基本周波数F 間の関係に基づいて、図21Aに示す基本周波数F のグラフ全体を修正する(図21C参照)。 Then, based on the relationship between the fundamental frequency F 0 shown in the fundamental frequency F 0 and Figure 21A shown in FIG. 21B at each time, to modify the overall graph of the fundamental frequency F 0 shown in FIG. 21A (see FIG. 21C). このようにすれば、音声データベース48に記録されているサンプル音声波形の特性を有効に利用することができる。 In this way, it is possible to effectively utilize the characteristics of the sample speech waveform recorded in the speech database 48. 【0062】6. 他の実施形態(3) また、上述の実施形態では、操作者は、出力しようとする音声に対応する文字列をキーボード34から入力している。 [0062] 6. The other embodiment (3), in the embodiment described above, the operator, a character string corresponding to the voice to be output is input from the keyboard 34. しかしながら、CD−ROM42やフレキシブルディスク38に記録されている波形データを、CD−R However, the waveform data recorded on the CD-ROM 42 or a floppy disk 38, CD-R
OMドライブ40やフレキシブルディスクドライブ36 OM drive 40 and a flexible disk drive 36
を介して入力してもよい。 It may be input via the. この場合、音声データベース48に記録されているサンプル音声波形の代わりに、当該波形データを利用して音声の修正処理を行う。 In this case, in place of the sample speech waveform recorded in the audio database 48, performs the correction process of the voice by utilizing the waveform data. これについて、図22を用いて以下に一例を説明する。 This will be described an example in the following with reference to FIG. 22. 【0063】ハードディスク44には、音声データの音節分割を行うための音節分割ツール(例えば、日本語ディクテーション基本ソフトウエア(98年度版)、日本音響学会論文誌Vol.56、No.4、pp.255-259、2000)が記録されており、音声データを記録するための音声データ記録部が設けられている。 [0063] on the hard disk 44, syllable division tool for carrying out the syllable division of the audio data (for example, Japanese Dictation software (1998 version), the Acoustical Society of Japan Journal Vol.56, No.4, pp. 255-259,2000) has been recorded, the audio data recording section for recording audio data is provided. 【0064】操作者によってCD−ROM42からCD [0064] CD from the CD-ROM42 by the operator
−ROMドライブ40を介して音声データA「ドラゴン」が入力されると(ステップS31)、CPU30 When the audio data A "Dragon" is input through the -ROM drive 40 (step S31), CPU 30
は、音節データAを音声データ記録部に記録する(図2 Records the syllable data A to the audio data recording section (Fig. 2
3A参照)(ステップS32)。 3A reference) (step S32). さらに、音節分割ツールにより音声データA「ドラゴン」の音節の分割処理(音節「do」「ra」「go」「N」)を行い(ステップS In addition, it performs the division processing of syllable of the voice data A "Dragon" (syllable "do", "ra", "go", "N") by syllable division tool (step S
33)、各音節の基本周波数F と継続時間長等を音声データ記録部に記録する(図23B参照)(ステップS 33), to record the duration and the like and the fundamental frequency F 0 of each syllable in the audio data recording unit (see FIG. 23B) (step S
34)。 34). 【0065】次に、CPU30は、上述の実施形態と同様な図24に示す韻律設定画面を生成し(ステップS3 Next, CPU 30 generates prosody setting screen shown in the same FIG. 24 of the above-mentioned embodiment (step S3
5)、これをディスプレイ58に表示する(ステップS 5), and displays it on the display 58 (step S
36)。 36). 音声データAを基準として、基本周波数F を設定するためのスクロールバー310、320の上端をその200%、下端をその1%とし、継続時間長を設定するためのスクロールバー330の右端をその10倍、 As reference speech data A, the upper end thereof 200% of the scroll bars 310 and 320 for setting the fundamental frequency F 0, the bottom with its 1%, the right edge of the scroll bar 330 for setting the duration 10 times,
左端をその0.1倍としている。 The left edge is with its 0.1 times. 【0066】CPU30は、ユーザから基本周波数F [0066] CPU30, the fundamental frequency F 0 from the user
と継続時間長の設定値を取得すると(ステップS3 Upon obtaining the set value of the duration length (step S3
7)、音声データAの継続時間長と基本周波数F の修正を行う(ステップS38)。 7), the duration and the modification of the fundamental frequency F 0 of the audio data A (step S38). 例えば、音節「do」について、初期の基本周波数F 「80%」、終期の基本周波数F 「100%」、継続時間長「5倍」に設定されると、図25Aに示す「do」の基本周波数F のグラフを図25Bに示すように修正し、「do」の継続時間長を200ms×5=1000msに修正する。 For example, the syllable "do", the initial fundamental frequency F 0 "80%", the fundamental frequency F 0 "100%" in the end, when set to duration "5 times", shown in FIG. 25A "do" basic graph of the frequency F 0 Fixed as shown in FIG. 25B, to correct duration of the "do" to 200 ms × 5 = 1000 ms of. このように各音節について、基本周波数F 、継続時間長の修正を行う。 Thus for each syllable, the fundamental frequency F 0, to correct the duration. そして、CPU30は、各音節についての修正後の継続時間長、基本周波数F の時間的変化と等しくなるように音声データAを修正して音声データB(図示せず)を生成し、音声データBに基づいて基づいて音声波形を出力する(ステップS39)。 Then, CPU 30 generates audio data B (not shown) duration after correction for each syllable, and correct the audio data A to be equal to the temporal change of the fundamental frequency F 0, the audio data and it outputs a speech waveform based on the basis of B (step S39). なお、修正前の音声データAは、以後の基準とするため変更せずに保存しておくとよい。 Incidentally, the audio data A before modification, may keep unchanged for the subsequent reference.

【図面の簡単な説明】 【図1】この発明の一実施形態における機能ブロック図である。 BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a functional block diagram of an embodiment of the present invention. 【図2】一実施形態における音声修正装置10のハードウエア構成を示す図である。 2 is a diagram showing a hardware configuration of a speech modification apparatus 10 in one embodiment. 【図3a】一実施形態における音声合成処理を示すフローチャートである。 Figure 3a is a flow chart showing the speech synthesis process in one embodiment. 【図3b】一実施形態における音声合成処理を示すフローチャートである。 Figure 3b is a flow chart showing the speech synthesis process in one embodiment. 【図4】一実施形態における解析用辞書50の単語辞書を示す図である。 4 is a diagram showing a word dictionary of analysis dictionary 50 in one embodiment. 【図5】一実施形態における解析用辞書50の音節の継続時間長の辞書を示す図である。 5 is a diagram showing the duration of the dictionary syllable analysis dictionary 50 in one embodiment. 【図6】「こんにちわ」の音節の継続時間長、アクセント値等を示す図である。 [6] duration of the syllable of "Hello", is a diagram showing the accent values ​​and the like. 【図7】一実施形態における解析用辞書50の子音/母音の有声/無声辞書を示す図である。 7 is a diagram showing a voiced / unvoiced dictionary consonants / vowels analysis dictionary 50 in one embodiment. 【図8】「こんにちわ」の基本周波数F の時間的変化を示す図である。 FIG. 8 is a diagram showing the time change of the fundamental frequency F 0 of "Hello". 【図9】一実施形態における解析用辞書50の音源強度辞書を示す図である。 9 is a diagram showing a sound source intensity dictionary analysis dictionary 50 in one embodiment. 【図10】一実施形態における音声データベースを示す図である。 10 is a diagram showing a speech database in one embodiment. 【図11】一実施形態における韻律設定画面を示す図である。 11 is a diagram illustrating a prosody setting screen in an embodiment. 【図12】修正後の「こ」「ん」の基本周波数F の時間的変化を示す図である。 FIG. 12 is a diagram showing the time change of the fundamental frequency F 0 of the revised "child", "I". 【図13】修正後の「こんにちわ」の基本周波数F の時間的変化を示す図である。 FIG. 13 is a diagram showing the time change of the fundamental frequency F 0 of the "Hello" after correction. 【図14】一実施形態における韻律設定画面を示す図である。 14 is a diagram illustrating a prosody setting screen in an embodiment. 【図15a】一実施形態における韻律設定画面を示す図である。 Figure 15a is a diagram illustrating a prosody setting screen in an embodiment. 【図15b】一実施形態における韻律設定画面を示す図である。 Figure 15b shows a prosody setting screen in an embodiment. 【図16】一実施形態における韻律設定画面を示す図である。 16 is a diagram illustrating a prosody setting screen in an embodiment. 【図17】修正後の「こ」の基本周波数F の時間的変化を示す図である。 FIG. 17 is a diagram showing the time change of the fundamental frequency F 0 of the "child" of the post-modification. 【図18】一実施形態における韻律設定画面を示す図である。 18 is a diagram illustrating a prosody setting screen in an embodiment. 【図19】一実施形態における拡張音節の定義表を示す図である。 19 is a diagram showing a definition table of the extended syllables in one embodiment. 【図20】一実施形態における基本周波数の修正処理を示す図である。 20 is a diagram illustrating a modification process of the fundamental frequency in one embodiment. 【図21】一実施形態における基本周波数の修正処理を示す図である。 21 is a diagram illustrating a modification process of the fundamental frequency in one embodiment. 【図22】一実施形態における音声合成処理を示すフローチャートである。 22 is a flowchart showing a speech synthesis process in one embodiment. 【図23】一実施形態における音声データAを示す図である。 23 is a diagram showing an audio data A in one embodiment. 【図24】一実施形態における韻律設定画面を示す図である。 24 is a diagram illustrating a prosody setting screen in an embodiment. 【図25】一実施形態における基本周波数の修正処理を示す図である。 25 is a diagram illustrating a modification process of the fundamental frequency in one embodiment. 【図26】従来の技術における韻律パラメータ変更画面を示す図である。 26 is a diagram illustrating a prosody parameter change screen in the prior art. 【図27】従来の技術における韻律変形画面を示す図である。 27 is a diagram illustrating a prosody modification screen in the prior art. 【符号の説明】 46・・・・音声合成プログラム48・・・・音声データベース50・・・・解析用辞書100・・・・音節表示部110、120、130、140・・・・スクロールバー112、122、132・・・・スライダー [Description of Reference Numerals] 46 ... speech synthesis program 48 ... audio database 50 .... analysis dictionary 100 .... syllable display unit 110, 120, 130, 140 ... scroll bar 112 , 122, 132 ... slider

Claims (1)

  1. 【特許請求の範囲】 【請求項1】文字列を取得する文字列取得手段と、 文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいた音声データを生成する音声データ生成手段と、 を備えたことを特徴とする音声修正装置。 [Claims 1. A character string acquisition means for acquiring a character string, the prosodic setting section and each syllable in order to set the basic frequency or duration of each syllable to the operator to configure the string prosodic information setting screen includes a syllable display unit that displays presented to the operator and a prosodic information setting means for acquiring a set value of the fundamental frequency or duration of the syllable from the operator, set by the operator audio adjustment device also comprising a sound data generating means, the generating audio data based on the fundamental frequency or duration. 【請求項2】文字列を取得する文字列取得手段と、 文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいた音声データを生成する音声データ生成手段と、 を備えた音声修正装置を実現するためのプログラムを記録した記録媒体。 2. A syllable display unit for displaying a character string acquisition means for acquiring a character string, the prosodic setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the string operator the prosodic information setting screen presented to the operator with a prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency or duration the operator has set a recording medium recording a program for realizing the voice data generating means for generating audio data, the audio correction device having a based on the length. 【請求項3】文字列を取得する文字列取得手段と、 文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいた音声データを生成する音声データ生成手段と、 を備えた音声修正装置を実現するためのプログラム。 3. A syllable display unit for displaying a character string acquisition means for acquiring a character string, the prosodic setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the string operator the prosodic information setting screen presented to the operator with a prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency or duration operator has set program for realizing the voice modification device and a voice data generating means for generating a speech data based on the length. 【請求項4】音声データを取得する音声データ取得手段と、 音声データを構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいて音声データを修正する音声データ修正手段と、 を備えたことを特徴とする音声修正装置。 4. A syllable display unit for displaying the audio data acquisition means for acquiring speech data, the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable to the operator to configure the audio data the prosodic information setting screen presented to the operator with a prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency or duration the operator has set audio adjustment device also comprising a voice data correction means for correcting the audio data, the based on the length. 【請求項5】音声データを取得する音声データ取得手段と、 音声データを構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいて音声データを修正する音声データ修正手段と、 を備えた音声修正装置を実現するためのプログラムを記録した記録媒体。 5. The syllable display unit for displaying the audio data acquisition means for acquiring speech data, the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable to the operator to configure the audio data the prosodic information setting screen presented to the operator with a prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency or duration the operator has set recording medium for recording a program for realizing the voice correction device, comprising: a speech data correction means for correcting the audio data, the based on the length. 【請求項6】音声データを取得する音声データ取得手段と、 音声データを構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、操作者から当該音節の基本周波数または継続時間長の設定値を取得する韻律情報設定手段と、 操作者が設定した基本周波数または継続時間長に基づいて音声データを修正する音声データ修正手段と、 を備えた音声修正装置を実現するためのプログラム。 6. syllable display unit for displaying the audio data acquisition means for acquiring speech data, the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable to the operator to configure the audio data the prosodic information setting screen presented to the operator with a prosodic information setting means for acquiring fundamental frequency or duration of the set value of the syllable from the operator, the fundamental frequency or duration the operator has set program for realizing the voice correction device, comprising: a speech data correction means for correcting the audio data, the based on the length. 【請求項7】請求項1ないし請求項3のいずれかの音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記音声修正装置は、さらに、波形モデル情報および韻律モデル情報を記憶する波形・韻律モデル情報記憶手段を備え、 前記音声データ生成手段は、操作者が設定した基本周波数または継続時間長に基づいて、前記波形・韻律モデル情報記憶手段から取得した前記波形モデル情報を修正して修正波形情報を生成し、当該修正波形情報に基づいて音声データを生成することを特徴とするもの。 Either audio correction device according to claim 7 claims 1 to 3, in the recording medium or a program recording a program, the audio correction device further includes a waveform-storing waveform model information and prosodic model data comprising a prosodic model information storage unit, the audio data generating means, based on the fundamental frequency or duration operator has set, modify and correct the waveform model information acquired from the waveform-prosodic model information storage unit It generates waveform information, which is characterized in that generating the voice data based on the modified waveform information. 【請求項8】請求項1ないし請求項7のいずれかの音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記韻律設定部は、スクロールバーであることを特徴とするもの。 One of the sound correcting apparatus 8. claims 1 to 7, in the recording medium or a program recorded program, the prosody setting unit, which is characterized in that a scroll bar. 【請求項9】請求項8の音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記韻律設定部は、基本周波数を操作者に設定させるための第一のスクロールバーと、継続時間長を操作者に設定させるための第二のスクロールバーとを備え、 前記第一のスクロールバーは、前記音節表示部の少なくとも左右いずれか一方に設けられた縦方向のスクロールバーであり、 前記第二のスクロールバーは、前記音節表示部の少なくとも上下いずれか一方に設けられた横方向のスクロールバーであることを特徴とするもの。 9. The audio correction device of claim 8, in the recording medium or a program recorded program, the prosody setting unit includes: a first scroll bar for setting the fundamental frequency to the operator, the duration and a second scroll bar for setting an operator, said first scroll bar, a vertical scrollbar provided on at least the left or right of the syllable display unit, the second scroll bar, which is characterized in that a horizontal scroll bar provided on at least either above or below the syllable display unit. 【請求項10】請求項9の音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記第一のスクロールバーは、前記音節表示部の左右両側のそれぞれに、各音節の初期の基本周波数を設定するための左側スクロールバーと各音節の終期の基本周波数を設定するための右側スクロールバーとを備えていることを特徴とするもの。 10. A speech correction device according to claim 9, in the recording medium or a program recorded program, the first scroll bar, the respective left and right sides of the syllable display unit, the initial fundamental frequency of each syllable which is characterized in that it comprises a right scroll bar for setting the left scroll bar and the fundamental frequency of the end of each syllable for setting. 【請求項11】請求項10の音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 第一の音節の終期の基本周波数を設定するための前記右側スクロールバーと、当該第一の音節と隣接する第二の音節の初期の基本周波数を設定するための前記左側スクロールバーは、当該第一の音節の終期の基本周波数と第二の音節の初期の基本周波数を設定するための1のスクロールバーを構成することを特徴とするもの。 11. The audio correction device of claim 10, in the recording medium or a program recording the program, adjacent the the right scroll bar for setting the fundamental frequency of the end of the first syllable, with the first syllable second the left scroll bar syllables for setting the initial fundamental frequency of, the first syllable of the fundamental frequency and the second syllable initial fundamental frequency 1 of the scroll bar for setting the telophase of those characterized by configuring the. 【請求項12】請求項8の音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記韻律設定部は、縦軸を基本周波数、横軸を継続時間長とする斜め方向のスクロールバーであって、その傾きを変更することが可能なスクロールバーであることを特徴とするもの。 12. The audio correction device of claim 8, in the recording medium or a program recorded program, the prosody setting unit, a vertical axis at the fundamental frequency, the diagonal direction scroll bar to a horizontal axis and duration Te, which is characterized in that a scroll bar that can change its inclination. 【請求項13】請求項1ないし請求項12のいずれかの音声修正装置、プログラムを記録した記録媒体またはプログラムにおいて、 前記韻律情報設定画面は、さらに、各音節の音源強度を操作者に設定させるための音源強度設定部を備えていることを特徴とするもの。 One of the sound correcting apparatus 13. Claims 1 to 12, in the recording medium or a program recorded program, the prosodic information setting screen, further, to set the sound source intensity of each syllable to the operator which is characterized in that it comprises a sound source intensity setting unit for. 【請求項14】音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および音節を表示する音節表示部を備えた韻律情報設定画面であって、 前記韻律設定部は、基本周波数を操作者に設定させるための第一のスクロールバーと、継続時間長を操作者に設定させるための第二のスクロールバーとを備え、前記第一のスクロールバーは、前記音節表示部の両側に設けられた縦方向のスクロールバーであり、前記第二のスクロールバーは、前記音節表示部の下方に設けられた横方向のスクロールバーであることを特徴とする韻律情報設定画面。 14. A prosodic information setting screen includes a syllable display unit for displaying the prosody setting unit and syllable for setting the fundamental frequency or duration of the syllable to the operator, the prosody setting unit, the basic It comprises a first scroll bar for setting the frequency to the operator, and a second scroll bar for setting the duration to the operator, the first scroll bar, both sides of the syllable display unit in a vertical scroll bar provided, said second scroll bars, prosodic information setting screen, wherein the syllables display unit of the horizontal scroll bar provided below. 【請求項15】文字列を取得し、 文字列を構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、 操作者から当該音節の基本周波数または継続時間長の設定値を取得し、 当該設定値に基づいて音声データを生成する、 ことを特徴とする音声修正方法。 15. Get the character string, the prosodic information having a syllable display unit for displaying the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the string operator the setting screen presented to the operator, acquires the fundamental frequency or duration of the set value of the syllable from the operator, the voice correction method is characterized in that, to generate the audio data based on the set value . 【請求項16】音声データを取得し、 音声データを構成する各音節の基本周波数または継続時間長を操作者に設定させるための韻律設定部および各音節を表示する音節表示部を備えた韻律情報設定画面を操作者に対して提示し、 操作者から当該音節の基本周波数または継続時間長の設定値を取得する、 当該設定値に基づいて音声データを修正する、 ことを特徴とする音声修正方法。 16. Get the audio data, prosodic information having a syllable display unit for displaying the prosody setting section and each syllable in order to set the basic frequency or duration of each syllable constituting the audio data to the operator presents a setting screen for the operator to obtain the fundamental frequency or duration of the set value of the syllable from the operator, the voice correction method is characterized in that, to modify the audio data based on the set value .
JP2001221325A 2001-07-23 2001-07-23 Device and method for revising speech Pending JP2003036100A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001221325A JP2003036100A (en) 2001-07-23 2001-07-23 Device and method for revising speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001221325A JP2003036100A (en) 2001-07-23 2001-07-23 Device and method for revising speech

Publications (1)

Publication Number Publication Date
JP2003036100A true true JP2003036100A (en) 2003-02-07

Family

ID=19055007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001221325A Pending JP2003036100A (en) 2001-07-23 2001-07-23 Device and method for revising speech

Country Status (1)

Country Link
JP (1) JP2003036100A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825483B2 (en) 2006-10-19 2014-09-02 Sony Computer Entertainment Europe Limited Apparatus and method for transforming audio characteristics of an audio recording
JP2014174278A (en) * 2013-03-07 2014-09-22 Toshiba Corp Voice synthesis dictionary editing device, voice synthesis dictionary editing method, and voice synthesis dictionary editing program
JP2015102773A (en) * 2013-11-27 2015-06-04 日産自動車株式会社 Voice generation device, and device and method for changing voices

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8825483B2 (en) 2006-10-19 2014-09-02 Sony Computer Entertainment Europe Limited Apparatus and method for transforming audio characteristics of an audio recording
JP2014174278A (en) * 2013-03-07 2014-09-22 Toshiba Corp Voice synthesis dictionary editing device, voice synthesis dictionary editing method, and voice synthesis dictionary editing program
JP2015102773A (en) * 2013-11-27 2015-06-04 日産自動車株式会社 Voice generation device, and device and method for changing voices

Similar Documents

Publication Publication Date Title
Flanagan et al. Synthetic voices for computers
Harrington Phonetic analysis of speech corpora
US6810378B2 (en) Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
US6470316B1 (en) Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing
US20110202344A1 (en) Method and apparatus for providing speech output for speech-enabled applications
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
US20020026315A1 (en) Expressivity of voice synthesis
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
US20040186720A1 (en) Singing voice synthesizing apparatus with selective use of templates for attack and non-attack notes
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use
US6975987B1 (en) Device and method for synthesizing speech
US8103505B1 (en) Method and apparatus for speech synthesis using paralinguistic variation
Hirst The analysis by synthesis of speech melody: from data to models
JP2003186379A (en) Program for voice visualization processing, program for voice visualization figure display and for voice and motion image reproduction processing, program for training result display, voice-speech training apparatus and computer system
US20090259475A1 (en) Voice quality change portion locating apparatus
US20050171778A1 (en) Voice synthesizer, voice synthesizing method, and voice synthesizing system
US20080319755A1 (en) Text-to-speech apparatus
US20100250254A1 (en) Speech synthesizing device, computer program product, and method
Burkhardt Emofilt: the simulation of emotional speech by prosody-transformation
US20080243508A1 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
US20110000360A1 (en) Apparatus and Method for Creating Singing Synthesizing Database, and Pitch Curve Generation Apparatus and Method
US20100312562A1 (en) Hidden markov model based text to speech systems employing rope-jumping algorithm