JP3785892B2 - Speech synthesizer and recording medium - Google Patents
Speech synthesizer and recording medium Download PDFInfo
- Publication number
- JP3785892B2 JP3785892B2 JP2000071150A JP2000071150A JP3785892B2 JP 3785892 B2 JP3785892 B2 JP 3785892B2 JP 2000071150 A JP2000071150 A JP 2000071150A JP 2000071150 A JP2000071150 A JP 2000071150A JP 3785892 B2 JP3785892 B2 JP 3785892B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- phoneme
- prosody
- target
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、入力テキストなどから音声メッセージを作成し、それを編集して発話させるための音声合成装置及び記録媒体に関する。
【0002】
【背景技術】
従来の音声メッセージ作成・編集装置は、音声合成の方式に規則合成や波形重畳を用いている。これら方式によって作成された合成音声では、韻律は自然であるが、声質(人間の声らしいさの程度)が電子的で不自然であるという問題点がある。また、これらの方式では合成音声の声質を変更することが困難であり、声による差異化ないし個性化を行うことができない。
【0003】
上記問題点を解決するため、音声素片接続型の音声合成方法(特開平10−49193号)が提案されている。この方法では、発話させたい言語の標準テキストを話者(モデル)に読み上げてもらって録音しておき、この自然発話の録音音声波形を音声素片(以下、音素という)単位に分割し、当該言語における音素を網羅した音素部品データベースを作っておく。そして、合成音声を出力するときには、読み上げたいテキストに合わせて音素部品を再結合する。この音素部品データベースを用いることにより、読み上げた人の肉声に近い合成音声を得ることができる。
【0004】
音素接続により合成された音声は、声質が肉声に近くて自然であり、しかも、合成時に使用する音素部品データベースを変更することで、複数の話者で合成音声を作成することができる。しかし、この音素接続型の音声合成方法では、合成音声の韻律(音声の長短やアクセントの位置)が不自然になるという問題点がある。
【0005】
また、音声の韻律を変更する手段として、音声ピッチ変換方法(特許第2612867号)、音声の発声速度変換方法(特許第2612868号)がある。これらの方法によれば、教師となる波形に修正したい波形を合わせ込む、あるいは、修正したい波形を手動で操作することで任意の韻律に変更することができる。
【0006】
しかしながら、前者の方法は、生徒の録音音声と教師の録音音声とを比較し、生徒の録音音声の波形を教師の録音音声の波形に合わせて変換するというものであり、与えられた任意のテキストを音声合成して電子的に読み上げるといった用途では、教師となる録音音声もしくは波形をすべての場合について用意しておくことは不可能である。また、音声認識等と組み合わせて、リアルタイムで合成音声を作成する場合には、手動で波形を操作して韻律の修正を行うということも不可能である。
【0007】
音声合成に関する現状は、上記のようなところにあり、音声メッセージ作成・編集装置やテキスト読み上げ装置などに用いられる音声合成において、声質の自然さと韻律の自然さとを両立させるのはきわめて困難であった。
【0008】
また、複数話者の音素部品データベースを用いる場合には、話者が切り替わった時には、その話者の個性ないし特徴が影響して合成音声が滑らかで無くなったり、不自然になったりすることがあった。
【0009】
【発明の開示】
本発明は上記の従来技術に鑑みてなされたものであり、その目的とするところは、自然な声質と滑らかさ、特に自然な声質と韻律で音声メッセージを作成することができる音声合成装置を提供することにある。
【0010】
本発明にかかる音声合成装置は、複数の話者に関する音声波形データを保存した音声合成用データベースと、前記音声合成用データベースに保存されたいずれかの話者の音素波形データから音声基本周波数パターンを表現するパラメータのうち話者に依存する特徴を抽出する手段と、前記音声合成用データベースから対象文字に対応する音素波形を選択して接続する音素結合手段と、前記特徴を用いて対象文字に対応する音声を合成する際の目標となる韻律を生成する目標韻律生成手段と、前記目標韻律生成手段で生成された目標韻律に基づいて前記音素結合手段で生成された合成音声を補正する手段とを備えたものである。
【0011】
音素を接続することによって生成された合成音声は声質が自然であるという特徴がある。さらに、この音声合成装置によれば、話者に応じた特徴を抽出し、その特徴を用いて合成音声を補正しているので、複数の話者を切り替えて合成音声を作成する際、異なる話者の音素音声合成用データベースに切り替わっても、選択された話者の音素波形の特徴に応じて合成音声が補正されるので、自然な声質と滑らかさで合成音声を発生させることができる。
【0012】
本発明の実施形態における前記音声合成用データベースは、前記音声波形データとその内容に対応する音素の文字データ、音素毎のセグメント、各音素の韻律特徴パラメータを保持する。
また、本発明の別な実施形態における前記特徴を抽出する手段は、話者の音素波形データから音声基本周波数パターンを表現する下記の数式
に用いられているパラメータA pi 、A aj 及びF min を前記特徴として抽出するものである。
【0013】
本発明のさらに別な実施形態における前記目標韻律生成手段は、前記パラメータに基づいて音声基本周波数パターンを生成する過程と、音素継続時間長を算出する過程とからなる。
また、本発明のさらに別な実施形態における前記目標韻律生成手段は、各話者の音声データベース中の各音素持続時間長の平均値を用いて、合成対象となる音素の持続時間長を算出するものである。
本発明のさらに別な実施形態における前記合成音声を補正する手段は、前記音素結合手段により生成された合成音声の韻律と前記目標韻律生成手段により生成された目標韻律とを比較し、両韻律が一致しない場合に合成音声の補正を行うことを特徴とする。
また、前記合成音声を補正する手段は、選択された話者に応じた前記特徴を用いて、合成音声の韻律を補正するものである。
【0014】
本発明のさらに別な実施形態は、前記音素結合手段により作成された合成音声または前記合成音声を補正する手段によって補正された合成音声を音声波形として保存する保存部を備えている。
また、本発明のさらに別な実施形態は、表示装置により表示された前記目標韻律または実際に選択された音素の韻律を操作して韻律を任意に変更させる韻律操作部を備えている。
【0015】
上記のような各実施形態も、選択された話者に応じて自然な声質と韻律で音声を合成させることが可能になる。
【0016】
また、本発明にかかる記録媒体は、音声合成用データベースに保存された話者の音素波形データから音声基本周波数パターンを表現するパラメータのうち話者に依存する特徴を抽出する手段、音声合成用データベースから対象文字に対応する音素波形を選択して接続する音素結合手段、前記特徴を用いて対象文字に対応する音声を合成する際の目標となる韻律を生成する目標韻律生成手段、および前記目標韻律生成手段で生成された目標韻律に基づいて前記音素結合手段で生成された合成音声を補正する手段としてコンピュータを機能させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体である。このような記録媒体としては、通常はCDやDVD、MOなどの形態で実現される。
【0017】
このような記録媒体に納められているプログラムを実行することにより、話者に応じた特徴を抽出し、その特徴を用いて音素接続による合成音声を補正しているので、異なる話者の音素音声合成用データベースに切り替わっても、自然な声質と滑らかさで合成音声を発生させることができる。
また、この記録媒体でも、前記補正手段が、選択された話者に応じた前記特徴を用いて、合成音声の韻律を補正するものであれば、選択された話者に応じて自然な声質と韻律で音声を合成させることが可能になる。
【0018】
【発明の実施の形態】
図1は本発明の一実施形態による音声合成装置1の構成を示す図である。この音声合成装置1は、音声合成用データベース2A,2B、…、話者データベース選択部3、データベース特徴量計算部4、藤崎モデルパラメータ算出部5、テキスト読み込み部6、音素列変換部7、目標韻律生成部8、音素結合部9、韻律表示部10、韻律補正部11、合成音声出力部12、保存部13から構成されている。また、必要に応じて、韻律操作部14が設けられる。この音声合成装置1は、CD等の記録媒体に納められた、コンピュータ上で動作するプログラムとして、あるいはCDやハードディスク等の記録媒体に該プログラムを格納したコンピュータシステムとして、あるいは専用装置として構成される。図2(a)はコンピュータ上の画面表示(ユーザーインターフェイス)を表している。この表示画面(親ウィンドウ)21内には、入力されたテキストを表示するテキスト表示ウィンドウ22、テキストから変換された音素表記を表示する音素表記表示ウィンドウ23、韻律表示ウィンドウ24、操作パネル25内に設けられた話者選択用のコンボボックス26、発話ボタン27及び波形保存ボタン28などが配置されている。図2(b)は話者選択用のコンボボックス26を開いた様子を表している。以下、図1及び図2(a)(b)により、この音声合成装置1を説明する。
【0019】
音声合成用データベース2A,2B、…は、音声を合成する元になる音声波形、音声波形とその内容に対応する音素の文字データ、音素毎のセグメント、各音素の韻律特徴パラメータを保持したデータベースであって、予めハードディスクなどの記憶媒体に格納されている。音声合成用データベース2A,2B、…は、異なる話者毎にそれぞれ用意されている。
【0020】
話者データベース選択部3は、登録済みの複数の音声合成用データベース2A,2B、…から、音声合成に用いる話者を選択する。すなわち、図2(b)のように話者選択用のコンボボックス26には種々なタイプの話者が登録されており、画面の話者選択用のコンボボックスを開いて話者を選択すると、当該話者の音声合成用データベース2A,2B、…が話者データベース選択部3により選択される。
【0021】
データベース特徴量計算部4は、いずれかの話者の音声合成用データベース2A,2B、…(以下、選択された音声合成用データベースを選択データベース2ということがある。)が選択又は指定されると、該選択データベース2の音声波形について特徴量を算出する。すなわち、選択データベース2から抽出した音声波形中の有声区間について、一定窓幅で自己相関を取ることにより各窓の基本周波数を算出し、各窓ごとの基本周波数について特徴量として平均値(fo)meanと標準偏差(fo)stdを算出する。
【0022】
藤崎モデルパラメータ算出部5は、選択データベース2に格納されている話者の音声周波数特徴量を用い、各話者に応じた藤崎モデルのパラメータを算出する。藤崎モデルとは、日本語の平叙文を読み上げる際の音声基本周波数パターンのモデルであって、次の(1)式で表される。ここで、Api、Aajは係数であって、pはフレーズ成分、aはアクセント成分を表わす。
【0023】
【数1】
【0024】
藤崎モデルパラメータ算出部5は、このモデルの話者に依存するパラメータを上記データベース特徴量計算部4で求めた各話者の音声合成用データベース(選択データベース2)の特徴量を用いて決定する。上記藤崎モデル式(1)で、Api、Aaj、Fminが話者に依存するパラメータである。自然な合成音声を実現するには、選択データベース2の音声の特徴に合わせて、音声合成用データベース2A,2B、…毎に、これらパラメータの値を変更する必要がある。従って、藤崎モデルパラメータ算出部5は、この3つのパラメータApi、Aaj、Fminについて、話者の特徴量にあった値を決定する。
【0025】
すなわち、藤崎モデルパラメータ算出部5は、話者の選択時に選択された音声合成用データベース2の基本周波数平均値(fo)meanと標準偏差(fo)stdを用い、当該データベース2にあった藤崎モデルのパラメータを次の(4)〜(6)式より算出する。
Fmin=ln{(fo)mean−(fo)std} …(4)
Api=0.3{−0.42ln〔(fo)mean〕+0.42ln〔(fo)std〕}+1.1 …(5)
Aai=0.7{−0.42ln〔(fo)mean〕+0.42ln〔(fo)std)}+1.1 …(6)
これによって音声合成用データベース2A,2B、…のうち、選択されたデータベースの話者の特徴が藤崎モデルという形でモデル化される。
【0026】
テキスト読み込み部6は、音声を合成して発話させようとする元の文(テキスト)をコンピュータのメモリ上に読み込む。テキストはパーソナルコンピュータのキーボードから入力され、あるいはインターネット等の回線を通じて送られてくるが、これらのテキストはコンピュータのメモリ上に読み込まれる。読み込まれたテキストは、かな漢字混じりテキストでテキスト表示ウィンドウ22に表示される。
【0027】
テキスト読み込み部6から入力されたかな漢字混じりテキストは、音素列変換部7により合成用の音素列に変換され、アクセント付きの音素表記として音素表記表示ウィンドウ23に表示される。そして、操作パネル25の発話ボタン27を押すと、音声合成の処理が実行される。
【0028】
目標韻律生成部8は、藤崎モデルパラメータ算出部5において決定された藤崎モデルのパラメータApi、Aaj、Fminを用い、藤崎モデルを適用することによって音声合成時の目標となる韻律を生成する。目標韻律は音声基本周波数パターンと音素継続時間長とからなり、目標韻律生成部8も音声基本周波数パターンを生成する過程と、各音素の継続時間長を算出する過程とからなる。音声基本周波数パターンを生成する過程では、藤崎モデルパラメータ算出部5で決定された、Api、Aaj、Fminの3つのパラメータの値を実際に藤崎モデルの式(1)に適用し、音声合成時に目標として用いる音声基本周波数パターンを生成する。また、音素継続時間長を算出する過程では、各話者の音声データベース中の各音素継続時間長の平均値を用いて、合成対象となる音素の持続時間長を算出する。
【0029】
音素結合部9は、キーボード等から入力された合成対象となるテキストに対して、目標韻律生成部8で生成した目標韻律(基本周波数パターン、音素継続時間長)をもとに選択データベース2から音素(音素波形)を選択し、それらを結像して合成音声を作成する。こうして作成された合成音声の韻律と目標音声の韻律とは、韻律表示部10により韻律表示ウィンドウ24にグラフィカルに表示される。
【0030】
韻律補正部11は、音素結合部9で生成された合成音声の韻律(音声基本周波数、音素継続時間長)と藤崎モデルに基づいて算出された目標韻律とを比較し、一致しない場合には合成音声波形の各音素を延長したり短縮したりして合成音声波形を目標値に合わせ込むように補正する。
【0031】
合成音声出力部12は、こうして作成された合成音声を出力する。例えば、出力された合成音声は増幅されてスピーカ等で音声に変換されたり、保存部13や適宜記録媒体に保存される。
【0032】
操作パネル25の波形保存ボタン28を押すと、あるいは自動的に、音素結合部9で作成された合成音声や韻律補正部11によって補正された合成音声は音声波形として保存部13に保存される。また、韻律操作部14が設けられている場合には、韻律表示ウィンドウ24に表示された目標韻律または実際に選択された音素の韻律を操作することにより、任意の韻律に変更することができる。
【0033】
従って、この音声合成装置1によれば、複数の話者で合成音声を作成する場合に、選択された話者の特徴量を抽出して藤崎モデルによりモデル化することができる。そして、音声合成用データベースから抽出した音素を結合させて合成音声を作成した後、このモデルの韻律により合成音声の韻律を補正することができる。よって、この音声合成装置1によれば、音声用データベースのそれぞれの声質を保ったまま、韻律の自然な音声メッセージを作成することができる。
【0034】
【発明の効果】
本発明の音声合成装置及び記録媒体によれば、自然な声質で滑らかな合成音声を得ることができる。特に、自然な声質と韻律で発声させることが可能になる。
【図面の簡単な説明】
【図1】本発明の一実施形態による音声合成装置の構成を示す図である。
【図2】(a)は音声合成装置の表示画面を示す図、(b)はその話者選択用のコンボボックスを開いた状態を示す図である。
【符号の説明】
2A,2B、… 音声合成用データベース
3 話者データベース選択部
4 データベース特徴量計算部
5 藤崎モデルパラメータ算出部
8 目標韻律生成部
9 音素結合部
11 韻律補正部
22 テキスト表示ウィンドウ
23 音素表記表示ウィンドウ
24 韻律表示ウィンドウ[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice synthesizer and a recording medium for creating a voice message from input text or the like, and editing the voice message to utter.
[0002]
[Background]
A conventional voice message creating / editing apparatus uses rule synthesis or waveform superposition as a voice synthesis method. Synthetic speech created by these methods has a problem that prosody is natural, but voice quality (degree of human voice) is electronic and unnatural. Also, with these methods, it is difficult to change the voice quality of the synthesized speech, and differentiation or individualization by voice cannot be performed.
[0003]
In order to solve the above problems, a speech unit connection type speech synthesis method (Japanese Patent Laid-Open No. 10-49193) has been proposed. In this method, the standard text of the language you want to speak is read and recorded by the speaker (model), the recorded speech waveform of this natural utterance is divided into speech units (hereinafter called phonemes), and the language Create a phoneme component database that covers all phonemes. When outputting synthesized speech, the phoneme components are recombined in accordance with the text to be read out. By using this phoneme component database, it is possible to obtain synthesized speech that is close to the human voice read out.
[0004]
The voice synthesized by phoneme connection has a natural voice quality close to that of the real voice, and a synthesized voice can be created by a plurality of speakers by changing the phoneme component database used at the time of synthesis. However, this phoneme-connected speech synthesis method has a problem that the prosody of the synthesized speech (speech length or accent position) becomes unnatural.
[0005]
As means for changing the prosody of the voice, there is a voice pitch conversion method (Japanese Patent No. 2612867) and a voice utterance speed conversion method (Japanese Patent No. 2612868). According to these methods, the waveform to be corrected can be combined with the waveform to be a teacher, or can be changed to an arbitrary prosody by manually operating the waveform to be corrected.
[0006]
However, the former method compares the student's recorded voice with the teacher's recorded voice and converts the student's recorded voice waveform to match the teacher's recorded voice waveform. For example, it is impossible to prepare a recorded voice or waveform as a teacher in all cases. In addition, when synthesizing speech is created in real time in combination with speech recognition or the like, it is impossible to manually correct the waveform to correct the prosody.
[0007]
The current situation regarding speech synthesis is as described above, and it has been extremely difficult to achieve both voice quality and prosody nature in speech synthesis used in speech message creation / editing devices and text-to-speech devices. .
[0008]
Also, when using a multi-speaker phoneme component database, the synthesized speech may become smooth or unnatural when the speaker is switched due to the individuality or characteristics of the speaker. It was.
[0009]
DISCLOSURE OF THE INVENTION
The present invention has been made in view of the above prior art, and an object of the present invention is to provide a speech synthesizer capable of creating a voice message with natural voice quality and smoothness, particularly natural voice quality and prosody. There is to do.
[0010]
A speech synthesizer according to the present invention includes a speech synthesis database storing speech waveform data relating to a plurality of speakers, and a speech fundamental frequency pattern from the phoneme waveform data of any speaker stored in the speech synthesis database. Means for extracting speaker-dependent features from among the parameters to be expressed; phoneme combining means for selecting and connecting phoneme waveforms corresponding to the target character from the speech synthesis database; and corresponding to the target character using the feature Target prosody generation means for generating a target prosody for synthesizing the speech to be performed, and means for correcting the synthesized speech generated by the phoneme combination means based on the target prosody generated by the target prosody generation means It is provided.
[0011]
A synthesized speech generated by connecting phonemes is characterized by a natural voice quality. Furthermore, according to this speech synthesizer, features corresponding to the speaker are extracted and the synthesized speech is corrected using the features. Therefore, when a synthesized speech is created by switching a plurality of speakers, different speeches are generated. Even if the database is switched to the phoneme speech synthesis database, the synthesized speech is corrected according to the characteristics of the phoneme waveform of the selected speaker, so that the synthesized speech can be generated with natural voice quality and smoothness.
[0012]
The speech synthesis database according to the embodiment of the present invention holds the speech waveform data and phoneme character data corresponding to the content, segment for each phoneme, and prosodic feature parameters of each phoneme.
Further, the means for extracting the feature in another embodiment of the present invention is the following mathematical expression that expresses the speech fundamental frequency pattern from the phoneme waveform data of the speaker.
The parameters A pi , A aj and F min used in the above are extracted as the features.
[0013]
In still another embodiment of the present invention, the target prosody generation means includes a process of generating a speech fundamental frequency pattern based on the parameters and a process of calculating a phoneme duration.
Further, the target prosody generation means according to still another embodiment of the present invention calculates the duration length of the phonemes to be synthesized using the average value of each phoneme duration length in the speech database of each speaker. Is.
The means for correcting the synthesized speech in yet another embodiment of the present invention compares the synthesized speech prosody generated by the phoneme combining unit with the target prosody generated by the target prosody generating unit, In the case where they do not match, the synthesized speech is corrected.
Further, the means for correcting the synthesized speech corrects the prosody of the synthesized speech using the feature corresponding to the selected speaker.
[0014]
Still another embodiment of the present invention includes a storage unit that stores the synthesized speech created by the phoneme combining unit or the synthesized speech corrected by the unit for correcting the synthesized speech as a speech waveform.
Further, another embodiment of the present invention includes a prosody operating unit that arbitrarily changes the prosody by operating the target prosody displayed by the display device or the prosody of the actually selected phoneme.
[0015]
Each embodiment as described above can also synthesize speech with natural voice quality and prosody according to the selected speaker.
[0016]
Further, the recording medium according to the present invention comprises means for extracting a speaker-dependent feature from parameters expressing a speech fundamental frequency pattern from speaker phoneme waveform data stored in a speech synthesis database, a speech synthesis database Phoneme combination means for selecting and connecting a phoneme waveform corresponding to the target character from the target, target prosody generation means for generating a target prosody for synthesizing speech corresponding to the target character using the features, and the target prosody A computer-readable recording medium in which a program for causing a computer to function as means for correcting synthesized speech generated by the phoneme combination means based on the target prosody generated by the generation means is recorded. Such a recording medium is usually realized in the form of CD, DVD, MO, or the like.
[0017]
By executing the program stored in such a recording medium, the feature corresponding to the speaker is extracted and the synthesized speech by phoneme connection is corrected using that feature. Even when switching to the synthesis database, synthesized speech can be generated with natural voice quality and smoothness.
Also in this recording medium, if the correction means corrects the prosody of the synthesized speech using the feature according to the selected speaker, the natural voice quality according to the selected speaker can be obtained. It is possible to synthesize speech with prosody.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a diagram showing a configuration of a
[0019]
The
[0020]
The speaker
[0021]
The database feature
[0022]
The Fujisaki model
[0023]
[Expression 1]
[0024]
The Fujisaki model
[0025]
That is, the Fujisaki model
Fmin = ln {(fo) mean- (fo) std} (4)
Api = 0.3 {−0.42ln [(fo) mean] + 0.42ln [(fo) std]} + 1.1 (5)
Aai = 0.7 {−0.42ln [(fo) mean] + 0.42ln [(fo) std)} + 1.1 (6)
Thus, the speaker characteristics of the selected database among the
[0026]
The
[0027]
The kana-kanji mixed text input from the
[0028]
The target
[0029]
The
[0030]
The
[0031]
The synthesized
[0032]
When the
[0033]
Therefore, according to the
[0034]
【The invention's effect】
According to the speech synthesizer and the recording medium of the present invention, it is possible to obtain a smooth synthesized speech with a natural voice quality. In particular, it becomes possible to utter with natural voice quality and prosody.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a speech synthesizer according to an embodiment of the present invention.
FIG. 2A is a diagram showing a display screen of the speech synthesizer, and FIG. 2B is a diagram showing a state in which a speaker selection combo box is opened.
[Explanation of symbols]
2A, 2B, ... Database for
Claims (10)
前記音声合成用データベースに保存されたいずれかの話者の音素波形データから音声基本周波数パターンを表現するパラメータのうち話者に依存する特徴を抽出する手段と、
前記音声合成用データベースから対象文字に対応する音素波形を選択して接続する音素結合手段と、
前記特徴を用いて対象文字に対応する音声を合成する際の目標となる韻律を生成する目標韻律生成手段と、
前記目標韻律生成手段で生成された目標韻律に基づいて前記音素結合手段で生成された合成音声を補正する手段と
を備えた音声合成装置。A database for speech synthesis that stores speech waveform data for multiple speakers;
Means for extracting a speaker-dependent feature from parameters representing a speech fundamental frequency pattern from phoneme waveform data of any speaker stored in the speech synthesis database;
Phoneme coupling means for selecting and connecting a phoneme waveform corresponding to a target character from the speech synthesis database;
Target prosody generation means for generating a target prosody for synthesizing speech corresponding to the target character using the features;
A speech synthesizer comprising: means for correcting the synthesized speech generated by the phoneme combination unit based on the target prosody generated by the target prosody generation unit .
に用いられているパラメータA pi 、A aj 及びF min を前記特徴として抽出することを特徴とする、請求項1に記載の音声合成装置。 The means for extracting the feature includes the following mathematical expression that expresses the speech fundamental frequency pattern from the phoneme waveform data of the speaker.
The speech synthesizer according to claim 1, wherein parameters A pi , A aj, and F min used in the above are extracted as the features.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000071150A JP3785892B2 (en) | 2000-03-14 | 2000-03-14 | Speech synthesizer and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000071150A JP3785892B2 (en) | 2000-03-14 | 2000-03-14 | Speech synthesizer and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001265374A JP2001265374A (en) | 2001-09-28 |
JP3785892B2 true JP3785892B2 (en) | 2006-06-14 |
Family
ID=18589774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000071150A Expired - Fee Related JP3785892B2 (en) | 2000-03-14 | 2000-03-14 | Speech synthesizer and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3785892B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4586615B2 (en) * | 2005-04-11 | 2010-11-24 | 沖電気工業株式会社 | Speech synthesis apparatus, speech synthesis method, and computer program |
JP2006337476A (en) * | 2005-05-31 | 2006-12-14 | Canon Inc | Voice synthesis method and system |
JP2007212682A (en) * | 2006-02-08 | 2007-08-23 | Oki Electric Ind Co Ltd | Speech synthesizer and speech synthesizing method |
JP5620776B2 (en) * | 2010-10-06 | 2014-11-05 | 日本放送協会 | Speech speed adjustment device, speech synthesis system, and program |
-
2000
- 2000-03-14 JP JP2000071150A patent/JP3785892B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001265374A (en) | 2001-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4125362B2 (en) | Speech synthesizer | |
US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
JPH10153998A (en) | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method | |
JPH031200A (en) | Regulation type voice synthesizing device | |
JP2010014913A (en) | Device and system for conversion of voice quality and for voice generation | |
JP2006227589A (en) | Device and method for speech synthesis | |
JP2623586B2 (en) | Pitch control method in speech synthesis | |
JP5136128B2 (en) | Speech synthesizer | |
JP2002091472A (en) | Rhythm display device, and reproducing device and similarity judging device for voice language and voice language processor and recording medium | |
JP2003337592A (en) | Method and equipment for synthesizing voice, and program for synthesizing voice | |
JP3728173B2 (en) | Speech synthesis method, apparatus and storage medium | |
JP3785892B2 (en) | Speech synthesizer and recording medium | |
KR100754430B1 (en) | Voice-based automatic lip-synchronization animation apparatus, Voice-based automatic lip-synchronization animation method, and storage medium | |
JP2001242882A (en) | Method and device for voice synthesis | |
JP2009157220A (en) | Voice editing composite system, voice editing composite program, and voice editing composite method | |
JP2006139162A (en) | Language learning system | |
JP2008058379A (en) | Speech synthesis system and filter device | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP3742206B2 (en) | Speech synthesis method and apparatus | |
JP2006349787A (en) | Method and device for synthesizing voices | |
Bonada et al. | Sample-based singing voice synthesizer using spectral models and source-filter decomposition | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JP6191094B2 (en) | Speech segment extractor | |
JPH09179576A (en) | Voice synthesizing method | |
JP3967571B2 (en) | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060313 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |