JP4056647B2 - 波形接続型音声合成装置および方法 - Google Patents
波形接続型音声合成装置および方法 Download PDFInfo
- Publication number
- JP4056647B2 JP4056647B2 JP35826298A JP35826298A JP4056647B2 JP 4056647 B2 JP4056647 B2 JP 4056647B2 JP 35826298 A JP35826298 A JP 35826298A JP 35826298 A JP35826298 A JP 35826298A JP 4056647 B2 JP4056647 B2 JP 4056647B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- speech
- text
- specific
- specific character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、波形接続型音声合成装置および方法に関し、特に、音声合成に用いる音源の改良に関する。
【0002】
【従来の技術】
波形接続型音声合成は、音素群を有する音源にアクセスして音素を選択し、選択した音素を接続することにより合成音声を生成する技術である。
【0003】
テキストを読み上げる合成音声を生成する場合は、読み上げようとするテキストデータに対応するイントネーションパターンが算出される。そして、音源にアクセスすることにより、イントネーションパターンに適合する音素が選択され、選択された音素を接続することにより合成音声が得られる。従って、音声合成処理においては、適切なイントネーションパターンを得ること、音源から適切な音素を選択すること、そして、適切な音素を提供できる音源を用意すること、が重要な要素となる。
【0004】
波形接続型音声合成の音源は、人間がテキストを朗読したときの収録音声データを基に作成される。音源作成には、音素バランスを考慮して用意した音素バランス文、例えば、「バランス503文」や「ランダム文」が使用される。収録音声から音素が切り出され、音素の集合である音源データベースが作成される。
【0005】
【発明が解決しようとする課題】
(1)従来用いられる音素バランス文は、専ら、小説や、エッセイ、解説文などである。バランス文は、「音素バランス」が適当になるようにつくられている。このようなバランス文から作った音源を用いる場合、日常会話や小説などのテキストの音声は良好に生成される。
【0006】
しかしながら、従来の音源を用いてニューステキストから合成音声を生成すると、合成音声が聞き手にとって不自然に感じられる。これは、読み上げようとするテキストと、音源作成に使ったテキストの文章のスタイルが大きく異なるためと考えられる。さらに、ニュースを読むアナウンサは、特殊な訓練を受けており、通常テキストを一般人が読むのとは異なる話し方(言い方)をしていることも不自然さの原因と考えられる。このような問題は、ニューステキストに限られず、他の用途カテゴリのテキストの音声合成にも同様に発生し得る。
【0007】
(2)また、従来の音源では、文字の読みは重視されるが、文字の種類の区別は考慮されていなかった。例えば、ローマ字や外来語に対しても平仮名と同じ音素が使用される。しかし、人間がローマ字などを読むときと、他の文字を読むときとでは、読み方が異なる。例えば、「シートベルト」と発声するときの「シ」は、英語の「sheet」と異なるのはもちろんのこと、大和言葉である「しいの木」の「し」とも異なる。このようなことが考慮されていないため、従来は、一部の文字を読み上げるときに不自然な音声が生成されてしまう。
【0009】
本発明は上記課題に鑑みてなされたものであり、その目的は、音源の改良によって自然に聞こえる音声を合成できる音声合成装置および方法を提供することにある。
【0010】
【課題を解決するための手段】
参考態様によれば、読上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成された音源を用いて音声が合成される。例えば、読上げ目的テキスト(すなわち読上げ対象テキスト)がニュース文である場合には、ニューステキストを人間が読み上げたときの収録音声を基に作成した音源を用いて音声が合成される。用途カテゴリの一致により、読上げ目的テキストを読むのと同様の話し方で話された音声の収録データから作成した音源が使用されるので、自然な合成音声が得られる。
【0011】
好ましくは、音源は、読上げ目的テキストの用途カテゴリに対応する話者による朗読の収録音声データから作成されたものである。ニュース文の例では、前述したように、ニュースを読むアナウンサは特殊な訓練を受けており、一般人とは異なる話し方をする。本発明によれば、用途カテゴリに対応する話者の朗読音声から作成した音源が使われる。従って、読上げ目的テキストを読むのにさらに近い話し方で話された音声の収録データから作成した音源を使うことができ、より一層自然な合成音声が得られる。
【0012】
なお、ここではニュース文を取り上げたが、他の用途カテゴリのテキストにも同様に適用できることはもちろんである。
【0013】
また好ましくは、それぞれ異なる用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成した複数カテゴリの音源が備えられる。そして、読上げ目的テキストが属する用途カテゴリに対応する音源が選択され、その音源を用いて音声が合成される。これにより、複数の用途カテゴリの読上げ目的テキストから音声を合成する場合でも、各テキストに適した音源を使うことで、自然な合成音声が得られる。
【0014】
(2)本発明では、特定文字の朗読を収録した音声データから作成された特定文字音素をもつ特定文字専用音源が備えられる。読上げ目的テキスト中の特定文字については、特定文字専用音源を用いて音声が合成される。特定文字(特殊文字ということもできる)は、例えば、ローマ字、数字、長母音、外来語(外来語を構成する文字:カタカナ文字)、促音、撥音、または助数詞である。好ましくは、特定文字を積極的に多く含んだ音源作成用テキストが利用される。本発明によれば、特定文字を読むのと同じ話し方で話された音声の収録データから作った専用音源が使用されるので、より自然な合成音声が得られる。
【0015】
なお、従来は、テキストのすべてが寸断され、各部に読みがふられ、読みに対応した音素が選ばれる。しかし、このような処理が、合成音声の不自然さを引き起こすことがある。例えば、文末の「です」「ます」といった語の話し方は、文中の他の部分における「で」「ま」「す」などの発声の仕方とは異なり、これが不自然さを引き起こす原因になる。
そこで、参考態様では、特定語の朗読を収録した音声データから作成した特定語音データをもつ特定語専用音源が備えられる。読上げ目的テキスト中の特定語については、特定語専用音源を用いて音声が合成される。特定語は、例えば、「です」「ます」などのフレーズ終端語であり、また例えば、代表的単語(単語節)(名詞など)である。対象単語を読むのと同じ話し方で話された音声の収録データから作った専用音源が使用されるので、より自然な合成音声が得られる。また、最小単位の音素選択は行わずに、グループ化して処理できるので、音素選択処理の負荷を軽減できる。
【0016】
このように、特定語以外の部分で通常の波形処理を行うとともに、特定語部分で専用音源を使用することで、より自然な合成音声が得られ、また、データ処理量の低減が図れる。
【0017】
さらに、従来は、テキスト全体を細分して一つ一つの最適音素を選択していかなければならず、選択処理量が多く、この選択処理の負担を極力軽減することが望ましい。
(4)別の参考態様では、定型文(適当な長さのフレーズを含む)の朗読を収録した音声データから作成した定型文音データをもつ定型文専用音源が備えられる。読上げ目的テキスト中の定型文については、定型文専用音源を用いて音声が合成される。本態様によっても、上記と同様に、より自然な合成音声が得られ、また、データ処理量の軽減が図れる。特に、定型文が入力されたとき、文全体を音源から引き出してしまうので、効果がより顕著に得られる。
【0018】
なお、本発明は、音声合成方法の態様で実現されてもよく、また、音声合成装置の態様で実現されてもよく、また音源の態様でも、音源作成方法の態様でも実現されてよい。さらにまた、本発明は、コンピュータに音声合成処理を行わせるプログラムおよび音源を含むソフトウエアを記録したコンュータ読みとり可能な記録媒体の態様で実現されてもよい。
【0019】
【発明の実施の形態】
「実施形態1」
以下、参考として、第1の実施の形態(以下、実施形態1という)について、図面を参照し説明する。
【0020】
図1は、ニューステキスト読み上げ用に構成された本発明の音声合成装置1の全体構成を示すブロック図である。音声合成装置1は、大きく分けて言語処理部3と規則合成処理部5を有する。各処理部はソフトウエアによって構成することが好適であるが、適宜、ハードウエアによって構成されてもよい。
【0021】
言語処理部3には、読上げ目的テキストとして、漢字かな混じりのテキストが入力される。本実施形態では、ニューステキスト(例えばヘッドライン・ニュース)が入力される。言語処理部3は、入力テキストに対して形態素解析処理、係り受け解析処理などを行い、解析結果に基づいて中間コード(規則音声合成入力コード)を生成する。図9は中間コードの例を示している。中間コードは、発音記号に相当するもので、テキストの読み情報と韻律情報(アクセントやポーズ(無音区間)の情報)を含んでいる。図9では、アルファベットが読み情報であり、「 ’」がアクセントの位置であり、数字がポーズ情報(位置と長さ)である。数字が大きいほど、ポーズ継続時間が長い。中間コードは規則合成処理部5に入力される。
【0022】
図2は、規則合成処理部5の構成を示している。イントネーションパターン算出部10は、中間コードからイントネーションパターンを算出する。イントネーションパターンは、基本周波数などの情報を含んでおり、音素選択の目標になるパターンである。単位選択処理部12は、音源にアクセスして、イントネーションパターンに最も類似した音素(接続最小単位)を音源から選択する。単位接続処理部16は、選択された音素を接続することにより、入力テキストに対応する合成音声を完成する。合成音声は、適宜、スピーカなどの出力手段から出力される。
【0023】
ここで、本実施形態の特徴として、図2に示すように用途対応型音源14が設けられている。用途対応型音源14は、読上げ目的テキストと同一の用途カテゴリのテキストを朗読したときの収録音声データから作成されたものである。従って、本実施形態の場合、音源14は、ニューステキストの朗読の収録音声から作成されている。収録音声から音素が切り出され、音素の集合である音源が作成される。音源は適当なメモリに格納されており、適宜、単位選択処理部12によりアクセスされる。
【0024】
本実施形態では、上記のような用途対応型音源14が備えられているので、入力テキストの用途カテゴリと、音源作成に使ったテキストの用途カテゴリが一致する。従って、音源作成の際のテキスト朗読の話し方が、入力テキストを実際に人間が朗読したと仮定した場合の話し方と類似する。同じような話し方の音声データから作られた音源を使うので、合成音声が、用途カテゴリに適した印象を聞き手に与えるものとなり、自然に聞こえる合成音声が得られる。
【0025】
さらに本実施形態では、音源作成の際、読上げ目的テキストの用途カテゴリに対応する話者による朗読の収録音声データが利用される。本実施形態の場合は、アナウンサまたは同等の訓練を受けた人間が音源作成用テキストを朗読する。アナウンサは特殊な訓練を受けており、一般人とは異なる話し方をする。アナウンサの起用により、音源作成の際のテキスト朗読の話し方が、入力テキストのニュースを実際のアナウンサが読んだと仮定した場合の話し方と類似する。従って、より一層自然な合成音声が得られる。
【0026】
また、音源作成には、従来と同様に音素バランスが適当になるようにつくった文を使用することが好ましい。さらに好適には、従来よりも音源作成テキストの分量を増大し、豊富な音素群をもつ音源を用意する。例えば、従来のテキストのボリュームが、読み上げ時間にして約40分程度であるのに対して、本実施形態では、読み上げに3時間以上かかるような分量のテキストを使う。これにより、さらに自然に聞こえる良好な合成音声が得られる。
【0027】
なお、本実施形態では、ニューステキスト読み上げ用の音声合成装置を取り上げて説明したが、本発明がこれに限定されないことはもちろんである。異なる用途カテゴリに対しても、その用途に対応する音源を備えることで、好適な音声合成ができる。他の用途カテゴリは、例えば、車両のナビゲーション音声、会話調音声、電子メール読上げ音声、または、解説口調音声である。
【0028】
「実施形態2」
次に、参考として、第2の実施形態を説明する。実施形態2は、複数の用途カテゴリの入力テキストに対応することができるように構成されている。
【0029】
図3は、本実施形態に特徴的な音源、すなわち、複数用途対応型音源20を示している。この複数用途対応型音源20は、図2の用途対応型音源14の代わりに設けられている。
【0030】
複数用途対応型音源20は、用途別に複数の音源22〜30を有し、すなわち、ニューステキスト音源22、ナビゲーション音源24、会話調音源26、電子メール読上げ音源28、および解説口調音源30を有している。さらに、音源20には、従来同様の標準音源32が設けられている。
【0031】
各音源22〜30は、実施形態1の用途対応型音源に相当し、読上げ目的テキストと同一の用途カテゴリのテキストを朗読したときの収録音声データから作成されたものである。ニューステキスト音源22は、人間がニューステキストを朗読したときの収録音声データから作成されている。また、ナビゲーション音源24は、車両のナビゲーション装置で使われる案内文を人間が朗読したときの収録音声データから作成されている。同様に、会話調音源26、電子メール読上げ音源28および解説口調音源30は、それぞれ、会話文、電子メールおよび解説文の朗読の収録音声データから作成されている。
【0032】
本実施形態の音声合成処理を説明する。入力テキストは、そのテキストの用途カテゴリの識別情報を伴って、音声合成装置1(図1)に入力される。カテゴリ識別情報は、規則合成処理部5に直接に伝えられ、あるいは、言語処理部3を経て中間コードとともに規則合成処理部5に伝えられる。また、入力テキストにカテゴリ情報が添付されていなくてもよい。この場合は、言語処理において、テキストの構文、意味などが必要に応じて解析され、テキストの用途カテゴリが判定される。そして、判定結果が中間コードとともに規則合成処理部5に入力される。
【0033】
規則合成処理部5では、イントネーションパターン算出部10により、中間コードからイントネーションパターンが算出される。単位選択処理部12は、複数用途対応型音源20にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【0034】
この際、単位選択処理部12は、入力テキストの用途カテゴリ識別情報を参照し、そのカテゴリに対応する音源にアクセスする。すなわち、入力テキストがニュースであればニューステキスト音源22にアクセスし、入力テキストがナビゲーション案内文(交差点名称など)であればナビゲーション音源24にアクセスし、入力テキストが解説文(タウン・ガイドなど)であれば、解説口調音源30にアクセスする。入力テキストが音源22〜30のいずれのカテゴリにも属さない場合には、標準音源32がアクセスされる。このようにして、単位選択処理部12は、適切な音源から音素を選択する。選択された音素が単位接続処理部16により接続され、合成音声が得られる。
【0035】
以上のように、本実施形態によれば、入力テキストに応じて、そのテキストの用途カテゴリに対応する音源が使用される。そして、入力テキストと音源作成用テキストの用途カテゴリとが一致する。従って、テキストのカテゴリの相違に拘わらず、自然で聞き取りやすい合成音声を得ることができる。
【0036】
「実施形態3」
次に、本発明の好適な第3の実施形態を説明する。実施形態3は、特定文字の専用音源を設ける。本実施形態の例では、特定文字は、ローマ字、数字、外来語構成文字(カタカナ)、長母音、促音、撥音および助数詞(個、本、人、匹、冊など)である。これらの文字は、通常の大和言葉の文字(平仮名など)とは異なった言い方で発声される。従って特定文字は特殊文字ということもできる。
【0037】
図4は、本実施形態に特徴的な音源、すなわち、特定文字適応型音源40を示している。この特定文字適応型音源40は、図2の用途対応型音源14の代わりに設けられている。
【0038】
特定文字適応型音源40は、従来同様の標準音源42に加え、特定文字専用音源44〜56、すなわち、ローマ字専用音源44、数字専用音源46、外来語専用音源48、長母音専用音源50、促音専用音源52、撥音専用音源54および助数詞専用音源56を有する。
【0039】
各音源44〜56は、それぞれ、該当する特定文字を人間が朗読したときの収録音声データから作成されている。例えば、ローマ字専用音源44は、ローマ字(A〜Z)の朗読の収録音声データから作成されている。好ましくは、積極的にローマ字を多く含ませた音源作成用テキストが用意される。このテキストの収録音声データから、ローマ字部分の音素が切り出され、音源が作成される。他の音源についても同様である。
【0040】
本実施形態の音声合成処理を説明する。音声合成装置1(図1)に入力されたテキストには、言語処理部3で言語処理が施される。この際、言語解析により、テキスト中に特定文字があるか否かが判定される。この処理のため、言語処理部3は、検出すべき特定文字を記憶している。特定文字がある場合、その位置および種類が求められる。これらの情報は中間コードに付加される。例えば、図9の中間コードの例では、原稿にローマ字「J」および「R」が含まれている。「J」および「R」に対応する「jee」および「a’aru」の部分に、ローマ字を示す識別フラグが付けられる。このようにして、特定文字の位置および種類の情報をもった中間コードが規則合成処理部5に入力される。
【0041】
規則合成処理部5では、イントネーションパターン算出部10により、中間コードからイントネーションパターンが算出される。単位選択処理部12は、特定文字適応型音源40にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【0042】
この際、単位選択処理部12は、中間コードに含まれる特定文字情報を参照する。そして、中間コードの中の特定文字以外の部分については、標準音源42がアクセスされる。一方、特定文字部分については、該当する専用音源44〜56がアクセスされる。例えば、ローマ字部分についてはローマ字専用音源44がアクセスされ、数字部分については数字専用音源46がアクセスされる。このようにして、単位選択処理部12は、適切な音源から音素を選択する。選択された音素が単位接続処理部16により接続され、合成音声が得られる。
【0043】
以上のように、本実施形態によれば、入力テキスト中の特定文字については、専用音源を使って合成音声が作成される。例えば、外来語である「シートベルト」と人間が言うときと、大和言葉である「しいの木」と言うときでは、「シ」「し」の発声の仕方が異なる。従来は、このような点が考慮されず、同じ音源が用いられている。一方、本発明によれば、外来語を朗読したときの収録音声データからつくった音源が使用される。従って、音源作成の際のテキスト朗読の話し方が、入力テキスト中の外来語を実際に人間が朗読したと仮定した場合の話し方と類似する。その結果、聞き手に自然な印象を与える好適な合成音声を得ることができる。
【0044】
「参考的実施形態4」
次に、参考として、第4の実施形態を説明する。実施形態4は、特定語および定型文の専用音源を設ける。
【0045】
図5は、本実施形態に特徴的な音源、すなわち、特定語・定型文適応型音源60を示している。この特定語・定型文対応型音源60は、図2の用途対応型音源14の代わりに設けられている。
【0046】
特定語・定型文適応型音源60は、従来同様の標準音源62に加え、フレーズ終端語専用音源64、代表的単語専用音源66および定型文専用音源68を有する。音源64、66が特定語専用音源に相当する。
【0047】
フレーズ終端語専用音源64は、「〜です」「〜ます」などのフレーズ終端語の音データをまるごと持っている。音源作成ではフレーズ終端語を多く含んだテキストが用意される。このテキストの朗読の収録音声からフレーズ終端語が切り出される。
【0048】
なお、共通のテキストを使って標準音源62とフレーズ終端語音源64が作成されてもよい。収録音声のフレーズ終端語以外の部分を使って標準音源62が作成され、フレーズ終端語部分を使って終端語音源64が作成される。
【0049】
また、代表的単語専用音源66は、代表的な単語の音データ(「単語節」)をまるごと持っている。代表的単語は、例えば、名詞である。固有名詞、人名などを代表的単語に選定することが好適である。また、代表的単語は、形容詞などの他の品詞の言葉でもよい。音源作成では、選定された代表的単語を含んだテキストが用意され、このテキストの朗読の収録音声から必要な単語節が切り出される。ここでも、共通のテキストを使って標準音源62と代表的単語専用音源66が作成されてもよいことはもちろんである。
【0050】
また、定型文専用音源68は、代表的な定型文の音データ(「文節」「文」など)をまるごと持っている。本発明では、適当な長さの定型フレーズも定型文の概念に含まれる。例えば、ナビゲーション用の定型文は本発明に好適に適用できる。音源作成では、定型文のテキストを朗読したときの収録音声データが使用される。
【0051】
本実施形態の音声合成処理を説明する。まず、定型文以外のテキストが音声合成装置1(図1)に入力されたとする。入力テキストに対しては言語処理部3で言語処理が施される。この際、言語解析により、テキスト中に特定語があるか否かが判定される。この処理のため、言語処理部3は、検出すべき特定語を記憶している。特定語がある場合、その位置が求められ、中間コードに付加される。例えば、図9の中間コードの例では、原稿に固有名詞「中央線」が含まれる(「中央線」は検出対象語であるとする)。中間コードでは、対応箇所「chuuoo 1 seN」に、固有名詞、中央線であることを示す識別フラグが付けられる。そして、フラグ付きの中間コードが規則合成処理部5に入力される。
【0052】
規則合成処理部5では、イントネーションパターン算出部10により、中間コードからイントネーションパターンが算出される。単位選択処理部12は、特定語・定型文適応型音源60にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【0053】
この際、単位選択処理部12は、中間コードに含まれる特定語情報を参照する。そして、中間コードの中の特定語以外の部分については、標準音源62がアクセスされる。一方、特定語部分については、該当する専用音源64、66がアクセスされる。例えば、中間コードの中の「です」に関しては、フレーズ終端語専用音源64がアクセスされ、「です」の音データが引き出される。また、代表的単語に関しては、代表的単語専用音源66がアクセスされ、該当する単語節がまるごと引き出される。このようにして、単位選択処理部12は、適切な音源から音素、単語節などを選択する。選択された音素が単位接続処理部16により接続され、合成音声が得られる。
【0054】
次に、定型文を含むテキストが入力される場合について説明する。入力テキスは、定型文であることとその内容を示す識別情報を伴って音声合成装置1(図1)に入力される。定型文識別情報は、規則合成処理部5に直接に伝えられ、あるいは、言語処理部3を経て中間コードとともに規則合成処理部5に伝えられる。また、入力テキストに定型文識別情報が添付されていなくてもよい。この場合は、言語解析処理において、テキストが定型文であるか否かが判定され、判定結果が中間コードとともに規則合成処理部5に入力される。
【0055】
規則合成処理部5では定型文識別情報が参照され、定型文専用音源68がアクセスされる。そして、識別情報に該当する定型文の音データがまるごと読み出される。定型文の中に空欄(穴埋め箇所)がある場合には、空欄部分の中間コードに対応する音声を作るため、標準音源62がアクセスされる。空欄部分のテキストが代表的単語(「中央線」など)を含む場合には、代表的単語専用音源66がアクセスされる。定型文の音データと、適宜選択された音素などが接続され、合成音声が生成される。
【0056】
なお、テキストの一部が定型文の場合にも上記と同様の処理が行われる。定型文以外のテキスト部分に関しては、前述の処理が施されればよい。
【0057】
また、特定語および定型文の処理に関しては、イントネーションパターン算出処理が適宜簡略化され、または省略されてもよい。イントネーションパターンは類似音素選択の目標であるが、特定語および定型文に関しては類似判断を簡略化または省略できるからである。
【0058】
以上のように、本実施形態によれば、入力テキスト中の特定語および定型文については、専用音源を使って合成音声が作成される。例えば、実際に人間が話す場合、フレーズ終端語(「です」「ます」)の話し方は、文中の他の部分の話し方とは異なる。従来はこの点が考慮されず、同じ音源が用いられている。一方、本発明によれば、フレーズ終端語を朗読したときの収録音声データからつくった音源が使用される。従って、対象単語を読むのと同じ話し方の自然な合成音声を得ることができる。代表的単語などや定型文についても同様で、従来の処理よりも実際の人間の話し方に近い自然な合成音声が得られる。
【0059】
また、本実施形態によれば、特定語および定型文に関しては、膨大な量の類似判断演算によって一つ一つの音素を選択するといった従来の音素単位の選択処理を大幅に簡略化できる。
【0060】
このように、特定語および定型文以外の部分で通常の波形処理を行うとともに、特定語部分および定型文に対して専用音源を使用することで、より自然な合成音声が得られ、また、データ処理量の低減が図れる。
【0061】
「参考的実施形態5」
次に、参考として、第5の実施形態を説明する。実施形態5では、品詞別の専用音源を設ける。本実施形態の構成では、特定品詞の朗読を収録した音声データから作成した特定品詞音素をもつ特定品詞専用音源が備えられ、読上げ目的テキスト中の特定品詞については、特定品詞専用音源を用いて音声が合成される。
【0062】
図6は、本実施形態に特徴的な品詞別音源70を示している。この品詞別音源70は、図2の用途対応型音源14の代わりに設けられている。
【0063】
品詞別音源70は、従来同様の標準音源72に加え、特定品詞専用音源としての名詞専用音源74および形容詞専用音源76を有する。名詞専用音源74は、人間が名詞を読んだときの収録音声から音素を切り出すことにより作成される。同様に、形容詞専用音源76は、人間が形容詞を読んだときの収録音声から音素を切り出すことにより作成される。音源作成には、音素バランスを考慮して名詞および形容詞を適当に含んだテキストを使用すればよい。
【0064】
本実施形態の音声合成処理を説明する。音声合成装置1(図1)に入力されたテキストには、言語処理部3で言語処理が施される。言語解析では、周知のように、テキストを構成する単語の品詞認定が行われる。この品詞認定結果の情報が中間コードに付加される。例えば、図9の中間コードの例では、原稿中の「山梨県」が名詞に認定される。そこで、「yamanashi' 2 ken」が名詞であることを示す品詞フラグが中間コードに付けられる。このようにして品詞情報をもった中間コードが規則合成処理部5に入力される。
【0065】
規則合成処理部5では、イントネーションパターン算出部10により、中間コードからイントネーションパターンが算出される。単位選択処理部12は、品詞別音源70にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【0066】
この際、単位選択処理部12は、中間コードに含まれる品詞情報を参照する。そして、名詞および形容詞以外の部分については、標準音源72がアクセスされる。一方、名詞部分については名詞専用音源74がアクセスされ、形容詞部分については形容詞専用音源76がアクセスされる。このようにして、単位選択処理部12は、適切な音源から音素を選択する。選択された音素が単位接続処理部16により接続され、合成音声が得られる。
【0067】
なお、本実施形態では、特定品詞専用音源として、名詞専用音源74および形容詞専用音源76が設けられているが、その他の品詞の専用音源が設けられてもよいことはもちろんである。また、すべての品詞に関して専用音源が設けられてもよい。
【0068】
以上のように、本実施形態によれば、一部または全部の品詞に関し、品詞別の専用音源を用いて音声が合成される。実際に人間が言葉を話すとき、品詞によって話し方が異なる。例えば、名詞を話すのと、その他の品詞の単語を話すのとでは、話し方が異なる。本実施形態によれば、名詞を話したときの音声データから切り出した音素が、名詞の音声合成に使用される。このように、音源作成の際の話し方が、入力テキストを実際に人間が朗読したと仮定した場合の話し方と類似するので、聞き手に自然な印象を与える好適な合成音声を得ることができる。
【0069】
「実施形態の組合せ」
上記の実施形態1〜5の構成の一部または全部が適宜組み合わされることも好適である。図7は、実施形態1〜4の組合せの例である。総合音源80は、図2の用途対応型音源14の代わりに設けられている。総合音源80は、ニューステキスト音源82およびナビゲーション音源84を有しており、各音源82,84は、標準音源82a,84aに加え、ローマ字専用音源82b,84b、数字専用音源82c,84c、フレーズ終端語専用音源82d,84d、および定型文専用音源82e,84eを有している。このような総合音源の適用で、より一層良好な合成音声を得ることができる。
【0070】
「音声合成装置のハードウエア構成」
図8は、本発明を音声合成装置の態様で実現するのに適したコンピュータ装置の構成の一例である。CPU100、ROM102、RAM104、通信回路106、記憶装置108(ハードディスクなど)、媒体装着部110(記録媒体112(CD−ROMなど)を装着)、入力部114、スピーカ116およびディスプレイ118が備えられている。
【0071】
本発明の方法で音声合成処理を行うためのソフトウエアは、音声合成プログラムおよび音源データベースを含んでおり、この音声合成ソフトウエアは記憶装置108に格納されている。音声合成ソフトウエアを書き込んだ記録媒体112が媒体装着部110に装着されてもよい。また、音声合成ソフトウエアは、ROM102に書き込まれていてもよい。音声合成ソフトウエアは、CPU100によって読み出され、実行される。そして、合成された音声は、スピーカ116から出力される。
【0072】
また、音声合成の対象である漢字かな混じりの入力テキストは、例えば、通信回路を介して外部から入力される。入力テキストは、入力部114から入力されてもよく、記憶装置108から読み出されても、記録媒体112から読み出されてもよい。
【0073】
本発明は、例えば、車両と情報センタを通信で結ぶ車両用情報提供システムに好適に適用される。車両にはコンピュータが搭載され、情報センタから「ニュース」「交通情報」「天気予報」などがテキストデータのかたちで入手される。これらのテキストデータが合成音声に変換される。また、情報センタ側のコンピュータ装置で音声合成処理を行って、合成音声を車両に送り、車両のスピーカから合成音声を出力してもよい。その他、文字放送の読み上げ処理など、各種の用途に本発明を適用可能である。
【0074】
また、本発明を実現する場合、言語処理(部)および規則合成処理(部)を含んだ態様が採用されてもよく、また、規則合成処理(部)のみを含む態様(言語処理(部)を含まない態様)が採用されてもよく、どちらの構成も本発明の範囲に含まれる。
【0075】
また、本発明は、「音源」、「音源作成方法」または「音源記録媒体」といった態様で実現することもできる。例えば、
「読み上げ目的テキストを読み上げる合成音声を生成する波形接続型音声合成処理に用いられ、収録した音声データに基づいて作成される音源であって、読み上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成されたことを特徴とする音源。」
「読み上げ目的テキストを読み上げる合成音声を生成する波形接続型音声合成処理に用いる音源を、収録した音声データに基づいて作成する音源作成方法において、読み上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから音源を作成することを特徴とする音源作成方法。」である。本発明の他の構成についても同様のことが言える。
【0076】
【発明の効果】
以上に説明したように、参考態様によれば、用途カテゴリの適合により、従来よりも自然に聞こえる合成音声を生成することができ、聞き取り易さ、理解度、了解度の向上を図ることができる。
【0077】
また、本発明によれば、特定文字の専用音源をもつことにより、従来よりも自然に聞こえる合成音声を生成することができ、聞き取り易さ、理解度、了解度の向上を図ることができ、さらには、データ処理量の削減を図ることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の音声合成装置の全体構成を示すブロック図である。
【図2】 図1の規則合成処理部の構成を示すブロック図である。
【図3】 実施形態2の音源の構成を示す図である。
【図4】 実施形態3の音源の構成を示す図である。
【図5】 実施形態4の音源の構成を示す図である。
【図6】 実施形態5の音源の構成を示す図である。
【図7】 複数の実施形態を組み合わせた総合音源の構成を示す図である。
【図8】 本発明の音声合成処理を実行するのに適したコンピュータ装置の一例を示す図である。
【図9】 漢字かな混じりテキストおよび中間コードの例を示す図である。
【符号の説明】
1 音声合成装置、3 言語処理部、5 規則合成処理部、10 イントネーションパターン算出部、12 単位選択処理部、14 用途対応型音源、16 単位接続処理部、20 複数用途対応型音源、40 特定文字適応型音源、44ローマ字専用音源、46 数字専用音源、48 外来語専用音源、50 長母音専用音源、52 促音専用音源、54 撥音専用音源、56 助数詞専用音源、60 特定語・定型文適応型音源、64 フレーズ終端語専用音源、66 代表的単語専用音源、68 定型文専用音源。
Claims (10)
- 収録した音声データに基づいて作成された音素群を有する音源を備え、音素の接続により読上げ目的テキストの合成音声を生成する波形接続型音声合成装置において、
特定文字を含ませた音源作成用テキストの朗読を収録した音声データから特定文字部分の音素を切り出した特定文字音素の集合である特定文字専用音源を有し、読上げ目的テキスト中の特定文字については、特定文字専用音源を用いて音声を合成し、
これにより上記読上げ目的テキスト中の特定文字を人間が朗読したのと同様の話し方で話された音声データに基づく合成音声を得ることを特徴とする波形接続型音声合成装置。 - 請求項1に記載の波形接続型音声合成装置において、前記特定文字はローマ字であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は数字であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は長母音であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は外来語であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は促音であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は撥音であることを特徴とする波形接続型音声合成装置。
- 請求項1に記載の波形接続型音声合成装置において、前記特定文字は助数詞であることを特徴とする波形接続型音声合成装置。
- 収録した音声データに基づいて作成された音素群を有する音源を用いて、音素の接続により読上げ目的テキストの合成音声を生成する波形接続型音声合成方法において、
読上げ目的テキスト中の特定文字については、特定文字を含ませた音源作成用テキストの朗読を収録した音声データから特定文字部分の音素を切り出した特定文字音素の集合である特定文字専用音源を用いて音声を合成し、
これにより上記読上げ目的テキスト中の特定文字を人間が朗読したのと同様の話し方で話された音声データに基づく合成音声を得ることを特徴とする波形接続型音声合成方法。 - 請求項9に記載の波形接続型音声合成方法をコンピュータ装置に実行させるための、音声合成プログラムおよびその実行に用いる音源を含むソフトウエアを記録したコンピュータ読みとり可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35826298A JP4056647B2 (ja) | 1998-12-16 | 1998-12-16 | 波形接続型音声合成装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35826298A JP4056647B2 (ja) | 1998-12-16 | 1998-12-16 | 波形接続型音声合成装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000181476A JP2000181476A (ja) | 2000-06-30 |
JP4056647B2 true JP4056647B2 (ja) | 2008-03-05 |
Family
ID=18458383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP35826298A Expired - Fee Related JP4056647B2 (ja) | 1998-12-16 | 1998-12-16 | 波形接続型音声合成装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4056647B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005070611A (ja) * | 2003-08-27 | 2005-03-17 | Oki Electric Ind Co Ltd | 音声合成方法 |
WO2006134736A1 (ja) * | 2005-06-16 | 2006-12-21 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置、音声合成方法およびプログラム |
-
1998
- 1998-12-16 JP JP35826298A patent/JP4056647B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000181476A (ja) | 2000-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US7124082B2 (en) | Phonetic speech-to-text-to-speech system and method | |
US20070088547A1 (en) | Phonetic speech-to-text-to-speech system and method | |
JPH05165486A (ja) | テキスト音声変換装置 | |
JP3518898B2 (ja) | 音声合成装置 | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 | |
JPH0887297A (ja) | 音声合成システム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3006240B2 (ja) | 音声合成方法および装置 | |
JP3439840B2 (ja) | 音声規則合成装置 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP4736524B2 (ja) | 音声合成装置及び音声合成プログラム | |
JP4260071B2 (ja) | 音声合成方法、音声合成プログラム及び音声合成装置 | |
JP3575919B2 (ja) | テキスト音声変換装置 | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
Evans et al. | An approach to producing new languages for talking applications for use by blind people | |
JPH0323500A (ja) | テキスト音声合成装置 | |
JP2578876B2 (ja) | 文章読み上げ装置 | |
JPH08328578A (ja) | テキスト音声合成装置 | |
JPH01321496A (ja) | 音声合成装置 | |
JP2001166787A (ja) | 音声合成装置および自然言語処理方法 | |
JP2888847B2 (ja) | 文章読み上げ装置とその方法及び言語処理装置とその方法 | |
JP3297221B2 (ja) | 音韻継続時間長制御方式 | |
JPH08160990A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040916 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050118 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |