JP4056647B2

JP4056647B2 - 波形接続型音声合成装置および方法

Info

Publication number: JP4056647B2
Application number: JP35826298A
Authority: JP
Inventors: 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1998-12-16
Filing date: 1998-12-16
Publication date: 2008-03-05
Anticipated expiration: 2018-12-16
Also published as: JP2000181476A

Description

【０００１】
【発明の属する技術分野】
本発明は、波形接続型音声合成装置および方法に関し、特に、音声合成に用いる音源の改良に関する。
【０００２】
【従来の技術】
波形接続型音声合成は、音素群を有する音源にアクセスして音素を選択し、選択した音素を接続することにより合成音声を生成する技術である。
【０００３】
テキストを読み上げる合成音声を生成する場合は、読み上げようとするテキストデータに対応するイントネーションパターンが算出される。そして、音源にアクセスすることにより、イントネーションパターンに適合する音素が選択され、選択された音素を接続することにより合成音声が得られる。従って、音声合成処理においては、適切なイントネーションパターンを得ること、音源から適切な音素を選択すること、そして、適切な音素を提供できる音源を用意すること、が重要な要素となる。
【０００４】
波形接続型音声合成の音源は、人間がテキストを朗読したときの収録音声データを基に作成される。音源作成には、音素バランスを考慮して用意した音素バランス文、例えば、「バランス５０３文」や「ランダム文」が使用される。収録音声から音素が切り出され、音素の集合である音源データベースが作成される。
【０００５】
【発明が解決しようとする課題】
（１）従来用いられる音素バランス文は、専ら、小説や、エッセイ、解説文などである。バランス文は、「音素バランス」が適当になるようにつくられている。このようなバランス文から作った音源を用いる場合、日常会話や小説などのテキストの音声は良好に生成される。
【０００６】
しかしながら、従来の音源を用いてニューステキストから合成音声を生成すると、合成音声が聞き手にとって不自然に感じられる。これは、読み上げようとするテキストと、音源作成に使ったテキストの文章のスタイルが大きく異なるためと考えられる。さらに、ニュースを読むアナウンサは、特殊な訓練を受けており、通常テキストを一般人が読むのとは異なる話し方（言い方）をしていることも不自然さの原因と考えられる。このような問題は、ニューステキストに限られず、他の用途カテゴリのテキストの音声合成にも同様に発生し得る。
【０００７】
（２）また、従来の音源では、文字の読みは重視されるが、文字の種類の区別は考慮されていなかった。例えば、ローマ字や外来語に対しても平仮名と同じ音素が使用される。しかし、人間がローマ字などを読むときと、他の文字を読むときとでは、読み方が異なる。例えば、「シートベルト」と発声するときの「シ」は、英語の「sheet」と異なるのはもちろんのこと、大和言葉である「しいの木」の「し」とも異なる。このようなことが考慮されていないため、従来は、一部の文字を読み上げるときに不自然な音声が生成されてしまう。
【０００９】
本発明は上記課題に鑑みてなされたものであり、その目的は、音源の改良によって自然に聞こえる音声を合成できる音声合成装置および方法を提供することにある。
【００１０】
【課題を解決するための手段】
参考態様によれば、読上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成された音源を用いて音声が合成される。例えば、読上げ目的テキスト（すなわち読上げ対象テキスト）がニュース文である場合には、ニューステキストを人間が読み上げたときの収録音声を基に作成した音源を用いて音声が合成される。用途カテゴリの一致により、読上げ目的テキストを読むのと同様の話し方で話された音声の収録データから作成した音源が使用されるので、自然な合成音声が得られる。
【００１１】
好ましくは、音源は、読上げ目的テキストの用途カテゴリに対応する話者による朗読の収録音声データから作成されたものである。ニュース文の例では、前述したように、ニュースを読むアナウンサは特殊な訓練を受けており、一般人とは異なる話し方をする。本発明によれば、用途カテゴリに対応する話者の朗読音声から作成した音源が使われる。従って、読上げ目的テキストを読むのにさらに近い話し方で話された音声の収録データから作成した音源を使うことができ、より一層自然な合成音声が得られる。
【００１２】
なお、ここではニュース文を取り上げたが、他の用途カテゴリのテキストにも同様に適用できることはもちろんである。
【００１３】
また好ましくは、それぞれ異なる用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成した複数カテゴリの音源が備えられる。そして、読上げ目的テキストが属する用途カテゴリに対応する音源が選択され、その音源を用いて音声が合成される。これにより、複数の用途カテゴリの読上げ目的テキストから音声を合成する場合でも、各テキストに適した音源を使うことで、自然な合成音声が得られる。
【００１４】
（２）本発明では、特定文字の朗読を収録した音声データから作成された特定文字音素をもつ特定文字専用音源が備えられる。読上げ目的テキスト中の特定文字については、特定文字専用音源を用いて音声が合成される。特定文字（特殊文字ということもできる）は、例えば、ローマ字、数字、長母音、外来語（外来語を構成する文字：カタカナ文字）、促音、撥音、または助数詞である。好ましくは、特定文字を積極的に多く含んだ音源作成用テキストが利用される。本発明によれば、特定文字を読むのと同じ話し方で話された音声の収録データから作った専用音源が使用されるので、より自然な合成音声が得られる。
【００１５】
なお、従来は、テキストのすべてが寸断され、各部に読みがふられ、読みに対応した音素が選ばれる。しかし、このような処理が、合成音声の不自然さを引き起こすことがある。例えば、文末の「です」「ます」といった語の話し方は、文中の他の部分における「で」「ま」「す」などの発声の仕方とは異なり、これが不自然さを引き起こす原因になる。
そこで、参考態様では、特定語の朗読を収録した音声データから作成した特定語音データをもつ特定語専用音源が備えられる。読上げ目的テキスト中の特定語については、特定語専用音源を用いて音声が合成される。特定語は、例えば、「です」「ます」などのフレーズ終端語であり、また例えば、代表的単語（単語節）（名詞など）である。対象単語を読むのと同じ話し方で話された音声の収録データから作った専用音源が使用されるので、より自然な合成音声が得られる。また、最小単位の音素選択は行わずに、グループ化して処理できるので、音素選択処理の負荷を軽減できる。
【００１６】
このように、特定語以外の部分で通常の波形処理を行うとともに、特定語部分で専用音源を使用することで、より自然な合成音声が得られ、また、データ処理量の低減が図れる。
【００１７】
さらに、従来は、テキスト全体を細分して一つ一つの最適音素を選択していかなければならず、選択処理量が多く、この選択処理の負担を極力軽減することが望ましい。
（４）別の参考態様では、定型文（適当な長さのフレーズを含む）の朗読を収録した音声データから作成した定型文音データをもつ定型文専用音源が備えられる。読上げ目的テキスト中の定型文については、定型文専用音源を用いて音声が合成される。本態様によっても、上記と同様に、より自然な合成音声が得られ、また、データ処理量の軽減が図れる。特に、定型文が入力されたとき、文全体を音源から引き出してしまうので、効果がより顕著に得られる。
【００１８】
なお、本発明は、音声合成方法の態様で実現されてもよく、また、音声合成装置の態様で実現されてもよく、また音源の態様でも、音源作成方法の態様でも実現されてよい。さらにまた、本発明は、コンピュータに音声合成処理を行わせるプログラムおよび音源を含むソフトウエアを記録したコンュータ読みとり可能な記録媒体の態様で実現されてもよい。
【００１９】
【発明の実施の形態】
「実施形態１」
以下、参考として、第１の実施の形態（以下、実施形態１という）について、図面を参照し説明する。
【００２０】
図１は、ニューステキスト読み上げ用に構成された本発明の音声合成装置１の全体構成を示すブロック図である。音声合成装置１は、大きく分けて言語処理部３と規則合成処理部５を有する。各処理部はソフトウエアによって構成することが好適であるが、適宜、ハードウエアによって構成されてもよい。
【００２１】
言語処理部３には、読上げ目的テキストとして、漢字かな混じりのテキストが入力される。本実施形態では、ニューステキスト（例えばヘッドライン・ニュース）が入力される。言語処理部３は、入力テキストに対して形態素解析処理、係り受け解析処理などを行い、解析結果に基づいて中間コード（規則音声合成入力コード）を生成する。図９は中間コードの例を示している。中間コードは、発音記号に相当するもので、テキストの読み情報と韻律情報（アクセントやポーズ（無音区間）の情報）を含んでいる。図９では、アルファベットが読み情報であり、「 ’」がアクセントの位置であり、数字がポーズ情報（位置と長さ）である。数字が大きいほど、ポーズ継続時間が長い。中間コードは規則合成処理部５に入力される。
【００２２】
図２は、規則合成処理部５の構成を示している。イントネーションパターン算出部１０は、中間コードからイントネーションパターンを算出する。イントネーションパターンは、基本周波数などの情報を含んでおり、音素選択の目標になるパターンである。単位選択処理部１２は、音源にアクセスして、イントネーションパターンに最も類似した音素（接続最小単位）を音源から選択する。単位接続処理部１６は、選択された音素を接続することにより、入力テキストに対応する合成音声を完成する。合成音声は、適宜、スピーカなどの出力手段から出力される。
【００２３】
ここで、本実施形態の特徴として、図２に示すように用途対応型音源１４が設けられている。用途対応型音源１４は、読上げ目的テキストと同一の用途カテゴリのテキストを朗読したときの収録音声データから作成されたものである。従って、本実施形態の場合、音源１４は、ニューステキストの朗読の収録音声から作成されている。収録音声から音素が切り出され、音素の集合である音源が作成される。音源は適当なメモリに格納されており、適宜、単位選択処理部１２によりアクセスされる。
【００２４】
本実施形態では、上記のような用途対応型音源１４が備えられているので、入力テキストの用途カテゴリと、音源作成に使ったテキストの用途カテゴリが一致する。従って、音源作成の際のテキスト朗読の話し方が、入力テキストを実際に人間が朗読したと仮定した場合の話し方と類似する。同じような話し方の音声データから作られた音源を使うので、合成音声が、用途カテゴリに適した印象を聞き手に与えるものとなり、自然に聞こえる合成音声が得られる。
【００２５】
さらに本実施形態では、音源作成の際、読上げ目的テキストの用途カテゴリに対応する話者による朗読の収録音声データが利用される。本実施形態の場合は、アナウンサまたは同等の訓練を受けた人間が音源作成用テキストを朗読する。アナウンサは特殊な訓練を受けており、一般人とは異なる話し方をする。アナウンサの起用により、音源作成の際のテキスト朗読の話し方が、入力テキストのニュースを実際のアナウンサが読んだと仮定した場合の話し方と類似する。従って、より一層自然な合成音声が得られる。
【００２６】
また、音源作成には、従来と同様に音素バランスが適当になるようにつくった文を使用することが好ましい。さらに好適には、従来よりも音源作成テキストの分量を増大し、豊富な音素群をもつ音源を用意する。例えば、従来のテキストのボリュームが、読み上げ時間にして約４０分程度であるのに対して、本実施形態では、読み上げに３時間以上かかるような分量のテキストを使う。これにより、さらに自然に聞こえる良好な合成音声が得られる。
【００２７】
なお、本実施形態では、ニューステキスト読み上げ用の音声合成装置を取り上げて説明したが、本発明がこれに限定されないことはもちろんである。異なる用途カテゴリに対しても、その用途に対応する音源を備えることで、好適な音声合成ができる。他の用途カテゴリは、例えば、車両のナビゲーション音声、会話調音声、電子メール読上げ音声、または、解説口調音声である。
【００２８】
「実施形態２」
次に、参考として、第２の実施形態を説明する。実施形態２は、複数の用途カテゴリの入力テキストに対応することができるように構成されている。
【００２９】
図３は、本実施形態に特徴的な音源、すなわち、複数用途対応型音源２０を示している。この複数用途対応型音源２０は、図２の用途対応型音源１４の代わりに設けられている。
【００３０】
複数用途対応型音源２０は、用途別に複数の音源２２〜３０を有し、すなわち、ニューステキスト音源２２、ナビゲーション音源２４、会話調音源２６、電子メール読上げ音源２８、および解説口調音源３０を有している。さらに、音源２０には、従来同様の標準音源３２が設けられている。
【００３１】
各音源２２〜３０は、実施形態１の用途対応型音源に相当し、読上げ目的テキストと同一の用途カテゴリのテキストを朗読したときの収録音声データから作成されたものである。ニューステキスト音源２２は、人間がニューステキストを朗読したときの収録音声データから作成されている。また、ナビゲーション音源２４は、車両のナビゲーション装置で使われる案内文を人間が朗読したときの収録音声データから作成されている。同様に、会話調音源２６、電子メール読上げ音源２８および解説口調音源３０は、それぞれ、会話文、電子メールおよび解説文の朗読の収録音声データから作成されている。
【００３２】
本実施形態の音声合成処理を説明する。入力テキストは、そのテキストの用途カテゴリの識別情報を伴って、音声合成装置１（図１）に入力される。カテゴリ識別情報は、規則合成処理部５に直接に伝えられ、あるいは、言語処理部３を経て中間コードとともに規則合成処理部５に伝えられる。また、入力テキストにカテゴリ情報が添付されていなくてもよい。この場合は、言語処理において、テキストの構文、意味などが必要に応じて解析され、テキストの用途カテゴリが判定される。そして、判定結果が中間コードとともに規則合成処理部５に入力される。
【００３３】
規則合成処理部５では、イントネーションパターン算出部１０により、中間コードからイントネーションパターンが算出される。単位選択処理部１２は、複数用途対応型音源２０にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【００３４】
この際、単位選択処理部１２は、入力テキストの用途カテゴリ識別情報を参照し、そのカテゴリに対応する音源にアクセスする。すなわち、入力テキストがニュースであればニューステキスト音源２２にアクセスし、入力テキストがナビゲーション案内文（交差点名称など）であればナビゲーション音源２４にアクセスし、入力テキストが解説文（タウン・ガイドなど）であれば、解説口調音源３０にアクセスする。入力テキストが音源２２〜３０のいずれのカテゴリにも属さない場合には、標準音源３２がアクセスされる。このようにして、単位選択処理部１２は、適切な音源から音素を選択する。選択された音素が単位接続処理部１６により接続され、合成音声が得られる。
【００３５】
以上のように、本実施形態によれば、入力テキストに応じて、そのテキストの用途カテゴリに対応する音源が使用される。そして、入力テキストと音源作成用テキストの用途カテゴリとが一致する。従って、テキストのカテゴリの相違に拘わらず、自然で聞き取りやすい合成音声を得ることができる。
【００３６】
「実施形態３」
次に、本発明の好適な第３の実施形態を説明する。実施形態３は、特定文字の専用音源を設ける。本実施形態の例では、特定文字は、ローマ字、数字、外来語構成文字（カタカナ）、長母音、促音、撥音および助数詞（個、本、人、匹、冊など）である。これらの文字は、通常の大和言葉の文字（平仮名など）とは異なった言い方で発声される。従って特定文字は特殊文字ということもできる。
【００３７】
図４は、本実施形態に特徴的な音源、すなわち、特定文字適応型音源４０を示している。この特定文字適応型音源４０は、図２の用途対応型音源１４の代わりに設けられている。
【００３８】
特定文字適応型音源４０は、従来同様の標準音源４２に加え、特定文字専用音源４４〜５６、すなわち、ローマ字専用音源４４、数字専用音源４６、外来語専用音源４８、長母音専用音源５０、促音専用音源５２、撥音専用音源５４および助数詞専用音源５６を有する。
【００３９】
各音源４４〜５６は、それぞれ、該当する特定文字を人間が朗読したときの収録音声データから作成されている。例えば、ローマ字専用音源４４は、ローマ字（Ａ〜Ｚ）の朗読の収録音声データから作成されている。好ましくは、積極的にローマ字を多く含ませた音源作成用テキストが用意される。このテキストの収録音声データから、ローマ字部分の音素が切り出され、音源が作成される。他の音源についても同様である。
【００４０】
本実施形態の音声合成処理を説明する。音声合成装置１（図１）に入力されたテキストには、言語処理部３で言語処理が施される。この際、言語解析により、テキスト中に特定文字があるか否かが判定される。この処理のため、言語処理部３は、検出すべき特定文字を記憶している。特定文字がある場合、その位置および種類が求められる。これらの情報は中間コードに付加される。例えば、図９の中間コードの例では、原稿にローマ字「Ｊ」および「Ｒ」が含まれている。「Ｊ」および「Ｒ」に対応する「ｊｅｅ」および「ａ’ａｒｕ」の部分に、ローマ字を示す識別フラグが付けられる。このようにして、特定文字の位置および種類の情報をもった中間コードが規則合成処理部５に入力される。
【００４１】
規則合成処理部５では、イントネーションパターン算出部１０により、中間コードからイントネーションパターンが算出される。単位選択処理部１２は、特定文字適応型音源４０にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【００４２】
この際、単位選択処理部１２は、中間コードに含まれる特定文字情報を参照する。そして、中間コードの中の特定文字以外の部分については、標準音源４２がアクセスされる。一方、特定文字部分については、該当する専用音源４４〜５６がアクセスされる。例えば、ローマ字部分についてはローマ字専用音源４４がアクセスされ、数字部分については数字専用音源４６がアクセスされる。このようにして、単位選択処理部１２は、適切な音源から音素を選択する。選択された音素が単位接続処理部１６により接続され、合成音声が得られる。
【００４３】
以上のように、本実施形態によれば、入力テキスト中の特定文字については、専用音源を使って合成音声が作成される。例えば、外来語である「シートベルト」と人間が言うときと、大和言葉である「しいの木」と言うときでは、「シ」「し」の発声の仕方が異なる。従来は、このような点が考慮されず、同じ音源が用いられている。一方、本発明によれば、外来語を朗読したときの収録音声データからつくった音源が使用される。従って、音源作成の際のテキスト朗読の話し方が、入力テキスト中の外来語を実際に人間が朗読したと仮定した場合の話し方と類似する。その結果、聞き手に自然な印象を与える好適な合成音声を得ることができる。
【００４４】
「参考的実施形態４」
次に、参考として、第４の実施形態を説明する。実施形態４は、特定語および定型文の専用音源を設ける。
【００４５】
図５は、本実施形態に特徴的な音源、すなわち、特定語・定型文適応型音源６０を示している。この特定語・定型文対応型音源６０は、図２の用途対応型音源１４の代わりに設けられている。
【００４６】
特定語・定型文適応型音源６０は、従来同様の標準音源６２に加え、フレーズ終端語専用音源６４、代表的単語専用音源６６および定型文専用音源６８を有する。音源６４、６６が特定語専用音源に相当する。
【００４７】
フレーズ終端語専用音源６４は、「〜です」「〜ます」などのフレーズ終端語の音データをまるごと持っている。音源作成ではフレーズ終端語を多く含んだテキストが用意される。このテキストの朗読の収録音声からフレーズ終端語が切り出される。
【００４８】
なお、共通のテキストを使って標準音源６２とフレーズ終端語音源６４が作成されてもよい。収録音声のフレーズ終端語以外の部分を使って標準音源６２が作成され、フレーズ終端語部分を使って終端語音源６４が作成される。
【００４９】
また、代表的単語専用音源６６は、代表的な単語の音データ（「単語節」）をまるごと持っている。代表的単語は、例えば、名詞である。固有名詞、人名などを代表的単語に選定することが好適である。また、代表的単語は、形容詞などの他の品詞の言葉でもよい。音源作成では、選定された代表的単語を含んだテキストが用意され、このテキストの朗読の収録音声から必要な単語節が切り出される。ここでも、共通のテキストを使って標準音源６２と代表的単語専用音源６６が作成されてもよいことはもちろんである。
【００５０】
また、定型文専用音源６８は、代表的な定型文の音データ（「文節」「文」など）をまるごと持っている。本発明では、適当な長さの定型フレーズも定型文の概念に含まれる。例えば、ナビゲーション用の定型文は本発明に好適に適用できる。音源作成では、定型文のテキストを朗読したときの収録音声データが使用される。
【００５１】
本実施形態の音声合成処理を説明する。まず、定型文以外のテキストが音声合成装置１（図１）に入力されたとする。入力テキストに対しては言語処理部３で言語処理が施される。この際、言語解析により、テキスト中に特定語があるか否かが判定される。この処理のため、言語処理部３は、検出すべき特定語を記憶している。特定語がある場合、その位置が求められ、中間コードに付加される。例えば、図９の中間コードの例では、原稿に固有名詞「中央線」が含まれる（「中央線」は検出対象語であるとする）。中間コードでは、対応箇所「chuuoo 1 seN」に、固有名詞、中央線であることを示す識別フラグが付けられる。そして、フラグ付きの中間コードが規則合成処理部５に入力される。
【００５２】
規則合成処理部５では、イントネーションパターン算出部１０により、中間コードからイントネーションパターンが算出される。単位選択処理部１２は、特定語・定型文適応型音源６０にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【００５３】
この際、単位選択処理部１２は、中間コードに含まれる特定語情報を参照する。そして、中間コードの中の特定語以外の部分については、標準音源６２がアクセスされる。一方、特定語部分については、該当する専用音源６４、６６がアクセスされる。例えば、中間コードの中の「です」に関しては、フレーズ終端語専用音源６４がアクセスされ、「です」の音データが引き出される。また、代表的単語に関しては、代表的単語専用音源６６がアクセスされ、該当する単語節がまるごと引き出される。このようにして、単位選択処理部１２は、適切な音源から音素、単語節などを選択する。選択された音素が単位接続処理部１６により接続され、合成音声が得られる。
【００５４】
次に、定型文を含むテキストが入力される場合について説明する。入力テキスは、定型文であることとその内容を示す識別情報を伴って音声合成装置１（図１）に入力される。定型文識別情報は、規則合成処理部５に直接に伝えられ、あるいは、言語処理部３を経て中間コードとともに規則合成処理部５に伝えられる。また、入力テキストに定型文識別情報が添付されていなくてもよい。この場合は、言語解析処理において、テキストが定型文であるか否かが判定され、判定結果が中間コードとともに規則合成処理部５に入力される。
【００５５】
規則合成処理部５では定型文識別情報が参照され、定型文専用音源６８がアクセスされる。そして、識別情報に該当する定型文の音データがまるごと読み出される。定型文の中に空欄（穴埋め箇所）がある場合には、空欄部分の中間コードに対応する音声を作るため、標準音源６２がアクセスされる。空欄部分のテキストが代表的単語（「中央線」など）を含む場合には、代表的単語専用音源６６がアクセスされる。定型文の音データと、適宜選択された音素などが接続され、合成音声が生成される。
【００５６】
なお、テキストの一部が定型文の場合にも上記と同様の処理が行われる。定型文以外のテキスト部分に関しては、前述の処理が施されればよい。
【００５７】
また、特定語および定型文の処理に関しては、イントネーションパターン算出処理が適宜簡略化され、または省略されてもよい。イントネーションパターンは類似音素選択の目標であるが、特定語および定型文に関しては類似判断を簡略化または省略できるからである。
【００５８】
以上のように、本実施形態によれば、入力テキスト中の特定語および定型文については、専用音源を使って合成音声が作成される。例えば、実際に人間が話す場合、フレーズ終端語（「です」「ます」）の話し方は、文中の他の部分の話し方とは異なる。従来はこの点が考慮されず、同じ音源が用いられている。一方、本発明によれば、フレーズ終端語を朗読したときの収録音声データからつくった音源が使用される。従って、対象単語を読むのと同じ話し方の自然な合成音声を得ることができる。代表的単語などや定型文についても同様で、従来の処理よりも実際の人間の話し方に近い自然な合成音声が得られる。
【００５９】
また、本実施形態によれば、特定語および定型文に関しては、膨大な量の類似判断演算によって一つ一つの音素を選択するといった従来の音素単位の選択処理を大幅に簡略化できる。
【００６０】
このように、特定語および定型文以外の部分で通常の波形処理を行うとともに、特定語部分および定型文に対して専用音源を使用することで、より自然な合成音声が得られ、また、データ処理量の低減が図れる。
【００６１】
「参考的実施形態５」
次に、参考として、第５の実施形態を説明する。実施形態５では、品詞別の専用音源を設ける。本実施形態の構成では、特定品詞の朗読を収録した音声データから作成した特定品詞音素をもつ特定品詞専用音源が備えられ、読上げ目的テキスト中の特定品詞については、特定品詞専用音源を用いて音声が合成される。
【００６２】
図６は、本実施形態に特徴的な品詞別音源７０を示している。この品詞別音源７０は、図２の用途対応型音源１４の代わりに設けられている。
【００６３】
品詞別音源７０は、従来同様の標準音源７２に加え、特定品詞専用音源としての名詞専用音源７４および形容詞専用音源７６を有する。名詞専用音源７４は、人間が名詞を読んだときの収録音声から音素を切り出すことにより作成される。同様に、形容詞専用音源７６は、人間が形容詞を読んだときの収録音声から音素を切り出すことにより作成される。音源作成には、音素バランスを考慮して名詞および形容詞を適当に含んだテキストを使用すればよい。
【００６４】
本実施形態の音声合成処理を説明する。音声合成装置１（図１）に入力されたテキストには、言語処理部３で言語処理が施される。言語解析では、周知のように、テキストを構成する単語の品詞認定が行われる。この品詞認定結果の情報が中間コードに付加される。例えば、図９の中間コードの例では、原稿中の「山梨県」が名詞に認定される。そこで、「yamanashi' 2 ken」が名詞であることを示す品詞フラグが中間コードに付けられる。このようにして品詞情報をもった中間コードが規則合成処理部５に入力される。
【００６５】
規則合成処理部５では、イントネーションパターン算出部１０により、中間コードからイントネーションパターンが算出される。単位選択処理部１２は、品詞別音源７０にアクセスして、イントネーションパターンに最も類似した音素を選択する。
【００６６】
この際、単位選択処理部１２は、中間コードに含まれる品詞情報を参照する。そして、名詞および形容詞以外の部分については、標準音源７２がアクセスされる。一方、名詞部分については名詞専用音源７４がアクセスされ、形容詞部分については形容詞専用音源７６がアクセスされる。このようにして、単位選択処理部１２は、適切な音源から音素を選択する。選択された音素が単位接続処理部１６により接続され、合成音声が得られる。
【００６７】
なお、本実施形態では、特定品詞専用音源として、名詞専用音源７４および形容詞専用音源７６が設けられているが、その他の品詞の専用音源が設けられてもよいことはもちろんである。また、すべての品詞に関して専用音源が設けられてもよい。
【００６８】
以上のように、本実施形態によれば、一部または全部の品詞に関し、品詞別の専用音源を用いて音声が合成される。実際に人間が言葉を話すとき、品詞によって話し方が異なる。例えば、名詞を話すのと、その他の品詞の単語を話すのとでは、話し方が異なる。本実施形態によれば、名詞を話したときの音声データから切り出した音素が、名詞の音声合成に使用される。このように、音源作成の際の話し方が、入力テキストを実際に人間が朗読したと仮定した場合の話し方と類似するので、聞き手に自然な印象を与える好適な合成音声を得ることができる。
【００６９】
「実施形態の組合せ」
上記の実施形態１〜５の構成の一部または全部が適宜組み合わされることも好適である。図７は、実施形態１〜４の組合せの例である。総合音源８０は、図２の用途対応型音源１４の代わりに設けられている。総合音源８０は、ニューステキスト音源８２およびナビゲーション音源８４を有しており、各音源８２，８４は、標準音源８２ａ，８４ａに加え、ローマ字専用音源８２ｂ，８４ｂ、数字専用音源８２ｃ，８４ｃ、フレーズ終端語専用音源８２ｄ，８４ｄ、および定型文専用音源８２ｅ，８４ｅを有している。このような総合音源の適用で、より一層良好な合成音声を得ることができる。
【００７０】
「音声合成装置のハードウエア構成」
図８は、本発明を音声合成装置の態様で実現するのに適したコンピュータ装置の構成の一例である。ＣＰＵ１００、ＲＯＭ１０２、ＲＡＭ１０４、通信回路１０６、記憶装置１０８（ハードディスクなど）、媒体装着部１１０（記録媒体１１２（ＣＤ−ＲＯＭなど）を装着）、入力部１１４、スピーカ１１６およびディスプレイ１１８が備えられている。
【００７１】
本発明の方法で音声合成処理を行うためのソフトウエアは、音声合成プログラムおよび音源データベースを含んでおり、この音声合成ソフトウエアは記憶装置１０８に格納されている。音声合成ソフトウエアを書き込んだ記録媒体１１２が媒体装着部１１０に装着されてもよい。また、音声合成ソフトウエアは、ＲＯＭ１０２に書き込まれていてもよい。音声合成ソフトウエアは、ＣＰＵ１００によって読み出され、実行される。そして、合成された音声は、スピーカ１１６から出力される。
【００７２】
また、音声合成の対象である漢字かな混じりの入力テキストは、例えば、通信回路を介して外部から入力される。入力テキストは、入力部１１４から入力されてもよく、記憶装置１０８から読み出されても、記録媒体１１２から読み出されてもよい。
【００７３】
本発明は、例えば、車両と情報センタを通信で結ぶ車両用情報提供システムに好適に適用される。車両にはコンピュータが搭載され、情報センタから「ニュース」「交通情報」「天気予報」などがテキストデータのかたちで入手される。これらのテキストデータが合成音声に変換される。また、情報センタ側のコンピュータ装置で音声合成処理を行って、合成音声を車両に送り、車両のスピーカから合成音声を出力してもよい。その他、文字放送の読み上げ処理など、各種の用途に本発明を適用可能である。
【００７４】
また、本発明を実現する場合、言語処理（部）および規則合成処理（部）を含んだ態様が採用されてもよく、また、規則合成処理（部）のみを含む態様（言語処理（部）を含まない態様）が採用されてもよく、どちらの構成も本発明の範囲に含まれる。
【００７５】
また、本発明は、「音源」、「音源作成方法」または「音源記録媒体」といった態様で実現することもできる。例えば、
「読み上げ目的テキストを読み上げる合成音声を生成する波形接続型音声合成処理に用いられ、収録した音声データに基づいて作成される音源であって、読み上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから作成されたことを特徴とする音源。」
「読み上げ目的テキストを読み上げる合成音声を生成する波形接続型音声合成処理に用いる音源を、収録した音声データに基づいて作成する音源作成方法において、読み上げ目的テキストと同一の用途カテゴリの音源作成用テキストを朗読したときの収録音声データから音源を作成することを特徴とする音源作成方法。」である。本発明の他の構成についても同様のことが言える。
【００７６】
【発明の効果】
以上に説明したように、参考態様によれば、用途カテゴリの適合により、従来よりも自然に聞こえる合成音声を生成することができ、聞き取り易さ、理解度、了解度の向上を図ることができる。
【００７７】
また、本発明によれば、特定文字の専用音源をもつことにより、従来よりも自然に聞こえる合成音声を生成することができ、聞き取り易さ、理解度、了解度の向上を図ることができ、さらには、データ処理量の削減を図ることができる。
【図面の簡単な説明】
【図１】本発明の実施形態の音声合成装置の全体構成を示すブロック図である。
【図２】図１の規則合成処理部の構成を示すブロック図である。
【図３】実施形態２の音源の構成を示す図である。
【図４】実施形態３の音源の構成を示す図である。
【図５】実施形態４の音源の構成を示す図である。
【図６】実施形態５の音源の構成を示す図である。
【図７】複数の実施形態を組み合わせた総合音源の構成を示す図である。
【図８】本発明の音声合成処理を実行するのに適したコンピュータ装置の一例を示す図である。
【図９】漢字かな混じりテキストおよび中間コードの例を示す図である。
【符号の説明】
１音声合成装置、３言語処理部、５規則合成処理部、１０イントネーションパターン算出部、１２単位選択処理部、１４用途対応型音源、１６単位接続処理部、２０複数用途対応型音源、４０特定文字適応型音源、４４ローマ字専用音源、４６数字専用音源、４８外来語専用音源、５０長母音専用音源、５２促音専用音源、５４撥音専用音源、５６助数詞専用音源、６０特定語・定型文適応型音源、６４フレーズ終端語専用音源、６６代表的単語専用音源、６８定型文専用音源。

Claims

収録した音声データに基づいて作成された音素群を有する音源を備え、音素の接続により読上げ目的テキストの合成音声を生成する波形接続型音声合成装置において、
特定文字を含ませた音源作成用テキストの朗読を収録した音声データから特定文字部分の音素を切り出した特定文字音素の集合である特定文字専用音源を有し、読上げ目的テキスト中の特定文字については、特定文字専用音源を用いて音声を合成し、
これにより上記読上げ目的テキスト中の特定文字を人間が朗読したのと同様の話し方で話された音声データに基づく合成音声を得ることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字はローマ字であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は数字であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は長母音であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は外来語であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は促音であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は撥音であることを特徴とする波形接続型音声合成装置。
請求項１に記載の波形接続型音声合成装置において、前記特定文字は助数詞であることを特徴とする波形接続型音声合成装置。
収録した音声データに基づいて作成された音素群を有する音源を用いて、音素の接続により読上げ目的テキストの合成音声を生成する波形接続型音声合成方法において、
読上げ目的テキスト中の特定文字については、特定文字を含ませた音源作成用テキストの朗読を収録した音声データから特定文字部分の音素を切り出した特定文字音素の集合である特定文字専用音源を用いて音声を合成し、
これにより上記読上げ目的テキスト中の特定文字を人間が朗読したのと同様の話し方で話された音声データに基づく合成音声を得ることを特徴とする波形接続型音声合成方法。
請求項９に記載の波形接続型音声合成方法をコンピュータ装置に実行させるための、音声合成プログラムおよびその実行に用いる音源を含むソフトウエアを記録したコンピュータ読みとり可能な記録媒体。