JP2004118004A

JP2004118004A - 音声合成装置

Info

Publication number: JP2004118004A
Application number: JP2002283253A
Authority: JP
Inventors: Yasukazu Mizushima; 水嶋　靖和
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2002-09-27
Filing date: 2002-09-27
Publication date: 2004-04-15

Abstract

【課題】人間の発声様式により近い合成音声を生成する。
【解決手段】入力されるテキスト文書を形態素解析して形態素列及び形態素の品詞を特定し（ステップＳ１０）、形態素列について品詞が助詞の形態素を検索する（ステップＳ２０〜ステップＳ４０）。予め設定したフィラー辞書の中からフィラーをランダムに選択し（ステップＳ５０）、挿入判断用乱数値を発生させてこれに基づきフィラーの挿入を行うか否かをランダムに判断し（ステップＳ６０、Ｓ７０）、挿入すると判定されたとき、選択したフィラーを、テキスト文書を構成する形態素列の品詞が助詞である形態素の次に挿入する（ステップＳ８０）。そして、前記フィラーに相当する合成音声を生成可能な波形データが予め登録された波形辞書を用いて、このフィラーが挿入されたテキスト文書に応じた合成音声を生成する（ステップＳ９０）。
【選択図】　　　　　図２

Description

【０００１】
【発明の属する技術分野】
この発明は、入力されたテキストに応じた音声を生成して出力する音声合成装置に関する。
【０００２】
【従来の技術】
従来、入力されたテキスト文書に応じた音声を生成する音声合成装置においては、例えば、テキスト文書に対して形態素解析を行って、テキスト文書を形態素に分解し、その解析結果に基づいて分解した形態素列に対して音声合成を行うことにより、テキスト文書に応じた音声を発生するようにしたもの等が提案されている。
【０００３】
例えば、特許文献１には、テキスト文書の単語の読みを同定する際に、単語と単語との間に助詞を挿入することによって、助詞が省かれたテキスト文書に対し助詞を挿入し、これにより、人間の発声様式つまり人間の話し方により近い合成音声を得るようにしたもの、また、特許文献２に記載されたように、合成音声に傾聴させるために、テキスト文書の先頭に、人間が呼吸するときの「すー」という音や、咳払いの時に発せられる「んうん」といった人間が本来もっている生理的な音声傾聴音を挿入し、利用者に対し、合成音声への傾聴を促すようにしたもの、等が提案されている。
【０００４】
【特許文献１】
特開平１０−２２８４７１号公報
【特許文献２】
特開２００２−８２６８７号公報
【特許文献３】
特開平１２−０６６６９６号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、上述のように、テキスト文書に対して助詞を挿入したり、また、テキスト文書の先頭に音声傾聴音を挿入することによって、より人間の発声様式に近い合成音声とすることができ、また、利用者の傾聴を促すことができるものの、音声傾聴音等の挿入箇所がテキスト文書の先頭に限られてしまったり、また、単語間に助詞等を挿入することができるものの、場合によっては、挿入する助詞によっては、テキスト文書の意味が変わってしまったり、また、一般的な人間の話し方とは異なる単語間に助詞等が挿入されたりすることがあるという問題がある。
【０００６】
これに対し、例えば特許文献３に記載されているように、出力音声中に含まれる休止・息継ぎ部分に、呼吸音や「えー」や「まっ」といった、冗長語を挿入するようにしたもの、等が提案されている。このように、呼吸音や冗長語を挿入することにより、より親しみのある話し方に近づけることができる。しかしながら、呼吸音や、冗長語を出力音声中の休止・息継ぎ部分に挿入するようにしているため、休止・息継ぎ部分の長さや場所に応じて、挿入可能な呼吸音や冗長語が限定され、人間の話し方としては不適切な場所に挿入されたり、また、挿入する箇所が限られてしまい、人間の話し方に則した場所に挿入することができない場合があるという問題がある。
【０００７】
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、より人間らしく、且つ違和感を与えることのない合成音声を生成することの可能な音声合成装置を提供することを目的としている。
【０００８】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項１に係る音声合成装置は、入力されるテキスト文書に応じた合成音声を生成する音声合成装置において、前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、前記フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書と、当該音声波形辞書をもとに、前記フィラー挿入手段によりフィラーが挿入された形態素列に応じた音声波形を生成する音声波形生成手段と、を備えることを特徴としている。
【０００９】
また、請求項２に係る音声合成装置は、請求項１に記載の前記フィラー挿入手段は、複数のフィラーが登録されたフィラー辞書を有し、挿入するフィラーを、前記フィラー辞書の中からランダムに選択するようになっていることを特徴としている。
また、請求項３に係る音声合成装置は、複数の前記フィラー辞書と、当該複数のフィラー辞書の何れかを指定するフィラー辞書選択手段と、を備え、請求項２記載の前記フィラー挿入手段は、前記フィラー辞書選択手段で指定されたフィラー辞書の中から前記フィラーを選択するようになっていることを特徴としている。
【００１０】
また、請求項４に係る音声合成装置は、請求項１乃至３の何れかに記載の前記フィラー挿入手段は、前記フィラーを挿入するか否かをランダムに決定し、前記フィラーを挿入すると判断したときにのみ前記フィラーを挿入するようになっていることを特徴としている。
また、請求項５に係る音声合成装置は、請求項１乃至４の何れかに記載の前記フィラー挿入手段は、前記形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるか否かを判定し、特定の後続品詞であるときにのみ、前記フィラーを挿入するようになっていることを特徴としている。
【００１１】
また、請求項６に係る音声合成装置は、請求項１乃至５の何れかに記載の前記特定の品詞は、助詞であることを特徴としている。
また、請求項７に係る音声合成装置は、請求項５又は６に記載の前記特定の後続品詞は、名詞又は形容詞であることを特徴としている。
また、請求項８に係る音声合成装置は、前記フィラー辞書に登録されたフィラー毎に、当該フィラーが、前記特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておき、請求項１乃至７の何れかに記載の前記フィラー挿入手段は、前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性を表す接続コストを検出し、当該接続コストと、前記形態素検索手段で検索された形態素及び前記フィラー辞書から選択されたフィラー間の前記フィラー接続コストとに基づき、前記形態素列において前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と前記選択されたフィラーとが接続される可能性の方が高いときにのみ、前記選択したフィラーを挿入するようになっていることを特徴としている。
【００１２】
また、本発明の請求項９に係る音声合成方法は、入力されるテキスト文書を形態素に分割して前記テキスト文書を構成する形態素列を検出すると共にその品詞を特定し、前記形態素列において予め設定した特定の品詞の形態素の次にフィラーを挿入し、当該フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書に基づいて、前記フィラーを挿入した形態素列に対する合成音声を生成することを特徴としている。
【００１３】
この請求項１乃至９に係る発明では、入力されるテキスト文書を形態素に分割してその品詞を特定し、形態素に分割して得られた前記テキスト文書を構成する形態素列において、予め設定した特定の品詞の形態素の次に、フィラーを挿入する。そして、このようにしてフィラーを挿入した後の形態素列に対し、音声波形辞書を用いて合成音声を生成し、このとき、予めフィラーに相当する合成音声を生成するために必要な音声波形データを登録した音声波形辞書を用いて合成音声を生成することにより、入力されたテキスト文書に対しフィラーが挿入された合成音声を生成することが可能となる。
【００１４】
このとき、形態素間にフィラーを挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することが可能となりまた、形態素を構成する単語の途中にフィラーが挿入されることはない。
また、請求項２に係る発明では、フィラー辞書に登録されたフィラーの中から、ランダムにフィラーを選択することにより、同じフィラーが連続して選択されることが回避される。
【００１５】
また、請求項３に係る発明では、前記フィラー辞書を複数設け、この複数のフィラー辞書のうちのフィラー辞書選択手段で選択したフィラー辞書からフィラーを選択するから、例えば複数の人物について各個人が用いるフィラーの種類等に応じてフィラー辞書を形成し、フィラー辞書にキャラクタ性をもたせることにより、テキスト文書に基づきキャラクタ性のある合成音声を生成することが可能となる。
【００１６】
また、請求項４に係る発明では、フィラーを挿入するか否かをランダムに決定し、フィラーを挿入すると判断したときにのみフィラーを挿入するから、特定の品詞の形態素の次に必ずフィラーが挿入されることにより違和感を与えることが回避される。
また、請求項５乃至７に係る発明では、テキスト文書を構成する形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるときにのみ、フィラーが挿入されるから、例えば一般の会話においてフィラーが用いられる際の、フィラーの前後の形態素の品詞に応じて、特定の品詞及び後続品詞を指定し、例えば特定の品詞として助詞、後続品詞として名詞又は形容詞或いは名詞及び形容詞を共に後続品詞として指定すれば、一般のフィラーの用い方に則した箇所にフィラーを挿入することが可能となる。
【００１７】
また、請求項８に係る発明では、フィラー辞書に登録されたフィラー毎に、一般にこのフィラーが特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておく。そして、テキスト文書を構成する形態素列において形態素検索手段で検索した形態素とこれに続く形態素とが接続される可能性を表す接続コストを、例えば形態素解析を行う際に用いた接続コストに基づいて検出し、この接続コストと、形態素検索手段で検索した形態素及び前記フィラー辞書から選択されたフィラー間のフィラー接続コストとに基づいて、形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と選択されたフィラーとが接続される可能性の方が高いときにのみ、選択したフィラーを挿入する。したがって、選択されたフィラーが、形態素検索手段で検索された形態素の次に挿入されることは一般にあまり行われないと判断されるときにはこのフィラーは挿入されず、一般に挿入されると判断されるときにのみ選択されたフィラーの挿入が行われるから、フィラーが不自然な場所に挿入されることが回避される。
【００１８】
また、本発明の請求項１０に係るフィラー挿入装置は、入力されるテキスト文書に対しフィラーを挿入するようにしたフィラー挿入装置であって、前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備えることを特徴としている。
【００１９】
また、請求項１１に係るフィラー挿入方法は、入力されるテキスト文書を形態素に分割してその品詞を特定し、前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素の次に、フィラーを挿入するようにしたことを特徴としている。
また、請求項１２に係るフィラー挿入プログラムは、入力されるテキスト文書を形態素に分割してその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列において、前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備え、且つ、コンピュータが実行可能に形成されていることを特徴としている。
【００２０】
この請求項１０乃至１２に記載の発明では、入力されたテキスト文書を形態素に分割してその品詞を特定し、この解析により得られた前記テキスト文書を構成する形態素列に対し予め設定した特定の品詞の形態素を検索し、検索した特定の品詞の形態素の次にフィラーを挿入する。このとき、フィラーを、形態素間に挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することが可能となり、また、形態素を構成する単語の途中にフィラーが挿入されることはない。
【００２１】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
まず、本発明の第１の実施の形態を説明する。
図１は、第１の実施の形態における音声合成装置１００の概略構成を示すブロック図である。なお、この音声合成装置は、例えばコンピュータ等で構成されている。
【００２２】
図１中、１は、例えば、キーボード或いは、通信回線や無線によって送信されるテキスト文書を受信するための受信装置等で構成される、テキスト文書を入力するためのテキスト入力部、２は、テキスト入力部１で入力されたテキスト文書に対し、形態素解析用辞書２ａに基づいて公知の手順で形態素解析処理を行う形態素解析部、３は、形態素解析部２における形態素解析結果に基づいて、形態素解析により得られた、テキスト文書に相当する形態素列に対し、予め設定したフィラー辞書３ａに基づいて、「えー」「あのー」といった意味のない言葉であるフィラーに相当する形態素を挿入するフィラー挿入部、４は、フィラー挿入部３によるフィラー挿入処理が行われたフィラー挿入形態素列に対し、波形辞書４ａに基づいて公知の手順で合成音声を作成する合成音声作成部である。
【００２３】
前記形態素解析部２では、テキスト入力部１から入力されるテキスト文書を公知の手順で形態素に分割すると共に、各形態素の品詞解析及び構文解析等を行う。
また、前記フィラー挿入部３では、前記形態素解析部２において、分解されたテキスト文書の形態素と、その形態素情報とに基づいて、品詞が助詞である形態素を検索し、品詞が助詞である形態素が存在する場合にはフィラー辞書３ａに格納されたフィラー情報の中からランダムにフィラーを選択すると共に、このフィラーの挿入を行うか否かをランダムに決定し、挿入すると決定した場合には、選択したフィラーに相当する形態素を、形態素情報はフィラーとして、品詞が助詞である形態素の次に挿入し、このフィラーの形態素を含む形態素列を合成音声作成部４に出力する。
【００２４】
また、前記合成音声作成部４はその波形辞書４ａに、フィラー辞書３ａに格納されたフィラーに相当する合成音声を生成するために必要な波形データを有している。
図２は、図１に示す音声合成装置１００の各部において実行される、音声合成のための一連の処理（以後、音声合成処理という。）の処理手順の一例を示すフローチャートである。
【００２５】
音声合成処理では、まず、入力されたテキスト文書に対し、公知の手順で形態素解析処理を行い、形態素への分割、形態素の品詞解析、構文解析等を行う（ステップＳ１０）。次いで、ステップＳ２０に移行し、形態素解析処理により分割された、テキスト文書を構成する形態素の全てについて処理を行ったかどうかを判定し、処理が終了していない場合には、ステップＳ３０に移行して、処理対象の形態素を特定する。この処理対象の形態素の特定は、テキスト文書を構成する形態素の先頭から順に一つずつ設定する。したがって、起動時には、一番先頭の形態素を処理対象の形態素として特定する。
【００２６】
続いて、ステップＳ４０に移行し、ステップＳ１０での形態素解析処理における形態素解析結果に基づいて、処理対象の形態素の品詞が助詞であるかどうかを判定する。そして、処理対象の形態素の品詞が助詞でない場合には、ステップＳ４０からステップＳ２０に戻り、ステップＳ２０において、全ての形態素について処理を行っていない場合には、ステップＳ３０に移行し、次の形態素を処理対象の形態素とし、この形態素の品詞が助詞でないときにはステップＳ２０に戻る。この処理を繰り返し行って、テキスト文書の先頭から順に品詞が助詞である形態素を検索し、品詞が助詞である形態素が存在した場合には、ステップＳ４０からステップＳ５０に移行する。
【００２７】
このステップＳ５０では、予め所定の記憶領域に格納したフィラー辞書３ａに基づいて、フィラーを選択する。
ここで前記フィラー辞書３ａは、例えば図３に示すように構成されている。つまり、図３に示すように、「えー」、「あのー」、「まーそのー」等といったフィラー種ｆ２と、このフィラーが一般に話し手により用いられる頻度等に応じて任意に設定されたフィラー値ｆ３と、これらフィラーを識別するための識別番号ｆ１とが、対応付けられている。
【００２８】
例えば、図３の場合には、識別番号“１”のフィラー「えー」は、比較的使用される頻度が高いとして、フィラー値ｆ３は“５０”と設定される。また、識別番号“２”のフィラー「あのー」は、「えー」よりも使用頻度が低いとしてフィラー値ｆ３は“３０”と設定される。また、識別番号“３”のフィラー「まーそのー」は、「あのー」よりも使用頻度がさらに低いとしてフィラー値ｆ３は“２０”と設定される。
【００２９】
そして、フィラーの選択はランダムに行い、例えば乱数等を発生させ、発生した乱数に相当する識別番号のフィラーを選択する。例えば、発生させた乱数が“２”である場合には識別番号“２”のフィラー「あのー」が選択される。なお、ここでは、乱数と識別番号とに基づいてフィラーをランダムに選択するようにした場合について説明したが、これに限るものではなく、フィラーをランダムに選択することができればどのような方法を用いてもよい。
【００３０】
このようにしてフィラーが選択されると次にステップＳ６０に移行して、挿入判定用の乱数として、例えば１〜１００の乱数を発生させる。なお、発生させる乱数の範囲は少なくとも前記フィラー辞書３ａにおいてフィラー値ｆ３として登録された値を含むように設定する。
次いで、ステップＳ７０に移行し、ステップＳ６０で発生させた挿入判定用乱数値と、ステップＳ５０で選択したフィラーに対応するフィラー値とを比較し、挿入判定用乱数値がフィラー値よりも小さいとき、フィラーを挿入するものと判定し、ステップＳ８０に移行して、ステップＳ５０で選択したフィラーに相当する形態素を、ステップＳ４０の処理で品詞が助詞であると判定された形態素の次に挿入する。また、その形態素情報はフィラーとする。
【００３１】
そして、ステップＳ２０に戻り、テキスト文書を構成する全ての形態素について処理が終了していない場合には、ステップＳ３０に移行して次の形態素を処理対象の形態素として設定し、形態素の品詞が助詞でない間は、順次形態素を更新する。そして、品詞が助詞の形態素であると判断された場合には、ステップＳ５０に移行し、フィラー辞書３ａからランダムにフィラーを選択する。そして、今度は、例えばフィラーとして「あのー」が選択されたものとすると、ステップＳ６０に移行し挿入判定用乱数を発生させ、ステップＳ７０でこの挿入判定用乱数値と、ステップＳ５０で選択したフィラーこの場合「あのー」に相当するフィラー値とを比較し、このとき、挿入判定用乱数値が「あのー」に相当するフィラー値よりも小さくない場合には、フィラーの挿入は行わないものと判定し、そのままステップＳ２０に戻る。
【００３２】
同様にして繰り返し処理を行い、必要に応じてフィラーを挿入し、テキスト文書を構成する全ての形態素について処理が終了したならば、ステップＳ２０からステップＳ９０に移行し、適宜フィラーの挿入が行われた、テキスト文書の形態素列である、フィラー挿入形態素列に対し、公知の手順で合成音声の作成を行う。つまり、波形辞書４ａに格納されている、フィラー辞書３ａに登録されているフィラーに相当する合成音声を生成するために必要な波形データを含む波形情報に基づいて、フィラー挿入形態素列に対し合成音声の作成を行う。このとき、形態素情報としてフィラーが設定されている形態素の場合には、波形辞書４ａからフィラーに相当する合成音声を生成するために必要な波形データを検索しこれを用いて合成音声を作成する。
【００３３】
次に、上記第１の実施の形態の動作を説明する。
例えば、「私は男です」という合成音声を発生させる場合、テキスト入力部１が例えばキーボードである場合には、キーボードを操作し「私は男です」を入力する。これによって、図４（ａ）に示すように、テキスト文書として「私は男です」が形態素解析部２に入力され、形態素解析部２では、形態素解析用辞書２ａをもとにこれを形態素解析する。これによって、図４（ｂ）に示すように、「私」は名詞／代名詞、「は」は助詞、「男」は名詞、「です」は助動詞として形態素解析結果が得られる。
【００３４】
次にこのようにして形態素解析された結果に対し、先頭の形態素から助詞であるかどうかが判定され、２番目の形態素「は」が助詞であることから、ステップＳ４０からステップＳ５０に移行し、フィラー辞書３ａの中からフィラーがランダムに選択される。例えば、このとき、フィラー「まーそのー」が選択されたものとすると、次に挿入判定用乱数が発生されて（ステップＳ６０）、これとフィラー「まーそのー」に対応するフィラー値（＝２０）とが比較される（ステップＳ７０）。このとき、挿入判定用乱数値が“２０”よりも小さい場合には、挿入判定用乱数値がフィラー値よりも小さいことから、フィラー挿入と判定され、図４（ｃ）に示すように、品詞が助詞である形態素「は」の次に、フィラー「まーそのー」が挿入される（ステップＳ８０）。
【００３５】
そして、以後助詞は存在しないから、ステップＳ２０からステップＳ９０に移行し、このフィラー「まーそのー」が挿入されたフィラー挿入形態素列（図４（ｃ））に対して、合成音声作成処理が行われる。
したがって、波形辞書４ａから、入力されたテキスト文書に相当する形態素及び挿入されたフィラーに相当する合成音声を生成するために必要な波形データが選択されて合成音声が作成されることになる。
【００３６】
よって、合成音声作成処理により作成された合成音声は、図４（ｄ）に示すように、テキスト文書に対し「まーそのー」が挿入された、「私は、まーそのー、男です」という合成音声波形となり、これが合成音声として発生されることになる。
このように、テキスト文書にフィラーを挿入することによって、人間味のないテキスト文書を、より人間味のある合成音声として発生することができ、より人間の発声様式に近い、親しみのある合成音声を得ることができる。
【００３７】
また、例えば、テキスト文書として、複数の文或いは、１文中に複数の助詞が含まれるような文が入力された場合、この場合も上記と同様にして、品詞が助詞である形態素の次にフィラー辞書３ａに登録されているフィラーのうちの何れかのフィラーが挿入されることになる。このとき、ステップＳ６０の処理で、挿入判定用乱数を発生させ、この挿入判定用乱数値が選択したフィラー値よりも小さいときにのみ（ステップＳ７０）、ステップＳ８０に移行して、フィラーの挿入が行われるから、形態素が助詞であっても、この形態素の次に必ずしもフィラーの挿入が行われるわけではなく、フィラーが挿入されたりされなかったりすることになる。
【００３８】
したがって、テキスト文書に複数の助詞が含まれる場合、必ずしも各助詞毎にその助詞の次にフィラーが挿入されるわけではないから、フィラーが頻繁に挿入されることにより利用者に違和感を与えることはない。また、種々のフィラーから何れかのフィラーをランダムに選択して挿入するようにしているから、同じフィラーが連続して出現することを低減することができ、同じフィラーが挿入されることにより利用者に違和感を与えることを回避することができる。
【００３９】
また、フィラーを挿入する際には、形態素の次に挿入し、これに基づいて合成音声を生成するようにしている。したがって、挿入するフィラーの長短に制約されることなく所望の長さのフィラーを挿入することができる。また、一つの形態素の文字列の途中にフィラーが挿入されることはないから、不自然な場所にフィラーが挿入されることを回避することができ、例えば、形態素が長い単語である場合であっても、その途中にフィラーが挿入されることはない。
【００４０】
また、品詞が助詞の形態素の後にフィラーを挿入するようにしているから、この形態素の後であれば、フィラーを挿入することができ、フィラーの挿入場所に制約を受けることなく、フィラーを挿入することができる。
また、一般的にフィラーは、品詞が助詞である形態素の次に挿入されることが多く、上述のように、フィラーを品詞が助詞である形態素の次に挿入するようにしているから、フィラーの挿入位置に関して違和感を与えることはない。
【００４１】
また、ここでは、一般的にフィラーは、品詞が助詞である形態素の次に挿入されることが多いため、品詞が助詞である形態素の次にフィラーを挿入する場合について説明しているが、品詞が助詞以外の形態素の後にフィラーを挿入することも可能である。このように、品詞が助詞以外の形態素、或いは任意に設定した複数種の品詞の形態素の後にフィラーを挿入することによって、所望の品詞の形態素の後にフィラーを挿入することができる。
【００４２】
また、テキスト文書に対し、これといった意味を持たないフィラーを挿入するようにしているから、フィラーを挿入したとしても、テキスト文書の文意を変えることなく、人間らしさを付け加えることができる。
なお、上記第１の実施の形態においては、フィラーを挿入するか否かをランダムに設定するようにした場合について説明したが、これに限るものではなく、例えば、品詞が助詞である全ての形態素の次にフィラーを挿入するようにしてもよく、また、テキスト文書中の助詞の出現数に応じて、任意の場所に挿入するようにしてもよい。
【００４３】
また、フィラーの一例として、図３に示すように、「あのー」、「そのー」、「まーそのー」を挙げた場合について説明しているが、これに限るものではなく、例えば、「あの」、「この」、「その」、「このー」、「こう」、「こうー」、「えー」、「ええー」、「あー」、「おー」、「えーと」、「えーとー」、「ええと」、「まー」、「まぁ」、「まあ」、「まーそのー」、「もー」、「もぅ」、「もう」、「さー」、「さぁ」、「さあ」、「なー」、「なぁ」、「なあ」、「うん」、「ん」、「ね」、「なんか」等といった、テキスト文書中に挿入することによって、テキスト文書の文意の変わることのない、意味のない言葉であれば、適用することができる。
【００４４】
なお、上記第１の実施の形態において、図２のステップＳ１０の処理が形態素解析手段に対応し、ステップＳ２０〜ステップＳ４０の処理が形態素検索手段に対応し、ステップＳ５０〜ステップＳ８０の処理がフィラー挿入手段に対応し、ステップＳ９０の処理が音声波形生成手段に対応し、図１の波形辞書４ａが音声波形辞書に対応している。
【００４５】
次に、本発明の第２の実施の形態を説明する。
この第２の実施の形態は、上記第１の実施の形態において、フィラー挿入部３における処理手順が異なること以外は、上記第１の実施の形態と同様であるので同一部には同一符号を付与し、その詳細な説明は省略する。
図５は、第２の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【００４６】
テキスト文書が入力されると、まず、ステップＳ１０で、上記第１の実施の形態と同様にして形態素解析処理を実行する。
そして、形態素解析処理により得られた形態素列の先頭から順に、品詞が助詞である形態素を検索し（ステップＳ１０〜Ｓ４０）、助詞であると判断されたときに、ステップＳ４０からステップＳ５１に移行する。
【００４７】
そして、処理対象の形態素、つまり、助詞であると判定された形態素の次に続く形態素の品詞が、名詞であるかどうかを判定し、名詞であると判定されたときには、ステップＳ５２に移行して、図６に示す、第２の実施の形態におけるフィラー辞書３ａから、フィラーを選択する。
一方、ステップＳ５１で、助詞であると判定された形態素に続く形態素が名詞でないと判断された場合には、ステップＳ５３に移行し、助詞であると判定された形態素に続く形態素が形容詞であるかどうかを判定する。そして、形容詞でないと判定されるときにはそのままステップＳ２０に戻る。一方、形容詞であると判定されたときにはステップＳ５４に移行し、図６に示す第２の実施の形態におけるフィラー辞書３ａから、フィラーを選択する。
【００４８】
ここで、第２の実施の形態におけるフィラー辞書３ａは、図６に示すように、図３に示す第１の実施の形態におけるフィラー辞書３ａにおいて、さらに、品詞が助詞である形態素の次に名詞が続くか、形容詞が続くかを表す品詞の続きｆ４が追加され、この品詞の続きが、各フィラーｆ２に対応して設定されている。そして、例えば、識別番号ｆ１が“１”〜“５０”であるフィラーとしては、品詞の続きｆ４が助詞及び名詞であるフィラーが設定され、識別番号ｆ１が“５１”〜“１００”であるフィラーとしては、品詞の続きｆ４が助詞及び形容詞であるフィラーが設定されるようになっている。
【００４９】
そして、前記図６の場合には、識別番号“１”の、助詞及び名詞と続く形態素間に、フィラー「えー」が挿入される頻度が高いとして、フィラー値は“５０”と設定される。また、識別番号“２”の助詞及び名詞と続く形態素間に、フィラー「あー」が挿入される頻度は、「えー」よりもやや低いとしてフィラー値は“４０”と設定される。同様に、識別番号“５１”の助詞及び形容詞と続く形態素間に、フィラー「えー」が挿入される頻度は高いとして、フィラー値は“６０”と設定される。また、識別番号“５２”の助詞及び形容詞と続く形態素間に、フィラー「あのー」が挿入される頻度が高いとして、フィラー値は“３０”と設定される。
【００５０】
そして、ステップＳ５２の処理では、前記ステップＳ５１の処理で、品詞の続きが、助詞＋名詞であると判断されているから、図６の品詞の続きｆ４が助詞＋名詞である識別番号“１”〜“５０”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。一方、ステップＳ５４の処理では、前記ステップＳ５３の処理で、品詞の続きが、助詞＋形容詞であると判断されているから、図６の品詞の続きｆ４が助詞＋形容詞である識別番号“５１”〜“１００”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。
【００５１】
次いで、ステップＳ６０に移行し、上記第１の実施の形態と同様に挿入判断用乱数を発生させ、この挿入判断用乱数値と、ステップＳ５２又はＳ５４で特定したフィラーに相当するフィラー値とを比較し（ステップＳ７０）、挿入判断用乱数値がフィラー値よりも小さいとき、ステップＳ８０に移行し、ステップＳ５２又はＳ５４で選択したフィラーを、品詞が助詞であると判断された形態素の次に挿入する。一方、挿入判断用乱数値がフィラー値よりも小さくないときにはそのままステップＳ２０に戻る。
【００５２】
このようにして、テキスト文書を構成する全ての形態素について処理を行い、全ての形態素について処理を行った場合には、ステップＳ２０からステップＳ９０に移行し、テキスト文書に対して、その助詞と名詞との間、又は助詞と形容詞との間に、場合によってフィラーが挿入されたフィラー挿入形態素列に対して、合成音声作成処理を行う。
【００５３】
このように、第２の実施の形態においては、上記第１の実施の形態と同様に、品詞が助詞である形態素の次にフィラーをランダムに挿入するが、助詞である形態素の次に続く形態素が、名詞又は形容詞のときにのみランダムにフィラーを挿入するようにしている。
ここで、一般に、フィラーは、助詞の後に挿入されることが多いが、さらに、助詞の後に名詞或いは形容詞が続くときに挿入されることが多い。
【００５４】
したがって、このように助詞の後に名詞が続くか、形容詞が続くかを判断し、助詞の後に、名詞或いは形容詞が続くときにのみフィラーを挿入するようにすることによって、より人間の発声様式に則した合成音声を発生させることができ、フィラーが挿入されることにより違和感を与えることのない合成音声を得ることができる。
【００５５】
なお、上記第２の実施の形態においては、フィラー辞書３ａにおいて、１つの辞書に、品詞の続きが助詞及び名詞に対応するフィラーと、助詞及び形容詞に対応するフィラーとを設定するようにした場合について説明したが、例えば、助詞及び名詞用の辞書と助詞及び形容詞用の辞書とを形成し、品詞の続き具合に応じて参照する辞書を切り替え、その中からランダムにフィラーを選択するようにしてもよい。
【００５６】
また、上記第２の実施の形態においては、一般に、助詞の後に名詞又は形容詞が続く場合にフィラーが挿入される場合が多いことから、助詞の後に名詞又は形容詞が続くときにのみ挿入するようにした場合について説明したが、これに限るものではなく、任意の品詞の続きの形態素間にフィラーを挿入するようにすることも可能である。
【００５７】
なお、上記第１及び第２の実施の形態においては、一般に用いられるフィラー及びその使用頻度或いはフィラーをどの品詞の形態素の次に挿入する傾向にあるかといった使用状況に基づいてフィラー辞書を形成するようにした場合について説明したが、例えば、特定の人物が用いる傾向にあるフィラー及びそのフィラーの挿入位置に応じてフィラー辞書を生成し、これに基づいて合成音声を生成するようにしてもよい。この場合、上記図３又は図６に示すフィラー辞書においては、フィラー値ｆ３に応じて、フィラーの挿入を行うか否かを判断するようにしているから、前記特定人物のフィラーの使用状況に応じてフィラー値を設定するようにすれば、個人の特徴、つまりキャラクタ性のある合成音声を生成することができる。
【００５８】
なお、上記第２の実施の形態において、図５のステップＳ１０の処理が形態素解析手段に対応し、ステップＳ２０〜ステップＳ４０の処理が形態素検索手段に対応し、ステップＳ５１〜ステップＳ８０の処理がフィラー挿入手段に対応し、ステップＳ９０の処理が音声波形生成手段に対応し、図１の波形辞書４ａが音声波形辞書に対応している。
【００５９】
次に、本発明の第３の実施の形態を説明する。
この第３の実施の形態は、上記第２の実施の形態において、フィラー辞書を複数設け、フィラー辞書の中から何れかを選択するようにしたものである。そして、この第３の実施の形態における形態素解析部２においては、上記第１及び第２の実施の形態と同様に、入力されたテキスト文書を形態素に分割し、これら形態素の品詞を特定すると共に、これら形態素間の接続コストを用いて形態素解析を行う、公知のコスト最小法により形態素解析を行うようになっている。
【００６０】
そして、この第３の実施の形態における、音声合成装置１００は、図７に示すように、図１における音声合成装置１００において、複数のフィラー辞書３１〜３３を有している。そして、フィラー挿入部３は、キャラクタ指定手段７で指定されたキャラクタ指定信号に相当するフィラー辞書を選択し、これに基づいてフィラー挿入処理を行うようになっている。また、波形辞書４ａには、フィラー辞書３１〜３３に登録されているフィラーに相当する合成音声を生成するために必要な波形データが格納されている。
【００６１】
なお、ここでは、３種類のフィラー辞書３１〜３３を設けた場合について説明したが、これに限るものではなく、任意数のフィラー辞書を設けることができる。また、図７において、上記第１の実施の形態と同一部には、同一符号を付与しその詳細な説明は省略する。
図８は、第３の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。なお、上記第２の実施の形態における音声合成処理において、同一処理部には同一符号を付与し、その詳細な説明は省略する。
【００６２】
この第３の実施の形態における音声合成処理においては、図８に示すように、テキスト文書が入力されると、ステップＳ１０で、入力されたテキスト文書を形態素に分割しこれらの品詞を解析すると共に、これら形態素間の接続コストに基づいて形態素解析処理を行う。次いで、ステップＳ１１に移行し、複数のフィラー辞書３１〜３３のうち、キャラクタ指定手段７で指定されたキャラクタ指定番号に相当するフィラー辞書を特定する。
【００６３】
次いで、ステップＳ２０に移行し、ステップＳ１０における形態素解析処理により得られた形態素列の先頭の形態素から順に、この形態素の品詞が助詞であるかどうかを判断し、助詞であると判断されたときに、ステップＳ４０からステップＳ５１に移行する。
そして、処理対象の形態素、つまり、助詞であると判定された形態素の次に続く形態素の品詞が、名詞であるかどうかを判定し、名詞であると判定されたときには、ステップＳ５２ａに移行して、フィラー辞書３１〜３３のうちステップＳ１１の処理で特定したフィラー辞書を参照し、このフィラー辞書の中から、フィラーを選択する。
【００６４】
一方、ステップＳ５１で、助詞であると判定された形態素に続く形態素が名詞でないと判断された場合にはステップＳ５３に移行し、助詞であると判定された形態素に続く形態素が形容詞であるかどうかを判定する。そして、形容詞でないと判定されるときにはそのままステップＳ２０に戻る。一方、形容詞であると判定されたときにはステップＳ５４ａに移行し、フィラー辞書３１〜３３のうちステップＳ１１の処理で特定したフィラー辞書を参照し、このフィラー辞書の中から、フィラーを選択する。
【００６５】
図９は、第３の実施の形態におけるフィラー辞書３１〜３３の構成を示したものであって、図９に示すように、前記図６に示す第２の実施の形態におけるフィラー辞書において、さらに、キャラクタ性フィラー値ｆ５が追加されている。
このキャラクタ性フィラー値ｆ５は、助詞の形態素と名詞又は形容詞の形態素とが連続する場合に、これら形態素間にフィラーが挿入される際の接続コストを表したものである。この接続コストは、前記形態素解析処理において一般に用いられるコスト最小法で用いている形態素間の接続コストと同等であって、例えば、ある人物の日常会話等において、フィラーが用いられる際の、フィラーの前後の形態素の品詞と用いられるフィラーとの組み合わせについて、このフィラーが用いられる頻度に応じて設定される。
【００６６】
ここで、助詞の形態素と名詞又は形容詞の形態素とが連続するときにこれら間にフィラーを挿入するかどうかは、個人によって差がありフィラーと助詞との接続は個人の特性を表すから、この接続コスト、つまりキャラクタ性フィラー値ｆ５は、個人の特性つまりキャラクタ性を有することになる。したがって、各フィラー辞書３１〜３３毎に、異なる人物について同様にしてキャラクタ性フィラー値ｆ５を設定することによって、個人の特性に応じたフィラー辞書３１〜３３を得ることができる。
【００６７】
このように設定されているフィラー辞書３１〜３３のうち、ステップＳ１１の処理で特定されたフィラー辞書の中から、フィラー値を選択するが、このフィラー値の選択は、上記第２の実施の形態と同様に行う。つまり、前記ステップＳ５１の処理で、品詞の続きが、助詞＋名詞であると判断されている場合には、品詞の続ｆ４が助詞＋名詞である識別番号“１”〜“５０”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。一方、ステップＳ５３で、品詞の続きが、助詞＋形容詞であると判断された場合には、品詞の続きが助詞＋形容詞である識別番号“５１”〜“１００”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。
【００６８】
次いで、ステップＳ５５に移行し、ステップＳ５１の処理で、連続する形態素の品詞が、助詞＋名詞であると判断された場合には、この助詞及び名詞である形態素間の、ステップＳ１０における形態素解析処理により特定される接続コストと、前記ステップＳ５２ａで特定したフィラーに相当するキャラクタ性フィラー値ｆ５とを比較する。一方、ステップＳ５３の処理で、連続する形態素の品詞が、助詞＋形容詞であると判断された場合には、この助詞及び形容詞である形態素間の、ステップＳ１０における形態素解析処理により特定される接続コストと、前記ステップＳ５４ａで特定したフィラーに相当するキャラクタ性フィラー値ｆ５とを比較する。
【００６９】
そして、ステップＳ５２ａ又はＳ５４ａで特定したフィラーのフィラー値ｆ５が、形態素間の接続コストよりも小さくない場合には、助詞の後に特定したフィラーが挿入される傾向にはないとして、ステップＳ２０に戻る。一方、ステップＳ５２ａ又はＳ５４ａで特定したフィラーのフィラー値ｆ５が、形態素間の接続コストよりも小さい場合には、助詞の後に特定したフィラーが挿入される可能性が高いとして、ステップＳ６０に移行し、上記第２の実施の形態と同様に挿入判断用乱数を発生させ、この挿入判断用乱数値と、ステップＳ５２ａ又はＳ５４ａで特定したフィラーに相当するフィラー値ｆ３とを比較し（ステップＳ７０）、挿入判断用乱数値がフィラー値ｆ３よりも小さいときにステップＳ８０に移行し、ステップＳ５２ａ又はＳ５４ａで選択したフィラーを、品詞が助詞であると判断された形態素の次に挿入する。一方、挿入判断用乱数値がフィラー値よりも小さくないときにはそのままステップＳ２０に戻る。
【００７０】
そして、このようにして、テキスト文書を構成する全ての形態素について処理を行ったならば、ステップＳ２０からステップＳ９０に移行し、テキスト文書に対して、その助詞と名詞との間、又は助詞と形容詞との間に、適宜フィラーが挿入されたフィラー挿入形態素列について、波形辞書４ａを用いて合成音声作成処理を行う。
【００７１】
このようにして生成された合成音声は、前記キャラクタ性フィラー値ｆ５が、人物の特性を表す値であるから、生成された合成音声は、指定された人物のフィラーの用い方の特性に応じて設定され、人物の特性に応じた箇所に且つ特性に応じたフィラーが挿入されることになる。つまり、同じテキスト文書に対し、異なるフィラー辞書を用いて、合成音声を発生させた場合、これら合成音声は、それぞれ、フィラー辞書の特性に応じた異なる合成音声となる。
【００７２】
したがって、音声合成に用いるフィラー辞書を任意に選択することによって、発声様式の特性の異なる合成音声、つまりキャラクタ性のある合成音声を生成することができる。よって、例えば、テキスト文書の作成者や作成者の気分、或いは、テキスト文書の文意に応じてフィラー辞書を選択することによって、状況に応じたキャラクタ性を有する合成音声を発生させることができる。
【００７３】
よって、例えば、複数の人物の発声様式の特性（癖）に応じたフィラー辞書を予め設定しておき、合成音声を発生させる際に、好みの人物の特性に応じたフィラー辞書を指定することにより、所望の人物の発声様式の特性に応じた合成音声を発生させることができる。
また、品詞が助詞である形態素とこれに続く名詞又は形容詞である形態素との間の、形態素解析処理で得られた接続コストよりも、ステップＳ５２ａ又は５４ａで選択したフィラーのとステップＳ４０で検出した品詞が助詞である形態素との間のキャラクタ性フィラー値ｆ５の方が小さいときにのみフィラーを挿入するようにし、つまり、比較的フィラーが挿入される傾向にあると判断されるときにのみフィラーを挿入するようにしているから、人間の発生様式により則した位置に、これに適したフィラーを挿入することができる。
【００７４】
なお、上記第３の実施の形態においては、フィラーを挿入する位置として、助詞と名詞との間、及び助詞と形容詞との間に限定した場合について説明したが、これに限るものではなく、任意の品詞の次、或いは任意の品詞と任意の品詞との間に挿入するようにしてもよい。
また、上記第３の実施の形態においては、各フィラー辞書３１〜３３は同一種のフィラーを登録した場合について説明したが、人物によって挿入するフィラー或いはフィラーの挿入場所が異なることから、各人物毎にフィラーを挿入する傾向にある品詞、又は連続する品詞と、その場合に用いられるフィラー種とを登録するようにしてもよい。このようにすることによって、より、その人物の発声様式に則してフィラーを挿入することができ、キャラクタ性をより強調することができる。
【００７５】
また、上記第３の実施の形態においては、波形辞書４ａに基づいて合成音声を生成することにより、声質は同一で、話し方の癖等の発声様式が異なる合成音声を生成するようにした場合について説明したが、例えば、波形辞書も複数設け、発声様式だけでなく、声質も変化させるようにしてもよい。つまり、キャラクタ指定手段７からのキャラクタ指定信号に基づいてフィラー辞書を選択すると共に波形辞書も選択するようにし、あるキャラクタの発声様式及び声質で合成音声を生成するようにしてもよい。また、フィラー辞書及び波形辞書を独立に選択できるようにし、第１の人物の発声様式であり且つ第２の人物の声質の合成音声を生成するようにしてもよい。
【００７６】
また、上記第３の実施の形態においては、フィラー辞書において、連続する形態素が、助詞と名詞又は助詞と形容詞である場合に、これら間にフィラーが挿入される際の接続コストをキャラクタ性フィラー値ｆ５として設定するようにした場合について説明したが、連続する形態素が助詞と名詞又は助詞と形容詞である場合の形態素の組み合わせつまり、複数の助詞と複数の名詞又は複数の形容詞との組み合わせ毎に、これら形態素間にフィラーが挿入される際の接続コストをフィラー種毎に検出し、これをキャラクタ性フィラー値ｆ５として設定するようにしてもよい。
【００７７】
また、上記第３の実施の形態においては、フィラー辞書からフィラーを選択した後、接続コストとキャラクタ性フィラー値ｆ５とを比較するようにした場合について説明したが、これに限らず、まず、接続コストよりも小さいキャラクタ性フィラー値を有するフィラーを選択し、その中から、挿入候補のフィラーを選択するようにしてもよい。
【００７８】
また、上記第３の実施の形態においては、形態素解析において用いた接続コストをもとに、フィラー挿入の判断を行うようにした場合について説明したが、これに限るものではなく、助詞と名詞、及び助詞と形容詞の接続について、助詞及び名詞或いは助詞及び形容詞の組み合わせとなる形態素の種類毎にその接続コストを表すデータベースを設けておき、助詞と名詞又は助詞と形容詞とが特定されたときに、この特定された助詞と名詞又は助詞と形容詞の形態素に該当する接続コストをデータベースから検索し、これとキャラクタ性フィラー値とを比較するようにしてもよい。このようにすることにより、接続コストを用いずに形態素解析を行う場合であっても適用することができる。
【００７９】
ここで、上記第３の実施の形態において、図８のステップＳ１０の処理が形態素解析手段に対応し、ステップＳ２０からステップＳ４０の処理が形態素検索手段に対応し、ステップＳ５１からステップＳ８０の処理がフィラー挿入手段に対応し、ステップＳ９０の処理が合成音声作成処理に対応し、図７の波形辞書４ａが音声波形辞書に対応し、図７のキャラクタ指定手段７及び図８のステップＳ１１の処理がフィラー辞書選択手段に対応し、図９のキャラクタ性接続コストｆ５がフィラー接続コストに対応している。
【００８０】
なお、上記第３の実施の形態と同様に、上記第１及び第２の実施の形態においても、キャラクタ性フィラー値ｆ５に相当する、一般に用いられる助詞及び名詞、又は助詞及び形容詞である形態素と、これら間に挿入するフィラーとの組み合わせについて、接続コスト相当のフィラー値を設定しておき、選択したフィラーのこの接続コスト相当のフィラー値と、前記助詞及び名詞又は助詞及び形容詞との接続コストとを比較し、接続コスト相当のフィラー値の方が小さいときにこのフィラーを挿入候補のフィラーとして取り扱うようにしてもよい。このようにすることによって、より人間らしい発声様式の合成音声を生成することができる。
【００８１】
また、上記各実施の形態においては、音声合成装置１００単体の場合について説明したが、この音声合成装置１００は、例えば、カーナビゲーションシステムや、携帯電話、音声により所定の処理を行う装置等、合成音声を発声する装置であれば適用することができる。
また、上記各実施の形態においては、フィラー挿入部３を、音声合成装置１００に組み込んだ場合について説明したが、これに限るものではなく、例えば、図１０に示すように、前述の形態素解析手段としての形態素解析部２、形態素解析用辞書２ａ、形態素検索手段及びフィラー挿入手段としてのフィラー挿入部３及びフィラー辞書３ａとからなるフィラー挿入装置２０を構成し、入力されるテキスト文書に対してフィラーを挿入し、フィラー付テキスト文書として出力する装置を実現することもできる。
【００８２】
そして、このようにしてフィラー挿入装置５０によりフィラーが追加されたフィラー付テキスト文書を、前述のテキスト入力部１、形態素解析部２及び形態素解析用辞書２ａ、合成音声作成部４及び波形辞書４ａからなる音声合成装置１０１に入力し、前記波形辞書４ａに、フィラー挿入装置５０において用いたフィラー辞書に登録されているフィラーを形態素として形態素解析用辞書２ａに登録しておくと共に、このフィラーに相当する合成音声を生成するために必要な波形データを波形辞書４ａに登録しておくことによって、フィラー挿入装置５０によりフィラーが挿入されたテキスト文書に相当する合成音声を、音声合成装置１０１において生成することができる。
【００８３】
また、このとき、合成音声にキャラクタ性を設ける場合には、図１１に示すように、前述の形態素解析手段としての形態素解析部２及び形態素解析用辞書２ａと、形態素検索手段及びフィラー挿入手段としてのフィラー挿入部３及びフィラー辞書３１〜３３とからフィラー挿入装置５０ａを構成し、入力されるテキスト文書に対し、フィラー辞書選択手段としてのキャラクタ指定手段７で指定されるキャラクタ指定信号に応じたフィラー辞書を用いてフィラーを挿入し、このフィラーが挿入されたフィラー付テキスト文書を、音声合成装置１０１ａに通知する。
【００８４】
そして、前述のテキスト入力部１、形態素解析部２及び形態素解析用辞書２ａ、合成音声作成部４及び波形辞書４１〜４３からなる音声合成装置１０１ａにおいて、形態素解析用辞書２ａにフィラー挿入装置５０ａのフィラー辞書３１〜３３に登録されているフィラーに相当する形態素を登録しておき、これらフィラーに相当する合成音声を生成するために必要な波形データを波形辞書４ａに登録しておくことによって、この波形辞書４ａを用いて合成音声を作成することにより、フィラーが挿入されたテキスト文書に相当する合成音声を、指定されたキャラクタに則した発声様式で生成することができる。
【００８５】
また、このとき、キャラクタ指定手段７は、フィラー挿入装置５０ａに設け、フィラー挿入装置５０ａ側でキャラクタを指定するようにしてもよく、また、テキスト文書の作成側で設定するようにしてもよい。
このように形成したフィラー挿入装置５０又は５０ａを、例えば、電子メールサーバに設け、電子メールサーバが電子メールを中継する際に、電子メールサーバにおいてフィラーを挿入させるようにし、また、このとき、電子メールサーバにおいてキャラクタ指定を行って任意のキャラクタ特性を有するフィラーを挿入させるようにしてもよい。また、キャラクタ指定手段７を、電子メールの送り手側に設け、送り手側でキャラクタを指定しこれを電子メールと共に送信するようにしてもよい。或いは、フィラー挿入装置５０又は５０ａを電子メールの送り手側に設け、作成したテキスト文書に対して、送り手側で任意のキャラクタ特性を有するフィラーを付与して送信するようにしてもよく、また、電子メールの受け手側に設け、受け手側において任意のキャララクタ特性を選択し、これに応じたフィラーを挿入した合成音声を生成するようにしてもよい。
【００８６】
また、上記各実施の形態においては、フィラー挿入後のテキスト文書に基づいて、合成音声を生成するようにした場合について説明したが、これに限るものではなく、例えば、電子メール等の入力されるテキスト文書を画面表示する表示装置や、画面対話式の対話システム、或いは入力されるテキスト文書を印刷する印刷装置等に適用することも可能であり、要は、入力されるテキスト文書に対して所定の処理を行う装置であれば適用することができる。
【００８７】
また、上記各実施の形態においては、入力されるテキスト文書に対し、フィラーを挿入するか否かをランダムに決定してフィラーを挿入するようにした場合について説明したが、例えば、フィラーを挿入するモードとフィラーを挿入しないモードとを選択するモード選択手段を設け、モード選択手段でフィラーを挿入するモードが選択されたときにのみ、フィラー挿入を行うようにしてもよい。
【００８８】
また、上記第１の実施の形態における音声合成処理を実行するプログラム、形態素解析用辞書２ａ、フィラー辞書３ａ及び波形辞書４ａを、フレキシブルディスク、コンパクトディスク（ＣＤ）、光磁気ディスク（ＭＯ）、フラッシュメモリ等の半導体メモリ等で構成される記憶媒体にコンピュータで読み取り可能に記憶し、この記憶媒体を携行してパーソナルコンピュータ等に装着してプログラムをインストールするか、プログラムを読み取って実行することにより、上記第１の実施の形態と同等の作用効果を任意の場所で行うことも可能である。
【００８９】
同様に、第２の実施の形態においても、図５に示す第２の実施の形態における音声合成処理を実行するプログラム、形態素解析用辞書２ａ、フィラー辞書３ａ及び波形辞書４ａを、前述の記憶媒体に記憶するようにしてもよく、また、第３の実施の形態においても、図８に示す音声合成処理を実行するプログラム、形態素解析用辞書２ａ、フィラー辞書３１〜３３及び波形辞書４ａを、前述の記憶媒体に記憶するようにしてもよい。
【００９０】
また、同様に、前記図１０に示すフィラー挿入装置５０を構成する形態素解析部２における形態素解析処理及びフィラー挿入部３におけるフィラー挿入処理を行うプログラム、形態素解析用辞書２ａ及びフィラー辞書３ａを前述の記憶媒体に記憶するようにしてもよく、また、前記図１１に示すフィラー挿入装置５０ａを構成する形態素解析部２における形態素解析処理及びフィラー挿入部３におけるフィラー挿入処理を行うプログラム、形態素解析用辞書２ａ及びフィラー辞書３１〜３３を前述の記憶媒体に記憶するようにしてもよい。
【００９１】
【発明の効果】
この請求項１乃至９に係る発明によれば、入力されるテキスト文書を形態素に分割してその品詞を特定し、形態素に分割して得られた前記テキスト文書を構成する形態素列において、予め設定した特定の品詞の形態素の次に、フィラーを挿入し、予めフィラーに相当する合成音声を生成可能な音声波形データを登録した音声波形辞書を用いて合成音声を生成するようにしたから、入力されたテキスト文書に対しフィラーが挿入された合成音声を生成することができ、より人間味のある合成音声を生成することができると共に、フィラーは意味のない言葉であるから、テキスト文書の意味を変えることなく実現することができる。また、形態素間にフィラーを挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することができ、また、形態素を構成する単語の途中にフィラーが挿入されることを回避することができる。
【００９２】
また、請求項２に係る発明によれば、フィラー辞書に登録されたフィラーの中から、ランダムにフィラーを選択するようにしているから、同じフィラーが連続して選択されることを回避することができる。
また、請求項３に係る発明によれば、フィラー辞書を複数設け、この複数のフィラー辞書のうちのフィラー辞書選択手段で選択したフィラー辞書からフィラーを選択するようにしたから、例えば、各フィラー辞書毎に、個人が用いるフィラーの種類に応じてフィラーを登録してキャラクタ性をもたせることによって、テキスト文書に基づき、キャラクタ性のある合成音声を生成することができ、より面白味を与えることができる。
【００９３】
また、請求項４に係る発明によれば、フィラーを挿入するか否かをランダムに決定し、フィラーを挿入すると判断したときにのみフィラーを挿入するようにしたから特定の品詞の形態素の次に必ずフィラーが挿入されることにより違和感を与えることを回避することができる。
また、請求項５乃至７に係る発明によれば、テキスト文書を構成する形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるときにのみ、フィラーを挿入するようにしたから、例えば一般の会話においてフィラーが用いられる際の、フィラーの前後の形態素の品詞に応じて、特定の品詞及び後続品詞を指定することによって、一般のフィラーの用い方に則した箇所にフィラーを挿入することができる。
【００９４】
また、請求項８に係る発明によれば、一般に、形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と選択されたフィラーとが接続される可能性の方が高いときにのみ、選択したフィラーを挿入するようにしたから、フィラーが不自然な場所に挿入されることを回避することができ、フィラーをより的確な位置に挿入することができる。
【００９５】
また、本発明の請求項１０乃至１２に記載の発明によれば、入力されたテキスト文書を形態素に分割してその品詞を特定し、この解析により得られた前記テキスト文書を構成する形態素列に対し予め設定した特定の品詞の形態素を検索し、検索した特定の品詞の形態素の次にフィラーを挿入するようにしたから、入力されるテキスト文書を、より人間味のあるテキスト文書に変化することができると共に、フィラーは意味のない言葉であるから、テキスト文書の文意を変えることなく実現することができる。また、このとき形態素間に挿入するようにしているから、形態素を構成する単語の途中にフィラーが挿入されることはなく、また、形態素間であれば任意の場所にフィラーを挿入することができる。
【図面の簡単な説明】
【図１】第１の実施の形態における音声合成装置の概略構成の一例を示すブロック図である。
【図２】第１の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図３】第１の実施の形態におけるフィラー辞書の一例である。
【図４】第１の実施の形態の動作説明に供する説明図である。
【図５】第２の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図６】第２の実施の形態におけるフィラー辞書の一例である。
【図７】第３の実施の形態における音声合成装置の概略構成の一例を示すブロック図である。
【図８】第３の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図９】第３の実施の形態におけるフィラー辞書の一例である。
【図１０】フィラー挿入装置５０を構成した場合の概略構成を示すブロック図である。
【図１１】フィラー挿入装置５０ａを構成した場合の概略構成を示すブロック図である。
【符号の説明】
１　テキスト入力部
２　形態素解析部
２ａ　形態素解析用辞書
３　フィラー挿入部
３ａ、３１〜３３　フィラー辞書
４　合成音声作成部
４ａ　波形辞書
７　キャラクタ指定手段
５０、５０ａ　フィラー挿入装置
１０１、１０１ａ　音声合成装置

Claims

入力されるテキスト文書に応じた合成音声を生成する音声合成装置において、
前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、
前記フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書と、
当該音声波形辞書をもとに、前記フィラー挿入手段によりフィラーが挿入された形態素列に応じた音声波形を生成する音声波形生成手段と、を備えることを特徴とする音声合成装置。
前記フィラー挿入手段は、複数のフィラーが登録されたフィラー辞書を有し、
挿入するフィラーを、前記フィラー辞書の中からランダムに選択するようになっていることを特徴とする請求項１記載の音声合成装置。
複数の前記フィラー辞書と、
当該複数のフィラー辞書の何れかを指定するフィラー辞書選択手段と、を備え、
前記フィラー挿入手段は、前記フィラー辞書選択手段で指定されたフィラー辞書の中から前記フィラーを選択するようになっていることを特徴とする請求項２記載の音声合成装置。
前記フィラー挿入手段は、前記フィラーを挿入するか否かをランダムに決定し、前記フィラーを挿入すると判断したときにのみ前記フィラーを挿入するようになっていることを特徴とする請求項１乃至３の何れかに記載の音声合成装置。
前記フィラー挿入手段は、前記形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるか否かを判定し、特定の後続品詞であるときにのみ、前記フィラーを挿入するようになっていることを特徴とする請求項１乃至４の何れかに記載の音声合成装置。
前記特定の品詞は、助詞であることを特徴とする請求項１乃至５の何れかに記載の音声合成装置。
前記特定の後続品詞は、名詞又は形容詞であることを特徴とする請求項５又は６記載の音声合成装置。
前記フィラー辞書に登録されたフィラー毎に、当該フィラーが、前記特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておき、
前記フィラー挿入手段は、前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性を表す接続コストを検出し、
当該接続コストと、前記形態素検索手段で検索された形態素及び前記フィラー辞書から選択されたフィラー間の前記フィラー接続コストとに基づき、前記形態素列において前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と前記選択されたフィラーとが接続される可能性の方が高いときにのみ、前記選択したフィラーを挿入するようになっていることを特徴とする請求項１乃至７の何れかに記載の音声合成装置。
入力されるテキスト文書を形態素に分割して前記テキスト文書を構成する形態素列を検出すると共にその品詞を特定し、
前記形態素列において予め設定した特定の品詞の形態素の次にフィラーを挿入し、
当該フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書に基づいて、前記フィラーを挿入した形態素列に対する合成音声を生成することを特徴とする音声合成方法。
入力されるテキスト文書に対しフィラーを挿入するようにしたフィラー挿入装置であって、
前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備えることを特徴とするフィラー挿入装置。
入力されるテキスト文書を形態素に分割してその品詞を特定し、
前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素の次に、フィラーを挿入するようにしたことを特徴とするフィラー挿入方法。
入力されるテキスト文書を形態素に分割してその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列において、前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備え、且つ、コンピュータが実行可能なフィラー挿入プログラム。