JP2004118004A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2004118004A JP2004118004A JP2002283253A JP2002283253A JP2004118004A JP 2004118004 A JP2004118004 A JP 2004118004A JP 2002283253 A JP2002283253 A JP 2002283253A JP 2002283253 A JP2002283253 A JP 2002283253A JP 2004118004 A JP2004118004 A JP 2004118004A
- Authority
- JP
- Japan
- Prior art keywords
- filler
- morpheme
- speech
- dictionary
- text document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】入力されるテキスト文書を形態素解析して形態素列及び形態素の品詞を特定し(ステップS10)、形態素列について品詞が助詞の形態素を検索する(ステップS20〜ステップS40)。予め設定したフィラー辞書の中からフィラーをランダムに選択し(ステップS50)、挿入判断用乱数値を発生させてこれに基づきフィラーの挿入を行うか否かをランダムに判断し(ステップS60、S70)、挿入すると判定されたとき、選択したフィラーを、テキスト文書を構成する形態素列の品詞が助詞である形態素の次に挿入する(ステップS80)。そして、前記フィラーに相当する合成音声を生成可能な波形データが予め登録された波形辞書を用いて、このフィラーが挿入されたテキスト文書に応じた合成音声を生成する(ステップS90)。
【選択図】 図2
Description
【発明の属する技術分野】
この発明は、入力されたテキストに応じた音声を生成して出力する音声合成装置に関する。
【0002】
【従来の技術】
従来、入力されたテキスト文書に応じた音声を生成する音声合成装置においては、例えば、テキスト文書に対して形態素解析を行って、テキスト文書を形態素に分解し、その解析結果に基づいて分解した形態素列に対して音声合成を行うことにより、テキスト文書に応じた音声を発生するようにしたもの等が提案されている。
【0003】
例えば、特許文献1には、テキスト文書の単語の読みを同定する際に、単語と単語との間に助詞を挿入することによって、助詞が省かれたテキスト文書に対し助詞を挿入し、これにより、人間の発声様式つまり人間の話し方により近い合成音声を得るようにしたもの、また、特許文献2に記載されたように、合成音声に傾聴させるために、テキスト文書の先頭に、人間が呼吸するときの「すー」という音や、咳払いの時に発せられる「んうん」といった人間が本来もっている生理的な音声傾聴音を挿入し、利用者に対し、合成音声への傾聴を促すようにしたもの、等が提案されている。
【0004】
【特許文献1】
特開平10−228471号公報
【特許文献2】
特開2002−82687号公報
【特許文献3】
特開平12−066696号公報
【0005】
【発明が解決しようとする課題】
しかしながら、上述のように、テキスト文書に対して助詞を挿入したり、また、テキスト文書の先頭に音声傾聴音を挿入することによって、より人間の発声様式に近い合成音声とすることができ、また、利用者の傾聴を促すことができるものの、音声傾聴音等の挿入箇所がテキスト文書の先頭に限られてしまったり、また、単語間に助詞等を挿入することができるものの、場合によっては、挿入する助詞によっては、テキスト文書の意味が変わってしまったり、また、一般的な人間の話し方とは異なる単語間に助詞等が挿入されたりすることがあるという問題がある。
【0006】
これに対し、例えば特許文献3に記載されているように、出力音声中に含まれる休止・息継ぎ部分に、呼吸音や「えー」や「まっ」といった、冗長語を挿入するようにしたもの、等が提案されている。このように、呼吸音や冗長語を挿入することにより、より親しみのある話し方に近づけることができる。しかしながら、呼吸音や、冗長語を出力音声中の休止・息継ぎ部分に挿入するようにしているため、休止・息継ぎ部分の長さや場所に応じて、挿入可能な呼吸音や冗長語が限定され、人間の話し方としては不適切な場所に挿入されたり、また、挿入する箇所が限られてしまい、人間の話し方に則した場所に挿入することができない場合があるという問題がある。
【0007】
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、より人間らしく、且つ違和感を与えることのない合成音声を生成することの可能な音声合成装置を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記目的を達成するために、本発明の請求項1に係る音声合成装置は、入力されるテキスト文書に応じた合成音声を生成する音声合成装置において、前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、前記フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書と、当該音声波形辞書をもとに、前記フィラー挿入手段によりフィラーが挿入された形態素列に応じた音声波形を生成する音声波形生成手段と、を備えることを特徴としている。
【0009】
また、請求項2に係る音声合成装置は、請求項1に記載の前記フィラー挿入手段は、複数のフィラーが登録されたフィラー辞書を有し、挿入するフィラーを、前記フィラー辞書の中からランダムに選択するようになっていることを特徴としている。
また、請求項3に係る音声合成装置は、複数の前記フィラー辞書と、当該複数のフィラー辞書の何れかを指定するフィラー辞書選択手段と、を備え、請求項2記載の前記フィラー挿入手段は、前記フィラー辞書選択手段で指定されたフィラー辞書の中から前記フィラーを選択するようになっていることを特徴としている。
【0010】
また、請求項4に係る音声合成装置は、請求項1乃至3の何れかに記載の前記フィラー挿入手段は、前記フィラーを挿入するか否かをランダムに決定し、前記フィラーを挿入すると判断したときにのみ前記フィラーを挿入するようになっていることを特徴としている。
また、請求項5に係る音声合成装置は、請求項1乃至4の何れかに記載の前記フィラー挿入手段は、前記形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるか否かを判定し、特定の後続品詞であるときにのみ、前記フィラーを挿入するようになっていることを特徴としている。
【0011】
また、請求項6に係る音声合成装置は、請求項1乃至5の何れかに記載の前記特定の品詞は、助詞であることを特徴としている。
また、請求項7に係る音声合成装置は、請求項5又は6に記載の前記特定の後続品詞は、名詞又は形容詞であることを特徴としている。
また、請求項8に係る音声合成装置は、前記フィラー辞書に登録されたフィラー毎に、当該フィラーが、前記特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておき、請求項1乃至7の何れかに記載の前記フィラー挿入手段は、前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性を表す接続コストを検出し、当該接続コストと、前記形態素検索手段で検索された形態素及び前記フィラー辞書から選択されたフィラー間の前記フィラー接続コストとに基づき、前記形態素列において前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と前記選択されたフィラーとが接続される可能性の方が高いときにのみ、前記選択したフィラーを挿入するようになっていることを特徴としている。
【0012】
また、本発明の請求項9に係る音声合成方法は、入力されるテキスト文書を形態素に分割して前記テキスト文書を構成する形態素列を検出すると共にその品詞を特定し、前記形態素列において予め設定した特定の品詞の形態素の次にフィラーを挿入し、当該フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書に基づいて、前記フィラーを挿入した形態素列に対する合成音声を生成することを特徴としている。
【0013】
この請求項1乃至9に係る発明では、入力されるテキスト文書を形態素に分割してその品詞を特定し、形態素に分割して得られた前記テキスト文書を構成する形態素列において、予め設定した特定の品詞の形態素の次に、フィラーを挿入する。そして、このようにしてフィラーを挿入した後の形態素列に対し、音声波形辞書を用いて合成音声を生成し、このとき、予めフィラーに相当する合成音声を生成するために必要な音声波形データを登録した音声波形辞書を用いて合成音声を生成することにより、入力されたテキスト文書に対しフィラーが挿入された合成音声を生成することが可能となる。
【0014】
このとき、形態素間にフィラーを挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することが可能となりまた、形態素を構成する単語の途中にフィラーが挿入されることはない。
また、請求項2に係る発明では、フィラー辞書に登録されたフィラーの中から、ランダムにフィラーを選択することにより、同じフィラーが連続して選択されることが回避される。
【0015】
また、請求項3に係る発明では、前記フィラー辞書を複数設け、この複数のフィラー辞書のうちのフィラー辞書選択手段で選択したフィラー辞書からフィラーを選択するから、例えば複数の人物について各個人が用いるフィラーの種類等に応じてフィラー辞書を形成し、フィラー辞書にキャラクタ性をもたせることにより、テキスト文書に基づきキャラクタ性のある合成音声を生成することが可能となる。
【0016】
また、請求項4に係る発明では、フィラーを挿入するか否かをランダムに決定し、フィラーを挿入すると判断したときにのみフィラーを挿入するから、特定の品詞の形態素の次に必ずフィラーが挿入されることにより違和感を与えることが回避される。
また、請求項5乃至7に係る発明では、テキスト文書を構成する形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるときにのみ、フィラーが挿入されるから、例えば一般の会話においてフィラーが用いられる際の、フィラーの前後の形態素の品詞に応じて、特定の品詞及び後続品詞を指定し、例えば特定の品詞として助詞、後続品詞として名詞又は形容詞或いは名詞及び形容詞を共に後続品詞として指定すれば、一般のフィラーの用い方に則した箇所にフィラーを挿入することが可能となる。
【0017】
また、請求項8に係る発明では、フィラー辞書に登録されたフィラー毎に、一般にこのフィラーが特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておく。そして、テキスト文書を構成する形態素列において形態素検索手段で検索した形態素とこれに続く形態素とが接続される可能性を表す接続コストを、例えば形態素解析を行う際に用いた接続コストに基づいて検出し、この接続コストと、形態素検索手段で検索した形態素及び前記フィラー辞書から選択されたフィラー間のフィラー接続コストとに基づいて、形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と選択されたフィラーとが接続される可能性の方が高いときにのみ、選択したフィラーを挿入する。したがって、選択されたフィラーが、形態素検索手段で検索された形態素の次に挿入されることは一般にあまり行われないと判断されるときにはこのフィラーは挿入されず、一般に挿入されると判断されるときにのみ選択されたフィラーの挿入が行われるから、フィラーが不自然な場所に挿入されることが回避される。
【0018】
また、本発明の請求項10に係るフィラー挿入装置は、入力されるテキスト文書に対しフィラーを挿入するようにしたフィラー挿入装置であって、前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備えることを特徴としている。
【0019】
また、請求項11に係るフィラー挿入方法は、入力されるテキスト文書を形態素に分割してその品詞を特定し、前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素の次に、フィラーを挿入するようにしたことを特徴としている。
また、請求項12に係るフィラー挿入プログラムは、入力されるテキスト文書を形態素に分割してその品詞を特定する形態素解析手段と、当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、前記形態素列において、前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備え、且つ、コンピュータが実行可能に形成されていることを特徴としている。
【0020】
この請求項10乃至12に記載の発明では、入力されたテキスト文書を形態素に分割してその品詞を特定し、この解析により得られた前記テキスト文書を構成する形態素列に対し予め設定した特定の品詞の形態素を検索し、検索した特定の品詞の形態素の次にフィラーを挿入する。このとき、フィラーを、形態素間に挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することが可能となり、また、形態素を構成する単語の途中にフィラーが挿入されることはない。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて説明する。
まず、本発明の第1の実施の形態を説明する。
図1は、第1の実施の形態における音声合成装置100の概略構成を示すブロック図である。なお、この音声合成装置は、例えばコンピュータ等で構成されている。
【0022】
図1中、1は、例えば、キーボード或いは、通信回線や無線によって送信されるテキスト文書を受信するための受信装置等で構成される、テキスト文書を入力するためのテキスト入力部、2は、テキスト入力部1で入力されたテキスト文書に対し、形態素解析用辞書2aに基づいて公知の手順で形態素解析処理を行う形態素解析部、3は、形態素解析部2における形態素解析結果に基づいて、形態素解析により得られた、テキスト文書に相当する形態素列に対し、予め設定したフィラー辞書3aに基づいて、「えー」「あのー」といった意味のない言葉であるフィラーに相当する形態素を挿入するフィラー挿入部、4は、フィラー挿入部3によるフィラー挿入処理が行われたフィラー挿入形態素列に対し、波形辞書4aに基づいて公知の手順で合成音声を作成する合成音声作成部である。
【0023】
前記形態素解析部2では、テキスト入力部1から入力されるテキスト文書を公知の手順で形態素に分割すると共に、各形態素の品詞解析及び構文解析等を行う。
また、前記フィラー挿入部3では、前記形態素解析部2において、分解されたテキスト文書の形態素と、その形態素情報とに基づいて、品詞が助詞である形態素を検索し、品詞が助詞である形態素が存在する場合にはフィラー辞書3aに格納されたフィラー情報の中からランダムにフィラーを選択すると共に、このフィラーの挿入を行うか否かをランダムに決定し、挿入すると決定した場合には、選択したフィラーに相当する形態素を、形態素情報はフィラーとして、品詞が助詞である形態素の次に挿入し、このフィラーの形態素を含む形態素列を合成音声作成部4に出力する。
【0024】
また、前記合成音声作成部4はその波形辞書4aに、フィラー辞書3aに格納されたフィラーに相当する合成音声を生成するために必要な波形データを有している。
図2は、図1に示す音声合成装置100の各部において実行される、音声合成のための一連の処理(以後、音声合成処理という。)の処理手順の一例を示すフローチャートである。
【0025】
音声合成処理では、まず、入力されたテキスト文書に対し、公知の手順で形態素解析処理を行い、形態素への分割、形態素の品詞解析、構文解析等を行う(ステップS10)。次いで、ステップS20に移行し、形態素解析処理により分割された、テキスト文書を構成する形態素の全てについて処理を行ったかどうかを判定し、処理が終了していない場合には、ステップS30に移行して、処理対象の形態素を特定する。この処理対象の形態素の特定は、テキスト文書を構成する形態素の先頭から順に一つずつ設定する。したがって、起動時には、一番先頭の形態素を処理対象の形態素として特定する。
【0026】
続いて、ステップS40に移行し、ステップS10での形態素解析処理における形態素解析結果に基づいて、処理対象の形態素の品詞が助詞であるかどうかを判定する。そして、処理対象の形態素の品詞が助詞でない場合には、ステップS40からステップS20に戻り、ステップS20において、全ての形態素について処理を行っていない場合には、ステップS30に移行し、次の形態素を処理対象の形態素とし、この形態素の品詞が助詞でないときにはステップS20に戻る。この処理を繰り返し行って、テキスト文書の先頭から順に品詞が助詞である形態素を検索し、品詞が助詞である形態素が存在した場合には、ステップS40からステップS50に移行する。
【0027】
このステップS50では、予め所定の記憶領域に格納したフィラー辞書3aに基づいて、フィラーを選択する。
ここで前記フィラー辞書3aは、例えば図3に示すように構成されている。つまり、図3に示すように、「えー」、「あのー」、「まーそのー」等といったフィラー種f2と、このフィラーが一般に話し手により用いられる頻度等に応じて任意に設定されたフィラー値f3と、これらフィラーを識別するための識別番号f1とが、対応付けられている。
【0028】
例えば、図3の場合には、識別番号“1”のフィラー「えー」は、比較的使用される頻度が高いとして、フィラー値f3は“50”と設定される。また、識別番号“2”のフィラー「あのー」は、「えー」よりも使用頻度が低いとしてフィラー値f3は“30”と設定される。また、識別番号“3”のフィラー「まーそのー」は、「あのー」よりも使用頻度がさらに低いとしてフィラー値f3は“20”と設定される。
【0029】
そして、フィラーの選択はランダムに行い、例えば乱数等を発生させ、発生した乱数に相当する識別番号のフィラーを選択する。例えば、発生させた乱数が“2”である場合には識別番号“2”のフィラー「あのー」が選択される。なお、ここでは、乱数と識別番号とに基づいてフィラーをランダムに選択するようにした場合について説明したが、これに限るものではなく、フィラーをランダムに選択することができればどのような方法を用いてもよい。
【0030】
このようにしてフィラーが選択されると次にステップS60に移行して、挿入判定用の乱数として、例えば1〜100の乱数を発生させる。なお、発生させる乱数の範囲は少なくとも前記フィラー辞書3aにおいてフィラー値f3として登録された値を含むように設定する。
次いで、ステップS70に移行し、ステップS60で発生させた挿入判定用乱数値と、ステップS50で選択したフィラーに対応するフィラー値とを比較し、挿入判定用乱数値がフィラー値よりも小さいとき、フィラーを挿入するものと判定し、ステップS80に移行して、ステップS50で選択したフィラーに相当する形態素を、ステップS40の処理で品詞が助詞であると判定された形態素の次に挿入する。また、その形態素情報はフィラーとする。
【0031】
そして、ステップS20に戻り、テキスト文書を構成する全ての形態素について処理が終了していない場合には、ステップS30に移行して次の形態素を処理対象の形態素として設定し、形態素の品詞が助詞でない間は、順次形態素を更新する。そして、品詞が助詞の形態素であると判断された場合には、ステップS50に移行し、フィラー辞書3aからランダムにフィラーを選択する。そして、今度は、例えばフィラーとして「あのー」が選択されたものとすると、ステップS60に移行し挿入判定用乱数を発生させ、ステップS70でこの挿入判定用乱数値と、ステップS50で選択したフィラーこの場合「あのー」に相当するフィラー値とを比較し、このとき、挿入判定用乱数値が「あのー」に相当するフィラー値よりも小さくない場合には、フィラーの挿入は行わないものと判定し、そのままステップS20に戻る。
【0032】
同様にして繰り返し処理を行い、必要に応じてフィラーを挿入し、テキスト文書を構成する全ての形態素について処理が終了したならば、ステップS20からステップS90に移行し、適宜フィラーの挿入が行われた、テキスト文書の形態素列である、フィラー挿入形態素列に対し、公知の手順で合成音声の作成を行う。つまり、波形辞書4aに格納されている、フィラー辞書3aに登録されているフィラーに相当する合成音声を生成するために必要な波形データを含む波形情報に基づいて、フィラー挿入形態素列に対し合成音声の作成を行う。このとき、形態素情報としてフィラーが設定されている形態素の場合には、波形辞書4aからフィラーに相当する合成音声を生成するために必要な波形データを検索しこれを用いて合成音声を作成する。
【0033】
次に、上記第1の実施の形態の動作を説明する。
例えば、「私は男です」という合成音声を発生させる場合、テキスト入力部1が例えばキーボードである場合には、キーボードを操作し「私は男です」を入力する。これによって、図4(a)に示すように、テキスト文書として「私は男です」が形態素解析部2に入力され、形態素解析部2では、形態素解析用辞書2aをもとにこれを形態素解析する。これによって、図4(b)に示すように、「私」は名詞/代名詞、「は」は助詞、「男」は名詞、「です」は助動詞として形態素解析結果が得られる。
【0034】
次にこのようにして形態素解析された結果に対し、先頭の形態素から助詞であるかどうかが判定され、2番目の形態素「は」が助詞であることから、ステップS40からステップS50に移行し、フィラー辞書3aの中からフィラーがランダムに選択される。例えば、このとき、フィラー「まーそのー」が選択されたものとすると、次に挿入判定用乱数が発生されて(ステップS60)、これとフィラー「まーそのー」に対応するフィラー値(=20)とが比較される(ステップS70)。このとき、挿入判定用乱数値が“20”よりも小さい場合には、挿入判定用乱数値がフィラー値よりも小さいことから、フィラー挿入と判定され、図4(c)に示すように、品詞が助詞である形態素「は」の次に、フィラー「まーそのー」が挿入される(ステップS80)。
【0035】
そして、以後助詞は存在しないから、ステップS20からステップS90に移行し、このフィラー「まーそのー」が挿入されたフィラー挿入形態素列(図4(c))に対して、合成音声作成処理が行われる。
したがって、波形辞書4aから、入力されたテキスト文書に相当する形態素及び挿入されたフィラーに相当する合成音声を生成するために必要な波形データが選択されて合成音声が作成されることになる。
【0036】
よって、合成音声作成処理により作成された合成音声は、図4(d)に示すように、テキスト文書に対し「まーそのー」が挿入された、「私は、まーそのー、男です」という合成音声波形となり、これが合成音声として発生されることになる。
このように、テキスト文書にフィラーを挿入することによって、人間味のないテキスト文書を、より人間味のある合成音声として発生することができ、より人間の発声様式に近い、親しみのある合成音声を得ることができる。
【0037】
また、例えば、テキスト文書として、複数の文或いは、1文中に複数の助詞が含まれるような文が入力された場合、この場合も上記と同様にして、品詞が助詞である形態素の次にフィラー辞書3aに登録されているフィラーのうちの何れかのフィラーが挿入されることになる。このとき、ステップS60の処理で、挿入判定用乱数を発生させ、この挿入判定用乱数値が選択したフィラー値よりも小さいときにのみ(ステップS70)、ステップS80に移行して、フィラーの挿入が行われるから、形態素が助詞であっても、この形態素の次に必ずしもフィラーの挿入が行われるわけではなく、フィラーが挿入されたりされなかったりすることになる。
【0038】
したがって、テキスト文書に複数の助詞が含まれる場合、必ずしも各助詞毎にその助詞の次にフィラーが挿入されるわけではないから、フィラーが頻繁に挿入されることにより利用者に違和感を与えることはない。また、種々のフィラーから何れかのフィラーをランダムに選択して挿入するようにしているから、同じフィラーが連続して出現することを低減することができ、同じフィラーが挿入されることにより利用者に違和感を与えることを回避することができる。
【0039】
また、フィラーを挿入する際には、形態素の次に挿入し、これに基づいて合成音声を生成するようにしている。したがって、挿入するフィラーの長短に制約されることなく所望の長さのフィラーを挿入することができる。また、一つの形態素の文字列の途中にフィラーが挿入されることはないから、不自然な場所にフィラーが挿入されることを回避することができ、例えば、形態素が長い単語である場合であっても、その途中にフィラーが挿入されることはない。
【0040】
また、品詞が助詞の形態素の後にフィラーを挿入するようにしているから、この形態素の後であれば、フィラーを挿入することができ、フィラーの挿入場所に制約を受けることなく、フィラーを挿入することができる。
また、一般的にフィラーは、品詞が助詞である形態素の次に挿入されることが多く、上述のように、フィラーを品詞が助詞である形態素の次に挿入するようにしているから、フィラーの挿入位置に関して違和感を与えることはない。
【0041】
また、ここでは、一般的にフィラーは、品詞が助詞である形態素の次に挿入されることが多いため、品詞が助詞である形態素の次にフィラーを挿入する場合について説明しているが、品詞が助詞以外の形態素の後にフィラーを挿入することも可能である。このように、品詞が助詞以外の形態素、或いは任意に設定した複数種の品詞の形態素の後にフィラーを挿入することによって、所望の品詞の形態素の後にフィラーを挿入することができる。
【0042】
また、テキスト文書に対し、これといった意味を持たないフィラーを挿入するようにしているから、フィラーを挿入したとしても、テキスト文書の文意を変えることなく、人間らしさを付け加えることができる。
なお、上記第1の実施の形態においては、フィラーを挿入するか否かをランダムに設定するようにした場合について説明したが、これに限るものではなく、例えば、品詞が助詞である全ての形態素の次にフィラーを挿入するようにしてもよく、また、テキスト文書中の助詞の出現数に応じて、任意の場所に挿入するようにしてもよい。
【0043】
また、フィラーの一例として、図3に示すように、「あのー」、「そのー」、「まーそのー」を挙げた場合について説明しているが、これに限るものではなく、例えば、「あの」、「この」、「その」、「このー」、「こう」、「こうー」、「えー」、「ええー」、「あー」、「おー」、「えーと」、「えーとー」、「ええと」、「まー」、「まぁ」、「まあ」、「まーそのー」、「もー」、「もぅ」、「もう」、「さー」、「さぁ」、「さあ」、「なー」、「なぁ」、「なあ」、「うん」、「ん」、「ね」、「なんか」等といった、テキスト文書中に挿入することによって、テキスト文書の文意の変わることのない、意味のない言葉であれば、適用することができる。
【0044】
なお、上記第1の実施の形態において、図2のステップS10の処理が形態素解析手段に対応し、ステップS20〜ステップS40の処理が形態素検索手段に対応し、ステップS50〜ステップS80の処理がフィラー挿入手段に対応し、ステップS90の処理が音声波形生成手段に対応し、図1の波形辞書4aが音声波形辞書に対応している。
【0045】
次に、本発明の第2の実施の形態を説明する。
この第2の実施の形態は、上記第1の実施の形態において、フィラー挿入部3における処理手順が異なること以外は、上記第1の実施の形態と同様であるので同一部には同一符号を付与し、その詳細な説明は省略する。
図5は、第2の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【0046】
テキスト文書が入力されると、まず、ステップS10で、上記第1の実施の形態と同様にして形態素解析処理を実行する。
そして、形態素解析処理により得られた形態素列の先頭から順に、品詞が助詞である形態素を検索し(ステップS10〜S40)、助詞であると判断されたときに、ステップS40からステップS51に移行する。
【0047】
そして、処理対象の形態素、つまり、助詞であると判定された形態素の次に続く形態素の品詞が、名詞であるかどうかを判定し、名詞であると判定されたときには、ステップS52に移行して、図6に示す、第2の実施の形態におけるフィラー辞書3aから、フィラーを選択する。
一方、ステップS51で、助詞であると判定された形態素に続く形態素が名詞でないと判断された場合には、ステップS53に移行し、助詞であると判定された形態素に続く形態素が形容詞であるかどうかを判定する。そして、形容詞でないと判定されるときにはそのままステップS20に戻る。一方、形容詞であると判定されたときにはステップS54に移行し、図6に示す第2の実施の形態におけるフィラー辞書3aから、フィラーを選択する。
【0048】
ここで、第2の実施の形態におけるフィラー辞書3aは、図6に示すように、図3に示す第1の実施の形態におけるフィラー辞書3aにおいて、さらに、品詞が助詞である形態素の次に名詞が続くか、形容詞が続くかを表す品詞の続きf4が追加され、この品詞の続きが、各フィラーf2に対応して設定されている。そして、例えば、識別番号f1が“1”〜“50”であるフィラーとしては、品詞の続きf4が助詞及び名詞であるフィラーが設定され、識別番号f1が“51”〜“100”であるフィラーとしては、品詞の続きf4が助詞及び形容詞であるフィラーが設定されるようになっている。
【0049】
そして、前記図6の場合には、識別番号“1”の、助詞及び名詞と続く形態素間に、フィラー「えー」が挿入される頻度が高いとして、フィラー値は“50”と設定される。また、識別番号“2”の助詞及び名詞と続く形態素間に、フィラー「あー」が挿入される頻度は、「えー」よりもやや低いとしてフィラー値は“40”と設定される。同様に、識別番号“51”の助詞及び形容詞と続く形態素間に、フィラー「えー」が挿入される頻度は高いとして、フィラー値は“60”と設定される。また、識別番号“52”の助詞及び形容詞と続く形態素間に、フィラー「あのー」が挿入される頻度が高いとして、フィラー値は“30”と設定される。
【0050】
そして、ステップS52の処理では、前記ステップS51の処理で、品詞の続きが、助詞+名詞であると判断されているから、図6の品詞の続きf4が助詞+名詞である識別番号“1”〜“50”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。一方、ステップS54の処理では、前記ステップS53の処理で、品詞の続きが、助詞+形容詞であると判断されているから、図6の品詞の続きf4が助詞+形容詞である識別番号“51”〜“100”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。
【0051】
次いで、ステップS60に移行し、上記第1の実施の形態と同様に挿入判断用乱数を発生させ、この挿入判断用乱数値と、ステップS52又はS54で特定したフィラーに相当するフィラー値とを比較し(ステップS70)、挿入判断用乱数値がフィラー値よりも小さいとき、ステップS80に移行し、ステップS52又はS54で選択したフィラーを、品詞が助詞であると判断された形態素の次に挿入する。一方、挿入判断用乱数値がフィラー値よりも小さくないときにはそのままステップS20に戻る。
【0052】
このようにして、テキスト文書を構成する全ての形態素について処理を行い、全ての形態素について処理を行った場合には、ステップS20からステップS90に移行し、テキスト文書に対して、その助詞と名詞との間、又は助詞と形容詞との間に、場合によってフィラーが挿入されたフィラー挿入形態素列に対して、合成音声作成処理を行う。
【0053】
このように、第2の実施の形態においては、上記第1の実施の形態と同様に、品詞が助詞である形態素の次にフィラーをランダムに挿入するが、助詞である形態素の次に続く形態素が、名詞又は形容詞のときにのみランダムにフィラーを挿入するようにしている。
ここで、一般に、フィラーは、助詞の後に挿入されることが多いが、さらに、助詞の後に名詞或いは形容詞が続くときに挿入されることが多い。
【0054】
したがって、このように助詞の後に名詞が続くか、形容詞が続くかを判断し、助詞の後に、名詞或いは形容詞が続くときにのみフィラーを挿入するようにすることによって、より人間の発声様式に則した合成音声を発生させることができ、フィラーが挿入されることにより違和感を与えることのない合成音声を得ることができる。
【0055】
なお、上記第2の実施の形態においては、フィラー辞書3aにおいて、1つの辞書に、品詞の続きが助詞及び名詞に対応するフィラーと、助詞及び形容詞に対応するフィラーとを設定するようにした場合について説明したが、例えば、助詞及び名詞用の辞書と助詞及び形容詞用の辞書とを形成し、品詞の続き具合に応じて参照する辞書を切り替え、その中からランダムにフィラーを選択するようにしてもよい。
【0056】
また、上記第2の実施の形態においては、一般に、助詞の後に名詞又は形容詞が続く場合にフィラーが挿入される場合が多いことから、助詞の後に名詞又は形容詞が続くときにのみ挿入するようにした場合について説明したが、これに限るものではなく、任意の品詞の続きの形態素間にフィラーを挿入するようにすることも可能である。
【0057】
なお、上記第1及び第2の実施の形態においては、一般に用いられるフィラー及びその使用頻度或いはフィラーをどの品詞の形態素の次に挿入する傾向にあるかといった使用状況に基づいてフィラー辞書を形成するようにした場合について説明したが、例えば、特定の人物が用いる傾向にあるフィラー及びそのフィラーの挿入位置に応じてフィラー辞書を生成し、これに基づいて合成音声を生成するようにしてもよい。この場合、上記図3又は図6に示すフィラー辞書においては、フィラー値f3に応じて、フィラーの挿入を行うか否かを判断するようにしているから、前記特定人物のフィラーの使用状況に応じてフィラー値を設定するようにすれば、個人の特徴、つまりキャラクタ性のある合成音声を生成することができる。
【0058】
なお、上記第2の実施の形態において、図5のステップS10の処理が形態素解析手段に対応し、ステップS20〜ステップS40の処理が形態素検索手段に対応し、ステップS51〜ステップS80の処理がフィラー挿入手段に対応し、ステップS90の処理が音声波形生成手段に対応し、図1の波形辞書4aが音声波形辞書に対応している。
【0059】
次に、本発明の第3の実施の形態を説明する。
この第3の実施の形態は、上記第2の実施の形態において、フィラー辞書を複数設け、フィラー辞書の中から何れかを選択するようにしたものである。そして、この第3の実施の形態における形態素解析部2においては、上記第1及び第2の実施の形態と同様に、入力されたテキスト文書を形態素に分割し、これら形態素の品詞を特定すると共に、これら形態素間の接続コストを用いて形態素解析を行う、公知のコスト最小法により形態素解析を行うようになっている。
【0060】
そして、この第3の実施の形態における、音声合成装置100は、図7に示すように、図1における音声合成装置100において、複数のフィラー辞書31〜33を有している。そして、フィラー挿入部3は、キャラクタ指定手段7で指定されたキャラクタ指定信号に相当するフィラー辞書を選択し、これに基づいてフィラー挿入処理を行うようになっている。また、波形辞書4aには、フィラー辞書31〜33に登録されているフィラーに相当する合成音声を生成するために必要な波形データが格納されている。
【0061】
なお、ここでは、3種類のフィラー辞書31〜33を設けた場合について説明したが、これに限るものではなく、任意数のフィラー辞書を設けることができる。また、図7において、上記第1の実施の形態と同一部には、同一符号を付与しその詳細な説明は省略する。
図8は、第3の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。なお、上記第2の実施の形態における音声合成処理において、同一処理部には同一符号を付与し、その詳細な説明は省略する。
【0062】
この第3の実施の形態における音声合成処理においては、図8に示すように、テキスト文書が入力されると、ステップS10で、入力されたテキスト文書を形態素に分割しこれらの品詞を解析すると共に、これら形態素間の接続コストに基づいて形態素解析処理を行う。次いで、ステップS11に移行し、複数のフィラー辞書31〜33のうち、キャラクタ指定手段7で指定されたキャラクタ指定番号に相当するフィラー辞書を特定する。
【0063】
次いで、ステップS20に移行し、ステップS10における形態素解析処理により得られた形態素列の先頭の形態素から順に、この形態素の品詞が助詞であるかどうかを判断し、助詞であると判断されたときに、ステップS40からステップS51に移行する。
そして、処理対象の形態素、つまり、助詞であると判定された形態素の次に続く形態素の品詞が、名詞であるかどうかを判定し、名詞であると判定されたときには、ステップS52aに移行して、フィラー辞書31〜33のうちステップS11の処理で特定したフィラー辞書を参照し、このフィラー辞書の中から、フィラーを選択する。
【0064】
一方、ステップS51で、助詞であると判定された形態素に続く形態素が名詞でないと判断された場合にはステップS53に移行し、助詞であると判定された形態素に続く形態素が形容詞であるかどうかを判定する。そして、形容詞でないと判定されるときにはそのままステップS20に戻る。一方、形容詞であると判定されたときにはステップS54aに移行し、フィラー辞書31〜33のうちステップS11の処理で特定したフィラー辞書を参照し、このフィラー辞書の中から、フィラーを選択する。
【0065】
図9は、第3の実施の形態におけるフィラー辞書31〜33の構成を示したものであって、図9に示すように、前記図6に示す第2の実施の形態におけるフィラー辞書において、さらに、キャラクタ性フィラー値f5が追加されている。
このキャラクタ性フィラー値f5は、助詞の形態素と名詞又は形容詞の形態素とが連続する場合に、これら形態素間にフィラーが挿入される際の接続コストを表したものである。この接続コストは、前記形態素解析処理において一般に用いられるコスト最小法で用いている形態素間の接続コストと同等であって、例えば、ある人物の日常会話等において、フィラーが用いられる際の、フィラーの前後の形態素の品詞と用いられるフィラーとの組み合わせについて、このフィラーが用いられる頻度に応じて設定される。
【0066】
ここで、助詞の形態素と名詞又は形容詞の形態素とが連続するときにこれら間にフィラーを挿入するかどうかは、個人によって差がありフィラーと助詞との接続は個人の特性を表すから、この接続コスト、つまりキャラクタ性フィラー値f5は、個人の特性つまりキャラクタ性を有することになる。したがって、各フィラー辞書31〜33毎に、異なる人物について同様にしてキャラクタ性フィラー値f5を設定することによって、個人の特性に応じたフィラー辞書31〜33を得ることができる。
【0067】
このように設定されているフィラー辞書31〜33のうち、ステップS11の処理で特定されたフィラー辞書の中から、フィラー値を選択するが、このフィラー値の選択は、上記第2の実施の形態と同様に行う。つまり、前記ステップS51の処理で、品詞の続きが、助詞+名詞であると判断されている場合には、品詞の続f4が助詞+名詞である識別番号“1”〜“50”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。一方、ステップS53で、品詞の続きが、助詞+形容詞であると判断された場合には、品詞の続きが助詞+形容詞である識別番号“51”〜“100”の間で乱数を発生させて、これに対応する識別番号のフィラーを特定する。
【0068】
次いで、ステップS55に移行し、ステップS51の処理で、連続する形態素の品詞が、助詞+名詞であると判断された場合には、この助詞及び名詞である形態素間の、ステップS10における形態素解析処理により特定される接続コストと、前記ステップS52aで特定したフィラーに相当するキャラクタ性フィラー値f5とを比較する。一方、ステップS53の処理で、連続する形態素の品詞が、助詞+形容詞であると判断された場合には、この助詞及び形容詞である形態素間の、ステップS10における形態素解析処理により特定される接続コストと、前記ステップS54aで特定したフィラーに相当するキャラクタ性フィラー値f5とを比較する。
【0069】
そして、ステップS52a又はS54aで特定したフィラーのフィラー値f5が、形態素間の接続コストよりも小さくない場合には、助詞の後に特定したフィラーが挿入される傾向にはないとして、ステップS20に戻る。一方、ステップS52a又はS54aで特定したフィラーのフィラー値f5が、形態素間の接続コストよりも小さい場合には、助詞の後に特定したフィラーが挿入される可能性が高いとして、ステップS60に移行し、上記第2の実施の形態と同様に挿入判断用乱数を発生させ、この挿入判断用乱数値と、ステップS52a又はS54aで特定したフィラーに相当するフィラー値f3とを比較し(ステップS70)、挿入判断用乱数値がフィラー値f3よりも小さいときにステップS80に移行し、ステップS52a又はS54aで選択したフィラーを、品詞が助詞であると判断された形態素の次に挿入する。一方、挿入判断用乱数値がフィラー値よりも小さくないときにはそのままステップS20に戻る。
【0070】
そして、このようにして、テキスト文書を構成する全ての形態素について処理を行ったならば、ステップS20からステップS90に移行し、テキスト文書に対して、その助詞と名詞との間、又は助詞と形容詞との間に、適宜フィラーが挿入されたフィラー挿入形態素列について、波形辞書4aを用いて合成音声作成処理を行う。
【0071】
このようにして生成された合成音声は、前記キャラクタ性フィラー値f5が、人物の特性を表す値であるから、生成された合成音声は、指定された人物のフィラーの用い方の特性に応じて設定され、人物の特性に応じた箇所に且つ特性に応じたフィラーが挿入されることになる。つまり、同じテキスト文書に対し、異なるフィラー辞書を用いて、合成音声を発生させた場合、これら合成音声は、それぞれ、フィラー辞書の特性に応じた異なる合成音声となる。
【0072】
したがって、音声合成に用いるフィラー辞書を任意に選択することによって、発声様式の特性の異なる合成音声、つまりキャラクタ性のある合成音声を生成することができる。よって、例えば、テキスト文書の作成者や作成者の気分、或いは、テキスト文書の文意に応じてフィラー辞書を選択することによって、状況に応じたキャラクタ性を有する合成音声を発生させることができる。
【0073】
よって、例えば、複数の人物の発声様式の特性(癖)に応じたフィラー辞書を予め設定しておき、合成音声を発生させる際に、好みの人物の特性に応じたフィラー辞書を指定することにより、所望の人物の発声様式の特性に応じた合成音声を発生させることができる。
また、品詞が助詞である形態素とこれに続く名詞又は形容詞である形態素との間の、形態素解析処理で得られた接続コストよりも、ステップS52a又は54aで選択したフィラーのとステップS40で検出した品詞が助詞である形態素との間のキャラクタ性フィラー値f5の方が小さいときにのみフィラーを挿入するようにし、つまり、比較的フィラーが挿入される傾向にあると判断されるときにのみフィラーを挿入するようにしているから、人間の発生様式により則した位置に、これに適したフィラーを挿入することができる。
【0074】
なお、上記第3の実施の形態においては、フィラーを挿入する位置として、助詞と名詞との間、及び助詞と形容詞との間に限定した場合について説明したが、これに限るものではなく、任意の品詞の次、或いは任意の品詞と任意の品詞との間に挿入するようにしてもよい。
また、上記第3の実施の形態においては、各フィラー辞書31〜33は同一種のフィラーを登録した場合について説明したが、人物によって挿入するフィラー或いはフィラーの挿入場所が異なることから、各人物毎にフィラーを挿入する傾向にある品詞、又は連続する品詞と、その場合に用いられるフィラー種とを登録するようにしてもよい。このようにすることによって、より、その人物の発声様式に則してフィラーを挿入することができ、キャラクタ性をより強調することができる。
【0075】
また、上記第3の実施の形態においては、波形辞書4aに基づいて合成音声を生成することにより、声質は同一で、話し方の癖等の発声様式が異なる合成音声を生成するようにした場合について説明したが、例えば、波形辞書も複数設け、発声様式だけでなく、声質も変化させるようにしてもよい。つまり、キャラクタ指定手段7からのキャラクタ指定信号に基づいてフィラー辞書を選択すると共に波形辞書も選択するようにし、あるキャラクタの発声様式及び声質で合成音声を生成するようにしてもよい。また、フィラー辞書及び波形辞書を独立に選択できるようにし、第1の人物の発声様式であり且つ第2の人物の声質の合成音声を生成するようにしてもよい。
【0076】
また、上記第3の実施の形態においては、フィラー辞書において、連続する形態素が、助詞と名詞又は助詞と形容詞である場合に、これら間にフィラーが挿入される際の接続コストをキャラクタ性フィラー値f5として設定するようにした場合について説明したが、連続する形態素が助詞と名詞又は助詞と形容詞である場合の形態素の組み合わせつまり、複数の助詞と複数の名詞又は複数の形容詞との組み合わせ毎に、これら形態素間にフィラーが挿入される際の接続コストをフィラー種毎に検出し、これをキャラクタ性フィラー値f5として設定するようにしてもよい。
【0077】
また、上記第3の実施の形態においては、フィラー辞書からフィラーを選択した後、接続コストとキャラクタ性フィラー値f5とを比較するようにした場合について説明したが、これに限らず、まず、接続コストよりも小さいキャラクタ性フィラー値を有するフィラーを選択し、その中から、挿入候補のフィラーを選択するようにしてもよい。
【0078】
また、上記第3の実施の形態においては、形態素解析において用いた接続コストをもとに、フィラー挿入の判断を行うようにした場合について説明したが、これに限るものではなく、助詞と名詞、及び助詞と形容詞の接続について、助詞及び名詞或いは助詞及び形容詞の組み合わせとなる形態素の種類毎にその接続コストを表すデータベースを設けておき、助詞と名詞又は助詞と形容詞とが特定されたときに、この特定された助詞と名詞又は助詞と形容詞の形態素に該当する接続コストをデータベースから検索し、これとキャラクタ性フィラー値とを比較するようにしてもよい。このようにすることにより、接続コストを用いずに形態素解析を行う場合であっても適用することができる。
【0079】
ここで、上記第3の実施の形態において、図8のステップS10の処理が形態素解析手段に対応し、ステップS20からステップS40の処理が形態素検索手段に対応し、ステップS51からステップS80の処理がフィラー挿入手段に対応し、ステップS90の処理が合成音声作成処理に対応し、図7の波形辞書4aが音声波形辞書に対応し、図7のキャラクタ指定手段7及び図8のステップS11の処理がフィラー辞書選択手段に対応し、図9のキャラクタ性接続コストf5がフィラー接続コストに対応している。
【0080】
なお、上記第3の実施の形態と同様に、上記第1及び第2の実施の形態においても、キャラクタ性フィラー値f5に相当する、一般に用いられる助詞及び名詞、又は助詞及び形容詞である形態素と、これら間に挿入するフィラーとの組み合わせについて、接続コスト相当のフィラー値を設定しておき、選択したフィラーのこの接続コスト相当のフィラー値と、前記助詞及び名詞又は助詞及び形容詞との接続コストとを比較し、接続コスト相当のフィラー値の方が小さいときにこのフィラーを挿入候補のフィラーとして取り扱うようにしてもよい。このようにすることによって、より人間らしい発声様式の合成音声を生成することができる。
【0081】
また、上記各実施の形態においては、音声合成装置100単体の場合について説明したが、この音声合成装置100は、例えば、カーナビゲーションシステムや、携帯電話、音声により所定の処理を行う装置等、合成音声を発声する装置であれば適用することができる。
また、上記各実施の形態においては、フィラー挿入部3を、音声合成装置100に組み込んだ場合について説明したが、これに限るものではなく、例えば、図10に示すように、前述の形態素解析手段としての形態素解析部2、形態素解析用辞書2a、形態素検索手段及びフィラー挿入手段としてのフィラー挿入部3及びフィラー辞書3aとからなるフィラー挿入装置20を構成し、入力されるテキスト文書に対してフィラーを挿入し、フィラー付テキスト文書として出力する装置を実現することもできる。
【0082】
そして、このようにしてフィラー挿入装置50によりフィラーが追加されたフィラー付テキスト文書を、前述のテキスト入力部1、形態素解析部2及び形態素解析用辞書2a、合成音声作成部4及び波形辞書4aからなる音声合成装置101に入力し、前記波形辞書4aに、フィラー挿入装置50において用いたフィラー辞書に登録されているフィラーを形態素として形態素解析用辞書2aに登録しておくと共に、このフィラーに相当する合成音声を生成するために必要な波形データを波形辞書4aに登録しておくことによって、フィラー挿入装置50によりフィラーが挿入されたテキスト文書に相当する合成音声を、音声合成装置101において生成することができる。
【0083】
また、このとき、合成音声にキャラクタ性を設ける場合には、図11に示すように、前述の形態素解析手段としての形態素解析部2及び形態素解析用辞書2aと、形態素検索手段及びフィラー挿入手段としてのフィラー挿入部3及びフィラー辞書31〜33とからフィラー挿入装置50aを構成し、入力されるテキスト文書に対し、フィラー辞書選択手段としてのキャラクタ指定手段7で指定されるキャラクタ指定信号に応じたフィラー辞書を用いてフィラーを挿入し、このフィラーが挿入されたフィラー付テキスト文書を、音声合成装置101aに通知する。
【0084】
そして、前述のテキスト入力部1、形態素解析部2及び形態素解析用辞書2a、合成音声作成部4及び波形辞書41〜43からなる音声合成装置101aにおいて、形態素解析用辞書2aにフィラー挿入装置50aのフィラー辞書31〜33に登録されているフィラーに相当する形態素を登録しておき、これらフィラーに相当する合成音声を生成するために必要な波形データを波形辞書4aに登録しておくことによって、この波形辞書4aを用いて合成音声を作成することにより、フィラーが挿入されたテキスト文書に相当する合成音声を、指定されたキャラクタに則した発声様式で生成することができる。
【0085】
また、このとき、キャラクタ指定手段7は、フィラー挿入装置50aに設け、フィラー挿入装置50a側でキャラクタを指定するようにしてもよく、また、テキスト文書の作成側で設定するようにしてもよい。
このように形成したフィラー挿入装置50又は50aを、例えば、電子メールサーバに設け、電子メールサーバが電子メールを中継する際に、電子メールサーバにおいてフィラーを挿入させるようにし、また、このとき、電子メールサーバにおいてキャラクタ指定を行って任意のキャラクタ特性を有するフィラーを挿入させるようにしてもよい。また、キャラクタ指定手段7を、電子メールの送り手側に設け、送り手側でキャラクタを指定しこれを電子メールと共に送信するようにしてもよい。或いは、フィラー挿入装置50又は50aを電子メールの送り手側に設け、作成したテキスト文書に対して、送り手側で任意のキャラクタ特性を有するフィラーを付与して送信するようにしてもよく、また、電子メールの受け手側に設け、受け手側において任意のキャララクタ特性を選択し、これに応じたフィラーを挿入した合成音声を生成するようにしてもよい。
【0086】
また、上記各実施の形態においては、フィラー挿入後のテキスト文書に基づいて、合成音声を生成するようにした場合について説明したが、これに限るものではなく、例えば、電子メール等の入力されるテキスト文書を画面表示する表示装置や、画面対話式の対話システム、或いは入力されるテキスト文書を印刷する印刷装置等に適用することも可能であり、要は、入力されるテキスト文書に対して所定の処理を行う装置であれば適用することができる。
【0087】
また、上記各実施の形態においては、入力されるテキスト文書に対し、フィラーを挿入するか否かをランダムに決定してフィラーを挿入するようにした場合について説明したが、例えば、フィラーを挿入するモードとフィラーを挿入しないモードとを選択するモード選択手段を設け、モード選択手段でフィラーを挿入するモードが選択されたときにのみ、フィラー挿入を行うようにしてもよい。
【0088】
また、上記第1の実施の形態における音声合成処理を実行するプログラム、形態素解析用辞書2a、フィラー辞書3a及び波形辞書4aを、フレキシブルディスク、コンパクトディスク(CD)、光磁気ディスク(MO)、フラッシュメモリ等の半導体メモリ等で構成される記憶媒体にコンピュータで読み取り可能に記憶し、この記憶媒体を携行してパーソナルコンピュータ等に装着してプログラムをインストールするか、プログラムを読み取って実行することにより、上記第1の実施の形態と同等の作用効果を任意の場所で行うことも可能である。
【0089】
同様に、第2の実施の形態においても、図5に示す第2の実施の形態における音声合成処理を実行するプログラム、形態素解析用辞書2a、フィラー辞書3a及び波形辞書4aを、前述の記憶媒体に記憶するようにしてもよく、また、第3の実施の形態においても、図8に示す音声合成処理を実行するプログラム、形態素解析用辞書2a、フィラー辞書31〜33及び波形辞書4aを、前述の記憶媒体に記憶するようにしてもよい。
【0090】
また、同様に、前記図10に示すフィラー挿入装置50を構成する形態素解析部2における形態素解析処理及びフィラー挿入部3におけるフィラー挿入処理を行うプログラム、形態素解析用辞書2a及びフィラー辞書3aを前述の記憶媒体に記憶するようにしてもよく、また、前記図11に示すフィラー挿入装置50aを構成する形態素解析部2における形態素解析処理及びフィラー挿入部3におけるフィラー挿入処理を行うプログラム、形態素解析用辞書2a及びフィラー辞書31〜33を前述の記憶媒体に記憶するようにしてもよい。
【0091】
【発明の効果】
この請求項1乃至9に係る発明によれば、入力されるテキスト文書を形態素に分割してその品詞を特定し、形態素に分割して得られた前記テキスト文書を構成する形態素列において、予め設定した特定の品詞の形態素の次に、フィラーを挿入し、予めフィラーに相当する合成音声を生成可能な音声波形データを登録した音声波形辞書を用いて合成音声を生成するようにしたから、入力されたテキスト文書に対しフィラーが挿入された合成音声を生成することができ、より人間味のある合成音声を生成することができると共に、フィラーは意味のない言葉であるから、テキスト文書の意味を変えることなく実現することができる。また、形態素間にフィラーを挿入するようにしているから、形態素間であれば任意の場所にフィラーを挿入することができ、また、形態素を構成する単語の途中にフィラーが挿入されることを回避することができる。
【0092】
また、請求項2に係る発明によれば、フィラー辞書に登録されたフィラーの中から、ランダムにフィラーを選択するようにしているから、同じフィラーが連続して選択されることを回避することができる。
また、請求項3に係る発明によれば、フィラー辞書を複数設け、この複数のフィラー辞書のうちのフィラー辞書選択手段で選択したフィラー辞書からフィラーを選択するようにしたから、例えば、各フィラー辞書毎に、個人が用いるフィラーの種類に応じてフィラーを登録してキャラクタ性をもたせることによって、テキスト文書に基づき、キャラクタ性のある合成音声を生成することができ、より面白味を与えることができる。
【0093】
また、請求項4に係る発明によれば、フィラーを挿入するか否かをランダムに決定し、フィラーを挿入すると判断したときにのみフィラーを挿入するようにしたから特定の品詞の形態素の次に必ずフィラーが挿入されることにより違和感を与えることを回避することができる。
また、請求項5乃至7に係る発明によれば、テキスト文書を構成する形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるときにのみ、フィラーを挿入するようにしたから、例えば一般の会話においてフィラーが用いられる際の、フィラーの前後の形態素の品詞に応じて、特定の品詞及び後続品詞を指定することによって、一般のフィラーの用い方に則した箇所にフィラーを挿入することができる。
【0094】
また、請求項8に係る発明によれば、一般に、形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と選択されたフィラーとが接続される可能性の方が高いときにのみ、選択したフィラーを挿入するようにしたから、フィラーが不自然な場所に挿入されることを回避することができ、フィラーをより的確な位置に挿入することができる。
【0095】
また、本発明の請求項10乃至12に記載の発明によれば、入力されたテキスト文書を形態素に分割してその品詞を特定し、この解析により得られた前記テキスト文書を構成する形態素列に対し予め設定した特定の品詞の形態素を検索し、検索した特定の品詞の形態素の次にフィラーを挿入するようにしたから、入力されるテキスト文書を、より人間味のあるテキスト文書に変化することができると共に、フィラーは意味のない言葉であるから、テキスト文書の文意を変えることなく実現することができる。また、このとき形態素間に挿入するようにしているから、形態素を構成する単語の途中にフィラーが挿入されることはなく、また、形態素間であれば任意の場所にフィラーを挿入することができる。
【図面の簡単な説明】
【図1】第1の実施の形態における音声合成装置の概略構成の一例を示すブロック図である。
【図2】第1の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図3】第1の実施の形態におけるフィラー辞書の一例である。
【図4】第1の実施の形態の動作説明に供する説明図である。
【図5】第2の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図6】第2の実施の形態におけるフィラー辞書の一例である。
【図7】第3の実施の形態における音声合成装置の概略構成の一例を示すブロック図である。
【図8】第3の実施の形態における音声合成処理の処理手順の一例を示すフローチャートである。
【図9】第3の実施の形態におけるフィラー辞書の一例である。
【図10】フィラー挿入装置50を構成した場合の概略構成を示すブロック図である。
【図11】フィラー挿入装置50aを構成した場合の概略構成を示すブロック図である。
【符号の説明】
1 テキスト入力部
2 形態素解析部
2a 形態素解析用辞書
3 フィラー挿入部
3a、31〜33 フィラー辞書
4 合成音声作成部
4a 波形辞書
7 キャラクタ指定手段
50、50a フィラー挿入装置
101、101a 音声合成装置
Claims (12)
- 入力されるテキスト文書に応じた合成音声を生成する音声合成装置において、
前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、
前記フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書と、
当該音声波形辞書をもとに、前記フィラー挿入手段によりフィラーが挿入された形態素列に応じた音声波形を生成する音声波形生成手段と、を備えることを特徴とする音声合成装置。 - 前記フィラー挿入手段は、複数のフィラーが登録されたフィラー辞書を有し、
挿入するフィラーを、前記フィラー辞書の中からランダムに選択するようになっていることを特徴とする請求項1記載の音声合成装置。 - 複数の前記フィラー辞書と、
当該複数のフィラー辞書の何れかを指定するフィラー辞書選択手段と、を備え、
前記フィラー挿入手段は、前記フィラー辞書選択手段で指定されたフィラー辞書の中から前記フィラーを選択するようになっていることを特徴とする請求項2記載の音声合成装置。 - 前記フィラー挿入手段は、前記フィラーを挿入するか否かをランダムに決定し、前記フィラーを挿入すると判断したときにのみ前記フィラーを挿入するようになっていることを特徴とする請求項1乃至3の何れかに記載の音声合成装置。
- 前記フィラー挿入手段は、前記形態素列において、特定の品詞の形態素の次に続く形態素の品詞が、予め設定した特定の後続品詞であるか否かを判定し、特定の後続品詞であるときにのみ、前記フィラーを挿入するようになっていることを特徴とする請求項1乃至4の何れかに記載の音声合成装置。
- 前記特定の品詞は、助詞であることを特徴とする請求項1乃至5の何れかに記載の音声合成装置。
- 前記特定の後続品詞は、名詞又は形容詞であることを特徴とする請求項5又は6記載の音声合成装置。
- 前記フィラー辞書に登録されたフィラー毎に、当該フィラーが、前記特定の品詞の形態素の次に接続される可能性を表すフィラー接続コストを予め設定しておき、
前記フィラー挿入手段は、前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性を表す接続コストを検出し、
当該接続コストと、前記形態素検索手段で検索された形態素及び前記フィラー辞書から選択されたフィラー間の前記フィラー接続コストとに基づき、前記形態素列において前記形態素検索手段で検索された形態素とこれに続く形態素とが接続される可能性よりも、前記形態素検索手段で検索された形態素と前記選択されたフィラーとが接続される可能性の方が高いときにのみ、前記選択したフィラーを挿入するようになっていることを特徴とする請求項1乃至7の何れかに記載の音声合成装置。 - 入力されるテキスト文書を形態素に分割して前記テキスト文書を構成する形態素列を検出すると共にその品詞を特定し、
前記形態素列において予め設定した特定の品詞の形態素の次にフィラーを挿入し、
当該フィラーに相当する合成音声を生成可能な音声波形データを含む音声波形辞書に基づいて、前記フィラーを挿入した形態素列に対する合成音声を生成することを特徴とする音声合成方法。 - 入力されるテキスト文書に対しフィラーを挿入するようにしたフィラー挿入装置であって、
前記テキスト文書を形態素に分割しその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列の前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備えることを特徴とするフィラー挿入装置。 - 入力されるテキスト文書を形態素に分割してその品詞を特定し、
前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素の次に、フィラーを挿入するようにしたことを特徴とするフィラー挿入方法。 - 入力されるテキスト文書を形態素に分割してその品詞を特定する形態素解析手段と、
当該形態素解析手段による解析結果に基づき、当該解析により得られた前記テキスト文書を構成する形態素列に対し、予め設定した特定の品詞の形態素を検索する形態素検索手段と、
前記形態素列において、前記形態素検索手段で検索した形態素の次に、フィラーを挿入するフィラー挿入手段と、を備え、且つ、コンピュータが実行可能なフィラー挿入プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002283253A JP2004118004A (ja) | 2002-09-27 | 2002-09-27 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002283253A JP2004118004A (ja) | 2002-09-27 | 2002-09-27 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004118004A true JP2004118004A (ja) | 2004-04-15 |
Family
ID=32277168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002283253A Pending JP2004118004A (ja) | 2002-09-27 | 2002-09-27 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004118004A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056590A1 (fr) * | 2006-11-08 | 2008-05-15 | Nec Corporation | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
WO2010092710A1 (ja) * | 2009-02-16 | 2010-08-19 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
JP2014048443A (ja) * | 2012-08-31 | 2014-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成システム、音声合成方法及び音声合成プログラム |
JP6134043B1 (ja) * | 2016-11-04 | 2017-05-24 | 株式会社カプコン | 音声生成プログラムおよびゲーム装置 |
-
2002
- 2002-09-27 JP JP2002283253A patent/JP2004118004A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008056590A1 (fr) * | 2006-11-08 | 2008-05-15 | Nec Corporation | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
WO2010092710A1 (ja) * | 2009-02-16 | 2010-08-19 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
JP2010190995A (ja) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | 音声処理装置、音声処理方法及び音声処理プログラム |
US8650034B2 (en) | 2009-02-16 | 2014-02-11 | Kabushiki Kaisha Toshiba | Speech processing device, speech processing method, and computer program product for speech processing |
JP2014048443A (ja) * | 2012-08-31 | 2014-03-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成システム、音声合成方法及び音声合成プログラム |
JP6134043B1 (ja) * | 2016-11-04 | 2017-05-24 | 株式会社カプコン | 音声生成プログラムおよびゲーム装置 |
JP2018072765A (ja) * | 2016-11-04 | 2018-05-10 | 株式会社カプコン | 音声生成プログラムおよびゲーム装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4114888B2 (ja) | 声質変化箇所特定装置 | |
KR100403293B1 (ko) | 음성합성방법, 음성합성장치 및 음성합성프로그램을기록한 컴퓨터판독 가능한 매체 | |
US6823309B1 (en) | Speech synthesizing system and method for modifying prosody based on match to database | |
US7096183B2 (en) | Customizing the speaking style of a speech synthesizer based on semantic analysis | |
US20030074196A1 (en) | Text-to-speech conversion system | |
JP2003295882A (ja) | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム | |
EP1668628A1 (en) | Method for synthesizing speech | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JPWO2004066271A1 (ja) | 音声合成装置,音声合成方法および音声合成システム | |
US20030229494A1 (en) | Method and apparatus for sculpting synthesized speech | |
CN110741430A (zh) | 歌唱合成方法及歌唱合成系统 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP3595041B2 (ja) | 音声合成システムおよび音声合成方法 | |
JP2007264284A (ja) | 感情付加装置、感情付加方法及び感情付加プログラム | |
JP2004118004A (ja) | 音声合成装置 | |
JP2007086309A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
JP3346671B2 (ja) | 音声素片選択方法および音声合成装置 | |
US20050187772A1 (en) | Systems and methods for synthesizing speech using discourse function level prosodic features | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP2003099089A (ja) | 音声認識・合成装置および方法 | |
JP2005181840A (ja) | 音声合成装置及び音声合成プログラム | |
JP3603008B2 (ja) | 音声合成処理装置 | |
JP4056647B2 (ja) | 波形接続型音声合成装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060324 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070220 |