JP4260071B2

JP4260071B2 - 音声合成方法、音声合成プログラム及び音声合成装置

Info

Publication number: JP4260071B2
Application number: JP2004193094A
Authority: JP
Inventors: 光昭磯貝; 一則間野; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-06-30
Filing date: 2004-06-30
Publication date: 2009-04-30
Anticipated expiration: 2024-06-30
Also published as: JP2006017819A

Description

本発明は、キーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力される、任意のテキスト情報に応じた音声を出力する音声合成方法、音声合成プログラム及び音声合成装置に関するものである。

近年、テキスト音声合成の分野では、従来からのニュースの読み上げや情報案内等の書き言葉を対象とした比較的単調な口調を有する読み上げ音声としての利用の他、音声対話システムの応答音声としての利用が求められるようになってきている（非特許文献１参照）。

こういった応答音声では、人間らしさや親しみ易さを感じさせるために話し言葉が使われることが多い。話し言葉には、書き言葉にない表現の一つとして、「えーと」や「あのー」等の発話の一部を埋める言葉（以下、フィラーと呼ぶ。）が出現するという特徴がある。フィラーそれ自体は言語的な意味を持たないことが多いが、考え込んでいる様子や戸惑い、注意喚起等の非言語的な意味を伝えるために有用であり、音声対話システムでも意図的にフィラーを挿入した応答音声を用いることがある（特許文献１参照）。
特開平１１−２３７９７０号公報吉岡他「対話型自動プレゼンテーションシステム」日本音響学会講演論文集、１−Ｑ−２５、２０００年３月

しかし、従来の音声合成システムは書き言葉を主要な対象としてきたため、フィラーのような、通常の書き言葉とは異なる特殊な言葉には対応しておらず、フィラーを含んだ音声を合成しようとすると、却って不自然な音声となることが多いという問題があった。

具体的には、一般にテキスト音声合成では音声の明瞭性を重視するため、音声波形データベースも明瞭な発声データを基に構築されるが、フィラーの発声様式はあいまい且つ不明瞭であることが多いので、一般的な明瞭な発声の音声波形データベースを用いて音声合成を行うと、フィラーとしては明瞭すぎて不自然な音声となってしまう。

また、フィラーの韻律は一般的なテキスト（書き言葉）の韻律規則から逸脱しており、また、そのフィラーの非言語的な意味に応じて、発話の間を埋めるために長めの発声をすることがあったり、平坦な抑揚であったり、発話の前後のポーズ（無音部分）区間長が通常の規則とは異なったりするので、従来の音声合成方法では韻律面でも不自然な音声となっていた。

本発明は上述した問題に鑑みてなされたものであり、その目的は、フィラーを含むテキスト情報が入力された際に、フィラーの持つ非言語的な意味を表現して自然な音質や韻律を有する合成音声を生成できる音声合成方法、音声合成プログラム及び音声合成装置を提供することを目的とする。

本発明では、フィラーに非言語的な意味を付与するための韻律パラメータとして、フィラーの前後のポーズ区間長、フィラーの話速、ピッチ、パワー等をフィラー韻律データベースに格納しておき、フィラー合成の際にこれらの韻律パラメータを適用して韻律設定を行う手段を提供する。

また、本発明では、音声合成装置の入力として、フィラーを含むテキスト情報と共にフィラーの前後のポーズ区間長、フィラーの話速、ピッチ、パワーを明示的にコントロールする情報を与えることにより、これらのパラメータを音声合成時に動的かつ明示的に制御する手段を提供する。

また、本発明では、音声合成装置の入力として、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を受け付け、テキスト解析部により、テキスト情報からフィラー部分を抽出した結果、フィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分については、様々なフィラーの肉声から抽出した音声波形データを格納したフィラー音声波形データベースから音声波形データを選択して音声を合成し、また、フィラー部分のうち、予め指定したモーラ数未満あるいは音節数未満のフィラー部分については一般的なテキストとともに、汎用音声波形データベースから音声波形データを選択して音声を合成する手段を提供する。

本発明では、フィラーに非言語的な意味を付与するための韻律パラメータとしてフィラーの前後のポーズ区間長、フィラーの話速やピッチ、パワーをフィラー韻律データベースに格納し、これらの韻律パラメータをフィラーの合成の際に適用して韻律設定を行う手段を提供する。

これにより、従来の音声合成方法では韻律面で不自然な音声となっていた問題を解決できる効果がある。また、ユーザが予めフィラー韻律データベースに適切な韻律パラメータを設定しておくことにより、ユーザがそのフィラーに対して非言語的な意味を付与できる効果がある。例えば、ピッチやパワーの相対値を大きく設定して登録しておくことにより、注意を喚起する印象を与える音声を自動的に生成できる。また、フィラー毎のポーズ間隔を設定することにより音声を発声しない時間長を明確に設定できるので、例えば、あるフィラーの後のポーズ間隔を長めに設定してフィラー韻律データベースに登録しておくことで、考え込んでいる印象の音声を自動的に生成できる。

また、本発明では、音声合成装置の入力として、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びにフィラー部分の前後のポーズ区間長、フィラー部分の話速やピッチ、パワーを明示的にコントロールする情報を与えることにより、これらのパラメータを音声合成時に動的かつ明示的に制御する手段を提供する。

これにより、フィラーの前後のポーズ間隔の長短、フィラーの話速やピッチの高低、パワーの大小が合成音声の印象に与える印象（例えば、ポーズ間隔を長くすることにより考え込んだ印象を与える等の非言語的な意味情報）を、音声合成時に動的に制御する枠組みを提供できる効果がある。

また、本発明では、様々なフィラーの肉声から抽出した音声データを格納したフィラー音声波形データベースを用いて音声合成を行う。

これにより、フィラーの発声様式があいまいで不明瞭な発声であることが多く、一般的な明瞭な発声の汎用音声波形データベースを用いて音声合成を行うとフィラーとして不自然な音質となってしまうという問題を解決できる。

但し、本発明では、フィラー音声波形データベースの音声波形データを用いて合成を行うのは、フィラーとして合成したいフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてのみとする。

これは、発明者らが行った次の聴取実験から得られた知見に基づいている。

まず、音声波形データベースとして汎用音声波形データベースのみを有する音声合成装置により、フィラーを含んだ短文の音声（以下、音声Ａ）を作成した。そして、作成した音声のフィラー部分を、汎用音声波形データベースと同一の話者が発声したフィラー音声と置き換えた音声（以下、音声Ｂ）を作成した。同様にして計１０対の音声を作成し、提示順序を変えて延べ２０対の音声を被験者１０名に聴取させて、一対の音声を提示する毎に、どちらが自然な音声であるかを選択させた。ある音声の対は、実験中提示順序を変えて２回聴取されることになるが、ある被験者が同一の音声対に対して１回目と２回目で選択した音声が異なった場合は、ある被験者にとって音声Ａと音声Ｂの自然性は同一であるとして扱った。聴取対象の音声に含まれるフィラーはモーラ数１のものから４のものまでが含まれている。

その結果、音声Ａが好まれた割合をフィラーのモーラ数毎に調査したところ、モーラ数１の場合が３３．０％、モーラ数２の場合が３０．０％、モーラ数３の場合が５．０％、モーラ数４の場合が１０．０％であった。また、音声Ｂが好まれた割合は、フィラーのモーラ数１の場合が１５．８％、モーラ数２の場合が４３．３％、モーラ数３の場合が８２．５％、モーラ数４の場合が９０．０％であった（音声Ａと音声Ｂの割合を合計して１００％にならないモーラがあるのは、自然性が同一であると判定された音声があるため）。

この結果から、短いフィラーほど汎用音声波形データベースのみを用いて音声合成を行ったほうが自然であり、逆に、長いフィラーほどフィラー発声から抽出した音声波形からなるデータベースを用いて音声合成を行ったほうが自然であるといえる。

これは、モーラ数が少ない場合にはフィラーの発声様式に基づいた音声との置き換えを行っても音声の発声持続時間が短いので、フィラーの発声様式の音声を使った効果が現れず自然性の向上に貢献しない上、むしろ置き換えたフィラー部分とその他の部分とのピッチ（声の高さ）のギャップが目立ってしまうために、評価が低くなってしまうからである。なお、ギャップを解消するために音声波形に信号処理を行ってピッチを変更したとしても信号処理に伴う音質劣化を招いてしまうため、これも自然性を損なう原因になってしまう。また、モーラ数が少ないので波形接続部分も少なく、波形接続に伴う音質劣化も小さいという理由もある。よって、モーラ数がある程度少ないフィラーの場合には、汎用音声波形データベースを用いて音声合成を行ったほうが良い。

一方、モーラ数が多い場合には、置き換えたフィラー部分とその他の部分とのピッチ（声の高さ）のギャップがあっても、フィラーの発声様式の音声が長時間持続するため、音声全体としては自然性が向上する。よって、モーラ数がある程度以上より多いフィラーの場合には、フィラー音声波形データベースを用いて音声合成を行ったほうが良い。

よって、本発明ではフィラー音声波形データベースの音声波形データを用いて合成を行うのは、フィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてのみとして構成し、また、フィラー部分のうち、予め指定したモーラ数未満あるいは音節数未満のフィラー部分は、フィラーとして合成しない一般的なテキストとともに汎用音声波形データベースから音声波形データを選択して音声を合成するよう構成することにより、自然な音質や韻律を有する合成音声を生成できるという効果が得られる。

以下、本発明を実施するための最良の形態について図面を参照して説明する。

＜第１の実施の形態＞
図１は本発明の音声合成装置の第１の実施の形態を示すもので、図中、１は汎用テキスト解析辞書、２はフィラー辞書、３は汎用韻律規則、４はフィラー韻律データベース、５は汎用音声波形インデックス、６はフィラー音声波形インデックス、７は汎用音声波形データベース、８はフィラー音声波形データベース、９はテキスト解析部、１０は韻律生成部、１１は音声波形選択部、１２は音声信号生成部である。

テキスト解析辞書１は、一般的なテキスト解析のための辞書情報、即ち一般的なテキストの音韻（読み）、モーラ数、アクセント型等を格納している。フィラー辞書２は、フィラーの辞書情報、即ちフィラーの音韻（読み）、モーラ数等を格納している。

汎用韻律規則３は、一般的なテキストの韻律生成規則を格納している。フィラー韻律データベース４は、フィラー辞書２に格納されているフィラーについてその前後のポーズ区間長、話速、音韻継続時間長、ピッチ（絶対値及び前後のアクセント句との相対値）、パワー（絶対値及び前後のアクセント句との相対値）等の韻律パラメータを格納している。

汎用音声波形インデックス５は、汎用音声波形データベース７に格納されている音声波形データの音韻情報、音韻継続時間長情報、ピッチ情報、パワー情報を格納している。フィラー音声波形インデックス６は、フィラー音声波形データベース８に格納されている音声波形データの音韻情報、音韻継続時間長情報、ピッチ情報、パワー情報を格納している。

汎用音声波形データベース７は、汎用の音声波形データを格納している。フィラー音声波形データベース８には、フィラー辞書２に格納されているフィラーの音声波形データを格納している。

なお、汎用音声波形インデックス５は汎用音声波形データベース７に格納されている音声波形データを選択するためのものであり、汎用音声波形データベース７と一体化することも可能である。同様に、フィラー音声波形インデックス６はフィラー音声波形データベース８に格納されている音声波形データを選択するためのものであり、フィラー音声波形データベース８と一体化することも可能である。

また、フィラー辞書２、フィラー韻律データベース４、フィラー音声波形インデックス６及びフィラー音声波形データベース８については、フィラー辞書２に格納されているフィラーに関するデータが、フィラー韻律データベース４、フィラー音声波形インデックス６及びフィラー音声波形データベース８にも必ず存在するように構成されている。

テキスト解析部９は、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書２を参照してフィラー部分を抽出し、前記テキスト情報におけるフィラー部分と一般的なテキストとを判別する。そして、一般的なテキストについてはテキスト解析辞書１を参照し、これに対応した音韻系列、アクセント型等の情報を決定し、また、フィラー部分についてはフィラー辞書２を参照し、これに対応した音韻系列を決定する。

韻律生成部１０は、一般的なテキストについては汎用韻律規則３を参照して韻律パラメータを生成し、また、フィラー部分についてはフィラー韻律データベース４から対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する。

音声波形選択部１１は、テキスト解析部９及び韻律生成部１０で得られた情報、即ち音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス５を参照して音声合成に使用する音声波形データを選択する。フィラー部分については、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはフィラー音声波形インデックス６を参照して音声合成に使用する音声波形データを選択し、また、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分については汎用音声波形インデックス５を参照して音声合成に使用する音声波形データを選択する。

音声信号生成部１２は、音声波形選択部１１で選択された情報を基に、一般的なテキストについては汎用音声波形データベース７から音声波形データを読み出し、また、フィラー部分についてはフィラー音声波形データベース８もしくは汎用音声波形データベース７から音声波形データを読み出し、合成音声信号を生成し、結果として出力する。

前記テキスト解析部９、韻律生成部１０、音声波形選択部１１及び音声信号生成部１２における一般的なテキストの音声合成処理については、特許第２７６１５５２号等により、従来から提案されている音声合成方法で用いられているのと同様の手法が適用できるので、以下では具体的な説明を省略する。

図２は本実施の形態における音声合成処理のフローチャートを示すもので、以下、図２に従って図１に示した音声合成装置の動作を説明する。

まず、音声合成装置に一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報が入力される（ｓ１）と、テキスト解析部９では、フィラー辞書２を参照してテキスト情報中からフィラーにマッチする部分を探してフィラー部分を抽出し、フィラー部分とそれ以外の部分、即ち一般的なテキストとを判別する（ｓ２）。

例えば、入力されるテキスト情報が
「はい、えーと、１時からです。」
であり、フィラー辞書２に「えーと」が登録されていれば、フィラー辞書２とのマッチングにより「えーと」がフィラー部分として抽出される。

続いて、テキスト解析部９では、次のようなテキスト解析処理を行う（ｓ３）。即ち、一般的なテキストについてはテキスト解析辞書１を参照し、これに対応する音韻系列、アクセント型等の情報を決定し、また、フィラー部分についてはフィラー辞書２を参照し、ｓ２でマッチしたフィラーに対応する音韻系列のデータを読み出すことによりフィラー部分の音韻系列を決定する。

次に、韻律生成部１０では、韻律パラメータを生成する（ｓ４）。即ち、一般的なテキストについては汎用韻律規則３を参照して韻律パラメータを生成する。また、フィラー部分についてはフィラー韻律データベース４を参照し、これに対応する韻律パラメータを読み出して韻律パラメータを生成する。

フィラー部分の韻律に関し、音韻継続時間長やポーズ区間長については、フィラー韻律データベース４に格納されている音韻継続時間長やポーズ区間長の値を用いる。また、ピッチやパワーについては、フィラー韻律データベース４に格納されているピッチの値やパワーの値を用いる。ピッチやパワーの値としては絶対値やフィラー部分前後のピッチやパワーとの相対値を用いるようにしても良い。

また、ｓ４では、フィラー部分も含め、まず全てを一般的なテキストとして汎用韻律規則３により韻律パラメータの生成処理を行った後に、フィラー部分の韻律処理を行っても良い。なお、フィラー韻律データベース４は、予めフィラー音声波形データベース８の実音声波形から取得したフィラー部分の話速やピッチパタンやパワー情報等の韻律パラメータを格納しておいても良い。

次に、音声波形選択部１１では、テキスト解析部９及び韻律生成部１０で得られた音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス５を参照して音声合成に使用する音声波形データを選択する。また、フィラー部分については、予め指定したモーラ数ｎ以上のモーラからなるフィラー部分についてはフィラー音声波形インデックス６を参照し、予め指定したモーラ数ｎ未満のモーラからなるフィラー部分については汎用音声波形インデックス５を参照し、音声合成に使用する音声波形データを選択する（ｓ５）。なお、本実施の形態では、聴取実験の結果を踏まえてモーラ数ｎ＝２とする。

そして、音声信号生成部１２では、ｓ５の音声波形データの選択結果に基づいて、一般的なテキストについては汎用音声波形データベース７から音声波形データを読み出し、フィラー部分のうち、予め指定したモーラ数ｎ以上のモーラからなるフィラー部分についてはフィラー音声波形データベース８から音声波形データを読み出し、予め指定したモーラ数ｎ未満のモーラからなるフィラー部分については汎用音声波形データベース７から音声波形データを読み出し、これらの音声波形データの韻律変更処理をｓ５の結果に基づいて行い、波形接続を行って合成音声信号を生成する（ｓ６）。

＜第２の実施の形態＞
図３は本発明の音声合成装置の第２の実施の形態、ここではテキスト情報として一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むもの、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むものを用いる場合に対応する形態を示すもので、図中、第１の実施の形態と同一構成部分は同一符号をもって表す。即ち、１は汎用テキスト解析辞書、２はフィラー辞書、３は汎用韻律規則、４はフィラー韻律データベース、５は汎用音声波形インデックス、６はフィラー音声波形インデックス、７は汎用音声波形データベース、８はフィラー音声波形データベース、１１は音声波形選択部、１２は音声信号生成部、２１はテキスト解析部、２２は韻律生成部である。

テキスト解析部２１は、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいてフィラー部分もしくはフィラー部分及びそれに対応する韻律制御情報を抽出し、前記テキスト情報におけるフィラー部分と一般的なテキストとを判別する。そして、フィラー辞書２を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベース８に存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定する。さらに、前記対応する音声波形データがフィラー音声波形データベース８に存在せず、一般的なテキストとして扱うように設定したフィラー部分を含めて一般的なテキストについてはテキスト解析辞書１を参照し、これに対応した音韻系列、アクセント型等の情報を決定し、また、対応する音声波形データがフィラー音声波形データベース８に存在するフィラー部分についてはフィラー辞書２を参照し、これに対応した音韻系列を決定する。

韻律生成部２２は、一般的なテキストについては汎用韻律規則３を参照して韻律パラメータを生成し、また、フィラー部分についてはフィラー韻律データベース４から対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらにこの際、前述したフィラー部分の韻律制御情報があればこれに基づいて韻律パラメータを変更する。

第１の実施の形態の場合と同様、テキスト解析部２１、韻律生成部２２、音声波形選択部１１及び音声信号生成部１２における一般的なテキストの音声合成処理については、特許第２７６１５５２号等により、従来から提案されている音声合成方法で用いられているのと同様の手法が適用できるので、以下では具体的な説明を省略する。

図４は本実施の形態における音声合成処理のフローチャートを示すもので、以下、図４に従って図３に示した音声合成装置の動作を説明する。

まず、音声合成装置に一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含む、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報が入力される（ｓ１１）と、テキスト解析部２１では、テキスト情報中のフィラー部分指定情報に従ってフィラー部分を抽出し、フィラー部分とそれ以外の部分、即ち一般的なテキストとを判別する（ｓ１２）。

例えば、入力されるテキスト情報が
「はい、＜filler＞えーと＜／filler＞、１時からです。」
であり、フィラー部分指定情報がタグ＜filler＞及び＜／filler＞であって、このタグ＜filler＞とタグ＜／filler＞とで挟まれた部分が指定されたフィラー部分であるとすると、「えーと」の部分がフィラー部分として抽出される。

そして、テキスト解析部２１では、フィラー辞書２を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベース８に存在するか否かをチェックし、フィラー部分として指定されたにも拘わらずフィラー辞書２に登録がない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定する（ｓ１３）。

続いて、テキスト解析部２１では、次のようなテキスト解析処理を行う（ｓ１４）。即ち、前記対応する音声波形データがフィラー音声波形データベース８に存在せず、一般的なテキストとして扱うように設定したフィラー部分を含めて一般的なテキストについてはテキスト解析辞書１を参照し、これに対応する音韻系列、アクセント型等の情報を決定し、また、対応する音声波形データがフィラー音声波形データベース８に存在するフィラー部分についてはフィラー辞書２を参照し、対応する音韻系列のデータを読み出すことによりフィラー部分の音韻系列を決定する。

次に、韻律生成部２２では、韻律パラメータを生成する（ｓ１５）。即ち、一般的なテキストについては汎用韻律規則３を参照して韻律パラメータを生成する。また、フィラー部分についてはフィラー韻律データペース４を参照し、これに対応する韻律パラメータを読み出して韻律パラメータを生成する。

また、ｓ１５では、フィラー部分も含め、まず全てを一般的なテキストとして汎用韻律規則３により韻律パラメータの生成処理を行った後に、フィラー部分の韻律処理を行っても良い。なお、フィラー韻律データベース４は、予めフィラー音声波形データベース８の実音声波形から取得したフィラー部分の話速やピッチパタンやパワー情報等の韻律パラメータを格納しておいても良い。

続いて、韻律生成部２２では、前述したフィラー部分の韻律制御情報があればこれに基づいて韻律パラメータを変更する（ｓ１６）。

フィラー部分の前後のポーズ長やフィラー部分の話速やピッチやパワーを指定したい時は、＜／filler＞タグを拡張して、例えば
「はい、＜filler＞えーと＜/filler:500,600,1.0,+10,+5＞、１時からです。」
のようにコロンの後に、フィラー部分の前のポーズ長、フィラー部分の後ろのポーズ長、話速、ピッチの値、パワーの値、のように記述する。

この例では、フィラー部分の前に５００ミリ秒のポーズを挿入し、フィラー部分の後ろに６００ミリ秒のポーズを挿入し、話速はデフォルトの１．０倍、フィラー部分の平均ピッチをフィラー部分の前後のアクセント句の平均ピッチよりも１０Ｈｚ上昇させ、フィラー部分の平均パワーをフィラー部分の前後のアクセント句の平均パワーよりも５ｄＢ増加させることを意味する。なお、本実施の形態におけるピッチとパワーの値の指定については、「＋」や「−」の符号を付与した場合は前後のアクセント句の平均値との相対値として指定し、符号を付与しない場合には絶対値で指定するものとしている。

また、
「はい、＜filler＞えーと＜/filler:,,,200,-4＞、１時からです。」
のように、ポーズ長やピッチ、パワーの指定の有無、絶対値や相対値での指定は混在させて指定することもできる。この例では、前後のポーズ長と話速はフィラー韻律データベース４に格納されている平均値を用い、ピッチは絶対値で２００Ｈｚ、パワーは相対値で−（マイナス）４ｄＢ、のように指定している。

また、
「＜filler＞えーと＜/filler:,500,600,1.0,200,-4＞、１時からです。」
のように、フィラー部分に先行するテキストが存在しない場合もある。この例では、５００ミリ秒のポーズを空けてから発声が開始されるような合成音声が生成される。また、相対値の計算は、後続のアクセント句との平均値で求められる。これとは逆に、先行するテキストのみがあり、後続のテキストが存在しない場合には先行するアクセント句の平均値との相対値となる。また、前後ともにテキストが存在しない場合は、ピッチやパワーを相対値で指定したならば、音声合成装置に標準値として設定された平均ピッチやパワーとの相対値となる。

また、
「はい＜filler＞えーと＜/filler:500,600,1.0,+10,+5＞１時からです。」
のように、フィラー部分の前もしくは後に読点がないテキストを入力した場合には、ポーズ長の指定値を無視して連続してポーズなしで合成される。あるいはポーズ長の指定を優先して、フィラー部分の前もしくは後に読点がないテキストであってもポーズを挿入して合成をするようにしても良い。

また、
「はい、＜filler＞あー＜/filler:500,,,-10,＞＜filler＞えーと＜/filler:,600,, +10,+5＞１時からです。」
のように、フィラー部分を連続して指定するようなテキスト情報の平均ピッチやパワーが相対値で指定された場合、基本的にはフィラーが連続する部分の前後の、一般的なテキストのアクセント句の平均ピッチや平均パワーとの相対値として処理すれば良い。

次に、音声波形選択部１１では、テキスト解析部２１及び韻律生成部２２で得られた音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス５を参照して音声合成に使用する音声波形データを選択する。また、フィラー部分については、予め指定したモーラ数ｎ以上のモーラからなるフィラー部分についてはフィラー音声波形インデックス６を参照し、予め指定したモーラ数ｎ未満のモーラからなるフィラー部分については汎用音声波形インデックス５を参照し、音声合成に使用する音声波形データを選択する（ｓ１７）。なお、本実施の形態では、聴取実験の結果を踏まえてモーラ数ｎ＝２とする。

そして、音声信号生成部１１では、ｓ１７の音声波形データの選択結果に基づいて、一般的なテキストについては汎用音声波形データベース７から音声波形データを読み出し、フィラー部分のうち、予め指定したモーラ数ｎ以上のモーラからなるフィラー部分についてはフィラー音声波形データベース８から音声波形データを読み出し、予め指定したモーラ数ｎ未満のモーラからなるフィラー部分については汎用音声波形データベース７から音声波形データを読み出し、これらの音声波形データの韻律変更処理をｓ１６の結果に基づいて行い、波形接続を行って合成音声信号を生成する（ｓ１８）。

なお、以上述べたフィラー部分の韻律パラメータの設定方法（韻律制御情報）は一例であり、必ずしもこの表記方法に沿う必要はない。また、本第２の実施の形態では話速についてはデフォルト値のｋ倍という指定方法であるが、発声の絶対的な継続時間長についても受け付けるように構成しても良い。

また、以上述べた第１及び第２の実施の形態では、音声波形を読み出す際の汎用音声波形データベース７とフィラー音声波形データベース８との選択で、フィラー部分のモーラ数を用いたが、音節数を用いるように構成しても良い。

また、以上述べた第１の実施の形態のｓ６及び第２の実施の形態のｓ１８での処理においては、信号処理による音声品質の劣化を避けるために、音声波形の韻律変更処理を行わないように構成しても良い。

なお、本発明は、音声合成装置として機能させる周知のコンピュータに媒体もしくは通信回線を介して、図２あるいは図４のフローチャートに示された手順を備えるプログラムをインストールし、実行させることによっても実現可能である。

本発明の音声合成装置の第１の実施の形態を示す構成図本発明の第１の実施の形態における音声合成処理のフローチャート本発明の音声合成装置の第２の実施の形態を示す構成図本発明の第２の実施の形態における音声合成処理のフローチャート

符号の説明

１：テキスト解析辞書、２：フィラー辞書、３：汎用韻律規則、４：フィラー韻律データベース、５：汎用音声波形インデックス、６：フィラー音声波形インデックス、７：汎用音声波形データベース、８：フィラー音声波形データベース、９，２１：テキスト解析部、１０，２２：韻律生成部、１１：音声波形選択部、１２：音声信号生成部。

Claims

一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースとを用い、計算機が、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定し、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成し、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択して読み出し、合成音声信号を生成する音声合成方法において、
主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを用い、
計算機が、前記に加え、
一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する過程と、
フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する過程と、
前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する過程と、
前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する過程とを含む
ことを特徴とする音声合成方法。
一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する過程と、
フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程とを含む
ことを特徴とする請求項１に記載の音声合成方法。
一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する過程と、
フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程と、
フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する過程とを含む
ことを特徴とする請求項１に記載の音声合成方法。
請求項１乃至３いずれかに記載の音声合成方法の各過程を、音声合成装置として機能させるコンピュータに実行させることを特徴とする音声合成プログラム。
一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースと、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定するテキスト解析部と、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成する韻律生成部と、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する音声波形選択部と、前記選択した音声波形データを汎用音声波形データベースから読み出し、合成音声信号を生成する音声信号生成部とを備えた音声合成装置において、
主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを設け、
テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する機能を備え、
韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する機能を備え、
音声波形選択部は、前記に加え、前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する機能を備え、
音声信号生成部は、前記に加え、前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する機能を備えた
ことを特徴とする音声合成装置。
テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備えた
ことを特徴とする請求頂５に記載の音声合成装置。
テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備え、
韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する機能を備えた
ことを特徴とする請求項５に記載の音声合成装置。