JP4260071B2 - 音声合成方法、音声合成プログラム及び音声合成装置 - Google Patents

音声合成方法、音声合成プログラム及び音声合成装置 Download PDF

Info

Publication number
JP4260071B2
JP4260071B2 JP2004193094A JP2004193094A JP4260071B2 JP 4260071 B2 JP4260071 B2 JP 4260071B2 JP 2004193094 A JP2004193094 A JP 2004193094A JP 2004193094 A JP2004193094 A JP 2004193094A JP 4260071 B2 JP4260071 B2 JP 4260071B2
Authority
JP
Japan
Prior art keywords
filler
speech
prosody
text
speech waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004193094A
Other languages
English (en)
Other versions
JP2006017819A (ja
Inventor
光昭 磯貝
一則 間野
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004193094A priority Critical patent/JP4260071B2/ja
Publication of JP2006017819A publication Critical patent/JP2006017819A/ja
Application granted granted Critical
Publication of JP4260071B2 publication Critical patent/JP4260071B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、キーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力される、任意のテキスト情報に応じた音声を出力する音声合成方法、音声合成プログラム及び音声合成装置に関するものである。
近年、テキスト音声合成の分野では、従来からのニュースの読み上げや情報案内等の書き言葉を対象とした比較的単調な口調を有する読み上げ音声としての利用の他、音声対話システムの応答音声としての利用が求められるようになってきている(非特許文献1参照)。
こういった応答音声では、人間らしさや親しみ易さを感じさせるために話し言葉が使われることが多い。話し言葉には、書き言葉にない表現の一つとして、「えーと」や「あのー」等の発話の一部を埋める言葉(以下、フィラーと呼ぶ。)が出現するという特徴がある。フィラーそれ自体は言語的な意味を持たないことが多いが、考え込んでいる様子や戸惑い、注意喚起等の非言語的な意味を伝えるために有用であり、音声対話システムでも意図的にフィラーを挿入した応答音声を用いることがある(特許文献1参照)。
特開平11−237970号公報 吉岡 他「対話型自動プレゼンテーションシステム」日本音響学会講演論文集、1−Q−25、2000年3月
しかし、従来の音声合成システムは書き言葉を主要な対象としてきたため、フィラーのような、通常の書き言葉とは異なる特殊な言葉には対応しておらず、フィラーを含んだ音声を合成しようとすると、却って不自然な音声となることが多いという問題があった。
具体的には、一般にテキスト音声合成では音声の明瞭性を重視するため、音声波形データベースも明瞭な発声データを基に構築されるが、フィラーの発声様式はあいまい且つ不明瞭であることが多いので、一般的な明瞭な発声の音声波形データベースを用いて音声合成を行うと、フィラーとしては明瞭すぎて不自然な音声となってしまう。
また、フィラーの韻律は一般的なテキスト(書き言葉)の韻律規則から逸脱しており、また、そのフィラーの非言語的な意味に応じて、発話の間を埋めるために長めの発声をすることがあったり、平坦な抑揚であったり、発話の前後のポーズ(無音部分)区間長が通常の規則とは異なったりするので、従来の音声合成方法では韻律面でも不自然な音声となっていた。
本発明は上述した問題に鑑みてなされたものであり、その目的は、フィラーを含むテキスト情報が入力された際に、フィラーの持つ非言語的な意味を表現して自然な音質や韻律を有する合成音声を生成できる音声合成方法、音声合成プログラム及び音声合成装置を提供することを目的とする。
本発明では、フィラーに非言語的な意味を付与するための韻律パラメータとして、フィラーの前後のポーズ区間長、フィラーの話速、ピッチ、パワー等をフィラー韻律データベースに格納しておき、フィラー合成の際にこれらの韻律パラメータを適用して韻律設定を行う手段を提供する。
また、本発明では、音声合成装置の入力として、フィラーを含むテキスト情報と共にフィラーの前後のポーズ区間長、フィラーの話速、ピッチ、パワーを明示的にコントロールする情報を与えることにより、これらのパラメータを音声合成時に動的かつ明示的に制御する手段を提供する。
また、本発明では、音声合成装置の入力として、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を受け付け、テキスト解析部により、テキスト情報からフィラー部分を抽出した結果、フィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分については、様々なフィラーの肉声から抽出した音声波形データを格納したフィラー音声波形データベースから音声波形データを選択して音声を合成し、また、フィラー部分のうち、予め指定したモーラ数未満あるいは音節数未満のフィラー部分については一般的なテキストとともに、汎用音声波形データベースから音声波形データを選択して音声を合成する手段を提供する。
本発明では、フィラーに非言語的な意味を付与するための韻律パラメータとしてフィラーの前後のポーズ区間長、フィラーの話速やピッチ、パワーをフィラー韻律データベースに格納し、これらの韻律パラメータをフィラーの合成の際に適用して韻律設定を行う手段を提供する。
これにより、従来の音声合成方法では韻律面で不自然な音声となっていた問題を解決できる効果がある。また、ユーザが予めフィラー韻律データベースに適切な韻律パラメータを設定しておくことにより、ユーザがそのフィラーに対して非言語的な意味を付与できる効果がある。例えば、ピッチやパワーの相対値を大きく設定して登録しておくことにより、注意を喚起する印象を与える音声を自動的に生成できる。また、フィラー毎のポーズ間隔を設定することにより音声を発声しない時間長を明確に設定できるので、例えば、あるフィラーの後のポーズ間隔を長めに設定してフィラー韻律データベースに登録しておくことで、考え込んでいる印象の音声を自動的に生成できる。
また、本発明では、音声合成装置の入力として、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びにフィラー部分の前後のポーズ区間長、フィラー部分の話速やピッチ、パワーを明示的にコントロールする情報を与えることにより、これらのパラメータを音声合成時に動的かつ明示的に制御する手段を提供する。
これにより、フィラーの前後のポーズ間隔の長短、フィラーの話速やピッチの高低、パワーの大小が合成音声の印象に与える印象(例えば、ポーズ間隔を長くすることにより考え込んだ印象を与える等の非言語的な意味情報)を、音声合成時に動的に制御する枠組みを提供できる効果がある。
また、本発明では、様々なフィラーの肉声から抽出した音声データを格納したフィラー音声波形データベースを用いて音声合成を行う。
これにより、フィラーの発声様式があいまいで不明瞭な発声であることが多く、一般的な明瞭な発声の汎用音声波形データベースを用いて音声合成を行うとフィラーとして不自然な音質となってしまうという問題を解決できる。
但し、本発明では、フィラー音声波形データベースの音声波形データを用いて合成を行うのは、フィラーとして合成したいフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてのみとする。
これは、発明者らが行った次の聴取実験から得られた知見に基づいている。
まず、音声波形データベースとして汎用音声波形データベースのみを有する音声合成装置により、フィラーを含んだ短文の音声(以下、音声A)を作成した。そして、作成した音声のフィラー部分を、汎用音声波形データベースと同一の話者が発声したフィラー音声と置き換えた音声(以下、音声B)を作成した。同様にして計10対の音声を作成し、提示順序を変えて延べ20対の音声を被験者10名に聴取させて、一対の音声を提示する毎に、どちらが自然な音声であるかを選択させた。ある音声の対は、実験中提示順序を変えて2回聴取されることになるが、ある被験者が同一の音声対に対して1回目と2回目で選択した音声が異なった場合は、ある被験者にとって音声Aと音声Bの自然性は同一であるとして扱った。聴取対象の音声に含まれるフィラーはモーラ数1のものから4のものまでが含まれている。
その結果、音声Aが好まれた割合をフィラーのモーラ数毎に調査したところ、モーラ数1の場合が33.0%、モーラ数2の場合が30.0%、モーラ数3の場合が5.0%、モーラ数4の場合が10.0%であった。また、音声Bが好まれた割合は、フィラーのモーラ数1の場合が15.8%、モーラ数2の場合が43.3%、モーラ数3の場合が82.5%、モーラ数4の場合が90.0%であった(音声Aと音声Bの割合を合計して100%にならないモーラがあるのは、自然性が同一であると判定された音声があるため)。
この結果から、短いフィラーほど汎用音声波形データベースのみを用いて音声合成を行ったほうが自然であり、逆に、長いフィラーほどフィラー発声から抽出した音声波形からなるデータベースを用いて音声合成を行ったほうが自然であるといえる。
これは、モーラ数が少ない場合にはフィラーの発声様式に基づいた音声との置き換えを行っても音声の発声持続時間が短いので、フィラーの発声様式の音声を使った効果が現れず自然性の向上に貢献しない上、むしろ置き換えたフィラー部分とその他の部分とのピッチ(声の高さ)のギャップが目立ってしまうために、評価が低くなってしまうからである。なお、ギャップを解消するために音声波形に信号処理を行ってピッチを変更したとしても信号処理に伴う音質劣化を招いてしまうため、これも自然性を損なう原因になってしまう。また、モーラ数が少ないので波形接続部分も少なく、波形接続に伴う音質劣化も小さいという理由もある。よって、モーラ数がある程度少ないフィラーの場合には、汎用音声波形データベースを用いて音声合成を行ったほうが良い。
一方、モーラ数が多い場合には、置き換えたフィラー部分とその他の部分とのピッチ(声の高さ)のギャップがあっても、フィラーの発声様式の音声が長時間持続するため、音声全体としては自然性が向上する。よって、モーラ数がある程度以上より多いフィラーの場合には、フィラー音声波形データベースを用いて音声合成を行ったほうが良い。
よって、本発明ではフィラー音声波形データベースの音声波形データを用いて合成を行うのは、フィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてのみとして構成し、また、フィラー部分のうち、予め指定したモーラ数未満あるいは音節数未満のフィラー部分は、フィラーとして合成しない一般的なテキストとともに汎用音声波形データベースから音声波形データを選択して音声を合成するよう構成することにより、自然な音質や韻律を有する合成音声を生成できるという効果が得られる。
以下、本発明を実施するための最良の形態について図面を参照して説明する。
<第1の実施の形態>
図1は本発明の音声合成装置の第1の実施の形態を示すもので、図中、1は汎用テキスト解析辞書、2はフィラー辞書、3は汎用韻律規則、4はフィラー韻律データベース、5は汎用音声波形インデックス、6はフィラー音声波形インデックス、7は汎用音声波形データベース、8はフィラー音声波形データベース、9はテキスト解析部、10は韻律生成部、11は音声波形選択部、12は音声信号生成部である。
テキスト解析辞書1は、一般的なテキスト解析のための辞書情報、即ち一般的なテキストの音韻(読み)、モーラ数、アクセント型等を格納している。フィラー辞書2は、フィラーの辞書情報、即ちフィラーの音韻(読み)、モーラ数等を格納している。
汎用韻律規則3は、一般的なテキストの韻律生成規則を格納している。フィラー韻律データベース4は、フィラー辞書2に格納されているフィラーについてその前後のポーズ区間長、話速、音韻継続時間長、ピッチ(絶対値及び前後のアクセント句との相対値)、パワー(絶対値及び前後のアクセント句との相対値)等の韻律パラメータを格納している。
汎用音声波形インデックス5は、汎用音声波形データベース7に格納されている音声波形データの音韻情報、音韻継続時間長情報、ピッチ情報、パワー情報を格納している。フィラー音声波形インデックス6は、フィラー音声波形データベース8に格納されている音声波形データの音韻情報、音韻継続時間長情報、ピッチ情報、パワー情報を格納している。
汎用音声波形データベース7は、汎用の音声波形データを格納している。フィラー音声波形データベース8には、フィラー辞書2に格納されているフィラーの音声波形データを格納している。
なお、汎用音声波形インデックス5は汎用音声波形データベース7に格納されている音声波形データを選択するためのものであり、汎用音声波形データベース7と一体化することも可能である。同様に、フィラー音声波形インデックス6はフィラー音声波形データベース8に格納されている音声波形データを選択するためのものであり、フィラー音声波形データベース8と一体化することも可能である。
また、フィラー辞書2、フィラー韻律データベース4、フィラー音声波形インデックス6及びフィラー音声波形データベース8については、フィラー辞書2に格納されているフィラーに関するデータが、フィラー韻律データベース4、フィラー音声波形インデックス6及びフィラー音声波形データベース8にも必ず存在するように構成されている。
テキスト解析部9は、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書2を参照してフィラー部分を抽出し、前記テキスト情報におけるフィラー部分と一般的なテキストとを判別する。そして、一般的なテキストについてはテキスト解析辞書1を参照し、これに対応した音韻系列、アクセント型等の情報を決定し、また、フィラー部分についてはフィラー辞書2を参照し、これに対応した音韻系列を決定する。
韻律生成部10は、一般的なテキストについては汎用韻律規則3を参照して韻律パラメータを生成し、また、フィラー部分についてはフィラー韻律データベース4から対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する。
音声波形選択部11は、テキスト解析部9及び韻律生成部10で得られた情報、即ち音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス5を参照して音声合成に使用する音声波形データを選択する。フィラー部分については、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはフィラー音声波形インデックス6を参照して音声合成に使用する音声波形データを選択し、また、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分については汎用音声波形インデックス5を参照して音声合成に使用する音声波形データを選択する。
音声信号生成部12は、音声波形選択部11で選択された情報を基に、一般的なテキストについては汎用音声波形データベース7から音声波形データを読み出し、また、フィラー部分についてはフィラー音声波形データベース8もしくは汎用音声波形データベース7から音声波形データを読み出し、合成音声信号を生成し、結果として出力する。
前記テキスト解析部9、韻律生成部10、音声波形選択部11及び音声信号生成部12における一般的なテキストの音声合成処理については、特許第2761552号等により、従来から提案されている音声合成方法で用いられているのと同様の手法が適用できるので、以下では具体的な説明を省略する。
図2は本実施の形態における音声合成処理のフローチャートを示すもので、以下、図2に従って図1に示した音声合成装置の動作を説明する。
まず、音声合成装置に一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報が入力される(s1)と、テキスト解析部9では、フィラー辞書2を参照してテキスト情報中からフィラーにマッチする部分を探してフィラー部分を抽出し、フィラー部分とそれ以外の部分、即ち一般的なテキストとを判別する(s2)。
例えば、入力されるテキスト情報が
「はい、えーと、1時からです。」
であり、フィラー辞書2に「えーと」が登録されていれば、フィラー辞書2とのマッチングにより「えーと」がフィラー部分として抽出される。
続いて、テキスト解析部9では、次のようなテキスト解析処理を行う(s3)。即ち、一般的なテキストについてはテキスト解析辞書1を参照し、これに対応する音韻系列、アクセント型等の情報を決定し、また、フィラー部分についてはフィラー辞書2を参照し、s2でマッチしたフィラーに対応する音韻系列のデータを読み出すことによりフィラー部分の音韻系列を決定する。
次に、韻律生成部10では、韻律パラメータを生成する(s4)。即ち、一般的なテキストについては汎用韻律規則3を参照して韻律パラメータを生成する。また、フィラー部分についてはフィラー韻律データベース4を参照し、これに対応する韻律パラメータを読み出して韻律パラメータを生成する。
フィラー部分の韻律に関し、音韻継続時間長やポーズ区間長については、フィラー韻律データベース4に格納されている音韻継続時間長やポーズ区間長の値を用いる。また、ピッチやパワーについては、フィラー韻律データベース4に格納されているピッチの値やパワーの値を用いる。ピッチやパワーの値としては絶対値やフィラー部分前後のピッチやパワーとの相対値を用いるようにしても良い。
また、s4では、フィラー部分も含め、まず全てを一般的なテキストとして汎用韻律規則3により韻律パラメータの生成処理を行った後に、フィラー部分の韻律処理を行っても良い。なお、フィラー韻律データベース4は、予めフィラー音声波形データベース8の実音声波形から取得したフィラー部分の話速やピッチパタンやパワー情報等の韻律パラメータを格納しておいても良い。
次に、音声波形選択部11では、テキスト解析部9及び韻律生成部10で得られた音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス5を参照して音声合成に使用する音声波形データを選択する。また、フィラー部分については、予め指定したモーラ数n以上のモーラからなるフィラー部分についてはフィラー音声波形インデックス6を参照し、予め指定したモーラ数n未満のモーラからなるフィラー部分については汎用音声波形インデックス5を参照し、音声合成に使用する音声波形データを選択する(s5)。なお、本実施の形態では、聴取実験の結果を踏まえてモーラ数n=2とする。
そして、音声信号生成部12では、s5の音声波形データの選択結果に基づいて、一般的なテキストについては汎用音声波形データベース7から音声波形データを読み出し、フィラー部分のうち、予め指定したモーラ数n以上のモーラからなるフィラー部分についてはフィラー音声波形データベース8から音声波形データを読み出し、予め指定したモーラ数n未満のモーラからなるフィラー部分については汎用音声波形データベース7から音声波形データを読み出し、これらの音声波形データの韻律変更処理をs5の結果に基づいて行い、波形接続を行って合成音声信号を生成する(s6)。
<第2の実施の形態>
図3は本発明の音声合成装置の第2の実施の形態、ここではテキスト情報として一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むもの、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むものを用いる場合に対応する形態を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1は汎用テキスト解析辞書、2はフィラー辞書、3は汎用韻律規則、4はフィラー韻律データベース、5は汎用音声波形インデックス、6はフィラー音声波形インデックス、7は汎用音声波形データベース、8はフィラー音声波形データベース、11は音声波形選択部、12は音声信号生成部、21はテキスト解析部、22は韻律生成部である。
テキスト解析部21は、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいてフィラー部分もしくはフィラー部分及びそれに対応する韻律制御情報を抽出し、前記テキスト情報におけるフィラー部分と一般的なテキストとを判別する。そして、フィラー辞書2を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベース8に存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定する。さらに、前記対応する音声波形データがフィラー音声波形データベース8に存在せず、一般的なテキストとして扱うように設定したフィラー部分を含めて一般的なテキストについてはテキスト解析辞書1を参照し、これに対応した音韻系列、アクセント型等の情報を決定し、また、対応する音声波形データがフィラー音声波形データベース8に存在するフィラー部分についてはフィラー辞書2を参照し、これに対応した音韻系列を決定する。
韻律生成部22は、一般的なテキストについては汎用韻律規則3を参照して韻律パラメータを生成し、また、フィラー部分についてはフィラー韻律データベース4から対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらにこの際、前述したフィラー部分の韻律制御情報があればこれに基づいて韻律パラメータを変更する。
第1の実施の形態の場合と同様、テキスト解析部21、韻律生成部22、音声波形選択部11及び音声信号生成部12における一般的なテキストの音声合成処理については、特許第2761552号等により、従来から提案されている音声合成方法で用いられているのと同様の手法が適用できるので、以下では具体的な説明を省略する。
図4は本実施の形態における音声合成処理のフローチャートを示すもので、以下、図4に従って図3に示した音声合成装置の動作を説明する。
まず、音声合成装置に一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含む、もしくはこれに加えてフィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報が入力される(s11)と、テキスト解析部21では、テキスト情報中のフィラー部分指定情報に従ってフィラー部分を抽出し、フィラー部分とそれ以外の部分、即ち一般的なテキストとを判別する(s12)。
例えば、入力されるテキスト情報が
「はい、<filler>えーと</filler>、1時からです。」
であり、フィラー部分指定情報がタグ<filler>及び</filler>であって、このタグ<filler>とタグ</filler>とで挟まれた部分が指定されたフィラー部分であるとすると、「えーと」の部分がフィラー部分として抽出される。
そして、テキスト解析部21では、フィラー辞書2を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベース8に存在するか否かをチェックし、フィラー部分として指定されたにも拘わらずフィラー辞書2に登録がない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定する(s13)。
続いて、テキスト解析部21では、次のようなテキスト解析処理を行う(s14)。即ち、前記対応する音声波形データがフィラー音声波形データベース8に存在せず、一般的なテキストとして扱うように設定したフィラー部分を含めて一般的なテキストについてはテキスト解析辞書1を参照し、これに対応する音韻系列、アクセント型等の情報を決定し、また、対応する音声波形データがフィラー音声波形データベース8に存在するフィラー部分についてはフィラー辞書2を参照し、対応する音韻系列のデータを読み出すことによりフィラー部分の音韻系列を決定する。
次に、韻律生成部22では、韻律パラメータを生成する(s15)。即ち、一般的なテキストについては汎用韻律規則3を参照して韻律パラメータを生成する。また、フィラー部分についてはフィラー韻律データペース4を参照し、これに対応する韻律パラメータを読み出して韻律パラメータを生成する。
フィラー部分の韻律に関し、音韻継続時間長やポーズ区間長については、フィラー韻律データベース4に格納されている音韻継続時間長やポーズ区間長の値を用いる。また、ピッチやパワーについては、フィラー韻律データベース4に格納されているピッチの値やパワーの値を用いる。ピッチやパワーの値としては絶対値やフィラー部分前後のピッチやパワーとの相対値を用いるようにしても良い。
また、s15では、フィラー部分も含め、まず全てを一般的なテキストとして汎用韻律規則3により韻律パラメータの生成処理を行った後に、フィラー部分の韻律処理を行っても良い。なお、フィラー韻律データベース4は、予めフィラー音声波形データベース8の実音声波形から取得したフィラー部分の話速やピッチパタンやパワー情報等の韻律パラメータを格納しておいても良い。
続いて、韻律生成部22では、前述したフィラー部分の韻律制御情報があればこれに基づいて韻律パラメータを変更する(s16)。
フィラー部分の前後のポーズ長やフィラー部分の話速やピッチやパワーを指定したい時は、</filler>タグを拡張して、例えば
「はい、<filler>えーと</filler:500,600,1.0,+10,+5>、1時からです。」
のようにコロンの後に、フィラー部分の前のポーズ長、フィラー部分の後ろのポーズ長、話速、ピッチの値、パワーの値、のように記述する。
この例では、フィラー部分の前に500ミリ秒のポーズを挿入し、フィラー部分の後ろに600ミリ秒のポーズを挿入し、話速はデフォルトの1.0倍、フィラー部分の平均ピッチをフィラー部分の前後のアクセント句の平均ピッチよりも10Hz上昇させ、フィラー部分の平均パワーをフィラー部分の前後のアクセント句の平均パワーよりも5dB増加させることを意味する。なお、本実施の形態におけるピッチとパワーの値の指定については、「+」や「−」の符号を付与した場合は前後のアクセント句の平均値との相対値として指定し、符号を付与しない場合には絶対値で指定するものとしている。
また、
「はい、<filler>えーと</filler:,,,200,-4>、1時からです。」
のように、ポーズ長やピッチ、パワーの指定の有無、絶対値や相対値での指定は混在させて指定することもできる。この例では、前後のポーズ長と話速はフィラー韻律データベース4に格納されている平均値を用い、ピッチは絶対値で200Hz、パワーは相対値で−(マイナス)4dB、のように指定している。
また、
「<filler>えーと</filler:,500,600,1.0,200,-4>、1時からです。」
のように、フィラー部分に先行するテキストが存在しない場合もある。この例では、500ミリ秒のポーズを空けてから発声が開始されるような合成音声が生成される。また、相対値の計算は、後続のアクセント句との平均値で求められる。これとは逆に、先行するテキストのみがあり、後続のテキストが存在しない場合には先行するアクセント句の平均値との相対値となる。また、前後ともにテキストが存在しない場合は、ピッチやパワーを相対値で指定したならば、音声合成装置に標準値として設定された平均ピッチやパワーとの相対値となる。
また、
「はい<filler>えーと</filler:500,600,1.0,+10,+5>1時からです。」
のように、フィラー部分の前もしくは後に読点がないテキストを入力した場合には、ポーズ長の指定値を無視して連続してポーズなしで合成される。あるいはポーズ長の指定を優先して、フィラー部分の前もしくは後に読点がないテキストであってもポーズを挿入して合成をするようにしても良い。
また、
「はい、<filler>あー</filler:500,,,-10,><filler>えーと</filler:,600,, +10,+5>1時からです。」
のように、フィラー部分を連続して指定するようなテキスト情報の平均ピッチやパワーが相対値で指定された場合、基本的にはフィラーが連続する部分の前後の、一般的なテキストのアクセント句の平均ピッチや平均パワーとの相対値として処理すれば良い。
次に、音声波形選択部11では、テキスト解析部21及び韻律生成部22で得られた音韻系列及び韻律パラメータを基に、一般的なテキストについては汎用音声波形インデックス5を参照して音声合成に使用する音声波形データを選択する。また、フィラー部分については、予め指定したモーラ数n以上のモーラからなるフィラー部分についてはフィラー音声波形インデックス6を参照し、予め指定したモーラ数n未満のモーラからなるフィラー部分については汎用音声波形インデックス5を参照し、音声合成に使用する音声波形データを選択する(s17)。なお、本実施の形態では、聴取実験の結果を踏まえてモーラ数n=2とする。
そして、音声信号生成部11では、s17の音声波形データの選択結果に基づいて、一般的なテキストについては汎用音声波形データベース7から音声波形データを読み出し、フィラー部分のうち、予め指定したモーラ数n以上のモーラからなるフィラー部分についてはフィラー音声波形データベース8から音声波形データを読み出し、予め指定したモーラ数n未満のモーラからなるフィラー部分については汎用音声波形データベース7から音声波形データを読み出し、これらの音声波形データの韻律変更処理をs16の結果に基づいて行い、波形接続を行って合成音声信号を生成する(s18)。
なお、以上述べたフィラー部分の韻律パラメータの設定方法(韻律制御情報)は一例であり、必ずしもこの表記方法に沿う必要はない。また、本第2の実施の形態では話速についてはデフォルト値のk倍という指定方法であるが、発声の絶対的な継続時間長についても受け付けるように構成しても良い。
また、以上述べた第1及び第2の実施の形態では、音声波形を読み出す際の汎用音声波形データベース7とフィラー音声波形データベース8との選択で、フィラー部分のモーラ数を用いたが、音節数を用いるように構成しても良い。
また、以上述べた第1の実施の形態のs6及び第2の実施の形態のs18での処理においては、信号処理による音声品質の劣化を避けるために、音声波形の韻律変更処理を行わないように構成しても良い。
なお、本発明は、音声合成装置として機能させる周知のコンピュータに媒体もしくは通信回線を介して、図2あるいは図4のフローチャートに示された手順を備えるプログラムをインストールし、実行させることによっても実現可能である。
本発明の音声合成装置の第1の実施の形態を示す構成図 本発明の第1の実施の形態における音声合成処理のフローチャート 本発明の音声合成装置の第2の実施の形態を示す構成図 本発明の第2の実施の形態における音声合成処理のフローチャート
符号の説明
1:テキスト解析辞書、2:フィラー辞書、3:汎用韻律規則、4:フィラー韻律データベース、5:汎用音声波形インデックス、6:フィラー音声波形インデックス、7:汎用音声波形データベース、8:フィラー音声波形データベース、9,21:テキスト解析部、10,22:韻律生成部、11:音声波形選択部、12:音声信号生成部。

Claims (7)

  1. 一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースとを用い、計算機が、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定し、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成し、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択して読み出し、合成音声信号を生成する音声合成方法において、
    主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
    フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
    フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを用い、
    計算機が、前記に加え、
    一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する過程と、
    フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する過程と、
    前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する過程と、
    前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する過程とを含む
    ことを特徴とする音声合成方法。
  2. 一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する過程と、
    フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程とを含む
    ことを特徴とする請求項1に記載の音声合成方法。
  3. 一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する過程と、
    フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する過程と、
    フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する過程とを含む
    ことを特徴とする請求項1に記載の音声合成方法。
  4. 請求項1乃至3いずれかに記載の音声合成方法の各過程を、音声合成装置として機能させるコンピュータに実行させることを特徴とする音声合成プログラム。
  5. 一般的なテキストの辞書情報を格納したテキスト解析辞書と、一般的なテキストの韻律生成規則を格納した汎用韻律規則と、一般的なテキストの音声波形データを格納した汎用音声波形データベースと、テキスト解析辞書を参照して入力されたテキストの音韻系列を決定するテキスト解析部と、前記音韻系列に基づいて汎用韻律規則を参照して韻律パラメータを生成する韻律生成部と、前記音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する音声波形選択部と、前記選択した音声波形データを汎用音声波形データベースから読み出し、合成音声信号を生成する音声信号生成部とを備えた音声合成装置において、
    主として話し言葉における発話の一部を埋める言葉であるフィラーの辞書情報を格納したフィラー辞書と、
    フィラー辞書に格納されたフィラーの韻律パラメータを格納したフィラー韻律データベースと、
    フィラー辞書に格納されたフィラーの音声波形データを格納したフィラー音声波形データベースとを設け、
    テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含むテキスト情報を入力として受け付け、フィラー辞書を参照して前記テキスト情報からフィラー部分を抽出し、その音韻系列を決定する機能を備え、
    韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定する機能を備え、
    音声波形選択部は、前記に加え、前記抽出したフィラー部分のうち、予め指定したモーラ数以上あるいは音節数以上のフィラー部分についてはその音韻系列及び韻律パラメータに基づいてフィラー音声波形データベースから音声波形データを選択し、前記予め指定したモーラ数未満あるいは音節数未満のフィラー部分についてはその音韻系列及び韻律パラメータに基づいて汎用音声波形データベースから音声波形データを選択する機能を備え、
    音声信号生成部は、前記に加え、前記選択した音声波形データをフィラー音声波形データベースもしくは汎用音声波形データベースから読み出し、フィラーの合成音声信号を生成する機能を備えた
    ことを特徴とする音声合成装置。
  6. テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備えた
    ことを特徴とする請求頂5に記載の音声合成装置。
  7. テキスト解析部は、前記に加え、一般的なテキストとともにフィラーとして合成したいフィラー部分を含み且つフィラー部分を明示的に指定するフィラー部分指定情報並びに該フィラー部分の韻律パラメータを明示的に制御する韻律制御情報を含むテキスト情報を入力として受け付け、該フィラー部分指定情報に基づいて前記テキスト情報からフィラー部分及びそれに対応する韻律制御情報を抽出する機能と、フィラー辞書を参照して前記抽出したフィラー部分に対応する音声波形データがフィラー音声波形データベースに存在するか否かをチェックし、存在しない場合は以後、前記フィラー部分を一般的なテキストとして扱うように設定し、存在する場合はフィラー辞書を参照してその音韻系列を決定する機能とを備え、
    韻律生成部は、前記に加え、フィラー韻律データベースから前記抽出したフィラー部分に対応する韻律パラメータを読み出し、当該フィラー部分の韻律パラメータをこれに隣接するポーズ区間部分の韻律パラメータを含めて設定し、さらに前記フィラー部分の韻律制御情報に基づいて変更する機能を備えた
    ことを特徴とする請求項5に記載の音声合成装置。
JP2004193094A 2004-06-30 2004-06-30 音声合成方法、音声合成プログラム及び音声合成装置 Expired - Fee Related JP4260071B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004193094A JP4260071B2 (ja) 2004-06-30 2004-06-30 音声合成方法、音声合成プログラム及び音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004193094A JP4260071B2 (ja) 2004-06-30 2004-06-30 音声合成方法、音声合成プログラム及び音声合成装置

Publications (2)

Publication Number Publication Date
JP2006017819A JP2006017819A (ja) 2006-01-19
JP4260071B2 true JP4260071B2 (ja) 2009-04-30

Family

ID=35792188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004193094A Expired - Fee Related JP4260071B2 (ja) 2004-06-30 2004-06-30 音声合成方法、音声合成プログラム及び音声合成装置

Country Status (1)

Country Link
JP (1) JP4260071B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5398295B2 (ja) 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
JP6289950B2 (ja) * 2014-03-19 2018-03-07 株式会社東芝 読み上げ装置、読み上げ方法及びプログラム
JP2017021125A (ja) * 2015-07-09 2017-01-26 ヤマハ株式会社 音声対話装置

Also Published As

Publication number Publication date
JP2006017819A (ja) 2006-01-19

Similar Documents

Publication Publication Date Title
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JPH1138989A (ja) 音声合成装置及び方法
JP4260071B2 (ja) 音声合成方法、音声合成プログラム及び音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JPH05100692A (ja) 音声合成装置
JP3575919B2 (ja) テキスト音声変換装置
EP1589524B1 (en) Method and device for speech synthesis
JPH0580791A (ja) 音声規則合成装置および方法
JP3113101B2 (ja) 音声合成装置
JP2703253B2 (ja) 音声合成装置
JP4056647B2 (ja) 波形接続型音声合成装置および方法
JP2002304186A (ja) 音声合成装置、音声合成方法および音声合成プログラム
EP1640968A1 (en) Method and device for speech synthesis
JP2573586B2 (ja) 規則型音声合成装置
JP3297221B2 (ja) 音韻継続時間長制御方式
JPH1063287A (ja) 発音訓練装置
Juergen Text-to-Speech (TTS) Synthesis
JPH09292897A (ja) 音声合成装置
JPH0363696A (ja) テキスト音声合成装置
JP2001166787A (ja) 音声合成装置および自然言語処理方法
JPH08160990A (ja) 音声合成装置
JPH08328578A (ja) テキスト音声合成装置
JPH11327594A (ja) 音声合成辞書作成システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees