JP2010175717A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2010175717A
JP2010175717A JP2009016786A JP2009016786A JP2010175717A JP 2010175717 A JP2010175717 A JP 2010175717A JP 2009016786 A JP2009016786 A JP 2009016786A JP 2009016786 A JP2009016786 A JP 2009016786A JP 2010175717 A JP2010175717 A JP 2010175717A
Authority
JP
Japan
Prior art keywords
phrase
variable
speech
text sentence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009016786A
Other languages
English (en)
Inventor
Keigo Kawashima
啓吾 川島
Takahiro Otsuka
貴弘 大塚
Hirohisa Tazaki
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2009016786A priority Critical patent/JP2010175717A/ja
Publication of JP2010175717A publication Critical patent/JP2010175717A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】合成音声の明瞭度(強調箇所)を明示的に判別して、意図通りの明瞭度で強調処理を施した合成音声を生成し出力すると共に、ユーザが再発声要求することなしに情報の聞き逃しを少なくすることができる音声合成装置を得る。
【解決手段】数字、固有名詞等を表す可変フレーズと、それ以外のキャリアフレーズからなるテキスト文21aが音声合成装置1に入力されると、可変フレーズ特定部11が可変フレーズを特定して可変フレーズ情報11aを生成する。音声合成部12において、言語解析部122が言語辞書121を参照して言語解析を行って中間言語122aを生成し、韻律制御部123が可変パラメータに強調処理を加えた韻律パラメータ123aを設定し、波形生成部124が可変フレーズに強調処理を加えた音声波形を生成して、合成音声124aとしてスピーカ3へ出力する。
【選択図】図1

Description

この発明は、テキスト文に対応する合成音声を生成する音声合成装置に関するものである。
従来、ユーザに対して、情報を合成音声によって案内する装置、例えばカーナビゲーションシステムおよびETC(Electronic Toll Collection)(登録商標;以下省略)等の車載情報機器、ならびに音声テロップおよび音声警報装置等の音声情報伝達機器等がよく知られている。このような装置の中には、特定の条件において合成音声の了解性を強調する処理を行って、ユーザが合成音声を聞き逃しにくくしたものがあった。
例えば特許文献1の音声合成装置は、テキスト解析手段のテキスト解析結果(品詞情報、自立語・付属語情報、未知語情報、文内位置情報、出現頻度情報、出現順情報、フォーカス有無情報、類似読み語有無情報のうち、少なくとも一つの情報を含む)に基づいて、所定の読み上げ単位に対応する合成音声の明瞭度を判定する。判定の例として、出現頻度の低い語彙を馴染みの薄い語として識別し、明瞭な音声で合成するよう判定することが提案されている。そして、音声合成装置は一つの合成単位に対して合成した際の明瞭度が異なる音声素片を複数用意しておき、明瞭度の判定結果をもとにその明瞭度で合成可能な音声素片を選択して接続し、テキストに応じた音声を生成していた。
また、特許文献2の情報再生装置は、音声合成が利用される車両および周囲の状況、即ち車両の走行速度および道路の混雑状況に応じて、声の高さ、音量、読み上げ速度といった合成音声のパラメータを制御する。これにより、車両に乗車している人に対して、聞き取り可能な合成音声を生成していた。
また、特許文献3の音声処理装置は、ユーザが聞き逃した単語を再度読み上げる場合に、聞き逃した単語について大きい音量で読み上げる、ゆっくりと読み上げるといった動作を行い、再度の聞き逃しを防止していた。
特開2000−206982号公報 特開2001−337690号公報 特開2006−208793号公報
従来の音声合成装置は以上のように構成されているので、特許文献1の音声合成装置では、明瞭な音声で合成されるべき箇所が強調されない、逆に明瞭な音声で合成する必要のない箇所が強調されてしまう等、意図通りの明瞭度に判定されないという課題があった。明瞭な音声で合成されるべき箇所が強調されない場合とは、例えば、出願頻度情報に基づいて明瞭度を判定する場面で、情報としては重要であるにもかかわらず出現頻度が高いために明瞭度が低く設定されている「左に」等の語彙が明瞭な音声で合成されないような場合である。その一方、明瞭な音声で合成する必要のない箇所が強調されてしまう場合とは、例えば、「自宅付近のコンビニを検索します」の「コンビニ」を強調したい場面で品詞情報に基づいて明瞭度を判定すると、「コンビニ」だけでなく「自宅」についても強調されてしまうという場合である。
また、特許文献2の情報再生装置では、声の高さ、音量、読み上げ速度といった合成音声のパラメータを制御して車両内のユーザに聞き取り可能な合成音声を生成しても、ユーザが常に出力音声に注意を払っているとは限らず、パラメータを制御された合成音声が突然出力されても聞き流してしまうという課題があった。
また、特許文献3の音声処理装置では、ユーザが、聞き逃した単語を常に再発声要求することが可能な環境下にいるとは限らず、再発生要求する行為自体がユーザにとっての負担となり、また時間もかかってしまうという課題があった。
この発明は、上記のような課題を解決するためになされたもので、合成音声の明瞭度(強調箇所)を明示的に判別して、意図通りの明瞭度で強調処理を施した合成音声を生成し出力する音声合成装置を得ることを目的とする。また、ユーザが再発声要求することなしに情報の聞き逃しを少なくすることができる音声合成装置を得ることを目的とする。
この発明に係る音声合成装置は、可変フレーズおよびキャリアフレーズからなるテキスト文に基づいて音声を合成する音声合成装置であって、テキスト文中の可変フレーズを特定し、可変フレーズ情報として出力する可変フレーズ特定部と、テキスト文中の、可変フレーズ情報に従い特定された可変フレーズに強調処理を加えた合成音声を生成する音声合成部とを備えるようにしたものである。
この発明に係る音声合成装置は、テキスト文に基づいて音声を合成する音声合成装置であって、テキスト文に含まれる強調対象フレーズを特定した強調対象フレーズ情報を用いて、テキスト文中の強調対象フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部と、加工テキスト文に応じた合成音声を生成する音声合成部とを備えるようにしたものである。
この発明によれば、可変フレーズおよびキャリアフレーズからなるテキスト文のうちの可変フレーズに強調処理を加えた合成音声を生成するようにしたので、合成音声の明瞭度(強調箇所)を明示的に判別することができ、意図通りの明瞭度で強調処理を施した合成音声を生成し出力する音声合成装置を得ることができる。
この発明によれば、テキスト文中の強調対象フレーズを複数回繰り返した加工テキスト文を生成し、この加工テキスト文に応じた合成音声を生成するようにしたので、ユーザが再発声要求することなしに、情報の聞き逃しを少なくすることができる音声合成装置を得ることができる。
この発明の実施の形態1に係る音声合成装置1の構成を示すブロック図である。 この発明の実施の形態1に係る音声合成装置1の動作を示すフローチャートである。 この発明の実施の形態1に係る音声合成装置1の可変フレーズ特定部11による可変フレーズ特定処理を示す説明図である。 この発明の実施の形態2に係る音声合成装置1の構成を示すブロック図である。 この発明の実施の形態2に係る音声合成装置1の動作を示すフローチャートである。 この発明の実施の形態2に係る音声合成装置1の重要フレーズ検索部13による重要フレーズ検索処理を示す説明図である。 この発明の実施の形態3に係る音声合成装置1の構成を示すブロック図である。 この発明の実施の形態3に係る音声合成装置1の動作を示すフローチャートである。 この発明の実施の形態3に係る音声合成装置1のテキスト加工部15によるテキスト加工処理を示す説明図である。 この発明の実施の形態4に係る音声合成装置1の構成を示すブロック図である。 この発明の実施の形態4に係る音声合成装置1の動作を示すフローチャートである。
実施の形態1.
図1は、この発明の実施の形態1に係る音声合成装置1の構成を示すブロック図である。図1において、音声合成装置1は、情報処理装置2から入力されたテキスト文21aに対応する合成音声124aを生成し、スピーカ3へ出力する装置であり、可変フレーズ特定部11と、言語辞書121、言語解析部122、韻律制御部123および波形生成部124から構成される音声合成部12とを備える。
情報処理装置2は、例えばカーナビゲーションシステムおよびETC(Electronic Toll Correction)等の車載情報機器、ならびに音声テロップおよび音声警報装置等の音声情報伝達機器等である。情報処理装置2が備えるテキスト文生成部21は、合成音声生成の対象となるテキスト文21a(例えば、漢字かな混じり文)を生成して、音声合成装置1へ出力する。
ここで、テキスト文21aは、可変フレーズとそれ以外のキャリアフレーズから構成される。可変フレーズとは数字、固有名詞等からなり、施設名称、電話番号等を表す。そのため、その数(種類)は大きくなりやすい。キャリアフレーズは、テキスト文21aのうちの可変フレーズ以外の部分であり、「を表示します」、「を検索します」、「もう一度_を入力してください」等の、情報処理装置2が生成するテキスト文21aの型となる定型的なフレーズである。そのため、ある程度限定された数(種類)となる。
本実施の形態では、可変フレーズを重要度の高いフレーズとして扱い、キャリアフレーズを重要度の低いフレーズとして扱う。
音声合成装置1の可変フレーズ特定部11は、情報処理装置2から入力されたテキスト文21aの中から可変フレーズを特定する。そして、可変フレーズ特定部11は特定した可変フレーズの情報を可変フレーズ情報11aとして、音声合成部12内の韻律制御部123および波形生成部124に出力する。
言語辞書121は、可変フレーズおよびキャリアフレーズの読み方、品詞等の情報が登録されているメモリである。言語解析部122は、情報処理装置2から入力されたテキスト文21aに対し、言語辞書121を参照して形態素解析、構文解析等の言語解析を実施する。言語解析の結果、言語解析部122はテキスト文21aの読み方、品詞、アクセント等を示す中間言語122aを生成し、韻律制御部123へ出力する。韻律制御部123は、言語解析部122から入力された中間言語122aおよび可変フレーズ特定部11から入力された可変フレーズ情報11aを用い、テキスト文21aの可変フレーズと特定された部分に強調処理を加えた韻律パラメータ123a(例えばパワー、ピッチ周波数、韻律継続長等)を生成し、中間言語122aと共に波形生成部124へ出力する。波形生成部124は、韻律制御部123から入力された中間言語122aおよび韻律パラメータ123aならびに可変フレーズ特定部11から入力された可変フレーズ情報11aを用いて可変フレーズと特定された部分に強調処理を加えた音声波形を生成し、得られた合成音声124aをスピーカ3へ出力する。
次に、音声合成装置1の動作を説明する。図2は、実施の形態1に係る音声合成装置1の動作を示すフローチャートである。情報処理装置2から音声合成装置1へテキスト文21aが入力されると、可変フレーズ特定部11がテキスト文21aの中から可変フレーズを特定し、可変フレーズ情報11aとして出力する(ステップST1)。
ステップST1の可変フレーズ特定処理の一例として、キャリアフレーズの情報を蓄えたキャリアフレーズ辞書111を用意してキャリアフレーズを特定し、その他の部分を可変フレーズと特定する方法を説明する。
図3は、可変フレーズ特定部11の可変フレーズ特定処理を示す説明図である。可変フレーズ特定部11は、図3に例示のキャリアフレーズを蓄積したキャリアフレーズ辞書111を備え、このキャリアフレーズ辞書111を参照して、テキスト文21aの中で一致した箇所をキャリアフレーズであるとし、一致しなかった箇所を可変フレーズであると特定する。テキスト文例1「次の交差点を左に曲がります。」では「次の交差点を」および「曲がります。」がキャリアフレーズ辞書111に存在するため、これらがキャリアフレーズと特定される。「左に」に関しては、キャリアフレーズではないので可変フレーズと特定される。テキスト文例2「自宅を検索します。」に関しても同様に、「を検索します。」がキャリアフレーズと特定され、「自宅」が可変フレーズと特定される。テキスト文例3「自宅付近のコンビニを10件まで検索します。」については、「自宅付近の」および「まで検索します。」がキャリアフレーズと特定され、「コンビニを10件」が可変フレーズと特定される。ここで、「自宅」という単語は、テキスト文例2では可変フレーズと特定されるが、テキスト文例3では情報処理装置2のテキスト文の型の一部としてキャリアフレーズと特定される。
なお、テキスト文内において、例えば括弧[]で囲う等の方法によりキャリアフレーズまたは可変フレーズの箇所を明示する情報(識別情報)を含めることもできる。この構成の場合には、例えば「次の交差点を[左に]曲がります。」というテキスト文21aをテキスト文生成部21が生成し、可変フレーズ特定部11は単に括弧で囲われた箇所を可変フレーズに特定する。よって、可変フレーズ特定部11がテキスト文のみから可変フレーズを特定することができ、キャリアフレーズ辞書111が不要となる。あるいは、括弧で囲う方法を、キャリアフレーズ辞書111を用いた可変フレーズ特定処理と組み合わせてもよい。
続くステップST2において言語解析部122が言語辞書121を参照して、テキスト文21aに対する言語解析を実施し、中間言語122aを出力する。なお、言語解析部122による言語解析処理は、入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよく、詳細な説明を省略する。
なお、本実施の形態ではテキスト文21aの一例として漢字かな混じり文を用いているが、アルファベット、中間言語等のいかなる形式であってもよく、言語に関しても日本語に限らず英語、中国語等の日本語以外の言語であってもよい。テキスト文21aが中間言語のみである場合には、言語辞書121および言語解析部122は不要となるため、音声合成部12を韻律制御部123および波形生成部124で構成すればよい。
続くステップST3において韻律制御部123は、入力された中間言語122aに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ123aを出力する。この際、韻律制御部123は、入力された可変フレーズ情報11aを参照し、可変フレーズと特定された部分については韻律パラメータにおける強調処理を行うことで、可変フレーズの強調処理を行う。韻律パラメータ強調処理としては、例えば特許文献3のように強調箇所をゆっくりと発声させる、大きな声で発声させる等を行う。なお、韻律制御部123における所定の規則および韻律パラメータ強調処理は、公知の技術を用いればよく、詳細な説明を省略する。
続くステップST4において波形生成部124は、中間言語122aおよび韻律パラメータ123aを受けて波形生成を行い、合成音声124aをスピーカ3へ出力する。この際、波形生成部124は、入力された可変フレーズ情報11aを参照し、可変フレーズと特定された部分について波形データにおける振幅強調、周波数帯域強調等の強調処理を行うことで、可変フレーズの強調処理を行う。なお、波形生成部124における合成音声の波形生成処理は、「Diphone synthesis using an overlap−add technique for speech waveforms concatenation」(F.J.Charpentier and M.G.Stella、ICASSP86、pp.2015−2018、Tokyo、1986)にあげるPSOLA(Pitch Synchronous OverLap Add)形式の規則合成音声方式等の公知の技術を用いる。また、波形データにおける強調処理は公知の技術を用いればよく、詳細な説明を省略する。
以上のように、実施の形態1によれば、数字、固有名詞等を表す可変フレーズとそれ以外の、テキスト文の型となるキャリアフレーズからなるテキスト文21aを入力として、可変フレーズに対し強調処理を加えた合成音声124aを生成するように構成した。
従来技術では、出現頻度が低い程高い重要度を設定した出現頻度情報を用いて強調箇所を判定すると情報としては重要だが出現頻度が高い「左に」等のフレーズが強調箇所から外される可能性があるのに対し、本実施の形態の音声合成装置1は可変フレーズとして明示的に強調箇所と判定できる。このように、可変フレーズを強調箇所とし、キャリアフレーズを強調箇所ではないとすることにより、明示的に強調箇所を判別することが可能となる。
また、従来技術では、品詞情報を用いて強調箇所を判定すると同一単語は必ず強調された(または必ず強調されなかった)。これに対し、本実施の形態の音声合成装置1は同一単語であっても可変フレーズかキャリアフレーズかを区別することにより、情報処理装置2のテキスト文の型であるキャリアフレーズ内の単語は強調せずに、可変フレーズのみを強調することが可能となる。このように、明瞭な音声で合成されるべき箇所を強調し、逆に明瞭な音声で合成する必要のない箇所を強調しないようにでき、意図通りの明瞭度による合成音声の生成が可能となる。
また、音声合成装置1は数字、固有名詞等、その数(種類)が膨大になりやすい可変フレーズの情報を予め保持することなく、ある程度限定された数(種類)のキャリアフレーズ情報を保持するキャリアフレーズ辞書111のみを参照することによって可変フレーズを特定することができる。そのため、キャリアフレーズ辞書111を構成するメモリおよび参照するための処理量を軽減することができる。
また、テキスト文21aに、括弧で囲う方法等によりキャリアフレーズまたは可変フレーズの箇所を明示する情報を含めた場合には、キャリアフレーズ辞書111を構成するメモリおよび参照するための処理をさらに削減することができる。さらに、括弧で囲う方法等を、キャリアフレーズ辞書111を用いた可変フレーズ特定処理と組み合わせることで、より柔軟な可変フレーズの特定が可能となる。
なお、上記実施の形態1では、テキスト文21aの可変フレーズと特定された部分について韻律制御部123および波形生成部124が強調処理を行うよう構成したが、これらに加えて、言語解析部122も強調処理を行うよう構成してもよい。言語解析部122による強調処理としては、例えば特開平3−63696号公報に記載された無声化音の有声化処理がある。この構成の場合には、可変フレーズに対する強調処理が増え、より柔軟な強調処理を行うことができる。
また、上記実施の形態1では、韻律制御部123および波形生成部124が強調処理を行うよう構成したが、いずれか一方のみが強調処理を行うよう構成してもよい。この構成の場合には、可変フレーズに対する強調処理は行うが、全体としての強調処理の処理量を削減することができる効果がある。
実施の形態2.
上記実施の形態1ではテキスト文21aの可変フレーズ全体に対して強調処理を行う構成としたが、本実施の形態では可変フレーズから重要フレーズを検出し、重要フレーズに対して強調処理を行う構成とする。図4は、この発明の実施の形態2に係る音声合成装置1の構成を示すブロック図である。本実施の形態の音声合成装置1は、上記実施の形態1の音声合成装置1に新たに重要フレーズ検索部13を追加した構成である。なお、図4において図1と同一または相当の部分については同一の符号を付し説明を省略する。
重要フレーズ検索部13は、可変フレーズ特定部11から入力された可変フレーズ情報11aに対して重要フレーズを検索し、検索結果を重要フレーズ情報13aとして韻律制御部123および波形生成部124へ出力する。韻律制御部123は、言語解析部122から入力された中間言語122a、および上記実施の形態1における可変フレーズ情報の代わりに重要フレーズ検索部13から入力された重要フレーズ情報13aを用い、重要フレーズに対応する部分に強調処理を加えた韻律パラメータ123aを生成し、中間言語122aと共に波形生成部124へ出力する。波形生成部124は、韻律制御部123から入力された中間言語122aおよび韻律パラメータ123a、ならびに上記実施の形態1における可変フレーズ情報の代わりに重要フレーズ検索部13から入力された重要フレーズ情報13aを用い、重要フレーズに対応する部分に強調処理を加えた音声波形を生成し、得られた合成音声124aをスピーカ3へ出力する。
次に、音声合成装置1の動作を説明する。図5は、実施の形態2に係る音声合成装置1の動作を示すフローチャートである。先ず、可変フレーズ特定部11が、図2のステップST1と同様の可変フレーズ特定処理を行う(ステップST11)。
重要フレーズ検索部13は、可変フレーズ特定部11から可変フレーズ情報11aが入力されると、可変フレーズから重要フレーズを検索する処理を行い、検索した重要フレーズを示す重要フレーズ情報13aを出力する(ステップST12)。
ステップST12の重要フレーズ検索処理の一例として、明示的に重要フレーズの情報を蓄えた重要フレーズ辞書131を用意して重要フレーズを検索する方法を説明する。
図6は、重要フレーズ検索部13の重要フレーズ検索処理を示す説明図である。重要フレーズ検索部13は、図6に例示した重要フレーズを蓄積した重要フレーズ辞書131を備え、この重要フレーズ辞書131を参照して、可変フレーズ情報11aの中で一致する箇所を検索し、一致した箇所を重要フレーズであると特定する。テキスト文例1「次の交差点を左に曲がります。」では可変フレーズ「左に」が重要フレーズ辞書131の重要フレーズと一致するため、重要フレーズも「左に」となる。テキスト文例2「自宅を検索します。」に関しても同様に、可変フレーズ「自宅」が重要フレーズとなる。テキスト文例3「自宅付近のコンビニを10件まで検索します。」については、可変フレーズ「コンビニを10件」のうち重要フレーズと一致する箇所は「コンビニ」であるため、「コンビニ」が重要フレーズとなる。ここで、「自宅」という単語は、テキスト文例2では重要フレーズになるが、テキスト文例3ではキャリアフレーズに特定されているために重要フレーズにはならない。
なお、テキスト文内(可変フレーズ情報)において、例えば括弧{}で囲う等の方法により重要フレーズの箇所を明示する情報を含めることもできる。この構成の場合には、例えば「自宅付近の{コンビニ}を10件まで検索します。」というテキスト文21aをテキスト文生成部21が生成し、重要フレーズ検索部13は単に括弧で囲われた箇所を重要フレーズに特定する。よって、重要フレーズ検索部13がテキスト文(可変フレーズ情報)のみから重要フレーズを特定することができ、重要フレーズ辞書131が不要となる。あるいは、括弧で囲う方法を、重要フレーズ辞書131を用いた重要フレーズ検索処理と組み合わせてもよい。
さらに、上記実施の形態1のように可変フレーズ情報を括弧[]で囲う方法を組み合わせて、例えば「自宅付近の[{コンビニ}を10件]まで検索します。」というテキスト文21aを可変フレーズ特定処理および重要フレーズ検索処理対象に用いてもよい。
続くステップST13にて言語解析部122が図2のステップST2と同様に処理を行い、ステップST14にて、韻律制御部123が中間言語122aに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ123aを出力する。この際、韻律制御部123は、入力された重要フレーズ情報13aを参照し、重要フレーズに対応する部分については韻律パラメータにおける強調処理を行うことで、重要フレーズの強調処理を行う。なお、韻律制御部123は、可変フレーズ特定部11の可変フレーズ情報11aおよび重要フレーズ検索部13の重要フレーズ情報13aを参照して、可変フレーズと特定された部分について韻律パラメータにおける強調処理を行い、重要フレーズに対応する部分については韻律パラメータにおける特に強い強調処理を行うこともできる。
続くステップST15において波形生成部124は、中間言語122aおよび韻律パラメータ123aを受けて波形生成を行い、合成音声124aをスピーカ3へ出力する。この際、波形生成部124は、入力された重要フレーズ情報13aを参照し、重要フレーズに対応する部分について波形データにおける振幅強調、周波数帯域強調等の強調処理を行うことで、重要フレーズの強調処理を行う。なお、波形生成部124は、可変フレーズ特定部11の可変フレーズ情報11aおよび重要フレーズ検索部13の重要フレーズ情報13aを参照して、可変フレーズと特定された部分について波形データにおける強調処理を行い、重要フレーズに対応する部分については波形データにおける特に強い強調処理を行うこともできる。
以上のように、実施の形態2によれば、可変フレーズの中でも重要フレーズに限定して強調処理を加えた合成音声124aを生成するように構成した。そのため、可変フレーズの中でも特に重要箇所のみを強調することができる。また、情報処理装置2のテキスト文の型であるキャリアフレーズは重要フレーズ検索部13の検索対象外であるため、キャリアフレーズ内の重要フレーズに対して誤って強調処理を行わないようにすることができる。
また、テキスト文21a内(可変フレーズ情報11a)に、括弧で囲う方法等により重要フレーズの箇所を明示する情報を含めた場合には、重要フレーズ辞書131を構成するメモリおよび参照するための処理量を削減することができる。さらに、括弧で囲う方法等を、重要フレーズ辞書131を用いた重要フレーズ検索処理と組み合わせることで、より柔軟な重要フレーズの特定が可能となる。
また、韻律制御部123の韻律制御において、可変フレーズ情報11aおよび重要フレーズ情報13aを入力情報として、可変フレーズと特定された部分について韻律パラメータにおける強調処理を行い、重要フレーズに対応する部分について、韻律パラメータにおける特に強い強調処理を行う場合には、より柔軟な韻律パラメータにおける強調処理が可能となる。
また、波形生成部124の波形生成において、可変フレーズ情報11aおよび重要フレーズ情報13aを入力情報として、可変フレーズと特定された部分について波形データにおける強調処理を行い、重要フレーズに対応する部分について波形データにおける特に強い強調処理を行う場合には、より柔軟な波形データにおける強調処理が可能となる。
実施の形態3.
図7は、この発明の実施の形態3に係る音声合成装置1の構成を示すブロック図である。図7において、音声合成装置1は、情報処理装置2から入力されたテキスト文21bに対応する合成音声124bを生成し、スピーカ3へ出力する装置であり、強調対象フレーズ特定部14と、テキスト加工部15と、言語辞書121、言語解析部122、韻律制御部123および波形生成部124から構成される音声合成部12とを備える。
テキスト文生成部21は、合成音声生成の対象となるテキスト文21bを生成して、音声合成装置1へ出力する。テキスト文21bは、上記実施の形態1のテキスト文21aのように可変フレーズとキャリアフレーズからなるテキスト文だけでなく、いかなる形式のテキスト文でもよい。
音声合成装置1の強調対象フレーズ特定部14は、情報処理装置2から入力されたテキスト文21bの中から強調対象フレーズを特定する。そして、強調対象フレーズ特定部14は特定した強調対象フレーズの情報を強調対象フレーズ情報14aとしてテキスト加工部15へ出力する。テキスト加工部15は、情報処理装置2から入力されたテキスト文21bおよび強調対象フレーズ特定部14から入力された強調対象フレーズ情報14aを用い、このテキスト文21bに対して強調対象フレーズを複数回繰り返す加工を行う。そして、テキスト加工部15は加工により得られた加工テキスト文15aを言語解析部122へ出力する。
言語辞書121は、加工テキスト文15aに含まれる単語、句等の読み方、品詞等の情報が登録されているメモリである。言語解析部122は、テキスト加工部15から入力された加工テキスト文15aに対し、言語辞書121を参照して形態素解析、構文解析等の言語解析を実施する。言語解析の結果、言語解析部122は加工テキスト文15aの読み方、品詞、アクセント等を示す中間言語122aを生成し、韻律制御部123へ出力する。韻律制御部123は、言語解析部122から入力された中間言語122aに対し、韻律パラメータ123bを生成し、中間言語122aと共に波形生成部124へ出力する。波形生成部124は、韻律制御部123から入力された中間言語122aおよび韻律パラメータ123bを用いて音声波形を生成し、得られた合成音声124bをスピーカ3へ出力する。
次に、音声合成装置1の動作を説明する。図8は、実施の形態3に係る音声合成装置1の動作を示すフローチャートである。情報処理装置2から音声合成装置1へテキスト文21bが入力されると、強調対象フレーズ特定部14がテキスト文21bの中から強調対象フレーズを特定し、強調対象フレーズ情報14aとして出力する(ステップST21)。
ステップST21の強調対象フレーズ特定処理では、特許文献1におけるテキスト解析手段のテキスト解析結果(品詞情報、自立語・付属語情報、未知語情報、文内位置情報、出現頻度情報、出現順情報、フォーカス有無情報、類似読み語有無情報のうちの少なくとも一つを含む)に基づいた所定の読み上げ単位に対応する合成音声の明瞭度の判定等、公知の技術を用いればよい。
なお、テキスト文21bが可変フレーズとキャリアフレーズとから構成されている場合には、実施の形態1,2に示す音声合成装置1の構成を適宜用いて、可変フレーズ情報および重要フレーズ情報から強調対象フレーズを特定するようにしてもよい。
また、テキスト文内において、例えば括弧[]で囲う等の方法により強調対象フレーズの箇所を明示する情報を含めることもできる。この構成の場合には、例えば「この信号を[左に]曲がります。」というテキスト文21bをテキスト文生成部21が生成し、強調対象フレーズ特定部14は単に括弧で囲われた箇所を強調対象フレーズに特定する。あるいは、括弧で囲う方法を、上述の強調対象フレーズ特定処理と組み合わせてもよい。
続くステップST22においてテキスト加工部15は、情報処理装置2からテキスト文21bが、強調対象フレーズ特定部14から強調対象フレーズ情報14aがそれぞれ入力されると、テキスト文21bの強調対象フレーズを検出する。そして、テキスト加工部15は、検出した強調対象フレーズを複数回繰り返す加工処理をテキスト文21bに対して行い、加工テキスト文15aとして言語解析部122へ出力する。
ステップST22のテキスト加工処理の一例を説明する。図9は、テキスト加工部15のテキスト加工処理を示す説明図である。図9の例では、テキスト文21b「この信号を左に曲がります。」に対する強調対象フレーズ情報14aが「左に」である。ここでは、強調対象フレーズを含む単語、句、文を複数回繰り返した加工テキスト文を作成することにより、強調対象フレーズの聞き逃しを減らす。加工テキスト文15aの加工例1では、強調対象フレーズ「左に」をそのまま続けて繰り返す加工処理が施されている。加工例2および加工例3では、強調対象フレーズを含む句「左に曲がります」をテキスト文の後ろまたは前において繰り返す加工処理が施されている。加工例4および加工例5では、強調対象フレーズ「左に」を「左です」に変形させて、テキスト文の後ろまたは前において繰り返す加工処理が施されている。なお、これらの加工例以外の加工処理であっても、強調対象フレーズを複数含む加工テキスト文15aを生成することにより、強調対象フレーズ「左に」の聞き逃しを減らすことができる。
続くステップST23において言語解析部122は、テキスト加工部15から加工テキスト文15aが入力されると、言語辞書121を参照して加工テキスト文15aに対する形態素解析、構文解析等の言語解析を実施し、中間言語122aを出力する。なお、言語解析部122による言語解析処理は、上記実施の形態1,2同様に入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよい。
なお、テキスト文21bが中間言語のみである場合には、言語辞書121および言語解析部122は不要となるため、音声合成部12を韻律制御部123および波形生成部124で構成すればよい。
続くステップST24において韻律制御部123は、入力された中間言語122aに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ123bを出力する。なお、韻律制御部123における所定の規則および韻律パラメータ設定は、上記実施の形態1,2同様に公知の技術を用いればよい。
続くステップST25において波形生成部124は、中間言語122aおよび韻律パラメータ123bを受けて波形生成を行い、合成音声124bをスピーカ3へ出力する。なお、波形生成部124における合成音声の波形生成処理は、上記実施の形態1,2同様にPSOLA形式の規則合成音声方式等の公知技術を用いればよい。
以上のように、実施の形態3によれば、情報処理装置2から入力されたテキスト文21bの強調対象フレーズを繰り返すように加工し、加工したテキスト文21bである加工テキスト文15aに基づいて合成音声124bを生成するように構成した。このように、ユーザが再発声要求せずとも強調対象フレーズが繰り返し発声されるため、強調対象フレーズが強調されて強調対象フレーズの聞き逃しを少なくすることができる。また、ユーザが強調対象フレーズを聞き逃すことで再発声要求するという負担を軽減することができる。
また、テキスト文21bが可変フレーズとキャリアフレーズから構成されている場合には、上記実施の形態1および2の構成を適宜用いて可変フレーズ情報および重要フレーズ情報から強調対象フレーズを特定する構成にすることにより、上記実施の形態1,2と同様の効果が得られる。
また、テキスト文21bに、括弧で囲う方法等により強調対象フレーズの箇所を明示する情報を含めた場合には、強調対象フレーズ特定部14による強調対象フレーズを特定するための処理を削減することができる。さらに、括弧で囲う方法等を、強調対象フレーズ特定部14による強調対象フレーズ特定処理と組み合わせることで、より柔軟な強調対象フレーズの特定が可能となる。
なお、上記実施の形態3では音声合成装置1がテキスト加工部15を備える構成としたが、音声合成装置1がテキスト加工部15を備えず、情報処理装置2のテキスト文生成部21において強調対象フレーズを複数回繰り返したテキスト文を生成する構成であってもよい。この構成の場合には、音声合成装置1における強調対象フレーズ特定処理およびテキスト加工処理を削減することができる。
実施の形態4.
上記実施の形態3では、テキスト文21bの強調対象フレーズを繰り返した合成音声124bを生成することにより、ユーザの強調対象フレーズ聞き逃しを防止していた。本実施の形態では、これに加えて、韻律制御および波形生成処理においても強調処理を行うように構成し、繰り返し毎に、生成する合成音声の強調度合いを制御する。図10は、この発明の実施の形態4に係る音声合成装置1の構成を示すブロック図である。図10において図1または図7と同一または相当の部分については同一の符号を付し説明を省略する。
強調対象フレーズ特定部14は、情報処理装置2から入力されたテキスト文21bに対して強調対象フレーズを特定し、強調対象フレーズ情報14aとしてテキスト加工部15へ出力すると共に、音声合成部12の韻律制御部123および波形生成部124へも出力する。韻律制御部123は、言語解析部122から入力された中間言語122aおよび強調対象フレーズ特定部14から入力された強調対象フレーズ情報14aを用い、繰り返された強調対象フレーズに対応する部分に強調処理を加えた韻律パラメータ123cを生成し、中間言語122aと共に波形生成部124へ出力する。波形生成部124は、韻律制御部123から入力された中間言語122aおよび韻律パラメータ123c、ならびに強調対象フレーズ特定部14から入力された強調対象フレーズ情報14aを用い、繰り返された強調対象フレーズに対応する部分に強調処理を加えた音声波形を生成し、得られた合成音声124cをスピーカ3へ出力する。
次に、音声合成装置1の動作を説明する。図11は、実施の形態4に係る音声合成装置1の動作を示すフローチャートである。情報処理装置2からテキスト文21bが入力されると、強調対象フレーズ特定部14が上記実施の形態3同様にテキスト文21bから強調対象フレーズを特定し、強調対象フレーズ情報14aを強調対象フレーズ特定部14、韻律制御部123および波形生成部124へ出力する(ステップST31)。
続くステップST32にてテキスト加工部15が図8のステップST22と同様に処理を行い、ステップST33にて言語解析部122が図8のステップST23と同様に処理を行う。
続くステップST34において韻律制御部123は、言語解析部122から入力された中間言語122aに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ123cを出力する。この際、韻律制御部123は、入力された強調対象フレーズ情報14aを参照し、繰り返された強調対象フレーズに対応する部分については韻律パラメータ123cにおける強調処理を行うことで、強調対象フレーズの強調処理を行う。さらに、韻律制御部123は、繰り返し毎に強調対象フレーズの韻律パラメータ123cの強調度合いを制御する。例えば、1回目の発声よりも2回目の繰り返し発声の強調度合いを強くすることで、2回目の発声の聞き逃しを少なくする。なお、韻律制御部123における韻律処理および韻律パラメータ123cにおける強調処理は、上記実施の形態1〜3同様に公知技術を用いればよい。
続くステップST35において波形生成部124は、中間言語122aおよび韻律パラメータ123cを受けて波形生成を行い、合成音声124cをスピーカ3へ出力する。この際、波形生成部124は、入力された強調対象フレーズ情報14aを参照し、繰り返された強調対象フレーズに対応する部分については波形データにおける強調処理を行うことで、強調対象フレーズの強調処理を行う。さらに、波形生成部124は、繰り返し毎に強調対象フレーズの波形データの強調度合いを制御する。なお、波形生成部124における合成音声の波形生成処理には上記実施の形態1〜3同様にPSOLA形式の規則合成音声方式等の公知技術を用いればよい。また、波形データの強調処理にも上記実施の形態1〜3同様に公知技術を用いればよい。
以上のように、実施の形態4によれば、繰り返された強調対象フレーズに対し、繰り返し毎に強調度合いを制御するように構成した。そのため、ユーザによる強調対象フレーズの聞き逃しをさらに少なくすることができる。
1 音声合成装置、2 情報処理装置、3 スピーカ、11 可変フレーズ特定部、11a 可変フレーズ情報、12 音声合成部、13 重要フレーズ検索部、13a 重要フレーズ情報、14 強調対象フレーズ特定部、14a 強調対象フレーズ情報、15 テキスト加工部、15a 加工テキスト文、21 テキスト文生成部、21a,21b テキスト文、111 キャリアフレーズ辞書、121 言語辞書、122 言語解析部、122a 中間言語、123 韻律制御部、123a,123b,123c 韻律パラメータ、124 波形生成部、124a,124b,124c 合成音声、131 重要フレーズ辞書。

Claims (6)

  1. 可変フレーズおよびキャリアフレーズからなるテキスト文に基づいて音声を合成する音声合成装置であって、
    前記テキスト文中の可変フレーズを特定し、可変フレーズ情報として出力する可変フレーズ特定部と、
    前記テキスト文中の、前記可変フレーズ情報に従い特定された前記可変フレーズに強調処理を加えた合成音声を生成する音声合成部とを備えることを特徴とする音声合成装置。
  2. テキスト文中の、可変フレーズ情報に従い特定された可変フレーズの中から、所定の重要フレーズを検索して、該当する重要フレーズを重要フレーズ情報として出力する重要フレーズ検索部を備え、
    音声合成部は、可変フレーズの強調処理に代えて、前記テキスト文中の、前記重要フレーズ情報に従い特定された前記重要フレーズに強調処理を加えた合成音声を生成することを特徴とする請求項1記載の音声合成装置。
  3. テキスト文中の、可変フレーズ情報に従い特定された可変フレーズの中から、所定の重要フレーズを検索して、該当する重要フレーズを重要フレーズ情報として出力する重要フレーズ検索部を備え、
    音声合成部は、前記テキスト文中の、前記可変フレーズ情報に従い特定された前記可変フレーズに強調処理を加えると共に、前記重要フレーズ情報に従い特定された前記重要フレーズに、前記可変フレーズの強調処理より強い度合いの強調処理を加えた合成音声を生成することを特徴とする請求項1記載の音声合成装置。
  4. テキスト文中の、可変フレーズ情報に従い特定された可変フレーズまたは重要フレーズ情報に従い特定された重要フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部を備え、
    音声合成部は、前記テキスト文に代えて、前記加工テキスト文中の前記可変フレーズまたは前記重要フレーズに強調処理を加えた合成音声を生成することを特徴とする請求項2または請求項3記載の音声合成装置。
  5. テキスト文に基づいて音声を合成する音声合成装置であって、
    前記テキスト文に含まれる強調対象フレーズを特定した強調対象フレーズ情報を用いて、前記テキスト文中の前記強調対象フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部と、
    前記加工テキスト文に応じた合成音声を生成する音声合成部とを備えることを特徴とする音声合成装置。
  6. 音声合成部は、加工テキスト文中の可変フレーズ、重要フレーズまたは強調対象フレーズに、繰り返し毎に強調度合いを制御した強調処理を加えた合成音声を生成することを特徴とする請求項4または請求項5記載の音声合成装置。
JP2009016786A 2009-01-28 2009-01-28 音声合成装置 Pending JP2010175717A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009016786A JP2010175717A (ja) 2009-01-28 2009-01-28 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009016786A JP2010175717A (ja) 2009-01-28 2009-01-28 音声合成装置

Publications (1)

Publication Number Publication Date
JP2010175717A true JP2010175717A (ja) 2010-08-12

Family

ID=42706775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009016786A Pending JP2010175717A (ja) 2009-01-28 2009-01-28 音声合成装置

Country Status (1)

Country Link
JP (1) JP2010175717A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002879A1 (ja) * 2014-07-02 2016-01-07 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
CN108630213A (zh) * 2017-03-22 2018-10-09 株式会社东芝 声音处理装置、声音处理方法以及存储介质
WO2023062816A1 (ja) * 2021-10-15 2023-04-20 パイオニア株式会社 コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527792A (ja) * 1991-07-22 1993-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置
JPH0712581A (ja) * 1993-06-25 1995-01-17 Aqueous Res:Kk 車輌用音声出力装置
JPH0863187A (ja) * 1994-08-19 1996-03-08 Fujitsu Ltd 音声合成装置
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JPH08247779A (ja) * 1995-03-09 1996-09-27 Honda Motor Co Ltd 音声出力装置
JPH10171485A (ja) * 1996-12-12 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005332174A (ja) * 2004-05-19 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラムおよび記録媒体

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0527792A (ja) * 1991-07-22 1993-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置
JPH0712581A (ja) * 1993-06-25 1995-01-17 Aqueous Res:Kk 車輌用音声出力装置
JPH0863187A (ja) * 1994-08-19 1996-03-08 Fujitsu Ltd 音声合成装置
JPH0876796A (ja) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd 音声合成装置
JPH08247779A (ja) * 1995-03-09 1996-09-27 Honda Motor Co Ltd 音声出力装置
JPH10171485A (ja) * 1996-12-12 1998-06-26 Matsushita Electric Ind Co Ltd 音声合成装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2005332174A (ja) * 2004-05-19 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラムおよび記録媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016002879A1 (ja) * 2014-07-02 2016-01-07 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
CN106471569A (zh) * 2014-07-02 2017-03-01 雅马哈株式会社 语音合成设备、语音合成方法及其程序
JPWO2016002879A1 (ja) * 2014-07-02 2017-04-27 ヤマハ株式会社 音声合成装置、音声合成方法およびプログラム
US20170116978A1 (en) * 2014-07-02 2017-04-27 Yamaha Corporation Voice Synthesizing Apparatus, Voice Synthesizing Method, and Storage Medium Therefor
US10224021B2 (en) 2014-07-02 2019-03-05 Yamaha Corporation Method, apparatus and program capable of outputting response perceivable to a user as natural-sounding
JP2019045867A (ja) * 2014-07-02 2019-03-22 ヤマハ株式会社 音声制御方法、音声制御装置およびプログラム
CN106471569B (zh) * 2014-07-02 2020-04-28 雅马哈株式会社 语音合成设备、语音合成方法及其存储介质
CN108630213A (zh) * 2017-03-22 2018-10-09 株式会社东芝 声音处理装置、声音处理方法以及存储介质
CN108630213B (zh) * 2017-03-22 2021-09-28 株式会社东芝 声音处理装置、声音处理方法以及存储介质
WO2023062816A1 (ja) * 2021-10-15 2023-04-20 パイオニア株式会社 コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体

Similar Documents

Publication Publication Date Title
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US7991616B2 (en) Speech synthesizer
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
US7280969B2 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
JP2010175717A (ja) 音声合成装置
JP2007086309A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3518898B2 (ja) 音声合成装置
JP4964695B2 (ja) 音声合成装置及び音声合成方法並びにプログラム
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
Chettri et al. Nepali text to speech synthesis system using esnola method of concatenation
JPH08335096A (ja) テキスト音声合成装置
JPH07200554A (ja) 文章読み上げ装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
EP1589524B1 (en) Method and device for speech synthesis
JPH037995A (ja) 歌音声合成データの作成装置
JP2703253B2 (ja) 音声合成装置
JP2005181998A (ja) 音声合成装置および音声合成方法
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP3034554B2 (ja) 日本語文章読上げ装置及び方法
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
JP2006330486A (ja) 音声合成装置、この音声合成装置を備えるナビゲーション装置、音声合成プログラム及びこのプログラムを記憶した情報記憶媒体
JPH06214585A (ja) 音声合成装置
JPH064090A (ja) テキスト音声変換方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120829

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130326