JP2009229932A - 音声出力装置 - Google Patents
音声出力装置 Download PDFInfo
- Publication number
- JP2009229932A JP2009229932A JP2008076696A JP2008076696A JP2009229932A JP 2009229932 A JP2009229932 A JP 2009229932A JP 2008076696 A JP2008076696 A JP 2008076696A JP 2008076696 A JP2008076696 A JP 2008076696A JP 2009229932 A JP2009229932 A JP 2009229932A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- text
- phrase
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる音声出力装置を提供する。
【解決手段】初期音声生成部8は、テキスト入力部4で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成し、音声認識処理部10では、初期音声から認識されるテキストを認識テキストとして出力する。差異判断部9は、前記認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する。強調手段3は、音声合成部1から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部1に与える。
【選択図】図1
【解決手段】初期音声生成部8は、テキスト入力部4で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成し、音声認識処理部10では、初期音声から認識されるテキストを認識テキストとして出力する。差異判断部9は、前記認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する。強調手段3は、音声合成部1から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部1に与える。
【選択図】図1
Description
本発明は、入力されたテキストに対応する合成音声を出力する音声出力装置に関するものである。
従来から、ユーザによって入力されたテキスト(以下、入力テキストという)に対応する合成音声を音声合成により生成して出力することで、入力テキストを読み上げることができる音声出力装置が提供されている。この種の音声出力装置として、ユーザにとって聞き分けが容易な合成音声を出力することを目的として、入力テキストのうちユーザにとって聞き分けが困難な部分を抽出し、抽出された部分について聞き分けを容易にするための変換処理を行うものが提案されている(たとえば特許文献1参照)。
特許文献1に記載の技術によれば、ユーザにとって聞き取りにくい発音の組み合わせである発音パターン(たとえば、「車種(syasyu)」のような「子音・拗音」と「子音・拗音」との組み合わせ)が登録されているテーブルと音声合成の対象の入力テキストとを照合することで、当該入力テキストのうち前記発音パターンを含む部分が、ユーザにとって聞き分けにくい部分として抽出される。このようにして抽出された部分について、そこに含まれる単語または複合語を他の単語または他の複合語に置換、あるいは前記複合語を構成する単語間に助詞またはポーズを挿入する変換処理が施されることで、聞き分けの容易な合成音声が生成される。
特開2000−172289号公報
しかし、特許文献1に記載の発明では、入力テキストのうち上述したテーブルに登録されている発音パターンに該当する部分のみが、前記変換処理(聞き分けを容易にするための処理)の対象となるため、たとえユーザにとって聞き分けが困難な語句であっても、テーブルに予め登録されている発音パターンに該当しないものについては前記変換処理の対象とされることはなく、その結果、ユーザにとって聞き分けが困難な合成音声が出力されることがある。
本発明は上記事由に鑑みてなされたものであって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる音声出力装置を提供することを目的とする。
請求項1の発明では、所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、合成音声の音声信号から認識されるテキストを認識テキストとして出力する音声認識処理部と、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする。
この構成によれば、差異判断部は、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異に基づいて、ユーザにとって聞き分けが困難な語句を要強調語句として抽出し、強調手段は、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されることとなる。したがって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。
請求項2の発明は、所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、テキストに対応する音声の音響的特徴量が記憶された特徴量格納部と、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異を検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする。
この構成によれば、差異判断部は、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異に基づいて、ユーザにとって聞き分けが困難な語句を要強調語句として抽出し、強調手段は、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されることとなる。したがって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。
請求項3の発明は、請求項1または請求項2の発明において、複数の語句を格納した語句格納部と、前記入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を所定の類比判断ルールを適用して行い、前記入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部とを備え、前記強調手段が、前記差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする。
この構成によれば、類比判断部は、入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を行い、入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出し、強調手段は、差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、差異判断部の判断結果のみに基づいて合成音声が強調される場合に比べて、聞き分けが困難な語句を確実に強調できるという利点がある。
請求項4の発明は、請求項1または請求項2の発明において、前記音声合成部に設けた合成音声格納部に格納されている合成音声に係る情報および前記入力テキストの内容から前記入力テキストに対応する合成音声の信頼度を語句ごとに判断し、前記入力テキストのうち信頼度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、前記強調手段が、前記差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする。
この構成によれば、信頼度判断部は、入力テキストに対応する合成音声の信頼度を判断し、強調手段は、差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成に与えるものであるから、差異判断部の判断結果のみに基づいて合成音声が強調される場合に比べて、聞き分けが困難な語句を確実に強調できるという利点がある。
請求項5の発明は、請求項1ないし請求項4のいずれかの発明において、前記強調手段が、語句ごとに前記音声合成部から合成音声として出力される頻度を検出する頻度監視部を有し、頻度監視部で検出される頻度が所定の閾値を超えた語句については前記要強調語句から除外することを特徴とする。
この構成によれば、合成音声として出力される頻度が高く当該頻度が閾値を超えた語句については強調の対象から除外されるので、同じ語句が頻繁に出力されることで当該語句について聞き間違いを生じにくくなった場合において、その後も前記語句が何度も強調されることを回避できるという利点がある。
本発明は、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されるので、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができるという利点がある。
(実施形態1)
本実施形態の音声出力装置は、入力テキストとして与えられた所望のテキストに対応する合成音声を生成して出力するものであって、図1(a)に示すように、合成音声を生成・出力する音声合成部1と、入力テキストのうちユーザにとって聞き分けが困難な語句(音韻、モーラ(カナ)、形態素、単語、複合語、文節など)を要強調語句として自動的に抽出する判断手段2と、判断手段2で要強調語句が抽出された場合に、音声合成部1で生成される合成音声のうち要強調語句に対応する部分を強調するための指示を音声合成部1に与える強調手段3とを備えている。ここで、合成音声のうち強調の対象となる要強調語句の部分とは、要強調語句の全体であってもよいが、要強調語句の一部であってもよい。
本実施形態の音声出力装置は、入力テキストとして与えられた所望のテキストに対応する合成音声を生成して出力するものであって、図1(a)に示すように、合成音声を生成・出力する音声合成部1と、入力テキストのうちユーザにとって聞き分けが困難な語句(音韻、モーラ(カナ)、形態素、単語、複合語、文節など)を要強調語句として自動的に抽出する判断手段2と、判断手段2で要強調語句が抽出された場合に、音声合成部1で生成される合成音声のうち要強調語句に対応する部分を強調するための指示を音声合成部1に与える強調手段3とを備えている。ここで、合成音声のうち強調の対象となる要強調語句の部分とは、要強調語句の全体であってもよいが、要強調語句の一部であってもよい。
本実施形態では、テキストを入力するためのインタフェースであるテキスト入力部4が設けられており、音声合成の対象となる入力テキストは、テキスト入力部4で任意のテキストが入力されることで与えられる。
音声合成部1は、テキストを合成音声に変換する音声合成処理を行う音声合成処理部5と、音声合成処理部5で合成音声を生成する際に必要となる音声波形に関するデータを持つ音声合成データベース6と、音声合成処理部5で変換された合成音声を出力する音声出力部7とを有している。ここで、音声合成処理部5は、テキストを合成音声に変換する際に、強調手段3から受け取る後述の制御パラメータを用いることで、生成される合成音声の音響的特徴を変化させることができるものである。
判断手段2は、図1(b)に示すように、実際に与えられた(つまり、テキスト入力部4で入力された)入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部8と、初期音声と入力テキストとの間の差異を検出する差異判断部9とを有し、入力テキストのうち差異判断部9で差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出し、強調手段3での強調の対象とする。具体的には、音声認識処理を行うことによって合成音声の音声信号から認識される語句を認識テキストとして出力する音声認識処理部10を判断手段2に具備しており、差異判断部9において、初期音声を音声認識処理部10で認識させることで得られた認識テキストと入力テキストとの比較を語句ごとに行い、入力テキストのうち認識テキストとの間に言語的差異があると判断された語句を要強調語句として抽出する。
強調手段3は、判断手段2で要強調語句が抽出された場合に、音声合成部1にて生成される合成音声のうち要強調語句に対応する部分について、知覚的に強調する目的で音響的特徴量を変換するための制御パラメータを生成する制御パラメータ生成部11を有する。つまり、制御パラメータには、合成音声のうち要強調語句に対応する部分に対して、どのような音響的特徴量の変換を行うのかを示す情報が含まれている。ここでいう音響的特徴量の変換の具体例としては、パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割などがある。しかして、判断手段2で要強調語句が抽出されると、音声合成部1で生成される合成音声のうち要強調語句に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施されることにより強調され、ユーザにとって聞き分けやすい合成音声に変換される。なお、制御パラメータにおける音響的特徴量の変換制御の内容は、複数の音響的特徴量の変換を組み合わせたものであってもよい。
以下、本実施形態の音声出力装置の動作について図2のフローチャートを参照して簡単に説明する。
テキスト入力部4で入力テキストが入力されると、判断手段2は、入力された入力テキストを語句単位で分割し(S1)、分割後の語句を入力テキストの先頭から順に読み込む(S2)。そして、差異判断部9は、読み込まれた各語句について、初期音声から得られる認識テキストと入力テキストとの間の差異に基づいて要強調語句の抽出を行い(S3)、要強調語句が抽出された場合には、入力テキストにおける要強調語句の位置を記憶する(S4)。入力テキストの全ての語句についてステップS3の処理が為されるまではステップS2、S3の処理を繰り返す(S5)。入力テキストの全ての語句について前記処理が完了すれば、制御パラメータ生成部11が、差異判断部9の判断結果(入力テキストにおける要強調語句の位置)に基づいて制御パラメータを決定する(S6)。音声合成部1では、制御パラメータ生成部11から受けた制御パラメータに従って入力テキストを合成音声に変換し、当該合成音声を出力する(S7)。
次に、本実施形態の音声出力装置を用いた具体例について説明する。ここでは一例として、テキスト入力部4から「カズオさんが〜」という文章が入力テキストとして入力され、この入力テキストのうち「カズオ」という語句(ここでは単語)が要強調語句として抽出されたものとする。すなわち、初期音声生成部8で入力テキストに対応する合成音声の音声信号を初期音声として生成し、この初期音声を音声認識処理部10で認識させることで得られた認識テキストと入力テキストとの間において、「カズオ」という語句に係る部分で差異があったものとする。
制御パラメータ生成部11は、上述のように入力テキストから要強調語句が抽出された場合、当該入力テキストの要強調語句について、たとえば表1に示すような音響的特徴量の変換(パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割など)の指示を含む制御パラメータを生成する。その結果、音声合成部1で生成される合成音声のうち要強調語句に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施され、ユーザにとって聞き分けやすい合成音声に変換されることとなる。
以上説明した構成の音声出力装置によれば、入力テキストのうち差異判断部9において聞き分けが困難であると判断された語句については強調する処理が施されるので、従来構成のように予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。
ところで、本実施形態の強調手段3は、語句(ここでは単語)ごとに音声合成部1から合成音声として出力された頻度を検出する頻度監視部12を具備している。制御パラメータ生成部11は、判断手段2から判断結果を受け取ると、要強調語句に関して頻度監視部12内の頻度を参照し、当該頻度が所定の閾値を超えた場合にはこの要強調語句を強調の対象から除外するように機能する。ここでいう頻度は、音声出力装置の使用開始当初からの累積回数であってもよいが、所定の期間(たとえば1日)ごとにリセットされる回数であってもよい。
これにより、合成音声として出力される頻度が高く当該頻度が閾値を超えた語句については強調の対象から除外されるので、同じ語句が頻繁に出力されることで当該語句について聞き間違いを生じにくくなった場合において、その後も前記語句が何度も強調されることを回避できる。すなわち、何度も出力されることでユーザが聞き慣れた語句について執拗に強調されるとユーザが煩わしく感じることもあるが、本実施形態の構成によればこのような煩わしさを解消できるという利点がある。
さらに本実施形態では、制御パラメータ生成部11は要強調語句について頻度監視部12内の頻度を参照し、当該頻度が高くなるほど要強調語句の強調の度合いを弱めるように制御パラメータを決定する。具体的に説明すると、表2に示すように要強調語句(ここでは「カズオ」)に関し、音声合成した回数が1〜9回の場合には「オ」の波形の強度(パワー)を2倍、音声合成した回数が10〜19回の場合には「オ」の波形の強度を1.5倍、音声合成した回数が20〜49回の場合には「オ」の波形の強度を1.2倍とするように、頻度が高くなるにつれて要強調語句の強調の程度を徐々に低下させる。そして、頻度が所定の閾値(ここでは49回)を超えて50回以上になると、この語句(ここでは「カズオ」)については強調の対象から除外し、変換処理を行わないものとする。
なお、本実施形態では、音声合成部1と初期音声生成部8とを別々に設ける例を示したが、この例に限らず、たとえば音声合成部1の音声合成処理部5を初期音声生成部8として兼用するようにしてもよい。
また、上記実施形態では、入力テキストが与えられて(つまり、テキスト入力部4で入力されて)音声合成を開始した後で、入力テキストについてユーザにとって聞き分けにくい語句(要強調語句)の有無を判断する例を示したが、音声合成の開始前に予め要強調語句であるか否かの判断をさせることも可能である。
(実施形態2)
本実施形態の音声出力装置は、判断手段2が、音声認識処理部10に代えて、図3に示すようにテキストに対応する音声の音響的特徴量が格納された特徴量格納部13を具備し、差異判断部9において、初期音声生成部8で生成された初期音声の音響的特徴量と特徴量格納部13から取得された入力テキストに対応する音声の音響的特徴量との比較を波形レベルで行い、両者間の差異が許容範囲を超える語句を要強調語句として抽出するようにした点が実施形態1の音声出力装置と相違する。特徴量格納部13には、アナウンサ等の明瞭性の高い音声を収録してなる収録音声の音響的特徴量が予め格納されている。
本実施形態の音声出力装置は、判断手段2が、音声認識処理部10に代えて、図3に示すようにテキストに対応する音声の音響的特徴量が格納された特徴量格納部13を具備し、差異判断部9において、初期音声生成部8で生成された初期音声の音響的特徴量と特徴量格納部13から取得された入力テキストに対応する音声の音響的特徴量との比較を波形レベルで行い、両者間の差異が許容範囲を超える語句を要強調語句として抽出するようにした点が実施形態1の音声出力装置と相違する。特徴量格納部13には、アナウンサ等の明瞭性の高い音声を収録してなる収録音声の音響的特徴量が予め格納されている。
ここで、初期音声の音響的特徴量と特徴量格納部13内の音響的特徴量との差異を抽出する具体的な手法としては、たとえば、スペクトルをモデル化した特徴量であるメルケプストラムについてDP(動的計画法:Dynamic Programming)マッチングを利用した手法が用いられる。なお、音声合成の対象となる全ての入力テキストについて収録音声を特徴量格納部13に格納しておくことは困難であるから、特徴量格納部13には、たとえばモーラ(カナ)単位などで細かく分割した収録音声の音響的特徴量を格納し、モーラ単位で音響的特徴量の比較を行うものとする。ここでは、前記収録音声として、音声合成部1に付随の音声合成データベース6を作成するために用いた音声を利用する。
その他の構成および機能は実施形態1と同様である。
(実施形態3)
本実施形態の音声出力装置は、判断手段2が、図4に示すように複数の語句を格納した語句格納部14と、入力テキストに含まれる語句について語句格納部14に格納されている他の語句と発音が類似するか否かの判断を行い、入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部15とを備える点が実施形態1の音声出力装置と相違する。
本実施形態の音声出力装置は、判断手段2が、図4に示すように複数の語句を格納した語句格納部14と、入力テキストに含まれる語句について語句格納部14に格納されている他の語句と発音が類似するか否かの判断を行い、入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部15とを備える点が実施形態1の音声出力装置と相違する。
本実施形態では、音声合成の対象となる入力テキストは、語句格納部14に登録済みの複数の語句の中から、テキスト入力部4によって任意のものが読み出されることで与えられる。ここにおいて、テキストを入力するためのインタフェースであるテキスト登録部16が設けられており、テキスト登録部16で入力された任意の語句が語句格納部14に登録されることとなる。ここで例示するテキスト入力部4は、外部から与えられるトリガを受けることにより、当該トリガに応じた語句を語句格納部14から入力テキストとして読み出すものである。すなわち、語句格納部14には入力テキストに含まれ得る語句が予め登録されていることになる。
類比判断部15において行う入力テキスト中の語句と語句格納部14内の他の語句との類比判断には、たとえば表3に示すように、音韻、モーラ、単語、文節の各々を単位とした場合に誤認識を生じやすい関係にあるものをグループ化した類比判断ルールが適用される。つまり、たとえば表3に「音韻間ルール1」で表すように、「p」、「t」、「k」等の無声破裂子音は他の無声破裂子音と誤認識されやすいものであるから、無声破裂子音のみが異なる語句は「音韻間ルール1」を適用することで互いに類似するものと判断される。
ここにおいて、強調手段3は、差異判断部9および類比判断部15の両方の判断結果に基づいて、音声合成部1から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部1に与える。すなわち、本実施形態の強調手段3は、初期音声と入力テキストとの間に差異があるか否かという点だけでなく、語句格納部14に発音の類似する語句が存在するか否かという点も考慮して、音声合成部1から出力される合成音声のうち要強調語句の部分を強調するものであって、差異判断部9の判断結果のみに基づいて強調する場合に比べると、聞き分けが困難な語句を確実に強調できるという利点がある。
具体的には、強調手段3は、差異判断部9で要強調語句が抽出されると、当該要強調語句を強調の対象にし、また、類比判断部15で要強調語句が抽出されても、当該要強調語句を強調の対象にする。つまり、本実施形態における強調手段3は、差異判断部9と類比判断部15との少なくとも一方で要強調語句が抽出されれば、当該要強調語句を強調の対象とするものである。
なお、この例に限らず、強調手段3は差異判断部9と類比判断部15との両方で要強調語句として抽出された語句のみを強調の対象とする構成にしてもよいが、聞き分けにくい語句を確実に強調するという観点からすれば、前述したように差異判断部9と類比判断部15との少なくとも一方で要強調語句として抽出された語句を強調の対象とすることが望ましい。
次に、本実施形態の音声出力装置を用いた具体例について説明する。ここでは、住宅等の出入口に設置され各ユーザが持つカードキーによって各人別に在室状況を監視するような入室管理装置(図示せず)が、ユーザの帰宅を検出したときにトリガをテキスト入力部4に与えるものとして説明する。
この例において、音声合成の対象となる入力テキストは、前記トリガに応じて変化する語句(以下、可変部という)と、トリガによらずに固定されている定型文(以下、固定部という)との組み合わせ(可変部+固定部)からなる形式の文章とする。つまり、たとえば「○○(可変部)さんが、帰ってきました(固定部)」というように、可変部が帰宅した人物によって変わり、固定部が帰宅した人物によらず常に同じ内容となる。語句格納部14には上記テキストの可変部となり得る語句のみが格納されており、固定部は図示しない定型文記憶部に記憶されている。ここでは一例として、語句格納部14に「カズオ」、「マサヨ」、「カズヨ」という3種類の名前が格納されているものとする。
まず、入室管理装置がトリガを発生すると、テキスト入力部4はこのトリガに応じて語句格納部14から可変部となる語句(ここでは「カズオ」の場合を例示する)を読み出すとともに、定型文記憶部から固定部を読み出す。
そして、類比判断部15は、語句格納部14を参照して、入力テキストに含まれる語句(可変部)について語句格納部14内の他の語句と発音が類似(たとえばカナ構成が類似)するか否かを判断し、類似する場合には、この可変部が要強調語句であると判断する。上述のように「カズオ」を可変部とした場合、語句格納部14内の「カズヨ」という名前が類似するから、この可変部は要強調語句であると判断される。
制御パラメータ生成部11は、上述のように可変部が要強調語句であると判断された場合、当該可変部について、たとえば表1に示すような音響的特徴量の変換(パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割など)の指示を含む制御パラメータを生成する。その結果、音声合成部1で生成される合成音声のうち可変部に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施され、ユーザにとって聞き分けやすい合成音声に変換されることとなる。ここでは、可変部のうち少なくとも前記他の語句との相違点となる箇所(ここでは「オ」)が強調されるようにしてある。
その他の構成および機能は実施形態1と同様である。
(実施形態4)
本実施形態の音声出力装置は、判断手段2が、入力テキストに対応する合成音声の尤度(信頼度)を語句ごとに判断し、入力テキストのうち尤度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、強調手段3が、差異判断部9と信頼度判断部との両方の判断結果に基づいて要強調語句の強調の指示を与える点が実施形態1の音声出力装置と相違する。
本実施形態の音声出力装置は、判断手段2が、入力テキストに対応する合成音声の尤度(信頼度)を語句ごとに判断し、入力テキストのうち尤度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、強調手段3が、差異判断部9と信頼度判断部との両方の判断結果に基づいて要強調語句の強調の指示を与える点が実施形態1の音声出力装置と相違する。
すなわち、強調手段3は、初期音声と入力テキストとの間に差異があるか否かという点だけでなく、入力テキストに対応する合成音声が信頼できるものか否かという点も考慮して、音声合成部1から出力される合成音声のうち要強調語句の部分を強調するものであって、差異判断部9の判断結果のみに基づいて強調する場合に比べると、聞き分けが困難な語句を確実に強調できるという利点がある。
信頼度判断部は、図5に示すように入力テキストに対応する合成音声の尤度を語句ごとに算出する尤度算出部17と、算出された尤度を評価することで入力テキストに対応する合成音声の信頼性を語句ごとに判断する尤度評価部18とで構成されている。
ここで、音声合成部1に付随の音声合成データベース(合成音声格納部)8はHMM(隠れマルコフモデル)音声合成方式を用いており、音声波形をそのまま蓄積しているのではなく、波形情報を数値化し、それより求めた統計モデル(以下、波形モデルという)を予め格納している。つまり、音素の音響的特徴量は前後の音素との関係などによって変化するため、このような音響的特徴量の変動要因(コンテキスト)を考慮して波形モデルを生成する必要があり、具体的には、たとえば「あ」という波形をモデル化するに当たって、予めアナウンサ等の明瞭性が高い音声を文単位で多数収録しておき、その中で「あ」と発声された部分をそれぞれ切り出す。このとき複数の「あ」の波形が得られることになるが、これらの波形を数値化し、それにより算出された統計量(正規分布の平均値・分散値)が音声合成データベース6に格納される。
尤度算出部17では、HMMにより構成される音声合成データベース6に格納されている情報と入力テキストの内容とを用いて、ビタービアルゴリズムを使用して尤度を求める。ここで、正規分布の分散が大きすぎたり逆に小さすぎたりすると、尤度が低くなる可能性が高い。求めた尤度は尤度評価部18において評価され、尤度が高い場合、音声合成のために利用しようとする音声合成データベース6中の波形モデルが多数の収録音声より精密にモデル化されていることを意味するから、高品質に音声合成できると考えられ、この語句は要強調語句ではないと判断される。一方、尤度が所定の閾値より低い場合は、少数の収録音声からモデル化されていることを意味するから、品質が低くなる可能性が高いと考えられ、この語句は要強調語句であると判断される。
強調手段3は、差異判断部9で要強調語句であると判断され、且つ、尤度評価部18でも要強調語句であると判断されると、この語句を強調の対象にする。つまり、本実施形態における強調手段3は、差異判断部9と尤度評価部18との両方で要強調語句であると判断された語句のみを強調の対象とするものである。
なお、この例に限らず、強調手段3は差異判断部9と尤度評価部18との少なくとも一方で要強調語句であると判断された語句を強調の対象とする構成にしてもよいが、聞き分けを容易にする処理の無駄を低減するという観点からすれば、前述したように差異判断部9と尤度評価部18との両方で要強調語句と判断された語句のみを強調の対象とすることが望ましい。
その他の構成および機能は実施形態1と同様である。
1 音声合成部
3 強調手段
4 テキスト入力部
8 初期音声生成部
9 差異判断部
10 音声認識処理部
12 頻度監視部
13 特徴量格納部
14 語句格納部
15 類比判断部
17 尤度算出部
18 尤度評価部
3 強調手段
4 テキスト入力部
8 初期音声生成部
9 差異判断部
10 音声認識処理部
12 頻度監視部
13 特徴量格納部
14 語句格納部
15 類比判断部
17 尤度算出部
18 尤度評価部
Claims (5)
- 所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、合成音声の音声信号から認識されるテキストを認識テキストとして出力する音声認識処理部と、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする音声出力装置。
- 所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、テキストに対応する音声の音響的特徴量が記憶された特徴量格納部と、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異を検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする音声出力装置。
- 複数の語句を格納した語句格納部と、前記入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を所定の類比判断ルールを適用して行い、前記入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部とを備え、前記強調手段は、前記差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする請求項1または請求項2に記載の音声出力装置。
- 前記音声合成部に設けた合成音声格納部に格納されている合成音声に係る情報および前記入力テキストの内容から前記入力テキストに対応する合成音声の信頼度を語句ごとに判断し、前記入力テキストのうち信頼度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、前記強調手段は、前記差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする請求項1または請求項2に記載の音声出力装置。
- 前記強調手段は、語句ごとに前記音声合成部から合成音声として出力される頻度を検出する頻度監視部を有し、頻度監視部で検出される頻度が所定の閾値を超えた語句については前記要強調語句から除外することを特徴とする請求項1ないし請求項4のいずれか1項に記載の音声出力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008076696A JP2009229932A (ja) | 2008-03-24 | 2008-03-24 | 音声出力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008076696A JP2009229932A (ja) | 2008-03-24 | 2008-03-24 | 音声出力装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009229932A true JP2009229932A (ja) | 2009-10-08 |
Family
ID=41245381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008076696A Withdrawn JP2009229932A (ja) | 2008-03-24 | 2008-03-24 | 音声出力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009229932A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924199B2 (en) | 2011-01-28 | 2014-12-30 | Fujitsu Limited | Voice correction device, voice correction method, and recording medium storing voice correction program |
CN112135564A (zh) * | 2018-05-23 | 2020-12-25 | 松下知识产权经营株式会社 | 摄食吞咽功能评价方法、程序、评价装置以及评价系统 |
CN113436600A (zh) * | 2021-05-27 | 2021-09-24 | 北京葡萄智学科技有限公司 | 一种语音合成方法及装置 |
-
2008
- 2008-03-24 JP JP2008076696A patent/JP2009229932A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924199B2 (en) | 2011-01-28 | 2014-12-30 | Fujitsu Limited | Voice correction device, voice correction method, and recording medium storing voice correction program |
CN112135564A (zh) * | 2018-05-23 | 2020-12-25 | 松下知识产权经营株式会社 | 摄食吞咽功能评价方法、程序、评价装置以及评价系统 |
CN112135564B (zh) * | 2018-05-23 | 2024-04-02 | 松下知识产权经营株式会社 | 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统 |
CN113436600A (zh) * | 2021-05-27 | 2021-09-24 | 北京葡萄智学科技有限公司 | 一种语音合成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4536323B2 (ja) | 音声−音声生成システムおよび方法 | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP4085130B2 (ja) | 感情認識装置 | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US9202466B2 (en) | Spoken dialog system using prominence | |
JP6720520B2 (ja) | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム | |
JP2008139568A (ja) | 音声処理装置および音声処理方法、並びに、プログラム | |
KR101836430B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
JP2006293026A (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2009229932A (ja) | 音声出力装置 | |
Mary et al. | Automatic syllabification of speech signal using short time energy and vowel onset points | |
JP2010237364A (ja) | 合成音声判別装置、方法及びプログラム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
KR100720175B1 (ko) | 음성합성을 위한 끊어읽기 장치 및 방법 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP2009229931A (ja) | 音声出力装置 | |
JP5028599B2 (ja) | 音声処理装置、およびプログラム | |
Amin et al. | Nine voices, one artist: Linguistic and acoustic analysis | |
JP7001126B2 (ja) | 感情推定装置、感情推定方法及びプログラム | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
JP6517417B1 (ja) | 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム | |
JP3110025B2 (ja) | 発声変形検出装置 | |
Apopei et al. | Towards prosodic phrasing of spontaneous and reading speech for Romanian corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100811 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110607 |