JP2007286198A

JP2007286198A - 音声合成出力装置

Info

Publication number: JP2007286198A
Application number: JP2006111269A
Authority: JP
Inventors: Takashi Inoue; 貴司井上; Shingo Kusaka; 真悟久坂
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2006-04-13
Filing date: 2006-04-13
Publication date: 2007-11-01

Abstract

【課題】本発明は、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集可能な音声合成出力装置の提供を目的とする。
【解決手段】音声入力部１０を介して入力された発話者の音声が音声認識部１４によって文字列の音声データに分解され、音声合成部１５によってその文字列の音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、発話者を自動的に特定するユーザ認証部１１を備え、ユーザ認証部１１によって自動的に特定された発話者毎にその文字列の音声データが音声データベース１３に格納されることを特徴とする、音声合成出力装置。
【選択図】図１

Description

本発明は、発話者の音声データを収集して、その収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置に関する。

従来から、入力された文章データを解析して当該文章を音声合成により読み上げる文章読み上げシステムが知られている（例えば、特許文献１参照）。この文章読み上げシステムは、実際に人間が発音した音声をサンプリングすることにより作成された音声辞書を交換可能にすることによって、様々な人の声で文章データを読み上げることを可能にするものである。
特開２００３−５８１７７号公報

しかしながら、上述の従来技術では、音声辞書が交換可能であっても、音声辞書を作成する際に複数の発話者の音声データのサンプリングを行うには、各々の発話者に意識的に音声データの入力作業を強いる必要があった。

そこで、本発明は、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集可能な音声合成出力装置の提供を目的とする。

上記課題を解決するため、第１の発明として、
発話者の発声音の音声データを収集する収集手段を有し、
前記収集手段によって収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、
発話者を自動的に特定する認証手段を備え、
前記収集手段は、前記認証手段によって自動的に特定された発話者毎に音声データを収集することを特徴とする、音声合成出力装置を提供する。

また、第２の発明は、第１の発明に係る音声合成出力装置であって、
前記収集手段によって収集された発話者毎の音声データが前記合成音の出力を許可できる収集状態であるか否かを判定する出力許可判定手段を備え、
前記合成音は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された場合に出力可能となることを特徴とする。

また、第３の発明は、第２の発明に係る音声合成出力装置であって、
前記収集手段は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された発話者の音声データの収集を抑制することを特徴とする。

また、第４の発明は、第１から２のいずかの発明に係る音声合成出力装置であって、
前記収集手段によって収集された音声データを格納する記憶手段を備え、
前記認証手段は、発話者の実際の発声音の音声データを前記記憶手段に既に格納された音声データと比較することによって発話者を特定することを特徴とする。

また、第５の発明は、第４の発明に係る音声合成出力装置であって、
前記収集手段によって収集された発話者毎の音声データが発話者を特定できる収集状態であるか否かを判定する認証許可判定手段を備え、
前記認証手段による発話者の特定は、前記認証許可判定手段によって発話者を特定できる収集状態であると判定された場合に可能となることを特徴とする。

また、第６の発明は、第１から５のいずかの発明に係る音声合成出力装置であって、
前記収集手段は、車両の車室内の乗員の発声音の音声データを収集することを特徴とする。

また、第７の発明は、第６の発明に係る音声合成出力装置であって、
前記収集手段によって収集された乗員の音声データは、通信回線を介して接続可能な車外の記憶装置に格納され、
前記車外の記憶装置に格納された音声データが複数の車両に送信されることを特徴とする。

本発明によれば、発話者に対して意識的な入力作業を強いることなく、複数の発話者の音声データを収集できる。

以下、図面を参照して、本発明を実施するための最良の形態の説明を行う。図１は、本発明に係る音声合成出力装置の第１の実施形態を示したブロック図である。本第１の実施形態の音声合成出力装置は、音声入力部１０、ユーザ認証部１１、収集状態判定部１２、音声データベース１３、音声認識部１４、音声合成部１５、対話制御部１６及び音声出力部１７を備える。

音声入力部１０は、音声を集音するマイク等の入力装置であって、発話者が発声した音声を集音可能な入力装置である。音声入力部１０から入力された音声に係る音声信号は、ユーザ認証部１１と音声認識部１４に出力される。音声入力部１０が車両に搭載される場合、その音声入力部１０は車室内の乗員の音声を集音する。

ユーザ認証部１１は、虹彩認証、顔認証、声紋認証、指紋認証、静脈認証等の生体認証を用いて、発話者を自動的に特定する認証装置である。ユーザ認証部１１は、音声入力部１０から音声が入力されることによって発話者の認証を自動的に開始したり、カメラ等の撮像装置や赤外線センサ等の検知装置によって人の存在が検知されることによって発話者の認証を自動的に開始したりする。

音声認識部１４は、本音声合成出力装置と音声対話するユーザが話す音声を認識し、文字列に変換するものである。音声入力部１０から入力された音声について、特徴抽出、音素解析、単語解析及び構文解析を行い、その入力された音声を文字列の音声データに変換（分解）する。

音声データベース１３は、ユーザ認証部１１によって特定された発話者毎に音声認識部１４によって分解された音声データを格納する。例えば、音声データベース１３に音声データが格納される登録ユーザとして、「Ａさん」，「Ｂさん」，「Ｃさん」が設定されている場合、「Ａさん」，「Ｂさん」，「Ｃさん」毎に各人の音声データが音声データベース１３に格納される。

音声合成部１５は、音声データベース１３に格納された文字列の音声データから音声を生成（音声合成処理）するものである。音声合成部１５は、文字列解析、韻律制御及び音声波形生成を行うことによって、音声出力部１７によって出力される音声（合成音）を文字列の音声データから生成する。生成された音声は、音声波形（音波）として音声出力部１７を介して出力される。この音声波形を制御することによって、「音の大きさ（音圧、音圧レベル）」「音の高さ」「音色」に変化を与えることができる。「音の大きさ」は音声波形の振幅によって決まり、「音の高さ」は音声波形の周波数によって決まり、「音色」は音声波形の形状によって決まる。音の大きさと音の高さについてそれぞれ同一な二つの音声波形（つまり、振幅、周波数が同一）を比べた場合、その音声波形の形状が異なれば、その音声の音色は互いに異なる。

音声出力部１７は、音声を出力するスピーカ等の音声出力装置であって、上述の音声波形に基づいて実際の合成音を出力するものである。音声出力部１７が車両に搭載される場合、その音声出力部１７は車室内に合成音を出力する。

収集状態判定部１２は、音声データベース１３に格納されている発話者毎の音声データが、音声合成部１５によって音声合成処理された合成音の音声出力部１７からの出力を許可可能な収集状態であるか否かを判定する。ある程度の音声データを収集しておかなければ、所定の品質レベルを満足できる合成音を音声出力部１７から出力することはできない。そこで、収集状態判定部１２は、合成音の音声出力部１７からの出力を許可可能な収集状態を、例えば、出力を許可できる音声データ量に対してデータベース１３に格納されている音声データ量の比率を示す収集率（以下、「出力判定用収集率」という）に基づいて判定する。したがって、出力判定用収集率１００％とは、音声出力部１７から合成音の出力を許可することのできる音声データが音声データベース１３に蓄積されている状態である。

ここで、出力判定用収集率を規定するために導入した「出力を許可できる音声データ量」は、要求される合成音の品質レベルに応じて決定すればよく、合成音の品質レベルの要求が高ければその必要量は多くなり、合成音の品質レベルが低ければその必要量は少なくなる。また、「出力を許可できる音声データ量」は、要求される合成音の種類（数）に応じて決定される場合もある。例えば、カーナビゲーションシステムにおいて経路案内等のための合成音の場合、「１００ｍ先の交差点を右に曲がってください」「目的地に到着です」など特定の種類の言葉に限定されるので、出力を許可できる音声データ量について、要求される合成音の数が多くなるほどその必要量は多くなり、要求される合成音の数が少ないほどその必要量は少なくなる。

なお、出力判定用収集率を、音声合成部１５での音声合成処理に必要な音声データ量に対してデータベース１３に格納されている音声データ量の比率と定義してもよい。

図４は、音声データベース１３に格納される登録ユーザ毎の音声データとその収集率との関係を模式的に示した図である。図４は、音声データベース１３に格納されているＡさん及びＣさんの音声データの収集率は１００％であることを示し、音声データベース１３に格納されているＢさんの音声データの収集率は６０％であることを示している。すなわち、音声データベースに格納されているＡさん及びＣさんの音声データは、音声出力部１７から合成音の出力を許可できる音声データ量が蓄積されていることを示している（あるいは、音声合成部１５での音声合成処理に必要なデータ量が蓄積されていることを示している）が、音声データベースに格納されているＢさんの音声データは、音声出力部１７から合成音の出力を許可できる音声データ量が蓄積されていないことを示している（あるいは、音声合成部１５での音声合成処理に必要なデータ量が蓄積されていないことを示している）。したがって、Ａさん及びＣさんの合成音は、音声合成部１５によって音声合成処理されて音声出力部１７からの出力を許可できる状態であるが、Ｂさんの合成音は、音声合成部１５によって音声合成処理されて音声出力部１７からの出力を許可できない状態である。

また、収集状態判定部１２は、合成音の音声出力部１７からの出力を許可可能な収集状態（出力判定用収集率１００％）であると判定した発話者の音声データについては、音声認識処理の実行を抑止又は停止するように音声認識部１４に指示する。その指示を受けた音声認識部１４は、その指示に該当する発話者の音声データについては、特徴抽出や文字列の音声データ変換等の音声認識処理の実行を抑止または停止する。なお、収集状態判定部１２は、合成音の音声出力部１７からの出力を許可可能な収集状態（出力判定用収集率１００％）であると判定した発話者の音声データについては、音声データベース１３に格納しないように音声認識部１４に指示してもよい。その指示を受けた音声認識部１４は、その指示に該当する発話者の音声データについては、音声データベース１３に格納しないようする。

対話制御部１６は、本音声合成出力装置とそのユーザとの間の音声による対話の流れを制御するものである。対話制御部１６は、音声認識部１４によって入力音声から変換された文字列を認識し、その認識された文字列の内容に応じた所定の制御を行う。対話制御部１６は、ＲＯＭ等の記憶装置に記憶された会話シナリオを参照して音声対話の制御を実行する。会話シナリオには、単語や構文の辞書データ及び文例などが含まれる。音声認識部１４によって認識されたユーザの発話内容に応じて会話シナリオを参照して、ユーザに対する返答内容を決定する。

また、対話制御部１６は、ユーザとの対話に限らず一方的に音声を出力することも可能であって、出力すべき音声がある場合には、会話シナリオ等を参照して音声合成部１５によって生成される音声の元になる文字列の音声データを生成する。

このような音声対話技術は、例えば、電話によるお客様窓口などに採用されている自動応答システム（IVR：Interactive Voice Response）、カーナビゲーションシステムのルート検索に用いる音声認識、通信機能を搭載した際の音声合成による電子メール読み上げ等に適用され得る。

また、対話制御部１６は、音声データベース１３に格納された文字列の音声データのうちどの登録ユーザの音声データを用いて音声合成処理をすべきかを音声合成部１５に対して指示する。音声合成部１５は、その指示に従い音声合成処理を実行する。これにより、異なる人（種類）の声色の合成音が出力可能となる。

対話制御部１６は、ユーザ認証部１１によって特定された発話者と音声データベース１３に格納された音声データとの所定の対応関係に基づいて、音声合成処理に用いる音声データを決定する。例えば、ユーザ認証部１１によって発話者が「Ｄさん」と特定された場合には、その対応関係によって予め関係付けられた「Ａさん」の音声データが音声合成処理に用いられる。また、対話制御部１６は、ユーザ認証部１１による認証にかかわらず、デフォルトの音声データを音声合成処理に用いるように決定してもよい。さらに、対話制御部１６は、ユーザや他のシステムから音声出力部１７から出力される合成音を変更する指示を受け付けた場合には、その変更指示に従って音声合成処理に用いる音声データを音声データベース１３の中から選択・決定してもよい。

ところで、ユーザ認証部１１は、上述したように声紋認証を用いて発話者を自動的に特定することが可能であるが、音声入力部１０から入力された実際のユーザの発声音の音声データを音声データベース１３に既に格納された音声データと比較することによって、声紋認証と同様に、発話者を自動的に特定することができる。音声入力部１０から入力された実際のユーザの発声音の音声データを音声データベース１３に既に格納された音声データと比較する認証を、以下「音声認証」という。

しかしながら、音声データベース１３に発話者を特定可能な程度の音声データ量が収集されていなければ、音声認証は正しく実行できない。そこで、収集状態判定部１２は、音声データベース１３に格納されている発話者毎の音声データが、ユーザ認証部１１による音声認証の実行を許可可能な収集状態であるか否かを判定する。この場合、収集状態判定部１２は、ユーザ認証部１１による音声認証の実行を許可可能な収集状態を、例えば、音声認証の実行を許可できる音声データ量に対してデータベース１３に格納されている音声データ量の比率を示す収集率（以下、「認証用収集率」という）に基づいて判定する。したがって、認証用収集率１００％とは、ユーザ認証部１１による音声認証の実行を許可することのできる音声データが音声データベース１３に蓄積されている状態である。なお、収集状態判定部１２は、ユーザ認証部１１による音声認証の実行を許可可能な収集状態を、「出力判定用収集率」に基づいて判定してもよい。これにより、認証用収集率を新たに設定せずとも出力判定用収集率を流用することで、音声認証を導入することによるＲＯＭやＣＰＵ等のシステム負荷の増大を抑えることができる。

収集状態判定部１２は、ユーザ認証部１１による音声認証の実行を許可可能な収集状態であると判定した発話者の音声データについては、音声認証の実行を許可する旨をユーザ認証部１１に対して指令する。その指令を受けたユーザ認証部１１は、その指令に該当する発話者については、音声認証を実行する。

ところで、本実施形態の音声合成出力装置は、音声入力部２２とは別に、ユーザの操作入力を受け付ける手動入力装置を備えてもよい。手動入力装置として、例えば、プッシュスイッチ、レバースイッチ及びタッチパネルディスプレイが挙げられる。この場合、対話制御部１６は、手動入力装置を介して所定の操作信号が入力されると、その操作信号に応じた所定の制御を実行する。

また、対話制御部１６等、本実施形態の音声合成出力装置の構成の一部は、制御プログラムや制御データを記憶するＲＯＭ、制御プログラムの処理データを一時的に記憶するＲＡＭ、制御プログラムを処理するＣＰＵ、外部と情報をやり取りするための入出力インターフェースなどの複数の回路要素によって構成されたものである。

それでは、本発明に係る音声合成出力装置の実施形態の動作について図に示したフローを参照しながら説明する。図２を参照しながら音声データの収集動作について説明し、図３を参照しながら合成音の出力動作について説明する。

図２は、本発明に係る音声合成出力装置の実施形態の音声データの収集動作のフローである。発話者の存在が自動的に認識されると、ユーザ認証部１１は発話者の特定を開始する（ステップ１０）。収集状態判定部１２は、ユーザ認証部１１によって特定された発話者の音声データの収集率が１００％未満であるか否かを判定する（ステップ１２）。１００％未満であると判定された場合には（ステップ１２；Ｙｅｓ）、特定された発話者の音声は音声認識部１４によって音声データに分解され（ステップ１４）、分解された音声データは音声データベース１３に発話者毎に格納される（ステップ１６）。一方、１００％未満ではない（１００％である）と判定された場合には（ステップ１２；Ｎｏ）、特定された発話者の音声の収集は音声認識部１４において抑制される（ステップ１８）。発話者の音声の収集の抑制とは、発話者の音声データの音声データベース１３への格納が禁止されたり、音声入力部１０から入力される音声の認識が行われないようにしたりすることである。

図３は、本発明に係る音声合成出力装置の実施形態の合成音の出力動作のフローである。対話制御部１６は、上述のように音声合成処理に用いる音声データを音声データベース１３の中から選択し、音声合成部１５に対してその選択した音声データで音声合成処理を実行するよう指示する。

ここで、音声認識部１４による音声認識内容や手動入力装置による操作内容などに基づいて、音声出力部１７から出力される合成音に関するユーザ等からの変更指示が受け付けられた場合には（ステップ３０）、変更指示に該当する登録ユーザの音声データが音声データベース１３から選択される（ステップ３２）。音声合成部１５は、ステップ３２において選択された登録ユーザの音声データを読み込んで（ステップ３４）、その読み込んだ音声データを用いて音声合成処理を実施する（ステップ３６）。ステップ３６において音声合成処理された合成音が音声出力部１７から出力される（ステップ３８）。

したがって、本実施形態の音声合成装置によれば、自動的に発話者を特定するので、発話者に対して意識的な音声データの入力作業を強いることなく、音声データの収集をすることができる。その結果、ユーザの音声データの登録作業をする負荷が低減される。また、複数の発話者の音声データが容易に収集可能となるとともに、発話者毎の合成音が容易に出力可能となる。

また、本実施形態の音声合成装置によれば、合成音の音声出力部１７からの出力を許可可能な収集状態を、出力判定用収集率に基づいて判定しているので、要求される合成音の仕様（品質や種類）に合わせて合成音を出力することができる。また、音声データの収集の上限値を設定することができ、音声認識処理の実行を抑制することができるので、システム負荷の低減を図ることができる。

また、本実施形態の音声合成装置によれば、ユーザ認証部１１による音声認証の実行を許可可能な収集状態を、認証用収集率に基づいて判定しているので、要求される音声認証の精度に合わせて音声認証を実行することができる。

また、本実施形態の音声合成装置によれば、音声データベース１３に格納される音声データを音声認証として利用できるので、音声認証のための音声データの登録作業を行う必要がなく、ユーザの負担の低減を図ることができる。また、音声データベースに音声データを格納する前に音声認証を行うことになるので、発話者の音声データを誤って音声データベース１３に格納することを防止することができる。例えば、発話者の音声データがその発話者と異なる発話者の音声データとして格納されることを防止することができる。

以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。

図５は、本発明に係る音声合成出力装置の第２の実施形態を示したブロック図である。本第２の実施形態の音声合成出力装置は、車両１００に搭載され、通信回線を介して車両１００に離れて設けられた施設であるセンター２００と接続される。センター２００は、登録ユーザの音声データを格納する音声データベース３１を備えている。車両１００側の音声データベース１３に格納される音声データとセンター２００側の音声データベース３１に格納される音声データは、車両１００に備えられる通信部１８とセンター２００に備えられる通信部３０とを介して、送受される。車両１００に搭載された音声入力部１０を介して集音された音声データは、通信回線を介してセンター２００に送信され、上述の音声データベース１３への格納手法と同様に、音声データベース３１に発話者毎に格納される。

なお、図５に示される第２の実施形態の音声合成出力装置において、上述の図１に示される第１の実施形態の音声合成出力装置の符号と同一のものは、その機能が同様のため、説明を省略する。

したがって、本第２の実施形態の音声合成出力装置によれば、登録したユーザの音声データをセンター２００側の音声データベース３１に登録しておけば、センター２００から複数の異なる車両に音声データをダウンロードすることが可能となる。したがって、あるユーザが別の車両に乗り換えたとしても、乗り換え前の車両と同じ合成音を容易に出力させることが可能となる。また、車両毎に音声データの収集を実行する必要がなくなる。さらに、車両１００に搭載される音声データベース１３に必ずしも合成音として出力させたい音声データを格納する必要はなく、必要なときのみセンター２００からダウンロードすればよい。その結果、音声データベース１３の容量の削減を図ることができる。

本発明に係る音声合成出力装置の第１の実施形態を示したブロック図である。本発明に係る音声合成出力装置の実施形態の音声データの収集動作のフローである。本発明に係る音声合成出力装置の実施形態の合成音の出力動作のフローである。音声データベース１３に格納される登録ユーザ毎の音声データとその収集率との関係を模式的に示した図である。本発明に係る音声合成出力装置の第２の実施形態を示したブロック図である。

符号の説明

１０音声入力部
１１ユーザ認証部
１２収集状態判定部
１３，３１音声データベース
１４音声認識部
１５音声合成部
１６対話制御部
１７音声出力部
１８，３０通信部
１００車両
２００センター

Claims

発話者の発声音の音声データを収集する収集手段を有し、
前記収集手段によって収集された音声データを用いて音声合成処理された合成音を出力する音声合成出力装置であって、
発話者を自動的に特定する認証手段を備え、
前記収集手段は、前記認証手段によって自動的に特定された発話者毎に音声データを収集することを特徴とする、音声合成出力装置。
前記収集手段によって収集された発話者毎の音声データが前記合成音の出力を許可できる収集状態であるか否かを判定する出力許可判定手段を備え、
前記合成音は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された場合に出力可能となる、請求項１に記載の音声合成出力装置。
前記収集手段は、前記出力許可判定手段によって前記合成音の出力を許可できる収集状態であると判定された発話者の音声データの収集を抑制する、請求項２記載の音声合成出力装置。
前記収集手段によって収集された音声データを格納する記憶手段を備え、
前記認証手段は、発話者の実際の発声音の音声データを前記記憶手段に既に格納された音声データと比較することによって発話者を特定する、請求項１から３のいずれかに記載の音声合成出力装置。
前記収集手段によって収集された発話者毎の音声データが発話者を特定できる収集状態であるか否かを判定する認証許可判定手段を備え、
前記認証手段による発話者の特定は、前記認証許可判定手段によって発話者を特定できる収集状態であると判定された場合に可能となる、請求項４に記載の音声合成出力装置。
前記収集手段は、車両の車室内の乗員の発声音の音声データを収集する、請求項１から５のいずれかに記載の音声合成出力装置。
前記収集手段によって収集された乗員の音声データは、通信回線を介して接続可能な車外の記憶装置に格納され、
前記車外の記憶装置に格納された音声データが複数の車両に送信される、請求項６に記載の音声合成出力装置。