JP2005091575A

JP2005091575A - 話者適応装置及びプログラム

Info

Publication number: JP2005091575A
Application number: JP2003322945A
Authority: JP
Inventors: Ryuta Terajima; 立太寺嶌; Toshihiro Wakita; 敏裕脇田; Keiichi Tokuda; 恵一徳田
Original assignee: Nagoya Institute of Technology NUC; Toyota Central R&D Labs Inc
Current assignee: Nagoya Institute of Technology NUC; Toyota Central R&D Labs Inc
Priority date: 2003-09-16
Filing date: 2003-09-16
Publication date: 2005-04-07

Abstract

【課題】視覚を使用することなく、音声の認識率が向上するように話者の発声の仕方を教示する。
【解決手段】音声合成器３６は、教師文と、教師文に対応する標準音響モデルとに基づいて、教師文の音声合成を行う。ユーザは、教師文の声質を参考にしながら、教師文を音声認識に好ましい声質で発話する。そして、話者適応器３２は、音声分析器３１の分析結果に基づいて、第１の音響モデルデータベース３３に記憶された音響モデルの話者適応処理を行う。これにより、第１の音響モデルデータベース３３には、話者の特徴に応じて学習された音響モデルが記憶される。
【選択図】図２

Description

本発明は、話者適応装置及びプログラムに係り、特に音声認識で使用する音響モデルを特定話者に適応させる話者適応装置及びプログラムに関する。

従来、音声認識で使用する音響モデルを特定話者に適応させる話者適応装置が提案されている。従来の話者適応装置は、視覚的に提示された教師文をユーザに発声させ、その発声を入力して話者適応処理を実行していた。

具体的には、話者適応機能を有する音声認識装置は、ディスプレイに教師文を表示し、その教師文をユーザが発話することによって、話者適応処理を行っていた（例えば、特許文献１を参照。）。
米国特許第６３２４５０７号明細書

しかし、特許文献１に記載された技術は、ユーザがディスプレイに表示された文字を読むことができない場合（例えば、音声認識装置にディスプレイが備わっていない場合、話者が子供のように文字を読むことができない場合など）では、話者適応処理を行うことができない問題があった。

また、上記技術は、ディスプレイに表示された文字を話者に発声させるだけであり、文字の発声法についての規範までを提示することができなかった。すなわち、上記技術は、話者の発声の仕方まで教示できないため、発声の仕方はユーザ自身にゆだねられ、話者適応処理が迅速にできないという問題があった。

本発明は、上述した課題を解決するために提案されたものであり、視覚を使用することなく、音声の認識率が向上するように話者の発声の仕方を教示する話者適応装置及びプログラムを提供することを目的とする。

本発明は、音声認識（話者適応処理）に有利な発声法を合成音声として提示することにより、ユーザに発声方法を自然に学習させて、上述した課題を解決した。

すなわち、請求項１に記載の話者適応装置は、音声の統計的な特徴量である標準音響モデルを記憶する第１の音響モデル記憶手段と、処理対象となる音響モデルを記憶する第２の音響モデル記憶手段と、前記第１の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記第２の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、を備えている。

請求項４に記載の話者適応プログラムは、コンピュータを、音声の統計的な特徴量である標準音響モデルを記憶する第１の音響モデル記憶手段と、処理対象となる音響モデルを記憶する第２の音響モデル記憶手段と、前記第１の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記第２の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、して機能させる。

第１の音響モデル記憶手段は、話者の声の統計的な特徴量である標準音響モデルを記憶している。通常、標準音響モデルは、音声認識処理の際に使用される。本発明では、標準音響モデルは、ユーザが参考にする教師文を音声合成するときに使用される。一方、第２の音響モデル記憶手段は、処理対象となる音響モデル、すなわち話者適応処理の対象となる音響モデルを記憶している。

音声合成手段は、標準音響モデルを用いることによって、音声認識に好ましい声質で教師文の音声合成を行う。そして、話者が教師文を発声すると、音声入力手段は、話者の音声を入力する。これにより、ユーザに対して、教師文の声質を参考にしながら教師文を発話させることができ、さらに、音声認識に有利な発声法を学習させることができる。なお、音声入力手段としては、例えばマイク、又は音声信号が入力されるインタフェース等であってもよく、特に限定されるものではない。

話者適応処理手段は、前記音声分析手段で抽出された特徴量に基づいて、前記第２の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う。なお、教師文の音声合成と話者適応処理は、繰り返し行うことができる。

したがって、請求項１および４に記載の発明によれば、標準音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出して、抽出された特徴量に基づいて音響モデルについて話者適応処理を行うことにより、ユーザに対して音声認識に有利になるように教師文を発声させることができ、この結果、迅速かつ確実に話者適応処理を行うことができる。

ここで、第１の音響モデル記憶手段と第２の音響モデル記憶手段とを共通化すると次のような発明になる。

請求項２に記載の話者適応装置は、音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、を備えている。

請求項５に記載の話者適応プログラムは、コンピュータを、音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、して機能させる。

請求項２および５に記載の発明では、請求項１および４に記載された発明と異なり、教師文の音声合成をするときに使用する音響モデルと、話者適応処理の対象となる音響モデルが同じになっている。したがって、話者適応処理が繰り返し行われると、話者適応処理された音響モデルは、教師文の音声合成においても使用され、そして速く収束する。

したがって、請求項２および５に記載の発明によれば、記憶された音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出し、抽出された特徴量に基づいて前記音響モデルについて話者適応処理を行うことによって、話者適応処理をより迅速に行うことができる。

請求項３に記載の話者適応装置は、請求項１または２に記載の発明であって、前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う。

請求項６に記載の話者適応プログラムは、請求項４または５に記載の発明であって、前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う。

したがって、請求項３および６に記載の発明によれば、ユーザは話者適応処理の状況を音声により確認することができる。

本発明に係る話者適応装置及びプログラムは、標準音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出して、抽出された特徴量に基づいて音響モデルについて話者適応処理を行うことにより、ユーザに対して音声認識に有利になるように教師文を発声させることができ、この結果、迅速かつ確実に話者適応処理を行うことができる。

また、本発明に係る話者適応装置及びプログラムは、記憶された音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出し、抽出された特徴量に基づいて前記音響モデルについて話者適応処理を行うことによって、話者適応処理をより迅速に行うことができる。

以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。

図１は、本発明の実施形態に係るナビゲーション装置の構成を示すブロック図である。ナビゲーション装置は、タッチパネルの操作又は音声認識結果に基づいて、ルート探索を行うものである。なお、このナビゲーション装置は、音声認識では、例えばＨＭＭ（Hidden Markov Moddel）を用いている。

ナビゲーション装置は、ユーザの音声を入力するマイク１１と、マイク１１１に入力された音声信号をディジタル化するＡ／Ｄコンバータ１２と、ＧＰＳ（Global Positioning System）アンテナ１３を介してＧＰＳ信号を受信するＧＰＳ受信回路１４と、を備えている。

ナビゲーション装置は、更に、光ディスクに記録された地図情報等を読み出す光ディスクドライブ１５と、光ディスクドライブから読み出された地図情報等を表示するタッチパネル１６と、音声合成された音声データをアナログ化するＤ／Ａコンバータ１７と、音声合成を出力するスピーカ１８と、音声認識処理の結果に従ってルート検索処理、所定の設定等の全体的な制御を実行するマイクロコンピュータ２０とを備えている。

マイクロコンピュータ２０は、演算処理を実行するＣＰＵ（Central Processing Unit）２１と、データのワークエリアであるＲＡＭ（Random Access Memory）２２と、ＣＰＵ２１の制御プログラムが記憶されているＲＯＭ（Read Only Memory）２３とを備えている。なお、ＲＯＭ２３には、ルート検索処理、音声認識処理、話者適応処理等を行うための制御プログラムが記憶されている。

マイクロコンピュータ２０は、タッチパネル１６の操作設定に応じて、光ディスクドライブ１５から地図情報を読み出し、現在地から目的地までのルート設定を行う。また、マイクロコンピュータは、ＧＰＳ受信回路１４に入力されたＧＰＳ信号に基づいて自車の現在位置を演算し、地図情報と共に現在位置をタッチパネル１６に表示する制御を行う。

マイクロコンピュータ２０は、タッチパネル１６の操作設定の代わりに、ユーザ（本実施形態ではドライバ）の音声を認識し、ユーザの音声指示に従って上述した各種の制御を実行することができる。ここで、マイクロコンピュータ２０は、音声認識率の向上を図るために、話者適応機能を有している。

図２は、マイクロコンピュータ２０の話者適応機能に関する機能的な構成を示すブロック図である。

マイクロコンピュータ２０は、ユーザの音声を分析する音声分析器３１と、音声分析結果に応じて話者適応処理を行う話者適応器３２と、音響モデルを記憶する第１の音響モデルデータベース３３と、標準音響モデルを記憶する第２の音響モデルデータベース３４と、教師文を生成する教師文生成器３５と、音響モデルを用いて音声合成を行う音声合成器３６と、を備えている。

音声分析器３１は、マイク１１及びＡ／Ｄコンバータ１２を介して入力された音声を分析して、無音で区切られた音声区間を切り出し、ユーザの音声特徴量を抽出する。

話者適応器３２は、例えば、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、第１の音響モデルデータベース３３に記憶されている音響モデルをユーザに適応させる。話者適応処理のアルゴリズムとしては、例えば、文献 "Mean and variance adaptation within the MLLR framework", M. J. F. Gales and P. C. Woodland, Computer Speech and Language, vol. 10, 1996 に記載されたものを用いることができる。話者適応器３２は、上記文献のアルゴリズムを使用する場合、正解テキストが必要になるため、教師文生成器３５からテキストデータを得た後、話者適応処理を行う。

第１の音響モデルデータベース３３には、話者適応処理の対象となる音響モデルが記憶されている。第２の音響モデルデータベース３４には、音声特徴量の標準的な統計量を表した標準モデルが記憶されている。標準音響モデルは、話者適応処理の対象ではなく、例えば、ユーザが参考にする教師文の音声合成をするときや、ユーザに対して指示を発声するときに使用される。

教師文生成器３５は、複数の教師文に各々対応する複数のテキストデータを予め記憶している。そして、教師文生成器３５は、乱数を発生し、乱数に対応するテキストデータを選択する。すなわち、教師文生成器３５は、ランダムに教師文用のテキストデータを生成する。

音声合成器３６は、第２の音響モデルデータベース３４に記憶された標準音響モデルと、教師文生成器３５で生成された教師文のテキストデータとに基づいて、当該教師文の音声合成を行う。また、音声合成器３６は、話者適応処理の状況を確認するときは、第１の音響モデルデータベース３３に記憶された音響モデルを用いて、音声合成を行う。

音声合成のためのアルゴリズムは、例えば、文献“動的特徴を用いたＨＭＭからの音声パラメータ生成アルゴリズム”徳田恵一ほか、日本音響学会誌、vol.53, no.3, 1997 に記載されたものを用いることができる。音声合成器３６によって得られた音声データは、Ｄ／Ａコンバータ１７を介して、スピーカ１８に供給される。これにより、スピーカ１８から音声が出力される。

以上のように構成されたマイクロコンピュータ２０は、音声認識性能向上用の副モードが選択されたときは、以下の順序に従って話者適応処理を実行する。

図３は、副モードが選択されたときのマイクロコンピュータ２０の処理手順を示すフローチャートである。図４から図１０は、副モードの処理実行時にタッチパネル１６に表示される画面の一例を示す図である。

図４に示すように、タッチパネル１６に表示されたシステム設定モード画面から、「音声学習」ボタンが選択されると、マイクロコンピュータ２０は、所定のプログラムに従って、ステップＳＴ１以下の処理を実行する。なお、ユーザは、「音声学習」ボタンを選択する代わりに、「音声学習」と発話してもよい。

ステップＳＴ１では、タッチパネル１６には、図５に示すように、『只今より音声の学習を行います。私の真似をして発話して下さい』と『開始』ボタンが表示される。このとき、音声合成器３６は、第２の音響モデルデータベース３４に記憶されている標準音響モデルを用いて、「只今より音声の学習を行います。私がしゃべるのと同じように発話して下さい。準備が整ったら『開始』と発話して下さい」の合成音声を出力する。そして、ユーザが「開始」と発話すると、ステップＳＴ２に移行する。

ここで、タッチパネル１６に表示された画面（プロント）は、音声提示の補助的な役割を果たすものであり、必須ではない。

また、本実施形態では、話者適応処理の進行を制御する上で、予め定められたキーワードをユーザに発話させている。しかし、ユーザに発話させる代替手段として、タッチパネル１６の画面にＧＵＩ（Graphical User Interface）ボタンを提示してもよい。ＧＵＩボタンも音声提示の補助的な役割を果たすものであり、必須ではない。

なお、画面上のボタンを操作することと、ボタンに対応するキーワードを発話することは同じである。例えば図５において、ユーザが『開始』と発話することと、『開始』ボタンを押すことは同じである。このため、以下では、ボタン操作の説明については省略する。

ステップＳＴ２では、教師文生成器３５は、提示すべきメッセージｍｓｇとしランダムに教師文のテキストデータを設定して（ｍｓｇ←教師文）、ステップＳＴ３に移行する。

ステップＳＴ３では、音声合成器３６は、ステップＳＴ２で設定された教師文（例えば、「吾輩は猫である」）と、教師文に対応する標準音響モデルとに基づいて、「吾輩は猫である」の音声合成を行って、ステップＳＴ４に移行する。このとき、タッチパネル１６には、図６に示すように、『吾輩は猫である』が表示され、メッセージが提示される。

ステップＳＴ４では、音声合成器３６は、ユーザに発話要求を提示するために、第２の音響モデルデータベース３４の標準音響モデルを用いて、「どうぞ」の音声合成を行って、ステップＳＴ５に移行する。このとき、ユーザに教師文の発話を促すために、タッチパネル１６には、図７に示すように、『発話してください』が表示さる。ユーザは、ステップＳＴ３における教師文の声質を参考にしながら、教師文を音声認識に好ましい声質で発話することができる。これにより、ユーザは、音声認識に有利な発声法を自然に学習することができる。

ステップＳＴ５では、話者適応器３２は、マイク１１、Ａ／Ｄコンバータ１２、音声分析器３１を介して入力された音声信号の特徴量を表す観測ベクトル列を“Ｏ”と設定して（“Ｏ”←音声入力）、ステップＳＴ６に移行する。

ステップＳＴ６では、話者適応器３２は、ユーザによって入力された「わがはいはねこである」という文字列の認識スコアを演算する。具体的には、第１の音響モデルデータベース３３に記憶された音響モデルのモデルパラメータをλ、ステップＳＴ５の観測ベクトル列の長さを｜Ｏ｜、状態遷移系列をｑとするとき、話者適応器３２は、（１）式に従って、音響尤度である認識スコアＬを演算して、ステップＳＴ７に移行する。

ステップＳＴ７では、話者適応器３２は、認識スコアＬが閾値ｔｖ以上（Ｌ≧ｔｖ）であるかを判定する。ここにいうｔｖは、音響モデルの話者適応処理を行うか否かを判定するための閾値である。そして、話者適応器３２は、（Ｌ≧ｔｖ）であるときはステップＳＴ９に移行し、（Ｌ≧ｔｖ）でないときはステップＳＴ８に移行する。

ステップＳＴ８では、音声合成器３６は、第２の音響モデルデータベース３４の標準音響モデルを用いて、「もう一度明瞭に読み上げて下さい。学習を続けますので『再開』と発生してください」と音声合成をする。このとき、タッチパネル１６には、図８に示すように、『もう一度明瞭に読み上げて下さい』と『再開』ボタンとが表示され、再発声が提示される。そして、ユーザが「再開」を発話すると、ステップＳＴ３に戻る。

一方、ステップＳＴ９では、話者適応器３２は、音声分析器３１の分析結果に基づいて、第１の音響モデルデータベース３３に記憶された音響モデルの話者適応処理を行う。これにより、第１の音響モデルデータベース３３には、話者の特徴に応じて学習された音響モデルが記憶される。

そして、音声合成器３６は、第２の音響モデルデータベース３４の標準音響モデルを用いて、「続ける場合は『次へ』を、学習効果を確かめる場合には『学習効果』を、学習を終了する場合は『終了』と発話してください」と音声合成する。これにより、ユーザに対して、１つの処理を選択するように、音声を提示する。

このとき、タッチパネル１６には、図９に示すように、『次へ』、『学習効果』、『終了』の各々のボタンが表示される。これにより、ユーザに対して、いずれか１つの処理を選択するように提示する。

そして、ユーザが『次へ』を発話した場合はステップＳＴ２に移行し、ユーザが『学習効果』を発話した場合はステップＳＴ１０に移行し、ユーザが『終了』を発話した場合は処理を終了する。

ステップＳＴ９から移行したステップＳＴ２では、教師文生成器３５は、新たな教師文を提示すべきメッセージ（ｍｓｇ）として設定する。そして、上述のように、ステップＳＴ３以降の処理を実行する。

また、ステップＳＴ１０では、音声合成器３６は、第２の音響モデルデータベース３４に記憶された音響モデルを用いて、「私が学習した声で読み上げます」と音声合成する。その後、第１の音響モデルデータベース３３に記憶された音響モデルを用いて、「吾輩は猫である」と音声合成を行う。これにより、ユーザは、現在の話者適応効果を、実際の音声により確認することができる。

音声合成器３６は、第２の音響モデルデータベース３４に記憶された音響モデルを用いて、「学習を続けますので『再開』と発話して下さい」と音声合成する。このとき、タッチパネル１６には、図１０に示すように、『再開』のボタンが表示される。そして、ユーザが「再開」を発声すると、ステップＳＴ９に移行する。

なお、ステップＳＴ９においてユーザが『終了』と発話したときは、タッチパネル１６には、図４に示すように、システム設定モード画面が表示される。

以上のように、本実施形態に係るナビゲーション装置は、教師文の声質を参考にしながらユーザに教師文を発話させることにより、音声認識に有利な発声法をユーザに学習させると共に、話者適応処理を迅速に行うことができる。

図１１は話者の音声特徴量と標準音響モデルの模式図であり、（Ａ）は話者適応処理前、（Ｂ）は話者適応処理後である。ナビゲーション装置は、標準音響モデルを用いて教師文の音声合成を行うことで、ユーザに教師文の発声法を学習させ、話者の音声特徴量を標準音響モデルに近づけさせることができる。したがって、ナビゲーション装置は、迅速に話者適応処理を行うことができると共に、音声認識率を向上させることができ、その結果、音声入力による操作設定を確実に行うことができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能であるのは勿論である。

例えば、上述した実施形態では、本発明をナビゲーション装置に適用した場合を例に挙げて説明したが、本発明はこのような実施形態に限定されるものではないのは勿論である。

また、上述した実施形態では、マイクロコンピュータ２０は、ユーザが「終了」を発話したときに話者適応処理を終了したが、これに限定されるものではない。マイクロコンピュータ２０は、例えば話者適応処理の回数（ユーザが発話した回数）をカウントし、このカウント値が所定値になったときに話者適応処理を終了してもよい。

なお、図２において、第１の音響モデルデータベース３３と第２の音響モデルデータベース３４を共通化してもよい。具体的には、マイクロコンピュータ２０は次のような構成でもよい
図１２は、マイクロコンピュータ２０の話者適応機能に関する他の機能的な構成を示すブロック図である。

マイクロコンピュータ２０は、ユーザの音声を分析する音声分析器３１と、音声分析結果に応じて話者適応処理を行う話者適応器３２と、教師文を生成する教師文生成器３５と、音響モデルを用いて音声合成を行う音声合成器３６と、音響モデルを記憶する第３の音響モデルデータベース３７と、を備えている。

第３の音響モデルデータベース３７に記憶されている音響モデルは、話者適応処理の対象となると共に、ユーザに対して教師文の音声合成をするときや、指示を発声するときにも使用される。

具体的には、話者適応器３２は、例えば、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、第３の音響モデルデータベース３７に記憶されている音響モデルをユーザに適応させる。また、音声合成器３６は、第３の音響モデルデータベース３７に記憶された音響モデルと、教師文生成器３５で生成された教師文のテキストデータとに基づいて、当該教師文の音声合成を行う。

なお、上記構成のマイクロコンピュータ２０は、図３と同様の処理を行うことができるのは勿論である。また、上述した話者適応機能を音声認識装置に適用することもできる。

したがって、マイクロコンピュータ２０は、話者適応処理を繰り返し行った場合、話者適応処理された音響モデルを教師文の音声合成にも使用する。これにより、音響モデルが話者に対応するように速く収束するので、話者適応処理をより迅速に行うことができる。

また、上記ナビゲーション装置は、次のような構成の音声認識装置を適用することができる。

図１３は、話者適応処理機能を備えた音声認識装置の構成を示すブロック図である。音声認識装置は、音声分析器３１と、話者適応器３２と、オン／オフの切換を行うスイッチ４１と、音響モデルを記憶した音響モデルデータベース４２と、言語モデルを記憶した言語モデルデータベース４３と、音声認識処理を行う音声認識器４４と、を備えている。ここでは、教師文生成器及び音声合成器の記載は省略した。

話者適応処理を行う場合、スイッチ４１はオンになる。音声分析器３１は、スイッチ４１を介して、音声の特徴量を話者適応器３２に供給する。そして、話者適応器３２は、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、音響モデルデータベース４２に記憶されている音響モデルをユーザに適応させる。

音声認識処理を行う場合、スイッチ４１はオフになる。このとき、音声分析器３１は、音声の特徴量を音声認識器４４に供給する。音声認識器４４は、特徴量、音響モデル及び言語モデルに基づいて、音声認識処理を実行し、認識結果を出力する。

したがって、上記構成の音声認識装置は、ユーザに教師文の発声法を学習させ、話者の音声特徴量を標準音響モデルに近づけさせることで、迅速に話者適応処理を行い、この結果、音声認識率を向上させることができる。

本発明の実施形態に係るナビゲーション装置の構成を示すブロック図である。マイクロコンピュータの話者適応機能に関する機能的な構成を示すブロック図である。副モードが選択されたときのマイクロコンピュータの処理手順を示すフローチャートである。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。（Ａ）は話者適応処理前、（Ｂ）は話者適応処理後における話者の音声特徴量と標準音響モデルの模式図である。マイクロコンピュータの話者適応機能に関する他の機能的な構成を示すブロック図である。話者適応処理機能を備えた音声認識装置の構成を示すブロック図である。

符号の説明

１１マイク
１６タッチパネル
１８スピーカ
２０マイクロコンピュータ
２１ＣＰＵ
２２ＲＡＭ
２３ＲＯＭ
３１音声分析器
３２話者適応器
３３第１の音響モデルデータベース
３４第２の音響モデルデータベース
３５教師文生成器
３６音声合成器
３７第３の音響モデルデータベース

Claims

音声の統計的な特徴量である標準音響モデルを記憶する第１の音響モデル記憶手段と、
処理対象となる音響モデルを記憶する第２の音響モデル記憶手段と、
前記第１の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
前記音声分析手段で抽出された特徴量に基づいて、前記第２の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
を備えた話者適応装置。
音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、
前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
を備えた話者適応装置。
前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う
請求項１または２に記載の話者適応装置。
コンピュータを、
音声の統計的な特徴量である標準音響モデルを記憶する第１の音響モデル記憶手段と、
処理対象となる音響モデルを記憶する第２の音響モデル記憶手段と、
前記第１の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
前記音声分析手段で抽出された特徴量に基づいて、前記第２の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
して機能させる話者適応プログラム。
コンピュータを、
音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、
前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
して機能させる話者適応プログラム。
前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う
請求項４または５に記載の話者適応プログラム。