JP2005091575A - 話者適応装置及びプログラム - Google Patents

話者適応装置及びプログラム Download PDF

Info

Publication number
JP2005091575A
JP2005091575A JP2003322945A JP2003322945A JP2005091575A JP 2005091575 A JP2005091575 A JP 2005091575A JP 2003322945 A JP2003322945 A JP 2003322945A JP 2003322945 A JP2003322945 A JP 2003322945A JP 2005091575 A JP2005091575 A JP 2005091575A
Authority
JP
Japan
Prior art keywords
acoustic model
voice
speaker
speech
speaker adaptation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003322945A
Other languages
English (en)
Inventor
Ryuta Terajima
立太 寺嶌
Toshihiro Wakita
敏裕 脇田
Keiichi Tokuda
恵一 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya Institute of Technology NUC
Toyota Central R&D Labs Inc
Original Assignee
Nagoya Institute of Technology NUC
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya Institute of Technology NUC, Toyota Central R&D Labs Inc filed Critical Nagoya Institute of Technology NUC
Priority to JP2003322945A priority Critical patent/JP2005091575A/ja
Publication of JP2005091575A publication Critical patent/JP2005091575A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 視覚を使用することなく、音声の認識率が向上するように話者の発声の仕方を教示する。
【解決手段】 音声合成器36は、教師文と、教師文に対応する標準音響モデルとに基づいて、教師文の音声合成を行う。ユーザは、教師文の声質を参考にしながら、教師文を音声認識に好ましい声質で発話する。そして、話者適応器32は、音声分析器31の分析結果に基づいて、第1の音響モデルデータベース33に記憶された音響モデルの話者適応処理を行う。これにより、第1の音響モデルデータベース33には、話者の特徴に応じて学習された音響モデルが記憶される。
【選択図】 図2

Description

本発明は、話者適応装置及びプログラムに係り、特に音声認識で使用する音響モデルを特定話者に適応させる話者適応装置及びプログラムに関する。
従来、音声認識で使用する音響モデルを特定話者に適応させる話者適応装置が提案されている。従来の話者適応装置は、視覚的に提示された教師文をユーザに発声させ、その発声を入力して話者適応処理を実行していた。
具体的には、話者適応機能を有する音声認識装置は、ディスプレイに教師文を表示し、その教師文をユーザが発話することによって、話者適応処理を行っていた(例えば、特許文献1を参照。)。
米国特許第6324507号明細書
しかし、特許文献1に記載された技術は、ユーザがディスプレイに表示された文字を読むことができない場合(例えば、音声認識装置にディスプレイが備わっていない場合、話者が子供のように文字を読むことができない場合など)では、話者適応処理を行うことができない問題があった。
また、上記技術は、ディスプレイに表示された文字を話者に発声させるだけであり、文字の発声法についての規範までを提示することができなかった。すなわち、上記技術は、話者の発声の仕方まで教示できないため、発声の仕方はユーザ自身にゆだねられ、話者適応処理が迅速にできないという問題があった。
本発明は、上述した課題を解決するために提案されたものであり、視覚を使用することなく、音声の認識率が向上するように話者の発声の仕方を教示する話者適応装置及びプログラムを提供することを目的とする。
本発明は、音声認識(話者適応処理)に有利な発声法を合成音声として提示することにより、ユーザに発声方法を自然に学習させて、上述した課題を解決した。
すなわち、請求項1に記載の話者適応装置は、音声の統計的な特徴量である標準音響モデルを記憶する第1の音響モデル記憶手段と、処理対象となる音響モデルを記憶する第2の音響モデル記憶手段と、前記第1の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記第2の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、を備えている。
請求項4に記載の話者適応プログラムは、コンピュータを、音声の統計的な特徴量である標準音響モデルを記憶する第1の音響モデル記憶手段と、処理対象となる音響モデルを記憶する第2の音響モデル記憶手段と、前記第1の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、
前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記第2の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、して機能させる。
第1の音響モデル記憶手段は、話者の声の統計的な特徴量である標準音響モデルを記憶している。通常、標準音響モデルは、音声認識処理の際に使用される。本発明では、標準音響モデルは、ユーザが参考にする教師文を音声合成するときに使用される。一方、第2の音響モデル記憶手段は、処理対象となる音響モデル、すなわち話者適応処理の対象となる音響モデルを記憶している。
音声合成手段は、標準音響モデルを用いることによって、音声認識に好ましい声質で教師文の音声合成を行う。そして、話者が教師文を発声すると、音声入力手段は、話者の音声を入力する。これにより、ユーザに対して、教師文の声質を参考にしながら教師文を発話させることができ、さらに、音声認識に有利な発声法を学習させることができる。なお、音声入力手段としては、例えばマイク、又は音声信号が入力されるインタフェース等であってもよく、特に限定されるものではない。
話者適応処理手段は、前記音声分析手段で抽出された特徴量に基づいて、前記第2の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う。なお、教師文の音声合成と話者適応処理は、繰り返し行うことができる。
したがって、請求項1および4に記載の発明によれば、標準音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出して、抽出された特徴量に基づいて音響モデルについて話者適応処理を行うことにより、ユーザに対して音声認識に有利になるように教師文を発声させることができ、この結果、迅速かつ確実に話者適応処理を行うことができる。
ここで、第1の音響モデル記憶手段と第2の音響モデル記憶手段とを共通化すると次のような発明になる。
請求項2に記載の話者適応装置は、音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、を備えている。
請求項5に記載の話者適応プログラムは、コンピュータを、音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、話者の音声を入力する音声入力手段と、前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、して機能させる。
請求項2および5に記載の発明では、請求項1および4に記載された発明と異なり、教師文の音声合成をするときに使用する音響モデルと、話者適応処理の対象となる音響モデルが同じになっている。したがって、話者適応処理が繰り返し行われると、話者適応処理された音響モデルは、教師文の音声合成においても使用され、そして速く収束する。
したがって、請求項2および5に記載の発明によれば、記憶された音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出し、抽出された特徴量に基づいて前記音響モデルについて話者適応処理を行うことによって、話者適応処理をより迅速に行うことができる。
請求項3に記載の話者適応装置は、請求項1または2に記載の発明であって、前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う。
請求項6に記載の話者適応プログラムは、請求項4または5に記載の発明であって、前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う。
したがって、請求項3および6に記載の発明によれば、ユーザは話者適応処理の状況を音声により確認することができる。
本発明に係る話者適応装置及びプログラムは、標準音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出して、抽出された特徴量に基づいて音響モデルについて話者適応処理を行うことにより、ユーザに対して音声認識に有利になるように教師文を発声させることができ、この結果、迅速かつ確実に話者適応処理を行うことができる。
また、本発明に係る話者適応装置及びプログラムは、記憶された音響モデルを用いて教師文の音声合成を行い、入力された音声を分析して特徴量を抽出し、抽出された特徴量に基づいて前記音響モデルについて話者適応処理を行うことによって、話者適応処理をより迅速に行うことができる。
以下、本発明の好ましい実施の形態について図面を参照しながら詳細に説明する。
図1は、本発明の実施形態に係るナビゲーション装置の構成を示すブロック図である。ナビゲーション装置は、タッチパネルの操作又は音声認識結果に基づいて、ルート探索を行うものである。なお、このナビゲーション装置は、音声認識では、例えばHMM(Hidden Markov Moddel)を用いている。
ナビゲーション装置は、ユーザの音声を入力するマイク11と、マイク111に入力された音声信号をディジタル化するA/Dコンバータ12と、GPS(Global Positioning System)アンテナ13を介してGPS信号を受信するGPS受信回路14と、を備えている。
ナビゲーション装置は、更に、光ディスクに記録された地図情報等を読み出す光ディスクドライブ15と、光ディスクドライブから読み出された地図情報等を表示するタッチパネル16と、音声合成された音声データをアナログ化するD/Aコンバータ17と、音声合成を出力するスピーカ18と、音声認識処理の結果に従ってルート検索処理、所定の設定等の全体的な制御を実行するマイクロコンピュータ20とを備えている。
マイクロコンピュータ20は、演算処理を実行するCPU(Central Processing Unit)21と、データのワークエリアであるRAM(Random Access Memory)22と、CPU21の制御プログラムが記憶されているROM(Read Only Memory)23とを備えている。なお、ROM23には、ルート検索処理、音声認識処理、話者適応処理等を行うための制御プログラムが記憶されている。
マイクロコンピュータ20は、タッチパネル16の操作設定に応じて、光ディスクドライブ15から地図情報を読み出し、現在地から目的地までのルート設定を行う。また、マイクロコンピュータは、GPS受信回路14に入力されたGPS信号に基づいて自車の現在位置を演算し、地図情報と共に現在位置をタッチパネル16に表示する制御を行う。
マイクロコンピュータ20は、タッチパネル16の操作設定の代わりに、ユーザ(本実施形態ではドライバ)の音声を認識し、ユーザの音声指示に従って上述した各種の制御を実行することができる。ここで、マイクロコンピュータ20は、音声認識率の向上を図るために、話者適応機能を有している。
図2は、マイクロコンピュータ20の話者適応機能に関する機能的な構成を示すブロック図である。
マイクロコンピュータ20は、ユーザの音声を分析する音声分析器31と、音声分析結果に応じて話者適応処理を行う話者適応器32と、音響モデルを記憶する第1の音響モデルデータベース33と、標準音響モデルを記憶する第2の音響モデルデータベース34と、教師文を生成する教師文生成器35と、音響モデルを用いて音声合成を行う音声合成器36と、を備えている。
音声分析器31は、マイク11及びA/Dコンバータ12を介して入力された音声を分析して、無音で区切られた音声区間を切り出し、ユーザの音声特徴量を抽出する。
話者適応器32は、例えば、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、第1の音響モデルデータベース33に記憶されている音響モデルをユーザに適応させる。話者適応処理のアルゴリズムとしては、例えば、文献 "Mean and variance adaptation within the MLLR framework", M. J. F. Gales and P. C. Woodland, Computer Speech and Language, vol. 10, 1996 に記載されたものを用いることができる。話者適応器32は、上記文献のアルゴリズムを使用する場合、正解テキストが必要になるため、教師文生成器35からテキストデータを得た後、話者適応処理を行う。
第1の音響モデルデータベース33には、話者適応処理の対象となる音響モデルが記憶されている。第2の音響モデルデータベース34には、音声特徴量の標準的な統計量を表した標準モデルが記憶されている。標準音響モデルは、話者適応処理の対象ではなく、例えば、ユーザが参考にする教師文の音声合成をするときや、ユーザに対して指示を発声するときに使用される。
教師文生成器35は、複数の教師文に各々対応する複数のテキストデータを予め記憶している。そして、教師文生成器35は、乱数を発生し、乱数に対応するテキストデータを選択する。すなわち、教師文生成器35は、ランダムに教師文用のテキストデータを生成する。
音声合成器36は、第2の音響モデルデータベース34に記憶された標準音響モデルと、教師文生成器35で生成された教師文のテキストデータとに基づいて、当該教師文の音声合成を行う。また、音声合成器36は、話者適応処理の状況を確認するときは、第1の音響モデルデータベース33に記憶された音響モデルを用いて、音声合成を行う。
音声合成のためのアルゴリズムは、例えば、文献“動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム”徳田恵一ほか、日本音響学会誌、vol.53, no.3, 1997 に記載されたものを用いることができる。音声合成器36によって得られた音声データは、D/Aコンバータ17を介して、スピーカ18に供給される。これにより、スピーカ18から音声が出力される。
以上のように構成されたマイクロコンピュータ20は、音声認識性能向上用の副モードが選択されたときは、以下の順序に従って話者適応処理を実行する。
図3は、副モードが選択されたときのマイクロコンピュータ20の処理手順を示すフローチャートである。図4から図10は、副モードの処理実行時にタッチパネル16に表示される画面の一例を示す図である。
図4に示すように、タッチパネル16に表示されたシステム設定モード画面から、「音声学習」ボタンが選択されると、マイクロコンピュータ20は、所定のプログラムに従って、ステップST1以下の処理を実行する。なお、ユーザは、「音声学習」ボタンを選択する代わりに、「音声学習」と発話してもよい。
ステップST1では、タッチパネル16には、図5に示すように、『只今より音声の学習を行います。私の真似をして発話して下さい』と『開始』ボタンが表示される。このとき、音声合成器36は、第2の音響モデルデータベース34に記憶されている標準音響モデルを用いて、「只今より音声の学習を行います。私がしゃべるのと同じように発話して下さい。準備が整ったら『開始』と発話して下さい」の合成音声を出力する。そして、ユーザが「開始」と発話すると、ステップST2に移行する。
ここで、タッチパネル16に表示された画面(プロント)は、音声提示の補助的な役割を果たすものであり、必須ではない。
また、本実施形態では、話者適応処理の進行を制御する上で、予め定められたキーワードをユーザに発話させている。しかし、ユーザに発話させる代替手段として、タッチパネル16の画面にGUI(Graphical User Interface)ボタンを提示してもよい。GUIボタンも音声提示の補助的な役割を果たすものであり、必須ではない。
なお、画面上のボタンを操作することと、ボタンに対応するキーワードを発話することは同じである。例えば図5において、ユーザが『開始』と発話することと、『開始』ボタンを押すことは同じである。このため、以下では、ボタン操作の説明については省略する。
ステップST2では、教師文生成器35は、提示すべきメッセージmsgとしランダムに教師文のテキストデータを設定して(msg←教師文)、ステップST3に移行する。
ステップST3では、音声合成器36は、ステップST2で設定された教師文(例えば、「吾輩は猫である」)と、教師文に対応する標準音響モデルとに基づいて、「吾輩は猫である」の音声合成を行って、ステップST4に移行する。このとき、タッチパネル16には、図6に示すように、『吾輩は猫である』が表示され、メッセージが提示される。
ステップST4では、音声合成器36は、ユーザに発話要求を提示するために、第2の音響モデルデータベース34の標準音響モデルを用いて、「どうぞ」の音声合成を行って、ステップST5に移行する。このとき、ユーザに教師文の発話を促すために、タッチパネル16には、図7に示すように、『発話してください』が表示さる。ユーザは、ステップST3における教師文の声質を参考にしながら、教師文を音声認識に好ましい声質で発話することができる。これにより、ユーザは、音声認識に有利な発声法を自然に学習することができる。
ステップST5では、話者適応器32は、マイク11、A/Dコンバータ12、音声分析器31を介して入力された音声信号の特徴量を表す観測ベクトル列を“O”と設定して(“O”←音声入力)、ステップST6に移行する。
ステップST6では、話者適応器32は、ユーザによって入力された「わがはいはねこである」という文字列の認識スコアを演算する。具体的には、第1の音響モデルデータベース33に記憶された音響モデルのモデルパラメータをλ、ステップST5の観測ベクトル列の長さを|O|、状態遷移系列をqとするとき、話者適応器32は、(1)式に従って、音響尤度である認識スコアLを演算して、ステップST7に移行する。
Figure 2005091575
ステップST7では、話者適応器32は、認識スコアLが閾値tv以上(L≧tv)であるかを判定する。ここにいうtvは、音響モデルの話者適応処理を行うか否かを判定するための閾値である。そして、話者適応器32は、(L≧tv)であるときはステップST9に移行し、(L≧tv)でないときはステップST8に移行する。
ステップST8では、音声合成器36は、第2の音響モデルデータベース34の標準音響モデルを用いて、「もう一度明瞭に読み上げて下さい。学習を続けますので『再開』と発生してください」と音声合成をする。このとき、タッチパネル16には、図8に示すように、『もう一度明瞭に読み上げて下さい』と『再開』ボタンとが表示され、再発声が提示される。そして、ユーザが「再開」を発話すると、ステップST3に戻る。
一方、ステップST9では、話者適応器32は、音声分析器31の分析結果に基づいて、第1の音響モデルデータベース33に記憶された音響モデルの話者適応処理を行う。これにより、第1の音響モデルデータベース33には、話者の特徴に応じて学習された音響モデルが記憶される。
そして、音声合成器36は、第2の音響モデルデータベース34の標準音響モデルを用いて、「続ける場合は『次へ』を、学習効果を確かめる場合には『学習効果』を、学習を終了する場合は『終了』と発話してください」と音声合成する。これにより、ユーザに対して、1つの処理を選択するように、音声を提示する。
このとき、タッチパネル16には、図9に示すように、『次へ』、『学習効果』、『終了』の各々のボタンが表示される。これにより、ユーザに対して、いずれか1つの処理を選択するように提示する。
そして、ユーザが『次へ』を発話した場合はステップST2に移行し、ユーザが『学習効果』を発話した場合はステップST10に移行し、ユーザが『終了』を発話した場合は処理を終了する。
ステップST9から移行したステップST2では、教師文生成器35は、新たな教師文を提示すべきメッセージ(msg)として設定する。そして、上述のように、ステップST3以降の処理を実行する。
また、ステップST10では、音声合成器36は、第2の音響モデルデータベース34に記憶された音響モデルを用いて、「私が学習した声で読み上げます」と音声合成する。その後、第1の音響モデルデータベース33に記憶された音響モデルを用いて、「吾輩は猫である」と音声合成を行う。これにより、ユーザは、現在の話者適応効果を、実際の音声により確認することができる。
音声合成器36は、第2の音響モデルデータベース34に記憶された音響モデルを用いて、「学習を続けますので『再開』と発話して下さい」と音声合成する。このとき、タッチパネル16には、図10に示すように、『再開』のボタンが表示される。そして、ユーザが「再開」を発声すると、ステップST9に移行する。
なお、ステップST9においてユーザが『終了』と発話したときは、タッチパネル16には、図4に示すように、システム設定モード画面が表示される。
以上のように、本実施形態に係るナビゲーション装置は、教師文の声質を参考にしながらユーザに教師文を発話させることにより、音声認識に有利な発声法をユーザに学習させると共に、話者適応処理を迅速に行うことができる。
図11は話者の音声特徴量と標準音響モデルの模式図であり、(A)は話者適応処理前、(B)は話者適応処理後である。ナビゲーション装置は、標準音響モデルを用いて教師文の音声合成を行うことで、ユーザに教師文の発声法を学習させ、話者の音声特徴量を標準音響モデルに近づけさせることができる。したがって、ナビゲーション装置は、迅速に話者適応処理を行うことができると共に、音声認識率を向上させることができ、その結果、音声入力による操作設定を確実に行うことができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能であるのは勿論である。
例えば、上述した実施形態では、本発明をナビゲーション装置に適用した場合を例に挙げて説明したが、本発明はこのような実施形態に限定されるものではないのは勿論である。
また、上述した実施形態では、マイクロコンピュータ20は、ユーザが「終了」を発話したときに話者適応処理を終了したが、これに限定されるものではない。マイクロコンピュータ20は、例えば話者適応処理の回数(ユーザが発話した回数)をカウントし、このカウント値が所定値になったときに話者適応処理を終了してもよい。
なお、図2において、第1の音響モデルデータベース33と第2の音響モデルデータベース34を共通化してもよい。具体的には、マイクロコンピュータ20は次のような構成でもよい
図12は、マイクロコンピュータ20の話者適応機能に関する他の機能的な構成を示すブロック図である。
マイクロコンピュータ20は、ユーザの音声を分析する音声分析器31と、音声分析結果に応じて話者適応処理を行う話者適応器32と、教師文を生成する教師文生成器35と、音響モデルを用いて音声合成を行う音声合成器36と、音響モデルを記憶する第3の音響モデルデータベース37と、を備えている。
第3の音響モデルデータベース37に記憶されている音響モデルは、話者適応処理の対象となると共に、ユーザに対して教師文の音声合成をするときや、指示を発声するときにも使用される。
具体的には、話者適応器32は、例えば、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、第3の音響モデルデータベース37に記憶されている音響モデルをユーザに適応させる。また、音声合成器36は、第3の音響モデルデータベース37に記憶された音響モデルと、教師文生成器35で生成された教師文のテキストデータとに基づいて、当該教師文の音声合成を行う。
なお、上記構成のマイクロコンピュータ20は、図3と同様の処理を行うことができるのは勿論である。また、上述した話者適応機能を音声認識装置に適用することもできる。
したがって、マイクロコンピュータ20は、話者適応処理を繰り返し行った場合、話者適応処理された音響モデルを教師文の音声合成にも使用する。これにより、音響モデルが話者に対応するように速く収束するので、話者適応処理をより迅速に行うことができる。
また、上記ナビゲーション装置は、次のような構成の音声認識装置を適用することができる。
図13は、話者適応処理機能を備えた音声認識装置の構成を示すブロック図である。音声認識装置は、音声分析器31と、話者適応器32と、オン/オフの切換を行うスイッチ41と、音響モデルを記憶した音響モデルデータベース42と、言語モデルを記憶した言語モデルデータベース43と、音声認識処理を行う音声認識器44と、を備えている。ここでは、教師文生成器及び音声合成器の記載は省略した。
話者適応処理を行う場合、スイッチ41はオンになる。音声分析器31は、スイッチ41を介して、音声の特徴量を話者適応器32に供給する。そして、話者適応器32は、音声特徴量次元におけるアルフィン変換を行う係数を算出することによって、音響モデルデータベース42に記憶されている音響モデルをユーザに適応させる。
音声認識処理を行う場合、スイッチ41はオフになる。このとき、音声分析器31は、音声の特徴量を音声認識器44に供給する。音声認識器44は、特徴量、音響モデル及び言語モデルに基づいて、音声認識処理を実行し、認識結果を出力する。
したがって、上記構成の音声認識装置は、ユーザに教師文の発声法を学習させ、話者の音声特徴量を標準音響モデルに近づけさせることで、迅速に話者適応処理を行い、この結果、音声認識率を向上させることができる。
本発明の実施形態に係るナビゲーション装置の構成を示すブロック図である。 マイクロコンピュータの話者適応機能に関する機能的な構成を示すブロック図である。 副モードが選択されたときのマイクロコンピュータの処理手順を示すフローチャートである。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 副モードの処理実行時にタッチパネルに表示される画面の一例を示す図である。 (A)は話者適応処理前、(B)は話者適応処理後における話者の音声特徴量と標準音響モデルの模式図である。 マイクロコンピュータの話者適応機能に関する他の機能的な構成を示すブロック図である。 話者適応処理機能を備えた音声認識装置の構成を示すブロック図である。
符号の説明
11 マイク
16 タッチパネル
18 スピーカ
20 マイクロコンピュータ
21 CPU
22 RAM
23 ROM
31 音声分析器
32 話者適応器
33 第1の音響モデルデータベース
34 第2の音響モデルデータベース
35 教師文生成器
36 音声合成器
37 第3の音響モデルデータベース

Claims (6)

  1. 音声の統計的な特徴量である標準音響モデルを記憶する第1の音響モデル記憶手段と、
    処理対象となる音響モデルを記憶する第2の音響モデル記憶手段と、
    前記第1の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
    話者の音声を入力する音声入力手段と、
    前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
    前記音声分析手段で抽出された特徴量に基づいて、前記第2の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
    を備えた話者適応装置。
  2. 音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、
    前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
    話者の音声を入力する音声入力手段と、
    前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
    前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
    を備えた話者適応装置。
  3. 前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う
    請求項1または2に記載の話者適応装置。
  4. コンピュータを、
    音声の統計的な特徴量である標準音響モデルを記憶する第1の音響モデル記憶手段と、
    処理対象となる音響モデルを記憶する第2の音響モデル記憶手段と、
    前記第1の音響モデル記憶手段に記憶された標準音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
    話者の音声を入力する音声入力手段と、
    前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
    前記音声分析手段で抽出された特徴量に基づいて、前記第2の音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
    して機能させる話者適応プログラム。
  5. コンピュータを、
    音声の特徴量である音響モデルを記憶する音響モデル記憶手段と、
    前記音響モデル記憶手段に記憶された音響モデルを用いて、教師文の音声合成を行う音声合成手段と、
    話者の音声を入力する音声入力手段と、
    前記音声入力手段により入力された前記教師文に対応する音声を分析して特徴量を抽出する音声分析手段と、
    前記音声分析手段で抽出された特徴量に基づいて、前記音響モデル記憶手段に記憶された音響モデルについて話者適応処理を行う話者適応処理手段と、
    して機能させる話者適応プログラム。
  6. 前記音声合成手段は、さらに、話者適応処理済みの音響モデルを用いて音声合成を行う
    請求項4または5に記載の話者適応プログラム。
JP2003322945A 2003-09-16 2003-09-16 話者適応装置及びプログラム Pending JP2005091575A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003322945A JP2005091575A (ja) 2003-09-16 2003-09-16 話者適応装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003322945A JP2005091575A (ja) 2003-09-16 2003-09-16 話者適応装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2005091575A true JP2005091575A (ja) 2005-04-07

Family

ID=34454157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003322945A Pending JP2005091575A (ja) 2003-09-16 2003-09-16 話者適応装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2005091575A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
KR100912339B1 (ko) 2007-05-10 2009-08-14 주식회사 케이티 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008547061A (ja) * 2005-06-27 2008-12-25 マイクロソフト コーポレーション 異言語話者間の対話および理解を強化するための、コンテキストに影響されるコミュニケーション方法および翻訳方法
KR100912339B1 (ko) 2007-05-10 2009-08-14 주식회사 케이티 음성 변이를 이용한 소수 화자 음성 데이터 훈련 장치 및그 방법

Similar Documents

Publication Publication Date Title
JP5323212B2 (ja) 複数言語音声認識
EP3739477A1 (en) Speech translation method and system using multilingual text-to-speech synthesis model
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
WO2001052237A1 (fr) Appareil, methode et support d'apprentissage de langues etrangeres
JP2003022087A (ja) 音声認識方法
JP2016065924A (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
JPWO2006123539A1 (ja) 音声合成装置
US20190295531A1 (en) Determining phonetic relationships
JP6172417B1 (ja) 語学学習システム及び語学学習プログラム
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2006201749A (ja) 音声による選択装置、及び選択方法
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2007140200A (ja) 語学学習装置およびプログラム
JP2006189730A (ja) 音声対話方法および音声対話装置
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP4440502B2 (ja) 話者認証システム及び方法
JP2005091575A (ja) 話者適応装置及びプログラム
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2005031150A (ja) 音声処理装置および方法
JP4962930B2 (ja) 発音評定装置、およびプログラム
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム