JP2005148163A

JP2005148163A - 音声認識装置およびその制御方法

Info

Publication number: JP2005148163A
Application number: JP2003381635A
Authority: JP
Inventors: Kohei Yamada; 耕平山田; Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-11
Filing date: 2003-11-11
Publication date: 2005-06-09

Abstract

【課題】使用環境の変化に伴う発話スタイルの急な変化にも追従して音声認識性能を維持することのできる音声認識装置およびその制御方法を提供すること。
【解決手段】複数の動作モードを有する音声認識装置の制御方法であって、現在の動作モードを検出する検出ステップ（Ｓ３０１）と、検出した動作モードに基づいて発話スタイルを予測する予測ステップ（Ｓ３０２）と、予測した発話スタイルに対応する音響モデルを、複数の発話スタイルにそれぞれ対応する複数の音響モデルから選択する選択ステップと（Ｓ３０３）、選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識ステップ（Ｓ３０４）とを有する。
【選択図】図３

Description

本発明は、音声認識装置およびその制御方法に関し、特に、発話スタイルの変化に適応する音声認識装置およびその制御方法に関する。

近年のプリンタや携帯電話等は、サイレントモードやマナーモードなどとよばれる通常時より静粛化するための動作モードを、使用者がボタン一つで設定できるように設計されているものが多い。こうした動作モードでは、あらかじめ決められた複数の動作を行う機能を備えている。例えば、携帯電話をマナーモードに切り替えると、音ではなく振動により着信通知を行ったり、数回コールした後に早い段階で留守番電話モードに切り替えるなど、通常モードと異なった動作モードに瞬時に切り替わるような機能を有している。こうした動作モードの切り替えは使用者の使用環境が変化したことを意味しており、それに伴い使用者自身の装置を使用するスタイルも大きく変化したことを意味している。

音声認識機能を有する装置またはシステムの場合を考えると、上記のように使用環境の変化に伴って、使用者の発話スタイルも変化することが予想される。発話スタイルの大幅な変化は、音声認識率低下の大きな要因となるため、あらかじめおおよその発話スタイルを予測することが有効と考えられる。例えば、特開平８−３０２８９号公報（特許文献１）には、入力された音声信号から発話スタイルの変動を学習して音響モデルを自動遷移することにより、高性能な音声認識を行う方法が開示されている。

特開平８−３０２８９号公報

しかし、特許文献１に開示された方法は、入力音声信号から発話スタイルを学習し音響モデルを遷移するため、装置の使用環境の急な変化により発話スタイルも大きく変わったときに、その変化に追従できないと考えられる。

そこで本発明は、使用環境の変化に伴う発話スタイルの急な変化にも追従して音声認識性能を維持することのできる音声認識装置およびその制御方法を提供することを目的とする。

本発明の一側面によれば、例えば、複数の動作モードを有する音声認識装置であって、複数の発話スタイルにそれぞれ対応する複数の音響モデルと、現在の動作モードを検出する検出手段と、検出した動作モードに基づいて発話スタイルを予測する予測手段と、予測した発話スタイルに対応する音響モデルを、前記複数の音響モデルから選択する選択手段と、選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識手段とを有することを特徴とする音声認識装置が提供される。

本発明によれば、使用環境の変化に伴う発話スタイルの急な変化にも追従して音声認識性能を維持することができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

（実施形態１）
図１Ａは、本発明の音声認識を適用可能な印刷システムの構成を示すブロック図である。この図１に示した印刷システムは例えば、音声認識プログラムをインストールしたパーソナルコンピュータとそれに接続されたプリンタで実現することができるものである。もっとも、パーソナルコンピュータのような汎用コンピュータではなく、専用のハードウェアロジックによって構成してもよい。

１０１は装置全体の制御を司る中央処理装置（ＣＰＵ）、１０２は制御用各種データなどを記憶するメモリ（ＲＯＭ）、１０３は主記憶装置として機能するメモリ（ＲＡＭ）、１０４はハードディスク装置などで構成される外部記憶装置、１０５はボタンやキーボードなどの情報入力部、１０６は装置の状態などを表示する情報表示部、１０７は音声入力部（マイクロホン）、１０８はプリンタ２と通信を行うためのインタフェース（Ｉ／Ｆ）、１１０は上記の各部を接続するバスである。概ねこのような構成を有するパーソナルコンピュータは、Ｉ／Ｆ１０８を介してプリンタ２と接続されている。

また、外部記憶装置１０４には、図１Ｂに示すように、ＯＳをはじめ、後述する音声認識プログラム、各種参照テーブル、および各種音響モデルが記憶されている。

プリンタ２は、レーザビームプリンタやインクジェットプリンタなどのいずれの印刷方式をとるものであってもよいが、通常モード、高速印刷モード、サイレントモード、マナーモードなどの複数の動作モードを有する。

本実施形態における印刷システムは、情報入力部１０５より入力された情報に基づいて、外部記憶装置１０４に格納された音声認識プログラムがＣＰＵ１０１によって実行され、その中で、発話スタイルを予測し、音声入力部１０７から入力される音声信号にもっとも適合した音響モデルをＲＡＭ１０３にロードして音声認識を行う。

この音声認識プログラムによるメカニズムをもう少し具体的に説明すると、次のとおりである。まず、ＣＰＵ１０１は、Ｉ／Ｆ１０８を介して入力されてくるプリンタ２に関連する情報を解析して現在の動作モードを調べる。外部記憶装置１０４に格納された各種テーブルを参照して、プリンタ２の動作モードに対応する音響モデルをＲＡＭ１０３にロードする。そして、音声入力部１０７から入力される音声信号に対してＲＡＭ１０３にロードした音響モデルを用いて音声認識を行う。

図２は、本実施形態の音声認識処理に係る音声認識プログラムのモジュールの構成を示す図である。本実施形態の音声認識処理は、発話スタイルを予測し、それに応じて音響モデルを選択して音声認識を行うものである。

動作モード検出モジュール２０１は、Ｉ／Ｆ１０８を介してプリンタ２から送られてくる各種情報に基づいてプリンタ２の動作モードを検出する。発話スタイル予測モジュール２０２は、検出した動作モードに対応した発話スタイルを、外部記憶装置１０４に記憶されている動作モード−発話スタイル対応テーブル２０４を参照することにより予測する。また、音響モデル選択モジュール２０３は、予測した発話スタイルに対応した音響モデルを、外部記憶装置１０４に記憶されている発話スタイル−音響モデル対応テーブル２０５を参照することにより選択する。

図４は、動作モード−発話スタイル対応テーブル２０４の構造例を示す図である。４０１欄には、プリンタ２の動作モードが記述され、４０２欄には、各動作モードに対応する発話スタイルが記述されている。ここで、図示のように、発話スタイルが時刻ごとに区分されて記述されていると、使用する時間帯に応じた発話スタイルを予測することができるので好都合である。このテーブルによれば、例えば、検出された動作モードがサイレントモードで、その時の時刻が１２時であった場合は、発話スタイルは「ささやき声発話スタイル」と予測することができる。

図５は、発話スタイル−音響モデル対応テーブル２０５の構造例を示す図である。図示のように、５０１欄には、発話スタイルが記述され、５０２欄には、各発話スタイルに対応する音響モデルが記述されている。このテーブルによれば、例えば、予測された発話スタイルが「ささやき声発話スタイル」であったときは「ささやき声音響モデル」が選択されることになる。

図３は、本実施形態における音声認識処理を示すフローチャートである。

まず、ステップＳ３０１で、プリンタ２の動作モードを検出する。この検出は例えば、プリンタ２を静かに動作させるサイレントモードへの切り替えボタンのオン／オフ情報や内部時間情報などに基づいて行われる。次に、ステップＳ３０２で、ステップＳ３０１で検出した動作モードに対応する発話スタイルを、外部記憶装置１０４に記憶されている動作モード−発話スタイル対応テーブル２０４を参照することにより予測する。次に、ステップＳ３０３で、ステップＳ３０２で予測された発話スタイルに対応した音響モデルを、発話スタイル−音響モデル対応テーブル２０５を参照することにより選択する。そして、ステップＳ３０４で、ステップＳ３０３で選択された音響モデルを用いて、音声入力部１０７を介して入力される音声の認識を行う。

なお、このステップＳ３０４では、例えば、音声入力部（マイクロホン）１０７の入力感度を、予測した発話スタイルに最も適合するように自動調整されることが望ましい。例えば、ひそひそ声音響モデルが選択された場合は、ひそひそ声に最も適したマイク感度に自動的に設定される。

また、ステップＳ３０４の音声認識処理中に、ステップＳ３０１〜Ｓ３０３の処理を繰り返すことが好ましい。そうすると音声認識処理中、例えば「ささやき声音響モデル」が選択されていたところ、動作モードが高速印刷モードに切り替わった場合は、それに応じて「大声発話スタイル」が予測され、それに伴い「大声音響モデル」が予測対象音響モデルと選択されて「ささやき声音響モデル」と入れ替えることが可能になる。

このようにして本実施形態では、プリンタの動作モードから発話スタイルを予測し、その発話スタイルに適合した音響モデルを選択して音声認識を行う。これにより発話スタイルの変化に適応する音声認識装置および方法が実現される。

なお、上述の実施形態はプリンタとそのプリンタを制御する情報処理装置とを含む印刷システムであって情報処理装置が音声認識機能を有しているものについて説明したが、このような印刷システムは本発明の音声認識装置および方法が適用されうるものの一例にすぎない。プリンタ以外にも複数の動作モードを備える周辺機器が接続されたシステムにも同様に適用可能であることはいうまでもない。また、上記のような情報処理装置と外部機器が接続されたシステムの他に、例えば複数の動作モードを有する携帯電話等の携帯型端末装置であって音声認識機能を有するものについても同様に本発明を適用することが可能である。

（実施形態２）
実施形態２の音声認識処理は、統計的に音響モデルを同定する処理を含む。図６は、本実施形態の音声認識処理に係る音声認識プログラムのモジュールの構成を示す図である。なお、本実施形態における印刷システムの構成については図１Ａ，Ｂを援用する。

音声認識モジュール６０５は、音響モデル選択モジュール６０３により選択された音響モデルを用いて音声認識を行い、認識結果は動作機能モジュール６０７へ渡される。音響モデル選択モジュール６０３で適応した音響モデルによる音声認識の結果が正しい場合、動作モード検出モジュール６０１で検出した動作モードと、入力音声信号を、外部記憶装置１０４に時系列の統計データとして保存する。

音声情報記録モジュール６０６は、音声認識結果の正誤情報をユーザよりフィードバックし、認識結果が正しいとのフィードバックを受けた時にデータ保存を行う。外部記憶装置１０４に保存される音声信号は例えば、発話音量と発話速度の２つの特徴量を基底ベクトルとした２次元ベクトルとして表現され、２４時間を一周期とした時系列分布として相関を持つようにする。外部記憶装置１０４に保存される音声信号は統計処理の対象データとなり、次回以降の統計処理を行う際に使用される。次回とは２４時間後のことを言う。また統計処理とは、ある時間にどのような音声入力があったのかを処理することで、ある時間帯に入力された音声データの代表的なモデルのベクトルを統計的に一つ決定する。このように決定されるモデルを統計推定モデルと呼ぶことにする。ここで使用する時間帯とは、あらかじめ一意に決定される量ではなく、動作モードの変化に応じて変化する時間量を指す。つまり、頻繁に動作モードが変化する時間帯は短い時間間隔で上記の統計処理を行い、動作モードの変化がほとんどない時間帯は長い時間間隔で統計処理を行う。そして、各々の音響モデルも発話音量と発話速度の２つの基底ベクトルで一意に表現することで、音響モデルのベクトルと統計処理で得た統計推定モデルのベクトルの距離が最も近い音響モデルを発話スタイル予測における音響モデルとして、図９に示すような動作モード−音響モデル対応テーブルに保存する。

図７は、本実施形態における音声認識処理を示すフローチャートである。

まず、ステップＳ７０１で、プリンタ２の動作モード情報を検出する。この検出は例えば、プリンタ２を静かに動作させるサイレントモードへの切り替えボタンのオン／オフ情報や内部時間情報などに基づいて行われる。次に、ステップＳ７０２で、ステップＳ７０１で検出した動作モードに対応する発話スタイルを、動作モード−発話スタイル対応テーブル２０４を参照することにより予測する。次に、ステップＳ７０３で、ステップＳ７０２で予測された発話スタイルに対応する音響モデル、発話スタイル−音響モデル対応テーブル２０５を参照することにより選択する。そして、ステップＳ７０４で、ステップＳ７０３で選択された音響モデルを用いて、音声入力部１０７を介して入力される音声の認識を行う。その後、ステップＳ７０５で、入力された音声信号を外部記憶装置１０４に記録し、ステップＳ７０６で、外部記憶装置１０４に記録された音声データの統計処理を行う。

ステップＳ７０６での統計処理は具体的には次のように行う。

図８に示すように、各音響モデルを、発話音量と発話速度で定量的に表現し、２次元の直交座標系で表現する。８０１は発話速度を示す軸、８０２は発話音量を示す軸である。ある時間帯に入力された音声データを学習し、統計推定モデルを一意に決定し、その推定されたモデルを図８のような座標系に投影し、その投影したベクトルに最も距離の近いベクトルを持つ音響モデルを同定する。同図の場合、統計推定モデルのベクトルに最も距離の近いベクトルとしては音響モデルＡのベクトルが該当するので、この場合は音響モデルＡが同定される。この音響モデルの同定の結果は図９の動作モード−音響モデル対応テーブル２０６に反映される。このテーブルは、各動作モードに対応する発話スタイルが時刻別に記録されている。

さらに、このようなテーブル２０６の更新に応じて、動作モード−発話スタイル対応テーブル２０４の更新も行われる。この更新処理の例を、図１０を用いて詳細に説明する。図９における動作モード−音響モデル対応テーブル２０６を参照すると、統計処理の結果、例えば１４時でのサイレントモードに対しては通常音響モデルが最適な音響モデルとして同定されることが分かる（図１０（ａ））。この場合、発話スタイル−音響モデル対応テーブル２０５を参照すれば、通常音響モデルに対応する発話スタイルは通常音声であることが分かる（同図（ｂ））。これに応じて、動作モード−発話スタイル対応テーブル２０４の１４時のサイレントモードに対応する音響モデルを、通常音響モデルで更新する。例えば現時点で動作モード−発話スタイル対応テーブル２０４を参照すると、１４時のサイレントモードにはささやき声発話スタイルが対応している。したがって、これを通常音声発話スタイルに変更することになる。

（実施形態３）
本実施形態では、音声認識機能を有する携帯型端末装置で、ＧＰＳ（Global Positioning System）が搭載されものについて説明する。この場合、携帯型端末装置の現在位置の情報が、図３に示したステップＳ３０１の動作モード検出処理において検出される。また、ステップＳ３０２において、位置情報から得られる場所情報をインターネットを介して獲得する。そして、場所情報に対応した動作モードを、あらかじめメモリに記録された場所−動作モード対応テーブルを参照して、装置の動作モードを決定する。なお、ユーザが既に別の動作モードを指定している場合には、そのユーザ指定の動作モードを優先するようにしてもよい。

図１１に場所情報−動作モード対応テーブルの構造例を示す。図示のように、１１０１列に場所情報がきじゅつされ、１１０２列にその場所情報に対応する動作モードが記述される。たとえば、電車に乗っている場合には、その位置情報から、インターネットを介してその場所が線路上であるという情報が得られ、図１１のテーブルを参照すると、対応する動作モードはマナーモードとなる。また、たとえば劇場や映画館、講演会場などの場所情報を物理的な位置情報から得た場合は、図１１のテーブルを参照すると、対応する動作モードはサイレントモードとなる。このようにして動作モードが決定されると、図４に示したような動作モード−発話スタイル対応テーブルを参照して発話スタイルが予測され、さらに図５に示したような発話スタイル−音響モデル対応テーブルを参照して音響モデルが選択され、その音響モデルを用いて音声認識が行われることになる。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、例えばシステム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。また、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の音声認識を適用可能な印刷システムの構成を示すブロック図である。外部記憶装置の記憶内容の例を示す模式図である。実施形態１の音声認識処理に係る音声認識プログラムのモジュールの構成を示す図である。実施形態１における音声認識処理を示すフローチャートである。動作モード−発話スタイル対応テーブルの構造例を示す図である。発話スタイル−音響モデル対応テーブルの構造例を示す図である。実施形態２の音声認識処理に係る音声認識プログラムのモジュールの構成を示す図である。実施形態２における音声認識処理を示すフローチャートである。実施形態２における音響モデルの同定処理を説明するための図である。実施形態２における動作モード−音響モデル対応テーブルの構造例を示す図である。実施形態２における動作モード−発話スタイル対応テーブル更新処理を説明する図である。実施形態３における場所情報−動作モード対応テーブルの構造例を示す図である。

Claims

複数の動作モードを有する音声認識装置であって、
複数の発話スタイルにそれぞれ対応する複数の音響モデルと、
現在の動作モードを検出する検出手段と、
検出した動作モードに基づいて発話スタイルを予測する予測手段と、
予測した発話スタイルに対応する音響モデルを、前記複数の音響モデルから選択する選択手段と、
選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識手段と、
を有することを特徴とする音声認識装置。
前記予測手段は、動作モードと発話スタイルとの対応を記述したテーブルに基づいて予測することを特徴とする請求項１に記載の音声認識装置。
前記テーブルは各動作モードに対応する発話スタイルが時刻別に記述されており、
前記検出手段は、現在時刻および現在の動作モードを検出し、
前記予測手段は、前記テーブルに基づいて現在時刻に適した発話スタイルを予測する
ことを特徴とする請求項２に記載の音声認識装置。
一の動作モードについて、実際に入力された音声データと、前記複数の音響モデルとをそれぞれ、発話音量および発話速度を基底ベクトルとする２次元空間で定量化し、前記実際に入力された音声データのベクトルと距離が最も近いベクトルの音響モデルを特定し、その特定された音響モデルに対応する発話スタイルで前記テーブルを更新することを、各動作モードについて行うテーブル更新手段を更に有することを特徴とする請求項３に記載の音声認識装置。
現在位置の情報を取得する手段と、
前記現在位置に応じた動作モードを設定する手段と、
を更に有することを特徴とする請求項１に記載の音声認識装置。
前記予測手段により予測された発話スタイルに応じて、音声を入力するマイクロホンの感度を調整する調整手段を更に有することを特徴とする請求項１に記載の音声認識装置。
複数の動作モードを有する音声認識装置の制御方法であって、
現在の動作モードを検出する検出ステップと、
検出した動作モードに基づいて発話スタイルを予測する予測ステップと、
予測した発話スタイルに対応する音響モデルを、複数の発話スタイルにそれぞれ対応する複数の音響モデルから選択する選択ステップと、
選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識ステップと、
を有することを特徴とする音声認識装置の制御方法。
コンピュータに、
現在の動作モードを検出する検出ステップ、
検出した動作モードに基づいて発話スタイルを予測する予測ステップ、
予測した発話スタイルに対応する音響モデルを、複数の発話スタイルにそれぞれ対応する複数の音響モデルから選択する選択ステップ、
選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識ステップ、
を実行させるためのプログラム。
請求項８に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
複数の動作モードを有する外部機器に接続された音声認識装置であって、
複数の発話スタイルにそれぞれ対応する複数の音響モデルと、
前記外部機器の現在の動作モードを検出する検出手段と、
検出した動作モードに基づいて発話スタイルを予測する予測手段と、
予測した発話スタイルに対応する音響モデルを、前記複数の音響モデルから選択する選択手段と、
選択した音響モデルに基づいて、入力された音声の音声認識を行う音声認識手段と、
を有することを特徴とする音声認識装置。