JP2005181459A

JP2005181459A - 音声認識装置および方法

Info

Publication number: JP2005181459A
Application number: JP2003418647A
Authority: JP
Inventors: Kohei Yamada; 耕平山田; Makoto Hirota; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】マイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させること。
【解決手段】撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより（Ｓ５０２）、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルをあらかじめ記憶している複数の音響モデルから選択し（Ｓ５０３，Ｓ５０４）、その選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
【選択図】図５

Description

本発明は、音声認識装置および方法に関し、特に、画像ファイルに含まれる音声データに対して音声認識を行う音声認識装置および方法に関する。

音声認識技術に対しては、さまざまな改良が提案されている（例えば、特許文献１，２を参照。）。また近年、撮影した画像に音声データのメモを付けたり、画像に付属した音声を音声認識してテキストに変換し画像にテキストメモを付けるなど、音声を使った様々な付加機能がデジタルカメラやカメラ付き携帯電話などの撮影機器に装備されてきており、音声を使った新機能開発が活発化してきている。また、現在デジタルカメラやカメラ付き携帯電話などのデジタル撮影機器で撮影される画像は業界標準としてＥｘｉｆ形式で保存されているため、撮影機器固有もしくは撮影時の情報を画像ファイルから読み取ることができるようになっている。

特開平０７−０８４５９４号公報特開２００３−１３１６８３号公報

デジタルカメラやカメラ付き携帯電話に内蔵されるマイクロホンは固有の特性を有しており、音声はマイクロホン固有の特性を含んで機器に取り込まれる。また、デジタルカメラやカメラ付き携帯電話は外出時に携帯し、不定常な環境下で使用されることから、撮影した画像に音声を付属する際、環境に依存した音声以外の環境音が入力されることが予想される。そうすると、音声認識機能を用いて画像に付属した音声をテキストに変換する場合には、このようなマイクロホン特性や環境音が音声認識性能を劣化させるという問題が生じる。

そこで、本発明は、こうしたマイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させることを目的とする。

本発明の一側面に係る音声認識装置及び方法は、複数の音響モデルと、撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルとをあらかじめメモリに記憶しておき、前記テーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを前記複数の音響モデルから選択し、その選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。

また、本発明の別の側面に係る音声認識装置及び方法は、録音機器の条件に依存しないように作成された音響モデルと、撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルとをあらかじめメモリに記憶しておき、入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を前記テーブルから検索し、その検索されたケプストラム平均に基づいて、前記音響モデルを適応化し、その適応化された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。

本発明の更に別の側面に係る音声認識装置及び方法は、入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定し、その設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。

本発明によれば、マイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させることができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

図１Ａは本発明の実施形態に係る音声認識システムの構成を示すブロック図である。図示のように音声認識システム１はＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３等を備えており、かかる構成は典型的にはパーソナルコンピュータ等のコンピュータ装置で実現できるものである。もっとも、このような汎用コンピュータではなく、専用のハードウェアロジックにより構成してもよいことは言うまでもない。

１０１は本システム全体の制御を司る中央処理装置（ＣＰＵ）、１０２は制御プログラムやデータを記憶するＲＯＭ、１０３は主記憶装置として機能するＲＡＭである。１０４はハードディスクドライブ等の外部記憶装置で、ここには、図１Ｂに示すように、本システムを動作させる上で必要なオペレーティングシステム（ＯＳ）、音声認識プログラム、画像ファイル、画像ファイル付加情報、内部テーブル、音響モデル、クリーン音響モデル、設定変数モデル、音声認識結果等が記録され保持される。本システムでは、ＲＯＭ１０２や外部記憶装置１０４に格納されたプログラムが、必要に応じてＲＡＭ１０３に読み込まれてＣＰＵ１０１によって実行される。

１０５は情報入力部で、画像ファイルや音声データなどを格納するフラッシュメモリなどからの入力を受けるための情報入力インターフェースを含む。

図１３に、画像ファイルや音声データなどを入力するための、音声認識システムと外部機器との接続態様の一例を示す。１３０１は外部機器としての撮影機器（例えばデジタルカメラ）を示しており、この撮影機器１３０１は画像の撮影および音声の記録を可能に構成されている。そうすると、この撮影機器１３０１は当然のことながら、音声を入力するためのマイクロホンを有する（図示は省略）。撮影機器１３０１は、撮影した画像情報に、関連する付属データを付与して、例えばＥｘｉｆファイル形式による画像ファイルを作成し、これを例えばフラッシュメモリカードに保存する。ここで付属データには撮影機器を特定する情報が含まれる他、音声データを含めることも可能である。そして、音声認識システム１は、情報入力部１０５の情報入力インターフェースを介してこの撮影機器１３０１と接続し、フラッシュメモリカードに保存された画像ファイルを取得する。この情報入力インターフェースは、ＵＳＢなどの有線インターフェースで構成してもよいし、ブルートゥース、無線ＬＡＮなどの無線インターフェースで構成してもよい。さらにこの情報入力部１０５は、画像ファイルや音声データなどをインターネットを介して入力するためのネットワークインターフェースを含んでいてもよい。情報入力部１０５より入力されたデータは外部記憶装置１０４に保持され、制御プログラムによりＲＡＭ１０３に適時読み込まれ処理される。

１０６は出力結果等を表示する情報表示部、１０７は上記の各部を接続するバスである。

本発明の実施形態に係るシステムの構成は概ね上記のとおりである。以下、この構成に基づいて、さまざまな態様の実施形態を説明する。

（実施形態１）
本実施形態における音声認識システムは、撮影機器の種類に応じた複数の音響モデルを備える。各音響モデルは、対応する撮影機器を用いて記録された多数の音声データに基づいて作成されたものである。すなわち、各音響モデルは、対応する撮影機器の音声入力デバイスの特性を反映したモデルであると言える。そして、この音声認識システムは、撮影機器を特定する情報としての撮影機器固有の情報と音声データとを付属情報（付加情報）とする画像ファイルを取り込み、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報に基づいて上記複数の音響モデルから一の音響モデルを選択することにより音響モデルを適応させた後、音声認識を行う。図２はこのような処理を実現する音声認識プログラムのモジュール構成を示すブロック図である。

情報保持モジュール２０１は、情報入力部１０５を介して音声データなどが付属された画像ファイルを入力し外部記憶装置１０４に保存する。音響モデル判定モジュール２０２は、取り込んだ画像ファイルに付属する撮影機器固有の情報を読み取り、撮影機器に付属するマイクロホン特性等を反映した音響モデルを判別する。音響モデル適応モジュール２０３は、判別された音響モデルの適応処理を行う。そして、音声認識モジュール２０４は、適応化された音響モデルを用いて音声認識を行い、その認識結果を出力する。

図３は画像ファイルの構成例を示す模式図である。画像ファイル３０１は、画像情報３０２と付加情報３０３を含んだファイル形式で保存される。付加情報３０３には、撮影機器固有の情報や撮影環境状態そして撮影日時などを示す情報などが含まれ、撮影機器により付与され画像ファイルに保持される。

図４は音響モデル判定モジュール２０２において使用される内部テーブルの構造例を示す図である。４０１〜４０３は撮影機器を特定する情報であり、具体的には、４０１は撮影機器ＩＤ、４０２は撮影機器の固有名称、４０３は製造ロット番号である。また、４０４は音響モデル名を示している。製造ロット番号は製造機種すべてに対応付けるわけではなく、撮影機器が同機種において製造年月日で撮影機器の録音状態が変化している場合に使用する。

図５は本実施形態における音響モデル適応処理を示すフローチャートである。

まず、ステップＳ５０１において、情報保持モジュール２０１を実行することにより、情報入力部１０５から入力され外部記憶装置１０４に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ＩＤ４０１、撮影機器名４０２、製造ロット番号４０３などの撮影機器固有の情報を取得する。次に、ステップＳ５０２において、音響モデル判定モジュール２０２を実行することにより、ステップＳ５０１で得られた撮影機器固有の情報を検索語として、外部記憶装置１０４に記憶されている内部テーブルを参照し、そのテーブル内にその撮影機器固有の情報があるか否かを確認する。内部テーブルにその機器固有の情報がある場合は、それに対応する音響モデル名を選択してステップＳ５０３へ進む。ステップＳ５０３では、音響モデル適応モジュール２０３を実行することにより、ステップＳ５０２で選択した音響モデルを外部記憶装置１０４から読出し、ＲＡＭ１０３に展開する。そしてステップＳ５０４へ進み、音声認識モジュール２０４を実行することにより、音響モデルの変化に伴う変数の書き換えを行った後、音声認識を行う。

このように、本実施形態によれば、あらかじめ用意した複数の音響モデルから、撮影機器を特定する情報に対応する音響モデルが選択され、その音響モデルを用いて、画像ファイルに含まれる音声データに対する音声認識が実行される。選択された音響モデルは、その撮影機器の音声入力デバイスの特性を反映したモデルとなっているから、例えば認識率を向上させることができる。

（実施形態２）
上述の実施形態１は、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在する場合に有効であるが、そうでない場合には有効に機能しない。そこで、本実施形態では、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在しない場合には通信ネットワークを経由して、撮影機器固有の情報に対応する音響モデルを取得する手法を示す。

図６は本実施形態における音響モデル適応処理を示すフローチャートである。

まず、ステップＳ６０１において、情報保持モジュール２０１を実行することにより、情報入力部１０５から入力され外部記憶装置１０４に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ＩＤ４０１、撮影機器名４０２、製造ロット番号４０３などの撮影機器固有の情報を取得する。次に、ステップＳ６０２において、音響モデル判別モジュール２０２を実行することにより、ステップＳ６０１で取得した撮影機器固有の情報が内部テーブルに存在するか否かを判定する。ここで、撮影機器固有の情報が内部テーブルに存在しない場合は、ステップＳ６０３に進み、撮影機器固有の情報が内部テーブルに存在する場合は、ステップＳ６０４に進む。ステップＳ６０４は実施形態１におけるステップＳ５０２およびＳ５０３と同様の処理であるので説明を省略する。

ステップＳ６０３では、音響モデル適応モジュール２０３を実行することにより、ネットワークを介して所定のサーバーサイトに接続する。接続先のサーバーサイトでは各種撮影機器に依存した音響モデルと図４で示す内部テーブルと同様のテーブル構成を持つ参照用のテーブルを保持しており、テーブルは音響モデルとともにサイト管理者が管理することで最新の状態に保持されているものとする。以下、このように通信ネットワークサイトに存在するテーブルを外部テーブルと呼ぶことにする。そして、ステップＳ６０１で取得した撮影機器固有情報を検索語として外部テーブルを検索する。

このステップＳ６０３において、外部テーブルを参照した結果、前記検索語に該当する情報が存在した場合は、ステップＳ６０５において、その検索語に対応する音響モデルを同サイトからダウンロードし、外部記憶装置１０４に記録するとともに内部テーブル図４に新規音響モデルを反映してテーブルの更新を行い、取得した音響モデルをＲＡＭ１０３に展開する。そして、ステップＳ６０６において、音響モデルの変化に伴う変数の書き換えを行った後、音声認識モジュール２０４を実行することで音声認識を行う。

このように、本実施形態によれば、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在しない場合には、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルが取得され、この音響モデルに基づいて音声認識が実行されるので、これにより音声認識性能を向上させることができる。

（実施形態３）
上述の実施形態１、２ではともに撮影機器固有の情報を検索対象としてテーブルを参照し、該当する音響モデルが存在することを前提に処理が進むが、本実施形態では内部外部ともにテーブル内に該当する音響モデルが存在しない場合などに、画像ファイルに付属する撮影機器固有の情報から、撮影機器固有の雑音に関する特徴量であるケプストラム平均を取得し、入力音声データの分析特徴量に機器固有のケプストラム平均を適応させて音声認識を行う手法を示す。なお、本実施形態は機器固有のケプストラム平均に関してのものであるが、決してこれに限るものではなく、機器固有の内部雑音に関する場合などは、機器固有の内部雑音に関するスペクトルサブトラクションを入力音声データの分析特徴量に適用してその後に音声認識を行うことも含む。

本実施形態では、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報から撮影機器固有のケプストラム平均を取得し、環境非依存の音響モデル（例えばクリーン環境における音声データに基づき作成された音響モデル）に撮影機器固有のケプストラム平均を用いて音響モデルの適応を行い、音声認識を行う。図７は、本実施形態における音声認識プログラムのモジュール構成を示すブロック図である。

情報保持モジュール７０１は、情報入力部１０５を介して音声データなどが付属された画像ファイルを入力し外部記憶装置１０４に保存する。音響モデル適応モジュール７０２は、取り込まれた画像ファイルに付属した撮影機器固有の情報から撮影機器固有のケプストラム平均を取得し、環境に依存しない音響モデルと取得したケプストラム平均を使用して音響モデルの適応化処理を行う。そして、音声認識モジュール７０３は、適応化された音響モデルを用いて音声認識を行い、その認識結果を出力する。

図８は音響モデル適応モジュール７０２において使用される内部テーブルの構造例を示す図である。８０１は撮影機器ＩＤ、８０２は撮影機器の固有名称、８０３は製造ロット番号、８０４は撮影機器固有のケプストラム平均値を示している。製造ロット番号は、同機種において製造年月日で撮影機器の録音状態が変化している場合に使用する。ケプストラム平均８０４は撮影機器固有の値で、事前に多くのデータを使って算出できるものである。

図９は本実施形態における音響モデル適応処理を示すフローチャートである。

まず、ステップＳ９０１において、情報保持モジュール７０１を実行することにより、情報入力部１０５から入力され外部記憶装置１０４に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ＩＤ８０１、撮影機器名８０２、製造ロット番号８０３などの撮影機器を特定する撮影機器固有の情報を取得する。次に、ステップＳ９０２において、音響モデル適応モジュール７０２を実行することにより、ステップＳ５０１で読み出した撮影機器固有の付属情報からケプストラム平均を取得しＲＡＭ１０３に展開する。撮影機器固有のケプストラム平均を取得する方法としては、図８に示したような内部テーブルを参照する方法や、画像ファイルの付属情報として直接画像ファイルから取得する方法、撮影機器本体と直接接続して取得する方法、通信ネットワーク上の特定のサイトに接続して実施形態２と同様に外部テーブルを参照する方法などがある。

続いて、ステップＳ９０３において、外部記憶装置１０４が保持するクリーン音響モデルをＲＡＭ１０３に展開する。ここでクリーン音響モデルとは、録音機器の条件に全く依存しないように作られた音響モデルのことであり、乗算性の雑音を限りなく少なくした学習データセットを使って作成する音響モデルのことを指す。

そして、ステップＳ９０４において、ステップＳ９０２で取得した機器固有のケプストラム平均とステップＳ９０３で取得したクリーン音響モデルを使ってＣＭＳ（Cepstrum Mean Subtraction）を行うことで音響モデルの適応化を行い、音声認識モジュール７０３を実行することにより、適応化された音響モデルを用いて音声認識を行う。

このように、本実施形態によれば、撮影機器を特定する情報に対応したケプストラム平均が選択され、これを用いてＣＭＳなどの音響モデル適応化処理がなされる。この適応化された音響モデルは、その撮影機器による音声入力環境が反映されたものとなっているから、これにより音声認識性能を向上させることができる。

（実施形態４）
上述の各実施形態では音声入力の際に個々の撮影機器が持つ固有の回線特性（乗算性雑音）を考慮して、音響モデルを変えて音声認識を行う方法を述べてきたが、本実施形態では撮影機器固有の情報から撮影機器の周囲に存在する環境音（加算性雑音）を考慮して音声認識処理の変数を環境に適応させ、音声認識を行う方法について説明する。

本実施形態では、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報を入力値として、ニューラルネットで学習した設定変更モデルを用いて音声認識装置の設定変更を行い、音声認識を行う。図１０は、本実施形態における音声認識プログラムのモジュール構成を示すブロック図である。

情報保持モジュール１００１は、情報入力部１０５を介して音声データなどが付属された画像ファイルを入力し外部記憶装置１０４に保存する。設定変数取得モジュール１００２は、取り込んだ画像ファイルに付属した撮影機器固有の情報を入力値として、あらかじめ与えられている設定変数モデルに入力値を適応させることで、音声認識装置の設定変更に関する出力値を得る。設定変更モジュール１００３は、得られた設定変更値にしたがい音声認識装置の設定変更を行う。音声認識モジュール１００４は、音声認識処理を行いその認識結果を出力する。

図１１は、設定変数取得モジュール１００３において設定変数モデルを用いて設定変数値を得るためのモジュール構成を示す図である。

１１０１は撮影機器固有の付加情報から得られる入力値で、露出時間や焦点距離やストロボ発光の有無などが具体的な入力値となる。１１０２は設定変数モデルを示し、あらかじめ多くの学習データを使い作成したニューラルネットワークによるモデルであり、設定変数ひとつに対して一つのモデルが存在する。ここで使用するニューラルネットワークによるモデルは、機器固有の情報を基に実験的に最も良い音声認識結果を得る閾値を出力値として学習を行って得たモデルである。１１０３は入力値と設定変数モデルによって得られる出力値で音声認識の性能を決める設定変数である。

図１２は本実施形態における音声認識システムの設定変更処理を示すフローチャートである。

まず、ステップＳ１２０１において、情報保持モジュール１００１を実行することにより、情報入力部１０５から入力され外部記憶装置１０４に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から撮影機器固有の情報を取得する。次に、ステップＳ１２０２において、設定変数取得モジュール１００２を実行することにより、撮影機器固有の情報から音声認識の性能を決める設定変数を取得する。具体的には例えば、その画像の撮影に係る“露出時間（シャッタースピード）”、“焦点距離”、“ストロボ発光の有無”の少なくともいずれかを含む付属情報を、事前に学習されたニューラルネットワークモデルの入力値としてそれらに対応した出力値を得る。ここで得る出力値は例えば、音声区間を検出するために使用するＶＡＤ（Voice Activity Detection）の閾値である。

ここで、上記のような付属情報とＶＡＤとの間の関係について説明しておく。ＶＡＤの閾値は背景雑音の大きさに依存して決定されることが望ましい。さまざまな要因によって変動する背景雑音の大きさを精度よく推定することは容易なことではないが、背景雑音の大きさは例えば、その環境が屋内か屋外かによって大きく異なることが考えられる。そこでここでは、画像の撮影に係る“露出時間（シャッタースピード）”、“焦点距離”、“ストロボ発光の有無”といったパラメータを用いて、認識する音声データの環境が屋外であるか屋内であるかを推定し、その推定に応じてＶＡＤの閾値を決定することを考える。

例えば、露出時間が短い場合は、一般にその撮影環境が非常に明るいと考えられ、その撮影環境は屋外であると推定することができる。また、被写体までの焦点距離が長い場合も、その撮影環境の多くが屋外であると推定することができる。このようにして屋外であると推定した場合は、周囲の雑音の種類を考えて音声区間の検出感度が鈍くなるように、ＶＡＤの閾値を比較的大きな値に設定する。逆に、露出時間が長い場合は、一般にその撮影環境が暗いと考えられ、その撮影環境は屋内であると推定することが可能である。また、ストロボ発光した場合は通常、撮影環境が屋内であると推定することができる。このようにして屋内であると推定した場合は、音声区間の検出感度が鋭くなるようにＶＡＤの閾値を低い値に設定する。

なお、このように撮影環境による最適なＶＡＤの閾値を決定するためには、あらかじめ大量の音声付画像データを学習データとして用いてニューラルネットワークによるモデルを作成し、このモデル用いて、画像の付加情報からＶＡＤの閾値を決定する方法が効果的である。

以上のようにしてＶＡＤの閾値を調整することで、音声区間をより正確に特定でき認識率の向上が見込まれる。次に、ステップＳ１２０３において、設定変更モジュール１００３を実行することにより、ステップＳ１２０２で得た設定変数値を音声認識に適用する。これにより、音声認識モジュール１００４は、ステップＳ１２０３で適用された設定変数値を用いて音声認識を行うことになる。

このように、本実施形態によれば、音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う際に、入力した画像ファイルの付属情報（例えば、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無など）に基づいて音声認識に係る所定の変数（例えば、ＶＡＤの閾値など）を設定し、その設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理が行われる。これにより音声認識性能を向上させることが可能になる。

（その他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによって目的が達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の実施形態における音声認識システムの構成を示すブロック図である。外部記憶装置の記憶内容の例を示す模式図である。実施形態１における音声認識プログラムのモジュール構成を示すブロック図である。画像ファイルの構成例を示す模式図である。実施形態１における音響モデル判定モジュールで使用される内部テーブルの構造例を示す図である。実施形態１における音響モデル適応処理を示すフローチャートである。実施形態２における音響モデル適応処理を示すフローチャートである。実施形態３における音声認識プログラムのモジュール構成を示すブロック図である。実施形態３における音響モデル適応モジュールで使用される内部テーブルの構造例を示す図である。実施形態３における音響モデル適応処理を示すフローチャートである。実施形態４における音声認識プログラムのモジュール構成を示すブロック図である。実施形態４における、設定変数モデルを用いて設定変数値を得るためのモジュール構成を示す図である。実施形態４における音声認識システムの設定変更処理を示すフローチャートである。実施形態における音声認識システムと外部機器との接続態様の一例を示す図である。

Claims

画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
複数の音響モデルと、撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルとを記憶する記憶手段と、
前記テーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを前記複数の音響モデルから選択する選択手段と、
前記選択手段により選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。
入力した画像ファイルに含まれる撮影機器を特定する情報が前記テーブルにない場合に、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルを取得する取得手段を更に有することを特徴とする請求項１に記載の音声認識装置。
画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを、あらかじめメモリに記憶しておいた複数の音響モデルから選択する選択ステップと、
前記選択ステップで選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。
入力した画像ファイルに含まれる撮影機器を特定する情報が前記テーブルにない場合に、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルを取得するステップを更に有することを特徴とする請求項３に記載の方法。
画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力する入力手段を有するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを、あらかじめメモリに記憶しておいた複数の音響モデルから選択する選択ステップのコードと、
選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。
請求項５に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
録音機器の条件に依存しないように作成された音響モデルと、撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルとを記憶する記憶手段と、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を前記テーブルから検索する検索手段と、
前記検索手段により検索されたケプストラム平均に基づいて、前記音響モデルを適応化する適応化手段と、
前記適応化手段により適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。
画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を、あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルから検索する検索ステップと、
前記検索ステップで検索されたケプストラム平均に基づいて、あらかじめメモリに記憶しておいた録音機器の条件に依存しないように作成された音響モデルを適応化する適応化ステップと、
前記適応化ステップで適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。
画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を、あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルから検索する検索ステップのコードと、
前記検索ステップで検索されたケプストラム平均に基づいて、あらかじめメモリに記憶しておいた録音機器の条件に依存しないように作成された音響モデルを適応化する適応化ステップのコードと、
前記適応化ステップで適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。
請求項９に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定手段と、
前記設定手段により設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。
前記画像ファイルの付属情報は前記音声データの他、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかを含み、
前記設定手段は、前記露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかに基づいて、音声認識に係る所定の変数を設定することを特徴とする請求項１１に記載の音声認識装置。
前記音声認識に係る所定の変数は、ＶＡＤ（Voice Activity Detection）の閾値であることを特徴とする請求項１１または１２に記載の音声認識装置。
音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定ステップと、
前記設定ステップで設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。
前記画像ファイルの付属情報は前記音声データの他、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかを含み、
前記設定ステップは、前記露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかに基づいて、音声認識に係る所定の変数を設定することを特徴とする請求項１４に記載の方法。
前記音声認識に係る所定の変数は、ＶＡＤ（Voice Activity Detection）の閾値であることを特徴とする請求項１４または１５に記載の方法。
音声データを付属情報に含む画像ファイルを入力する入力手段を有するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定ステップのコードと、
前記設定ステップで設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。
請求項１７に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。