JP2005181459A - 音声認識装置および方法 - Google Patents
音声認識装置および方法 Download PDFInfo
- Publication number
- JP2005181459A JP2005181459A JP2003418647A JP2003418647A JP2005181459A JP 2005181459 A JP2005181459 A JP 2005181459A JP 2003418647 A JP2003418647 A JP 2003418647A JP 2003418647 A JP2003418647 A JP 2003418647A JP 2005181459 A JP2005181459 A JP 2005181459A
- Authority
- JP
- Japan
- Prior art keywords
- image file
- information
- acoustic model
- recognition
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 マイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させること。
【解決手段】 撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより(S502)、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルをあらかじめ記憶している複数の音響モデルから選択し(S503,S504)、その選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
【選択図】 図5
【解決手段】 撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより(S502)、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルをあらかじめ記憶している複数の音響モデルから選択し(S503,S504)、その選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
【選択図】 図5
Description
本発明は、音声認識装置および方法に関し、特に、画像ファイルに含まれる音声データに対して音声認識を行う音声認識装置および方法に関する。
音声認識技術に対しては、さまざまな改良が提案されている(例えば、特許文献1,2を参照。)。また近年、撮影した画像に音声データのメモを付けたり、画像に付属した音声を音声認識してテキストに変換し画像にテキストメモを付けるなど、音声を使った様々な付加機能がデジタルカメラやカメラ付き携帯電話などの撮影機器に装備されてきており、音声を使った新機能開発が活発化してきている。また、現在デジタルカメラやカメラ付き携帯電話などのデジタル撮影機器で撮影される画像は業界標準としてExif形式で保存されているため、撮影機器固有もしくは撮影時の情報を画像ファイルから読み取ることができるようになっている。
デジタルカメラやカメラ付き携帯電話に内蔵されるマイクロホンは固有の特性を有しており、音声はマイクロホン固有の特性を含んで機器に取り込まれる。また、デジタルカメラやカメラ付き携帯電話は外出時に携帯し、不定常な環境下で使用されることから、撮影した画像に音声を付属する際、環境に依存した音声以外の環境音が入力されることが予想される。そうすると、音声認識機能を用いて画像に付属した音声をテキストに変換する場合には、このようなマイクロホン特性や環境音が音声認識性能を劣化させるという問題が生じる。
そこで、本発明は、こうしたマイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させることを目的とする。
本発明の一側面に係る音声認識装置及び方法は、複数の音響モデルと、撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルとをあらかじめメモリに記憶しておき、前記テーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを前記複数の音響モデルから選択し、その選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
また、本発明の別の側面に係る音声認識装置及び方法は、録音機器の条件に依存しないように作成された音響モデルと、撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルとをあらかじめメモリに記憶しておき、入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を前記テーブルから検索し、その検索されたケプストラム平均に基づいて、前記音響モデルを適応化し、その適応化された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
本発明の更に別の側面に係る音声認識装置及び方法は、入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定し、その設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う。
本発明によれば、マイクロホン特性や環境音などを考慮して、画像に関連付けられた音声データに対する音声認識の性能を向上させることができる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
図1Aは本発明の実施形態に係る音声認識システムの構成を示すブロック図である。図示のように音声認識システム1はCPU101、ROM102、RAM103等を備えており、かかる構成は典型的にはパーソナルコンピュータ等のコンピュータ装置で実現できるものである。もっとも、このような汎用コンピュータではなく、専用のハードウェアロジックにより構成してもよいことは言うまでもない。
101は本システム全体の制御を司る中央処理装置(CPU)、102は制御プログラムやデータを記憶するROM、103は主記憶装置として機能するRAMである。104はハードディスクドライブ等の外部記憶装置で、ここには、図1Bに示すように、本システムを動作させる上で必要なオペレーティングシステム(OS)、音声認識プログラム、画像ファイル、画像ファイル付加情報、内部テーブル、音響モデル、クリーン音響モデル、設定変数モデル、音声認識結果等が記録され保持される。本システムでは、ROM102や外部記憶装置104に格納されたプログラムが、必要に応じてRAM103に読み込まれてCPU101によって実行される。
105は情報入力部で、画像ファイルや音声データなどを格納するフラッシュメモリなどからの入力を受けるための情報入力インターフェースを含む。
図13に、画像ファイルや音声データなどを入力するための、音声認識システムと外部機器との接続態様の一例を示す。1301は外部機器としての撮影機器(例えばデジタルカメラ)を示しており、この撮影機器1301は画像の撮影および音声の記録を可能に構成されている。そうすると、この撮影機器1301は当然のことながら、音声を入力するためのマイクロホンを有する(図示は省略)。撮影機器1301は、撮影した画像情報に、関連する付属データを付与して、例えばExifファイル形式による画像ファイルを作成し、これを例えばフラッシュメモリカードに保存する。ここで付属データには撮影機器を特定する情報が含まれる他、音声データを含めることも可能である。そして、音声認識システム1は、情報入力部105の情報入力インターフェースを介してこの撮影機器1301と接続し、フラッシュメモリカードに保存された画像ファイルを取得する。この情報入力インターフェースは、USBなどの有線インターフェースで構成してもよいし、ブルートゥース、無線LANなどの無線インターフェースで構成してもよい。さらにこの情報入力部105は、画像ファイルや音声データなどをインターネットを介して入力するためのネットワークインターフェースを含んでいてもよい。情報入力部105より入力されたデータは外部記憶装置104に保持され、制御プログラムによりRAM103に適時読み込まれ処理される。
106は出力結果等を表示する情報表示部、107は上記の各部を接続するバスである。
本発明の実施形態に係るシステムの構成は概ね上記のとおりである。以下、この構成に基づいて、さまざまな態様の実施形態を説明する。
(実施形態1)
本実施形態における音声認識システムは、撮影機器の種類に応じた複数の音響モデルを備える。各音響モデルは、対応する撮影機器を用いて記録された多数の音声データに基づいて作成されたものである。すなわち、各音響モデルは、対応する撮影機器の音声入力デバイスの特性を反映したモデルであると言える。そして、この音声認識システムは、撮影機器を特定する情報としての撮影機器固有の情報と音声データとを付属情報(付加情報)とする画像ファイルを取り込み、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報に基づいて上記複数の音響モデルから一の音響モデルを選択することにより音響モデルを適応させた後、音声認識を行う。図2はこのような処理を実現する音声認識プログラムのモジュール構成を示すブロック図である。
本実施形態における音声認識システムは、撮影機器の種類に応じた複数の音響モデルを備える。各音響モデルは、対応する撮影機器を用いて記録された多数の音声データに基づいて作成されたものである。すなわち、各音響モデルは、対応する撮影機器の音声入力デバイスの特性を反映したモデルであると言える。そして、この音声認識システムは、撮影機器を特定する情報としての撮影機器固有の情報と音声データとを付属情報(付加情報)とする画像ファイルを取り込み、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報に基づいて上記複数の音響モデルから一の音響モデルを選択することにより音響モデルを適応させた後、音声認識を行う。図2はこのような処理を実現する音声認識プログラムのモジュール構成を示すブロック図である。
情報保持モジュール201は、情報入力部105を介して音声データなどが付属された画像ファイルを入力し外部記憶装置104に保存する。音響モデル判定モジュール202は、取り込んだ画像ファイルに付属する撮影機器固有の情報を読み取り、撮影機器に付属するマイクロホン特性等を反映した音響モデルを判別する。音響モデル適応モジュール203は、判別された音響モデルの適応処理を行う。そして、音声認識モジュール204は、適応化された音響モデルを用いて音声認識を行い、その認識結果を出力する。
図3は画像ファイルの構成例を示す模式図である。画像ファイル301は、画像情報302と付加情報303を含んだファイル形式で保存される。付加情報303には、撮影機器固有の情報や撮影環境状態そして撮影日時などを示す情報などが含まれ、撮影機器により付与され画像ファイルに保持される。
図4は音響モデル判定モジュール202において使用される内部テーブルの構造例を示す図である。401〜403は撮影機器を特定する情報であり、具体的には、401は撮影機器ID、402は撮影機器の固有名称、403は製造ロット番号である。また、404は音響モデル名を示している。製造ロット番号は製造機種すべてに対応付けるわけではなく、撮影機器が同機種において製造年月日で撮影機器の録音状態が変化している場合に使用する。
図5は本実施形態における音響モデル適応処理を示すフローチャートである。
まず、ステップS501において、情報保持モジュール201を実行することにより、情報入力部105から入力され外部記憶装置104に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ID401、撮影機器名402、製造ロット番号403などの撮影機器固有の情報を取得する。次に、ステップS502において、音響モデル判定モジュール202を実行することにより、ステップS501で得られた撮影機器固有の情報を検索語として、外部記憶装置104に記憶されている内部テーブルを参照し、そのテーブル内にその撮影機器固有の情報があるか否かを確認する。内部テーブルにその機器固有の情報がある場合は、それに対応する音響モデル名を選択してステップS503へ進む。ステップS503では、音響モデル適応モジュール203を実行することにより、ステップS502で選択した音響モデルを外部記憶装置104から読出し、RAM103に展開する。そしてステップS504へ進み、音声認識モジュール204を実行することにより、音響モデルの変化に伴う変数の書き換えを行った後、音声認識を行う。
このように、本実施形態によれば、あらかじめ用意した複数の音響モデルから、撮影機器を特定する情報に対応する音響モデルが選択され、その音響モデルを用いて、画像ファイルに含まれる音声データに対する音声認識が実行される。選択された音響モデルは、その撮影機器の音声入力デバイスの特性を反映したモデルとなっているから、例えば認識率を向上させることができる。
(実施形態2)
上述の実施形態1は、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在する場合に有効であるが、そうでない場合には有効に機能しない。そこで、本実施形態では、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在しない場合には通信ネットワークを経由して、撮影機器固有の情報に対応する音響モデルを取得する手法を示す。
上述の実施形態1は、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在する場合に有効であるが、そうでない場合には有効に機能しない。そこで、本実施形態では、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在しない場合には通信ネットワークを経由して、撮影機器固有の情報に対応する音響モデルを取得する手法を示す。
図6は本実施形態における音響モデル適応処理を示すフローチャートである。
まず、ステップS601において、情報保持モジュール201を実行することにより、情報入力部105から入力され外部記憶装置104に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ID401、撮影機器名402、製造ロット番号403などの撮影機器固有の情報を取得する。次に、ステップS602において、音響モデル判別モジュール202を実行することにより、ステップS601で取得した撮影機器固有の情報が内部テーブルに存在するか否かを判定する。ここで、撮影機器固有の情報が内部テーブルに存在しない場合は、ステップS603に進み、撮影機器固有の情報が内部テーブルに存在する場合は、ステップS604に進む。ステップS604は実施形態1におけるステップS502およびS503と同様の処理であるので説明を省略する。
ステップS603では、音響モデル適応モジュール203を実行することにより、ネットワークを介して所定のサーバーサイトに接続する。接続先のサーバーサイトでは各種撮影機器に依存した音響モデルと図4で示す内部テーブルと同様のテーブル構成を持つ参照用のテーブルを保持しており、テーブルは音響モデルとともにサイト管理者が管理することで最新の状態に保持されているものとする。以下、このように通信ネットワークサイトに存在するテーブルを外部テーブルと呼ぶことにする。そして、ステップS601で取得した撮影機器固有情報を検索語として外部テーブルを検索する。
このステップS603において、外部テーブルを参照した結果、前記検索語に該当する情報が存在した場合は、ステップS605において、その検索語に対応する音響モデルを同サイトからダウンロードし、外部記憶装置104に記録するとともに内部テーブル図4に新規音響モデルを反映してテーブルの更新を行い、取得した音響モデルをRAM103に展開する。そして、ステップS606において、音響モデルの変化に伴う変数の書き換えを行った後、音声認識モジュール204を実行することで音声認識を行う。
このように、本実施形態によれば、撮影機器固有の情報に対応する音響モデルが音声認識システム内に存在しない場合には、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルが取得され、この音響モデルに基づいて音声認識が実行されるので、これにより音声認識性能を向上させることができる。
(実施形態3)
上述の実施形態1、2ではともに撮影機器固有の情報を検索対象としてテーブルを参照し、該当する音響モデルが存在することを前提に処理が進むが、本実施形態では内部外部ともにテーブル内に該当する音響モデルが存在しない場合などに、画像ファイルに付属する撮影機器固有の情報から、撮影機器固有の雑音に関する特徴量であるケプストラム平均を取得し、入力音声データの分析特徴量に機器固有のケプストラム平均を適応させて音声認識を行う手法を示す。なお、本実施形態は機器固有のケプストラム平均に関してのものであるが、決してこれに限るものではなく、機器固有の内部雑音に関する場合などは、機器固有の内部雑音に関するスペクトルサブトラクションを入力音声データの分析特徴量に適用してその後に音声認識を行うことも含む。
上述の実施形態1、2ではともに撮影機器固有の情報を検索対象としてテーブルを参照し、該当する音響モデルが存在することを前提に処理が進むが、本実施形態では内部外部ともにテーブル内に該当する音響モデルが存在しない場合などに、画像ファイルに付属する撮影機器固有の情報から、撮影機器固有の雑音に関する特徴量であるケプストラム平均を取得し、入力音声データの分析特徴量に機器固有のケプストラム平均を適応させて音声認識を行う手法を示す。なお、本実施形態は機器固有のケプストラム平均に関してのものであるが、決してこれに限るものではなく、機器固有の内部雑音に関する場合などは、機器固有の内部雑音に関するスペクトルサブトラクションを入力音声データの分析特徴量に適用してその後に音声認識を行うことも含む。
本実施形態では、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報から撮影機器固有のケプストラム平均を取得し、環境非依存の音響モデル(例えばクリーン環境における音声データに基づき作成された音響モデル)に撮影機器固有のケプストラム平均を用いて音響モデルの適応を行い、音声認識を行う。図7は、本実施形態における音声認識プログラムのモジュール構成を示すブロック図である。
情報保持モジュール701は、情報入力部105を介して音声データなどが付属された画像ファイルを入力し外部記憶装置104に保存する。音響モデル適応モジュール702は、取り込まれた画像ファイルに付属した撮影機器固有の情報から撮影機器固有のケプストラム平均を取得し、環境に依存しない音響モデルと取得したケプストラム平均を使用して音響モデルの適応化処理を行う。そして、音声認識モジュール703は、適応化された音響モデルを用いて音声認識を行い、その認識結果を出力する。
図8は音響モデル適応モジュール702において使用される内部テーブルの構造例を示す図である。801は撮影機器ID、802は撮影機器の固有名称、803は製造ロット番号、804は撮影機器固有のケプストラム平均値を示している。製造ロット番号は、同機種において製造年月日で撮影機器の録音状態が変化している場合に使用する。ケプストラム平均804は撮影機器固有の値で、事前に多くのデータを使って算出できるものである。
図9は本実施形態における音響モデル適応処理を示すフローチャートである。
まず、ステップS901において、情報保持モジュール701を実行することにより、情報入力部105から入力され外部記憶装置104に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から機器ID801、撮影機器名802、製造ロット番号803などの撮影機器を特定する撮影機器固有の情報を取得する。次に、ステップS902において、音響モデル適応モジュール702を実行することにより、ステップS501で読み出した撮影機器固有の付属情報からケプストラム平均を取得しRAM103に展開する。撮影機器固有のケプストラム平均を取得する方法としては、図8に示したような内部テーブルを参照する方法や、画像ファイルの付属情報として直接画像ファイルから取得する方法、撮影機器本体と直接接続して取得する方法、通信ネットワーク上の特定のサイトに接続して実施形態2と同様に外部テーブルを参照する方法などがある。
続いて、ステップS903において、外部記憶装置104が保持するクリーン音響モデルをRAM103に展開する。ここでクリーン音響モデルとは、録音機器の条件に全く依存しないように作られた音響モデルのことであり、乗算性の雑音を限りなく少なくした学習データセットを使って作成する音響モデルのことを指す。
そして、ステップS904において、ステップS902で取得した機器固有のケプストラム平均とステップS903で取得したクリーン音響モデルを使ってCMS(Cepstrum Mean Subtraction)を行うことで音響モデルの適応化を行い、音声認識モジュール703を実行することにより、適応化された音響モデルを用いて音声認識を行う。
このように、本実施形態によれば、撮影機器を特定する情報に対応したケプストラム平均が選択され、これを用いてCMSなどの音響モデル適応化処理がなされる。この適応化された音響モデルは、その撮影機器による音声入力環境が反映されたものとなっているから、これにより音声認識性能を向上させることができる。
(実施形態4)
上述の各実施形態では音声入力の際に個々の撮影機器が持つ固有の回線特性(乗算性雑音)を考慮して、音響モデルを変えて音声認識を行う方法を述べてきたが、本実施形態では撮影機器固有の情報から撮影機器の周囲に存在する環境音(加算性雑音)を考慮して音声認識処理の変数を環境に適応させ、音声認識を行う方法について説明する。
上述の各実施形態では音声入力の際に個々の撮影機器が持つ固有の回線特性(乗算性雑音)を考慮して、音響モデルを変えて音声認識を行う方法を述べてきたが、本実施形態では撮影機器固有の情報から撮影機器の周囲に存在する環境音(加算性雑音)を考慮して音声認識処理の変数を環境に適応させ、音声認識を行う方法について説明する。
本実施形態では、取り込んだ画像ファイルに付属する付加情報を読み取り、画像を撮影した撮影機器固有の情報を入力値として、ニューラルネットで学習した設定変更モデルを用いて音声認識装置の設定変更を行い、音声認識を行う。図10は、本実施形態における音声認識プログラムのモジュール構成を示すブロック図である。
情報保持モジュール1001は、情報入力部105を介して音声データなどが付属された画像ファイルを入力し外部記憶装置104に保存する。設定変数取得モジュール1002は、取り込んだ画像ファイルに付属した撮影機器固有の情報を入力値として、あらかじめ与えられている設定変数モデルに入力値を適応させることで、音声認識装置の設定変更に関する出力値を得る。設定変更モジュール1003は、得られた設定変更値にしたがい音声認識装置の設定変更を行う。音声認識モジュール1004は、音声認識処理を行いその認識結果を出力する。
図11は、設定変数取得モジュール1003において設定変数モデルを用いて設定変数値を得るためのモジュール構成を示す図である。
1101は撮影機器固有の付加情報から得られる入力値で、露出時間や焦点距離やストロボ発光の有無などが具体的な入力値となる。1102は設定変数モデルを示し、あらかじめ多くの学習データを使い作成したニューラルネットワークによるモデルであり、設定変数ひとつに対して一つのモデルが存在する。ここで使用するニューラルネットワークによるモデルは、機器固有の情報を基に実験的に最も良い音声認識結果を得る閾値を出力値として学習を行って得たモデルである。1103は入力値と設定変数モデルによって得られる出力値で音声認識の性能を決める設定変数である。
図12は本実施形態における音声認識システムの設定変更処理を示すフローチャートである。
まず、ステップS1201において、情報保持モジュール1001を実行することにより、情報入力部105から入力され外部記憶装置104に記録された画像ファイルを読み込み、その画像ファイルに含まれる付加情報から撮影機器固有の情報を取得する。次に、ステップS1202において、設定変数取得モジュール1002を実行することにより、撮影機器固有の情報から音声認識の性能を決める設定変数を取得する。具体的には例えば、その画像の撮影に係る“露出時間(シャッタースピード)”、“焦点距離”、“ストロボ発光の有無”の少なくともいずれかを含む付属情報を、事前に学習されたニューラルネットワークモデルの入力値としてそれらに対応した出力値を得る。ここで得る出力値は例えば、音声区間を検出するために使用するVAD(Voice Activity Detection)の閾値である。
ここで、上記のような付属情報とVADとの間の関係について説明しておく。VADの閾値は背景雑音の大きさに依存して決定されることが望ましい。さまざまな要因によって変動する背景雑音の大きさを精度よく推定することは容易なことではないが、背景雑音の大きさは例えば、その環境が屋内か屋外かによって大きく異なることが考えられる。そこでここでは、画像の撮影に係る“露出時間(シャッタースピード)”、“焦点距離”、“ストロボ発光の有無”といったパラメータを用いて、認識する音声データの環境が屋外であるか屋内であるかを推定し、その推定に応じてVADの閾値を決定することを考える。
例えば、露出時間が短い場合は、一般にその撮影環境が非常に明るいと考えられ、その撮影環境は屋外であると推定することができる。また、被写体までの焦点距離が長い場合も、その撮影環境の多くが屋外であると推定することができる。このようにして屋外であると推定した場合は、周囲の雑音の種類を考えて音声区間の検出感度が鈍くなるように、VADの閾値を比較的大きな値に設定する。逆に、露出時間が長い場合は、一般にその撮影環境が暗いと考えられ、その撮影環境は屋内であると推定することが可能である。また、ストロボ発光した場合は通常、撮影環境が屋内であると推定することができる。このようにして屋内であると推定した場合は、音声区間の検出感度が鋭くなるようにVADの閾値を低い値に設定する。
なお、このように撮影環境による最適なVADの閾値を決定するためには、あらかじめ大量の音声付画像データを学習データとして用いてニューラルネットワークによるモデルを作成し、このモデル用いて、画像の付加情報からVADの閾値を決定する方法が効果的である。
以上のようにしてVADの閾値を調整することで、音声区間をより正確に特定でき認識率の向上が見込まれる。次に、ステップS1203において、設定変更モジュール1003を実行することにより、ステップS1202で得た設定変数値を音声認識に適用する。これにより、音声認識モジュール1004は、ステップS1203で適用された設定変数値を用いて音声認識を行うことになる。
このように、本実施形態によれば、音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う際に、入力した画像ファイルの付属情報(例えば、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無など)に基づいて音声認識に係る所定の変数(例えば、VADの閾値など)を設定し、その設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理が行われる。これにより音声認識性能を向上させることが可能になる。
(その他の実施形態)
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによって目的が達成される場合を含む。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
Claims (18)
- 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
複数の音響モデルと、撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルとを記憶する記憶手段と、
前記テーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを前記複数の音響モデルから選択する選択手段と、
前記選択手段により選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。 - 入力した画像ファイルに含まれる撮影機器を特定する情報が前記テーブルにない場合に、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルを取得する取得手段を更に有することを特徴とする請求項1に記載の音声認識装置。
- 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを、あらかじめメモリに記憶しておいた複数の音響モデルから選択する選択ステップと、
前記選択ステップで選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。 - 入力した画像ファイルに含まれる撮影機器を特定する情報が前記テーブルにない場合に、ネットワークを介して外部のサーバーからその撮影機器に対応する音響モデルを取得するステップを更に有することを特徴とする請求項3に記載の方法。
- 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力する入力手段を有するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応する音響モデルを特定する情報を記述したテーブルを参照することにより、入力した画像ファイルに含まれる撮影機器を特定する情報に対応する音響モデルを、あらかじめメモリに記憶しておいた複数の音響モデルから選択する選択ステップのコードと、
選択された音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。 - 請求項5に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
- 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
録音機器の条件に依存しないように作成された音響モデルと、撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルとを記憶する記憶手段と、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を前記テーブルから検索する検索手段と、
前記検索手段により検索されたケプストラム平均に基づいて、前記音響モデルを適応化する適応化手段と、
前記適応化手段により適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。 - 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を、あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルから検索する検索ステップと、
前記検索ステップで検索されたケプストラム平均に基づいて、あらかじめメモリに記憶しておいた録音機器の条件に依存しないように作成された音響モデルを適応化する適応化ステップと、
前記適応化ステップで適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。 - 画像の撮影および音声の記録を可能に構成された撮影機器から、その撮影機器を特定する情報と音声データとを付属情報に含む画像ファイルを入力するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
入力した画像ファイルに含まれる撮影機器を特定する情報に対応するケプストラム平均を、あらかじめメモリに記憶しておいた撮影機器を特定する情報およびそれに対応するケプストラム平均を記述したテーブルから検索する検索ステップのコードと、
前記検索ステップで検索されたケプストラム平均に基づいて、あらかじめメモリに記憶しておいた録音機器の条件に依存しないように作成された音響モデルを適応化する適応化ステップのコードと、
前記適応化ステップで適応化された前記音響モデルに基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。 - 請求項9に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
- 音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う音声認識装置であって、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定手段と、
前記設定手段により設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識手段と、
を有することを特徴とする音声認識装置。 - 前記画像ファイルの付属情報は前記音声データの他、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかを含み、
前記設定手段は、前記露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかに基づいて、音声認識に係る所定の変数を設定することを特徴とする請求項11に記載の音声認識装置。 - 前記音声認識に係る所定の変数は、VAD(Voice Activity Detection)の閾値であることを特徴とする請求項11または12に記載の音声認識装置。
- 音声データを付属情報に含む画像ファイルを入力し、その画像ファイルに含まれる音声データに対し音声認識を行う方法であって、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定ステップと、
前記設定ステップで設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップと、
を有することを特徴とする方法。 - 前記画像ファイルの付属情報は前記音声データの他、その画像の撮影に係る露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかを含み、
前記設定ステップは、前記露出時間、焦点距離、ストロボ発光の有無、の少なくともいずれかに基づいて、音声認識に係る所定の変数を設定することを特徴とする請求項14に記載の方法。 - 前記音声認識に係る所定の変数は、VAD(Voice Activity Detection)の閾値であることを特徴とする請求項14または15に記載の方法。
- 音声データを付属情報に含む画像ファイルを入力する入力手段を有するコンピュータが実行可能なプログラムであって、その画像ファイルに含まれる音声データに対し音声認識を行うために、
入力した画像ファイルの付属情報に基づいて音声認識に係る所定の変数を設定する設定ステップのコードと、
前記設定ステップで設定された所定の変数に基づいて、入力した画像ファイルに含まれる音声データに対し音声認識処理を行う認識ステップのコードと、
を含むことを特徴とするプログラム。 - 請求項17に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418647A JP2005181459A (ja) | 2003-12-16 | 2003-12-16 | 音声認識装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003418647A JP2005181459A (ja) | 2003-12-16 | 2003-12-16 | 音声認識装置および方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005181459A true JP2005181459A (ja) | 2005-07-07 |
Family
ID=34780807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003418647A Withdrawn JP2005181459A (ja) | 2003-12-16 | 2003-12-16 | 音声認識装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005181459A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014108981A1 (ja) * | 2013-01-09 | 2014-07-17 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
-
2003
- 2003-12-16 JP JP2003418647A patent/JP2005181459A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
WO2014108981A1 (ja) * | 2013-01-09 | 2014-07-17 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
CN110556097A (zh) * | 2018-06-01 | 2019-12-10 | 声音猎手公司 | 定制声学模型 |
JP2019211752A (ja) * | 2018-06-01 | 2019-12-12 | サウンドハウンド,インコーポレイテッド | カスタム音響モデル |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
US11367448B2 (en) | 2018-06-01 | 2022-06-21 | Soundhound, Inc. | Providing a platform for configuring device-specific speech recognition and using a platform for configuring device-specific speech recognition |
CN110556097B (zh) * | 2018-06-01 | 2023-10-13 | 声音猎手公司 | 定制声学模型 |
US11830472B2 (en) | 2018-06-01 | 2023-11-28 | Soundhound Ai Ip, Llc | Training a device specific acoustic model |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5385598B2 (ja) | 画像処理装置及び画像管理サーバ装置及びそれらの制御方法及びプログラム | |
JP5371489B2 (ja) | 画像管理装置およびその制御方法、ならびに、プログラムおよび記憶媒体 | |
JP5144424B2 (ja) | 撮像装置及び情報処理方法 | |
CN103535023A (zh) | 包括特定人的视频摘要 | |
JP2005276187A (ja) | 画像識別方法および端末装置 | |
CN104992703B (zh) | 语音合成方法和系统 | |
CN103620682A (zh) | 包括感兴趣的特征的视频摘要 | |
EP3197139A1 (en) | Information processing system, information processing device, and information processing method | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
JP6223534B2 (ja) | 撮影機器、撮影方法及び撮影制御プログラム | |
KR100733095B1 (ko) | 정보 처리 장치 및 정보 처리 방법 | |
US9449646B2 (en) | Methods and systems for media file management | |
SE0201529D0 (sv) | Method and apparatus for IR camera inspections | |
JP4403937B2 (ja) | カメラ装置、情報処理装置、被写体識別方法 | |
JP5402122B2 (ja) | オートフォーカス機能を有する情報処理装置、オートフォーカス機能を有する情報処理装置の制御方法等 | |
US20210182610A1 (en) | Image capturing apparatus, generating apparatus, control method, and storage medium | |
JP2005345616A (ja) | 情報処理装置及び情報処理方法 | |
JP2007172197A (ja) | 画像入力装置、画像出力装置及び画像入出力システム | |
JP2005181459A (ja) | 音声認識装置および方法 | |
JP2010061426A (ja) | 撮像装置およびキーワード作成プログラム | |
JP2019135609A (ja) | 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム | |
KR102423005B1 (ko) | 딥러닝을 위한 인식 시험 학습 데이터 제공 시스템 및 방법 | |
JP4519805B2 (ja) | 映像編集方法及び装置 | |
JP2021056845A (ja) | 検査支援システム | |
JP7420075B2 (ja) | 情報処理装置及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20070306 |