JP2004240154A

JP2004240154A - 情報認識装置

Info

Publication number: JP2004240154A
Application number: JP2003028994A
Authority: JP
Inventors: Isao Tazawa; 功田澤; Chigiri Utsugi; 契宇都木; Toshio Moriya; 俊夫守屋
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-02-06
Filing date: 2003-02-06
Publication date: 2004-08-26

Abstract

【課題】発話者の画像情報と音声情報を利用して話者の発話内容を認識する情報認識装置では，観測される映像の不安定性や，録音した音声に含まれる雑音による認識率の低下が問題となる。
【解決手段】画像特徴量算出部，音声特徴量算出部，照合データ設定部，照合データ記憶部，統合識別部により情報認識装置を構成する。
画像特徴量算出部では，複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出する。音声特徴量算出部では，複数のマイクロフォンを使用して集音した音声の特徴量を算出する。照合データ蓄積部では，各単語に関する口唇部分の特徴量，および音声の特徴量をあらかじめ格納しておく。照合データ設定部では，算出した口唇部分の特徴量および音声特徴量と比較，照合する，照合データ蓄積部に蓄積された単語の検索カテゴリーを設定する。統合識別部では，口唇部分の特徴量と音声の特徴量に基づいて話者の発声した単語を推定する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は，話者の画像情報と音声情報を利用して話者の発話内容を認識する情報認識装置に関する。
【０００２】
【従来の技術】
従来，発話者の映像情報と音声情報を利用して話者の発話内容を認識する方法としては，下記文献１に記載の（１）ニューラルネットワークによる方法や，（２）マルコフモデルによる方法などがある（非特許文献１参考）。
【０００３】
（１）では，画像および音声の特徴量と母音の関係をニューラルネットワークによりあらかじめ学習しておき，発声された母音を推定する。（２）では，画像および音声それぞれに対して特徴量を時系列に表現し，確率モデルに従い発話内容を推定する。
【０００４】
【非特許文献１】文献１：山崎弘郎，石川正俊，“センサフュージョン”，コロナ社，１９９２．
【０００５】
【発明が解決しようとする課題】
上記従来技術では，顔の撮影方向が一定ではない画像データを使用することによる認識精度の低下や，混雑した施設内部等で収録した高雑音を含む音声データを使用することによる認識精度の低下に十分対応していないという問題がある。
【０００６】
そこで，本発明では，観測される画像データの不安定性や音声データの雑音に頑強な情報認識装置を提供する目的とする。
【０００７】
【課題を解決するための手段】
上記目的を達成するために，本発明では以下の手段を設ける。
（１）画像特徴量算出部，音声特徴量算出部，照合データ設定部，照合データ蓄積部，統合識別部により情報認識装置を構成する。
【０００８】
画像特徴量算出部では，複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出する。音声特徴量算出部では，複数のマイクロフォンを使用して集音した音声の特徴量を算出する。照合データ蓄積部では，認識対象である音素や単語に関する口唇部分の特徴量，および音声の特徴量をあらかじめ格納しておく。照合データ設定部では，算出した口唇部分の特徴量および音声特徴量と比較，照合する，照合データ蓄積部に蓄積された単語の検索カテゴリーを設定する。統合識別部では，口唇部分の特徴量と音声の特徴量に基づいて話者の発声した単語を推定する。
【０００９】
（２）照合データ蓄積部では，認識対象の単語と関連がある単語に関する口唇部分の特徴量，および音声の特徴量をあらかじめ格納しておく。画像特徴量算出部および音声特徴量算出部では，認識対象の単語と関連がある単語の情報を組合わせて，話者の発声した単語を推定する。
【００１０】
（３）発声位置推定部を設け，複数のカメラ画像を用いて話者の口の位置を推定する。その方向における複数のマイクロフォンの指向性利得を最大にして，音声を処理する。
【００１１】
【発明の実施の形態】
本発明は，話者の映像情報と音声情報を利用して発話内容を認識する情報認識装置に関する。具体的には，下記の方法を実施するソフトウェア，またはハードウェアを作成することにより実現できる。以下，駅の自動券売機を例に本装置の実施例を示す。
（１）第１の実施形態
第１の実施形態は，複数のカメラおよびマイクロフォンを用いて観測した話者の顔画像および音声を基に，単語レベルの発話内容を認識する情報認識装置に関する。
【００１２】
図１は，本実施例における情報認識装置を備えた自動券売機の外観図である。また，図２は情報認識装置の構成図である。自動券売機１１０には，発声者１０の画像データ，音声データを取得するための複数カメラ１０１ａから１０１ｅ，およびマイクロフォン１０２ａ，１０２ｂ，確認情報などを入力，表示するためのタッチパネル１０３，金銭出入口１０４が備わっている。また，自動券売機１１０内部の情報認識装置２１０は，カメラ１０１ａから１０１ｅとのインタフェース２０１，マイクロフォン１０２ａ，１０２ｂとのインタフェース２０２，タッチパネル１０３とのインタフェース２０３，音素や単語に関する画像，音声の特徴量等の情報を格納したデータベース２２０とのインタフェース２０４，一連の処理を行うＣＰＵ２０５，プログラムやデータを格納するメモリ２０６，およびこれらを結合するバス２０７から構成される。
【００１３】
図１ではカメラ数を５，マイクロフォン数を２としているが，任意の数とすることができる。また，カメラ１０１，マイクロフォン１０２以外の入力装置としてタッチパネル１０３を使用しているがキーボードなど他の機器を使用することが可能である。
【００１４】
図３は，情報認識装置における処理のブロック図である。照合データ設定部３０１では，発声される単語の属するカテゴリをタッチパネル１０３によりあらかじめ設定する。画像特徴量算出部３０２では，複数のカメラを使用して撮影した話者の顔画像から口唇部分の特徴量を算出する。音声特徴量算出部３０３では，マイクロフォン１０２を使用して音声を収録し，その特徴量を算出する。統合識別部３０４では，画像特徴量算出部３０３および音声特徴量算出部３０４で得られた特徴量から統合的に判定し，話者の発声した単語を推定する。照合データ蓄積部３０５では，認識対象である音素や単語に関する口唇部分の特徴量，および音声の特徴量を格納している。格納されているデータは，画像特徴量算出部３０２，および音声特徴量算出部３０３，もしくは統合識別部３０４で使用される。
【００１５】
以下，画像特徴量算出部３０１，音声特徴量算出部３０２，照合データ設定部３０３，統合識別部３０４における処理の具体例を示す。これらの処理は情報認識装置２１０のメモリ２０６内に格納され，ＣＰＵ２０５により実行される。ただし，照合データ蓄積部３０５については，上記データを格納する外部記憶装置（データベース２２０）で実現される。
【００１６】
なお，以下では，装置の使用者１０は目的地の駅名とその駅のある路線名について知っているとし，路線名と駅名から必要な切符を購入しようとしていると仮定する。
【００１７】
照合データ設定部３０１では，タッチパネル１０３の画面上で話者自身がこれから言う言葉の属するカテゴリを指定する。具体的には，例えば目的駅の路線を指定する。カテゴリを指定する方法としては，あらかじめ装置側で利用者にカテゴリを指定してもらうように音声や文字データで質問文を用意し，利用者と対話的に決定する方法がある。このとき，階層的なカテゴリを使用することも可能である。
【００１８】
図４は画像特徴量算出部３０２における具体的な処理手順である。以下，図４の番号をステップ番号として，画像特徴量算出部３０２における処理手順を示す。
ステップ４０１：口唇画像検出
時間間隔Δｔごとに，撮影した顔画像から口唇部分の画像Ｉｎ（ｊ）を抽出する。ここで，ｎ，ｊはそれぞれカメラおよび画像のインデックスである。具体的には，微分フィルタにより得られるエッジ画像や色彩情報，眉，目，鼻，耳，口，あごなどの相対位置関係から口唇画像Ｉｎ（ｊ）を抽出する。
ステップ４０２：特徴量算出
抽出した時系列の口唇画像Ｉｎ（ｊ）の特徴量Ｒｎ（ｊ）を算出する。そして，一定時間ΔＴ以上変化しない特徴量Ｒｎ（ｊ）の集合Ｒｎ（ｉ）を求める。ここで，ｉはデータインデックスを表す。具体的な特徴量としては，唇内側の縦横の長さの比を使用する。
【００１９】
上記口唇画像の検出やその特徴量の算出方法としては，上記以外に下記文献２や文献３に記載されている方法などを使用することができる。
【００２０】
文献２：南敏，“顔画像による個人識別の技術”，システム／制御／情報，Ｖｏｌ．３５，Ｎｏ．７，ｐｐ．４１５−４２２，１９９１．
文献３：関岡哲也ら，“関数合成による唇輪郭抽出法の提案”，電学論Ｄ−ＩＩ，Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，Ｎｏ．３，ｐｐ．４５９−４７０，２００１．
ステップ４０３：条件判定（全画像データを処理）
すべてのカメラ画像を処理するまで，上記ステップ４０１から４０３を繰り返す。
ステップ４０４：母音推定
算出した特徴量Ｒｎ（ｉ）と，データベース２２０（照合データ蓄積部３０５）中の５つの母音の特徴量データＲ（ｖ）とのマッチングをとる。具体的には，データインデックスｉごとに特徴量Ｒｎ（ｉ）とＲ（ｖ）の類似度Ａ（ｉ，ｖ）を算出する。ここで，ｖは５つの母音のインデックスを表す。類似度としては，特徴量Ｒｎ（ｉ）とＲ（ｖ）の差を正規化後にｎについて平均した値などを使用する。
【００２１】
また，母音を組み合わせた母音列に対応する類似度Ａ（ｉ，ｖ）の積Ａ（ｖ１，．．，ｖ５）（インデックスｉ，ｖに関する積）を算出する。
ステップ４０５：単語推定
設定したカテゴリに属するデータベース中の単語データと母音列の対応関係に基づいて，入力された単語が各単語データである確率Ｐ１（ｋ）を母音列の評価値Ａ（ｖ１，．．，ｖ５）とする。ここで，ｋは単語のインデックスを表す。
【００２２】
図５は音声特徴量算出部３０３における具体的な処理手順である。以下，図５の番号をステップ番号として，音声特徴量算出部３０３における処理手順を示す。
ステップ５０１：目標音声検出
収録した音声データから，話者１０の発声区間Ｉｍを切り出す。ここで，ｍはマイクロフォンのインデックスである。発声区間Ｉｍの推定方法としては，話者１０が不在の間に録音した音響データから推定されるノイズレベルと収録した音声データのレベルの差から判定する方法や，短時間フーリエ変換などの周波数解析法により得られるスペクトルの時間変動から推定する方法などがある。
ステップ５０２：特徴量算出
抽出した音声データＩｍの特徴量Ｒｍを算出する。具体的な特徴量としては，短時間フーリエ変換などの周波数解析法により得られる，時系列のスペクトルを使用する。
ステップ５０３：条件判定（全音響データを処理）
すべてのマイクロフォンの音響データを処理するまで，上記ステップ５０１，５０２を繰り返す。
ステップ５０４：単語推定
特徴量Ｒｍと設定したカテゴリに属するデータベース中の各単語の特徴量データＳｋとの相関係数を算出し，その正規化した値Ｒ（ｍ，ｋ）を求める。ここで，ｋは単語のインデックスを表す。データベース中の単語データについて，入力された単語が各単語データである確率Ｐ２（ｋ）を相関係数Ｒ（ｍ，ｊ）とする。
【００２３】
上記目標音声の検出方法，音声の特徴量の定義やその算出方法，単語推定の方法としては，上記以外に下記文献４などに記載されている各種方法を使用することができる。
【００２４】
文献４：古井貞▲き▼，“ディジタル音声処理”，東海大学出版会，１９８５．
図６は統合識別部３０４における具体的な処理手順である。以下，図６の番号をステップ番号として，統合識別部３０４における処理手順を示す。
ステップ６０１：統合判定値算出
画像特徴量算出部３０２，音声特徴量算出部３０３の出力である各単語データの確率Ｐ１（ｋ），Ｐ２（ｋ）の積Ｐ（ｋ）を算出する。
ステップ６０２：条件判定（全単語データを処理）
すべての単語データを処理するまで，上記ステップ６０１を繰り返す。
ステップ６０３：単語推定
判定値Ｐ（ｋ）がしきい値Ｐｍ以上であり，最大となる単語データｋを推定した単語として出力する。
【００２５】
以上では，画像特徴量算出部３０２および音声特徴量算出部３０３において各単語となる確率を特徴量として出力し，統合識別部３０４において単語レベルで統合している。他の方法として，画像特徴量算出部３０２および音声特徴量算出部３０３の出力を唇内側の縦横の長さの比等の時系列データ，およびスペクトル等の時系列データとし，統合識別部３０４においてデータベース２２０を参照しながら各時系列データを統合的に処理する方法がある。
【００２６】
また，駅名等をデータベース内のデータと照合する場合に，「Ａ駅」と指定する話者１０，および「Ａ」と指定する話者１０の両方に対応するため，データベースに「Ａ」という駅名以外に「駅」という単語の特徴量を格納する方法が考えられる。この場合，画像特徴量算出部３０２，音声特徴量算出部３０３，および統合識別部３０４では，「Ａ」と「駅」を組み合わせた「Ａ駅」という単語との照合も行う。
【００２７】
以上のように，複数の画像データと音声データについて，あらかじめ設定したカテゴリ内の単語と比較，照合することにより，話者の発声した単語の認識率を向上できると期待される。
（２）第２の実施形態
第２の実施形態は，複数のマイクロフォンの指向性利得を調節する発声位置推定部を備えた情報認識装置に関する。第１の実施形態との相違点は，発声位置推定部が加わった点である。
【００２８】
図７は，本実施例の情報認識装置における処理のブロック図である。発声位置推定部７０１では，複数のカメラ画像から話者の口の位置を推定する。音声特徴量算出部３０３では，目標音声検出処理５０１を実行する際に，推定方向におけるマイクロフォンの指向性利得を最大とし，目標音声の検出を行う。
【００２９】
以下，発声位置推定部７０１，およびその位置推定結果を使用する場合の音声特徴量算出部３０２における処理の具体例を示す。これらの処理は情報認識装置のメモリ２０６内に格納され，ＣＰＵ２０５により実行される。
【００３０】
図８は発声位置推定部７０１における具体的な処理手順である。以下，図８の番号をステップ番号として，発声位置推定部７０１における処理手順を示す。
ステップ８０１：口唇画像検出
各カメラ画像上で口唇部分の画像上の位置を検出する。具体的には，上述の口唇画像検出処理４０１と同様の処理により口唇部分を検出し，位置座標を求める。ステップ８０２：条件判定（全画像データを処理）
すべてのカメラ画像を処理するまで，上記ステップ８０１を繰り返す。
ステップ８０３：口唇位置推定
複数のカメラ画像における口唇部分の位置座標の検出結果から話者の口唇位置を推定する。具体的には，各カメラとそのカメラ画像上の口唇部分の検出位置を結ぶ直線の交点を算出する。本方法については，口唇位置に推定誤差がある場合等も含めて下記文献５に記載されている。
【００３１】
文献５：高木幹雄，下田陽久，“画像解析ハンドブック”，東京大学出版会，１９９１．
音声特徴量算出部３０３では，目標音声検出処理５０１を実行時に，上記口唇部分の推定位置方向におけるマイクロフォンの利得を最大にする。具体的な方法としては，観測した音声信号の位相を調整して，口唇部分の推定方向から到来する音声信号の位相を同相とし，それらを加算する。本方法は，既存のビームフォーミング手法の一つであり，下記文献６等に記載されている。
【００３２】
文献６：ＲｉｃｈａｒｄＯ．Ｎｅｉｌｓｅｎ，”ＳｏｎａｒＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ”，ＡｒｔｅｃｈＨｏｕｓｅ，１９９１．
以上のように，発声位置を推定してマイクロフォンの指向性を制御することにより，音声データの処理精度が向上し，情報認識装置全体の単語認識精度も向上することが期待できる。
【００３３】
【発明の効果】
本発明によれば，複数のカメラおよび複数のマイクロフォンにより画像データ，および音響データを取得して，発声された単語の特徴量の推定精度を向上し，また，あらかじめ認識する単語のカテゴリを制限することにより，観測される画像データの不安定性や音声データの雑音に頑強な情報認識装置を提供することができる。
【図面の簡単な説明】
【図１】情報認識装置を備えた自動券売機の外観図。
【図２】情報認識装置の構成図。
【図３】情報認識装置における処理のブロック図。
【図４】画像特徴量算出部における処理手順。
【図５】音声特徴量算出部における処理手順。
【図６】統合識別部における処理手順。
【図７】発声位置推定部を備えた情報認識装置における処理のブロック図。
【図８】発声位置推定部における処理手順。
【符号の説明】
１０１ａ，１０１ｂ：カメラ
１０２：マイクロフォン
１０３：タッチパネル
１０４：金銭出入口
１１０：自動券売機
２０１：画像センサ用インタフェース
２０２：音響センサ用インタフェース
２０３：外部入出力機器用インタフェース
２０５：ＣＰＵ
２０６：メモリ
２０７：バス
３０１：照合データ設定部
３０２：画像特徴量算出部
３０３：音声特徴量算出部
３０４：統合識別部
７０１：発声位置推定部

Claims

画像特徴量算出部と，音声特徴量算出部と，照合データ設定部と，照合データ蓄積部と，統合識別部から成る情報認識装置において，
既画像特徴量算出部では，複数のカメラを使用して複数方向から撮影した顔画像から口唇部分の特徴量を算出し，
既音声特徴量算出部では，複数のマイクロフォンを使用して集音した音声の特徴量を算出し，
既照合データ蓄積部では，認識対象である音素や単語に関する既口唇部分の特徴量，および既音声の特徴量をあらかじめ格納し，
既照合データ設定部では，既算出した口唇部分の特徴量および既音声の特徴量と比較，照合する，既照合データ蓄積部に蓄積された単語の検索カテゴリーを設定し，
既統合識別部では，既口唇部分の特徴量と既音声の特徴量に基づいて話者の発声した単語を推定する
ことを特徴とする情報認識装置。
請求項１において，
既照合データ蓄積部では，既認識対象の単語と関連がある単語に関する既口唇部分の特徴量，および既音声の特徴量をあらかじめ格納し，
既画像特徴量算出部および既音声特徴量算出部では，既認識対象の単語と既関連がある単語の情報を組合わせて既話者の発声した単語を推定する
ことを特徴とする情報認識装置。
請求項１において発声位置推定部を設け，
既発声位置推定部では，複数のカメラ画像を用いて話者の口の位置を推定し，その方向における複数の既マイクロフォンの指向性利得を最大とする
ことを特徴とする情報認識装置。