JP2022126962A

JP2022126962A - 発話内容認識装置、学習データ収集システム、方法及びプログラム

Info

Publication number: JP2022126962A
Application number: JP2021024841A
Authority: JP
Inventors: 哲嗣田村; Tetsutsugu Tamura; 真之介磯部; Shinnosuke Isobe; 悟速水; Satoru Hayamizu; 拓実西脇; Takumi Nishiwaki; 悠斗後藤; Yuto Goto; 将樹能勢; Masaki Nose
Original assignee: Ricoh Co Ltd; Tokai National Higher Education and Research System NUC
Current assignee: Ricoh Co Ltd; Tokai National Higher Education and Research System NUC
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2022-08-31

Abstract

【課題】対応方向の数を超える様々な種類（様々な撮像方向）の口唇画像データについて発話内容を高精度に認識する。【解決手段】話者の発話内容を認識する発話内容認識装置１００であって、話者の口唇画像データを入力する入力部１１１と、対応方向（対応角度）から撮像された口唇画像データに対する読唇精度の高い複数の読唇部１３１，１３２と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部１４１とを有し、前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されている。【選択図】図１

Description

本発明は、発話内容認識装置、学習データ収集システム、方法及びプログラムに関するものである。

従来、話者の発話内容を認識する発話内容認識装置が知られている。例えば、話者の口唇画像データを入力し、対応方向から撮像された口唇画像データに対する読唇精度の高い読唇部を用いて、話者の発話内容を認識する装置が知られている。

また、非特許文献１には、畳み込みニューラルネットワークを用いたエンコーダ・デコーダモデルによる「View2View」と呼ばれる手法が開示されている。この手法では、予め正面顔の画像データ（顔の正面方向から撮像された口唇画像データ）で学習した機械読唇モデルを用いて読唇結果を出力する。非正面顔の画像データが入力された場合には、正面顔の画像データに変換してから機械読唇モデルに入力し、読唇結果を出力する。

また、非特許文献２には、双方向長短記憶と呼ばれる深層学習技術を用いたエンドツーエンドの読唇手法が開示されている。この非特許文献２には、正面顔と横顔など、複数の撮像角度から撮像した顔画像データを組み合わせて学習することで、読唇モデルの読唇性能が向上することが記載されている。

従来の読唇部を備えた発話内容認識装置においては、特定の方向（対応方向）から撮像された口唇画像データでは正しい読唇結果が高い精度で得られるが、当該対応方向とは異なる方向から撮像された口唇画像データでは精度が落ちるという課題がある。

上述した課題を解決するために、本発明は、話者の発話内容を認識する発話内容認識装置であって、話者の口唇画像データを入力する入力部と、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とする。

本発明によれば、読唇部の対応方向とは一致しない方向から撮像された口唇画像データでも正しい読唇結果が高い精度で得られるので、対応方向の数を超える様々な種類（様々な撮像方向）の口唇画像データについて発話内容を高精度に認識できる。

実施形態１に係る読唇装置を示すブロック図。ニューラルネットワークを構成する１つのニューロンのモデルの一例を示す説明図。複数層構造のニューラルネットワークの一例を示す説明図。実施形態１における機械読唇モデル（学習済みモデル）の作成方法（学習モード）の概要を示す説明図。実施形態１に係る読唇装置の他の例を示すブロック図。実施形態１に係る読唇装置の更に他の例を示すブロック図。変形例１における読唇装置を示すブロック図。変形例２における読唇装置を示すブロック図。実施形態２に係るマルチモーダル音声認識装置を示すブロック図。実施形態３における学習データ収集システムの構成を示す説明図。同学習データ収集システムのカメラアレイを鉛直方向上方から見た説明図。

〔実施形態１〕
以下、本発明を、発話内容認識装置としての読唇装置に適用した一実施形態（以下、本実施形態を「実施形態１」という。）について説明する。
本実施形態１の読唇装置は、口唇画像データとして話者の顔を撮像した顔画像データを入力し、入力された顔画像データの口唇部分を解析して当該話者が発話する発話内容の認識結果（読唇結果）を出力する。

図１は、本実施形態１に係る読唇装置を示すブロック図である。
本実施形態１の読唇装置１００は、主に、入力部としての画像入力部１１１と、複数の読唇部としての２つの単一角度対応読唇部１３１，１３２と、統合生成部としての読唇結果統合部１４１と、から構成されている。

画像入力部１１１は、発話内容を認識する対象である話者の顔画像データ（口唇画像データ）の入力を受け付ける。本実施形態１の画像入力部１１１は、話者の顔を撮像する撮像装置であるカメラ１や、顔画像データを記憶した記憶媒体２に対し、有線または無線で通信可能に接続されている。カメラ１からは、現に話者が発話しているリアルタイムの顔画像データが画像入力部１１１に入力される。記憶媒体２は、過去に話者が発話したときの顔画像データを記憶しており、記憶媒体２からは、過去の顔画像データが画像入力部１１１に入力される。

画像入力部１１１は、入力された顔画像データを、必要に応じ、前記２つの単一角度対応読唇部１３１，１３２の入力前に画像処理して、各単一角度対応読唇部１３１，１３２にそれぞれ受け渡す。例えば、入力された顔画像データ中の口唇画像部分を時系列に並べて抽出し、その口唇画像部分のデータを各単一角度対応読唇部１３１，１３２にそれぞれ受け渡す。

画像入力部１１１に入力される口唇画像データは、話者の口唇を含むように撮像された画像データであれば、その撮像方向に特に制限はない。
また、画像入力部１１１に入力される口唇画像データは、画像データ形式のものであってもよいし、口唇画像データを加工又は演算して得られる非画像データ形式のものであってもよい。
また、口唇画像データは、通常、実在の話者を撮像装置等により撮像して得られる撮像画像データであるが、仮想の話者（コンピュータグラフィックス等により作成されたもの等）を所定の視点から見たときの画像データであってもよい。

２つの単一角度対応読唇部１３１，１３２は、それぞれ、特定の方向（対応方向）から撮像された口唇画像データに対する読唇精度の高い読唇処理を行い、その読唇処理結果を生成する。２つの単一角度対応読唇部１３１，１３２は、それぞれの対応方向の中に、他方の単一角度対応読唇部における対応方向に含まれていない方向を含むように構成されている。

本実施形態１では、上述した対応方向を、話者の顔の正面方向から撮像したときの撮像方向を基準（０°）にした鉛直軸回りの角度（以下「対応角度」という。）で表すものとする。このとき、第一単一角度対応読唇部１３１は、話者の顔の正面方向から撮像したときの顔画像データに対する読唇精度が高く（利用者の要求レベルを満たす精度閾値を超えている）、その対応角度（読唇精度の高い角度）は０°である。一方、第二単一角度対応読唇部１３２は、話者の顔の正面方向に対して３０°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高く、その対応角度（読唇精度の高い角度）は３０°である。

本実施形態１の単一角度対応読唇部１３１，１３２は、所定の読唇処理プログラム（推定プログラム）をコンピュータで実行することにより、画像入力部１１１に入力された顔画像データに対する読唇処理を実行し、読唇処理結果を生成する。本実施形態１の読唇処理プログラムは、話者の顔画像データを含む学習データを用いて学習した機械読唇モデル（学習済みモデル）を用いるが、プログラマーによってプログラミングされた読唇処理プログラムを用いてもよい。

本実施形態１における機械読唇モデル（学習済みモデル）は、入力されたデータ（顔画像データ）から話者の発話内容を推定するものであり、機械読唇モデルから出力される推定結果（読唇処理結果）の形式には特に制限はない。一例として、本実施形態１では、入力されたデータ（顔画像データ）に対し、１又は２以上の発話内容候補（１つの文字、１つの語又は語系列など）と、その発話内容候補ごとの信頼度情報（以下「信頼度スコア」という。）とを含むデータを読唇処理結果として出力する場合について説明する。

所定の対応角度に特化した機械読唇モデル（当該対応角度の顔画像データに対する読唇精度の高い学習済みモデル）は、例えば、当該対応角度から撮像された大量の顔画像データを学習データとして機械学習や深層学習を行うことで作成することができる。例えば、このような学習データを用い、所定のモデルに対して教師あり学習を行わせることで、未知の顔画像データの入力に受けたときに、学習データから学習した特徴に従って、１又は２以上の発話内容候補と各発話内容候補の信頼度スコアとを含むデータを推定結果として出力する機械読唇モデル（学習済みモデル）を得ることができる。なお、本実施形態１では、所定のモデルとしては、ニューラルネットワークモデルを採用するが、他の機械学習モデルを使用することも可能である。

「教師あり学習」では、一般に、ある入力と結果（ラベル）のデータの組を大量に機械学習装置に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、すなわち、その関係性を帰納的に獲得することができる。これは、後述のニューラルネットワークやＳＶＭ（Support Vector Machine）などのアルゴリズムを用いて実現することができる。

ニューラルネットワークは、例えば、図２に示すようなニューロンのモデルを模したニューラルネットワークを実現する演算装置及びメモリ等で構成される。図２に示すように、ニューロンは、複数の入力ｘ（ここでは一例として、入力ｘ１～入力ｘ３としているが、その入力数は、より少ない数でもよいし、より多くの数でもよい。）に対する出力ｙを出力するものである。各入力ｘ１～ｘ３には、それぞれの入力ｘに対応する重みＷ（Ｗ１～Ｗ３）が乗算される。これにより、ニューロンは、次の式（１）及び（２）により表現される出力ｙを出力する。なお、式（１）及び（２）において、θはバイアスであり、ｆｋは活性化関数である。

ｙ＝ｆｋ（ｖ）・・・（１）
ｖ＝Σ（Ｗ×ｘ）－θ ・・・（２）

ニューラルネットワークの動作には、学習モードと評価モードとがあり、学習モードでは学習データを用いて重みＷを学習し、評価モードではその重みＷを用いて評価用データの入力に対する出力（本実施形態１では発話内容候補とそれぞれの信頼度スコア）を得る。重みＷ１～Ｗ３は、誤差逆伝搬法（バックプロパゲーション）等により学習可能である。誤差逆伝搬法は、入力ｘが入力されたときの出力ｙと正解の出力ｙ（正解ラベル）との差分を小さくするように、各ニューロンについての重みを調整（学習）する手法である。

ニューラルネットワークは、図３に示すように、深層学習あるいはディープラーニングを呼ばれる複数層構造にすることが可能である。図３の例は、中間層（隠れ層）が３層構造になっている例である。各層は複数のノード（ニューロン）で構成され、各層間のノードはそれぞれ異なる重みＷで連結されている。入力層に投入された入力ｘ１～ｘ６は、重みＷの異なる中間層内のノードを通過する中で、入力ｘ１～ｘ６が重みＷによって重み付けされながら合成され、出力層を通過して出力ｙを導出する。

本実施形態１では、図３に示すような複数層構造のニューラルネットワークからなるニューラルネットワークモデルを採用し、既知の発話内容を発話する話者の顔画像データを含む学習データを用い、これに正しい発話内容を正解ラベルとして用いて、教師あり学習をさせることにより、機械読唇モデル（学習済みモデル）を作成する。

図４は、本実施形態１における機械読唇モデル（学習済みモデル）の作成方法（学習モード）の概要を示す説明図である。
本実施形態１の学習モードでは、図４に示すように、指示される発話内容を話者が発話し、これを、それぞれの対応角度（本実施形態１では０°と３０°）から各収録用カメラ３１－１，３１－２によって撮像する。このように撮像された顔画像データは、対応角度ごとに学習データ記憶媒体３２に記憶される。学習データ記憶媒体３２に記憶される顔画像データは、時系列が特定できる形式で記憶される。そのため、学習データ記憶媒体３２に記憶された顔画像データは、話者が発話した時期（各発話内容が発話された時期）と照らし合わせることで、話者の発話内容と対応づけられ、学習データとして用いることができる。

このように学習データ記憶媒体３２に蓄積された学習データは、対応角度が０°の顔画像データについては第一学習部３３－１に用いられ、対応角度が３０°の顔画像データについては第二学習部３３－２に用いられる。なお、学習データには、より精度を高めるために、発話内容を特定（推定）するための特徴量として有用な他の情報を含めることができる。第一学習部３３－１では、入力される学習データにより、対応角度が０°である機械読唇モデル（学習済みモデル）が生成され、生成された機械読唇モデルは、本実施形態１の第一単一角度対応読唇部１３１にインストールされる。同様に、第二学習部３３－２では、入力される学習データにより、対応角度が３０°である機械読唇モデル（学習済みモデル）が生成され、生成された機械読唇モデルは、本実施形態１の第二単一角度対応読唇部１３２にインストールされる。

生成した機械読唇モデル（学習済みモデル）については、その学習済みモデルの作成（学習モード）を繰り返し試行して、パラメータチューニングを実行してもよい。パラメータチューニングで調整（チューニング）するパラメータとは、学習済みモデルにおける設定値や制限値（ハイパーパラメータ）などをいう。パラメータチューニングは、例えば、モデルが最適解を出せるパラメータを走査して設定する作業である。パラメータチューニングの種類としては、グリッドサーチ法やランダムサーチ法などがあり、これらを用いることができる。

また、機械読唇モデル（学習済みモデル）に対してモデル評価を行ってもよい。このモデル評価には、例えば、クロスバリデーションやホールドアウト法などを用いることができる。ホールドアウト法とクロスバリデーションを併用してモデル評価を行うこともできる。

具体的には、ホールドアウト法では、元データを、事前に、学習モードで使用する学習用データと、評価モードで使用するテストデータとに分割しておき、学習用データだけを用いて学習済みモデルの作成を試行する。その後、作成した学習済みモデルにテストデータを入力し、その出力結果と当該テストデータの正解ラベルとの比較（誤差＝推定精度）を行ってモデル評価を行う。

また、クロスバリデーションでは、元データを例えば５グループに分け、１回目は、そのうちの１つのグループをテストデータとし、それ以外のグループを学習用データとして、学習済みモデルの作成とモデル評価を行う。２回目は、１回目とは異なるグループをテストデータとし、３回目は１回目及び２回目とは異なるグループをテストデータとして、同様に学習済みモデルの作成とモデル評価を行う。これを５グループすべてについて行い、各回で評価したモデル評価（推定精度）の平均を取る。

また、本実施形態１の推定プログラム（学習済みモデル）を蒸留して、新たに同様の機能を備えた推定プログラム（蒸留モデル）を作成することもできる。具体的には、本実施形態１の推定プログラム（学習済みモデル）に対し、蒸留用入力データとして、発話内容が既知である顔画像データを入力し、その信頼度スコアを出力させる。そして、出力された信頼度スコアを蒸留用入力データの正解ラベルとした蒸留用の学習データを作成し、この蒸留用の学習データを用いてモデルに学習させることにより、本実施形態１の推定プログラム（学習済みモデル）と同様の機能を備えた新たな推定プログラム（蒸留モデル）を作成する。このようにして作成される新たな推定プログラム（蒸留モデル）は、一般に、本実施形態１の推定プログラム（学習済みモデル）よりも軽量化される。また、蒸留用入力データを工夫するなどすることで、本実施形態１の推定プログラム（学習済みモデル）よりも推定精度を高めることも可能である。

なお、本実施形態１の機械読唇モデルは、発話内容候補と各発話内容候補の信頼度スコアとを含むデータを読唇処理結果として用いる例であるが、後段の読唇結果統合部１４１で用いるデータ形式に合わせた中間表現のデータを読唇処理結果として用いてもよい。具体的には、読唇処理結果として、機械読唇モデルを用いて読唇処理を行った際の当該機械読唇モデルの内部状態を記録したベクトルデータを用いてもよい。

本実施形態１においては、このように、特定の方向（対応方向）から撮像された口唇画像データに対する読唇精度の高い２つの単一角度対応読唇部１３１，１３２を用いて、口唇画像データに対する読唇処理を実行する。そして、本実施形態１で用いられる２つの単一角度対応読唇部１３１，１３２は、それぞれの対応角度（高い読唇精度が得られる角度）が、他方の単一角度対応読唇部における対応角度に含まれていない角度を含んでいる。そのため、これらの単一角度対応読唇部の対応角度（０°と３０°）のいずれかの角度と一致する角度から撮像された口唇画像データであれば、これらの単一角度対応読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識可能である。したがって、本実施形態１によれば、０°と３０°の角度から撮像された口唇画像データについて、発話内容を高精度に認識することができる。

ここで、２つの単一角度対応読唇部１３１，１３２のいずれの対応角度とも一致しない角度（例えば１５°や４５°）から撮像された口唇画像データについては、個々の単一角度対応読唇部１３１，１３２の読唇処理では十分な読唇精度が得られない。そのため、いずれかの単一角度対応読唇部１３１，１３２の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。

そこで、本実施形態１では、読唇結果統合部１４１を設け、２つの単一角度対応読唇部１３１，１３２で得られた各読唇処理結果を統合し、その統合結果に基づいて話者の発話内容の認識結果を最終的な読唇結果として生成する。これにより、個々の単一角度対応読唇部１３１，１３２の各読唇処理結果は、正解である発話内容の確からしさ（信頼度スコア）が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果である場合であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさ（信頼度スコア）を際立たせ、不正解である他の発話内容の確からしさに対して有意に高くなるように処理することが可能となる。

読唇結果統合部１４１が行う統合処理は、精度の高い認識結果が得られるように（本実施形態１であれば、正解の発話内容の信頼度スコアが相対的に高くなるように）、２つの単一角度対応読唇部１３１，１３２で得られた各読唇処理結果を統合する処理であれば、特に制限はない。

読唇結果統合部１４１が行う統合処理の一例としては、例えば、２つの単一角度対応読唇部１３１，１３２で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補（語や語系列など）の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に２以上の発話内容候補を統合結果としてもよい。
また、例えば、２つの単一角度対応読唇部１３１，１３２で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された２以上の発話内容候補を統合結果としてもよい。

読唇結果統合部１４１が行う統合処理の別例としては、２つの単一角度対応読唇部１３１，１３２における中間表現から認識結果を得る学習済みモデル（統合モデル）を、例えばニューラルネットワークモデルによって予め学習しておく。そして、２つの単一角度対応読唇部１３１，１３２で得られた読唇処理結果に含まれる各中間表現（ベクトル等）を連結して１つの中間表現を生成し、読唇結果統合部１４１のコンピュータで学習済みの統合モデルを実行して、当該１つの中間表現から１又は２以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該１つの中間表現から１又は２以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。

本実施形態１の読唇装置１００によれば、２つの単一角度対応読唇部１３１，１３２の各読唇処理結果を読唇結果統合部１４１で統合することで、各単一角度対応読唇部１３１，１３２の読唇処理により高精度な読唇結果が得られる０°と３０°の対応角度だけでなく、この対応角度から外れた角度（例えば１５°や４５°）の口唇画像データについても、発話内容を高精度に認識することが可能となる。その結果、２つの単一角度対応読唇部１３１，１３２における対応角度の数（０°と３０°）を超える様々な角度からの口唇画像データについて、発話内容を高精度に認識することが可能となる。

読唇結果統合部１４１で生成した認識結果は、話者の発話内容の認識結果を利用する後段の情報処理装置等へ出力したり、話者の発話内容の認識結果を蓄積する情報蓄積装置へ出力したりする。なお、出力態様に特に制限はなく、例えば、本実施形態１の読唇装置１００に備わった表示部に認識結果を表示させたり、読唇装置１００に備わった音声出力部から音声で出力したりしてもよい。

なお、上述した実施形態１では、読唇部が２つの例であるが、読唇部が３以上の例であってもよい。例えば、図５に示すように、話者の顔の正面方向に対して６０°だけ横にずれた方向から撮像したときの顔画像データに対する読唇精度が高い第三単一角度対応読唇部１３３を追加した構成であってもよい。

また、単一読唇部により２以上の対応角度で高精度な読唇結果を得ることが可能な複数角度対応読唇部を作成することが可能である。具体的には、例えば、図４に示したように、２つの対応角度（０°と３０°）から撮像した顔画像データが記憶された学習データ記憶媒体３２を利用し、これらを学習データとして単一の学習部に入力して学習することで、０°と３０°という２つの対応角度で高精度な読唇処理が可能な機械読唇モデル（学習済みモデル）を生成することが可能である。

したがって、例えば、図６に示すように、上述した第二単一角度対応読唇部１３２に代えて、０°と３０°という２つの対応角度で高精度な読唇処理が可能な第一複数角度対応読唇部１３４を設けてもよい。更に、図６に示すように、上述した第三単一角度対応読唇部１３３に代えて、０°と３０°と６０°という３つの対応角度で高精度な読唇処理が可能な第二複数角度対応読唇部１３５を設けてもよい。

ただし、複数角度対応読唇部は、通常、その複数角度対応読唇部における複数の対応角度をそれぞれ対応角度とした複数の単一角度対応読唇部を作成する場合と比較して、より広範囲の角度について読唇精度が高まることが期待できるというメリットがある一方、学習コストが増大するデメリットがある。このデメリットについては、例えば、これらの読唇処理を実行する機械読唇モデルを構築するために必要となる学習データの必要量で比較することができる。複数の対応角度のいずれについても所定の高い精度（所定の精度閾値を超える精度）を得ようとする場合には、複数角度対応読唇部の機械読唇モデルでは、通常、複数の単一角度対応読唇部の各機械読唇モデルを構築するのに必要な学習データの合計量よりも、ずっと多くの学習データを必要とする。また、学習データの増大に伴い、パラメータチューニングなどのコストも増大する。

一方で、複数角度対応読唇部が前記メリットを備えている点を考慮すると、図６の例のように、単一角度対応読唇部と複数角度対応読唇部とを混在させた構成であることが好適である。これにより、例えば、入力される顔画像データ（口唇画像データ）において最も頻度の高い撮像角度及びその近傍の角度（高い読唇精度が得られる対応角度）については単一角度対応読唇部で対応し、それ以外の角度については複数角度対応読唇部で対応するようにし、これらの読唇処理結果を読唇結果統合部１４１で統合することで、より様々な角度からの口唇画像データについて発話内容を高精度に認識することが可能となる。

また、この点で、理論上は、本実施形態１と同程度の様々な角度から撮像した口唇画像データに対し、発話内容を高精度に認識することが可能な単一の読唇部を構築することも可能といえる。しかしながら、このような単一の読唇部を、プログラマーによりプログラミングされた読唇プログラムによって実現することは極めて困難である。また、このような単一の読唇部を機械読唇モデル（学習済みモデル）によって実現するには、膨大な量の学習データが必要となり、そのような機械読唇モデルを構築することも実現的に困難である。

これに対し、本実施形態１の読唇装置１００で用いられる読唇部は、１つの対応角度に特化した読唇部（単一角度対応読唇部）又は複数（数個程度）の対応角度に特化した読唇部（複数角度対応読唇部）であり、これらの読唇部を構築することは比較的容易である。したがって、本実施形態１によれば、様々な角度からの口唇画像データについて発話内容を高精度に認識できる読唇装置を、より簡易に作成することができるというメリットもある。

なお、読唇結果統合部１４１によって読唇処理結果が統合される読唇部間において、それぞれの対応角度が部分的に重複していてもよい。すなわち、複数角度対応読唇部における対応角度は、全く同じ組み合わせでなければ、他の単一角度対応読唇部や他の複数角度対応読唇部における対応角度の一部または全部を含んでも良い。例えば、図６に示すように、０°については、すべての読唇部１３１，１３４，１３５の対応角度とし、３０°については、２つの複数角度対応読唇部１３４，１３５の対応角度とするようにしてもよい。

〔変形例１〕
次に、上述した実施形態１における読唇装置１００の一変形例（以下、本変形例を「変形例１」という。）について説明する。
図７は、本変形例１における読唇装置１００を示すブロック図である。
本変形例１における読唇装置１００は、図７に示すように、０°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部１３１と、４５°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部１３６と、０°及び４５°の２つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部１３７という、３つの読唇部を備えている。

そして、本変形例１における読唇装置１００は、画像入力部１１１に入力された口唇画像データに基づいて、撮像方向が複数の読唇部１３１，１３６，１３７のうちの少なくとも１つの読唇部の対応角度になるように変換したデータを生成するデータ変換部としての角度変換部１２１，１２２，１２３を備えている。なお、図７の例では、３つの読唇部１３１，１３６，１３７のすべてに対し、その前段の処理部として角度変換部１２１，１２２，１２３を設け、各角度変換部により、それぞれの読唇部１３１，１３６，１３７の対応角度のいずれかに撮像方向が一致するように、画像入力部１１１に入力された口唇画像データの変換処理を行う。すなわち、各角度変換部１２１，１２２，１２３は、画像入力部１１１に入力された口唇画像データの口唇画像が、それぞれの読唇部１３１，１３６，１３７の対応角度から撮像された口唇画像と擬似的に同等になるように、変換処理を行う。

例えば、３０°の角度から撮像された口唇画像データが画像入力部１１１に入力された場合、第一角度変換部１２１では、第一単一角度対応読唇部１３１の対応角度である０°に撮像方向が一致するように、画像入力部１１１に入力された口唇画像データの変換処理を行う。この場合、同様に、第二角度変換部１２２では、第二単一角度対応読唇部１３６の対応角度である４５°に撮像方向が一致するように、画像入力部１１１に入力された口唇画像データの変換処理を行う。また、第三角度変換部１２３では、複数角度対応読唇部１３７の対応角度である０°と４５°のうちのいずれか（ここでは０°）に撮像方向が一致するように、画像入力部１１１に入力された口唇画像データの変換処理を行う。

各角度変換部１２１，１２２，１２３は、アフィン変換のような線形写像を用いて変換してもよいし、機械学習や深層学習に基づいた変換モデルを用いて変換してもよい。また、各角度変換部１２１，１２２，１２３が変換した変換後のデータは、それぞれの読唇部１３１，１３６，１３７の入力データ形式に対応していればよく、例えば、画像データの形式でもよいし、変換モデルの中間表現の形式でもよい。

本変形例１によれば、各読唇部１３１，１３６，１３７に対し、それぞれの角度変換部１２１，１２２，１２３から受け取るデータ（画像データや中間表現）は、それぞれの読唇部１３１，１３６，１３７の対応角度に合致したものとなる。そのため、各読唇部１３１，１３６，１３７は、それぞれ高い精度で読唇処理を行うことができ、それぞれの読唇部１３１，１３６，１３７から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を読唇結果統合部１４１によって統合して得られる最終的な読唇結果（発話内容の認識結果）も高精度なものとなる。

〔変形例２〕
次に、上述した実施形態１における読唇装置１００の他の変形例（以下、本変形例を「変形例２」という。）について説明する。
図８は、本変形例２における読唇装置１００を示すブロック図である。
本変形例２における読唇装置１００は、図８に示すように、０°の対応角度で高精度な読唇処理が可能な第一単一角度対応読唇部１３１と、４５°の対応角度で高精度な読唇処理が可能な第二単一角度対応読唇部１３６と、０°及び３０°の２つの対応角度で高精度な読唇処理が可能な複数角度対応読唇部１３４という、３つの読唇部を備えている。

そして、本変形例２における読唇装置１００は、画像入力部１１１に入力された口唇画像データの撮像方向を推定する撮像方向推定部としての角度推定部１１２を備えている。例えば、上述した学習データ記憶媒体３２に記憶してある様々な角度から撮像された大量の顔画像データを利用して、機械学習や深層学習により、入力された顔画像データの撮像角度を推定するモデルを学習する。そして、これにより生成された角度推定モデルを角度推定部１１２のコンピュータにより実行することで、画像入力部１１１に入力された口唇画像データの撮像方向を推定する。

本変形例２の角度推定部１１２は、画像入力部１１１から顔画像データを受け取ると、その顔画像データの撮像角度を推定し、予め設定された角度ごとに確からしさを示す確信度を角度推定結果として出力する。例えば、角度推定部１１２は、予め設定された角度が０°、３０°、４５°、６０°であるとき、入力された顔画像データの撮像角度の推定結果として、０°の確信度が０．３、３０°の確信度が０．４、４５°の確信度が０．２、６０°の確信度が０．１といった情報を出力する。

本変形例２において、角度推定部１１２の角度推定結果は読唇結果統合部１４１に送られる。本変形例２の読唇結果統合部１４１は、角度推定部１１２から受け取った角度推定結果を用いて、３つの読唇部１３１，１３６，１３４で得られた各読唇処理結果を統合し、話者の発話内容の認識結果を最終的な読唇結果として生成する。

本変形例２における統合処理の一例としては、例えば、３つの読唇部１３１，１３６，１３４で得られた各読唇処理結果の信頼度スコアに対し、角度推定部１１２の角度推定結果に含まれるそれぞれの読唇部の対応角度に合致した推定角度の確信度を乗じる。例えば、前記の例で説明すると、対応角度が０°である第一単一角度対応読唇部１３１については信頼度スコアを０．３倍し、対応角度が４５°である第二単一角度対応読唇部１３６については信頼度スコアを０．２倍し、対応角度が０°と３０°の２つである複数角度対応読唇部１３４については信頼度スコアを０°と３０°の確信度のうちの高い方を用いて０．４倍するといった処理を行う。

このように角度推定結果を用いた後、読唇結果統合部１４１は、上述した実施形態１と同様、３つの読唇部１３１，１３６，１３４で得られた読唇処理結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に２以上の発話内容候補を統合結果としてもよい。また、例えば、角度推定結果を用いた後、読唇結果統合部１４１は、３つの読唇部１３１，１３６，１３４で得られた読唇処理結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された２以上の発話内容候補を統合結果としてもよい。

本変形例２によれば、画像入力部１１１から顔画像データの撮像角度を推定した角度推定結果を用いて、各読唇部１３１，１３６，１３４の読唇処理結果の重み付けを行うことができる。すなわち、角度推定部１１２での角度推定結果を用い、対応角度に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高める。これにより、読唇結果統合部１４１によって得られる最終的な読唇結果（発話内容の認識結果）を、より高精度なものとすることができる。

〔実施形態２〕
次に、本発明を、発話内容認識装置としてのマルチモーダル音声認識装置に適用した一実施形態（以下、本実施形態を「実施形態２」という。）について説明する。
本実施形態２のマルチモーダル音声認識装置は、読唇処理と音声認識処理という２種類の発話内容認識処理を用いて、話者が発話する発話内容の認識結果を出力する。

図９は、本実施形態２に係るマルチモーダル音声認識装置を示すブロック図である。
本実施形態２のマルチモーダル音声認識装置３００は、読唇認識処理部１０１と、音声認識処理部２０１と、認識結果統合部３０１とによって構成されている。

読唇認識処理部１０１の構成は、上述した実施形態１の読唇装置１００の構成を採用することができる。図９の例は、図１に示した読唇装置１００の構成を採用したものである。

音声認識処理部２０１は、主に、音声入力部２１１と音声認識部２３１とから構成されている。

音声入力部２１１は、発話を行っている話者の音声データの入力を受け付ける。本実施形態２の音声入力部２１１は、話者の音声を集音するマイクロフォン３や、話者の音声データを記憶した記憶媒体２に対し、有線または無線で通信可能に接続されている。マイクロフォン３からは、現に話者が発話しているリアルタイムの音声データが音声入力部２１１に入力される。記憶媒体２は、過去に話者が発話したときの音声データを記憶しており、記憶媒体２からは、過去の音声データが音声入力部２１１に入力される。

音声入力部２１１は、入力された音声データを、必要に応じて音声認識部２３１の入力に対応するようにデータ処理して、音声認識部２３１に受け渡す。例えば、入力された音声データからノイズを除去した音声信号を抽出し、その音声信号のデータを音声認識部２３１に受け渡す。

本実施形態２の音声認識部２３１は、所定の音声認識プログラムをコンピュータで実行することにより、音声入力部２１１に入力された音声データに対する音声認識処理を実行し、音声認識結果を生成する。本実施形態２の音声認識プログラムは、話者の音声データを含む学習データを用いて学習した音声認識モデル（学習済みモデル）を用いるが、プログラマーによってプログラミングされた音声認識プログラムを用いてもよい。

本実施形態２における音声認識モデル（学習済みモデル）は、入力されたデータ（音声データ）から話者の発話内容を推定するものであり、音声認識モデルから出力される推定結果（音声認識結果）の形式には、上述した機械読唇モデルの場合と同様、特に制限はない。一例として、本実施形態２では、読唇認識処理部１０１の形式に合わせて、入力されたデータ（音声データ）に対し、１又は２以上の発話内容候補（１つの語又は語系列など）と、その発話内容候補ごとの信頼度スコアとを含むデータを音声認識結果として出力する。

認識結果統合部３０１は、読唇認識処理部１０１の読唇結果統合部１４１から出力される認識結果（読唇結果）と、音声認識処理部２０１の音声認識部２３１から出力される認識結果（音声認識結果）とを統合して、最終的な発話内容の認識結果を出力する。

認識結果統合部３０１が行う統合処理は、精度の高い認識結果が得られるように（例えば、正解の発話内容の信頼度スコアが相対的に高くなるように）、読唇認識処理部１０１の認識結果（読唇結果）と、音声認識処理部２０１の認識結果（音声認識結果）とを統合する処理であれば、特に制限はない。

認識結果統合部３０１が行う統合処理の一例としては、例えば、２つの認識処理部１０１，２０１の認識結果のいずれにも含まれる共通の発話内容候補の中で最も信頼度スコアの高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの高い順に２以上の発話内容候補を統合結果としてもよい。
また、例えば、２つの認識処理部１０１，２０１の認識結果に含まれる発話内容候補ごとの信頼度スコアの合計値を算出し、合計値が最も高い発話内容候補を統合結果としてもよい。あるいは、信頼度スコアの合計値が算出された２以上の発話内容候補を統合結果としてもよい。

認識結果統合部３０１が行う統合処理の別例としては、２つの認識処理部１０１，２０１における中間表現から認識結果を得る学習済みモデル（統合モデル）を、例えばニューラルネットワークモデルによって予め学習しておく。そして、２つの認識処理部１０１，２０１で得られた認識結果に含まれる各中間表現（ベクトル等）を連結して１つの中間表現を生成し、認識結果統合部３０１のコンピュータで学習済みの統合モデルを実行して、当該１つの中間表現から１又は２以上の発話内容の認識結果を得て、これを統合結果とする。あるいは、当該１つの中間表現から１又は２以上の発話内容の認識結果に、それぞれの信頼度スコアを含めてもよい。

本実施形態２のマルチモーダル音声認識装置３００は、読唇認識処理部１０１が上述した実施形態１の読唇装置１００の構成を採用しているため、高い精度で読唇結果を得ることができる。

加えて、本実施形態２のマルチモーダル音声認識装置３００は、読唇装置と音声認識装置という互いに異なる２種類の発話内容認識方法を用いて認識結果を求め、これらの認識結果を統合して最終的な発話内容の認識結果を出力する。そのため、例えば、話者の発話内容を音声認識処理部２０１では高精度に認識困難な状況（例えば、雑音の多い環境、複数の話者が同時に発話することの多い会議環境など）であっても、読唇認識処理部１０１により当該発話内容を高精度に認識することが可能となる。また、例えば、話者の発話内容を読唇認識処理部１０１では高精度に認識困難な状況（例えば、低照明の暗い環境、話者の動き回る等により話者の口唇を撮像することが困難な環境など）であっても、音声認識処理部２０１により当該発話内容を高精度に認識することが可能となる。

このように本実施形態２のマルチモーダル音声認識装置３００によれば、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。このようなマルチモーダル音声認識装置３００は、具体的には、会議室またはオンラインにおける会議録自動生成システム、スマートフォンにおける音声入力インタフェースとして、好適に利用することができる。

〔実施形態３〕
次に、上述した実施形態２のマルチモーダル音声認識装置３００における読唇認識処理部１０１で用いられる機械読唇モデル及び音声認識処理部２０１で用いられる音声認識モデルを構築するための学習データを収集する学習データ収集システムの一実施形態（以下、本実施形態を「実施形態３」という。）について説明する。

図１０は、本実施形態３における学習データ収集システムの構成を示す説明図である。
本実施形態３の学習データ収集システムは、複数の撮像装置を有するカメラアレイ３１と、音声取得装置としての収録用マイクロフォン２１と、指示装置としてのディスプレイ４２と、制御装置４３とを備えている。そのほか、本実施形態３の学習データ収集システムは、通報部４１と、記憶装置としての学習データ記憶媒体３２とを備えている。

カメラアレイ３１は、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数のカメラ（撮像装置）３１－１～３１－１０によって構成されている。本実施形態３では、図１１に示すように、１０個の収録用カメラ３１－１～３１－１０が等間隔で配置されている。具体的には、話者の顔の正面方向から撮像したときの撮像方向を基準（０°）にした鉛直軸回りの角度を撮像角度とすると、各収録用カメラ３１－１～３１－１０は、０°～９０°までの間を１０°間隔で配置されている。このカメラアレイ３１により、発話する話者の口唇画像を各収録用カメラ３１－１～３１－１０によりそれぞれの撮像角度から同時に撮像することが可能である。

カメラアレイ３１は、学習データ記憶媒体３２に接続されており、各収録用カメラ３１－１～３１－１０によって撮像された話者の顔画像データ（口唇画像データ）は、学習データ記憶媒体３２に記憶され、蓄積される。また、カメラアレイ３１は、制御装置４３に接続され、制御装置４３により撮像動作が制御される。

なお、カメラアレイ３１を構成するカメラの数には特に制限はない。また、カメラアレイ３１を構成するカメラの配置は、本実施形態３では鉛直軸回りの撮像角度が互いに異なるように複数の収録用カメラ３１－１～３１－１０を水平面に沿って並べているが、これに限られない。例えば、水平軸回りや鉛直軸に対して傾斜した傾斜軸回りの撮像角度が互いに異なるように複数の収録用カメラ３１－１～３１－１０を並べてもよい。

収録用マイクロフォン２１は、カメラアレイ３１で撮像する対象である話者の音声を取得する。収録用マイクロフォン２１は、学習データ記憶媒体３２に接続されており、収録用マイクロフォン２１によって集音した音声データは、学習データ記憶媒体３２に記憶され、蓄積される。また、収録用マイクロフォン２１は、制御装置４３に接続され、制御装置４３により動作が制御される。収録用マイクロフォン２１は、例えば、ピンマイクを用いて話者の襟元などに設置しても良いし、スタンドマイクを話者の近傍に設置しても良い。このとき、カメラアレイ３１の各収録用カメラ３１－１～３１－１０によって話者の口唇画像を撮像するにあたり、収録用マイクロフォン２１が邪魔にならないように設置することが望ましい。

なお、カメラアレイ３１を構成するカメラが音声取得装置としての機能を備えている場合には、収録用マイクロフォン２１としてカメラの音声取得装置を利用してもよい。

ディスプレイ４２は、話者に指示する発話内容を表示する。ディスプレイ４２は、有線または無線で接続された制御装置４３によって表示内容が制御され、制御装置４３の制御の下、話者に対して指示する発話内容や、発話やり直しの指示などを行う。

通報部４１は、有線または無線で接続された制御装置４３によって動作が制御され、制御装置４３の制御の下、発話の開始と終了のタイミングを光や音等によって話者に通報する。

学習データ記憶媒体３２は、上述したように、カメラアレイ３１の各収録用カメラ３１－１～３１－１０で撮像した話者の顔画像データと、収録用マイクロフォン２１で集音した話者の音声データとを、時系列が特定できる形式で記憶する。具体的には、通報部４１によって発せられる発話開始同期信号及び発話収容同期信号を、各収録用カメラ３１－１～３１－１０で撮像した顔画像データ及び収録用マイクロフォン２１で集音した音声データに埋め込む。これにより、学習データ記憶媒体３２に記憶された顔画像データ及び音声データは、話者がディスプレイ４２により指示された発話内容を発話した時期と照らし合わせることができる。よって、ディスプレイ４２を介して話者に指示された発話内容と、その発話内容を発した時の話者の顔画像データ及び音声データとが対応づけられている。

学習データ記憶媒体３２は、カメラアレイ３１の各収録用カメラ３１－１～３１－１０及び収録用マイクロフォン２１のそれぞれに接続される複数の記憶媒体から構成される分散型の記憶装置であってもよいし、一台の記憶装置（ファイルサーバ等）によって構成されてもよい。

制御装置４３は、パーソナルコンピュータ等の情報処理装置によって構成され、本システム全体を制御する。具体的には、制御装置４３は、オペレータの指示操作により、カメラアレイ３１及び収録用マイクロフォン２１の収録を開始し、通報部４１を通じて発話開始同期信号を発するとともに発話開始タイミングを話者に指示し、ディスプレイ４２に発話内容を表示させて、話者に当該発話内容を発話させる。また、通報部４１を通じて発話終了同期信号を発するとともに発話終了タイミングを話者に指示し、カメラアレイ３１及び収録用マイクロフォン２１の収録を終了する。また、制御装置４３は、オペレータの指示操作により、ディスプレイ４２を通じて話者に対して発話やり直しを指示する。

本実施形態３の学習データ収集システムによれば、ディスプレイ４２によって指示された発話内容を発話する話者の口唇画像を複数の収録用カメラ３１－１～３１－１０によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を収録用マイクロフォン２１によって取得して、これらを学習データ記憶媒体３２に記憶することができる。これにより、異なる撮像角度から撮像された顔画像データ（口唇画像データ）とこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した実施形態２のマルチモーダル音声認識装置３００における読唇認識処理部１０１で用いられる機械読唇モデル及び音声認識処理部２０１で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。

なお、本実施形態３の学習データ収集システムは、上述した実施形態１の読唇装置１００の読唇装置１００で用いられる機械読唇モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することにも有益である。この場合、収録用マイクロフォン２１による収録は必ずしも必要ではない。

以上に説明したものは一例であり、本発明は、次の態様毎に特有の効果を奏する。
［第１態様］
第１態様は、話者の発話内容を認識する発話内容認識装置（例えば、読唇装置１００、マルチモーダル音声認識装置３００）であって、話者の口唇画像データ（例えば顔画像データ）を入力する入力部（例えば画像入力部１１１）と、対応方向（例えば対応角度）から撮像された口唇画像データに対する読唇精度の高い複数の読唇部（例えば、単一角度対応読唇部１３１，１３２，１３３，１３６、複数角度対応読唇部１３４，１３５，１３７）と、前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部（例えば読唇結果統合部１４１）とを有し、前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
一般に、入力部に入力された口唇画像データの読唇処理を行う読唇部は、入力される口唇画像データの撮像方向が特定の方向（対応方向）であるときに、高い精度（利用者の要求レベルを満たす精度）で読唇処理を行うことができ、発話内容の認識精度が高い。具体的には、例えば、対応方向が話者の顔の正面方向である読唇部は、話者の顔を正面から撮像したときの口唇画像データが入力されたときには読唇精度が高い。一方、この読唇部に対し、話者の顔を横や斜めから撮像したときの口唇画像データを入力したときには、読唇精度が落ち、高い読唇精度が得られない場合が多い。
本態様では、互いに異なる対応方向を有する複数の読唇部を用いて、入力部に入力された口唇画像データに対する読唇処理を実行する。このとき、本態様で用いられる複数の読唇部のうちの少なくとも１つの読唇部は、対応方向（高い読唇精度が得られる方向）が他のいずれかの読唇部における対応方向に含まれていない方向を含んでいる。そのため、これらの読唇部の対応方向のいずれかの方向と一致する方向から撮像された口唇画像データであれば、当該読唇部で高い読唇精度が得られ、その読唇処理結果から発話内容を高精度に認識することが可能である。したがって、本態様によれば、これらの複数の読唇部における対応方向の数の分だけ、発話内容を高精度に認識できる口唇画像データの撮像方向を増やすことができる。
ここで、複数の読唇部におけるいずれの対応方向とも一致しない方向から撮像された口唇画像データが入力部に入力された場合、個々の読唇部の読唇処理では十分な読唇精度が得られない。そのため、いずれかの読唇部の読唇処理結果だけを用いたのでは、このような口唇画像データについて発話内容を高精度に認識することはできない。
そこで、本態様では、統合生成部において、入力部に入力された口唇画像データに対する複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成するようにしている。これにより、個々の読唇部の各読唇処理結果は、正解である発話内容の確からしさ（信頼度）が不正解である他の発話内容の確からしさと比較して有意に高くない又は逆に低いという結果であっても、これらの読唇処理結果を統合することで、正解である発話内容の確からしさを際立たせ、不正解である他の発話内容の確からしさに対して有意な違いを出すことができる。例えば、個々の読唇部の各読唇処理結果に含まれる信頼度を発話内容候補ごとに積み上げることで、正解である発話内容について、不正解である他の発話内容に対して有意な違いをもった信頼度を導き出すことができる。したがって、上述した複数の読唇部の各読唇処理結果を統合し、その統合結果に基づいて発話内容の認識結果を生成することで、個々の読唇部の読唇処理では十分な読唇精度が得られない方向から撮像された口唇画像データについて発話内容を高精度に認識することができる。
よって、本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類（撮像方向）の口唇画像データについて発話内容を高精度に認識することができる。

［第２態様］
第２態様は、第１態様において、前記複数の読唇部は、当該対応方向が１つである単方向読唇部（例えば、単一角度対応読唇部１３１，１３２，１３３，１３６）を含むことを特徴とするものである。
対応方向が１つである単方向読唇部は、対応方向が２つ以上である複方向読唇部よりも簡易に構築することが可能である。よって、発話内容認識装置を簡易に実現しやすい。

［第３態様］
第３態様は、第１又は第２態様において、前記複数の読唇部は、当該対応方向が２つ以上である複方向読唇部（例えば、複数角度対応読唇部１３４，１３５，１３７）を含むことを特徴とするものである。
これによれば、読唇部の数を少なくでき、簡素な発話内容認識装置を実現しやすい。

［第４態様］
第４態様は、第１乃至第３態様のいずれかにおいて、前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも１つの読唇部の対応方向になるように変換したデータを生成するデータ変換部（例えば角度変換部１２１～１２３）を有し、前記少なくとも１つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とするものである。
これによれば、複数の読唇部には、それぞれの対応方向に合致した撮像方向の口唇画像データがそれぞれ入力されるので、各読唇部から高い精度の読唇処理結果を得ることができる。その結果、これらの読唇処理結果を統合生成部によって統合して得られる発話内容の認識結果も高精度なものとすることができる。

［第５態様］
第５態様は、第１乃至第４態様のいずれかにおいて、前記入力部に入力された口唇画像データの撮像方向を推定する撮像方向推定部（例えば角度推定部１１２）を有し、前記統合生成部は、前記撮像方向推定部の推定結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、入力部から顔画像データの撮像角度を撮像方向推定部により推定した推定結果を用いて、各読唇部の読唇処理結果の重み付けを行うことができる。すなわち、撮像方向推定部での推定結果を用い、対応方向に合致する推定角度の確信度が高い読唇部の読唇処理結果ほど重み付けを大きくして、当該読唇部の読唇処理結果が発話内容の認識結果に与える影響度を高めることができる。これにより、統合生成部によって得られる発話内容の認識結果を、より高精度なものとすることができる。

［第６態様］
第６態様は、第１乃至第５態様のいずれかにおいて、前記複数の読唇部は、読唇処理により推定された１又は第２以上の発話内容候補と発話内容候補ごとの信頼度情報（例えば信頼度スコア）とを含む読唇処理結果を生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とするものである。
これによれば、簡易な方法で、統合生成部において発話内容の認識結果を高精度に得ることができる。

［第７態様］
第７態様は、第１乃至第５態様のいずれかにおいて、前記複数の読唇部は、発話内容候補を推定するための中間情報（例えば中間表現）を読唇処理により読唇処理結果として生成し、前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とするものである。
これによれば、中間情報の学習データによって学習した学習済みモデル（統合モデル）を用いて、複数の読唇部の各読唇処理結果を統合することができ、統合生成部において発話内容の認識結果を高精度に得ることができる。

［第８態様］
第８態様は、第１乃至第７態様のいずれかにおいて、前記話者の音声データから該話者の発話内容を認識する音声認識部（例えば音声認識処理部２０１）を有し、前記統合生成部（例えば、読唇結果統合部１４１及び認識結果統合部３０１）は、前記音声認識部の認識結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とするものである。
これによれば、読唇処理と音声認識処理という２種類の発話内容認識処理を用いて話者が発話する発話内容の認識結果を出力するマルチモーダルの発話内容認識装置（例えばマルチモーダル音声認識装置３００）を実現できる。これにより、話者の発話内容の認識精度が話者の環境に左右されにくい、ロバスト性に優れた発話内容認識装置を実現できる。

［第９態様］
第９態様は、第１乃至第８態様のいずれかにおいて、前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とするものである。
これによれば、機械読唇モデルにより読唇処理を行うため、より高精度な読唇処理結果を得ることができる。

［第１０態様］
第１０態様は、第９態様の発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する学習データ収集システムであって、所定位置の話者を互いに異なる複数の撮像方向から撮像する複数の撮像装置（例えば収録用カメラ３１－１～３１－１０）と、前記話者の音声を取得する音声取得装置（例えば収録用マイクロフォン２１）と、前記話者に発話内容を指示する指示装置（例えばディスプレイ４２）と、前記指示装置に発話内容を指示させ、指示された発話内容を発話する前記話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置（例えば学習データ記憶媒体３２）に記憶する制御を実行する制御装置４３とを有することを特徴とするものである。
これによれば、指示装置によって指示された発話内容を発話する話者の口唇画像を複数の撮像装置によって互いに異なる撮像角度から同時に撮像するとともに、その時の話者の音声を音声取得装置によって取得して、これらを記憶装置に記憶することができる。これにより、異なる撮像角度から撮像された口唇画像データとこれに対応する音声データとを迅速かつ大量に収集することができる。よって、上述した第９態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。

［第１１態様］
第１１態様は、発話内容認識装置により話者の発話内容を認識する方法であって、話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類（撮像方向）の口唇画像データについて発話内容を高精度に認識することができる。

［第１２態様］
第１２態様は、話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするものである。
本態様によれば、上述した複数の読唇部における対応方向の数を超える、様々な種類（撮像方向）の口唇画像データについて発話内容を高精度に認識することができる。

［第１３態様］
第１３態様は、第１０態様の学習データ収集システムにより、前記発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する方法であって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶することを特徴とするものである。
本態様によれば、上述した第９態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。

［第１４態様］
第１４態様は、第１０態様の学習データ収集システムにおける前記制御装置のコンピュータに実行されるプログラムであって、前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御手段として、前記コンピュータを機能させることを特徴とするものである。
本態様によれば、上述した第９態様のマルチモーダル発話内容認識装置における読唇処理で用いられる機械読唇モデル及び音声認識処理で用いられる音声認識モデルを構築するために必要となる大量の学習データを、容易かつ迅速に収集することができる。

１：カメラ
２：記憶媒体
３：マイクロフォン
２１：収録用マイクロフォン
３１：カメラアレイ
３１－１～３１－１０：収録用カメラ
３２：学習データ記憶媒体
３３－１：第一学習部
３３－２：第二学習部
４１：通報部
４２：ディスプレイ
４３：制御装置
１００：読唇装置
１０１：読唇認識処理部
１１１：画像入力部
１１２：角度推定部
１２１～１２３：角度変換部
１３１，１３２，１３３，１３６：単一角度対応読唇部
１３４，１３５，１３７：複数角度対応読唇部
１４１：読唇結果統合部
２０１：音声認識処理部
２１１：音声入力部
２３１：音声認識部
３００：マルチモーダル音声認識装置
３０１：認識結果統合部

A. Koumparoulis et al., "Deep view2view mapping for view-invariant lipreading", IEEE SLT, 2018, p.588-594 S. Petridis et al., "End-to-end Multiview Lip Reading", IEEE ICASSP, 2018, p.6548-6552

Claims

話者の発話内容を認識する発話内容認識装置であって、
話者の口唇画像データを入力する入力部と、
対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部と、
前記入力部に入力された口唇画像データに対する前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成部とを有し、
前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とする発話内容認識装置。
請求項１に記載の発話内容認識装置において、
前記複数の読唇部は、当該対応方向が１つである単方向読唇部を含むことを特徴とする発話内容認識装置。
請求項１又は２に記載の発話内容認識装置において、
前記複数の読唇部は、当該対応方向が２つ以上である複方向読唇部を含むことを特徴とする発話内容認識装置。
請求項１乃至３のいずれか１項に記載の発話内容認識装置において、
前記入力部に入力された口唇画像データに基づいて、撮像方向が前記複数の読唇部のうちの少なくとも１つの読唇部の対応方向になるように変換したデータを生成するデータ変換部を有し、
前記少なくとも１つの読唇部は、前記データ変換部で変換されたデータを用いて読唇処理を行うことを特徴とする発話内容認識装置。
請求項１乃至４のいずれか１項に記載の発話内容認識装置において、
前記入力部に入力された口唇画像データの撮像方向を推定する撮像方向推定部を有し、
前記統合生成部は、前記撮像方向推定部の推定結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。
請求項１乃至５のいずれか１項に記載の発話内容認識装置において、
前記複数の読唇部は、読唇処理により推定された１又は２以上の発話内容候補と発話内容候補ごとの信頼度情報とを含む読唇処理結果を生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる信頼度情報を発話内容候補ごとに統合することを特徴とする発話内容認識装置。
請求項１乃至５のいずれか１項に記載の発話内容認識装置において、
前記複数の読唇部は、発話内容候補を推定するための中間情報を読唇処理により読唇処理結果として生成し、
前記統合生成部は、前記複数の読唇部の各読唇処理結果に含まれる中間情報を統合することを特徴とする発話内容認識装置。
請求項１乃至７のいずれか１項に記載の発話内容認識装置において、
前記話者の音声データから該話者の発話内容を認識する音声認識部を有し、
前記統合生成部は、前記音声認識部の認識結果を用いて、前記話者の発話内容の認識結果を生成することを特徴とする発話内容認識装置。
請求項１乃至８のいずれか１項に記載の発話内容認識装置において、
前記複数の読唇部は、話者の口唇画像データを含む学習データを用いて学習した機械読唇モデルをコンピュータに実行させることにより、前記入力部に入力された口唇画像データの読唇処理を行う読唇部を含むことを特徴とする発話内容認識装置。
請求項９に記載の発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する学習データ収集システムであって、
所定位置の話者を互いに異なる複数の撮像方向から撮像する複数の撮像装置と、
前記話者の音声を取得する音声取得装置と、
前記話者に発話内容を指示する指示装置と、
前記指示装置に発話内容を指示させ、指示された発話内容を発話する前記話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御装置とを有することを特徴とする学習データ収集システム。
発話内容認識装置により話者の発話内容を認識する方法であって、
話者の口唇画像データを前記発話内容認識装置に入力する入力工程と、
前記発話内容認識装置が、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇部を用いて、前記入力工程で入力された口唇画像データの読唇処理を行う読唇工程と、
前記発話内容認識装置が、前記読唇工程によって得られた前記複数の読唇部の各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成工程とを有し、
前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とする方法。
話者の発話内容を認識する発話内容認識装置のコンピュータに実行されるプログラムであって、
前記発話内容認識装置に入力された口唇画像データに対し、対応方向から撮像された口唇画像データに対する読唇精度の高い複数の読唇手段によりそれぞれ読唇処理した各読唇処理結果を統合し、当該統合の結果に基づいて前記話者の発話内容の認識結果を生成する統合生成手段として、前記コンピュータを機能させるものであり、
前記複数の読唇部のうちの少なくとも１つの読唇部は、当該対応方向の中に、他のいずれかの読唇部における対応方向に含まれていない方向を含むように構成されていることを特徴とするプログラム。
請求項１０に記載の学習データ収集システムにより、前記発話内容認識装置で用いられる前記機械読唇モデルを構築するための学習データを収集する方法であって、
前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶することを特徴とする方法。
請求項１０に記載の学習データ収集システムにおける前記制御装置のコンピュータに実行されるプログラムであって、
前記指示装置に発話内容を指示させ、指示された発話内容を発話する話者の口唇画像を前記複数の撮像装置により同時に撮像するとともに、該話者の音声を前記音声取得装置により取得し、得られた口唇画像データ及び音声データを記憶装置に記憶する制御を実行する制御手段として、前記コンピュータを機能させることを特徴とするプログラム。