JP7370050B2

JP7370050B2 - 読唇装置及び読唇方法

Info

Publication number: JP7370050B2
Application number: JP2019213234A
Authority: JP
Inventors: 剛史齊藤
Original assignee: Kyushu Institute of Technology NUC
Current assignee: Kyushu Institute of Technology NUC
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-10-27
Anticipated expiration: 2039-11-26
Also published as: JP2021086274A

Description

本発明は、発話者の口唇特徴に加え、表情特徴を考慮することにより、発話内容を高精度で推定することができる読唇装置及び読唇方法に関する。

従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく（音声情報を必要とせず）、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献１には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードＤＢと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。

特開２０１２－５９０１７号公報

特許文献１をはじめとするコンピュータを用いた従来の読唇技術では、登録モード（学習モード、学習時）において、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴を機械学習で学習している。しかし、発話内容は、発話者の表情全体に影響を与えるため、口唇周辺領域の動きの特徴のみを学習するだけでは、認識モード（評価時）において得られる認識率（発話内容の推定精度）に限界があった。また、従来は、登録モードにおいて、機械学習を行って識別器（学習モデル）を構築する際に、学習するデータ数を増やすため、年代及び性別が異なる様々な発話者のデータを区別することなく用いていた。しかし、発話内容が同一であっても、発話者の年代及び性別の違いにより、発話時の表情に違いが生じ（異なる特徴が現れ）、認識率に影響を及ぼす可能性があった。
本発明は、かかる事情に鑑みてなされたもので、発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮して、学習及び評価を行うことにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供することを目的とする。

前記目的に沿う第１の発明に係る読唇装置は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有する。

第１の発明に係る読唇装置において、前記学習処理部で構築される前記学習モデルは、前記学習対象発話者の年齢及び／又は性別に対応して属性別に構築され、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び／又は性別を推定し、推定された前記評価対象発話者の年齢及び／又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することが好ましい。

第１の発明に係る読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えてもよい。

第１の発明に係る読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えることができる。

第１の発明に係る読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び／又は音声で出力するスピーカを備えることが好ましい。

前記目的に沿う第２の発明に係る読唇方法は、学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第１工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第２工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第３工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第４工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第５工程と、前記学習時第１工程～前記学習時第５工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第６工程と、前記学習モデルを保存する学習時第７工程と、保存された前記学習モデルを読み込む評価時第１工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第２工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第３工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第４工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第５工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第６工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第７工程とを備える。

第２の発明に係る読唇方法において、前記学習時第６工程で構築される前記学習モデルは、前記学習対象発話者の年齢及び／又は性別に対応して属性別に構築されることが好ましい。

第２の発明に係る読唇方法において、前記評価時第７工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び／又は性別を推定し、推定された年齢及び／又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することができる。

第１の発明に係る読唇装置及び第２の発明に係る読唇方法は、発話者（学習対象発話者及び評価対象発話者をまとめて発話者という）の口唇特徴に加え、表情特徴も考慮して機械学習を行うことにより、評価時に、発話内容を高精度で推定することができる。特に、発話者の年齢及び／又は性別も考慮して機械学習を行い、発話内容の推定を行った場合、認識率をさらに高めることができる。

本発明の一実施の形態に係る読唇装置の構成を示すブロック図である。同読唇装置の画像処理部の機能を示すブロック図である。（Ａ）、（Ｂ）はそれぞれ同読唇装置の顔特徴点検出手段で検出された顔特徴点を示す説明図である。本発明の一実施の形態に係る読唇方法の学習時の動作を示すフローチャートである。同読唇方法の評価時の動作を示すフローチャートである。

続いて、本発明を具体化した実施の形態について説明し、本発明の理解に供する。
図１に示す本発明の一実施の形態に係る読唇装置１０及び読唇方法は、発話内容が既知の学習対象発話者の発話時の口唇特徴及び表情特徴等を機械学習することにより、評価対象発話者の発話内容を高精度で推定するものである。
図１に示すように、読唇装置１０は、学習対象発話者及び評価対象発話者の発話シーンを撮影（記録）する撮影手段１１を備えている。そして、読唇装置１０は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段１１から読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を撮影手段１１から読み込む画像取得部１３を備えている。また、読唇装置１０は、画像取得部１３に読み込まれた学習対象画像及び評価対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び評価対象データを抽出する画像処理部１４を備えている。さらに、読唇装置１０は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部１５と、学習モデルを保存する読唇データベース１６を備えている。そして、読唇装置１０は、評価時に、評価対象データと、読唇データベース１６に保存された学習モデルから、機械学習により、評価対象発話者の発話内容を推定する認識処理部１７を備えている。ここで、読唇装置１０は、図１に示すように、画像取得部１３、画像処理部１４、学習処理部１５、読唇データベース１６及び認識処理部１７を含んで構成されるが、読唇装置１０に用いられる読唇方法を実行するプログラムがコンピュータ１８にインストールされ、コンピュータ１８のＣＰＵがそのプログラムを実行することにより、コンピュータ１８を上記の画像取得部１３、画像処理部１４、学習処理部１５、読唇データベース１６及び認識処理部１７として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部１３、画像処理部１４、学習処理部１５、読唇データベース１６及び認識処理部１７の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段をコンピュータ（画像取得部）に接続して学習対象画像又は評価対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよい。なお、撮影手段をコンピュータ（画像取得部）に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶装置を撮影手段からコンピュータ（画像取得部）に挿し代えて画像を読み込むこともできる。

また、読唇装置１０は、認識処理部１７で推定された評価対象発話者の発話内容を出力する認識結果出力部１９を備えている。本実施の形態では、認識結果出力部１９は、認識処理部１７で推定された評価対象発話者の発話内容を文字で表示するディスプレイ２０及び音声で出力するスピーカ２１を備える構成としたが、読唇装置１０の使用場所及び使用環境等に応じて、ディスプレイ２０及びスピーカ２１のいずれか一方又は双方を適宜、選択して使用することができる。なお、ディスプレイ及びスピーカは、コンピュータの付属品若しくは内蔵品でもよいし、別途、コンピュータに後付け（外付け）したものでもよい。また、認識結果出力部は、ディスプレイ又はスピーカの一方のみを備える構成としてもよい。

次に、図２により、画像処理部１４の詳細について説明する。
画像処理部１４は、学習時に、学習対象画像から学習対象発話者の顔領域を検出し、評価時に、評価対象画像から評価対象発話者の顔領域を検出する顔検出手段２２を備えている。また、画像処理部１４は、顔検出手段２２で検出された各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段２３と、顔特徴点検出手段２３で検出された各顔領域の顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段２４を備えている。そして、画像処理部１４は、学習時に、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価時に、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段２５を備えている。

顔特徴点検出手段２３で検出される顔特徴点は、例えば図３（Ａ）、（Ｂ）に示すように、発話者の顔の輪郭並びに眉、目、鼻及び口の位置と形状を表すものである。本実施の形態では、特徴点数を６８点としたが、特徴点数は、これに限定されることなく、適宜、増減させることができる。
コンピュータを用いた従来の読唇技術では、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴のみを機械学習で学習していたが、読唇装置１０では、発話者の顔領域、顔特徴点及び口唇領域から、表情特徴及び口唇特徴を抽出することにより、発話時の口唇周辺領域の動きだけでなく、発話者の顔全体の表情の特徴（例えば、眉、目及び口等の位置、形状及び角度等の変化）を併せて機械学習することができ、認識率（発話内容の推定精度）を向上させることができる。

また、学習処理部１５は、学習時に、学習対象データに基づいて学習対象発話者の年齢及び／又は性別も含めて読唇の機械学習を行い、学習対象発話者の年齢及び／又は性別に対応した属性別の学習モデルを構築することができる。そして、認識処理部１７は、評価時に、評価対象データから、別途、属性認識の機械学習により、評価対象発話者の年齢及び／又は性別を推定し、推定された年齢及び／又は性別に対応した属性の学習モデルを選択して、評価対象発話者の発話内容の推定に利用することができる。このように、学習時及び評価時に、発話者の年齢及び／又は性別も考慮して機械学習を行うことにより、発話者の年代及び／又は性別の違いが発話時の表情に与える影響を取り除いて認識率をさらに向上させることができる。

次に、図４により、本発明の一実施の形態に係る読唇方法の学習時の動作について説明する。
まず、学習時第１工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部１３に読み込む（Ｓ１）。次に、学習時第２工程で、画像処理部１４の顔検出手段２２により、学習対象画像から学習対象発話者の顔領域を検出する（Ｓ２）。続いて、学習時第３工程で、画像処理部１４の顔特徴点検出手段２３により、学習対象発話者の顔領域から学習対象発話者の顔特徴点を検出し（Ｓ３）、学習時第４工程で、画像処理部１４の口唇領域検出手段２４により、学習対象発話者の顔特徴点から学習対象発話者の口唇領域を検出する（Ｓ４）。さらに、学習時第５工程で、画像処理部１４の特徴検出手段２５により、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出する（Ｓ５）。以上の学習時第１工程～学習時第５工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第６工程で、学習処理部１５により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行う。このとき、学習対象発話者の年齢及び／又は性別等の属性認識も含めて機械学習を行うことにより、学習対象発話者の年齢及び／又は性別に対応した属性別の学習モデルを構築する（Ｓ６）。こうして構築された属性別の各学習モデルは、学習時第７工程において、読唇データベース１６に保存される（Ｓ７）。

続いて、図５により、読唇方法の評価時の動作について説明する。
まず、評価時第１工程で、読唇データベース１６に保存された属性別の各学習モデル（学習済みモデル）を読み込む（Ｓ１）。そして、評価時第２工程で、評価対象発話者の発話シーンが記録された評価対象画像を画像取得部１３に読み込む（Ｓ２）。次に、評価時第３工程で、画像処理部１４の顔検出手段２２により、評価対象画像から評価対象発話者の顔領域を検出する（Ｓ３）。続いて、評価時第４工程で、画像処理部１４の顔特徴点検出手段２３により、評価対象発話者の顔領域から評価対象発話者の顔特徴点を検出し（Ｓ４）、評価時第５工程で、画像処理部１４の口唇領域検出手段２４により、評価対象発話者の顔特徴点から評価対象発話者の口唇領域を検出する（Ｓ５）。さらに、評価時第６工程で、画像処理部１４の特徴検出手段２５により、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する（Ｓ６）。そして、評価時第７工程で、評価対象データから、機械学習（属性認識）により、評価対象発話者の年齢及び／又は性別を推定し（Ｓ７）、評価対象データと、推定された年齢及び／又は性別に対応した属性の学習モデルから、機械学習（読唇処理）により、評価対象発話者の発話内容を推定する（Ｓ８）。推定された発話内容（評価結果）は、文字及び／又は音声に変換され、評価結果出力部１９のディスプレイ２０及び／又はスピーカ２１から出力される（Ｓ９）。

表情特徴の抽出には、顔の動作解析ツールとして知られているＯｐｅｎＦａｃｅのＡｃｔｉｏｎＵｎｉｔｓの特徴量を利用することが好ましいが、これに限定されるものではない。また、機械学習では、深層学習の一種であるゲート付き回帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）を利用し、表情特徴及び口唇特徴をそれぞれ学習してから融合（統合）するｌａｔｅｆｕｓｉｏｎを用いることにより、認識率（発話内容の推定精度）を向上させることができるが、これらに限定されることなく、様々なアルゴリズムを用いることができる。

次に、本発明の作用効果を確認するために行った実施例について説明する。
（実施例１）
学習対象発話者を男性のみ１６名、女性のみ１６名及び男女８名ずつとして、それぞれ本発明の読唇方法の学習時第１工程～学習時第７工程を行い、属性別の３種類の学習モデルを構築した。そして、評価対象発話者を男性のみ８名又は女性のみ８名として、評価時第１工程～評価時第６工程を行い、評価時第７工程では、評価対象発話者の属性（性別）に関係なく、上記３種類の学習モデルをそれぞれ用いて発話内容を推定し、それぞれの認識率を求めた。その結果を表１に示す。なお、学習対象発話者及び評価対象発話者の年齢については考慮していない。

表１より、評価対象発話者が男性の場合、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。また、評価対象発話者が女性の場合、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。これにより、評価対象発話者の性別と学習対象発話者の性別を一致させることにより、高い認識率が得られることが確認された。

（実施例２）
０～９の１０種の数字を英語で発話した場合、１０種の挨拶文を英語で発話した場合、及び０～９の１０種の数字を日本語で発話した場合のそれぞれの発話内容につき、本発明の読唇方法を用いて学習と評価を行い、認識率を求めた。また、比較のため、口唇特徴のみを用いて学習と評価を行った時の認識率と、表情特徴のみを用いて学習と評価を行った時の認識率も求めた。その結果を表２に示す。なお、いずれの場合も、学習対象発話者及び評価対象発話者は男女混合とし、年齢についても考慮していない。つまり、ここでは、学習対象発話者及び評価対象発話者の属性認識は行わず、表情特徴と口唇特徴を組合せた効果のみを確認した。

表２より、発話内容に関わらず、表情特徴と口唇特徴を組合せて学習と評価を行った本発明の読唇方法の認識率が最も高く、表情特徴のみで学習と評価を行った読唇方法の認識率が最も低いことがわかった。これにより、表情特徴と口唇特徴を組合せて学習と評価を行う本発明の読唇方法により、高い認識率が得られることが確認された。

以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。

１０：読唇装置、１１：撮影手段、１３：画像取得部、１４：画像処理部、１５：学習処理部、１６：読唇データベース、１７：認識処理部、１８：コンピュータ、１９：認識結果出力部、２０：ディスプレイ、２１：スピーカ、２２：顔検出手段、２３：顔特徴点検出手段、２４：口唇領域抽出手段、２５：特徴抽出手段

Claims

学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び／又は性別に対応して属性別に学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。
請求項１記載の読唇装置において、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び／又は性別を推定し、推定された前記評価対象発話者の年齢及び／又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することを特徴とする読唇装置。
請求項１記載の読唇装置において、前記特徴抽出手段は、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の前記口唇特徴に加え前記学習対象発話者の表情特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の前記口唇特徴に加え前記評価対象発話者の表情特徴を抽出することを特徴とする読唇装置。
請求項１～３のいずれか１記載の読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えたことを特徴とする読唇装置。
請求項１～４のいずれか１記載の読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする読唇装置。
請求項５記載の読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び／又は音声で出力するスピーカを備えたことを特徴とする読唇装置。
学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第１工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第２工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第３工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第４工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第５工程と、前記学習時第１工程～前記学習時第５工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び／又は性別に対応して属性別に学習モデルを構築する学習時第６工程と、前記学習モデルを保存する学習時第７工程と、保存された前記学習モデルを読み込む評価時第１工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第２工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第３工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第４工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第５工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第６工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第７工程とを備えたことを特徴とする読唇方法。
請求項７記載の読唇方法において、前記評価時第７工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び／又は性別を推定し、推定された年齢及び／又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することを特徴とする読唇方法。