JP7370050B2 - 読唇装置及び読唇方法 - Google Patents

読唇装置及び読唇方法 Download PDF

Info

Publication number
JP7370050B2
JP7370050B2 JP2019213234A JP2019213234A JP7370050B2 JP 7370050 B2 JP7370050 B2 JP 7370050B2 JP 2019213234 A JP2019213234 A JP 2019213234A JP 2019213234 A JP2019213234 A JP 2019213234A JP 7370050 B2 JP7370050 B2 JP 7370050B2
Authority
JP
Japan
Prior art keywords
learning
lip
evaluation
speaker
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019213234A
Other languages
English (en)
Other versions
JP2021086274A (ja
Inventor
剛史 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Original Assignee
Kyushu Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC filed Critical Kyushu Institute of Technology NUC
Priority to JP2019213234A priority Critical patent/JP7370050B2/ja
Publication of JP2021086274A publication Critical patent/JP2021086274A/ja
Application granted granted Critical
Publication of JP7370050B2 publication Critical patent/JP7370050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、発話者の口唇特徴に加え、表情特徴を考慮することにより、発話内容を高精度で推定することができる読唇装置及び読唇方法に関する。
従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。
特開2012-59017号公報
特許文献1をはじめとするコンピュータを用いた従来の読唇技術では、登録モード(学習モード、学習時)において、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴を機械学習で学習している。しかし、発話内容は、発話者の表情全体に影響を与えるため、口唇周辺領域の動きの特徴のみを学習するだけでは、認識モード(評価時)において得られる認識率(発話内容の推定精度)に限界があった。また、従来は、登録モードにおいて、機械学習を行って識別器(学習モデル)を構築する際に、学習するデータ数を増やすため、年代及び性別が異なる様々な発話者のデータを区別することなく用いていた。しかし、発話内容が同一であっても、発話者の年代及び性別の違いにより、発話時の表情に違いが生じ(異なる特徴が現れ)、認識率に影響を及ぼす可能性があった。
本発明は、かかる事情に鑑みてなされたもので、発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮して、学習及び評価を行うことにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供することを目的とする。
前記目的に沿う第1の発明に係る読唇装置は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有する。
第1の発明に係る読唇装置において、前記学習処理部で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築され、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することが好ましい。
第1の発明に係る読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えてもよい。
第1の発明に係る読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えることができる。
第1の発明に係る読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えることが好ましい。
前記目的に沿う第2の発明に係る読唇方法は、学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備える。
第2の発明に係る読唇方法において、前記学習時第6工程で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築されることが好ましい。
第2の発明に係る読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することができる。
第1の発明に係る読唇装置及び第2の発明に係る読唇方法は、発話者(学習対象発話者及び評価対象発話者をまとめて発話者という)の口唇特徴に加え、表情特徴も考慮して機械学習を行うことにより、評価時に、発話内容を高精度で推定することができる。特に、発話者の年齢及び/又は性別も考慮して機械学習を行い、発話内容の推定を行った場合、認識率をさらに高めることができる。
本発明の一実施の形態に係る読唇装置の構成を示すブロック図である。 同読唇装置の画像処理部の機能を示すブロック図である。 (A)、(B)はそれぞれ同読唇装置の顔特徴点検出手段で検出された顔特徴点を示す説明図である。 本発明の一実施の形態に係る読唇方法の学習時の動作を示すフローチャートである。 同読唇方法の評価時の動作を示すフローチャートである。
続いて、本発明を具体化した実施の形態について説明し、本発明の理解に供する。
図1に示す本発明の一実施の形態に係る読唇装置10及び読唇方法は、発話内容が既知の学習対象発話者の発話時の口唇特徴及び表情特徴等を機械学習することにより、評価対象発話者の発話内容を高精度で推定するものである。
図1に示すように、読唇装置10は、学習対象発話者及び評価対象発話者の発話シーンを撮影(記録)する撮影手段11を備えている。そして、読唇装置10は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段11から読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を撮影手段11から読み込む画像取得部13を備えている。また、読唇装置10は、画像取得部13に読み込まれた学習対象画像及び評価対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び評価対象データを抽出する画像処理部14を備えている。さらに、読唇装置10は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部15と、学習モデルを保存する読唇データベース16を備えている。そして、読唇装置10は、評価時に、評価対象データと、読唇データベース16に保存された学習モデルから、機械学習により、評価対象発話者の発話内容を推定する認識処理部17を備えている。ここで、読唇装置10は、図1に示すように、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17を含んで構成されるが、読唇装置10に用いられる読唇方法を実行するプログラムがコンピュータ18にインストールされ、コンピュータ18のCPUがそのプログラムを実行することにより、コンピュータ18を上記の画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段をコンピュータ(画像取得部)に接続して学習対象画像又は評価対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよい。なお、撮影手段をコンピュータ(画像取得部)に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶装置を撮影手段からコンピュータ(画像取得部)に挿し代えて画像を読み込むこともできる。
また、読唇装置10は、認識処理部17で推定された評価対象発話者の発話内容を出力する認識結果出力部19を備えている。本実施の形態では、認識結果出力部19は、認識処理部17で推定された評価対象発話者の発話内容を文字で表示するディスプレイ20及び音声で出力するスピーカ21を備える構成としたが、読唇装置10の使用場所及び使用環境等に応じて、ディスプレイ20及びスピーカ21のいずれか一方又は双方を適宜、選択して使用することができる。なお、ディスプレイ及びスピーカは、コンピュータの付属品若しくは内蔵品でもよいし、別途、コンピュータに後付け(外付け)したものでもよい。また、認識結果出力部は、ディスプレイ又はスピーカの一方のみを備える構成としてもよい。
次に、図2により、画像処理部14の詳細について説明する。
画像処理部14は、学習時に、学習対象画像から学習対象発話者の顔領域を検出し、評価時に、評価対象画像から評価対象発話者の顔領域を検出する顔検出手段22を備えている。また、画像処理部14は、顔検出手段22で検出された各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段23と、顔特徴点検出手段23で検出された各顔領域の顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段24を備えている。そして、画像処理部14は、学習時に、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価時に、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段25を備えている。
顔特徴点検出手段23で検出される顔特徴点は、例えば図3(A)、(B)に示すように、発話者の顔の輪郭並びに眉、目、鼻及び口の位置と形状を表すものである。本実施の形態では、特徴点数を68点としたが、特徴点数は、これに限定されることなく、適宜、増減させることができる。
コンピュータを用いた従来の読唇技術では、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴のみを機械学習で学習していたが、読唇装置10では、発話者の顔領域、顔特徴点及び口唇領域から、表情特徴及び口唇特徴を抽出することにより、発話時の口唇周辺領域の動きだけでなく、発話者の顔全体の表情の特徴(例えば、眉、目及び口等の位置、形状及び角度等の変化)を併せて機械学習することができ、認識率(発話内容の推定精度)を向上させることができる。
また、学習処理部15は、学習時に、学習対象データに基づいて学習対象発話者の年齢及び/又は性別も含めて読唇の機械学習を行い、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築することができる。そして、認識処理部17は、評価時に、評価対象データから、別途、属性認識の機械学習により、評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の学習モデルを選択して、評価対象発話者の発話内容の推定に利用することができる。このように、学習時及び評価時に、発話者の年齢及び/又は性別も考慮して機械学習を行うことにより、発話者の年代及び/又は性別の違いが発話時の表情に与える影響を取り除いて認識率をさらに向上させることができる。
次に、図4により、本発明の一実施の形態に係る読唇方法の学習時の動作について説明する。
まず、学習時第1工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部13に読み込む(S1)。次に、学習時第2工程で、画像処理部14の顔検出手段22により、学習対象画像から学習対象発話者の顔領域を検出する(S2)。続いて、学習時第3工程で、画像処理部14の顔特徴点検出手段23により、学習対象発話者の顔領域から学習対象発話者の顔特徴点を検出し(S3)、学習時第4工程で、画像処理部14の口唇領域検出手段24により、学習対象発話者の顔特徴点から学習対象発話者の口唇領域を検出する(S4)。さらに、学習時第5工程で、画像処理部14の特徴検出手段25により、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出する(S5)。以上の学習時第1工程~学習時第5工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第6工程で、学習処理部15により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行う。このとき、学習対象発話者の年齢及び/又は性別等の属性認識も含めて機械学習を行うことにより、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築する(S6)。こうして構築された属性別の各学習モデルは、学習時第7工程において、読唇データベース16に保存される(S7)。
続いて、図5により、読唇方法の評価時の動作について説明する。
まず、評価時第1工程で、読唇データベース16に保存された属性別の各学習モデル(学習済みモデル)を読み込む(S1)。そして、評価時第2工程で、評価対象発話者の発話シーンが記録された評価対象画像を画像取得部13に読み込む(S2)。次に、評価時第3工程で、画像処理部14の顔検出手段22により、評価対象画像から評価対象発話者の顔領域を検出する(S3)。続いて、評価時第4工程で、画像処理部14の顔特徴点検出手段23により、評価対象発話者の顔領域から評価対象発話者の顔特徴点を検出し(S4)、評価時第5工程で、画像処理部14の口唇領域検出手段24により、評価対象発話者の顔特徴点から評価対象発話者の口唇領域を検出する(S5)。さらに、評価時第6工程で、画像処理部14の特徴検出手段25により、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する(S6)。そして、評価時第7工程で、評価対象データから、機械学習(属性認識)により、評価対象発話者の年齢及び/又は性別を推定し(S7)、評価対象データと、推定された年齢及び/又は性別に対応した属性の学習モデルから、機械学習(読唇処理)により、評価対象発話者の発話内容を推定する(S8)。推定された発話内容(評価結果)は、文字及び/又は音声に変換され、評価結果出力部19のディスプレイ20及び/又はスピーカ21から出力される(S9)。
表情特徴の抽出には、顔の動作解析ツールとして知られているOpen FaceのAction Unitsの特徴量を利用することが好ましいが、これに限定されるものではない。また、機械学習では、深層学習の一種であるゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)を利用し、表情特徴及び口唇特徴をそれぞれ学習してから融合(統合)するlate fusionを用いることにより、認識率(発話内容の推定精度)を向上させることができるが、これらに限定されることなく、様々なアルゴリズムを用いることができる。
次に、本発明の作用効果を確認するために行った実施例について説明する。
(実施例1)
学習対象発話者を男性のみ16名、女性のみ16名及び男女8名ずつとして、それぞれ本発明の読唇方法の学習時第1工程~学習時第7工程を行い、属性別の3種類の学習モデルを構築した。そして、評価対象発話者を男性のみ8名又は女性のみ8名として、評価時第1工程~評価時第6工程を行い、評価時第7工程では、評価対象発話者の属性(性別)に関係なく、上記3種類の学習モデルをそれぞれ用いて発話内容を推定し、それぞれの認識率を求めた。その結果を表1に示す。なお、学習対象発話者及び評価対象発話者の年齢については考慮していない。
Figure 0007370050000001
表1より、評価対象発話者が男性の場合、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。また、評価対象発話者が女性の場合、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。これにより、評価対象発話者の性別と学習対象発話者の性別を一致させることにより、高い認識率が得られることが確認された。
(実施例2)
0~9の10種の数字を英語で発話した場合、10種の挨拶文を英語で発話した場合、及び0~9の10種の数字を日本語で発話した場合のそれぞれの発話内容につき、本発明の読唇方法を用いて学習と評価を行い、認識率を求めた。また、比較のため、口唇特徴のみを用いて学習と評価を行った時の認識率と、表情特徴のみを用いて学習と評価を行った時の認識率も求めた。その結果を表2に示す。なお、いずれの場合も、学習対象発話者及び評価対象発話者は男女混合とし、年齢についても考慮していない。つまり、ここでは、学習対象発話者及び評価対象発話者の属性認識は行わず、表情特徴と口唇特徴を組合せた効果のみを確認した。
Figure 0007370050000002
表2より、発話内容に関わらず、表情特徴と口唇特徴を組合せて学習と評価を行った本発明の読唇方法の認識率が最も高く、表情特徴のみで学習と評価を行った読唇方法の認識率が最も低いことがわかった。これにより、表情特徴と口唇特徴を組合せて学習と評価を行う本発明の読唇方法により、高い認識率が得られることが確認された。
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。
10:読唇装置、11:撮影手段、13:画像取得部、14:画像処理部、15:学習処理部、16:読唇データベース、17:認識処理部、18:コンピュータ、19:認識結果出力部、20:ディスプレイ、21:スピーカ、22:顔検出手段、23:顔特徴点検出手段、24:口唇領域抽出手段、25:特徴抽出手段

Claims (8)

  1. 学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
    前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。
  2. 請求項1記載の読唇装置において、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することを特徴とする読唇装置。
  3. 請求項1記載の読唇装置において、前記特徴抽出手段は、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の前記口唇特徴に加え前記学習対象発話者の表情特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の前記口唇特徴に加え前記評価対象発話者の表情特徴を抽出することを特徴とする読唇装置。
  4. 請求項1~3のいずれか1記載の読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えたことを特徴とする読唇装置。
  5. 請求項1~のいずれか1記載の読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする読唇装置。
  6. 請求項記載の読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えたことを特徴とする読唇装置。
  7. 学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備えたことを特徴とする読唇方法。
  8. 請求項7記載の読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することを特徴とする読唇方法。
JP2019213234A 2019-11-26 2019-11-26 読唇装置及び読唇方法 Active JP7370050B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019213234A JP7370050B2 (ja) 2019-11-26 2019-11-26 読唇装置及び読唇方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019213234A JP7370050B2 (ja) 2019-11-26 2019-11-26 読唇装置及び読唇方法

Publications (2)

Publication Number Publication Date
JP2021086274A JP2021086274A (ja) 2021-06-03
JP7370050B2 true JP7370050B2 (ja) 2023-10-27

Family

ID=76087706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019213234A Active JP7370050B2 (ja) 2019-11-26 2019-11-26 読唇装置及び読唇方法

Country Status (1)

Country Link
JP (1) JP7370050B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置
CN113869153B (zh) * 2021-09-15 2024-06-07 天津大学 唇部图像采集装置、唇语识别系统及在线唇语交互系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045282A (ja) 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013045282A (ja) 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Masaya Iwasaki, Michiko Kubokawa, Takeshi Saitoh,Two Features Combination with Gated Recurrent Unit for Visual Speech Recognition,2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA),日本,IEEE,2017年05月12日,P.326-329
間瀬 健二,オプティカルフローを用いた読唇,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,1990年06月25日,Vol.J73-D-II No.6,P.796-803
齊藤 剛史,読唇に有効な顔モデルの検討,電子情報通信学会技術研究報告 Vol.111 No.500,日本,社団法人電子情報通信学会,2012年03月22日,PRMU2011-275, HIP2011-103 (2012-3),P.217-222

Also Published As

Publication number Publication date
JP2021086274A (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
Agarwal et al. Detecting deep-fake videos from phoneme-viseme mismatches
US10460732B2 (en) System and method to insert visual subtitles in videos
Varghese et al. Overview on emotion recognition system
Zhang et al. Automatic speechreading with applications to human-computer interfaces
TW201201115A (en) Facial expression recognition systems and methods and computer program products thereof
US10534955B2 (en) Facial capture analysis and training system
US7257538B2 (en) Generating animation from visual and audio input
JP2005348872A (ja) 感情推定装置及び感情推定プログラム
JP7370050B2 (ja) 読唇装置及び読唇方法
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
WO2023035969A1 (zh) 语音与图像同步性的衡量方法、模型的训练方法及装置
JP2021015443A (ja) 補完プログラム、補完方法、および補完装置
Ivanko et al. Automatic lip-reading of hearing impaired people
JP2010191530A (ja) 国籍判定装置、方法およびプログラム
JP4775961B2 (ja) 映像を用いた発音の推定方法
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
WO2020125252A1 (zh) 机器人会话切换方法、装置及计算设备
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
JP2019152737A (ja) 話者推定方法および話者推定装置
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
JP6997733B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Goecke et al. Validation of an automatic lip-tracking algorithm and design of a database for audio-video speech processing
Ibrahim A novel lip geometry approach for audio-visual speech recognition
JP2020038432A (ja) 画像解析装置、画像解析方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231010

R150 Certificate of patent or registration of utility model

Ref document number: 7370050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150