JP7370050B2 - Lip reading device and method - Google Patents
Lip reading device and method Download PDFInfo
- Publication number
- JP7370050B2 JP7370050B2 JP2019213234A JP2019213234A JP7370050B2 JP 7370050 B2 JP7370050 B2 JP 7370050B2 JP 2019213234 A JP2019213234 A JP 2019213234A JP 2019213234 A JP2019213234 A JP 2019213234A JP 7370050 B2 JP7370050 B2 JP 7370050B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- lip
- evaluation
- speaker
- target speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、発話者の口唇特徴に加え、表情特徴を考慮することにより、発話内容を高精度で推定することができる読唇装置及び読唇方法に関する。 TECHNICAL FIELD The present invention relates to a lip reading device and a lip reading method that are capable of estimating utterance content with high accuracy by considering facial features in addition to lip characteristics of a speaker.
従来、音声情報をテキストに変換する音声認識技術は、実験室等の低騒音の環境下では、十分な認識率が得られており、少しずつ普及しつつあるが、周囲の騒音の影響を受け易いオフィスや屋外等の騒音環境下、或いは声を出し難い電車や病院等の公共の場所では利用し難く、実用性に欠けるという問題があった。また、発話が困難な発話障害者は音声認識技術を利用することができず、汎用性に欠けるという問題もあった。
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。
Conventionally, speech recognition technology that converts speech information into text has achieved sufficient recognition rates in low-noise environments such as laboratories, and is gradually becoming more popular, but it is susceptible to the effects of surrounding noise. The problem is that it is difficult to use in noisy environments such as offices and outdoors, or in public places such as trains and hospitals where it is difficult to make a sound, and it lacks practicality. Additionally, speech recognition technology cannot be used by speech-impaired people who have difficulty speaking, resulting in a lack of versatility.
On the other hand, lip-reading technology can estimate the content of the utterance from the movement of the speaker's lips, etc., and does not require vocalization (no audio information) and can estimate the content of the utterance using only images. Not only can it be used in noisy environments or in public places, but it can also be used by people with speech disabilities. In particular, computer-based lip reading technology is expected to become widespread, as anyone can easily use it without any special training.
For example,
特許文献1をはじめとするコンピュータを用いた従来の読唇技術では、登録モード(学習モード、学習時)において、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴を機械学習で学習している。しかし、発話内容は、発話者の表情全体に影響を与えるため、口唇周辺領域の動きの特徴のみを学習するだけでは、認識モード(評価時)において得られる認識率(発話内容の推定精度)に限界があった。また、従来は、登録モードにおいて、機械学習を行って識別器(学習モデル)を構築する際に、学習するデータ数を増やすため、年代及び性別が異なる様々な発話者のデータを区別することなく用いていた。しかし、発話内容が同一であっても、発話者の年代及び性別の違いにより、発話時の表情に違いが生じ(異なる特徴が現れ)、認識率に影響を及ぼす可能性があった。
本発明は、かかる事情に鑑みてなされたもので、発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮して、学習及び評価を行うことにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供することを目的とする。
In conventional lip reading technology using a computer, such as
The present invention has been made in view of the above circumstances, and by performing machine learning in consideration of the speaker's facial features in addition to the lip features, it is possible to estimate the content of the utterance with high accuracy, and as needed. It is an object of the present invention to provide a lip-reading device and a lip-reading method that can further improve estimation accuracy by performing learning and evaluation in consideration of attributes such as the speaker's age and gender.
前記目的に沿う第1の発明に係る読唇装置は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有する。
A lip reading device according to a first aspect of the invention that meets the above object reads a learning target image in which a speech scene of a speaker to be evaluated is recorded during learning, and an image to be evaluated in which a speech scene of a speaker to be evaluated is recorded during evaluation. an image acquisition unit that reads an image; an image processing unit that performs image processing on the learning target image and the evaluation target image read into the image acquiring unit to extract learning target data and evaluation target data; a learning processing unit that performs machine learning of lip reading based on learning target data and constructs a learning model; a lip reading database that stores the learning model; and a lip reading database that stores the learning model; a recognition processing unit that estimates the utterance content of the evaluation target utterer from the learning model by machine learning;
The image processing unit includes a face detection means for detecting a face region of the learning target speaker from the learning target image and a face region of the evaluation target speaker from the evaluation target image; facial feature point detection means for detecting facial feature points from each of the facial feature points detected by the facial feature point detecting means; and lip regions for extracting lip regions from the facial feature points of the facial feature points detected by the facial feature point detecting means. extracting means, extracting facial features and lip features of the learning target speaker, which are the learning target data, from the face region, the facial feature points, and the lip region of the learning target speaker; and a feature extraction means for extracting facial features and lip features of the evaluation target speaker, which are the evaluation target data, from the face region, the facial feature points, and the lip region.
第1の発明に係る読唇装置において、前記学習処理部で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築され、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することが好ましい。 In the lip reading device according to the first invention, the learning model constructed by the learning processing unit is constructed for each attribute corresponding to the age and/or gender of the learning target speaker, and the recognition processing unit Separately, the age and/or gender of the evaluation target speaker is estimated from the evaluation target data through attribute recognition machine learning, and the learning of attributes corresponding to the estimated age and/or gender of the evaluation target speaker is performed. It is preferable to select a model and use it to estimate the content of the utterance.
第1の発明に係る読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えてもよい。 The lip reading device according to the first aspect of the invention may further include a photographing means for photographing speech scenes of the learning target speaker and the evaluation target speaker.
第1の発明に係る読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えることができる。 The lip reading device according to the first aspect of the invention may further include a recognition result output unit that outputs the utterance content of the evaluation target speaker estimated by the recognition processing unit.
第1の発明に係る読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えることが好ましい。 In the lip reading device according to the first aspect of the invention, the recognition result output unit may include a display that displays the utterance content of the evaluation target speaker estimated by the recognition processing unit in text and/or a speaker that outputs it in audio. is preferred.
前記目的に沿う第2の発明に係る読唇方法は、学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備える。 A lip reading method according to a second invention that meets the above object includes a first step during learning in which a learning target image in which a speech scene of a learning target speaker is recorded, and a face region of the learning target speaker is read from the learning target image. a second learning step of detecting facial feature points of the learning target speaker from the face area of the learning target speaker; and a third learning step of detecting facial feature points of the learning target speaker from the facial feature points of the learning target speaker. A fourth learning step of detecting the lip area of the learning target speaker, and determining the facial expression of the learning target speaker as learning target data from the face area, facial feature points, and lip area of the learning target speaker. A learning step of extracting features and lip features, and repeating the first learning step to the fifth learning step to perform machine learning of lip reading based on the learning target data and construct a learning model. a seventh step during learning to save the learning model; a first step during evaluation to read the saved learning model; and a first step during evaluation to read the evaluation target image in which the utterance scene of the target speaker is recorded. a second evaluation step; a third evaluation step of detecting a face region of the evaluation target speaker from the evaluation target image; and detecting facial feature points of the evaluation target speaker from the face area of the evaluation target speaker. a fourth evaluation step of detecting, a fifth evaluation step of detecting the lip region of the evaluation target speaker from the facial feature points of the evaluation target speaker, and the face area and the face of the evaluation target speaker. a sixth step during evaluation of extracting facial features and lip features of the evaluation target speaker, which are evaluation target data, from the feature points and the lip region; and a seventh evaluation step of estimating the utterance content of the target speaker.
第2の発明に係る読唇方法において、前記学習時第6工程で構築される前記学習モデルは、前記学習対象発話者の年齢及び/又は性別に対応して属性別に構築されることが好ましい。 In the lip reading method according to the second aspect of the invention, it is preferable that the learning model constructed in the sixth step during learning is constructed for each attribute corresponding to the age and/or gender of the learning target speaker.
第2の発明に係る読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することができる。 In the lip reading method according to the second invention, in the seventh step during evaluation, the age and/or gender of the speaker to be evaluated is separately estimated from the evaluation target data by machine learning of attribute recognition. The learning model having attributes corresponding to the selected age and/or gender can be selected and used for estimating the utterance content.
第1の発明に係る読唇装置及び第2の発明に係る読唇方法は、発話者(学習対象発話者及び評価対象発話者をまとめて発話者という)の口唇特徴に加え、表情特徴も考慮して機械学習を行うことにより、評価時に、発話内容を高精度で推定することができる。特に、発話者の年齢及び/又は性別も考慮して機械学習を行い、発話内容の推定を行った場合、認識率をさらに高めることができる。 The lip reading device according to the first invention and the lip reading method according to the second invention consider not only the lip characteristics of the speaker (the learning target speaker and the evaluation target speaker are collectively referred to as the speaker), but also the facial expression characteristics. By performing machine learning, it is possible to estimate the utterance content with high accuracy during evaluation. In particular, if machine learning is performed in consideration of the age and/or gender of the speaker to estimate the content of the utterance, the recognition rate can be further improved.
続いて、本発明を具体化した実施の形態について説明し、本発明の理解に供する。
図1に示す本発明の一実施の形態に係る読唇装置10及び読唇方法は、発話内容が既知の学習対象発話者の発話時の口唇特徴及び表情特徴等を機械学習することにより、評価対象発話者の発話内容を高精度で推定するものである。
図1に示すように、読唇装置10は、学習対象発話者及び評価対象発話者の発話シーンを撮影(記録)する撮影手段11を備えている。そして、読唇装置10は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段11から読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を撮影手段11から読み込む画像取得部13を備えている。また、読唇装置10は、画像取得部13に読み込まれた学習対象画像及び評価対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び評価対象データを抽出する画像処理部14を備えている。さらに、読唇装置10は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部15と、学習モデルを保存する読唇データベース16を備えている。そして、読唇装置10は、評価時に、評価対象データと、読唇データベース16に保存された学習モデルから、機械学習により、評価対象発話者の発話内容を推定する認識処理部17を備えている。ここで、読唇装置10は、図1に示すように、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17を含んで構成されるが、読唇装置10に用いられる読唇方法を実行するプログラムがコンピュータ18にインストールされ、コンピュータ18のCPUがそのプログラムを実行することにより、コンピュータ18を上記の画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段をコンピュータ(画像取得部)に接続して学習対象画像又は評価対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよい。なお、撮影手段をコンピュータ(画像取得部)に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶装置を撮影手段からコンピュータ(画像取得部)に挿し代えて画像を読み込むこともできる。
Next, embodiments embodying the present invention will be described to provide an understanding of the present invention.
The
As shown in FIG. 1, the
また、読唇装置10は、認識処理部17で推定された評価対象発話者の発話内容を出力する認識結果出力部19を備えている。本実施の形態では、認識結果出力部19は、認識処理部17で推定された評価対象発話者の発話内容を文字で表示するディスプレイ20及び音声で出力するスピーカ21を備える構成としたが、読唇装置10の使用場所及び使用環境等に応じて、ディスプレイ20及びスピーカ21のいずれか一方又は双方を適宜、選択して使用することができる。なお、ディスプレイ及びスピーカは、コンピュータの付属品若しくは内蔵品でもよいし、別途、コンピュータに後付け(外付け)したものでもよい。また、認識結果出力部は、ディスプレイ又はスピーカの一方のみを備える構成としてもよい。
The
次に、図2により、画像処理部14の詳細について説明する。
画像処理部14は、学習時に、学習対象画像から学習対象発話者の顔領域を検出し、評価時に、評価対象画像から評価対象発話者の顔領域を検出する顔検出手段22を備えている。また、画像処理部14は、顔検出手段22で検出された各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段23と、顔特徴点検出手段23で検出された各顔領域の顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段24を備えている。そして、画像処理部14は、学習時に、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価時に、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段25を備えている。
Next, details of the
The
顔特徴点検出手段23で検出される顔特徴点は、例えば図3(A)、(B)に示すように、発話者の顔の輪郭並びに眉、目、鼻及び口の位置と形状を表すものである。本実施の形態では、特徴点数を68点としたが、特徴点数は、これに限定されることなく、適宜、増減させることができる。
コンピュータを用いた従来の読唇技術では、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴のみを機械学習で学習していたが、読唇装置10では、発話者の顔領域、顔特徴点及び口唇領域から、表情特徴及び口唇特徴を抽出することにより、発話時の口唇周辺領域の動きだけでなく、発話者の顔全体の表情の特徴(例えば、眉、目及び口等の位置、形状及び角度等の変化)を併せて機械学習することができ、認識率(発話内容の推定精度)を向上させることができる。
The facial feature points detected by the facial feature point detection means 23 represent the outline of the speaker's face and the positions and shapes of the eyebrows, eyes, nose, and mouth, as shown in FIGS. 3(A) and 3(B), for example. It is something. In this embodiment, the number of feature points is 68, but the number of feature points is not limited to this and can be increased or decreased as appropriate.
In conventional lip reading technology using a computer, machine learning was used to learn only the characteristics of the movement of the area around the lips of the speaker during speech, but the
また、学習処理部15は、学習時に、学習対象データに基づいて学習対象発話者の年齢及び/又は性別も含めて読唇の機械学習を行い、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築することができる。そして、認識処理部17は、評価時に、評価対象データから、別途、属性認識の機械学習により、評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の学習モデルを選択して、評価対象発話者の発話内容の推定に利用することができる。このように、学習時及び評価時に、発話者の年齢及び/又は性別も考慮して機械学習を行うことにより、発話者の年代及び/又は性別の違いが発話時の表情に与える影響を取り除いて認識率をさらに向上させることができる。
In addition, during learning, the
次に、図4により、本発明の一実施の形態に係る読唇方法の学習時の動作について説明する。
まず、学習時第1工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部13に読み込む(S1)。次に、学習時第2工程で、画像処理部14の顔検出手段22により、学習対象画像から学習対象発話者の顔領域を検出する(S2)。続いて、学習時第3工程で、画像処理部14の顔特徴点検出手段23により、学習対象発話者の顔領域から学習対象発話者の顔特徴点を検出し(S3)、学習時第4工程で、画像処理部14の口唇領域検出手段24により、学習対象発話者の顔特徴点から学習対象発話者の口唇領域を検出する(S4)。さらに、学習時第5工程で、画像処理部14の特徴検出手段25により、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出する(S5)。以上の学習時第1工程~学習時第5工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第6工程で、学習処理部15により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行う。このとき、学習対象発話者の年齢及び/又は性別等の属性認識も含めて機械学習を行うことにより、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築する(S6)。こうして構築された属性別の各学習モデルは、学習時第7工程において、読唇データベース16に保存される(S7)。
Next, with reference to FIG. 4, the operation during learning of the lip reading method according to an embodiment of the present invention will be described.
First, in a first step during learning, a learning target image in which an utterance scene of a learning target speaker is recorded is read into the image acquisition unit 13 (S1). Next, in a second learning step, the face detection means 22 of the
続いて、図5により、読唇方法の評価時の動作について説明する。
まず、評価時第1工程で、読唇データベース16に保存された属性別の各学習モデル(学習済みモデル)を読み込む(S1)。そして、評価時第2工程で、評価対象発話者の発話シーンが記録された評価対象画像を画像取得部13に読み込む(S2)。次に、評価時第3工程で、画像処理部14の顔検出手段22により、評価対象画像から評価対象発話者の顔領域を検出する(S3)。続いて、評価時第4工程で、画像処理部14の顔特徴点検出手段23により、評価対象発話者の顔領域から評価対象発話者の顔特徴点を検出し(S4)、評価時第5工程で、画像処理部14の口唇領域検出手段24により、評価対象発話者の顔特徴点から評価対象発話者の口唇領域を検出する(S5)。さらに、評価時第6工程で、画像処理部14の特徴検出手段25により、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する(S6)。そして、評価時第7工程で、評価対象データから、機械学習(属性認識)により、評価対象発話者の年齢及び/又は性別を推定し(S7)、評価対象データと、推定された年齢及び/又は性別に対応した属性の学習モデルから、機械学習(読唇処理)により、評価対象発話者の発話内容を推定する(S8)。推定された発話内容(評価結果)は、文字及び/又は音声に変換され、評価結果出力部19のディスプレイ20及び/又はスピーカ21から出力される(S9)。
Next, the operation during evaluation of the lip reading method will be described with reference to FIG.
First, in a first step during evaluation, each attribute-specific learning model (trained model) stored in the
表情特徴の抽出には、顔の動作解析ツールとして知られているOpen FaceのAction Unitsの特徴量を利用することが好ましいが、これに限定されるものではない。また、機械学習では、深層学習の一種であるゲート付き回帰型ユニット(Gated Recurrent Unit、GRU)を利用し、表情特徴及び口唇特徴をそれぞれ学習してから融合(統合)するlate fusionを用いることにより、認識率(発話内容の推定精度)を向上させることができるが、これらに限定されることなく、様々なアルゴリズムを用いることができる。 For extraction of facial expression features, it is preferable to use feature quantities of Action Units of Open Face, which is known as a facial motion analysis tool, but the present invention is not limited thereto. In addition, machine learning uses a gated recurrent unit (GRU), which is a type of deep learning, and late fusion, which learns facial features and lip features separately and then fuses them. , the recognition rate (precision of estimating utterance content) can be improved, but various algorithms can be used without being limited to these.
次に、本発明の作用効果を確認するために行った実施例について説明する。
(実施例1)
学習対象発話者を男性のみ16名、女性のみ16名及び男女8名ずつとして、それぞれ本発明の読唇方法の学習時第1工程~学習時第7工程を行い、属性別の3種類の学習モデルを構築した。そして、評価対象発話者を男性のみ8名又は女性のみ8名として、評価時第1工程~評価時第6工程を行い、評価時第7工程では、評価対象発話者の属性(性別)に関係なく、上記3種類の学習モデルをそれぞれ用いて発話内容を推定し、それぞれの認識率を求めた。その結果を表1に示す。なお、学習対象発話者及び評価対象発話者の年齢については考慮していない。
Next, examples performed to confirm the effects of the present invention will be described.
(Example 1)
The learning target speakers were 16 male only, 16 female only, and 8 male and female speakers, and the first to seventh learning steps of the lip reading method of the present invention were carried out, and three types of learning models were created for each attribute. was built. Then, the evaluation target speakers are 8 male only or 8 female only speakers, and the first evaluation step to the sixth evaluation step are performed. Instead, the utterance content was estimated using each of the three types of learning models mentioned above, and the recognition rate for each was determined. The results are shown in Table 1. Note that the ages of the learning target speaker and the evaluation target speaker are not taken into account.
表1より、評価対象発話者が男性の場合、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。また、評価対象発話者が女性の場合、学習対象発話者を女性のみとした学習モデルを用いた時の認識率が最も高く、学習対象発話者を男性のみとした学習モデルを用いた時の認識率が最も低いことがわかった。これにより、評価対象発話者の性別と学習対象発話者の性別を一致させることにより、高い認識率が得られることが確認された。 From Table 1, when the target speaker for evaluation is male, the recognition rate is highest when using the learning model with only male speakers as the learning target, and when using the learning model with only female speakers as the learning target. The recognition rate was found to be the lowest. In addition, when the target speaker for evaluation is female, the recognition rate is highest when using the learning model with only female speakers as the target speaker, and the highest recognition rate when using the learning model with only male speakers as the target speaker. It was found that the rate was the lowest. This confirmed that a high recognition rate could be obtained by matching the gender of the utterer to be evaluated and the gender of the utterer to be studied.
(実施例2)
0~9の10種の数字を英語で発話した場合、10種の挨拶文を英語で発話した場合、及び0~9の10種の数字を日本語で発話した場合のそれぞれの発話内容につき、本発明の読唇方法を用いて学習と評価を行い、認識率を求めた。また、比較のため、口唇特徴のみを用いて学習と評価を行った時の認識率と、表情特徴のみを用いて学習と評価を行った時の認識率も求めた。その結果を表2に示す。なお、いずれの場合も、学習対象発話者及び評価対象発話者は男女混合とし、年齢についても考慮していない。つまり、ここでは、学習対象発話者及び評価対象発話者の属性認識は行わず、表情特徴と口唇特徴を組合せた効果のみを確認した。
(Example 2)
When uttering 10 types of numbers from 0 to 9 in English, when uttering 10 types of greetings in English, and when uttering 10 types of numbers from 0 to 9 in Japanese, the contents of each utterance are as follows: Learning and evaluation were performed using the lip reading method of the present invention, and the recognition rate was determined. For comparison, we also calculated the recognition rate when learning and evaluating using only lip features and the recognition rate when learning and evaluating using only facial features. The results are shown in Table 2. In both cases, the speakers to be studied and the speakers to be evaluated are a mixture of men and women, and age is not taken into account. That is, here, attribute recognition of the learning target speaker and the evaluation target speaker was not performed, and only the effect of combining facial features and lip features was confirmed.
表2より、発話内容に関わらず、表情特徴と口唇特徴を組合せて学習と評価を行った本発明の読唇方法の認識率が最も高く、表情特徴のみで学習と評価を行った読唇方法の認識率が最も低いことがわかった。これにより、表情特徴と口唇特徴を組合せて学習と評価を行う本発明の読唇方法により、高い認識率が得られることが確認された。 Table 2 shows that, regardless of the content of the utterance, the recognition rate of the lip reading method of the present invention, which was trained and evaluated using a combination of facial expression features and lip features, was the highest, and the recognition rate of the lip reading method, which was trained and evaluated using only facial facial features, was the highest. It was found that the rate was the lowest. This confirmed that the lip reading method of the present invention, which performs learning and evaluation by combining facial features and lip features, can achieve a high recognition rate.
以上、本発明を、実施の形態を参照して説明してきたが、本発明は何ら上記した実施の形態に記載した構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the configuration described in the above-described embodiments, and the matters described in the claims are as follows. It also includes other embodiments and modifications that may be considered within the scope.
10:読唇装置、11:撮影手段、13:画像取得部、14:画像処理部、15:学習処理部、16:読唇データベース、17:認識処理部、18:コンピュータ、19:認識結果出力部、20:ディスプレイ、21:スピーカ、22:顔検出手段、23:顔特徴点検出手段、24:口唇領域抽出手段、25:特徴抽出手段 10: lip reading device, 11: photographing means, 13: image acquisition section, 14: image processing section, 15: learning processing section, 16: lip reading database, 17: recognition processing section, 18: computer, 19: recognition result output section, 20: Display, 21: Speaker, 22: Face detection means, 23: Facial feature point detection means, 24: Lip region extraction means, 25: Feature extraction means
Claims (8)
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。 an image acquisition unit that reads a learning target image in which a utterance scene of a learning target utterer is recorded during learning, and an image acquisition unit that reads an evaluation target image in which a utterance scene of an evaluation target utterer is recorded during evaluation; an image processing unit that performs image processing on the learning target image and the evaluation target image , respectively, to extract learning target data and evaluation target data; a learning processing unit that constructs a learning model for each attribute in accordance with the age and/or gender of a speaker to be learned ; a lip-reading database that stores the learning model; and a lip-reading database that stores the evaluation target data and the lip-reading database at the time of evaluation. a recognition processing unit that estimates the utterance content of the evaluation target utterer by machine learning from the learned model,
The image processing unit includes a face detection means for detecting a face region of the learning target speaker from the learning target image and a face region of the evaluation target speaker from the evaluation target image; facial feature point detection means for detecting facial feature points from each of the facial feature points detected by the facial feature point detecting means; and lip regions for extracting lip regions from the facial feature points of the facial feature points detected by the facial feature point detecting means. an extraction means, extracting the lip features of the learning target speaker, which are the learning target data, from the face region, the facial feature points, and the lip region of the learning target speaker; A lip reading device comprising: a feature extracting means for extracting lip features of the evaluation target speaker, which are the evaluation target data, from a face region, the facial feature points, and the lip region.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213234A JP7370050B2 (en) | 2019-11-26 | 2019-11-26 | Lip reading device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213234A JP7370050B2 (en) | 2019-11-26 | 2019-11-26 | Lip reading device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021086274A JP2021086274A (en) | 2021-06-03 |
JP7370050B2 true JP7370050B2 (en) | 2023-10-27 |
Family
ID=76087706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019213234A Active JP7370050B2 (en) | 2019-11-26 | 2019-11-26 | Lip reading device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7370050B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466179A (en) * | 2021-09-09 | 2022-05-10 | 马上消费金融股份有限公司 | Method and device for measuring synchronism of voice and image |
CN113869153B (en) * | 2021-09-15 | 2024-06-07 | 天津大学 | Lip image acquisition device, lip recognition system and online lip interaction system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (en) | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | Communication support system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175724A (en) * | 1997-12-11 | 1999-07-02 | Toshiba Tec Corp | Person attribute identifying device |
-
2019
- 2019-11-26 JP JP2019213234A patent/JP7370050B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (en) | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | Communication support system |
Non-Patent Citations (3)
Title |
---|
Masaya Iwasaki, Michiko Kubokawa, Takeshi Saitoh,Two Features Combination with Gated Recurrent Unit for Visual Speech Recognition,2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA),日本,IEEE,2017年05月12日,P.326-329 |
間瀬 健二,オプティカルフローを用いた読唇,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,1990年06月25日,Vol.J73-D-II No.6,P.796-803 |
齊藤 剛史,読唇に有効な顔モデルの検討,電子情報通信学会技術研究報告 Vol.111 No.500,日本,社団法人電子情報通信学会,2012年03月22日,PRMU2011-275, HIP2011-103 (2012-3),P.217-222 |
Also Published As
Publication number | Publication date |
---|---|
JP2021086274A (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agarwal et al. | Detecting deep-fake videos from phoneme-viseme mismatches | |
US10460732B2 (en) | System and method to insert visual subtitles in videos | |
Varghese et al. | Overview on emotion recognition system | |
Zhang et al. | Automatic speechreading with applications to human-computer interfaces | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
US10534955B2 (en) | Facial capture analysis and training system | |
US7257538B2 (en) | Generating animation from visual and audio input | |
JP2005348872A (en) | Feeling estimation device and feeling estimation program | |
JP7370050B2 (en) | Lip reading device and method | |
KR101187600B1 (en) | Speech Recognition Device and Speech Recognition Method using 3D Real-time Lip Feature Point based on Stereo Camera | |
JP2021015443A (en) | Complement program and complement method and complementary device | |
Ivanko et al. | Automatic lip-reading of hearing impaired people | |
JP5180116B2 (en) | Nationality determination device, method and program | |
JP4775961B2 (en) | Pronunciation estimation method using video | |
WO2020125252A1 (en) | Robot conversation switching method and apparatus, and computing device | |
KR101621304B1 (en) | Active shape model-based lip shape estimation method and system using mouth map | |
WO2023035969A1 (en) | Speech and image synchronization measurement method and apparatus, and model training method and apparatus | |
JP2019152737A (en) | Speaker estimation method and speaker estimation device | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
CN113822187A (en) | Sign language translation, customer service, communication method, device and readable medium | |
Goecke et al. | Validation of an automatic lip-tracking algorithm and design of a database for audio-video speech processing | |
Ibrahim | A novel lip geometry approach for audio-visual speech recognition | |
JP2020038432A (en) | Image analysis device, image analysis method, and program | |
JP2022144707A (en) | Face synthesis lip reading device and face synthesis lip reading method | |
JP2020135424A (en) | Information processor, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221024 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7370050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |