JP7370050B2 - 読唇装置及び読唇方法 - Google Patents
読唇装置及び読唇方法 Download PDFInfo
- Publication number
- JP7370050B2 JP7370050B2 JP2019213234A JP2019213234A JP7370050B2 JP 7370050 B2 JP7370050 B2 JP 7370050B2 JP 2019213234 A JP2019213234 A JP 2019213234A JP 2019213234 A JP2019213234 A JP 2019213234A JP 7370050 B2 JP7370050 B2 JP 7370050B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- lip
- evaluation
- speaker
- target speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
これに対して、読唇技術は、発話者の唇の動き等から発話内容を推定することができ、音声を発する必要がなく(音声情報を必要とせず)、映像のみでも発話内容を推定できるため、騒音環境下や公共の場所等でも利用が期待できるだけでなく、発話障害者も利用することができる。特に、コンピュータを用いた読唇技術であれば、特別な訓練を必要とせず、誰でも手軽に利用できるため、その普及が期待されている。
例えば、特許文献1には、口唇領域を含む顔画像を取得する撮像手段と、取得画像から口唇領域を抽出する領域抽出手段と、抽出された口唇領域より形状特徴量を計測する特徴量計測手段と、登録モードにおいて計測されたキーワード発話シーンの特徴量を登録するキーワードDBと、認識モードにおいて、登録されているキーワードの特徴量と、文章の発話シーンを対象として計測された特徴量とを比較することにより口唇の発話内容を認識する認識処理を行って、文章の中からキーワードを認識するワードスポッティング読唇を行う判断手段と、判断手段が行った認識結果を表示する表示手段とを備えたワードスポッティング読唇装置が開示されている。
本発明は、かかる事情に鑑みてなされたもので、発話者の口唇特徴に加え、表情特徴を考慮して機械学習を行うことにより、発話内容を高精度で推定することができ、必要に応じて、発話者の年代及び性別等の属性も考慮して、学習及び評価を行うことにより、さらに推定精度を高めることができる読唇装置及び読唇方法を提供することを目的とする。
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段とを有する。
図1に示す本発明の一実施の形態に係る読唇装置10及び読唇方法は、発話内容が既知の学習対象発話者の発話時の口唇特徴及び表情特徴等を機械学習することにより、評価対象発話者の発話内容を高精度で推定するものである。
図1に示すように、読唇装置10は、学習対象発話者及び評価対象発話者の発話シーンを撮影(記録)する撮影手段11を備えている。そして、読唇装置10は、学習時に、学習対象発話者の発話シーンが記録された学習対象画像を撮影手段11から読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を撮影手段11から読み込む画像取得部13を備えている。また、読唇装置10は、画像取得部13に読み込まれた学習対象画像及び評価対象画像をそれぞれ画像処理して、機械学習に必要な学習対象データ及び評価対象データを抽出する画像処理部14を備えている。さらに、読唇装置10は、学習時に、学習対象データに基づいて読唇の機械学習を行い、学習モデルを構築する学習処理部15と、学習モデルを保存する読唇データベース16を備えている。そして、読唇装置10は、評価時に、評価対象データと、読唇データベース16に保存された学習モデルから、機械学習により、評価対象発話者の発話内容を推定する認識処理部17を備えている。ここで、読唇装置10は、図1に示すように、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17を含んで構成されるが、読唇装置10に用いられる読唇方法を実行するプログラムがコンピュータ18にインストールされ、コンピュータ18のCPUがそのプログラムを実行することにより、コンピュータ18を上記の画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17として機能させることができる。コンピュータの形態としては、デスクトップ型又はノート型が好適に用いられるが、これらに限定されるものではなく、適宜、選択することができる。なお、画像取得部13、画像処理部14、学習処理部15、読唇データベース16及び認識処理部17の一部又は全ては、クラウドコンピューティングにより、ネットワークを通じて利用することもできる。また、撮影手段としてはビデオカメラが好適に用いられるが、読唇装置が専用の撮影手段を備えている必要はなく、発話シーンを撮影した各種の撮影手段をコンピュータ(画像取得部)に接続して学習対象画像又は評価対象画像を読み込むことができる。よって、撮影手段として、動画撮影機能が搭載されたスマートフォン等を用いてもよい。なお、撮影手段をコンピュータ(画像取得部)に接続して画像を読み込む代わりに、撮影手段に内蔵されたメモリーカード等の記憶装置を撮影手段からコンピュータ(画像取得部)に挿し代えて画像を読み込むこともできる。
画像処理部14は、学習時に、学習対象画像から学習対象発話者の顔領域を検出し、評価時に、評価対象画像から評価対象発話者の顔領域を検出する顔検出手段22を備えている。また、画像処理部14は、顔検出手段22で検出された各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段23と、顔特徴点検出手段23で検出された各顔領域の顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段24を備えている。そして、画像処理部14は、学習時に、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出し、評価時に、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する特徴抽出手段25を備えている。
コンピュータを用いた従来の読唇技術では、発話者の発話時の口唇を中心とする口唇周辺領域の動きの特徴のみを機械学習で学習していたが、読唇装置10では、発話者の顔領域、顔特徴点及び口唇領域から、表情特徴及び口唇特徴を抽出することにより、発話時の口唇周辺領域の動きだけでなく、発話者の顔全体の表情の特徴(例えば、眉、目及び口等の位置、形状及び角度等の変化)を併せて機械学習することができ、認識率(発話内容の推定精度)を向上させることができる。
まず、学習時第1工程で、学習対象発話者の発話シーンが記録された学習対象画像を画像取得部13に読み込む(S1)。次に、学習時第2工程で、画像処理部14の顔検出手段22により、学習対象画像から学習対象発話者の顔領域を検出する(S2)。続いて、学習時第3工程で、画像処理部14の顔特徴点検出手段23により、学習対象発話者の顔領域から学習対象発話者の顔特徴点を検出し(S3)、学習時第4工程で、画像処理部14の口唇領域検出手段24により、学習対象発話者の顔特徴点から学習対象発話者の口唇領域を検出する(S4)。さらに、学習時第5工程で、画像処理部14の特徴検出手段25により、学習対象発話者の顔領域、顔特徴点及び口唇領域から、学習対象データとなる学習対象発話者の表情特徴及び口唇特徴を抽出する(S5)。以上の学習時第1工程~学習時第5工程は、学習する発話シーンの数だけ繰り返し行われる。そして、学習時第6工程で、学習処理部15により、それぞれの発話シーンから抽出した学習対象データに基づいて読唇の機械学習を行う。このとき、学習対象発話者の年齢及び/又は性別等の属性認識も含めて機械学習を行うことにより、学習対象発話者の年齢及び/又は性別に対応した属性別の学習モデルを構築する(S6)。こうして構築された属性別の各学習モデルは、学習時第7工程において、読唇データベース16に保存される(S7)。
まず、評価時第1工程で、読唇データベース16に保存された属性別の各学習モデル(学習済みモデル)を読み込む(S1)。そして、評価時第2工程で、評価対象発話者の発話シーンが記録された評価対象画像を画像取得部13に読み込む(S2)。次に、評価時第3工程で、画像処理部14の顔検出手段22により、評価対象画像から評価対象発話者の顔領域を検出する(S3)。続いて、評価時第4工程で、画像処理部14の顔特徴点検出手段23により、評価対象発話者の顔領域から評価対象発話者の顔特徴点を検出し(S4)、評価時第5工程で、画像処理部14の口唇領域検出手段24により、評価対象発話者の顔特徴点から評価対象発話者の口唇領域を検出する(S5)。さらに、評価時第6工程で、画像処理部14の特徴検出手段25により、評価対象発話者の顔領域、顔特徴点及び口唇領域から、評価対象データとなる評価対象発話者の表情特徴及び口唇特徴を抽出する(S6)。そして、評価時第7工程で、評価対象データから、機械学習(属性認識)により、評価対象発話者の年齢及び/又は性別を推定し(S7)、評価対象データと、推定された年齢及び/又は性別に対応した属性の学習モデルから、機械学習(読唇処理)により、評価対象発話者の発話内容を推定する(S8)。推定された発話内容(評価結果)は、文字及び/又は音声に変換され、評価結果出力部19のディスプレイ20及び/又はスピーカ21から出力される(S9)。
(実施例1)
学習対象発話者を男性のみ16名、女性のみ16名及び男女8名ずつとして、それぞれ本発明の読唇方法の学習時第1工程~学習時第7工程を行い、属性別の3種類の学習モデルを構築した。そして、評価対象発話者を男性のみ8名又は女性のみ8名として、評価時第1工程~評価時第6工程を行い、評価時第7工程では、評価対象発話者の属性(性別)に関係なく、上記3種類の学習モデルをそれぞれ用いて発話内容を推定し、それぞれの認識率を求めた。その結果を表1に示す。なお、学習対象発話者及び評価対象発話者の年齢については考慮していない。
0~9の10種の数字を英語で発話した場合、10種の挨拶文を英語で発話した場合、及び0~9の10種の数字を日本語で発話した場合のそれぞれの発話内容につき、本発明の読唇方法を用いて学習と評価を行い、認識率を求めた。また、比較のため、口唇特徴のみを用いて学習と評価を行った時の認識率と、表情特徴のみを用いて学習と評価を行った時の認識率も求めた。その結果を表2に示す。なお、いずれの場合も、学習対象発話者及び評価対象発話者は男女混合とし、年齢についても考慮していない。つまり、ここでは、学習対象発話者及び評価対象発話者の属性認識は行わず、表情特徴と口唇特徴を組合せた効果のみを確認した。
Claims (8)
- 学習時に、学習対象発話者の発話シーンが記録された学習対象画像を読み込み、評価時に、評価対象発話者の発話シーンが記録された評価対象画像を読み込む画像取得部と、該画像取得部に読み込まれた前記学習対象画像及び前記評価対象画像をそれぞれ画像処理して学習対象データ及び評価対象データを抽出する画像処理部と、学習時に、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習処理部と、前記学習モデルを保存する読唇データベースと、評価時に、前記評価対象データと、前記読唇データベースに保存された前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する認識処理部とを備え、
前記画像処理部は、前記学習対象画像から前記学習対象発話者の顔領域を検出し、前記評価対象画像から前記評価対象発話者の顔領域を検出する顔検出手段と、該顔検出手段で検出された前記各顔領域からそれぞれの顔特徴点を検出する顔特徴点検出手段と、該顔特徴点検出手段で検出された前記各顔領域の前記顔特徴点からそれぞれ口唇領域を抽出する口唇領域抽出手段と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の口唇特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の口唇特徴を抽出する特徴抽出手段とを有することを特徴とする読唇装置。 - 請求項1記載の読唇装置において、前記認識処理部は、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された前記評価対象発話者の年齢及び/又は性別に対応した属性の前記学習モデルを選択して、発話内容の推定に利用することを特徴とする読唇装置。
- 請求項1記載の読唇装置において、前記特徴抽出手段は、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記学習対象データとなる前記学習対象発話者の前記口唇特徴に加え前記学習対象発話者の表情特徴を抽出し、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、前記評価対象データとなる前記評価対象発話者の前記口唇特徴に加え前記評価対象発話者の表情特徴を抽出することを特徴とする読唇装置。
- 請求項1~3のいずれか1記載の読唇装置において、前記学習対象発話者及び前記評価対象発話者の発話シーンを撮影する撮影手段を備えたことを特徴とする読唇装置。
- 請求項1~4のいずれか1記載の読唇装置において、前記認識処理部で推定された前記評価対象発話者の発話内容を出力する認識結果出力部を備えたことを特徴とする読唇装置。
- 請求項5記載の読唇装置において、前記認識結果出力部は、前記認識処理部で推定された前記評価対象発話者の発話内容を文字で表示するディスプレイ及び/又は音声で出力するスピーカを備えたことを特徴とする読唇装置。
- 学習対象発話者の発話シーンが記録された学習対象画像を読み込む学習時第1工程と、前記学習対象画像から前記学習対象発話者の顔領域を検出する学習時第2工程と、前記学習対象発話者の前記顔領域から前記学習対象発話者の顔特徴点を検出する学習時第3工程と、前記学習対象発話者の前記顔特徴点から前記学習対象発話者の口唇領域を検出する学習時第4工程と、前記学習対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、学習対象データとなる前記学習対象発話者の表情特徴及び口唇特徴を抽出する学習時第5工程と、前記学習時第1工程~前記学習時第5工程を繰り返し、前記学習対象データに基づいて読唇の機械学習を行い、前記学習対象発話者の年齢及び/又は性別に対応して属性別に学習モデルを構築する学習時第6工程と、前記学習モデルを保存する学習時第7工程と、保存された前記学習モデルを読み込む評価時第1工程と、評価対象発話者の発話シーンが記録された評価対象画像を読み込む評価時第2工程と、前記評価対象画像から前記評価対象発話者の顔領域を検出する評価時第3工程と、前記評価対象発話者の前記顔領域から前記評価対象発話者の顔特徴点を検出する評価時第4工程と、前記評価対象発話者の前記顔特徴点から前記評価対象発話者の口唇領域を検出する評価時第5工程と、前記評価対象発話者の前記顔領域、前記顔特徴点及び前記口唇領域から、評価対象データとなる前記評価対象発話者の表情特徴及び口唇特徴を抽出する評価時第6工程と、前記評価対象データと前記学習モデルから、機械学習により、前記評価対象発話者の発話内容を推定する評価時第7工程とを備えたことを特徴とする読唇方法。
- 請求項7記載の読唇方法において、前記評価時第7工程では、前記評価対象データから、別途、属性認識の機械学習により、前記評価対象発話者の年齢及び/又は性別を推定し、推定された年齢及び/又は性別に対応した属性の前記学習モデルを選択して、前記発話内容の推定に利用することを特徴とする読唇方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213234A JP7370050B2 (ja) | 2019-11-26 | 2019-11-26 | 読唇装置及び読唇方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213234A JP7370050B2 (ja) | 2019-11-26 | 2019-11-26 | 読唇装置及び読唇方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021086274A JP2021086274A (ja) | 2021-06-03 |
JP7370050B2 true JP7370050B2 (ja) | 2023-10-27 |
Family
ID=76087706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019213234A Active JP7370050B2 (ja) | 2019-11-26 | 2019-11-26 | 読唇装置及び読唇方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7370050B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114466179A (zh) * | 2021-09-09 | 2022-05-10 | 马上消费金融股份有限公司 | 语音与图像同步性的衡量方法及装置 |
CN113869153B (zh) * | 2021-09-15 | 2024-06-07 | 天津大学 | 唇部图像采集装置、唇语识别系统及在线唇语交互系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (ja) | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11175724A (ja) * | 1997-12-11 | 1999-07-02 | Toshiba Tec Corp | 人物属性識別装置 |
-
2019
- 2019-11-26 JP JP2019213234A patent/JP7370050B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013045282A (ja) | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
Non-Patent Citations (3)
Title |
---|
Masaya Iwasaki, Michiko Kubokawa, Takeshi Saitoh,Two Features Combination with Gated Recurrent Unit for Visual Speech Recognition,2017 Fifteenth IAPR International Conference on Machine Vision Applications (MVA),日本,IEEE,2017年05月12日,P.326-329 |
間瀬 健二,オプティカルフローを用いた読唇,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,1990年06月25日,Vol.J73-D-II No.6,P.796-803 |
齊藤 剛史,読唇に有効な顔モデルの検討,電子情報通信学会技術研究報告 Vol.111 No.500,日本,社団法人電子情報通信学会,2012年03月22日,PRMU2011-275, HIP2011-103 (2012-3),P.217-222 |
Also Published As
Publication number | Publication date |
---|---|
JP2021086274A (ja) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agarwal et al. | Detecting deep-fake videos from phoneme-viseme mismatches | |
US10460732B2 (en) | System and method to insert visual subtitles in videos | |
Varghese et al. | Overview on emotion recognition system | |
Zhang et al. | Automatic speechreading with applications to human-computer interfaces | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
US10534955B2 (en) | Facial capture analysis and training system | |
US7257538B2 (en) | Generating animation from visual and audio input | |
JP2005348872A (ja) | 感情推定装置及び感情推定プログラム | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
JP2021015443A (ja) | 補完プログラム、補完方法、および補完装置 | |
Ivanko et al. | Automatic lip-reading of hearing impaired people | |
JP5180116B2 (ja) | 国籍判定装置、方法およびプログラム | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
WO2020125252A1 (zh) | 机器人会话切换方法、装置及计算设备 | |
KR101621304B1 (ko) | 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 | |
WO2023035969A1 (zh) | 语音与图像同步性的衡量方法、模型的训练方法及装置 | |
JP2019152737A (ja) | 話者推定方法および話者推定装置 | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
CN113822187A (zh) | 手语翻译、客服、通信方法、设备和可读介质 | |
Goecke et al. | Validation of an automatic lip-tracking algorithm and design of a database for audio-video speech processing | |
Ibrahim | A novel lip geometry approach for audio-visual speech recognition | |
JP2020038432A (ja) | 画像解析装置、画像解析方法、およびプログラム | |
JP2022144707A (ja) | 顔合成読唇装置及び顔合成読唇方法 | |
JP2020135424A (ja) | 情報処理装置、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221024 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7370050 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |