JP6964044B2

JP6964044B2 - 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置

Info

Publication number: JP6964044B2
Application number: JP2018096841A
Authority: JP
Inventors: 光穂山本
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2021-11-10
Anticipated expiration: 2038-05-21
Also published as: JP2019204147A

Description

本発明は、リップリーディングに用いるモデルを学習する技術に関する。

近年の車社会の発展、車両の高機能化に伴い、車内空間において車載機器を音声で操作する需要が増えてきている。搭乗者の発話内容を正確に分析できれば、運転中の車載機器操作による注意力分散による危険を未然に防ぐことができる。その一方、走行する車両に設置したマイクは、機械的、また車内音響機器や外部環境などに起因する多種の音声ノイズに晒されるし、操作者の発話が明瞭であるとも限らないため、車載マイクのみから搭乗者の発話を正確に判断することは困難である。

そこで、音声と共に、車載カメラによって得られる映像にリップリーディング技術を応用することで、発話者の判定や発話内容の認識をより正確に行う技術が提案されている。

ここで、リップリーディングとは、発話者の唇の動きから発話内容を読み取る技術であり、特に英語圏話者に対する研究が進んでいる。言語構造上、日本語話者に対するリップリーディングの難度は相対的に高いとされているが、近年のビックデータの整備およびコンピュータ解析技術・機械学習技術の着実な進歩に伴い、着実な精度向上が図られている。例えば、非特許文献１では、テレビ放送から入手可能な豊富な映像データと音声データを用いた機械学習(WLAS)モデルにより、最終的にプロのリップリーダーよりも高い認識精度を達成したことが報告されている。

J. S. Chung et.al "Lip Reading Sentences in the Wild", Cornell University Library arXiv:1611.05358, 2016年

一般に、ニューラルネットワークによる学習を成立させるためには膨大な教師データが必要となる。先行技術文献では、これに相当するのはＲＧＢ映像と音声データである。これらのデータは、現代社会ではビッグデータとして合法的かつ容易に入手・使用可能である。

ところで、車載カメラは搭乗者の挙動を正確に捕捉し、注意力低下やよそ見運転などの人的要因による事故発生を未然に抑止することを目的とした運転支援装置であることから、外乱光の影響や操縦者への刺激を避けるために、可視光ではなく近赤外光(NIR：Near InfraRed)を照射して、運転操作のモニタリングと記録を行う。

ここで、ＲＧＢ映像と同様、赤外線映像に対してリップリーディングを行うためにも、膨大な教師データが必要である。しかし、この種の映像はビッグデータとしては整備されていない。このため、学習のために十分な量の教師用データを用意することは困難であり、十分なデータが用意できない以上、推定結果も実用に耐えるものにはなり難い。

本発明は、以上のような課題に対して、赤外線映像に対しても実用的なリップリーディング推定を行うためになされたものである。

本発明の学習装置は、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習するための学習装置であって、唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部と、唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力する入力部と、前記記憶部から第１の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成する転移学習部を備える。

本発明では、ＲＧＢ画像を学習して得られた第１の学習済みモデルからの転移学習を行うことにより、赤外線映像の教師データが十分に得られない状況下でも、赤外線映像における唇の動きを推論するための第２の学習済みモデルを生成することができる。

本発明の学習装置において、前記転移学習部は、画像処理のレイヤと言語処理のレイヤを含む前記第１の学習モデルのうち、前記言語処理のレイヤにおける学習結果を固定して、前記画像処理のレイヤについての学習を行う学習装置としてもよい。

ＲＧＢ映像と赤外線映像は異なるが、言語処理の部分は共通しているため、ＲＧＢ映像による言語処理レイヤの学習結果を、赤外線映像の学習モデルに適用することで、適切に
転移学習を進めることができる。

また、本発明の学習装置において前記学習装置は前記第１の学習済みモデルを生成するために、唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして入力する入力部と、入力された教師データを用いて、前記第１の学習済みモデルを生成し、生成した前記第１の学習済みモデルを前記記憶部に記憶する学習部を備えてもよい。

この構成を取ることにより、第１の学習済みモデルをあらかじめ有していない場合でも、ＲＧＢ映像を用いた学習で生成された第１の学習済みモデルからの転移学習によって、赤外線映像の学習済みモデルを生成することができる。

本発明の学習方法は、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習する方法であって、コンピュータに、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして入力するステップと、唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部から第１の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成するステップを備える。

本発明のプログラムは、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習させるためのプログラムであって、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして入力するステップと、唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部から第１の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成するステップを実行させる。

本発明の学習済みモデルは、赤外線映像に映る人の唇の動きから発話内容を推定するため、コンピュータを機能させるニューラルネットワークの学習済みモデルであって、唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルに対して、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして転移学習を行うことで学習されたものであり、唇の動きから発話内容を推定するようにコンピュータを機能させるための学習済みモデルである。

本発明のリップリーディング装置は、前記学習済みモデルが十分な学習精度を得た場合、本発明は前記学習済みモデルを記憶した記憶部と、赤外線の映像を入力する入力部と、前記映像から唇が映る唇領域を特定する唇領域特定部と、前記記憶部から学習済みモデルを読み出し、前記学習済みモデルに前記唇領域を適用して、唇の動きに対応する発話内容を出力する出力部とを備える。

これにより、車載カメラなどで赤外線映像に対するリップリーディングを行うことができ、発明の課題が解決される。

学習装置の構成を示す図である。（ａ）ＲＧＢ映像モデルを示す図である。（ｂ）赤外線映像モデルを示す図である。学習装置の動作を示す図である。リップリーディング装置の構成を示す図である。（ａ）音声付きで構築されるＲＧＢ映像モデルを示す図である。（ｂ）音声付きで構築される赤外線映像モデルを示す図である。

以下、本発明の実施形態の学習装置について、図面を参照して説明をする。
図１は、学習装置１全体の概観を示したものである。学習装置１は、ＲＧＢ映像モデル生成部２０を有し、ＲＧＢ映像モデル生成部２０は、ＲＧＢコーパス入力部２１と、学習部２２を有する。ここで、リップリーディングのためのコーパスとは、唇がどの形のときにどういった音が発声されているのかを数秒の単位時間毎に関連付けた教師データである。単位時間は必ずしも固定長である必要はない。このコーパスは、例えば、映像・音声、また使用可能な場合には字幕データなどから同期を取って生成することができる。本実施の形態で用いるコーパスは、唇の映像と、発話内容の正解データとを対応付けたデータである。

学習部２２は、このコーパスを用いて、唇の映像から発話内容を推論するモデルを生成する。この学習済みモデルを後述する学習済みモデルと区別するため、「ＲＧＢ映像モデル」という。ＲＧＢ映像モデル記憶部２３は、この学習済みのＲＧＢ映像モデルを格納する。

なお、あらかじめ学習が十分な精度に達したＲＧＢ映像モデルがＲＧＢ映像モデル記憶部２３に格納されている場合には、ＲＧＢコーパス入力部２１と学習部２２は必ずしも必要ではない。

また、学習装置１は、赤外線コーパス入力部１０と転移学習部１１とを備える。赤外線コーパス入力部１０は、赤外線のコーパスを入力する機能を有する。赤外線のコーパスは、赤外線映像から切り出した唇の画像、およびそれに対応する発話内容の正解データである。

転移学習部１１は、赤外線コーパスを使った学習処理を行い、赤外線映像の唇の動きから発話内容を推論するためのニューラルネットワークのモデルを生成する。このモデルを「赤外線映像モデル」という。赤外線映像モデルは、赤外線映像モデル記憶部１２に格納される。

学習に十分な量の赤外線コーパスを用意することは難しく、高い学習精度を確保することが困難であるため、転移学習部１１は、構築済みのＲＧＢ映像モデルからの転移学習を行う。ここで、本実施の形態の学習装置が行う転移学習について説明する。

図２（ａ）は、ＲＧＢ映像モデルの構成を示す図、図２（ｂ）は赤外線映像モデルの構成を示す図である。ＲＧＢ映像モデルと赤外線映像モデルは共に、画像処理部を有している。画像処理部は、STCNN(Spatiotemporal Convolutional Neural Network)層とSpatialプーリング層の組み合わせからなる層を３層有し、その後段にGRU(Gated Recurrent Unit)層を２層有する。その後、抽出された特徴量は言語処理部に入力される。言語処理部は、GRU層を２層有し、後段にLiner層、CTC(Connectionist Temporal Classification)Loss層を有して構成されている。

転移学習部１１は、図２（ａ）に示すＲＧＢ映像モデルを読み出し、ＲＧＢモデルの言語処理部については学習結果を固定し（つまり、重み係数を更新せず）、映像処理部について、赤外線コーパスを用いて学習を行う。唇映像を画像処理部に入力し、その結果、求められたテキストデータとコーパスの時刻付きテキストとの誤差を逆誤差伝搬法によってニューラルネットワークにフィードバックすることで学習を行う。この学習で更新するのは、画像処理部のレイヤである。

転移学習部１１は、転移学習によって得られた赤外線映像モデルを、赤外線映像モデル記憶部１２に格納する。

図３は、本実施の形態の学習装置１の動作を示す図である。本実施の形態における学習装置１は、ＲＧＢ映像のコーパスを入力し（Ｓ１１）、ＲＧＢ映像に基づいてＲＧＢ映像の唇の映像から発話内容を推論するニューラルネットワークのモデル（ＲＧＢ映像モデル）を学習する（Ｓ１２）。続いて、学習装置１は、赤外線映像のコーパスを入力し（Ｓ１３）、学習済みのＲＧＢ映像モデルからの転移学習により、赤外線映像の唇の映像から発話内容を推論するニューラルネットワークのモデル（赤外線映像モデル）を学習する（Ｓ１４）。

以上、本実施の形態の学習装置１の構成について説明したが、上記の学習装置１のハードウエアの例は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、ディスプレイ、通信インターフェース等を備えたＥＣＵ（Engine Control Unit）である。上記した各機能を実現するモジュールを有するプログラムをＲＡＭまたはＲＯＭに格納しておき、ＣＰＵによって当該プログラムを実行することによって、上記した学習装置１が実現される。このようなプログラムも本発明の範囲に含まれる。

図４は、学習装置１で生成した赤外線映像モデルを有するリップリーディング装置３０を示す図である。リップリーディング装置３０は、例えば、車両に搭載して用いられ、運転者の唇の動きから運転者の発話内容を読み取るのに用いられる。運転者の映像を取得するために、例えば、株式会社デンソーが開発したドライバーステータスモニタを用いることができる。ドライバーステータスモニタは、明るさの影響を受けにくい近赤外線ＬＥＤを用いてドライバーの顔を撮影し、画像解析によりドライバーの状態を検出する装置である。

リップリーディング装置３０は、赤外線映像入力部３１と、唇領域特定部３２と、推論部３３と、出力部３４と、赤外線映像モデル記憶部３５とを有している。赤外線映像モデル記憶部３５には、上述した学習装置１にて学習が行われた赤外線映像モデルが記憶されている。

赤外線映像入力部３１は、運転者の顔の映像を取得する機能を有する。唇領域特定部３２は、赤外線映像入力３１にて入力された顔の映像からリップリーディングで使用する唇領域のみの映像を取得する。

推論部３３は、赤外線映像モデル記憶部３５から学習済みの赤外線映像モデルを読み出し、赤外線映像モデルに運転者の唇の映像と運転者の音声を入力し、運転者の発話内容を推定する。出力部３４では、推定結果を、車内の機器を制御する各種の車載ＥＣＵなどに出力する。以上、本実施の形態の学習装置１の構成および動作について説明した。

ＲＧＢセンサで撮影した映像と赤外線センサで撮影した映像では、対象を撮影する際に受光する光の周波数成分が異なるだけなので、両者のドメインは類似する。このため、既に成果を出しているＲＧＢ映像でのリップリーディングに用いられる学習済みモデルに対し、赤外線映像で得られた教師データを用いて転移学習を進めることにより、赤外線センサ環境下でのリップリーディングに十分な精度を有するニューラルネットワークのモデルを得ることができる。

こうして得られた赤外線映像モデルを用いたリップリーディング装置３０は、ドライバーステータスモニタや車載カメラなどで得られた（近）赤外線映像を入力することにより、運転者の発話内容を適切に推論することができる。これにより、運転者は、走行中における騒音等にかかわらず、車載機器の制御をすることができる。例えば、カーナビゲーションシステムの目的地設定や、カーオーディオの操作、車内空調機器調整などの操作が可能である。本実施の形態のリップリーディング装置３０は、車載カメラの運転支援機能に、更なる安全性と利便性を付加することができる。

以上、本発明の学習装置について、実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。上記した実施の形態では、ＲＧＢ映像モデルおよび赤外線映像モデルとして、唇の映像のみから発話内容を推論するモデルの例を挙げたが、図５で示すように、別途音声を用いてもよい。

図５に示す学習装置では、（ａ）ＲＧＢ映像モデルと（ｂ）赤外線映像モデルは共に、（１）音声処理部と（２）画像処理部を有しており、それぞれがSTCNN層とSpatialプーリング層の組み合わせからなる層を３層有し、GRU層を２層有する。（１）と（２）は統合されて（３）言語処理部に入力される。言語処理部ではGRU層を２層有し、後段にLiner層、CTC Loss層を有して構成されており、唇映像を画像処理部に入力すると共に、音声を音声処理部に入力する。その結果、求められたテキストデータとコーパスの時刻付きテキストとの誤差を逆誤差伝搬法によってニューラルネットワークにフィードバックすることで学習を行う。

画像のほかに音声を利用して学習を行い、転移学習をすることにより、認識精度を向上したモデルを生成することができる。

本発明は、リップリーディングに用いるモデルを学習する技術に関して、有用である。

１学習装置
１０赤外線コーパス入力部
１１転移学習部
１２赤外線映像モデル記憶部
２０ＲＧＢ映像モデル生成部
２１ＲＧＢコーパス入力部
２２学習部
２３ＲＧＢ映像モデル記憶部
３０リップリーディング装置
３１赤外線映像入力部
３２唇領域特定部
３３推論部
３４出力部
３５赤外線映像モデル記憶部

Claims

赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習するための学習装置であって、
唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部と、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力する入力部と、
前記記憶部から第１の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成する転移学習部と、
を備える学習装置。
前記転移学習部は、画像処理のレイヤと言語処理のレイヤを含む前記第１の学習モデルのうち、前記言語処理のレイヤにおける学習結果を固定して、前記画像処理のレイヤについての学習を行う請求項１に記載の学習装置。
前記第１の学習済みモデルを生成するために、
唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして入力する入力部と、
入力された教師データを用いて、前記第１の学習済みモデルを生成し、生成した前記第１の学習済みモデルを前記記憶部に記憶する学習部と、
を備える請求項１または２に記載の学習装置。
赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習する方法であって、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部から第１の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成するステップと、
を備える学習方法。
赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習させるためのプログラムであって、コンピュータに、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルを記憶した記憶部から第１の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第２の学習済みモデルを生成するステップと、
を実行させるプログラム。
赤外線映像に映る人の唇の動きから発話内容を推定するため、コンピュータを機能させるニューラルネットワークの学習済みモデルであって、
唇の映像を含むＲＧＢ映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第１の学習済みモデルに対して、唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして転移学習を行うことで学習されたものであり、唇の動きから発話内容を推定するようにコンピュータを機能させるための学習済みモデル。
請求項６に記載の学習済みモデルを記憶した記憶部と、
赤外線の映像を入力する入力部と、
前記映像から唇が映る唇領域を特定する唇領域特定部と、
前記記憶部から学習済みモデルを読み出し、前記学習済みモデルに前記唇領域を適用して、唇の動きに対応する発話内容を出力する出力部と、
を備えるリップリーディング装置。