JP6964044B2 - 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 - Google Patents

学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 Download PDF

Info

Publication number
JP6964044B2
JP6964044B2 JP2018096841A JP2018096841A JP6964044B2 JP 6964044 B2 JP6964044 B2 JP 6964044B2 JP 2018096841 A JP2018096841 A JP 2018096841A JP 2018096841 A JP2018096841 A JP 2018096841A JP 6964044 B2 JP6964044 B2 JP 6964044B2
Authority
JP
Japan
Prior art keywords
learning
image
trained model
model
utterance content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018096841A
Other languages
English (en)
Other versions
JP2019204147A (ja
Inventor
光穂 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2018096841A priority Critical patent/JP6964044B2/ja
Publication of JP2019204147A publication Critical patent/JP2019204147A/ja
Application granted granted Critical
Publication of JP6964044B2 publication Critical patent/JP6964044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、リップリーディングに用いるモデルを学習する技術に関する。
近年の車社会の発展、車両の高機能化に伴い、車内空間において車載機器を音声で操作する需要が増えてきている。搭乗者の発話内容を正確に分析できれば、運転中の車載機器操作による注意力分散による危険を未然に防ぐことができる。その一方、走行する車両に設置したマイクは、機械的、また車内音響機器や外部環境などに起因する多種の音声ノイズに晒されるし、操作者の発話が明瞭であるとも限らないため、車載マイクのみから搭乗者の発話を正確に判断することは困難である。
そこで、音声と共に、車載カメラによって得られる映像にリップリーディング技術を応用することで、発話者の判定や発話内容の認識をより正確に行う技術が提案されている。
ここで、リップリーディングとは、発話者の唇の動きから発話内容を読み取る技術であり、特に英語圏話者に対する研究が進んでいる。言語構造上、日本語話者に対するリップリーディングの難度は相対的に高いとされているが、近年のビックデータの整備およびコンピュータ解析技術・機械学習技術の着実な進歩に伴い、着実な精度向上が図られている。例えば、非特許文献1では、テレビ放送から入手可能な豊富な映像データと音声データを用いた機械学習(WLAS)モデルにより、最終的にプロのリップリーダーよりも高い認識精度を達成したことが報告されている。
J. S. Chung et.al "Lip Reading Sentences in the Wild", Cornell University Library arXiv:1611.05358, 2016年
一般に、ニューラルネットワークによる学習を成立させるためには膨大な教師データが必要となる。先行技術文献では、これに相当するのはRGB映像と音声データである。これらのデータは、現代社会ではビッグデータとして合法的かつ容易に入手・使用可能である。
ところで、車載カメラは搭乗者の挙動を正確に捕捉し、注意力低下やよそ見運転などの人的要因による事故発生を未然に抑止することを目的とした運転支援装置であることから、外乱光の影響や操縦者への刺激を避けるために、可視光ではなく近赤外光(NIR:Near InfraRed)を照射して、運転操作のモニタリングと記録を行う。
ここで、RGB映像と同様、赤外線映像に対してリップリーディングを行うためにも、膨大な教師データが必要である。しかし、この種の映像はビッグデータとしては整備されていない。このため、学習のために十分な量の教師用データを用意することは困難であり、十分なデータが用意できない以上、推定結果も実用に耐えるものにはなり難い。
本発明は、以上のような課題に対して、赤外線映像に対しても実用的なリップリーディング推定を行うためになされたものである。
本発明の学習装置は、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習するための学習装置であって、唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部と、唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力する入力部と、前記記憶部から第1の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成する転移学習部を備える。
本発明では、RGB画像を学習して得られた第1の学習済みモデルからの転移学習を行うことにより、赤外線映像の教師データが十分に得られない状況下でも、赤外線映像における唇の動きを推論するための第2の学習済みモデルを生成することができる。
本発明の学習装置において、前記転移学習部は、画像処理のレイヤと言語処理のレイヤを含む前記第1の学習モデルのうち、前記言語処理のレイヤにおける学習結果を固定して、前記画像処理のレイヤについての学習を行う学習装置としてもよい。
RGB映像と赤外線映像は異なるが、言語処理の部分は共通しているため、RGB映像による言語処理レイヤの学習結果を、赤外線映像の学習モデルに適用することで、適切に
転移学習を進めることができる。
また、本発明の学習装置において前記学習装置は前記第1の学習済みモデルを生成するために、唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして入力する入力部と、入力された教師データを用いて、前記第1の学習済みモデルを生成し、生成した前記第1の学習済みモデルを前記記憶部に記憶する学習部を備えてもよい。
この構成を取ることにより、第1の学習済みモデルをあらかじめ有していない場合でも、RGB映像を用いた学習で生成された第1の学習済みモデルからの転移学習によって、赤外線映像の学習済みモデルを生成することができる。
本発明の学習方法は、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習する方法であって、コンピュータに、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして入力するステップと、唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップを備える。
本発明のプログラムは、赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習させるためのプログラムであって、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして入力するステップと、唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップを実行させる。
本発明の学習済みモデルは、赤外線映像に映る人の唇の動きから発話内容を推定するため、コンピュータを機能させるニューラルネットワークの学習済みモデルであって、唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルに対して、唇の映像を含む赤外線映像とそれに対応する発話内容を教師データとして転移学習を行うことで学習されたものであり、唇の動きから発話内容を推定するようにコンピュータを機能させるための学習済みモデルである。
本発明のリップリーディング装置は、前記学習済みモデルが十分な学習精度を得た場合、本発明は前記学習済みモデルを記憶した記憶部と、赤外線の映像を入力する入力部と、前記映像から唇が映る唇領域を特定する唇領域特定部と、前記記憶部から学習済みモデルを読み出し、前記学習済みモデルに前記唇領域を適用して、唇の動きに対応する発話内容を出力する出力部とを備える。
これにより、車載カメラなどで赤外線映像に対するリップリーディングを行うことができ、発明の課題が解決される。
学習装置の構成を示す図である。 (a)RGB映像モデルを示す図である。(b)赤外線映像モデルを示す図である。 学習装置の動作を示す図である。 リップリーディング装置の構成を示す図である。 (a)音声付きで構築されるRGB映像モデルを示す図である。(b)音声付きで構築される赤外線映像モデルを示す図である。
以下、本発明の実施形態の学習装置について、図面を参照して説明をする。
図1は、学習装置1全体の概観を示したものである。学習装置1は、RGB映像モデル生成部20を有し、RGB映像モデル生成部20は、RGBコーパス入力部21と、学習部22を有する。ここで、リップリーディングのためのコーパスとは、唇がどの形のときにどういった音が発声されているのかを数秒の単位時間毎に関連付けた教師データである。単位時間は必ずしも固定長である必要はない。このコーパスは、例えば、映像・音声、また使用可能な場合には字幕データなどから同期を取って生成することができる。本実施の形態で用いるコーパスは、唇の映像と、発話内容の正解データとを対応付けたデータである。
学習部22は、このコーパスを用いて、唇の映像から発話内容を推論するモデルを生成する。この学習済みモデルを後述する学習済みモデルと区別するため、「RGB映像モデル」という。RGB映像モデル記憶部23は、この学習済みのRGB映像モデルを格納する。
なお、あらかじめ学習が十分な精度に達したRGB映像モデルがRGB映像モデル記憶部23に格納されている場合には、RGBコーパス入力部21と学習部22は必ずしも必要ではない。
また、学習装置1は、赤外線コーパス入力部10と転移学習部11とを備える。赤外線コーパス入力部10は、赤外線のコーパスを入力する機能を有する。赤外線のコーパスは、赤外線映像から切り出した唇の画像、およびそれに対応する発話内容の正解データである。
転移学習部11は、赤外線コーパスを使った学習処理を行い、赤外線映像の唇の動きから発話内容を推論するためのニューラルネットワークのモデルを生成する。このモデルを「赤外線映像モデル」という。赤外線映像モデルは、赤外線映像モデル記憶部12に格納される。
学習に十分な量の赤外線コーパスを用意することは難しく、高い学習精度を確保することが困難であるため、転移学習部11は、構築済みのRGB映像モデルからの転移学習を行う。ここで、本実施の形態の学習装置が行う転移学習について説明する。
図2(a)は、RGB映像モデルの構成を示す図、図2(b)は赤外線映像モデルの構成を示す図である。RGB映像モデルと赤外線映像モデルは共に、画像処理部を有している。画像処理部は、STCNN(Spatiotemporal Convolutional Neural Network)層とSpatialプーリング層の組み合わせからなる層を3層有し、その後段にGRU(Gated Recurrent Unit)層を2層有する。その後、抽出された特徴量は言語処理部に入力される。言語処理部は、GRU層を2層有し、後段にLiner層、CTC(Connectionist Temporal Classification)Loss層を有して構成されている。
転移学習部11は、図2(a)に示すRGB映像モデルを読み出し、RGBモデルの言語処理部については学習結果を固定し(つまり、重み係数を更新せず)、映像処理部について、赤外線コーパスを用いて学習を行う。唇映像を画像処理部に入力し、その結果、求められたテキストデータとコーパスの時刻付きテキストとの誤差を逆誤差伝搬法によってニューラルネットワークにフィードバックすることで学習を行う。この学習で更新するのは、画像処理部のレイヤである。
転移学習部11は、転移学習によって得られた赤外線映像モデルを、赤外線映像モデル記憶部12に格納する。
図3は、本実施の形態の学習装置1の動作を示す図である。本実施の形態における学習装置1は、RGB映像のコーパスを入力し(S11)、RGB映像に基づいてRGB映像の唇の映像から発話内容を推論するニューラルネットワークのモデル(RGB映像モデル)を学習する(S12)。続いて、学習装置1は、赤外線映像のコーパスを入力し(S13)、学習済みのRGB映像モデルからの転移学習により、赤外線映像の唇の映像から発話内容を推論するニューラルネットワークのモデル(赤外線映像モデル)を学習する(S14)。
以上、本実施の形態の学習装置1の構成について説明したが、上記の学習装置1のハードウエアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、通信インターフェース等を備えたECU(Engine Control Unit)である。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した学習装置1が実現される。このようなプログラムも本発明の範囲に含まれる。
図4は、学習装置1で生成した赤外線映像モデルを有するリップリーディング装置30を示す図である。リップリーディング装置30は、例えば、車両に搭載して用いられ、運転者の唇の動きから運転者の発話内容を読み取るのに用いられる。運転者の映像を取得するために、例えば、株式会社デンソーが開発したドライバーステータスモニタを用いることができる。ドライバーステータスモニタは、明るさの影響を受けにくい近赤外線LEDを用いてドライバーの顔を撮影し、画像解析によりドライバーの状態を検出する装置である。
リップリーディング装置30は、赤外線映像入力部31と、唇領域特定部32と、推論部33と、出力部34と、赤外線映像モデル記憶部35とを有している。赤外線映像モデル記憶部35には、上述した学習装置1にて学習が行われた赤外線映像モデルが記憶されている。
赤外線映像入力部31は、運転者の顔の映像を取得する機能を有する。唇領域特定部32は、赤外線映像入力31にて入力された顔の映像からリップリーディングで使用する唇領域のみの映像を取得する。
推論部33は、赤外線映像モデル記憶部35から学習済みの赤外線映像モデルを読み出し、赤外線映像モデルに運転者の唇の映像と運転者の音声を入力し、運転者の発話内容を推定する。出力部34では、推定結果を、車内の機器を制御する各種の車載ECUなどに出力する。以上、本実施の形態の学習装置1の構成および動作について説明した。
RGBセンサで撮影した映像と赤外線センサで撮影した映像では、対象を撮影する際に受光する光の周波数成分が異なるだけなので、両者のドメインは類似する。このため、既に成果を出しているRGB映像でのリップリーディングに用いられる学習済みモデルに対し、赤外線映像で得られた教師データを用いて転移学習を進めることにより、赤外線センサ環境下でのリップリーディングに十分な精度を有するニューラルネットワークのモデルを得ることができる。
こうして得られた赤外線映像モデルを用いたリップリーディング装置30は、ドライバーステータスモニタや車載カメラなどで得られた(近)赤外線映像を入力することにより、運転者の発話内容を適切に推論することができる。これにより、運転者は、走行中における騒音等にかかわらず、車載機器の制御をすることができる。例えば、カーナビゲーションシステムの目的地設定や、カーオーディオの操作、車内空調機器調整などの操作が可能である。本実施の形態のリップリーディング装置30は、車載カメラの運転支援機能に、更なる安全性と利便性を付加することができる。
以上、本発明の学習装置について、実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。上記した実施の形態では、RGB映像モデルおよび赤外線映像モデルとして、唇の映像のみから発話内容を推論するモデルの例を挙げたが、図5で示すように、別途音声を用いてもよい。
図5に示す学習装置では、(a)RGB映像モデルと(b)赤外線映像モデルは共に、(1)音声処理部と(2)画像処理部を有しており、それぞれがSTCNN層とSpatialプーリング層の組み合わせからなる層を3層有し、GRU層を2層有する。(1)と(2)は統合されて(3)言語処理部に入力される。言語処理部ではGRU層を2層有し、後段にLiner層、CTC Loss層を有して構成されており、唇映像を画像処理部に入力すると共に、音声を音声処理部に入力する。その結果、求められたテキストデータとコーパスの時刻付きテキストとの誤差を逆誤差伝搬法によってニューラルネットワークにフィードバックすることで学習を行う。
画像のほかに音声を利用して学習を行い、転移学習をすることにより、認識精度を向上したモデルを生成することができる。
本発明は、リップリーディングに用いるモデルを学習する技術に関して、有用である。
1 学習装置
10 赤外線コーパス入力部
11 転移学習部
12 赤外線映像モデル記憶部
20 RGB映像モデル生成部
21 RGBコーパス入力部
22 学習部
23 RGB映像モデル記憶部
30 リップリーディング装置
31 赤外線映像入力部
32 唇領域特定部
33 推論部
34 出力部
35 赤外線映像モデル記憶部

Claims (7)

  1. 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習するための学習装置であって、
    唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部と、
    唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力する入力部と、
    前記記憶部から第1の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成する転移学習部と、
    を備える学習装置。
  2. 前記転移学習部は、画像処理のレイヤと言語処理のレイヤを含む前記第1の学習モデルのうち、前記言語処理のレイヤにおける学習結果を固定して、前記画像処理のレイヤについての学習を行う請求項1に記載の学習装置。
  3. 前記第1の学習済みモデルを生成するために、
    唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして入力する入力部と、
    入力された教師データを用いて、前記第1の学習済みモデルを生成し、生成した前記第1の学習済みモデルを前記記憶部に記憶する学習部と、
    を備える請求項1または2に記載の学習装置。
  4. 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習する方法であって、
    唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
    唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップと、
    を備える学習方法。
  5. 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習させるためのプログラムであって、コンピュータに、
    唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
    唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップと、
    を実行させるプログラム。
  6. 赤外線映像に映る人の唇の動きから発話内容を推定するため、コンピュータを機能させるニューラルネットワークの学習済みモデルであって、
    唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルに対して、唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして転移学習を行うことで学習されたものであり、唇の動きから発話内容を推定するようにコンピュータを機能させるための学習済みモデル。
  7. 請求項6に記載の学習済みモデルを記憶した記憶部と、
    赤外線の映像を入力する入力部と、
    前記映像から唇が映る唇領域を特定する唇領域特定部と、
    前記記憶部から学習済みモデルを読み出し、前記学習済みモデルに前記唇領域を適用して、唇の動きに対応する発話内容を出力する出力部と、
    を備えるリップリーディング装置。
JP2018096841A 2018-05-21 2018-05-21 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 Active JP6964044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018096841A JP6964044B2 (ja) 2018-05-21 2018-05-21 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018096841A JP6964044B2 (ja) 2018-05-21 2018-05-21 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置

Publications (2)

Publication Number Publication Date
JP2019204147A JP2019204147A (ja) 2019-11-28
JP6964044B2 true JP6964044B2 (ja) 2021-11-10

Family

ID=68726920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018096841A Active JP6964044B2 (ja) 2018-05-21 2018-05-21 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置

Country Status (1)

Country Link
JP (1) JP6964044B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261187B (zh) * 2020-02-04 2023-02-14 清华珠三角研究院 一种将语音转换成唇形的方法、系统、装置和存储介质
WO2021234782A1 (ja) * 2020-05-18 2021-11-25 日本電信電話株式会社 画像処理装置、方法およびプログラム
CN111723693B (zh) * 2020-06-03 2022-05-27 云南大学 一种基于小样本学习的人群计数方法
KR102426792B1 (ko) 2020-09-16 2022-07-29 한양대학교 산학협력단 무음 발화 인식 방법 및 장치
CN112487899B (zh) * 2020-11-19 2023-04-07 武汉高德飞行器科技有限公司 基于无人机的目标识别方法、系统、存储介质及电子设备
CN113033452B (zh) * 2021-04-06 2022-09-16 合肥工业大学 融合通道注意力和选择性特征融合机制的唇语识别方法
WO2023281659A1 (ja) * 2021-07-07 2023-01-12 日本電信電話株式会社 学習装置、推定装置、学習方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP6708035B2 (ja) * 2016-07-19 2020-06-10 株式会社デンソー 発話内容認識装置
JP6814981B2 (ja) * 2016-07-21 2021-01-20 パナソニックIpマネジメント株式会社 学習装置、識別装置、学習識別システム、及び、プログラム

Also Published As

Publication number Publication date
JP2019204147A (ja) 2019-11-28

Similar Documents

Publication Publication Date Title
JP6964044B2 (ja) 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置
US10893236B2 (en) System and method for providing virtual interpersonal communication
US10885712B2 (en) Camera pose estimation method for augmented reality manual for cars
JP7313558B2 (ja) 対話応答生成システムのためのシステムおよび方法
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
US20210249034A1 (en) Information-processing device, vehicle, computer-readable storage medium, and information-processing method
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
CN109941231B (zh) 车载终端设备、车载交互系统和交互方法
JP7192222B2 (ja) 発話システム
US20230129816A1 (en) Speech instruction control method in vehicle cabin and related device
JP2017090612A (ja) 音声認識制御システム
CN109302486B (zh) 一种根据车内环境推送音乐的方法和系统
US20200114925A1 (en) Interaction device, interaction method, and program
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
CN115205729A (zh) 基于多模态特征融合的行为识别方法、系统
KR20210146372A (ko) 비디오 채팅 동안에 감정 수정을 제공하는 방법 및 시스템
KR102458343B1 (ko) 음성 데이터를 송수신하는 디바이스 및 방법
JP6785889B2 (ja) サービス提供装置
CN116403576A (zh) 车辆智能座舱的交互方法、装置、设备及存储介质
JP7068156B2 (ja) 情報処理装置及びプログラム
GB2578766A (en) Apparatus and method for controlling vehicle system operation
WO2023159536A1 (zh) 人机交互方法、装置以及终端设备
CN115312061A (zh) 驾驶场景中的语音问答方法、装置及车载终端
JP7351889B2 (ja) 車室内監視・状況理解感知方法及びそのシステム
KR20220082279A (ko) 립싱크 영상 생성 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6964044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150