JP6964044B2 - 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 - Google Patents
学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 Download PDFInfo
- Publication number
- JP6964044B2 JP6964044B2 JP2018096841A JP2018096841A JP6964044B2 JP 6964044 B2 JP6964044 B2 JP 6964044B2 JP 2018096841 A JP2018096841 A JP 2018096841A JP 2018096841 A JP2018096841 A JP 2018096841A JP 6964044 B2 JP6964044 B2 JP 6964044B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- image
- trained model
- model
- utterance content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
転移学習を進めることができる。
図1は、学習装置1全体の概観を示したものである。学習装置1は、RGB映像モデル生成部20を有し、RGB映像モデル生成部20は、RGBコーパス入力部21と、学習部22を有する。ここで、リップリーディングのためのコーパスとは、唇がどの形のときにどういった音が発声されているのかを数秒の単位時間毎に関連付けた教師データである。単位時間は必ずしも固定長である必要はない。このコーパスは、例えば、映像・音声、また使用可能な場合には字幕データなどから同期を取って生成することができる。本実施の形態で用いるコーパスは、唇の映像と、発話内容の正解データとを対応付けたデータである。
10 赤外線コーパス入力部
11 転移学習部
12 赤外線映像モデル記憶部
20 RGB映像モデル生成部
21 RGBコーパス入力部
22 学習部
23 RGB映像モデル記憶部
30 リップリーディング装置
31 赤外線映像入力部
32 唇領域特定部
33 推論部
34 出力部
35 赤外線映像モデル記憶部
Claims (7)
- 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習するための学習装置であって、
唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部と、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力する入力部と、
前記記憶部から第1の学習済みモデルを読み出し、前記入力部にて入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成する転移学習部と、
を備える学習装置。 - 前記転移学習部は、画像処理のレイヤと言語処理のレイヤを含む前記第1の学習モデルのうち、前記言語処理のレイヤにおける学習結果を固定して、前記画像処理のレイヤについての学習を行う請求項1に記載の学習装置。
- 前記第1の学習済みモデルを生成するために、
唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして入力する入力部と、
入力された教師データを用いて、前記第1の学習済みモデルを生成し、生成した前記第1の学習済みモデルを前記記憶部に記憶する学習部と、
を備える請求項1または2に記載の学習装置。 - 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習する方法であって、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップと、
を備える学習方法。 - 赤外線映像に映る人の唇の動きから発話内容を推定するために用いられるニューラルネットワークのモデルを学習させるためのプログラムであって、コンピュータに、
唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして入力するステップと、
唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルを記憶した記憶部から第1の学習済みモデルを読み出し、入力された教師データを用いて、読み出した学習済みモデルの転移学習を行い、第2の学習済みモデルを生成するステップと、
を実行させるプログラム。 - 赤外線映像に映る人の唇の動きから発話内容を推定するため、コンピュータを機能させるニューラルネットワークの学習済みモデルであって、
唇の映像を含むRGB映像とそれに対応する発話内容を教師データとして、ニューラルネットワークの重み付け係数を学習することで構成された第1の学習済みモデルに対して、唇の映像を含む赤外線画像とそれに対応する発話内容を教師データとして転移学習を行うことで学習されたものであり、唇の動きから発話内容を推定するようにコンピュータを機能させるための学習済みモデル。 - 請求項6に記載の学習済みモデルを記憶した記憶部と、
赤外線の映像を入力する入力部と、
前記映像から唇が映る唇領域を特定する唇領域特定部と、
前記記憶部から学習済みモデルを読み出し、前記学習済みモデルに前記唇領域を適用して、唇の動きに対応する発話内容を出力する出力部と、
を備えるリップリーディング装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018096841A JP6964044B2 (ja) | 2018-05-21 | 2018-05-21 | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018096841A JP6964044B2 (ja) | 2018-05-21 | 2018-05-21 | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204147A JP2019204147A (ja) | 2019-11-28 |
JP6964044B2 true JP6964044B2 (ja) | 2021-11-10 |
Family
ID=68726920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018096841A Active JP6964044B2 (ja) | 2018-05-21 | 2018-05-21 | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6964044B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261187B (zh) * | 2020-02-04 | 2023-02-14 | 清华珠三角研究院 | 一种将语音转换成唇形的方法、系统、装置和存储介质 |
WO2021234782A1 (ja) * | 2020-05-18 | 2021-11-25 | 日本電信電話株式会社 | 画像処理装置、方法およびプログラム |
CN111723693B (zh) * | 2020-06-03 | 2022-05-27 | 云南大学 | 一种基于小样本学习的人群计数方法 |
KR102426792B1 (ko) | 2020-09-16 | 2022-07-29 | 한양대학교 산학협력단 | 무음 발화 인식 방법 및 장치 |
CN112487899B (zh) * | 2020-11-19 | 2023-04-07 | 武汉高德飞行器科技有限公司 | 基于无人机的目标识别方法、系统、存储介质及电子设备 |
CN113033452B (zh) * | 2021-04-06 | 2022-09-16 | 合肥工业大学 | 融合通道注意力和选择性特征融合机制的唇语识别方法 |
WO2023281659A1 (ja) * | 2021-07-07 | 2023-01-12 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法、プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
JP6708035B2 (ja) * | 2016-07-19 | 2020-06-10 | 株式会社デンソー | 発話内容認識装置 |
JP6814981B2 (ja) * | 2016-07-21 | 2021-01-20 | パナソニックIpマネジメント株式会社 | 学習装置、識別装置、学習識別システム、及び、プログラム |
-
2018
- 2018-05-21 JP JP2018096841A patent/JP6964044B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019204147A (ja) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6964044B2 (ja) | 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置 | |
US10893236B2 (en) | System and method for providing virtual interpersonal communication | |
US10885712B2 (en) | Camera pose estimation method for augmented reality manual for cars | |
JP7313558B2 (ja) | 対話応答生成システムのためのシステムおよび方法 | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
US20210249034A1 (en) | Information-processing device, vehicle, computer-readable storage medium, and information-processing method | |
JP6466385B2 (ja) | サービス提供装置、サービス提供方法およびサービス提供プログラム | |
CN109941231B (zh) | 车载终端设备、车载交互系统和交互方法 | |
JP7192222B2 (ja) | 発話システム | |
US20230129816A1 (en) | Speech instruction control method in vehicle cabin and related device | |
JP2017090612A (ja) | 音声認識制御システム | |
CN109302486B (zh) | 一种根据车内环境推送音乐的方法和系统 | |
US20200114925A1 (en) | Interaction device, interaction method, and program | |
US20200152203A1 (en) | Agent device, agent presentation method, and storage medium | |
CN115205729A (zh) | 基于多模态特征融合的行为识别方法、系统 | |
KR20210146372A (ko) | 비디오 채팅 동안에 감정 수정을 제공하는 방법 및 시스템 | |
KR102458343B1 (ko) | 음성 데이터를 송수신하는 디바이스 및 방법 | |
JP6785889B2 (ja) | サービス提供装置 | |
CN116403576A (zh) | 车辆智能座舱的交互方法、装置、设备及存储介质 | |
JP7068156B2 (ja) | 情報処理装置及びプログラム | |
GB2578766A (en) | Apparatus and method for controlling vehicle system operation | |
WO2023159536A1 (zh) | 人机交互方法、装置以及终端设备 | |
CN115312061A (zh) | 驾驶场景中的语音问答方法、装置及车载终端 | |
JP7351889B2 (ja) | 車室内監視・状況理解感知方法及びそのシステム | |
KR20220082279A (ko) | 립싱크 영상 생성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6964044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |