JP2019200671A - 学習装置、学習方法、プログラム、データ生成方法及び識別装置 - Google Patents
学習装置、学習方法、プログラム、データ生成方法及び識別装置 Download PDFInfo
- Publication number
- JP2019200671A JP2019200671A JP2018095725A JP2018095725A JP2019200671A JP 2019200671 A JP2019200671 A JP 2019200671A JP 2018095725 A JP2018095725 A JP 2018095725A JP 2018095725 A JP2018095725 A JP 2018095725A JP 2019200671 A JP2019200671 A JP 2019200671A
- Authority
- JP
- Japan
- Prior art keywords
- data
- face image
- utterance
- image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 58
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000003384 imaging method Methods 0.000 claims abstract description 8
- 230000008451 emotion Effects 0.000 claims description 53
- 239000000284 extract Substances 0.000 claims description 29
- 230000001815 facial effect Effects 0.000 claims description 8
- 210000000056 organ Anatomy 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 31
- 238000005070 sampling Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
(実施の形態1)
図1は、学習装置1の構成例を示すブロック図である。本実施の形態では、画像及び音声の双方からマルチモーダルに感情を推定可能とすべく、人物の顔画像と、顔画像を撮像時に人物が発話した発声データとの対応関係を学習する機械学習を行う学習装置1について説明する。学習装置1は、種々の情報処理が可能な学習装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等の装置である。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、学習装置1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、外部と通信を行うための通信インターフェイス等を備え、端末2との間で種々の情報の送受信を行う。端末2は、例えばパーソナルコンピュータ、多機能端末等の端末装置であり、ユーザによる操作入力を受け付け、情報の入出力を行う。
学習装置1の制御部11は、学習対象とする複数の動画を取得する(ステップS11)。ステップS11で取得する動画データは、被写体である人物を撮像した動画に加え、該動画を撮像時に集音された発話音声を含む。制御部11は、ステップS11で取得した各動画から、人物の顔画像と、当該顔画像に対応する人物の発話音声とをサンプリングして、ニューラルネットワークに入力する複数のデータセットを生成する処理を実行する(ステップS12)。
学習装置1の制御部11は、学習対象として取得した複数の動画から一の動画を選択する(ステップS31)。制御部11は当該動画から、被写体である人物の顔器官、具体的には口の動きを検出する(ステップS32)。制御部11は、検出した口の動きに基づいて発話時を特定し、当該発話時の顔画像(静止画)を抽出する(ステップS33)。例えば制御部11は、動画内で口が動いている時間のうち、ランダムな時点の画像フレームを抽出する。制御部11は、顔画像に含まれる人物の顔領域の大きさと、画像フレームとの比率が均一になるように顔画像をクロップ(補正)する(ステップS34)。
学習装置1の制御部11は、感情の識別対象である顔画像又は発話音声を取得する(ステップS41)。ステップS41で取得するデータは顔画像のみ、又は音声のみであってもよい。あるいは、ステップS41で取得するデータは学習時と同様に、画像及び音声を含む動画データであってもよい。
本実施の形態では、動画からサンプリングした音声を音量に応じて学習対象から除外する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
実施の形態1で、顔画像のフレームに対応する時点の音声を動画からサンプリングし、当該音声を用いて学習を行う旨を述べた。しかし、例えば口は動いているが声を発していない場合、すなわち無音の場合などは、学習対象としては不適である。そこで本実施の形態では、このように音量の小さい音声は学習用から除外する。
本実施の形態では、発話音声を画像ではなく、テキストに変換して学習を行う形態について述べる。
詳細な図示は省略するが、例えば学習装置1は、音声ネットワークとして画像解析用のニューラルネットワークではなく、テキスト解析用のニューラルネットワークを用意しておく。当該ニューラルネットワークは、例えば回帰型ニューラルネットワーク(Recurrent Neural Network;RNN)、LSTM(Long Short Term Memory)等であるが、これらに限定されない。学習装置1は、テキストの特徴量を抽出するこれらのネットワークを音声ネットワークとして用意し、顔画像との対応関係を学習する。
学習用の複数の動画データを取得した後(ステップS11)、学習装置1の制御部11は、動画データから顔画像及び発声データをサンプリングする処理を実行する(ステップS301)。具体的には、制御部11は動画内から顔画像のフレームを抽出すると共に、顔画像の抽出時点に対応する発話音声を抽出し、当該音声をテキストに変換する処理を行う。制御部11は、顔画像を画像ネットワークに入力すると共に、発話音声を変換したテキストを音声ネットワークに入力する(ステップS302)。制御部11は、各サブネットワークから出力される顔画像の特徴量、及び発話音声に係るテキストの特徴量を取得する(ステップS303)。
顔画像を抽出した時点(発話時)に対応する発話音声を抽出した後(ステップS35)、学習装置1の制御部11は、抽出した発話音声に対する音声認識を行い、当該音声をテキストに変換する(ステップS321)。制御部11は、変換したテキストを顔画像と対応付けてデータセットを生成し(ステップS322)、処理をステップS38に移行する。
図11は、上述した形態の学習装置1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、学習装置1は以下のように動作する。取得部111は、人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する。第1抽出部112は、前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する。第2抽出部113は、前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する。生成部114は、前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する。
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 識別器
2 端末
Claims (12)
- 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得する取得部と、
前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出する第1抽出部と、
前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出する第2抽出部と、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する生成部と
を備えることを特徴とする学習装置。 - 前記生成部による識別器の生成後、顔画像又は発声データに人物の感情を表す情報がラベル付けされた教師データを取得する教師データ取得部と、
前記教師データに基づき、前記第1又は第2の抽出器を用いて前記人物の感情を推定する第2の識別器を生成する第2生成部と
を備えることを特徴とする請求項1に記載の学習装置。 - 前記取得部は、前記人物の発話音声を含む複数の動画を取得し、
前記動画夫々から、前記人物の発話時の前記顔画像と、該発話時に対応する前記発話音声とを抽出して前記データセットを生成するデータ生成部を備える
ことを特徴とする請求項1又は2に記載の学習装置。 - 前記データ生成部は、前記人物の顔器官の動きを前記動画から検出することで、前記発話時を特定する
ことを特徴とする請求項3に記載の学習装置。 - 前記データ生成部は、前記複数の動画夫々から抽出した前記顔画像を、画像フレームに対する前記人物の顔領域のサイズが均一になるように補正する
ことを特徴とする請求項3又は4に記載の学習装置。 - 前記データ生成部は、前記動画から抽出した前記発話音声からスペクトログラム画像を生成し、
前記第2抽出部は、前記スペクトログラム画像を前記第2の抽出器に入力し、前記スペクトログラム画像の特徴量を抽出する
ことを特徴とする請求項3〜5のいずれか1項に記載の学習装置。 - 前記データ生成部は、前記発話時における前記発話音声の音量に応じて、該発話時の前記顔画像及び発話音声を抽出する
ことを特徴とする請求項3〜6のいずれか1項に記載の学習装置。 - 前記データ生成部は、前記動画から抽出した前記発話音声をテキストに変換し、
前記第2抽出部は、前記テキストを前記第2の抽出器に入力し、前記テキストの特徴量を抽出する
ことを特徴とする請求項3〜7のいずれか1項に記載の学習装置。 - 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出し、
前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出し、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
処理をコンピュータに実行させることを特徴とする学習方法。 - 人物の顔を撮像した顔画像と、該人物の発声データとが夫々対応付けられた複数のデータセットを取得し、
前記複数のデータセット夫々の前記顔画像を第1の抽出器に入力し、前記顔画像の特徴量を抽出し、
前記複数のデータセット夫々の前記発声データを第2の抽出器に入力し、前記発声データの特徴量を抽出し、
前記顔画像及び発声データ夫々の特徴量と、前記データセットにおける前記顔画像及び発声データの対応関係とに基づき、前記第1及び第2の抽出器を用いて前記顔画像及び発声データを識別する識別器を生成する
処理をコンピュータに実行させることを特徴とするプログラム。 - 人物の顔を撮像した動画であって、該人物の発話音声を含む動画を取得し、
取得した前記動画から、前記人物の顔器官の動きを検出することで発話時を特定し、
該発話時の顔画像と、前記発話時に対応する前記発話音声とを前記動画から抽出し、
抽出した前記発話音声からスペクトログラム画像を生成し、
前記顔画像及びスペクトログラム画像を対応付けたデータセットを生成する
処理をコンピュータに実行させることを特徴とするデータ生成方法。 - 請求項1〜8のいずれか1項に記載の学習装置を用いて生成された識別器と、識別対象である顔画像又は発声データとを取得する識別対象取得部と、
前記識別器を用いて、前記顔画像又は発声データに対応する分類に識別する識別部と
を備えることを特徴とする識別装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018095725A JP2019200671A (ja) | 2018-05-17 | 2018-05-17 | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018095725A JP2019200671A (ja) | 2018-05-17 | 2018-05-17 | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019200671A true JP2019200671A (ja) | 2019-11-21 |
Family
ID=68613179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018095725A Pending JP2019200671A (ja) | 2018-05-17 | 2018-05-17 | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019200671A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021162965A (ja) * | 2020-03-30 | 2021-10-11 | デジタルア−ツ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
WO2022025359A1 (ko) * | 2020-07-27 | 2022-02-03 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
JP2022054326A (ja) * | 2020-09-25 | 2022-04-06 | Kddi株式会社 | ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
JP2022153360A (ja) * | 2020-07-30 | 2022-10-12 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP7475105B2 (ja) | 2020-06-22 | 2024-04-26 | パナソニックオートモーティブシステムズ株式会社 | 学習装置、学習方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108392A (ja) * | 2000-09-29 | 2002-04-10 | Casio Comput Co Ltd | 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体 |
JP2017156854A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 |
-
2018
- 2018-05-17 JP JP2018095725A patent/JP2019200671A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108392A (ja) * | 2000-09-29 | 2002-04-10 | Casio Comput Co Ltd | 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体 |
JP2017156854A (ja) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 |
Non-Patent Citations (3)
Title |
---|
熊谷 章吾: "口唇動作と音声の共起に着目した被写体と話者の不一致検出", 電子情報通信学会技術研究報告 VOL.111 NO.38, vol. MVE2011-12 (2011-05), JPN6022008452, 6 May 2011 (2011-05-06), JP, pages 75 - 80, ISSN: 0004778509 * |
青田 亨: "感情認識における画像情報と音声情報の統合", FIT2006 第5回情報科学技術フォーラム 一般講演論文集 第3分冊 画像認識・メディア理解 グラ, vol. K_059, JPN6022008451, 21 August 2006 (2006-08-21), JP, pages 509 - 510, ISSN: 0004778510 * |
齊藤 剛史: "口内領域形状に基づく日本語単音の分類", 電子情報通信学会技術研究報告 VOL.106 NO.606, vol. PRMU2006-282 (2007-3), JPN6022008450, 9 March 2007 (2007-03-09), JP, pages 161 - 166, ISSN: 0004778511 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021162965A (ja) * | 2020-03-30 | 2021-10-11 | デジタルア−ツ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7455788B2 (ja) | 2020-03-30 | 2024-03-26 | デジタルアーツ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7475105B2 (ja) | 2020-06-22 | 2024-04-26 | パナソニックオートモーティブシステムズ株式会社 | 学習装置、学習方法及びプログラム |
WO2022025359A1 (ko) * | 2020-07-27 | 2022-02-03 | 주식회사 딥브레인에이아이 | 발화 영상 생성 방법 및 장치 |
JP2022153360A (ja) * | 2020-07-30 | 2022-10-12 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP7361163B2 (ja) | 2020-07-30 | 2023-10-13 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2022054326A (ja) * | 2020-09-25 | 2022-04-06 | Kddi株式会社 | ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 |
JP7423490B2 (ja) | 2020-09-25 | 2024-01-29 | Kddi株式会社 | ユーザの感情に応じたキャラクタの傾聴感を表現する対話プログラム、装置及び方法 |
CN114882873A (zh) * | 2022-07-12 | 2022-08-09 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
CN114882873B (zh) * | 2022-07-12 | 2022-09-23 | 深圳比特微电子科技有限公司 | 一种语音识别模型训练方法、装置和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019200671A (ja) | 学習装置、学習方法、プログラム、データ生成方法及び識別装置 | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
Kang et al. | Real-time sign language fingerspelling recognition using convolutional neural networks from depth map | |
Ilyas et al. | AVFakeNet: A unified end-to-end Dense Swin Transformer deep learning model for audio–visual deepfakes detection | |
CN112686048B (zh) | 基于语音、语义、面部表情融合的情绪识别方法及装置 | |
CN112100337B (zh) | 交互对话中的情绪识别方法及装置 | |
CN111881707B (zh) | 图像翻拍检测方法、身份验证方法、模型训练方法及装置 | |
CN111563422A (zh) | 基于双模态情绪识别网络的服务评价获取方法及其装置 | |
CN113536999B (zh) | 人物情绪识别方法、系统、介质及电子设备 | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN115699082A (zh) | 缺陷检测方法及装置、存储介质及电子设备 | |
Sonare et al. | Video-based sign language translation system using machine learning | |
Rajan et al. | American sign language alphabets recognition using hand crafted and deep learning features | |
CN115423908A (zh) | 虚拟人脸的生成方法、装置、设备以及可读存储介质 | |
Dhivyasri et al. | An efficient approach for interpretation of Indian sign language using machine learning | |
CN114495217A (zh) | 基于自然语言和表情分析的场景分析方法、装置及系统 | |
Rahim et al. | Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion | |
CN114639150A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
KR20200018154A (ko) | 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN115631274B (zh) | 一种人脸图像生成方法、装置、设备及存储介质 | |
CN112232221A (zh) | 用于人物图像处理的方法、系统和程序载体 | |
CN108197593B (zh) | 基于三点定位方法的多尺寸人脸表情识别方法及装置 | |
CN110569707A (zh) | 一种身份识别方法和电子设备 | |
CN116257816A (zh) | 一种陪护机器人情绪识别方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220524 |