JP6517681B2 - 映像パターン学習装置、方法、及びプログラム - Google Patents
映像パターン学習装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6517681B2 JP6517681B2 JP2015246266A JP2015246266A JP6517681B2 JP 6517681 B2 JP6517681 B2 JP 6517681B2 JP 2015246266 A JP2015246266 A JP 2015246266A JP 2015246266 A JP2015246266 A JP 2015246266A JP 6517681 B2 JP6517681 B2 JP 6517681B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- feature
- learning
- motion
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
Description
20、220 演算部
28 蓄積部
30 映像取得部
32 フレーム画像生成部
34 深層画像特徴量生成部
36 時系列ビジュアルパターン学習部
38 低レベル動き特徴量生成部
40 深層動き特徴量生成部
42 時系列動きパターン学習部
44、244 パターン統合部
100、200 映像パターン学習装置
240 深層音声特徴量生成部
242 時系列音声パターン学習部
Claims (8)
- 映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、
前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、
前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、
前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、
前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、
前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、
前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、
前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、
を含む映像パターン学習装置。 - 前記深層学習アルゴリズムにはCNN(Convolutional Neural Network)を用い、前記時系列データを扱う深層学習アルゴリズムにはRNN(Recurrent neural network)を用いる請求項1に記載の映像パターン学習装置。
- 前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、
前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、
前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項1又は請求項2に記載の映像パターン学習装置。 - 前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項1〜請求項3の何れか1項に記載の映像パターン学習装置。
- 映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、
フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、
低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、
深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、
深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、
時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、
時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、
パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、
を含む映像パターン学習方法。 - 深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、
時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、
前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項5に記載の映像パターン学習方法。 - 前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項5又は請求項6に記載の映像パターン学習方法。
- コンピュータを、請求項1〜請求項4のいずれか1項に記載の映像パターン学習装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015246266A JP6517681B2 (ja) | 2015-12-17 | 2015-12-17 | 映像パターン学習装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015246266A JP6517681B2 (ja) | 2015-12-17 | 2015-12-17 | 映像パターン学習装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017111660A JP2017111660A (ja) | 2017-06-22 |
JP6517681B2 true JP6517681B2 (ja) | 2019-05-22 |
Family
ID=59079652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015246266A Active JP6517681B2 (ja) | 2015-12-17 | 2015-12-17 | 映像パターン学習装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6517681B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210391B1 (en) * | 2017-08-07 | 2019-02-19 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos using contour sequences |
CN109508584B (zh) * | 2017-09-15 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
KR101880907B1 (ko) * | 2017-09-22 | 2018-08-16 | 펜타시큐리티시스템 주식회사 | 비정상 세션 감지 방법 |
KR20190055610A (ko) | 2017-11-15 | 2019-05-23 | 삼성전자주식회사 | 뉴럴 네트워크 모델들의 공용 연산 그룹을 단일 처리하는 뉴럴 네트워크 시스템, 이를 포함하는 애플리케이션 프로세서 및 뉴럴 네트워크 시스템의 동작방법 |
KR101984283B1 (ko) * | 2017-11-22 | 2019-05-30 | 주식회사 제네시스랩 | 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체 |
JP2019208197A (ja) * | 2017-11-30 | 2019-12-05 | 株式会社コンピュータシステム研究所 | 監視装置、監視プログラム、記憶媒体、および、監視方法 |
KR102103521B1 (ko) * | 2018-01-12 | 2020-04-28 | 상명대학교산학협력단 | 인공지능 심층학습 기반의 영상물 인식 시스템 및 방법 |
US10304208B1 (en) | 2018-02-12 | 2019-05-28 | Avodah Labs, Inc. | Automated gesture identification using neural networks |
WO2019157344A1 (en) * | 2018-02-12 | 2019-08-15 | Avodah Labs, Inc. | Real-time gesture recognition method and apparatus |
US10489639B2 (en) | 2018-02-12 | 2019-11-26 | Avodah Labs, Inc. | Automated sign language translation and communication using multiple input and output modalities |
US10346198B1 (en) | 2018-02-12 | 2019-07-09 | Avodah Labs, Inc. | Data processing architecture for improved data flow |
CN109147890B (zh) * | 2018-05-14 | 2020-04-24 | 平安科技(深圳)有限公司 | 一种医学报告的生成方法及设备 |
US10775977B2 (en) * | 2019-01-25 | 2020-09-15 | Google Llc | Image display with selective depiction of motion |
USD912139S1 (en) | 2019-01-28 | 2021-03-02 | Avodah, Inc. | Integrated dual display sensor |
JP7243821B2 (ja) * | 2019-05-29 | 2023-03-22 | 日本電気株式会社 | 学習装置、制御方法及びプログラム |
JP7229954B2 (ja) * | 2020-01-24 | 2023-02-28 | Kddi株式会社 | オブジェクト追跡装置及びオブジェクト追跡方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000048206A (ja) * | 1998-05-26 | 2000-02-18 | Sony Corp | 画像処理装置および方法、並びに媒体 |
JP2002059384A (ja) * | 2000-08-22 | 2002-02-26 | Sony Corp | ロボットのための学習システム及び学習方法 |
-
2015
- 2015-12-17 JP JP2015246266A patent/JP6517681B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214386A (zh) * | 2018-09-14 | 2019-01-15 | 北京京东金融科技控股有限公司 | 用于生成图像识别模型的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2017111660A (ja) | 2017-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517681B2 (ja) | 映像パターン学習装置、方法、及びプログラム | |
US10089556B1 (en) | Self-attention deep neural network for action recognition in surveillance videos | |
WO2021093468A1 (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
CN110532996B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
WO2019174439A1 (zh) | 图像识别方法、装置、终端和存储介质 | |
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
KR20180057096A (ko) | 표정 인식과 트레이닝을 수행하는 방법 및 장치 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
US20120014562A1 (en) | Efficient method for tracking people | |
WO2021031817A1 (zh) | 情绪识别方法、装置、计算机装置及存储介质 | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
US10610109B2 (en) | Emotion representative image to derive health rating | |
CN111079658A (zh) | 基于视频的多目标连续行为分析方法、系统、装置 | |
CN111401339B (zh) | 识别人脸图像中的人的年龄的方法、装置及电子设备 | |
JP2018005638A (ja) | 映像認識モデル学習装置、映像認識装置、方法、及びプログラム | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network | |
JP2012103859A (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
CN113936175A (zh) | 一种识别视频中的事件的方法及系统 | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
CN108596068B (zh) | 一种动作识别的方法和装置 | |
CN116957051A (zh) | 一种优化特征提取的遥感图像弱监督目标检测方法 | |
JP6886120B2 (ja) | 信号検索装置、方法、及びプログラム | |
JP5485044B2 (ja) | 表情学習装置、表情認識装置、表情学習方法、表情認識方法、表情学習プログラム及び表情認識プログラム | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6517681 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |