JP7464560B2 - 骨格推定装置、端末、サーバ及びプログラム - Google Patents
骨格推定装置、端末、サーバ及びプログラム Download PDFInfo
- Publication number
- JP7464560B2 JP7464560B2 JP2021058455A JP2021058455A JP7464560B2 JP 7464560 B2 JP7464560 B2 JP 7464560B2 JP 2021058455 A JP2021058455 A JP 2021058455A JP 2021058455 A JP2021058455 A JP 2021058455A JP 7464560 B2 JP7464560 B2 JP 7464560B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- server
- terminal
- network
- skeleton estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 106
- 238000012545 processing Methods 0.000 claims description 88
- 230000008569 process Effects 0.000 claims description 81
- 230000007704 transition Effects 0.000 claims description 74
- 238000013135 deep learning Methods 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 description 46
- 238000010586 diagram Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
<手順(0)> IフレームF(t)について、当該フレームF(t)のみを入力として骨格推定結果FH(t)を得る。
<手順(1)> PフレームF(t+1)について、当該フレームF(t+1)と、1つ前の時刻で既に推定済みであるIフレームの骨格推定結果FH(t)と、の2データを入力として骨格推定結果FH(t+1)を得る。
<手順(2)> PフレームF(t+2)について、当該フレームF(t+2)と、1つ前及び2つ前の2時刻でそれぞれ既に推定済みであるPフレーム及びIフレームの骨格推定結果FH(t+1)及びF(t)と、の3データを入力として骨格推定結果FH(t+2)を得る。
…
<手順(k)> PフレームF(t+k)について、当該フレームF(t+k)と、1つ前及びk個前の2時刻でそれぞれ既に推定済みであるPフレーム及びIフレームの骨格推定結果FH(t+k-1)及びFH(t)と、の3データを入力として骨格推定結果FH(t+k)を得る。
<手順(n)> PフレームF(t+n)について、当該フレームF(t+n)と、1つ前及びn個前の2時刻でそれぞれ既に推定済みであるPフレーム及びIフレームの骨格推定結果FH(t+n-1)及びFH(t)と、の3データを入力として骨格推定結果FH(t+n)を得る。
<手順(n)…一般の場合>
<手順(n)> PフレームF(t+n)について、当該推定対象であるフレームF(t+n)と、1つ前からn個前までのn時刻でそれぞれ既に推定済みである(n-1)枚のPフレーム及び1枚のIフレームの合計n回分の骨格推定結果FH(t+n-1)、FH(t+n-2)、…、FH(t+1)、FH(t)のうち全部または一部(n個~1個の推定済みデータ)と、を入力として、骨格推定結果FH(t+n)を得る。(なお、骨格推定結果FH(t+n)を得るために対象フレームF(t+n)に加えてこれらn個の推定済みデータのうちいずれを利用するか等については、後述する計画部3においてリソース等を考慮して決定される。)
(第k候補Nk)(k=2,…,6)…上記の中間出力MH(t+5)と、過去フレームF(t+k-2)について既に得られている推定結果FH(t+k-2)と、の2つを入力として遷移ネットワークの処理を行うことで、中間出力としての遷移ヒートマップTH(t+k-2,t+5)を得る。(なお、この遷移ヒートマップTH(t+k-2,t+5)は、後述する通り、当該時刻t+5のヒートマップを過去時刻t+k-2も考慮して推定したものに相当する。)
cost=time+γ*accuracy …(1)
time=time(Nk, R)
なお、リソース状況Rに依存しないものとして、以下の処理時間timeを端末5及びサーバ6に関してテーブル形式等で記憶しておくようにしてもよい。
time=time(Nk)
accuracy=time_diff+α*input …(2)
time_diff(N1)=0, time_diff(N6)=1, time_diff(N5)=2, time_diff(N4)=3,
time_diff(N5)=4, time_diff(N2)=5
input(N2)=FH(t)の最大値、input(N3)=FH(t+1)の最大値、
input(N4)=FH(t+2)の最大値、input(N5)=FH(t+3)の最大値、
input(N6)=FH(t+4)の最大値
input(N1)=MH(t+4)の最大値
入力が遷移前のヒートマップである。入力の品質はこのヒートマップが正しいかどうかということである。つまりヒートマップの信頼度であり、ヒートマップの最大値と同じである。(直感的に、遷移前のヒートマップが低品質であれば、遷移しても品質は低いものと考えられる。)
入力が当フレームの画像F(t+5)である。入力の品質は、骨格抽出に不都合な、当フレームの画像でボケがあるかどうか、または、隠れがあるかどうか等に左右される。ここで残念ながら軽量CNNを経由せずに、品質の測定が困難である。そのため、直前のフレームF(t+4)において、軽量 CNNから出力したヒートマップMH(t+4)の品質を利用して当フレームの品質を推測する。つまり、直前のヒートマップが正しいと、当フレームのヒートマップも正しいと推測する。
サーバ6のtime=S_time(Nk, RS[初期値])=time(Nk,RS[初期値])+「通信遅延」 …(a)
端末5のtime= T_time(Nk, RT[初期値])=time(Nk,RT[初期値]) …(b)
RS[利用可能]= RS[初期値]
RT[利用可能]= RT[初期値]
(サーバ6に関して) cost= S_time(Nk, RS[利用可能])+γ*accuracy
(端末5に関して) cost= T_time(Nk, RT[利用可能]) +γ*accuracy
RS[利用可能]= RS[利用可能]-RS[消費]
RT[利用可能]= RT[利用可能]-RT[消費]
RS[利用可能]= RS[利用可能]-RS[消費]
RT[利用可能]= RT[利用可能]-RT[消費]
m11=conv(F(t))
m13=conv(m12)
m23=down(m12)
m19=conv(m18)+up(m28)+up(m38)
FH(t)=conv(m19)
(32.9+15*7.1+2.1+2.1*2*14)/16=12.5GFOPs/フレーム
FH(t+n)={MH(t+n)+TH(t,t+n)}/2 …(1)
FH(t+n)={MH(t+n)+TH(t,t+n)+TH(t+n-1,t+n)}/3 …(2)
FH(t+k)={MH(t+k)+TH(t+k-1,t+k)+TH(t+k-2,t+k)+…
…+TH(t+2,t+k)+TH(t+1,t+k)+TH(t,t+k)}/(k+1) …(3)
FH(t+k)={MH(t+k)+TH(t+k-1,t+k)+TH(t+k-2,t+k)+
…+TH(t+2,t+k)+TH(t+1,t+k) }/k …(4)
FH(t+k)={MH(t+k)+TH(t+k-1,t+k)}/2 …(5)
Claims (14)
- 通信ネットワークを介して相互に通信可能とされる端末及びサーバを含む、入力映像の各フレームについて深層学習ネットワークによる骨格推定を行う骨格推定装置であって、
各フレームを第1種フレームまたは第2種フレームのいずれかとして区別し、
第1種フレームについては、当該第1種フレームのみを静止画として第1深層学習ネットワークに入力して骨格推定結果を得る第1処理を適用し、
第2種フレームについては、当該第2種フレームのみを静止画として第2深層学習ネットワークに入力して骨格推定の中間結果を得て、当該中間結果と当該第2種フレームよりも過去の少なくとも1つのフレームについての骨格推定結果との2つを少なくとも1つの遷移ネットワークに入力して少なくとも1つの遷移骨格推定結果を得て、当該中間結果及び遷移骨格推定結果を用いて当該第2種フレームの骨格推定結果を得る第2処理を適用し、
前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、がそれぞれ前記端末又は前記サーバにおいて分担して実行され、
前記第2深層学習ネットワークは、前記第1深層学習ネットワークよりも軽量化されたものであることを特徴とする骨格推定装置。 - 前記第1処理は、前記サーバにおいて実行されることを特徴とする請求項1に記載の骨格推定装置。
- 前記第2処理においては、前記少なくとも1つの遷移骨格推定結果と、前記中間結果と、を統合することにより前記第2種フレームの骨格推定結果を得ることを特徴とする請求項1または2に記載の骨格推定装置。
- 前記第2処理について分担して実行される際に、
前記第2深層学習ネットワークと、前記少なくとも1つの遷移ネットワークと、を前記端末または前記サーバにおいて実行する際のコストを最適化するように、前記端末または前記サーバにおける処理の分担を決定することを特徴とする請求項1ないし3のいずれかに記載の骨格推定装置。 - 前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、を前記端末または前記サーバで実行する際のコストを、
サーバ及び端末のそれぞれにおける、各処理の完了時間によって評価することを特徴とする請求項4に記載の骨格推定装置。 - 前記第2処理において、前記サーバ及び端末のそれぞれにおける各処理の完了時間は、サーバ及び端末の使用可能リソースに依存する値として管理されることを特徴とする請求項5に記載の骨格推定装置。
- 前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、を前記端末または前記サーバで実行する際のコストを、
サーバに関して、各処理の完了時間とサーバ及び端末間での通信遅延とによって評価することを特徴とする請求項5に記載の骨格推定装置。 - 前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、を前記端末または前記サーバで実行する際のコストを、
サーバ及び端末での共通のコストとして、
前記第2深層学習ネットワークによる処理のコストを、当該処理で得られる骨格推定の中間結果の品質を推定することによって評価し、
前記少なくとも1つの遷移ネットワークの各々による処理のコストを、当該処理で得られる遷移骨格推定結果の品質を推定することによって評価することを特徴とする請求項4ないし7のいずれかに記載の骨格推定装置。 - 前記第2処理においては、
前記中間結果の品質を、当該第2種フレームの近傍過去に位置する第2種フレームに対して既に得られている中間結果より推定し、
前記遷移骨格推定結果の品質を、当該遷移ネットワークへの2つの入力のうちの片方である前記過去のフレームについて既に得られている骨格推定結果より推定することを特徴とする請求項8に記載の骨格推定装置。 - 前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、を前記端末または前記サーバで実行する際のコストを、
サーバ及び端末での共通のコストとして、
各処理のコストを、各処理における入力フレームまたは入力骨格推定結果の時刻と、当該第2種フレームの時刻との差として評価することを特徴とする請求項4ないし9のいずれかに記載の骨格推定装置。 - 前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、を前記端末または前記サーバで実行する際のコストの値が最小となる処理を、端末及び/又はサーバにおいて逐次的に選択することを、当該選択された処理によって消費されることによって端末及び/又はサーバの使用可能リソースが尽きたと判定されるまで繰り返すことにより、前記端末または前記サーバにおける処理の分担を決定することを特徴とする請求項4ないし10のいずれかに記載の骨格推定装置。
- 通信ネットワークを介して相互に通信可能とされる端末及びサーバを含む、入力映像の各フレームについて深層学習ネットワークによる骨格推定を行う骨格推定装置における端末であって、
各フレームを第1種フレームまたは第2種フレームのいずれかとして区別し、
第1種フレームについては、当該第1種フレームのみを静止画として第1深層学習ネットワークに入力して骨格推定結果を得る第1処理を適用し、
第2種フレームについては、当該第2種フレームのみを静止画として第2深層学習ネットワークに入力して骨格推定の中間結果を得て、当該中間結果と当該第2種フレームよりも過去の少なくとも1つのフレームについての骨格推定結果との2つを少なくとも1つの遷移ネットワークに入力して少なくとも1つの遷移骨格推定結果を得て、当該中間結果及び遷移骨格推定結果を用いて当該第2種フレームの骨格推定結果を得る第2処理を適用し、
前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、がそれぞれ前記端末又は前記サーバにおいて分担して実行され、
前記第2深層学習ネットワークは、前記第1深層学習ネットワークよりも軽量化されたものであることを特徴とする骨格推定装置における端末。 - 通信ネットワークを介して相互に通信可能とされる端末及びサーバを含む、入力映像の各フレームについて深層学習ネットワークによる骨格推定を行う骨格推定装置におけるサーバであって、
各フレームを第1種フレームまたは第2種フレームのいずれかとして区別し、
第1種フレームについては、当該第1種フレームのみを静止画として第1深層学習ネットワークに入力して骨格推定結果を得る第1処理を適用し、
第2種フレームについては、当該第2種フレームのみを静止画として第2深層学習ネットワークに入力して骨格推定の中間結果を得て、当該中間結果と当該第2種フレームよりも過去の少なくとも1つのフレームについての骨格推定結果との2つを少なくとも1つの遷移ネットワークに入力して少なくとも1つの遷移骨格推定結果を得て、当該中間結果及び遷移骨格推定結果を用いて当該第2種フレームの骨格推定結果を得る第2処理を適用し、
前記第2処理においては、前記第2深層学習ネットワークによる処理と、前記少なくとも1つの遷移ネットワークによる処理と、がそれぞれ前記端末又は前記サーバにおいて分担して実行され、
前記第2深層学習ネットワークは、前記第1深層学習ネットワークよりも軽量化されたものであることを特徴とする骨格推定装置におけるサーバ。 - コンピュータを請求項12に記載の端末または請求項13に記載のサーバとして機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021058455A JP7464560B2 (ja) | 2021-03-30 | 2021-03-30 | 骨格推定装置、端末、サーバ及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021058455A JP7464560B2 (ja) | 2021-03-30 | 2021-03-30 | 骨格推定装置、端末、サーバ及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022155115A JP2022155115A (ja) | 2022-10-13 |
JP7464560B2 true JP7464560B2 (ja) | 2024-04-09 |
Family
ID=83557164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021058455A Active JP7464560B2 (ja) | 2021-03-30 | 2021-03-30 | 骨格推定装置、端末、サーバ及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7464560B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017531255A (ja) | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | 出力分布による生徒dnnの学習 |
WO2020226979A2 (en) | 2019-04-30 | 2020-11-12 | Intel Corporation | Multi-entity resource, security, and service management in edge computing deployments |
-
2021
- 2021-03-30 JP JP2021058455A patent/JP7464560B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017531255A (ja) | 2014-09-12 | 2017-10-19 | マイクロソフト コーポレーションMicrosoft Corporation | 出力分布による生徒dnnの学習 |
WO2020226979A2 (en) | 2019-04-30 | 2020-11-12 | Intel Corporation | Multi-entity resource, security, and service management in edge computing deployments |
Non-Patent Citations (1)
Title |
---|
Gedas Bertasius et al.,Learning Temporal Pose Estimation from Sparsely-Labeled Videos,arXiv,2019年12月11日,https://doi.org/10.48550/arXiv.1906.04016 |
Also Published As
Publication number | Publication date |
---|---|
JP2022155115A (ja) | 2022-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
CN111625361B (zh) | 一种基于云端服务器和IoT设备协同的联合学习框架 | |
CN108594858B (zh) | 马尔科夫运动目标的无人机搜索方法及装置 | |
CN110516620A (zh) | 目标跟踪方法、装置、存储介质及电子设备 | |
CN117893680A (zh) | 房间布局估计方法和技术 | |
Fang et al. | Survey on the application of deep reinforcement learning in image processing | |
CN111008631B (zh) | 图像的关联方法及装置、存储介质和电子装置 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN113177470B (zh) | 行人轨迹预测方法、装置、设备及存储介质 | |
CN116188695A (zh) | 三维手部姿态模型的构建方法和三维手部姿态估计方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
JP7464560B2 (ja) | 骨格推定装置、端末、サーバ及びプログラム | |
CN104766100A (zh) | 基于机器学习的红外小目标图像背景预测方法与装置 | |
CN112907750A (zh) | 一种基于卷积神经网络的室内场景布局估计方法及系统 | |
CN111160170A (zh) | 一种自学习的人体行为识别与异常检测方法 | |
WO2022127603A1 (zh) | 一种模型处理方法及相关装置 | |
CN114815755A (zh) | 基于智能协作推理的分布式实时智能监控系统的建立方法 | |
CN111160255B (zh) | 一种基于三维卷积网络的捕鱼行为识别方法及系统 | |
Verma et al. | Large displacement optical flow based image predictor model | |
CN113191301A (zh) | 融合时序和空间信息的视频密集人群计数方法及系统 | |
JP7491878B2 (ja) | 骨格推定装置及びプログラム | |
JP2022140120A (ja) | 骨格推定装置及びプログラム | |
Liu et al. | Joint estimation of pose, depth, and optical flow with a competition–cooperation transformer network | |
JP7315516B2 (ja) | 骨格推定装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240327 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7464560 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |