CN116830166A - 骨骼识别方法、骨骼识别程序以及体操评分辅助系统 - Google Patents
骨骼识别方法、骨骼识别程序以及体操评分辅助系统 Download PDFInfo
- Publication number
- CN116830166A CN116830166A CN202180093006.6A CN202180093006A CN116830166A CN 116830166 A CN116830166 A CN 116830166A CN 202180093006 A CN202180093006 A CN 202180093006A CN 116830166 A CN116830166 A CN 116830166A
- Authority
- CN
- China
- Prior art keywords
- feature
- joint
- bone
- features
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 210000000988 bone and bone Anatomy 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims description 75
- 230000002159 abnormal effect Effects 0.000 claims abstract description 90
- 230000005856 abnormality Effects 0.000 claims abstract description 16
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 112
- 239000013598 vector Substances 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 30
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 46
- 230000014509 gene expression Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000005259 measurement Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000007115 recruitment Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 210000003127 knee Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 229910044991 metal oxide Inorganic materials 0.000 description 2
- 150000004706 metal oxides Chemical class 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/285—Analysis of motion using a sequence of stereo image pairs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
- G06T2207/20044—Skeletonization; Medial axis transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
骨骼识别装置基于从拍摄被拍摄体的多个照相机输入的二维的输入图像,提取表示被拍摄体的二维的关节位置的特征的多个第一特征。骨骼识别装置基于多个第一特征,生成包含分别与被拍摄体的规定量的关节对应的多个第二特征的第二特征组信息。骨骼识别装置根据第二特征组信息,检测有异常的第二特征。骨骼识别装置基于综合从第二特征组信息除去了有异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。
Description
技术领域
本发明涉及骨骼识别方法等。
背景技术
关于三维的人的运动的检测,建立了从多台3D激光传感器以±1cm的精度检测人的3D骨骼坐标的3D感测技术。能够期待该3D感测技术向体操评分辅助系统的应用、或者向其它的体育运动、其它领域的展开。将使用了3D激光传感器的方式表述为激光方式。
在激光方式中,在一秒期间大约照射二百万次激光,基于激光的行进时间(Timeof Flight:ToF),包含成为对象的人,求出各照射点的深度、信息。激光方式虽然能够获取高精度的深度数据,但由于激光扫描、ToF测定的构成以及处理复杂,所以有硬件变得复杂以及高价这样的缺点。
也有代替激光方式,而通过图像方式,进行3D骨骼识别的情况。在图像方式中,为通过CMOS(Complementary Metal Oxide Semiconductor:互补金属氧化物半导体)成像器获取各像素的RGB(Red Green Blue)数据的方式,能够使用廉价的RGB照相机。
这里,对使用了基于多个照相机的2D特征的3D骨骼识别的现有技术进行说明。在现有技术中,根据预先定义的人体模型,通过各照相机获取2D特征,之后使用综合各2D特征所得的结果,识别3D骨骼。例如,2D特征能够列举2D骨骼信息、heatmap信息。
图22是表示人体模型的一个例子的图。如图22所示,人体模型M1由二十一个关节构成。在人体模型M1中,以节点示出各关节,并分配0~20的编号。节点的编号与关节名的关系为表格Te1所示的关系。例如,与节点0对应的关节名为“SPINE_BASE”。省略对节点1~20的关节名的说明。
在现有技术中有使用了三角测量的方法、使用了机器学习的方法。在使用了三角测量的方法中有基于两台照相机的三角测量、和基于三台以上照相机的三角测量。为了方便,将基于两台照相机的三角测量设为现有技术1,将基于三台以上照相机的三角测量设为现有技术2,并将使用了机器学习的方法设为现有技术3。
图23是用于说明基于两台照相机的三角测量的图。在现有技术1中,三角测量定义为使用两台照相机Ca1A、Ca1B的特征,根据三角形的关系测定被拍摄体P的三维位置的方法。将照相机Ca1A的照相机图像设为Im2A,并将照相机Ca1B的照相机图像设为Im2B。
将被拍摄体P的照相机图像Im2A的2D关节位置设为p1(x1,y1)。将被拍摄体P的照相机图像Im2A的2D关节位置设为pr(xr,yr)。另外,将照相机间的距离设为b,并将焦距设为f。在现有技术1中,将2D关节位置p1(x1,yl)、pr(xr,yr)作为特征,通过式(1)、式(2)、式(2)计算三维关节位置P(X,Y,Z)。(X,Y,Z)的原点位于两个照相机Ca1A、Ca1B的光学中心的中央。
[式1]
X=b(xl+xr)/2(xl-xr)…(1)
[式2]
Y=b(yl+yr)/2(xl-xr)…(2)
[式3]
Z=bf/(xl-xr……(3)
在图23中进行了说明的现有技术1中,若在求解3D骨骼时使用错误的2D特征则3D骨骼的精度降低。
图24是用于说明基于三台以上照相机的三角测量的图。在基于三台以上照相机的三角测量中,将在图23中进行了说明的三角测量扩展到三台以上的照相机,并通过被称为RANSAC(Random Sample Consensus:随机抽样一致性)的算法,估计最良好的照相机的组合。
如图24所示,现有技术2的装置通过全部的照相机1-1、1-2、1-3、1-4,获取被拍摄体的2D关节位置(步骤S1)。现有技术2的装置从全部的照相机1-1~1-4选择两个照相机的组合,并通过在图23中进行了说明的三角测量,计算3D关节位置(步骤S2)。
现有技术2的装置将3D骨骼再投影至全部的照相机1-1~1-4,对与2D关节位置的偏移在阈值以下的照相机的数目进行计数(步骤S3)。现有技术2的装置反复执行步骤S2、S3的处理,采用与2D关节位置的偏移在阈值以下的照相机的数目最多的两个照相机的组合,作为最良好的照相机的组合(步骤S4)。
在图24中进行了说明的现有技术2中,在求解3D骨骼时为了搜索最佳的两个照相机需要处理时间。
在使用了机器学习的方法中,与使用了三角测量的方法相比较,能够高精度并且高速地识别3D骨骼。
图25是用于说明使用了机器学习的方法的图。在使用了机器学习的现有技术3中,通过对各照相机拍摄到的各输入图像21实施2D backbone处理21a,来获取表示各关节特征的2D特征(2D features)22。在现有技术3中,通过根据照相机参数将各2D特征22反投影到3Dcube,来获取aggregated volumes23。
在现有技术3中,通过将aggregated volumes23输入到V2V(神经网络,P3)24,来获取表示各关节的似然性的processed volumes25。Processed volumes25与表示各关节的3D的似然性的heatmap对应。在现有技术3中,通过对processed volumes25执行soft-argmax26,来获取3D骨骼信息27。
专利文献1:日本特开平10-302070号公报
专利文献2:日本特开2000-251078号公报
然而,在现有技术3中,有使用错误的2D特征执行3D骨骼识别的情况,而有不能够得到正确的3D骨骼识别结果这样的问题。
图26是用于说明现有技术3的问题的图。这里,作为一个例子,对使用四台照相机2-1、2-2、2-3、2-4识别3D骨骼的情况进行说明。分别将照相机2-1、2-2、2-3、2-4拍摄到的输入图像设为输入图像Im2-1a、Im2-2a、Im2-3a、Im2-4a。其中,在输入图像Im2-3a中,不容易看到被拍摄体的面部,成为难以区分左右的图像。在输入图像Im2-4a中,在区域Ar1,产生左膝遮挡。
在现有技术3中,通过对输入图像Im2-1a实施2D backbone处理21a,计算2D特征,通过该2D特征,生成2D骨骼信息Im2-1b。对于输入图像Im2-2a、Im2-3a、Im2-4a,也通过实施2D backbone处理21a,计算2D特征,并通过该2D特征,生成2D骨骼信息Im2-2b、Im2-3b、Im2-4b。2D骨骼信息Im2-1b~Im2-4b表示2D的骨骼的位置。
这里,在输入图像Im2-3a中,由于不容易看到被拍摄体的面部,所以在2D姿势信息Im2-3b的区域Ar2中,骨骼的关系左右反转。由于在输入图像Im2-4a产生的左膝遮挡的影响,而在2D姿势信息Im2-4b的区域Ar3中,与左膝相关的2D骨骼捕捉错误的特征。
在现有技术3中,直接使用成为2D姿势信息Im2-1b~Im2-4b的基础的2D特征,来计算3D骨骼识别结果Im2-1c、Im2-2c、Im2-3c、Im2-4c。即,即使与2D姿势信息Im2-3b、Im2-4b对应的2D特征错误,也使用这样的2D特征,识别3D骨骼,所以精度降低。例如,在图26所示的例子中,在错误的特征较多的左膝产生较大的精度的降低。
发明内容
在一个侧面,本发明的目的在于提供能够正确地执行3D骨骼识别的骨骼识别方法、骨骼识别程序以及体操评分辅助系统。
在第一方案中,计算机执行以下的处理。计算机基于从拍摄被拍摄体的多个照相机输入的二维的输入图像,提取表示被拍摄体的二维的关节位置的特征的多个第一特征。计算机基于多个第一特征,生成第二特征组信息,该第二特征组信息包含分别与被拍摄体的规定量的关节对应的多个第二特征。计算机根据第二特征组信息,检测有异常的第二特征。计算机基于综合从第二特征组信息除去了有异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。
通过判定对3D骨骼识别结果给予异常的2D特征,能够预先除去有异常的2D特征,能够正确地执行3D骨骼识别。
附图说明
图1是表示本实施例的体操评分辅助系统的一个例子的图。
图2是用于说明2D特征的图。
图3是表示一个2D特征的图。
图4是表示本实施例的骨骼识别装置的构成的功能框图。
图5是表示测定表格的数据结构的一个例子的图。
图6是表示特征表格的数据结构的一个例子的图。
图7是用于说明生成部的处理的图。
图8是用于说明左右反转检测的图(1)。
图9是用于说明左右反转检测的图(2)。
图10是用于说明自遮挡检测的图。
图11是用于说明异常heatmap的模式的图。
图12是用于说明第一异常heatmap检测处理的图。
图13是用于说明网络的自动权重调整的一个例子的图。
图14是对第二异常heatmap检测处理进行说明的图(1)。
图15是对第二异常heatmap检测处理进行说明的图(2)。
图16是表示画面信息的一个例子的图。
图17是表示本实施例的骨骼识别装置的处理顺序的流程图。
图18是第二特征生成处理的流程图。
图19是异常检测处理的流程图。
图20是用于说明本实施例的骨骼识别装置的效果的图。
图21是表示实现与骨骼识别装置相同的功能的计算机的硬件构成的一个例子的图。
图22是表示人体模型的一个例子的图。
图23是用于说明基于两台照相机的三角测量的图。
图24是用于说明基于三台以上照相机的三角测量的图。
图25是用于说明使用了机器学习的方法的图。
图26是用于说明现有技术3的问题的图。
具体实施方式
以下,基于附图对本申请公开的骨骼识别方法、骨骼识别程序以及体操评分辅助系统的实施例进行详细说明。此外,并不通过该实施例对该发明进行限定。
实施例
图1是表示本实施例的体操评分辅助系统的一个例子的图。如图1所示,该体操评分辅助系统35具有照相机30a、30b、30c、30d和骨骼识别装置100。照相机30a~30d与骨骼识别装置100分别通过有线或者无线连接。在图1中,示出照相机30a~30d,但该体操评分辅助系统35也可以还具有其它的照相机。
在本实施例中作为一个例子,假设被拍摄体H1在器具上进行一系列的表演但并不限定于此。例如,被拍摄体H1也可以在不存在器具的场所进行表演,也可以进行表演以外的动作。
照相机30a是拍摄被拍摄体H1的图像的照相机。照相机30a与CMOS成像器、RGB照相机等对应。照相机30a通过规定的帧速率(frames per second:FPS)连续地拍摄图像,并按照时间序列将图像的数据发送到骨骼识别装置100。在以下的说明中,将连续的多个图像的数据中某一个图像的数据表述为“图像帧”。按照时间序列对图像帧附加帧编号。
与照相机30b、30c、30d相关的说明和与照相机30a相关的说明相同。在以下的说明中,适当地将照相机30a~30d集中表述为“照相机30”。
骨骼识别装置100从照相机30获取图像帧,并基于图像帧,生成分别与被拍摄体H1的关节对应的多个第二特征。第二特征是表示各关节位置的似然性的heatmap。根据从一个照相机获取的一个图像帧,生成与各关节对应的第二特征。例如,若设为关节数为二十一个,照相机的数目为四个,则对于每个图像帧,生成八十四个第二特征。
图2是用于说明第二特征的图。图2所示的图像帧Im30a1是被照相机30a拍摄到的图像帧。图像帧Im30b1是被照相机30b拍摄到的图像帧。图像帧Im30c1是被照相机30c拍摄到的图像帧。图像帧Im30d1是被照相机30d拍摄到的图像帧。
骨骼识别装置100基于图像帧Im30a1生成第二特征组信息G1a。在第二特征组信息G1a包含有与各关节对应的二十一个第二特征。骨骼识别装置100基于图像帧Im30b1生成第二特征组信息G1b。在第二特征组信息G1b包含有与关节对应的二十一个第二特征。
骨骼识别装置100基于图像帧Im30c1生成第二特征组信息G1c。在第二特征组信息G1c包含有与各关节对应的二十一个第二特征。骨骼识别装置100基于图像帧Im30d1生成第二特征组信息G1d。在第二特征组信息G1d包含有与各关节对应的二十一个第二特征。
图3是表示一个第二特征的图。图3所示的第二特征Gc1-3是第二特征组信息G1d所包含的第二特征中与关节“HEAD”对应的第二特征。对第二特征Gc1-3的各像素设定似然性。在图3中,设定与似然性的值对应的颜色。似然性最大的位置成为相应的关节的坐标。例如,在特征Gc1-3中,能够确定似然性的值最大的区域Ac1-3为关节“HEAD”的坐标。
骨骼识别装置100从第二特征组信息G1a所包含的第二特征,检测有异常的第二特征,并从第二特征组信息G1a除去检测出的有异常的第二特征。骨骼识别装置100从第二特征组信息G1b所包含的第二特征,检测有异常的第二特征,并从第二特征组信息G1b除去检测出的有异常的第二特征。
骨骼识别装置100从第二特征组信息G1c所包含的第二特征,检测有异常的第二特征,并从第二特征组信息G1c除去检测出的有异常的第二特征。骨骼识别装置100从第二特征组信息G1d所包含的第二特征,检测有异常的第二特征,并从第二特征组信息G1d除去检测出的有异常的第二特征。
骨骼识别装置100综合除去了有异常的第二特征的第二特征组信息G1a、G1b、G1c、G1d,并基于综合所得的结果,识别3D骨骼。
如上述那样,根据骨骼识别装置100,基于图像帧,生成分别与被拍摄体H1的关节建立对应关系的多个第二特征,并使用合成除了检测到异常的第二特征以外的剩余的第二特征所得的结果识别3D骨骼。因此,能够得到正确的3D骨骼的识别结果。
接下来,对本实施例的骨骼识别装置100的构成的一个例子进行说明。图4是表示本实施例的骨骼识别装置的构成的功能框图。如图4所示,该骨骼识别装置100具有通信部110、输入部120、显示部130、存储部140、以及控制部150。
通信部110从照相机30接收图像帧。通信部110将接收的图像帧输出给控制部150。通信部110是通信装置的一个例子。通信部110也可以从未图示的其它的外部装置接收数据。
输入部120是对骨骼识别装置100的控制部150输入各种信息的输入装置。输入部120与键盘、鼠标、触摸面板等对应。利用者操作输入部120,进行画面信息的显示要求、画面操作等。
显示部130是显示从控制部150输出的信息的显示装置。例如,显示部130显示各种比赛的招式认定、评分结果等画面信息。显示部130与液晶显示器、有机EL(Electro-Luminescence:电致发光)显示器、触摸面板等对应。
存储部140具有测定表格141、特征表格142、招式识别表格143。存储部140与RAM(Random Access Memory:随机存储器)、闪存(Flash Memory)等半导体存储器元件、或者HDD(Hard Disk Drive:硬盘驱动器)等存储装置对应。
测定表格141是按照时间序列储存通过照相机30拍摄到的图像帧的表格。图5是表示测定表格的数据结构的一个例子的图。如图5所示,测定表格141将照相机识别信息与图像帧建立对应关系。
照相机识别信息是唯一地识别照相机的信息。例如,照相机识别信息“C30a”与照相机30a对应,照相机识别信息“C30b”与照相机30b对应,照相机识别信息“C30c”与照相机30c对应,照相机识别信息“C30d”与照相机30d对应。图像帧是被相应的照相机30拍摄到的时间序列的图像帧。按照时间序列对各图像帧设定有帧编号。
特征表格142是保持与第二特征相关的信息的表格。图6是表示特征表格的数据结构的一个例子的图。如图6所示,特征表格142具有照相机识别信息、第一特征、以及第二特征组信息。与照相机识别信息相关的说明与在图5中进行了说明的与照相机识别信息相关的说明相同。
第一特征是通过对一个图像帧执行2D backbone处理计算出的与被拍摄体H1的关节相关的特征信息。从一个图像帧,对每一个照相机,生成K个第一特征。即,对每个图像帧,对每一个照相机生成K个第一特征,并储存于特征表格142。此外,“K”是与关节数不同的数目,是比关节数多的数目。
第二特征组信息具有与各关节一对一地对应的J个第二特征。根据从一个图像帧生成的K个第一特征,生成J个第二特征。另外,对每个照相机生成J个第二特征。即,对每个图像帧,对每一个照相机生成J个第二特征,并储存于特征表格142。此外,“J”是与关节数“21”相同的数目,各第二特征与各关节建立对应关系。第二特征组信息的说明与在图2中进行了说明的内容对应。
虽然省略图示,但对K个第一特征的信息、J个第二特征的信息设定有对应的图像帧的帧编号。
返回到图4的说明。招式识别表格143是使各骨骼识别结果所包含的各关节位置的时间序列变化与招式的种类建立对应关系的表格。另外,招式识别表格143将招式的种类的组合与得分建立对应关系。根据D(Difficulty)得分与E(Execution)得分的合计计算得分。例如,D得分是基于招式的难易度计算出的得分。E得分是根据招式的完成度,通过减分法计算出的得分。
控制部150具有获取部151、生成部152、检测部153、骨骼识别部154、以及招式识别部155。控制部150通过CPU(Central Processing Unit:中央处理器)、GPU(GraphicsProcessing Unit:图形处理器)、ASIC(Application Specific Integrated Circuit:专用集成电路)或者FPGA(Field Programmable Gate Array:现场可编程门阵列)等硬布线逻辑等实现。
获取部151经由通信部110按照时间序列从照相机30获取图像帧。获取部151将从照相机30获取的图像帧与照相机识别信息建立对应关系,并储存于测定表格141。
生成部152基于图像帧生成第二特征组信息。图7是用于说明生成部的处理的图。如图7所示,生成部152利用2D特征提取NN142A、通道数转换NN142B。
2D特征提取NN142A与ResNet等NN(Neural Network:神经网络)对应。2D特征提取NN142A在输入了图像帧的情况下,基于训练完毕的参数,计算K个第一特征,并输出。例如,一个第一特征为96×96的像素图像,对各像素设定与任意一个关节相关的似然性。K个第一特征并不与各关节一对一地对应。2D特征提取NN142A预先通过训练数据,对参数进行训练(机器学习)。
通道数转换NN142B与NN的Conv2D层等对应。通道数转换NN142B在输入了K个第一特征的情况下,基于训练完毕的参数,计算J个第二特征,并输出。J个第二特征与各关节一对一地对应。通道数转换NN142B预先通过训练数据,对参数进行训练(机器学习)。
生成部152从测定表格141,获取照相机30a的图像帧,通过将获取的图像帧输入2D特征提取NN142A,来提取K个第一特征。生成部152将K个第一特征与照相机识别信息C30a建立对应关系,并登记于特征表格142。
另外,生成部152通过将K个第一特征输入通道数转换NN142B,生成J个第二特征。生成部152将J个第二特征与照相机识别信息C30a建立对应关系,并登记于特征表格142。生成部152通过对照相机30a的时间序列的各图像帧反复执行上述处理,生成与照相机30a对应的J个第二特征的信息。
生成部152对照相机30b、30c、30d的图像帧,也与照相机30a的图像帧相同,提取K个第一特征,并生成J个第二特征的信息。此外,对K个第一特征、J个第二特征附加帧编号。
例如,对基于帧编号“n”的图像帧提取出的K个第一特征附加帧编号“n”。另外,对基于附加了帧编号“n”的K个第一特征生成的J个第二特征(第二特征组信息)附加帧编号“n”。
检测部153基于储存于特征表格142的J个第二特征的信息,检测异常的关节。例如,检测部153通过执行左右反转检测、自遮挡检测、异常heatmap检测,来检测异常的关节。
对检测部153执行的左右反转检测进行说明。这里,使用基于照相机30a拍摄到的图像帧生成的帧编号n-1的第二特征组信息、和帧编号n的第二特征组信息进行说明。
检测部153基于帧编号n-1的第二特征组信息所包含的J个第二特征,计算各关节的坐标。例如,使用图3的与关节“HEAD”对应的第二特征Gc1-3进行说明。检测部153计算设定了对第二特征Gc1-3的各像素设定的似然性中最大的似然性的像素的坐标作为“HEAD”的坐标。检测部153对与其它的关节对应的第二特征,也通过执行相同的处理,计算帧编号n-1的各关节的坐标(二维的坐标)。
检测部153基于帧编号n的第二特征组信息所包含的J个第二特征,计算各关节的坐标。检测部153基于帧编号n的第二特征组信息,计算各关节的坐标的处理与基于帧编号n的第二特征组信息,计算各关节的坐标的处理相同。
图8是用于说明左右反转检测的图(1)。在图8中,模型M1-1是基于帧编号n-1的各关节的坐标生成的二维骨骼信息。模型M1-2是基于帧编号n的各关节的坐标生成的二维骨骼信息。在图8中,为了方便说明,省略一部分的关节的图示。
检测部153计算将规定的左侧的关节作为起点,并将规定的右侧的关节作为终点的向量。例如,在模型M1-1中,示出向量va1、va2、va3、va4、va5、va6。若使用在图22中进行了说明的关节进行说明,则向量va1是将节点13作为起点,并将节点17作为终点的向量。向量va2是将节点11作为起点,并将节点15作为终点的向量。向量va3是将节点19作为起点,并将节点20作为终点的向量。向量va4是将节点10作为起点,并将节点14作为终点的向量。向量va5是将节点5作为起点,并将节点8作为终点的向量。向量va6是将节点4作为起点,并将节点7作为终点的向量。
检测部153对于模型M1-2也同样地计算将规定的左侧的关节作为起点,并将规定的右侧的关节作为终点的向量。这里,作为一个例子,示出向量vb3。
检测部153将模型M1-1、和模型M1-2中,起点的关节和终点的关节相同的向量作为一对。在图8所示的例子中,模型M1-1的向量va3与模型M1-2的向量vb3成为一对。检测部153对成对的向量的范数进行比较,在范数从前帧(帧编号n-1)减小规定值以上的情况下,检测相应的向量的对。
例如,检测部153在从向量va3的范数减去向量vb3的范数的值在规定值以上的情况下,检测向量va3、vb3。检测部153对其它的向量对也执行相同的处理。将通过该处理,检测部153检测出的向量对表述为第一检测向量对。
检测部153对第一检测向量对的关节的坐标的移动量进行比较,并将移动量较大的一方的关节检测为异常关节。例如,检测部153若对向量va3与向量vb3进行比较,则与起点的关节的移动量相比,终点的关节的移动量更大,所以将模型M1-2的终点的关节(节点20:HAND_TIP_RIGHT)检测为异常关节。此外,成为模型M1-2的基础的第二特征组信息是基于照相机30a拍摄的图像帧的第二特征组信息。该情况下,检测部153生成包含“照相机识别信息:C30a,帧编号:n,异常关节:HAND_TIP_RIGHT”的异常关节信息。
图9是用于说明左右反转检测的图(2)。在图9中,模型M1-1是基于帧编号n-1的各关节的坐标生成的二维骨骼信息。模型M1-2是基于帧编号n的各关节的坐标生成的二维骨骼信息。在图9中,为了方便说明,省略一部分的关节的图示。
检测部153与图8相同,计算将规定的左侧的关节作为起点,并将规定的右侧的关节作为终点的向量。在图9中作为一个例子,示出模型M1-1的向量va3、和模型M1-2的向量vb3。
检测部153将模型M1-1、和模型M1-2中,起点的关节和终点的关节相同的向量作为一对。检测部153计算成对的向量所成的角。检测部153检测所成的角在规定的所成角以上的向量对。
例如,检测部153在向量va3与向量vb3所成的角在规定的所成角以上的情况下,检测向量va3、vb3。检测部153对其它的向量对也执行相同的处理。将通过该处理,检测部153检测出的向量对表述为第二检测向量对。
检测部153将成为第二检测向量对的起点的关节、和成为终点的关节双方检测为异常关节。在图9所示的例子中,检测部153将模型M1-2的起点的关节(节点19:HAND_TIP_LEFT)、终点的关节(节点20:HAND_TIP_RIGHT)检测为异常关节。此外,成为模型M1-2的基础的第二特征组信息是基于照相机30a拍摄的图像帧的第二特征组信息。该情况下,检测部153生成包含“照相机识别信息:C30a,帧编号:n,异常关节:HAND_TIP_RIGHT、HAND_TIP_LEFT”的异常关节信息。
在图8、图9中,对使用基于照相机30a拍摄到的图像帧生成的帧编号n-1的第二特征组信息、和帧编号n的第二特征组信息生成异常关节信息的情况进行了说明,但对于其它的照相机30b、30c、30d也相同。
接着,对检测部153执行的自遮挡检测进行说明。这里,使用基于照相机30a拍摄到的图像帧生成的各帧编号n-2、n-1的第二特征组信息进行说明。
检测部153基于帧编号n-2的第二特征组信息所包含的J个第二特征,计算各关节的坐标。检测部153基于帧编号n-1的第二特征组信息所包含的J个第二特征,计算各关节的坐标。计算各关节的坐标的处理与在左右反转检测中进行了说明的计算各关节的坐标的处理相同。
检测部153基于帧编号n-2的各关节的坐标、和帧编号n-1的各关节的坐标,计算表示帧编号n的各关节的坐标的预测骨骼信息。例如,检测部153基于式(4),计算表示帧编号n的各关节的坐标的预测骨骼信息。在式(4)中,pn表示预测的帧编号n的各关节的坐标。pn-1表示帧编号n-1的各关节的坐标。pn-2表示帧编号n-2的各关节的坐标。
[式4]
pn=pn-1+(pn-1-pn-2)…(4)
图10是用于说明自遮挡检测的图。在图11中,模型M2-1与通过式(4)预测出的表示帧编号n的各关节的坐标的预测骨骼信息对应。在图10中,为了方便说明,省略一部分的关节的图示。
检测部153基于模型M2-1(预测骨骼信息)所包含的规定的关节,制成方框。例如,在使用在图22中进行了说明的关节进行说明的情况下,若使规定的关节为节点4、7、14、10,则方框成为方框B10。检测部153也可以使方框B10的大小具有余量。
检测部153进行与构成方框B10的关节不同的其它的关节的坐标与方框B10的比较,在其它的关节的坐标包含于方框B10的区域的情况下,将方框B10的区域所包含的其它的关节检测为异常关节。例如,使其它的关节为节点5(ELBOW_LEFT)、8(ELBOW_RIGHT)、6(WRIST_LEFT)、9(WRIST_RIGHT)、11(KNEE_LEFT)、15(KNEE_RIGHT)、12(ANKLE_LEFT)、16(ANKLE_RIGHT)。
在图10所示的例子中,在方框B10包含相当于节点15的关节“KNEE_RIGHT”。因此,检测部153将关节(节点15:KNEE_RIGHT)检测为异常关节。此外,模型M2-1的预测所使用的帧编号n-2的各关节的坐标、和帧编号n-1的各关节的坐标是基于照相机30a拍摄到的图像帧的第二特征组信息。该情况下,检测部153生成包含“照相机识别信息:C30a,帧编号:n,异常关节:KNEE_RIGHT”的异常关节信息。
在图10中,对使用基于照相机30a拍摄到的图像帧生成的帧编号n-2的第二特征组信息、和帧编号n-1的第二特征组信息生成异常关节信息的情况进行了说明,但对于其它的照相机30b、30c、30d也相同。
接着,对检测部153执行的异常heatmap检测进行说明。图11是用于说明异常heatmap的模式的图。在图11中作为一个例子,对模式“消失”、“模糊”、“分裂”、以及“位置偏移”进行说明。heatmap4-1、4-2、4-3、4-4与第二特征对应。
模式“消失”如heatmap4-1所示,是不形成似然性较高的分布的模式。模式“模糊”如heatmap4-2所示,是似然性较高的分布扩展至大范围的模式。模式“分裂”如heatmap4-3所示,是存在多个似然性的峰值的模式。模式“位置偏移”如heatmap4-4所示,是似然性的峰值位于错误的位置的模式。
检测部153在第二特征(heatmap)符合在图11中进行了说明的任意一种模式的情况下,将与这样的第二特征对应的关节检测为异常关节。
检测部153通过第一异常heatmap检测处理,检测与模式“消失”、“模糊”、“分裂”对应的第二特征。检测部153通过第二异常heatmap检测处理,检测模式“位置偏移”。
对检测部153执行的第一异常heatmap检测处理进行说明。检测部153根据帧编号n的第二特征组信息所包含的各第二特征,计算似然性成为最大值的坐标。将似然性最大的坐标表述为“最大值坐标”。例如,如在图6中进行了说明的那样,在各照相机识别信息包含有J个第二特征,若照相机为四个,关节数为“21”,则根据八十四个第二特征,计算八十四个最大值坐标。在以下的说明中,将与照相机30a~30d对应的第二特征组信息(多个第二特征<heatmap>)集中表述为“HMinput”。
检测部153以HMinput的各最大值坐标为基准,制成“HMinput”所包含的第二特征的个数的与2D特征提取NN142A、通道数转换NN142B的训练时同形状的第二特征。将制成的多个第二特征表述为“HMeval”。
图12是用于说明第一异常heatmap检测处理的图(1)。在图12中,示出根据HMinput生成HMeval的情况。在根据2DGaussian的情况下,检测部153基于训练数据的似然性的值,计算标准偏差,并将平均值作为最大值坐标。例如,检测部153在根据HMinput的第二特征HM1-1生成HMeval的第二特征HM2-1的情况下,进行以下的计算。检测部153根据基于在2D特征提取NN142A、通道数转换NN142B的训练时使用的heatmap的似然性的值的标准偏差、和将第二特征HM1-1的最大值坐标作为平均值的高斯分布,生成HMeval的第二特征HM2-1。
检测部153对HMinput和HMeval的每个对应的第二特征计算差分,并将与差分在阈值以上的第二特征对应的关节检测为异常关节。检测部153计算式(5)所示的均方误差(MSE)、或者式(6)所示的平均绝对误差(MAE)等作为差分。式(5)所示的“xi input”是HMinput的第二特征的像素值(似然性)。式(5)所示的“xi eval”是HMeval的第二特征的像素值(似然性)。
[式5]
[式6]
例如,检测部153基于图12所示的第二特征HM1-1的各像素值、和第二特征HM2-1的各像素值,来计算差分,在差分在阈值以上的情况下,检测与第二特征HM1-1对应的关节的异常。这里,在第二特征HM1-1是与照相机30a对应的第二特征组信息所包含的帧编号n的第二特征,且为与关节“HAND_TIP_RIGHT”对应的第二特征的情况下,生成包含“照相机识别信息:C30a,帧编号:n,异常关节:HAND_TIP_RIGHT”的异常关节信息。
此外,检测部153也可以进行基于网络的自动权重调整,降低异常的第二特征的影响度。图13是用于说明网络的自动权重调整的一个例子的图。图13所示的DNN(Deep NeuralNetwork:深度神经网络)142C是由2D卷积层、ReLU层、MaxPooling层、以及全结合层构成的网络。DNN142C不与整体模型分开训练,而通过嵌入式self-learning方式与整体模型同时学习。
例如,通过在DNN142C输入包含j个第二特征的HMinput,输出与各第二特征对应的权重w1、w2、…wj。例如,检测部153生成各权重w1、w2、…wj作为异常关节信息。在权重w1的权重较小的情况下(小于阈值的情况下),可以说与权重w1对应的第二特征的关节异常。
接着,对检测部153执行的第二异常heatmap检测处理进行说明。检测部153基于多视点几何的匹配性,检测异常的关节。例如,检测部153执行以下的处理。
检测部153根据帧编号n的第二特征组信息所包含的J个第二特征,计算最大值坐标。最大值坐标是似然性最大的坐标。检测部153对视点v的第二特征组信息所包含的第二特征执行以下的处理。视点v与一个照相机30的中心坐标对应。
图14是对第二异常heatmap检测处理进行说明的图(1)。第二特征HM3-1为注目的视点v的第二特征。第二特征HM3-2为其它的视点v′的第二特征。第二特征HM3-3为其它的视点v″的第二特征。检测部153基于第二特征HM3-1的最大值坐标、和第二特征HM3-2的最大值坐标,计算核线lv,v′。检测部153基于第二特征HM3-1的最大值坐标、和第二特征HM3-3的最大值坐标,计算核线lv,v″。
检测部153计算核线lv,v′与核线lv,v″的交点。检测部153计算注目的视点v的第二特征HM3-1的最大值坐标与交点的欧几里德距离d。检测部153对每个视点反复执行上述处理,提取欧几里德距离d在阈值dth以下的视点的组合。
图15是对第二异常heatmap检测处理进行说明的图(2)。在图15中,将注目的视点(照相机)与视点组合建立对应关系。注目的视点与图14的注目的视点对应。视点组合表示生成了注目视点的最大值坐标与交点的欧几里德距离d在阈值dth以下的交点的视点的组合。
在图15中,为了方便说明,将与照相机30a的中心坐标对应的视点设为v30a。将与照相机30b的中心坐标对应的视点设为v30b。将与照相机30c的中心坐标对应的视点设为v30c。将与照相机30b的中心坐标对应的视点设为v30d。
在图15的第一行,示出注目视点v30a的最大值坐标与第一、第二核线的交点的欧几里德距离d在阈值dth以下。第一核线是注目视点v30a与视点v30c的核线。第二核线是注目视点v30a与视点v30d的核线。
在图15的第二行,示出不存在与注目视点v30b的最大值坐标的欧几里德距离d在阈值以下的核线的交点。
在图15的第三行,示出注目视点v30c的最大值坐标与第三、第四核线的交点的欧几里德距离d在阈值dth以下。第三核线是注目视点v30c与视点v30a的核线。第四核线是注目视点v30c与视点v30a的核线。
在图15的第四行,示出注目视点v30d的最大值坐标与第五、第六核线的交点的欧几里德距离d在阈值dth以下。第五核线是注目视点v30d与视点v30a的核线。第六核线是注目视点v30d与视点v30c的核线。
检测部153将与不与最多包含于组合的视点具有组合的注目视点对应的第二特征所对应的关节检测为异常关节。
在图15所示的例子中,最多包含于组合的视点为视点v30a。另外,不与该视点v30a具有组合的视点为视点v30b。因此,检测部153将与视点v30b对应的第二特征的关节检测为异常关节。例如,假设与视点v30b对应的第二特征所对应的关节为“HAND TIP RIGHT”,与帧编号n对应。该情况下,检测部153生成包含“照相机识别信息:C30b,帧编号:n,异常关节:HAND_TIP_RIGHT”的异常关节信息。
这里,对核线的计算的一个例子进行说明。检测部153在将视点v、v′的照相机中心坐标设为Cv、Cv′,将透视投影矩阵设为Pv、Pv′,并将视点v′的最大值坐标设为pv′的情况下,通过式(7)计算视点v的pj,v′的核线lv,v′。在式(7)中,[·]×表示应变非对称矩阵。Pv′ +表示Pv的伪逆矩阵(Pv′ T(Pv′Pv′ T)-1)。
[式7]
lv,v′=[PvCv′]×PvPv +pv′…(7)
对核线的交点进行说明。导出视点v的从视点v′、v″的最大值坐标描绘的核线lv,v′、lv,v″的交点qv,v′,v″。检测部153与两条直线的交点的导出相同,在设为lv,v′=(av′,bv′,-cv,),lv,v″=(av″,bv″,-cv″)的情况下,基于式(8)进行计算。式(8)的A-1通过式(9)示出。式(8)的C通过式(10)示出。
[式8]
qv,v′,v″=A-1C…(8)
[式9]
[式10]
检测部153基于式(11)计算最大坐标pj,v与核线的交点qv,v′,v″的距离d。
[式11]
d=|pj,v-qv,v′,v″|…(11)
如上述那样,检测部153执行左右反转检测、自遮挡检测、异常heatmap检测,生成异常关节信息。检测部153如上述那样,在异常关节信息中包含有照相机识别信息、帧编号、以及异常关节。检测部153将异常关节信息输出到骨骼识别部154。
返回到图4的说明。骨骼识别部154从特征表格142,获取各照相机识别信息的第二特征组信息,并从获取的第二特征组信息所包含的第二特征除去与异常关节信息对应的第二特征。骨骼识别部154基于综合除去了与异常关节信息对应的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。骨骼识别部154对每个帧编号,反复执行上述处理,并将3D骨骼的识别结果输出到招式识别部155。
这里,示出骨骼识别部154的处理的具体例。骨骼识别部154通过根据照相机参数将与各照相机对应的第二特征组信息(J个第二特征)反投影到3Dcube,来计算aggregatedvolumes。这里,将第二特征组信息的帧编号设为n,但与其它的帧编号对应的第二特征组信息相关的处理也相同。
例如,骨骼识别部154通过基于照相机30a的照相机参数,将与照相机识别信息“C30a”对应的第二特征组信息反投影到3Dcube,来计算第一aggregated volume。骨骼识别部154通过基于照相机30b的照相机参数,将与照相机识别信息“C30b”对应的第二特征组信息反投影到3Dcube,来计算第二aggregated volume。
骨骼识别部154通过基于照相机30c的照相机参数,将与照相机识别信息“C30c”对应的第二特征组信息反投影到3Dcube,来计算第3aggregated volume。骨骼识别部154通过基于照相机30d的照相机参数,将与照相机识别信息“C30d”对应的第二特征组信息反投影到3Dcube,来计算第四aggregated volume。
骨骼识别部154确定将与异常关节信息对应的第二特征反投影到3Dcube的异常点,执行用于从第一、第二、第三、第四aggregated volume(volumes)除去异常点的过滤。
例如,骨骼识别部154使用异常关节信息所包含的照相机识别信息(视为异常的照相机c)、异常关节k、以及式(12)执行过滤。式(12)所包含的c是使softmax时的影响无效化的无效值。
[式12]
骨骼识别部154通过综合除去了(过滤了)异常点的第一、第二、第三、第四aggregated volume(volumes),来计算V2V(神经网络)的输入信息。
骨骼识别部154基于式(13)或者式(14)和式(15)执行综合处理,计算输入信息Vinput。在基于式(13)、(14)、(15)进行综合处理的情况下,为了确保3D骨骼的精度,也可以设置仅对置的照相机不留下的制约。
[式13]
[式14]
[式15]
骨骼识别部154通过将输入信息输入到V2V,来计算表示各关节的3D的位置坐标的processed volumes。骨骼识别部154通过对processed volumes执行soft-argmax,来生成3D骨骼的识别结果。在3D骨骼的识别结果中包含有J个关节的3D坐标。骨骼识别部154将成为3D骨骼的识别结果的骨骼识别结果数据输出到招式识别部155。另外,骨骼识别部154将骨骼识别结果数据保存于存储部140。
招式识别部155按照帧编号的顺序从骨骼识别部154获取骨骼识别结果数据,并基于连续的骨骼识别结果数据,确定各关节坐标的时间序列变化。招式识别部155对各关节位置的时间序列变化与招式识别表格145进行比较,确定招式的种类。另外,招式识别部155对招式的种类的组合与招式识别表格143进行比较,计算被拍摄体H1的表演的得分。
招式识别部155基于表演的得分、和从表演的开始到结束为止的骨骼识别结果数据,生成画面信息。招式识别部155使生成的画面信息输出并显示于显示部130。
图16是表示画面信息的一个例子的图。如图16所示,在该画面信息60包含有区域60a、60b、60c。区域60a是显示被拍摄体H1进行的表演中识别出的招式的种类的区域。也可以除了招式的种类之外,还显示招式的难度。区域60b是显示表演的得分的区域。区域60a是对基于从表演的开始到结束为止的骨骼识别结果数据的三维模型进行动画显示的区域。利用者操作输入部120,指示动画的播放、停止等。
接下来,对本实施例的骨骼识别装置100的处理顺序的一个例子进行说明。图17是表示本实施例的骨骼识别装置的处理顺序的流程图。骨骼识别装置100的获取部151从多个照相机30获取图像帧(多视点图像)(步骤S101)。
骨骼识别装置100的生成部152执行第二特征生成处理(步骤S102)。骨骼识别装置100的检测部153执行异常检测处理(步骤S103)。
骨骼识别装置100的骨骼识别部154执行异常关节的过滤(步骤S104)。骨骼识别部154执行综合处理,生成输入信息(步骤S105)。骨骼识别部154将输入信息输入到V2V,计算processed volumes(步骤S106)。
骨骼识别部154通过对processed volumes执行soft-argmax,来生成3D骨骼的识别结果(步骤S107)。骨骼识别部154将骨骼识别结果数据输出到招式识别部155(步骤S108)。
骨骼识别部154在为最终帧的情况下(步骤S109,是),结束处理。另一方面,骨骼识别部154在不为最终帧的情况下(步骤S109,否),将骨骼识别结果数据保存于存储部140(步骤S110),并移至步骤S101。
接下来,对在图17的步骤S102中进行了说明的第二特征生成处理的一个例子进行说明。图18是第二特征生成处理的流程图。如图18所示,骨骼识别装置100的生成部152通过将图像帧输入到2D特征提取NN142A,来计算K个第一特征(步骤S201)。
生成部152通过将K个第一特征输入到通道数转换NN142B,来生成J个第二特征(步骤S202)。生成部152输出第二特征的信息(步骤S203)。
接下来,对在图17的步骤S103中进行了说明的异常检测处理的一个例子进行说明。图19是异常检测处理的流程图。如图19所示,骨骼识别装置100的检测部153获取第二特征(步骤S301)。检测部153执行左右反转检测(步骤S302)。
检测部153执行遮挡检测(步骤S303)。检测部153执行异常heatmap检测(步骤S304)。检测部153基于异常关节的检测结果,生成异常关节信息(步骤S305)。检测部153输出异常关节信息(步骤S306)。
接下来,对本实施例的骨骼识别装置100的效果进行说明。骨骼识别装置100根据基于从照相机30输入的图像帧提取出的表示被拍摄体H1的二维的关节位置的特征的K个第一特征,生成分别与被拍摄体的J个关节对应的J个第二特征(第二特征组信息)。骨骼识别装置100根据第二特征组信息,检测与有异常的关节对应的第二特征,并基于综合从第二特征组信息除去了有异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。由此,能够预先除去有异常的2D特征,能够正确地执行3D骨骼识别。
骨骼识别装置100根据基于上一次(帧编号n-1)的第二特征组信息生成的向量、和基于这次(帧编号n)的第二特征组信息生成的向量,检测有异常的第二特征。由此,能够检测左右反转的异常的关节。
骨骼识别装置100基于第二特征组信息,基于根据规定的关节确定的Box与规定的关节以外的关节的位置的关系,检测有异常的第二特征。由此,能够检测受到遮挡影响的异常的关节。
骨骼识别装置100基于heatmap(第二特征)与预先确定的理想的似然性的分布信息的差分,检测有异常的第二特征。另外,骨骼识别装置100基于heatmap,计算将照相机位置作为视点的多个核线,并基于核线的交点与关节的位置的距离,检测有异常的第二特征。由此,能够检测并除去产生了模式“消失”、“模糊”、“分裂”、“位置偏移”的第二特征。
图20是用于说明本实施例的骨骼识别装置的效果的图。在图20中,示出现有技术的3D骨骼识别结果Im2-1c、Im2-2c、Im2-3c、Im2-4c、和骨骼识别装置100的3D骨骼识别结果Im2-1d、Im2-2d、Im2-3d、Im2-4d。根据骨骼识别装置100,通过左右反转检测、自遮挡检测、以及异常heatmap检测,除去与错误的关节对应的第二特征,从而改善3D骨骼的精度。例如,现有技术的3D骨骼识别结果Im2-1c~Im2-4c与被拍摄体的3D骨骼有分歧,但本实施例的3D骨骼识别结果Im2-1d~Im2-4d适当地确定被拍摄体的3D骨骼。
接下来,对实现与上述实施例所示的骨骼识别装置100相同的功能的计算机的硬件构成的一个例子进行说明。图21是表示实现与骨骼识别装置相同的功能的计算机的硬件构成的一个例子的图。
如图21所示,计算机200具有执行各种运算处理的CPU201、受理来自用户的数据的输入的输入装置202、以及显示器203。另外,计算机200具有从照相机30接收距离图像的数据的通信装置204、和与各种装置连接的接口装置205。计算机200具有暂时存储各种信息的RAM206、和硬盘装置207。而且,各装置201~207与总线208连接。
硬盘装置207具有获取程序207a、生成程序207b、检测程序207c、骨骼识别程序207d、以及招式识别程序207e。CPU201读出获取程序207a、生成程序207b、检测程序207c、骨骼识别程序207d、招式识别程序207e并展开在RAM206。
获取程序207a作为获取工序206a发挥作用。生成程序207b作为生成工序206b发挥作用。检测程序207c作为检测工序206c发挥作用。骨骼识别程序207d作为骨骼识别工序206d发挥作用。招式识别程序207e作为招式识别工序206e发挥作用。
获取工序206a的处理与获取部151的处理对应。生成工序206b的处理与生成部152的处理对应。检测工序206c的处理与检测部153的处理对应。骨骼识别工序206d的处理与骨骼识别部154的处理对应。招式识别工序206e的处理与招式识别部155的处理对应。
此外,对于各程序207a~207f,也可以并不一定从最初起使其存储于硬盘装置307。例如,也可以预先使各程序存储于能够插入计算机200的软盘(FD)、CD-ROM、DVD盘、光磁盘、IC卡等“便携物理介质”。然后,计算机300读出并执行各程序207a~207e。
附图标记说明
35…体操评分辅助系统,30a、30b、30c、30d…照相机,100…骨骼识别装置,110…通信部,120…输入部,130…显示部,140…存储部,141…测定表格,142…特征表格,143…招式识别表格,150…控制部,151…获取部,152…生成部,153…检测部,154…骨骼识别部,155…招式识别部。
Claims (15)
1.一种骨骼识别方法,是计算机执行的骨骼识别方法,其特征在于,执行如下处理:
基于从拍摄被拍摄体的多个照相机输入的二维的输入图像,提取表示上述被拍摄体的二维的关节位置的特征的多个第一特征;
基于上述多个第一特征,生成第二特征组信息,该第二特征组信息包含分别与上述被拍摄体的规定量的关节对应的多个第二特征;
根据上述第二特征组信息,检测有异常的第二特征;以及
基于综合从上述第二特征组信息除去了有上述异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。
2.根据权利要求1所述的骨骼识别方法,其特征在于,
上述生成的处理按照时间序列生成多个第二特征组信息,
上述检测的处理根据基于上一次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第一向量、和基于这次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第二向量,检测有异常的第二特征。
3.根据权利要求2所述的骨骼识别方法,其特征在于,
上述检测的处理基于上述第二特征组信息,基于根据规定的关节确定的区域与上述规定的关节以外的关节的位置的关系,检测有异常的第二特征。
4.根据权利要求1所述的骨骼识别方法,其特征在于,
上述第二特征是将坐标与在上述坐标存在规定的关节的似然性建立对应关系的heatmap信息,
上述检测的处理基于上述heatmap信息与预先确定的理想的似然性的分布信息的差分,检测有异常的第二特征。
5.根据权利要求4所述的骨骼识别方法,其特征在于,
上述检测的处理基于上述heatmap信息,计算将照相机位置作为视点的多个核线,并基于上述核线的交点与关节的位置的距离,检测有异常的第二特征。
6.一种骨骼识别程序,其特征在于,
使计算机执行如下处理:
基于从拍摄被拍摄体的多个照相机输入的二维的输入图像,提取表示上述被拍摄体的二维的关节位置的特征的多个第一特征;
基于上述多个第一特征,生成第二特征组信息,该第二特征组信息包含分别与上述被拍摄体的规定量的关节对应的多个第二特征;
根据上述第二特征组信息,检测有异常的第二特征;以及
基于综合从上述第二特征组信息除去了有上述异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。
7.根据权利要求6所述的骨骼识别程序,其特征在于,
上述生成的处理按照时间序列生成多个第二特征组信息,
上述检测的处理根据基于上一次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第一向量、和基于这次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第二向量,检测有异常的第二特征。
8.根据权利要求7所述的骨骼识别程序,其特征在于,
上述检测的处理基于上述第二特征组信息,基于根据规定的关节确定的区域与上述规定的关节以外的关节的位置的关系,检测有异常的第二特征。
9.根据权利要求6所述的骨骼识别程序,其特征在于,
上述第二特征是将坐标与在上述坐标存在规定的关节的似然性建立对应关系的heatmap信息,
上述检测的处理基于上述heatmap信息与预先确定的理想的似然性的分布信息的差分,检测有异常的第二特征。
10.根据权利要求9所述的骨骼识别程序,其特征在于,
上述检测的处理基于上述heatmap信息,计算将照相机位置作为视点的多个核线,并基于上述核线的交点与关节的位置的距离,检测有异常的第二特征。
11.一种体操评分辅助系统,是具有拍摄被拍摄体的多个照相机、和骨骼识别装置的体操评分辅助系统,其特征在于,
上述骨骼识别装置具有:
获取部,获取从上述多个照相机输入的二维的输入图像;
生成部,基于上述输入图像,提取表示上述被拍摄体的二维的关节位置的特征的多个第一特征,并基于上述多个第一特征,生成第二特征组信息,该第二特征组信息包含分别与上述被拍摄体的规定量的关节对应的多个第二特征;
检测部,根据上述第二特征组信息,检测有异常的第二特征;以及
骨骼识别部,基于合成从上述第二特征组信息除去了有上述异常的第二特征的剩余的多个第二特征所得的结果,识别3D骨骼。
12.根据权利要求11所述的体操评分辅助系统,其特征在于,
上述生成部按照时间序列生成多个第二特征组信息,上述检测部根据基于上一次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第一向量、和基于这次的第二特征组信息确定的将规定的关节的组作为起点以及终点的第二向量,检测有异常的第二特征。
13.根据权利要求12所述的体操评分辅助系统,其特征在于,
上述检测部基于上述第二特征组信息,基于根据规定的关节确定的区域与上述规定的关节以外的关节的位置的关系,检测有异常的第二特征。
14.根据权利要求11所述的体操评分辅助系统,其特征在于,
上述第二特征是将坐标与在上述坐标存在规定的关节的似然性建立对应关系的heatmap信息,上述检测部基于上述heatmap信息与预先确定的理想的似然性的分布信息的差分,检测有异常的第二特征。
15.根据权利要求14所述的体操评分辅助系统,其特征在于,
上述检测部基于上述heatmap信息,计算将照相机位置作为视点的多个核线,并基于上述核线的交点与关节的位置的距离,检测有异常的第二特征。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/009267 WO2022190206A1 (ja) | 2021-03-09 | 2021-03-09 | 骨格認識方法、骨格認識プログラムおよび体操採点支援システム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116830166A true CN116830166A (zh) | 2023-09-29 |
Family
ID=83226426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180093006.6A Pending CN116830166A (zh) | 2021-03-09 | 2021-03-09 | 骨骼识别方法、骨骼识别程序以及体操评分辅助系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230368415A1 (zh) |
EP (1) | EP4307213A4 (zh) |
JP (1) | JPWO2022190206A1 (zh) |
CN (1) | CN116830166A (zh) |
WO (1) | WO2022190206A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3860287B2 (ja) | 1997-04-25 | 2006-12-20 | 富士通株式会社 | 動き抽出処理方法,動き抽出処理装置およびプログラム記憶媒体 |
JP2000251078A (ja) | 1998-12-22 | 2000-09-14 | Atr Media Integration & Communications Res Lab | 人物の3次元姿勢推定方法および装置ならびに人物の肘の位置推定方法および装置 |
CN108229332B (zh) * | 2017-12-08 | 2020-02-14 | 华为技术有限公司 | 骨骼姿态确定方法、装置及计算机可读存储介质 |
JP7209333B2 (ja) * | 2018-09-10 | 2023-01-20 | 国立大学法人 東京大学 | 関節位置の取得方法及び装置、動作の取得方法及び装置 |
WO2020084667A1 (ja) * | 2018-10-22 | 2020-04-30 | 富士通株式会社 | 認識方法、認識プログラム、認識装置、学習方法、学習プログラムおよび学習装置 |
-
2021
- 2021-03-09 JP JP2023504918A patent/JPWO2022190206A1/ja active Pending
- 2021-03-09 WO PCT/JP2021/009267 patent/WO2022190206A1/ja active Application Filing
- 2021-03-09 CN CN202180093006.6A patent/CN116830166A/zh active Pending
- 2021-03-09 EP EP21930063.9A patent/EP4307213A4/en active Pending
-
2023
- 2023-07-20 US US18/356,043 patent/US20230368415A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022190206A1 (ja) | 2022-09-15 |
JPWO2022190206A1 (zh) | 2022-09-15 |
EP4307213A1 (en) | 2024-01-17 |
EP4307213A4 (en) | 2024-03-06 |
US20230368415A1 (en) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4002198A1 (en) | Posture acquisition method and device, and key point coordinate positioning model training method and device | |
CN111402290B (zh) | 一种基于骨骼关键点的动作还原方法以及装置 | |
JP6204659B2 (ja) | 映像処理装置及び映像処理方法 | |
CN105144236A (zh) | 实时立体匹配 | |
CN104035557B (zh) | 一种基于关节活跃度的Kinect动作识别方法 | |
JPH11259660A (ja) | 三次元動作復元システム | |
WO2021048988A1 (ja) | 骨格認識方法、骨格認識プログラムおよび情報処理装置 | |
Xia et al. | Human motion recovery jointly utilizing statistical and kinematic information | |
JP7164045B2 (ja) | 骨格認識方法、骨格認識プログラムおよび骨格認識システム | |
WO2009061283A2 (en) | Human motion analysis system and method | |
Gouidis et al. | Accurate hand keypoint localization on mobile devices | |
Vo et al. | Spatiotemporal bundle adjustment for dynamic 3d human reconstruction in the wild | |
Yan et al. | Cimi4d: A large multimodal climbing motion dataset under human-scene interactions | |
Guo et al. | Monocular 3D multi-person pose estimation via predicting factorized correction factors | |
KR20220149717A (ko) | 단안 카메라로부터 전체 골격 3d 포즈 복구 | |
Nicodemou et al. | Learning to infer the depth map of a hand from its color image | |
Mori et al. | Good keyframes to inpaint | |
CN116830166A (zh) | 骨骼识别方法、骨骼识别程序以及体操评分辅助系统 | |
Brooks et al. | A computational method for physical rehabilitation assessment | |
Zhou et al. | Mh pose: 3d human pose estimation based on high-quality heatmap | |
CN109961092A (zh) | 一种基于视差锚点的双目视觉立体匹配方法及系统 | |
WO2023159517A1 (en) | System and method of capturing three-dimensional human motion capture with lidar | |
Chen et al. | Accurate 3D motion tracking by combining image alignment and feature matching | |
JP2009048305A (ja) | 形状解析プログラム及び形状解析装置 | |
Munn et al. | FixTag: An algorithm for identifying and tagging fixations to simplify the analysis of data collected by portable eye trackers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |