CN115280371A - 图像处理装置和运动图像数据生成方法 - Google Patents

图像处理装置和运动图像数据生成方法 Download PDF

Info

Publication number
CN115280371A
CN115280371A CN202180020276.4A CN202180020276A CN115280371A CN 115280371 A CN115280371 A CN 115280371A CN 202180020276 A CN202180020276 A CN 202180020276A CN 115280371 A CN115280371 A CN 115280371A
Authority
CN
China
Prior art keywords
model
moving image
feature amount
image
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180020276.4A
Other languages
English (en)
Inventor
菅野尚子
田中润一
广田洋一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN115280371A publication Critical patent/CN115280371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技术涉及一种能够容易地搜索3D模型数据的图像处理装置和运动图像数据生成方法。该图像处理装置包括:存储单元,其存储多个3D模型以及分别与多个3D模型对应的多个3D模型特征量;搜索单元,其基于所输入的被摄体的特征量和存储在存储单元中的3D模型特征量,搜索具有与被摄体的特征量相似的特征量的3D模型;以及输出单元,其输出由搜索单元搜索到的3D模型。本技术例如可以应用于搜索3D模型的图像处理装置。

Description

图像处理装置和运动图像数据生成方法
技术领域
本技术涉及图像处理装置和运动图像数据生成方法,并且更具体地,涉及能够容易地搜索3D模型数据的图像处理装置和运动图像数据生成方法。
背景技术
存在用于根据从多个视点所捕获的运动图像来生成被摄体的3D模型并且根据任意观察位置(虚拟视点)生成作为3D模型的2D图像的虚拟视点图像以提供自由视点的图像的技术。该技术也被称为体积捕获技术等。
例如,专利文献1提出了如下方法,其中,将被摄体的3D模型的运动图像数据(3D模型数据)转换成从多个视点捕获的多个纹理图像和深度图像以传输至再现装置,并且显示在再现侧。
引用列表
专利文献
专利文献1:WO 2017/082076 A
发明内容
本发明要解决的问题
同时,在要生成其中作为被摄体的人执行预定运动的3D模型的运动图像的情况下,存在搜索其中执行相似运动的现有3D模型的运动图像的请求。然而,不容易搜索其中执行相似运动的现有3D模型的运动图像。
本技术是鉴于这种情况而做出的,并且能够容易地搜索3D模型数据。
问题的解决方案
根据本技术的第一方面的图像处理装置包括:存储单元,其存储多个3D模型以及分别与多个3D模型对应的多个3D模型特征量;搜索单元,其基于被摄体的特征量以及存储在存储单元中的3D模型特征量来搜索具有与所输入的被摄体的特征量相似的特征量的3D模型;以及输出单元,其输出由搜索单元搜索到的3D模型。
在本技术的第一方面中,将多个3D模型以及分别与多个3D模型对应的多个3D模型特征量存储在存储单元中,基于被摄体的特征量和存储在存储单元中的3D模型特征量来搜索具有与被摄体的输入特征量相似的特征量的3D模型,并且输出搜索到的3D模型。
根据本技术的第二方面的图像处理装置包括:渲染单元,其生成通过从预定虚拟视点观察3D模型而获得的自由视点图像,该3D模型基于被摄体的特征量和所存储的3D模型的特征量而被搜索到具有与被摄体的特征量相似的特征量。
在本技术的第二方面中,生成通过从预定虚拟视点观察3D模型而获得的自由视点图像,该3D模型基于被摄体的特征量和所存储的3D模型的特征量而被搜索到具有与被摄体的特征量相似的特征量。
根据本技术的第三方面的运动图像数据生成方法包括:生成通过从预定虚拟视点观察3D模型的运动图像而获得的自由视点图像的运动图像,该3D模型基于输入运动图像的被摄体的特征量和所存储的3D模型的运动图像的特征量而被搜索到具有与被摄体的特征量相似的特征量。
在本技术的第三方面中,生成通过从预定虚拟视点观察3D模型的运动图像而获得的自由视点图像的运动图像,该3D模型基于输入运动图像的被摄体的特征量和所存储的3D模型的运动图像的特征量而被搜索到具有与被摄体的特征量相似的特征量。
根据本技术的第一方面和第二方面的图像处理装置可以通过使计算机执行程序来实现。可以通过经由传输介质传输或者通过记录在记录介质中来提供程序。
图像处理装置可以是独立的装置或者是配置一个装置的内部块。
附图说明
图1是示出应用本技术的图像处理系统的第一实施方式的配置示例的框图。
图2是示出在生成3D模型数据的情况下的成像空间的示例的图。
图3是用于说明一般3D模型数据的数据格式的图。
图4是用于说明存储在3D模型DB(数据库)中的现有3D模型的运动图像数据的图。
图5是用于说明生成新3D模型的运动图像数据的处理的图。
图6是用于说明图1的图像处理系统的运动图像生成/显示处理的流程图。
图7是图6的步骤S5中的新3D模型数据生成处理的详细流程图。
图8是图6的步骤S6中的自由视点图像显示处理的详细流程图。
图9是用于说明生成和显示高帧速率的自由视点图像的运动图像的示例的图。
图10是示出应用本技术的图像处理系统的第二实施方式的配置示例的框图。
图11是示出图像处理系统的第二实施方式的修改例的框图。
图12是示出应用本技术的图像处理系统的第三实施方式的配置示例的框图。
图13是示出应用本技术的计算机的实施方式的配置示例的框图。
具体实施方式
在下文中,将参照附图来描述用于实施本技术的模式(在下文中,称为实施方式)。注意,在本说明书和附图中,具有实质上相同的功能配置的部件由相同的附图标记来表示,以省略重复的描述。将按照以下顺序来给出描述。
1.图像处理系统的第一实施方式
2.3D模型数据的配置
3.新3D模型的运动图像数据生成处理
4.运动图像生成处理的流程图
5.高帧速率转换的示例
6.图像处理系统的第二实施方式
7.图像处理系统的第三实施方式
8.修改例
9.计算机配置示例
<1.图像处理系统的第一实施方式>
图1是示出应用本技术的图像处理系统的第一实施方式的配置示例的框图。
图1中的图像处理系统1包括:多个成像装置11(11-1至11-3);图像处理装置12,其通过使用由成像装置11所捕获的图像来生成预定被摄体的运动图像;以及显示装置13,其显示由图像处理装置12所生成的运动图像。
图像处理装置12包括图像获取单元31、特征量计算单元32、3D模型DB 33、相似性搜索单元34、渲染单元35以及操作单元36。
图像处理装置12根据由三个成像装置11-1至11-3所捕获的被摄体的运动图像来生成被摄体的3D模型的运动图像。此外,图像处理装置12生成2D运动图像并且使显示装置13显示该2D运动图像,该2D运动图像是通过从任意虚拟视点观察所生成的被摄体的3D模型的运动图像而获得的二维(2D)运动图像。
起初,在要生成其中作为被摄体的预定人正在执行预定运动的3D模型的运动图像的情况下,需要利用被布置成围绕作为被摄体的人的大量(约几十个)成像装置11对被摄体进行成像。然后,通过使用通过从大量视点对被摄体进行成像而获得的大量捕获图像,通过诸如视觉外壳的方法来指定被摄体的三维形状,并且生成被摄体的3D模型的运动图像数据。注意,在以下描述中,即使在简单地被称为3D模型的情况下,3D模型也表示3D模型的运动图像数据。
然而,在要生成具有与过去生成的3D模型的运动不同的运动的3D模型的情况下,难以每次准备几十个成像装置11的环境并且执行成像。
在这点上,图1的图像处理系统1是可以通过使用过去生成的3D模型(在下文中,称为现有3D模型)来简单地生成新3D模型的系统。用于生成新3D模型的现有3D模型不限于过去由图像处理系统1本身所生成的3D模型,并且可以是过去由另一系统或装置所生成的3D模型。由图像处理装置12生成并且与由成像装置11-1至11-3所捕获的被摄体的运动图像对应的被摄体的新3D模型(的运动图像)与现有3D模型区分开,并且被称为新3D模型。
配置图像处理系统1的一部分的成像装置11的数目例如约为1至3,这与通过一般方法生成3D模型的情况相比更小。在图1的图像处理系统1中,示出了使用3个成像装置11-1至11-3的配置,但是可以使用1个或2个成像装置。
此外,在由每个成像装置11所捕获的运动图像中,由作为被摄体的人所执行的运动至少部分地与由图像处理装置12的3D模型DB 33中所存储的现有3D模型的人所执行的运动不同。
3个成像装置11-1至11-3中的每一个将人成像为被摄体,并且将作为结果获得的人的运动图像数据提供给图像处理装置12(的图像获取单元31)。
图像获取单元31获取从成像装置11-1至11-3中的每一个所提供的人的运动图像数据(捕获图像),并且将运动图像数据提供给特征量计算单元32。
特征量计算单元32通过使用从成像装置11-1至11-3中的每一个所提供的人的运动图像数据来计算指示作为被摄体的人的运动的特征的特征量,并且将计算出的特征量提供给相似性搜索单元34。具体地,特征量计算单元32估计运动图像中的人的关节位置,并且通过使用关节位置来计算指示人的姿势的骨信息作为人的运动的特征量。
骨信息是指示作为被摄体的人的每个关节位置在图像中位于何处的值,并且针对人的每个关节,由例如用于识别关节的关节id、指示关节的二维位置的位置信息(u,v)以及指示关节的旋转方向的旋转信息R来表现。此外,还存在以下情况:针对人的每个关节,通过使用机器学习由用于识别关节的关节id、指示关节的三维位置的位置信息(x,y,z)以及指示关节的旋转方向的旋转信息R来表现骨信息。作为骨信息生成的人的关节位置可以被设置成例如鼻子(id=0)、心脏(id=1)、右肩(id=2)、右肘(id=3)、右腕(id=4)、左肩(id=5)、左肘(id=6)、左腕(id=7)、右腰(id=8)、右膝(id=9)、右踝(id=10)、左腰(id=11)、左膝(id=12)、左踝(id=13)、右眼(id=14)、左眼(id=15)、右耳(id=16)、左耳(id=17)等。此外,面部的特征点、手和手指的关节等也可以被设置成关节位置以表现人的骨骼。已知的算法可以用于估计运动图像中的人的关节位置的处理。针对运动图像的每一帧计算作为特征量的骨信息,并且将骨信息提供给相似性搜索单元34。
3D模型DB 33是存储过去生成的大量现有3D模型的存储单元,并且其中,作为被摄体的人执行预定运动。除了表示被摄体的3D形状(几何信息)的3D形状数据以及表示被摄体的颜色信息的纹理数据之外,存储在3D模型DB 33中的每个现有3D模型的运动图像数据还具有以运动图像的帧为单位的被摄体的骨信息。稍后将参照图4描述存储在3D模型DB 33中的每个现有3D模型的运动图像数据的细节。
相似性搜索单元34在存储在3D模型DB 33中的一个或更多个现有3模型的运动中搜索与由成像装置11所捕获的运动图像的被摄体的运动相似的运动。例如,在多个所存储的现有3模型的运动中,以下运动被搜索作为相似运动:具有与指示所捕获的运动图像的被摄体的运动的特征的特征量接近的特征量的运动(特征量的差异在预定范围内的运动),或者具有与被摄体的运动相对接近的特征量的运动。更具体地,通过使用骨信息作为特征量,相似性搜索单元34针对由成像装置11所捕获的运动图像的每一帧,在3D模型DB 33中搜索与所捕获的运动图像的被摄体的骨信息相似的现有3D模型的骨信息。
然后,相似性搜索单元34通过按照由成像装置11所成像的运动图像的帧的顺序来排列包括与被摄体的骨信息相似的搜索到的骨信息的现有3D模型的运动图像的帧,来生成与由成像装置11所成像的被摄体的运动对应的新3D模型。所生成的新3D模型的运动图像数据(3D模型数据)被提供给渲染单元35。
渲染单元35使用从相似性搜索单元34所提供的新3D模型的运动图像数据来生成通过从预定虚拟视点观察新3D模型而获得的2D运动图像,并且使显示装置13显示该2D运动图像。虚拟视点由操作单元36指定。
操作单元36接收用户的操作例如对由成像装置11所捕获的图像的获取、生成新3D模型的指令以及虚拟视点的输入,并且将接收到的信息提供给需要的单元。
如上所述配置图像处理系统1。
注意,在图像处理装置12包括显示器的情况下,由渲染单元35所生成的2D运动图像可以显示在其自身的显示器上,而不是显示在外部显示装置13上。图像处理装置12和显示装置13可以被配置成一个装置。
<2.3D模型数据的配置>
参照图2至图4,将与一般的3D模型数据进行比较来描述在图像处理系统1中所使用的3D模型数据。
首先,将描述一般的3D模型数据。
在生成3D模型数据的情况下,如图2所示,多个成像装置41布置在诸如人的被摄体周围以包围被摄体,并且对被摄体进行成像。图2示出了其中布置了8个成像装置41-1至41-8的示例。然而,当成像装置41的数目增加时,可以生成图像插值的影响较小的、高度准确的3D模型,并且可以使用几十个成像装置41。注意,成像装置41的布置是已知的。
针对图像处理系统1的成像装置11,可以使用与生成现有3模型的运动图像数据时所使用的成像装置相同的成像装置41的一部分,或者可以使用与生成现有3模型的运动图像数据时所使用的成像装置和布置不同的成像装置和布置。
通过使用由各个成像装置41在不同成像方向(视点)上所捕获的图像将各个视点处的被摄体的轮廓投影到3D空间,由通过将轮廓的交叉区域成形为3D形状而获得的视觉壳体、使用视点之间的纹理信息的一致性的多视图立体等来获取被摄体的3D形状,并且生成3D形状数据。
图3示出了一般3D模型数据的数据格式的示例。
3D模型数据通常由表示被摄体的3D形状(几何信息)的3D形状数据和表示被摄体的颜色信息的纹理数据来表现。
3D形状数据例如例如表现为:以由点的集合表示被摄体的三维位置的点云格式、被称为多边形网格并由顶点与顶点间的连接表示的3D网格格式、或者由被称为体素的立方体的集合表示的体素格式。
例如,纹理数据具有在由每个成像装置41所捕获的捕获图像(二维纹理图像)中保存的多纹理格式,或者具有通过将粘贴到每个点或每个多边形网格的二维纹理图像表现为UV坐标系中的3D形状数据而保存的UV映射格式。
如图3的上部分所示,利用由成像装置41所捕获的多个捕获图像中保存的多纹理格式和3D形状数据来描述3D模型数据的格式是视图相关格式,在该视图相关格式中,颜色信息可以根据虚拟视点(虚拟摄像装置的位置)而改变。
另一方面,如图3的下部分所示,利用3D形状数据和其中将被摄体的纹理信息映射到UV坐标系上的UV映射格式来描述3D模型数据的格式是视图无关格式,在该视图无关格式中,颜色信息是相同的,与虚拟视点(虚拟摄像装置的位置)无关。
存储在3D模型DB 33中的现有3D模型可以以上述各种数据格式中的任何数据格式来存储,但是在本实施方式中,假设现有3D模型以视图相关格式与3D形状数据和多纹理格式一起被存储在3D模型DB 33中。
此外,如上所述,存储在3D模型DB 33中的现有3D模型除了具有表示被摄体的3D形状(几何信息)的3D形状数据和表示被摄体的颜色信息的纹理数据之外,还具有以运动图像的帧为单位的被摄体的骨信息。
将参照图4来描述存储在3D模型DB 33中的现有3D模型的运动图像数据。
图4示出了作为存储在3D模型DB 33中的大量现有3D模型51中的一个预定现有3D模型51的运动图像数据的、配置运动图像的多个帧中的一个帧(第n帧)的数据的示例。
针对每一帧,现有3D模型51的运动图像数据包括骨信息61、3D形状数据62以及由每个成像装置41在成像时所捕获的捕获图像63。
图4是配置运动图像的多个帧中的第n帧的数据的示例,因此,用下标将指示帧编号的n添加到每个数据,例如,作为骨信息61n、三维形状数据62n以及捕获图像63n
此外,图4中的现有3D模型51的运动图像数据是在成像时由27个成像装置41所捕获的数据的示例,因此,第n帧的捕获图像63n作为与27个成像装置41对应的27个捕获图像63n-1至63n-27被存储在3D模型DB 33中。捕获图像63n-1是由第一成像装置41-1所捕获的捕获图像63,捕获图像63n-2是由第二成像装置41-2所捕获的捕获图像63,类似地,捕获图像63n-27是由第27成像装置41-27所捕获的捕获图像63。由于在成像时成像装置41的数目是在生成自由视点图像时已知的视点数目,所以当成像装置的数目增加时,可以以更高的精度来表现自由视点图像(纹理图像)。
现有3D模型51的第n帧的骨信息61n包括从第n帧的27个捕获图像63n-1至63n-27的至少一个捕获图像63中所提取的骨信息。在图4的示例中,骨信息61n包括从两个捕获图像63n中所提取的骨信息,即从第一成像装置41-1所捕获的捕获图像63n-1中所提取的骨信息61n-1以及从第七成像装置41-7所捕获的捕获图像63n-7中所提取的骨信息61n-7
图4所示的骨信息61n具有在与捕获图像63对应的二维格式中保存的格式,并且由关节id、指示关节的二维位置的位置信息(u,v)以及指示上述关节的旋转方向的旋转信息R来表现。骨信息61n可以具有在上述的三维格式中保存的格式。在这种情况下,三维格式的骨信息61n被投影到每个成像装置41上,由此可以计算与捕获图像63n对应的骨信息。
注意,对于骨信息61n,除了从由成像装置41所捕获的捕获图像63n中提取骨信息61n的方法之外,还可以在成像时在作为被摄体的人的关节位置处附着了跟踪传感器的状态下执行成像,并且跟踪传感器的传感器信息可以用作骨信息61n。例如,此处可以使用的跟踪传感器包括在智能电话等中所使用的陀螺仪传感器。
骨信息61n是与捕获图像63n对应的信息,并且不是图像数据,而是仅以文本格式存储的位置信息和旋转信息,因此骨信息61n的数据大小极小,例如约1KB。
例如,在现有3D模型51的3D模型数据存储在3D模型DB 33中的情况下,可以通过诸如高级视频编码(AVC)方法或高效率视频编码(HEVC)方法的编码方法来编码和存储3D模型数据。由于骨信息61n的数据大小极小,因此骨信息61n可以作为纹理数据的元信息被存储在头部等中。即使在经由预定网络将现有3D模型51或新3D模型传输至另一装置的情况下,也可以传输通过这种编码方法编码的编码数据。
作为现有3D模型的元信息,例如,除了骨信息之外,还可以保存以下信息。
·指示诸如人的关节、姿势、面部表情以及嘴运动的特征点的信息
·语音信息、音乐信息
例如,可以根据诸如“万岁!欢呼!”和“干杯”来估计姿势。此外,例如,诸如广播体操音乐的一些音乐具有固定的运动(舞蹈)。
·姿势名称(运动)
例如,可以设置指示诸如“再见”、“跳”、“走”和“跑”的运动的名称。
·人的姓名、性别、身高、体重和年龄
·成像环境
·衣服
·人数
可以有一个被摄体或多个被摄体。
·除人以外的动物、装置(机器人)等的名称
狗、猫等
不必将所有上述信息保存为元信息,并且可以保存任何一条信息,或者可以选择并保存任意的信息。此外,元信息可以以现有3D模型51的捕获图像63为单位来保存,或者可以以3D模型为单位来保存。当保存这样的元信息时,在将由成像装置11所捕获的运动图像的骨信息与存储在3D模型DB 33中的现有3模型的骨信息进行比较以搜索相似运动的情况下是有用的。即,可以以高精度和高速度来执行针对相似运动的搜索。
<3.新3D模型的运动图像数据生成处理>
接下来,将参照图5描述其中图像处理装置12生成与成像装置11所捕获的运动图像对应的新3D模型的运动图像数据的处理。注意,在图5的示例中,为了简单起见,将对被摄体进行成像的成像装置11的数目设置为1。
一个成像装置11对作为被摄体的人进行成像,并且将作为结果而获得的运动图像71M作为输入运动图像提供给图像处理装置12的图像获取单元31。如图5所示,从成像装置11输入至图像处理装置12的输入运动图像71M包括第一帧的捕获图像711,第二帧的捕获图像712以及第三帧的捕获图像713等。
特征量计算单元32针对每一帧计算指示作为包括在输入运动图像71M中的被摄体的人的运动的特征的特征量,并且将该特征量提供给相似性搜索单元34。更具体地,特征量计算单元32针对第一帧的捕获图像711、第二帧的捕获图像712、第三帧的捕获图像713等的每一帧来估计人的每个关节位置作为特征量。此外,当针对输入运动图像71M的每一帧估计关节位置作为特征量时,特征量计算单元32还一起计算可靠性作为指示估计结果的精度的信息。关节位置的可靠性的计算通常被用于例如检测不是人的姿势(骨骼)的运动。针对配置输入运动图像71M的每个捕获图像71,将由特征量计算单元32计算出的每个关节位置信息和人的可靠性提供给相似性搜索单元34。
相似性搜索单元34执行以下处理:在存储在3D模型DB 33中的一个或更多个现有3D模型51中搜索与出现在从特征量计算单元32所提供的输入运动图像71M中的人的运动相似的运动。
如参照图4所述的,现有3D模型51是运动图像数据,并且针对每一帧包括骨信息61、3D形状数据62以及由多个成像装置41所捕获的多个捕获图像63。因此,针对配置输入运动图像71M的每个捕获图像71的每一帧,相似性搜索单元34搜索(检测)具有最相似运动的现有3D模型51的预定帧(捕获图像63)。
在图5的示例中,作为相似性搜索单元34的搜索结果,搜索存储在3D模型DB 33中的现有3D模型51A的第五帧的骨信息61A5、3D形状数据62A5以及捕获图像63A5(63A5-1至63A5-27)作为与输入运动图像71M的第一帧的捕获图像711最相似的现有3D模型51的帧。在27个捕获图像63A5-1至63A5-27中,由第14成像装置41-14所捕获的捕获图像63A5-14是在与第一帧的捕获图像711的视点最相似的视点处捕获的捕获图像63A5
此外,搜索存储在3D模型DB 33中的现有3D模型51P的第21帧的骨信息61P21、3D形状数据62P21以及捕获图像63P21(63P21-1至63P21-27)作为与输入运动图像71M的第二帧的捕获图像712最相似的现有3D模型51的帧。在27个捕获图像63P21-1至63P21-27中,由第八成像装置41-8所捕获的捕获图像63P21-8是在与第二帧的捕获图像712的视点最相似的视点处捕获的捕获图像63P21
此外,搜索存储在3D模型DB 33中的现有3D模型51H的第七帧的骨信息61H7、3D形状数据62H7以及捕获图像63H71(63H7-1至63H7-27)作为与输入运动图像71M的第三帧的捕获图像713最相似的现有3D模型51的帧。在27个捕获图像63H7-1至63H7-27中,由第三成像装置41-3所捕获的捕获图像63H7-3是在与第三帧的捕获图像713的视点最相似的视点处捕获的捕获图像63H7
相似地,针对输入运动图像71M的第四帧以及后续帧的捕获图像71中的每一个,在存储在3D模型DB 33中的多个现有3D模型51中搜索具有最相似运动的帧(捕获图像63)
注意,在输入运动图像71M的人的运动重复执行相同运动的情况下,可以利用较少数目的现有3D模型51来生成新3D模型的运动图像数据。例如,在输入运动图像71M是诸如第一帧至第三帧的捕获图像711至713的重复的运动的情况下,新3D模型的运动图像数据可以仅利用现有3D模型51A、现有3D模型51P以及现有3D模型51H中的3个现有3D模型51来生成自由视点图像的运动图像。
如上所述,针对由较少数目的成像装置11捕获并且输入至图像处理装置12的输入运动图像71M的每一帧,搜索具有最相似运动的现有3D模型51的运动图像的帧。
当相对于输入运动图像71M的每一帧搜索的现有3D模型51的运动图像的每一帧以输入运动图像71M的帧的顺序来排列时,生成与由成像装置11所成像的被摄体的运动对应的新3D模型。换言之,从由较少数目的成像装置11所成像的输入运动图像71M生成具有与当使用27个成像装置11(成像装置41)执行成像时的精度相同的精度的3D模型的运动图像数据,并且将该运动图像数据作为新3D模型的运动图像数据提供给渲染单元35。所生成的新3D模型的运动图像数据的帧数与输入运动图像71M的帧数相同。
<4.运动图像生成处理的流程图>
接下来,参照图6的流程图,将描述运动图像生成/显示处理,该处理是在以下情况下的图1的图像处理系统1中的处理:处理被连续地执行使得由成像装置11对被摄体进行成像、生成新3D模型,并且在显示装置13上显示通过从预定虚拟视点观察所生成的新3D模型而获得的2D运动图像。
例如,在成像装置11或图像处理装置12被指示开始由成像装置11对被摄体(人)进行成像的情况下,开始该处理。
首先,在步骤S1中,3个成像装置11-1至11-3开始对作为被摄体的人进行成像。将由每个成像装置11所捕获的运动图像顺序地提供给图像处理装置12作为输入运动图像。
如果作为输入运动图像被提供给图像处理装置12的运动图像足够可以指定人的运动,因此,例如,其中用户通过手写创建人的运动的图像(运动图像或静止图像)、预先单独创建的现有运动的CG运动图像等可以用作输入。此外,可以将与在随后的步骤S3中计算为特征量的关节位置的信息对应的跟踪传感器的传感器信息用作输入。
在步骤S2中,图像处理装置12的图像获取单元31获取从每个成像装置11所提供的输入运动图像的运动图像数据,并且将该运动图像数据提供给特征量计算单元32。
在步骤S3中,特征量计算单元32通过使用从成像装置11-1至11-3中的每一个所提供的人的运动图像数据来针对每一帧计算指示人的运动的特征的特征量,并且将计算出的特征量提供给相似性搜索单元34。具体地,特征量计算单元32估计人的每个关节的关节位置作为输入运动图像的每一帧的特征量。在作为被摄体的人由多个成像装置11进行成像的情况下,可以通过使用匹配特征点的处理或三角测量原理来以高精度对关节位置进行估计。在存在一个成像装置11的情况下,可以通过允许用户输入(指定)高度等来指定人的大小并且估计关节位置。
在步骤S4中,特征量计算单元32计算作为每个关节的所估计关节位置的估计精度的可靠性,并且将该可靠性提供给相似性搜索单元34。
在步骤S5中,相似性搜索单元34执行生成新3D模型的运动图像数据的新3D模型数据生成处理。尽管稍后将参照图7来描述该处理的细节,但是针对配置输入运动图像71M的每个捕获图像71的每一帧,搜索具有与输入运动图像71M的人的运动最相似的运动的现有3D模型51的预定帧(捕获图像63),并且以与输入运动图像71M相同的帧顺序来排列该预定帧,由此生成新3D模型的运动图像数据。所生成的新3D模型的运动图像数据被提供给渲染单元35。在提供给渲染单元35的新3D模型的运动图像数据中,骨信息可以仍旧包括在头部等中,或者可以与一般3D模型数据相似地仅使用3D形状数据和纹理数据,因为骨信息对于渲染处理是不必要的。
在步骤S6中,渲染单元35执行自由视点图像显示处理,即通过使用从相似性搜索单元34所提供的新3D模型的运动图像数据来生成自由视点图像,并且使显示装置13显示该自由视点图像。尽管稍后将参照图8来描述自由视点图像显示处理的细节,但是通过从预定虚拟视点观察从相似性搜索单元34所提供的新3D模型而获得的2D运动图像被生成作为自由视点图像并且显示在显示装置13上。例如,从操作单元36指定虚拟视点。
这是运动图像生成处理的结束。在运动图像生成处理中,在步骤S4中计算出的估计精度低(可靠性小于或等于预定值)的情况下,可以停止步骤S5中以及之后的处理,或者在步骤S5中,可以针对每一帧来提取具有与输入运动图像71M的运动相似的运动的多个现有3D模型51,并且用户可以选择多个现有3D模型51中的预定的一个来确定具有相似运动的现有3D模型51。
图7是在图6的步骤S5中执行的新3D模型数据生成处理的详细流程图。
在该处理中,首先,在步骤S21中,相似性搜索单元34将用于识别从特征量计算单元32所提供的输入运动图像71M的帧编号的变量n设置成1,即初始值。
在步骤S22中,相似性搜索单元34选择输入运动图像71M的第n帧(捕获图像71n)。
在步骤S23中,相似性搜索单元34从3D模型DB 33中选择一个预定的现有3D模型51。
在步骤S24中,相似性搜索单元34随机地选择所选择的现有3D模型51的一个预定帧(捕获图像63)。
在步骤S25中,相似性搜索单元34确定输入运动图像71M的人是否与所选择的现有3D模型51的人相同。在将诸如人的姓名、性别、身高、体重和年龄的信息保存为元信息的情况下,可以通过使用该信息来确定输入运动图像71M的人是否与所选择的现有3D模型51的人相同。例如,在没有保存这种元信息的情况下,可以通过面部识别等进行确定。
在步骤S25中确定输入运动图像71M的人与所选择的现有3D模型51的人不同的情况下,处理进行至步骤S26,并且相似性搜索单元34将输入运动图像71M的人的特征量的比例调整成现有3D模型51的人的特征量。例如,输入运动图像71M的人的骨骼的整个长度被缩放以匹配现有3D模型51的人的骨骼的整个长度。除了关节位置之外,还可以对每个身体部位(诸如右臂、左臂、躯干、右脚、左脚、头部等)来执行缩放。
另一方面,在步骤S25中确定输入运动图像71M的人与所选择的现有3D模型51的人相同的情况下,跳过步骤S26的处理,并且处理进行至步骤S27。
在步骤S27中,相似性搜索单元34将输入运动图像71M的特征量与所选择的现有3D模型51的特征量进行比较,并且计算一致度。例如,相似性搜索单元34可以将作为骨信息的每个关节的关节位置进行比较,并且通过位置信息的差的总值的倒数等来计算一致度。
在步骤S28中,相似性搜索单元34确定计算出的一致度是否等于或大于预先设置的预定的阈值TH1。阈值TH1是与在图5中所描述的相似运动搜索中被确定为最相似的情况对应的一致度的值。
在步骤S28中确定所计算的一致度不等于或大于预定阈值TH1的情况下,处理进行至步骤S29,并且相似性搜索单元34搜索通过相对于当前选择的帧来在时间方向上移位而获得的帧。即,相似性搜索单元34基于在步骤S24中随机地选择的捕获图像63,选择通过在预定范围内在时间方向上移位而获得的多个帧(捕获图像71),并且计算特征量的一致度。
在步骤S30中,相似性搜索单元34确定在时间方向上移位时搜索的一个或更多个帧的一致度是否等于或大于预定阈值TH1。
在步骤S30中确定利用在时间方向上移位而搜索的一个或更多个帧的一致度不等于或大于预定阈值TH1的情况下,处理进行至步骤S31,并且相似性搜索单元34确定对当前选择的现有3D模型51的随机搜索是否已经执行了预定次数。
在步骤S31中确定当前选择的现有3D模型51没有被搜索预定次数的情况下,处理返回至步骤S24,并且重复步骤S24至S33。
另一方面,在步骤S31中确定当前选择的现有3D模型51已经被搜索了预定次数的情况下,处理行进至步骤S32,并且相似性搜索单元34确定是否已经选择了存储在3D模型DB33中的所有现有3D模型51。
在步骤S32中确定没有选择存储在3D模型DB 33中的所有现有3D模型51的情况下,处理返回至步骤S23,并且重复步骤S23至S33。
另一方面,在步骤S32中确定已经选择了存储在3D模型DB 33中的所有现有3D模型51的情况下,处理进行至步骤S34。
另一方面,在上述步骤S28中确定计算出的一致度大于或等于预定阈值TH1的情况下,处理进行至步骤S33,并且相似性搜索单元34将现有3D模型51的一致帧(摄像图像63)和一致度存储在内部存储器中。
总结在步骤S22至S33中执行的处理,针对所选择的输入运动图像71M的第n帧(捕获图像71),在从所选择的现有3D模型51中随机地选择的所选择的帧以及在时间方向上移位的帧中,搜索是否存在具有等于或大于预定阈值TH1的一致度的帧。在不存在具有等于或大于预定阈值TH1的一致度的帧的情况下,重复多次随机地选择和搜索所选择的现有3D模型51的帧的处理。在尽管对所选择的现有3D模型51进行了预定次数的随机选择但是不存在具有等于或大于预定阈值TH1的一致度的帧的情况下,相似性搜索单元34确定在所选择的现有3D模型51中不存在相似运动的帧,再次选择另一现有3D模型51,并且搜索3D模型DB 33的每个现有3D模型51,直到检测到具有等于或大于预定阈值TH1的一致度的帧。
在步骤S34中,相似性搜索单元34确定是否已经对输入运动图像71M的所有帧执行了搜索。
在步骤S34中确定没有对输入运动图像71M的所有帧执行搜索的情况下,处理行进行步骤S35,并且相似性搜索单元34将用于识别输入运动图像71M的帧编号的变量n加1,然后将处理返回至步骤S22。因此,针对输入运动图像71M的下一帧执行上述步骤S22至S34。
另一方面,在步骤S34中确定已经对输入运动图像71M的所有帧执行了搜索的情况下,处理进行至步骤S36,并且相似性搜索单元34通过将存储在内部存储器中的现有3D模型51的一致帧以与输入运动图像71M的帧顺序相同的帧顺序进行排列来生成新3D模型的运动图像数据,并且将该运动图像数据提供给渲染单元35。
与现有3D模型51的帧一起存储的一致度也被提供给渲染单元35。注意,一致度可以以身体部位或3D模型为单位,而不是以与输入运动图像71M的帧对应的现有3D模型51的帧为单位。
然后,新3D模型数据生成处理结束,并且处理返回至图6并且进行至下一步骤S6。
根据上述新3D模型数据生成处理,对输入运动图像71M的每一帧(捕获图像71)搜索具有等于或大于预定阈值TH1的一致度的现有3D模型51的帧(捕获图像63),并且将所搜索的现有3D模型51的每一帧和一致度作为新3D模型的运动图像数据提供给渲染单元35。
在上述新3D模型数据生成处理中,在不能比较作为骨信息的关节的关节位置以检测现有3D模型51的相似帧的情况下,可以添加以下处理,该处理将以多纹理格式存储的现有3D模型的二维纹理图像与输入运动图像71M的每一帧(捕获图像71)进行比较,以搜索现有3D模型51的相似帧(捕获图像63)。
在上述示例中,类似于图5等中所描述的处理,已经描述了在输入运动图像71M的图像中对作为被摄体的人的整个身体进行成像。然而,例如,在输入运动图像71M的人是身体的一部分诸如仅上身的情况下,通过仅与对应部分进行比较来同样搜索与现有3D模型51的人的一致度就足够了。
在上述示例中,已经描述了其中随机地选择和搜索现有3D模型51的一致帧的示例,但是可以从头帧顺序地选择和搜索帧,而不是随机地选择。然而,可以通过随机地选择和搜索以更高的速度来执行搜索。
此外,在上述示例中,仅将现有3D模型51的帧中的与输入运动图像71M的每一帧一致的一帧提供给渲染单元35,但是可以将包括一致帧之前和之后的帧的多个帧提供给渲染单元35。可以将一致帧之前和之后的帧用于稍后描述的图8中的自由视点图像的生成中的效果处理等。
图8是图6的步骤S6中所执行的自由视点图像显示处理的详细流程图。
在该处理中,首先,在步骤S51中,渲染单元35将用于识别新3D模型的帧编号的变量p设置成1,即初始值。
在步骤S52中,渲染单元35选择新3D模型的第p帧。
在步骤S53中,渲染单元35确定新3D模型的第p帧的一致度是否等于或大于预定阈值TH2。阈值TH2可以与图7的新3D模型数据生成处理的阈值TH1相同或不同。
在步骤S53中确定新3D模型的第p帧的一致度等于或大于预定阈值TH2的情况下,处理进行至步骤S54,并且渲染单元35通过使用新3D模型的第p帧来生成通过从预定虚拟视点观察新3D模型而获得的第p自由视点图像。通过将新3D模型透视投影到虚拟视点的观察范围上来生成第p自由视点图像。
另一方面,在步骤S53中确定新3D模型的第p帧的一致度小于预定阈值TH2的情况下,处理进行至步骤S55,并且渲染单元35将第p自由视点图像作为要由效果处理生成的图像存储在内部存储器中。
在步骤S54或S55之后,处理进行至步骤S56,并且渲染单元35确定是否已经选择了新3D模型的所有帧。
在步骤S56中确定没有选择新3D模型的所有帧的情况下,处理进行至步骤S57,并且渲染单元35将用于识别新3D模型的帧编号的变量p增加1,然后将处理返回至步骤S52。因此,针对新3D模型的下一帧执行上述步骤S52至S56的处理。
另一方面,在步骤S56中确定已经选择了新3D模型的所有帧的情况下,处理进行至步骤S58,并且通过效果处理(加工处理),渲染单元35生成还未针对其生成自由视点图像的帧。即,在步骤S58中生成作为要由步骤S55中的效果处理生成的图像的帧的自由视点图像。
由步骤S58中的效果处理所生成的自由视点图像是一致度低于阈值TH2的图像。此处,假设第px帧是具有低一致度的帧。
例如,渲染单元35通过将第px帧之前和之后的第(px-1)帧和第(px+1)帧的自由视点图像进行组合来生成第px帧的自由视点图像。替选地,使用新3D模型的第px帧所生成的第px帧的自由视点图像、第(px-1)帧的自由视点图像以及第(px+1)帧的自由视点图像可以分别以70%、15%和15%的比率组合。
替选地,前一第(px-1)帧的自由视点图像可以原样用作第px帧的自由视点图像。
替选地,在图7的新3D模型数据生成处理中,例如,在相似性搜索单元34向渲染单元35提供包括现有3D模型51的一致帧之前和之后的帧的多个帧(例如,三个帧)的情况下,在第(px-1)现有3D模型51生成的三个帧的自由视点图像中,第(px-1)帧在时间方向上的后一帧可以用作第px帧的自由视点图像。
在以身体部位为单位设置一致度的情况下,也可以以身体部位为单位来执行效果处理以生成自由视点图像。
在步骤S59中,渲染单元35使显示装置13显示通过从预定虚拟视点观察新3D模型而获得的运动图像。即,渲染单元35使显示装置13基于在上述步骤S51至S58中生成的新3D模型来从第一帧按顺序显示自由视点图像的运动图像。
渲染单元35将新3D模型的帧的一致度中具有最大一致度的帧确定为关键帧,并且执行控制以不对关键帧的新3D模型执行效果处理,从而可以生成具有高精度的自由视点图像。
然后,作为图6中的步骤S6的自由视点图像显示处理结束,并且整个运动图像生成处理也结束。
在图6的流程图中、在图1的图像处理系统1中,已经描述了一系列处理,使得处理被连续地执行以由成像装置11对被摄体进行成像,生成新3D模型,并且在显示装置13上显示通过从预定虚拟视点观察所生成的新3D模型而获得的2D运动图像。然而,该处理可以根据需要部分地以分开的进程为单位来执行。例如,可以将处理划分成:由成像装置11对被摄体进行成像并且将运动图像71M作为输入运动图像输入至图像处理装置12的处理、生成与输入运动图像71M相似的新3D模型的处理、生成并且显示通过从预定虚拟视点观察新3D模型而获得的2D运动图像的处理等,以在任意定时执行。
根据上述图像处理系统1的运动图像生成处理,通过使用由较少数目的成像装置11所捕获的运动图像71M作为输入运动图像,可以生成具有与存储在3D模型DB 33中的现有3D模型相同数目的成像进行成像的情况下相同的高精度的3D模型(新3D模型),并且此外,可以生成并且显示通过从自由视点观察3D模型的自由视点图像而获得的运动图像(2D运动图像)。即,具有高精度的自由视点图像可以由较少数目的成像装置11以简单的成像来生成和显示。
图像处理装置12的3D模型DB 33存储骨信息作为现有3D模型的运动图像数据(3D模型数据)。相似性搜索单元34将由特征量计算单元32从输入运动图像71M的每一帧中被计算为特征量的人的关节位置与现有3D模型的骨信息进行比较,从而可以以高精度和高速度搜索具有与作为被摄体的人的运动(姿势)相似的运动(姿势)的现有3D模型51的帧。骨信息是可以作为文本存储的信息,并且具有比纹理数据小的数据大小。因此,根据图像处理系统1,通过保存骨信息作为3D模型的运动图像数据(3D模型数据),可以容易地搜索与作为被摄体的人的运动(姿势)相似的3D模型数据。
此外,通过使用骨信息以输入运动图像71M的帧为单位搜索与帧的人的运动相似的现有3D模型51的帧,并且在时间方向上平滑地连接,从而可以生成自然的运动图像。
通常,与诸如其中用于感测用户的运动的传感器被安装在用户上并且由CG或者实景真人视频中的人创建的人物再现与感测到的运动相似的运动的系统例如传统运动捕获系统相比,防止了由于视频上的人(人物)的骨骼与其上安装传感器的人的骨骼之间的差异而导致的运动变得不自然,不需要安装传感器。
计算了输入运动图像71M的运动(帧)与现有3D模型51之间的一致度,并且在一致度低于预定阈值TH2的情况下,由效果处理生成自由视点图像,从而可以生成具有更自然运动的运动图像。
针对具有低于预定阈值TH2的一致度的帧,原则上,自由视点图像是通过对由新3D模型的渲染处理所生成的之前和之后的自由视点图像进行效果处理而生成的。然而,在帧之间的连接极度不自然的情况下,可以生成通过对之前和之后的新3D模型进行组合而获得的组合3D模型,并且可以根据所组合的3D模型来生成自由视点图像。
注意,在上述实施方式中,已经描述了其中通过使用运动图像作为输入来生成自由视点图像的运动图像的示例。然而,由于以帧为单位搜索现有3D模型51的相似帧,所以即使当输的不是运动图像而是一个静止图像时,也可以搜索现有3D模型51的相似帧。即,通过使用根据本技术的骨信息来搜索具有相似运动的图像的处理不仅可以应用于运动图像,而且可以应用于静止图像。
此外,在上述图像处理系统1的运动图像的生成中,将人的整个身体设置为相似运动的搜索目标,但是搜索目标可以是人的身体部分的一部分,例如脚或手的运动以及面部表情。在这种情况下,即使在整个身体被包括在输入运动图像71M中的情况下,也可以通过指定期望的身体部位来仅搜索该期望的身体部位。当然,这同样适用于在输入运动图像71M中仅显示身体部位的一部分的情况。
<5.高帧速率转换的示例>
在上述实施方式中,以与输入运动图像71M的帧数相同的帧数来生成自由视点图像的运动图像。
在存储在3D模型DB 33中的现有3D模型51的帧速率高于(高帧速率)输入运动图像71M的帧速率的情况下,也可以生成并且显示具有高于输入运动图像71M的帧速率的高帧速率的自由视点图像的运动图像。
图9示出了其中生成并且显示具有高于输入运动图像的帧速率的帧速率的自由视点图像的运动图像的示例。
在图9的示例中,输入运动图像的帧速率是60fps,并且搜索现有3D模型51E的第五帧的由第七成像装置41-7所捕获的捕获图像63E5-7作为与时间t=1处的输入运动图像的捕获图像1011相似的现有3D模型51的帧。
此外,搜索同一现有3D模型51E的第七帧的由第七成像装置41-7所捕获的捕获图像63E7-7作为与时间t=2处的输入运动图像的捕获图像1012相似的现有3D模型51的帧。此处,现有3D模型51E是具有120fps的帧速率的3D模型数据。
在这种情况下,图像处理装置12可以将现有3D模型51E的第五帧用于时间t=1处的新3D模型111的帧1111,并且可以将现有3D模型51E的第七帧用于时间t=2处的新3D模型111的帧1112
此外,图像处理装置12可以生成由第七成像装置41-7在120fps的现有3D模型51E的第五帧与第七帧之间所捕获的第六帧的捕获图像63E6-7作为在时间t=1与t=2之间的时间t=1M处的新3D模型111的帧1111M,并且生成和显示高帧速率的自由视点图像的运动图像。
<6.图像处理系统的第二实施方式>
图10是示出应用本技术的图像处理系统的第二实施方式的配置示例的框图。
在图10的第二实施方式中,与图1所示的第一实施方式的部分对应的部分用相同的附图标记来表示,并且将适当地省略其描述。
根据第二实施方式的图像处理系统1包括多个成像装置11(11-1至11-3)、图像处理装置12、服务器装置141以及显示装置13。
图像处理装置12包括图像获取单元31、特征量计算单元32、渲染单元35、操作单元36以及通信单元151。服务器装置141包括3D模型DB33、相似性搜索单元34以及通信单元152。
当将根据第二实施方式的图像处理系统1与图1中的第一实施方式进行比较时,将图像处理装置12的一些功能移动至服务器装置141,并且在图像处理装置12与服务器装置141之间交换预定信息。
图像处理装置12的通信单元151经由预定网络与服务器装置141的通信单元152进行通信。服务器装置141的通信单元152经由预定网络与图像处理装置12的通信单元151进行通信。图像处理装置12与服务器装置141之间的网络包括,例如,因特网、电话线网络、卫星通信网络、包括以太网(注册商标)的各种局域网(LAN)、广域网(WAN)、诸如因特网协议虚拟专用网络(IP-VPN)的专用线路网络等。
更具体地,图像处理装置12的通信单元151将作为由特征量计算单元32计算出的特征量的骨信息发送至服务器装置141的通信单元152,接收从服务器装置141的通信单元152发送的新3D模型的运动图像数据(3D模型数据),并且将运动图像数据提供给渲染单元35。
服务器装置141的通信单元152接收从图像处理装置12的通信单元151发送的作为特征量的骨信息,并且将骨信息提供给相似性搜索单元34。相似性搜索单元34在3D模型DB33中搜索与图像处理装置12计算出的骨信息相似的运动,并且生成新3D模型的运动图像数据。然后,通信单元152将由相似性搜索单元34所生成的新3D模型的运动图像数据(3D模型数据)发送至图像处理装置12的通信单元151。通信单元152用作将所搜索到的新3D模型的运动图像数据输出至图像处理装置12的输出单元。
如上所述,由第一实施方式中的图像处理装置12所执行的处理的一部分可以被配置成由诸如服务器装置141的另一装置来执行。
注意,图像处理装置12和服务器装置141所共享的功能不限于上述示例,并且可以任意确定。
例如,作为输入至相似性搜索单元34的特征量的骨信息可以由如图10的配置中的另一装置(图像处理装置12)来生成,或者如图11所示,服务器装置141还可以包括特征量计算单元32,并且可以被配置成将从运动图像数据所生成的骨信息输入至其自己的装置中。在这种情况下,图像处理装置12执行获取由三个成像装置11-1至11-3所捕获的运动图像数据并且将该数据发送至服务器装置141的处理,以及获取由服务器装置141所生成的新3D模型的运动图像数据(3D模型数据)、从自由视点生成运动图像(2D运动图像)并且在显示装置13上显示运动图像的处理。服务器装置141基于对输入运动图像的特征量的计算和计算出的特征量来搜索相似的现有3D模型51,并且生成与输入运动图像对应的新3D模型。
在经由网络发送新3D模型的3D模型数据的情况下,3D模型数据可以通过诸如AVC方法或HEVC方法的编码方法进行编码并且被发送。然而,针对诸如关键帧的具有大的一致度的帧,优选地执行发送,使得避免压缩率增加并且尽可能地抑制压缩。此外,优选地执行发送,使得关键帧是已知的。在渲染单元35生成自由视点图像(渲染处理)的情况下,通过增加关键帧的权重来生成自由视点图像,从而可以以高精度生成和显示自由视点图像。
当经由网络发送新3D模型的3D模型数据时,在数据大小较大并且负载大的情况下,可以仅将新3D模型的3D模型数据中的骨信息发送至图像处理装置12,并且可以通过使用预先存储在其中的输入运动图像或纹理,基于骨信息来生成并且显示自由视点图像。在仅发送骨信息的情况下,可以发送运动图像的所有帧的骨信息,或者可以发送均匀或随机采样的一部分帧的骨信息。
<7.图像处理系统的第三实施方式>
图12是示出应用本技术的图像处理系统的第三实施方式的配置示例的框图。
在图12的第三实施方式中,与图11所示的第二实施方式的修改例部分对应的部分由相同的附图标记来表示,并且将适当地省略其描述。
在根据第三实施方式的图像处理系统1中,一个成像装置11和一个显示装置13被合并作为图像处理装置12的一部分,并且图像处理系统由图像处理装置12和服务器装置141来配置。此外,不在图像处理装置12中而是在服务器装置141中提供渲染单元35,并且在图像处理装置12中新提供了显示控制单元161。
图像处理装置12将由成像装置11所捕获的运动图像数据发送至服务器装置141。此外,由用户在操作单元36中所指定的虚拟视点也从图像处理装置12发送至服务器装置141。将由服务器装置14所接收的虚拟视点提供给渲染单元35。
渲染单元35生成通过从图像处理装置12所发送的虚拟视点来观察由相似性搜索单元34所生成的新3D模型而获得的2D运动图像,并且经由通信单元152将2D运动图像发送至图像处理装置12。
图像处理装置12的显示控制单元161使显示装置13显示经由通信单元151获取的2D运动图像。
如果具有这种配置的图像处理装置12能够执行由成像装置11对被摄体进行成像并且显示由服务器装置141所生成的2D运动图像的处理就足够了,并且图像处理装置能够通过例如用户的智能电话等容易地实现。
<8.修改例>
在上述实施方式中,已经描述了将被摄体设置为人的示例,并且生成和显示与其中人执行预定运动的运动图像相似的新3D模型。然而,被摄体不限于人(人类)。例如,被摄体可以是诸如猫或狗的动物,或者可以是诸如棒球棒或高尔夫球杆的物品。可以通过使用诸如球棒或高尔夫球杆的挥杆轨迹的运动图像作为输入运动图像来生成和显示新3D模型。
在上述实施方式中,计算输入运动图像的运动(帧)与现有3D模型之间的一致度,并且将该一致度用作生成自由视点图像时效果处理的必要性的参考。此外,输入运动图像的运动与现有3D模型之间的一致度可以原样作为数值输出,并且渲染(可视化)给用户。例如,在输入运动图像是用户的运动并且现有3D模型的运动是专业选手的运动的情况下,输入运动图像的用户的运动与专业选手的运动匹配的程度被量化并且输出,这对于运动分析等是有用的。
<9.计算机配置示例>
上述一系列处理可以由硬件或软件来执行。在一系列处理由软件执行的情况下,配置软件的程序被安装在计算机中。此处,计算机包括例如并入专用硬件中的微型计算机、能够通过安装各种程序来执行各种功能的通用个人计算机等。
图13是示出通过程序执行上述一系列处理的计算机硬件的配置示例的框图。
在该计算机中,中央处理单元(CPU)201、只读存储器(ROM)202以及随机存取存储器(RAM)203通过总线204相互连接。
此外,输入/输出接口205连接到总线204。输入单元206、输出单元207、存储单元208、通信单元209以及驱动器210连接到输入/输出接口205。
输入单元206包括键盘、鼠标、麦克风、触摸面板、输入端子等。输出单元207包括显示器、扬声器、输出端子等。存储单元208包括硬盘、RAM盘、非易失性存储器等。通信单元209包括网络接口等。驱动器210驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质211。
在如上所述配置的计算机中,例如以CPU 201经由输入/输出接口205和总线204将存储在存储单元208中的程序加载至RAM 203中并且执行该程序的方式来执行上述一系列处理。RAM 203还适当地存储CPU 201执行各种处理所需的数据等。
例如,由计算机(CPU 201)执行的程序可以通过记录在可移除记录介质211中作为封装介质等来提供。此外,可以经由诸如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。
在计算机中,通过将可移除记录介质211安装至驱动器210,可以经由输入/输出接口205将程序安装在存储单元208中。此外,程序可以由通信单元209经由有线或无线传输介质接收并被安装在存储单元208中。此外,程序可以预先被安装在ROM 202或存储单元208中。
注意,在本说明书中,在流程图中描述的步骤不仅可以根据所描述的顺序按时间顺序来执行,而且可以并行地或者在诸如进行调用时的必要的定时处执行,不必按时间顺序来处理。
在本说明书中,系统是指一组多个部件(装置,模块(部分)等),并且所有部件是否在同一壳体中无关紧要。因此,容纳在分开的壳体中并且通过网络连接的多个装置以及其中多个模块容纳在一个壳体中的一个装置两者都是系统。
本技术的实施方式不限于上述实施方式,并且在不脱离本技术的要旨的情况下可以进行各种修改。
例如,可以采用其中组合上述多个实施方式中的全部或一些的模式。
例如,本技术可以被配置为云计算,其中,一个功能由多个装置经由网络共享并且被联合地处理。
此外,上述流程图中所描述的每个步骤可以由一个装置执行,或者由多个装置共享和执行。
此外,在一个步骤包括多个处理的情况下,包括在一个步骤中的多个处理可以由一个装置执行,或者由多个装置共享和执行。
注意,在本说明书中描述的效果仅是示例而非限制,并且可以提供除了在本说明书中描述的效果之外的效果。
注意,本技术可以具有以下配置。
(1)
一种图像处理装置,包括:
存储单元,其存储多个3D模型以及分别与所述多个3D模型对应的多个3D模型特征量;
搜索单元,其基于所输入的被摄体的特征量以及存储在所述存储单元中的3D模型特征量来搜索具有与所述被摄体的特征量相似的特征量的3D模型;以及
输出单元,其输出由所述搜索单元搜索到的所述3D模型。
(2)
根据(1)所述的图像处理装置,其中,
所述被摄体的特征量是所述被摄体的骨信息,以及
所述搜索单元将所述被摄体的骨信息与存储在所述存储单元中的3D模型的骨信息进行比较,以搜索具有与所述被摄体的骨信息相似的骨信息的所述3D模型。
(3)
根据(1)或(2)所述的图像处理装置,其中,
所述存储单元存储所述3D模型的运动图像,并且
所述搜索单元将所述被摄体的特征量与从所述存储单元中随机地选择的3D模型的帧的对应特征量进行比较,并且在一致度低于预定阈值的情况下,将通过相对于所选择的帧偏移时间方向而获得的帧的对应特征量与所述被摄体的特征量进行比较。
(4)
根据(1)至(3)中任一项所述的图像处理装置,其中,
所述搜索单元在比较所述特征量之前判定所述被摄体的人和存储在所述存储单元中的所述3D模型的人是否相同。
(5)
根据(1)至(4)中任一项所述的图像处理装置,还包括:
特征量计算单元,其根据通过对所述被摄体进行成像而获得的图像来计算所述被摄体的特征量,其中,
所述搜索单元获取由所述特征量计算单元计算出的所述被摄体的特征量。
(6)
根据(5)所述的图像处理装置,其中,
所述特征量计算单元根据通过利用多个成像装置对所述被摄体进行成像而获得的多个图像来计算所述被摄体的特征量。
(7)
根据(5)所述的图像处理装置,其中,
所述特征量计算单元根据通过利用一个成像装置对所述被摄体进行成像而获得的一个图像来计算所述被摄体的特征量。
(8)
根据(2)至(4)中任一项所述的图像处理装置,其中,
所述被摄体的骨信息是由跟踪传感器所获取的信息。
(9)
根据(2)至(8)中任一项所述的图像处理装置,其中,
所述存储单元存储所述3D模型的骨信息作为所述3D模型的元信息。
(10)
根据(9)所述的图像处理装置,其中,
所述存储单元存储所述3D模型的运动图像,并且针对每一帧存储骨信息、3D形状数据和纹理数据。
(11)
根据(10)所述的图像处理装置,其中,
所述纹理数据包括来自不同视点的多个纹理图像。
(12)
根据(1)至(11)中任一项所述的图像处理装置,其中,
所述搜索单元至少输出所述搜索的3D模型的3D形状数据或纹理数据。
(13)
根据(1)至(12)中任一项所述的图像处理装置,还包括:
渲染单元,其生成通过从预定虚拟视点观察由所述搜索单元搜索到的3D模型而获得的自由视点图像。
(14)
根据(13)所述的图像处理装置,其中,
所述渲染单元生成通过从预定虚拟视点观察所述3D模型而获得的自由视点图像的运动图像。
(15)
根据(13)或(14)所述的图像处理装置,其中,
所述搜索单元还输出搜索到的3D模型的一致度,以及
所述渲染单元在所述一致度低于预定阈值的情况下通过效果处理来生成所述自由视点图像。
(16)
根据(13)至(15)中任一项所述的图像处理装置,其中,
所述搜索单元将输入运动图像的被摄体的特征量与存储在所述存储单元中的3D模型的运动图像的对应特征量进行比较,以及
所述渲染单元生成具有与所述输入运动图像的帧数相同的帧数的所述自由视点图像的运动图像。
(17)
根据(13)至(15)中任一项所述的图像处理装置,其中,
所述搜索单元将输入运动图像的所述被摄体的特征量与存储在所述存储单元中的3D模型的运动图像的对应特征量进行比较,以及
所述渲染单元生成具有高于所述输入运动图像的帧速率的所述自由视点图像的运动图像。
(18)
一种图像处理装置,包括:
渲染单元,其生成通过从预定虚拟视点观察3D模型而获得的自由视点图像,所述3D模型基于被摄体的特征量和所存储的3D模型的特征量而被搜索为具有与所述被摄体的特征量相似的特征量。
(19)
一种运动图像数据生成方法,包括:
生成通过从预定虚拟视点观察3D模型的运动图像而获得的自由视点图像的运动图像,所述3D模型基于输入运动图像的被摄体的特征量和所存储的3D模型的运动图像的特征量而被搜索为具有与所述被摄体的特征量相似的特征量。
附图标记列表
1 图像处理系统
11 成像装置
12 图像处理装置
13 显示装置
31 图像获取单元
32 特征量计算单元
33 3D模型DB34 相似性搜索单元
35 渲染单元
36 操作单元
141 服务器装置
201 CPU
202 ROM
203 RAM
206 输入单元
207 输出单元
208 存储单元
209 通信单元
210 驱动器

Claims (19)

1.一种图像处理装置,包括:
存储单元,其存储多个3D模型以及分别与所述多个3D模型对应的多个3D模型特征量;
搜索单元,其基于所输入的被摄体的特征量以及存储在所述存储单元中的3D模型特征量来搜索具有与所述被摄体的特征量相似的特征量的3D模型;以及
输出单元,其输出由所述搜索单元搜索到的所述3D模型。
2.根据权利要求1所述的图像处理装置,其中,
所述被摄体的特征量是所述被摄体的骨信息,以及
所述搜索单元将所述被摄体的骨信息与存储在所述存储单元中的3D模型的骨信息进行比较,以搜索具有与所述被摄体的骨信息相似的骨信息的所述3D模型。
3.根据权利要求1所述的图像处理装置,其中,
所述存储单元存储所述3D模型的运动图像,并且
所述搜索单元将所述被摄体的特征量与从所述存储单元中随机地选择的3D模型的帧的对应特征量进行比较,并且在一致度低于预定阈值的情况下,将通过相对于所选择的帧偏移时间方向而获得的帧的对应特征量与所述被摄体的特征量进行比较。
4.根据权利要求1所述的图像处理装置,其中,
所述搜索单元在比较所述特征量之前判定所述被摄体的人和存储在所述存储单元中的所述3D模型的人是否相同。
5.根据权利要求1所述的图像处理装置,还包括:
特征量计算单元,其根据通过对所述被摄体进行成像而获得的图像来计算所述被摄体的特征量,其中,
所述搜索单元获取由所述特征量计算单元计算出的所述被摄体的特征量。
6.根据权利要求5所述的图像处理装置,其中,
所述特征量计算单元根据通过利用多个成像装置对所述被摄体进行成像而获得的多个图像来计算所述被摄体的特征量。
7.根据权利要求5所述的图像处理装置,其中,
所述特征量计算单元根据通过利用一个成像装置对所述被摄体进行成像而获得的一个图像来计算所述被摄体的特征量。
8.根据权利要求2所述的图像处理装置,其中,
所述被摄体的骨信息是由跟踪传感器所获取的信息。
9.根据权利要求2所述的图像处理装置,其中,
所述存储单元存储所述3D模型的骨信息作为所述3D模型的元信息。
10.根据权利要求9所述的图像处理装置,其中,
所述存储单元存储所述3D模型的运动图像,并且针对每一帧存储骨信息、3D形状数据和纹理数据。
11.根据权利要求10所述的图像处理装置,其中,
所述纹理数据包括不同视点的多个纹理图像。
12.根据权利要求1所述的图像处理装置,其中,
所述搜索单元至少输出搜索到的3D模型的3D形状数据和纹理数据。
13.根据权利要求1所述的图像处理装置,还包括:
渲染单元,其生成通过从预定虚拟视点观察由所述搜索单元搜索到的3D模型而获得的自由视点图像。
14.根据权利要求13所述的图像处理装置,其中,
所述渲染单元生成通过从预定虚拟视点观察所述3D模型而获得的自由视点图像的运动图像。
15.根据权利要求13所述的图像处理装置,其中,
所述搜索单元还输出搜索到的3D模型的一致度,以及
所述渲染单元在所述一致度低于预定阈值的情况下通过效果处理来生成所述自由视点图像。
16.根据权利要求13所述的图像处理装置,其中,
所述搜索单元将输入运动图像的被摄体的特征量与存储在所述存储单元中的3D模型的运动图像的对应特征量进行比较,以及
所述渲染单元生成具有与所述输入运动图像的帧数相同的帧数的所述自由视点图像的运动图像。
17.根据权利要求13所述的图像处理装置,其中,
所述搜索单元将输入运动图像的所述被摄体的特征量与存储在所述存储单元中的3D模型的运动图像的对应特征量进行比较,以及
所述渲染单元生成具有高于所述输入运动图像的帧速率的所述自由视点图像的运动图像。
18.一种图像处理装置,包括:
渲染单元,其生成通过从预定虚拟视点观察3D模型而获得的自由视点图像,所述3D模型基于被摄体的特征量和所存储的3D模型的特征量而被搜索为具有与所述被摄体的特征量相似的特征量。
19.一种运动图像数据生成方法,包括:
生成通过从预定虚拟视点观察3D模型的运动图像而获得的自由视点图像的运动图像,所述3D模型基于输入运动图像的被摄体的特征量和所存储的3D模型的运动图像的特征量而被搜索为具有与所述被摄体的特征量相似的特征量。
CN202180020276.4A 2020-03-17 2021-03-03 图像处理装置和运动图像数据生成方法 Pending CN115280371A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020046666 2020-03-17
JP2020-046666 2020-03-17
PCT/JP2021/008046 WO2021187093A1 (ja) 2020-03-17 2021-03-03 画像処理装置、および、動画像データ生成方法

Publications (1)

Publication Number Publication Date
CN115280371A true CN115280371A (zh) 2022-11-01

Family

ID=77770865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180020276.4A Pending CN115280371A (zh) 2020-03-17 2021-03-03 图像处理装置和运动图像数据生成方法

Country Status (5)

Country Link
US (1) US20230068731A1 (zh)
EP (1) EP4123588A4 (zh)
JP (1) JPWO2021187093A1 (zh)
CN (1) CN115280371A (zh)
WO (1) WO2021187093A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3711038B2 (ja) * 2001-06-15 2005-10-26 バブコック日立株式会社 頭蓋骨スーパーインポーズ方法と装置
JP5795250B2 (ja) * 2011-12-08 2015-10-14 Kddi株式会社 被写体姿勢推定装置および映像描画装置
BR112018009070A8 (pt) 2015-11-11 2019-02-26 Sony Corp aparelhos de codificação e de decodificação, e, métodos para codificação por um aparelho de codificação e para decodificação por um aparelho de decodificação.
JP7035401B2 (ja) * 2017-09-15 2022-03-15 ソニーグループ株式会社 画像処理装置およびファイル生成装置
JP6433559B1 (ja) * 2017-09-19 2018-12-05 キヤノン株式会社 提供装置および提供方法、プログラム

Also Published As

Publication number Publication date
EP4123588A4 (en) 2023-06-07
JPWO2021187093A1 (zh) 2021-09-23
WO2021187093A1 (ja) 2021-09-23
US20230068731A1 (en) 2023-03-02
EP4123588A1 (en) 2023-01-25

Similar Documents

Publication Publication Date Title
US11967101B2 (en) Method and system for obtaining joint positions, and method and system for motion capture
JP6116784B1 (ja) 3次元モデル生成システム、3次元モデル生成方法、及びプログラム
JP7200439B1 (ja) アバター表示装置、アバター生成装置及びプログラム
CN108564643B (zh) 基于ue引擎的表演捕捉系统
WO2023109753A1 (zh) 虚拟角色的动画生成方法及装置、存储介质、终端
CN107930048B (zh) 一种太空体感识别运动分析系统及运动分析方法
JP5795250B2 (ja) 被写体姿勢推定装置および映像描画装置
JP2024519940A (ja) データ処理方法、装置、データ処理システム、電子機器及びコンピュータプログラム
JP2014085933A (ja) 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
KR20230078777A (ko) 3차원 재구성 방법, 장치와 시스템, 매체 및 컴퓨터 기기
JP2019056957A (ja) 情報処理装置、情報処理方法、コンピュータプログラム、及び記憶媒体
CN110415322B (zh) 虚拟对象模型的动作指令的生成方法和装置
Kowalski et al. Holoface: Augmenting human-to-human interactions on hololens
KR20220063847A (ko) 대상자의 보행 패턴을 식별하는 방법 및 이를 수행하는 전자 장치
CN115280371A (zh) 图像处理装置和运动图像数据生成方法
CN116248920A (zh) 虚拟角色直播处理方法、装置及系统
Kim et al. Realtime performance animation using sparse 3D motion sensors
CN116485953A (zh) 数据处理方法、装置、设备和可读存储介质
CN111931725B (zh) 人体动作识别方法、设备及存储介质
CA3204613A1 (en) Volumetric video from an image source
EP4191541A1 (en) Information processing device and information processing method
KR20210076559A (ko) 인체 모델의 학습 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램
JP2024501161A (ja) 画像または映像におけるオブジェクトの3次元場所特定
JP6547807B2 (ja) 画像生成装置、画像生成方法及びプログラム
WO2023185241A1 (zh) 数据处理方法、装置、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination