CN115515487A - 基于使用多视图图像的3d人体姿势估计的基于视觉的康复训练系统 - Google Patents

基于使用多视图图像的3d人体姿势估计的基于视觉的康复训练系统 Download PDF

Info

Publication number
CN115515487A
CN115515487A CN202180033799.2A CN202180033799A CN115515487A CN 115515487 A CN115515487 A CN 115515487A CN 202180033799 A CN202180033799 A CN 202180033799A CN 115515487 A CN115515487 A CN 115515487A
Authority
CN
China
Prior art keywords
person
camera
perspective
motion
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033799.2A
Other languages
English (en)
Inventor
林斯姚
唐晖
黄超
韩连漪
霍志敏
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115515487A publication Critical patent/CN115515487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/003Repetitive work cycles; Sequence of movements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1127Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using markers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/45For evaluating or diagnosing the musculoskeletal system or teeth
    • A61B5/4528Joints
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/7405Details of notification to user or communication with user or patient ; user input means using sound
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • A61B5/744Displaying an avatar, e.g. an animated cartoon character
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2505/00Evaluating, monitoring or diagnosing in the context of a particular type of medical care
    • A61B2505/09Rehabilitation or training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Physiology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • Rheumatology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

提供了用于无标记动作捕获的系统和方法。一种方法包括:获取人的身体的多个视频;在不依赖于所述人身上的任何标记的情况下,基于所述多个视频来估计所述人的三维(3D)姿势,所述估计包括获取一套3D身体关节;获取与在时间段期间内所述人的动作相对应的所述套的3D身体关节的运动的动画;对所述套的3D身体关节的所述动作进行分析;以及通过显示器或扬声器,基于所述分析来指示所述分析的康复评估结果或康复训练建议。

Description

基于使用多视图图像的3D人体姿势估计的基于视觉的康复训 练系统
相关申请的交叉引用
本申请要求于2020年11月12日提交的美国申请第17/096,256号的优先权,该申请的全部内容通过引用并入本文。
技术领域
本公开的实施例针对康复系统,更具体地针对无标记动作捕获系统。
背景技术
传统的康复系统要求患者在身上佩戴特定的传感器。然而,这种基于传感器的系统给患者带来不便。最近的一些工作通过深度传感器估计手部姿势以进行手恢复训练。然而,在系统中使用特定的传感器限制了推广。此外,传统的设备通常价格昂贵。
发明内容
本公开实施例可以解决上述问题和/或其他问题。
本公开实施例可以提供一种使用基于视觉技术的无标记动作捕获系统,该系统可以基于由低成本商用相机(例如,三个相机)捕获的多视角图像来估计三维(3D)人体姿势。
本公开实施例可以提供用于例如运动障碍的康复训练的多视图3D人体姿势估计。基于由低成本相机捕获的多视角图像,本公开实施例的深度学习模型可以计算精确的3D人体姿势。本公开实施例不仅可以得到3D身体关节,而且还可以提供患者动作的评估结果和康复建议。相应地,在该过程中无需医生的协助即可实现康复训练评估和指导。
本公开实施例可以包括用于表示动画的模块,使得患者监测他们的动作和姿势并改进他们的训练。此外,本公开实施例可以包括评价指标,并且可以提供建议以帮助患者改进其康复。根据实施例,3D人体姿势估计技术可以促进康复训练,这在现有技术中尚未实现。
本公开实施例可以提供一种用于康复训练的基于视觉的无标记的动作捕获系统,该系统避免了传统动作捕获系统的限制并且尚未在现有技术中实现。本公开实施例可以包括视频和语音指导的组合,作为非接触式康复训练评估和指导的一部分。本公开实施例可以基于利用各种视角中的多视角图像的深度学习技术来估计3D人体姿势。多视图图像的信息可以辅助深度学习技术以准确地推断3D人体姿势。
根据一个或多个实施例,提供了一种由至少一个处理器执行的方法。所述方法包括:获取人的身体的多个视频,所述多个视频包括在一个时间段期间内由第一摄像机捕获的第一视角的人的第一视频,以及在所述时间段期间内由第二摄像机捕获的不同于所述第一视角的第二视角的人的第二视频;在不依赖于人身上的任何标记的情况下,基于所述多个视频来估计该人的三维(3D)姿势,所述估计包括得到一套3D身体关节;获取与所述时间段期间内所述人的动作相对应的所述套的3D身体关节的动作的动画;对所述套的3D身体关节的所述动作执行分析;以及通过显示器或扬声器,基于所述分析指示所述分析的康复评估结果或康复训练建议。
根据一个实施例,所述执行分析包括:基于所述套的3D身体关节的所述动作计算至少一个康复评估指标。
根据一个实施例,所述执行所述分析进一步包括:基于来自用户的输入来选择要计算的至少一个康复评估指标。
根据一个实施例,所述方法进一步包括:显示所述套的3D身体关节的所述动作的所述动画。
根据一个实施例,实时显示在所述时间段期间内所述人的所述动作所对应的所述套的3D身体关节的所述动作的所述动画。
根据一个实施例,所述动画包括与所述套的3D身体关节相结合的所述人的身体的图像。
根据一个实施例,所述得到的多个视频进一步包括:在所述时间段期间内由第三摄像机捕获的与所述第一视角和所述第二视角不同的第三视角的所述人的第三视频。
根据一个实施例,所述第一视角是所述人的左侧视图,所述第二视角是所述人的前视图,以及所述第三视角是所述人的右侧视图。
根据一个实施例,所述第二摄像机捕获所述第二视频的高度高于所述第一摄像机捕获所述第一视频的高度以及所述第三摄像机捕获所述第三视频的高度。
根据一个实施例,所述第一摄像机捕获所述第一视频的高度和所述第三摄像机捕获所述第三视频的高度是相同的。
根据一个或多个实施例,提供了一种系统,所述系统包括:多个摄像机,所述多个摄像机配置为从人的身体的多个视频中得到相应的视频。所述多个摄像机包括:第一摄像机,被配置为在一个时间段期间内从所述多个视频中获取第一视角的人的第一视频,以及第二摄像机,被配置为在所述时间段期间内从所述多个视频中获取与所述第一视角不同的第二视角的所述人的第二视频。所述系统还包括显示器或扬声器、至少一个处理器、以及存储有计算机代码的存储器。所述计算机代码包括:第一代码,被配置为使得所述至少一个处理器在不依赖于所述人身上的任何标记的情况下通过基于所述多个视频获取一套3D身体关节来估计所述人的三维(3D)姿势;第二代码,被配置为使所述至少一个处理器得到与在所述时间段期间内所述人的动作相对应的所述套的3D身体关节的动作的动画;第三代码,被配置为使所述至少一个处理器执行对所述套的3D身体关节的所述动作的分析;以及第四代码,被配置为使所述至少一个处理器通过所述显示器或所述扬声器,基于所述分析指示所述分析的康复评估结果或康复训练建议。
根据一个实施例,第三代码被配置为使所述至少一个处理器通过基于所述套的3D身体关节的所述动作计算至少一个康复评估指标来执行所述分析。
根据一个实施例,所述第三代码进一步被配置为使所述至少一个处理器基于来自用户的输入来选择所述要计算的至少一个康复评估指标。
根据一个实施例,所述系统包括所述显示器,以及所述第二代码被进一步配置为使所述至少一个处理器使所述显示器显示所述套的3D身体关节的所述动作的动画。
根据一个实施例,所述第二代码被配置为使所述至少一个处理器使所述显示器实时显示在所述时间段期间内所述人的动作所对应的所述动画。
根据一个实施例,所述动画包括与所述套的3D身体关节相结合的所述人的身体的图像。
根据一个实施例,所述多个摄像机进一步包括第三摄像机,所述第三摄像机被配置为获取在所述时间段期间内与所述第一视角和所述第二视角不同的第三视角的所述人的第三视频。
根据一个实施例,所述第一视角是所述人的左侧视图,所述第二视角是所述人的前视图,以及所述第三视角是所述人的右侧视图。
根据一个实施例,所述第二摄像机的高度高于所述第一摄像机的高度以及所述第三摄像机的高度。
根据一个或多个实施例,提供了一种存储有计算机代码的非暂时性计算机可读介质。当所述计算机代码被至少一个处理器执行时配置为在使所述至少一个处理器:在不依赖于所述人的任何标记的情况下,通过基于人的身体的多个视频而获取的一套3D身体关节来估计所述人的3D姿势;获得与在一个时间段期间内所述人的动作相对应的所述套的3D身体关节的动作的动画;对所述套的3D身体关节的所述动作进行分析;以及通过显示器或扬声器,基于所述分析指示所述分析的康复评估结果或康复训练建议。所述多个视频包括在所述时间段期间内由第一摄像机捕获的第一视角的所述人的第一视频,以及在所述时间段期间内由第二摄像机捕获的不同于所述第一视角的第二视角的所述人的第二视频。
附图说明
根据下面的详细描述和附图,本公开主题的进一步的特征、性质和各种优点将更加明显,其中:
图1是根据一个实施例的康复训练系统的示意图。
图2是根据本公开一个实施例的过程的框图。
图3是根据本公开一个实施例的计算机代码的示意图。
图4是根据本公开一个实施例的摄像机配置的透视图。
图5是根据本公开一个实施例的由3D身体关节表示的患者姿势的示例说明。
图6是根据本公开一个实施例的过程的框图。
图7A是根据本公开一个实施例的显示动画的一部分的示例说明。
图7B是根据本公开一个实施例的显示动画的一部分的示例说明。
图8是根据本公开一个实施例的计算机系统的示意图。
具体实施方式
根据实施例,参照图1,提供了康复训练系统100。康复训练系统100可以包括例如摄像机110、计算系统120和显示器130。摄像机110可以包括任意数量的摄像机。例如,根据一个实施例,摄像机110可以包括两个或三个摄像机。摄像机110可以配置为获取视频数据,并经由有线或无线连接将视频数据发送到计算系统120。计算系统120可以包括至少一个处理器122以及存储计算机代码的存储器。计算机代码可以配置为,当由至少一个处理器122执行时,使至少一个处理器122执行计算系统120的处理,比如下面关于图2所描述的那些处理。图3示出了计算机代码的示例图。计算系统120还可以包括显示器130,或者连接到显示器130,并且可以配置成使显示器130显示计算系统120的处理的结果。计算系统120可以经由有线或无线连接连接到显示器130。
参照图2至3,下面描述由计算系统120执行的处理。参照图2,计算系统120可以执行以下处理:多视图3D人体姿势估计(220)、人体动作可视化(230)、人体动作分析(240)以及提供评估结果和建议(250)。参照图3,这样的处理可以通过包括在存储器124中的姿势估计代码320、动作可视化代码330、动作分析代码340和评估代码350分别由计算系统120的至少一个处理器122执行。
计算系统120可以从摄像机110接收视频数据作为多视图3D人体姿势估计(220)的输入。例如,每个摄像机110可以向计算系统120提供单视图视频(例如,单视图视频210-1、210-2、…、210-N),每个单视图视频包括来自各个视角的患者的图像。换句话说,每个摄像机110可以从相应的单视图视频(例如,单视图视频210-1、210-2、…、210-N)中的相应方向捕获患者的姿势和动作,该姿势和动作然后由计算系统120从摄像机110得到。
作为示例,参照图4,康复训练系统100的摄像机110可以包括配置400中的第一摄像机411、第二摄像机412和第三摄像机413。在配置400中,第一摄像机411、第二摄像机412和第三摄像机413可以设置在相应位置,以捕获从位置(x0,y0,z0)开始的患者的各个视角。参照图4,x方向可以是沿着相对于图4的左-右方向延伸的x轴(+x方向朝向图4的右侧),y方向可以是沿着延伸到图4的内部或外部的y轴(+y方向朝向图4的内部),以及z方向可以是沿着相对于图4的上-下方向延伸的z轴(+z方向朝向图4的顶部)。第二摄像机412可以处于与患者开始的位置(x0,y0,z0)相同或相似的x位置,并且可以在+z方向上位于位置(x0,y0,z0)之上(例如,在地面高度之上)的高度h1处。第一摄像机411可以在-x方向上并且位于相对于位置(x0,y0,z0)和/或第二摄像机412距离d1处,并且第三摄像机413可以在+x方向上并且位于相对于位置(x0,y0,z0)和/或第二摄像机412距离d1处。第一摄像机411和第三摄像机413可以在+z方向上位于位置(x0,y0,z0)之上(例如,在地面高度之上)的相同高度h2处。第一摄像机411、第二摄像机412和第三摄像机413可以都处于相同的y位置(例如a+y位置)。第一摄像机411、第二摄像机412和第三摄像机413中的每一个相对于至少一个轴而朝向位置(x0,y0,z0)具有视角a1。例如,如图4所示,第三摄像机413的视角a1可以至少在-x方向上与y轴成角度。另外,第一摄像机411的视角可以至少在+x方向上与y轴成角度,并且第二摄像机412的视角可以至少在-z方向上与y轴成角度。根据配置400,第一摄像机411可以配置为捕获患者身体的左侧透视图,第二摄像机412可以配置为捕获患者身体的上面/前面透视图,以及第三摄像机413可以配置为捕获患者身体的右侧透视图。
尽管图4示出了配置400,但在本公开的实施例中可以实现具有不同数量的摄像机110、摄像机位置和/或摄像机视角的其他摄像机配置。
如上所述,摄像机110可以设置在各种位置并且具有各种视角以捕获患者的各种视角,并且来自摄像机110的视频数据可以被输入到计算系统120以执行多视图3D人体姿势估计(220)。多视图3D人体姿势估计(220)可以是计算系统120使用来自摄像机110的视频数据来推断患者的姿势并将该姿势表示为一组3D关节位置的过程。图5中示出了由3D身体关节表示的患者姿势的示例。如图5所示,姿势500可以用各种身体关节来表示,包括例如右脚关节501、左脚关节502、右膝关节503、左膝关节504、右髋关节505、左髋关节506、右手关节507、左手关节508、右肘关节509、左肘关节510、右肩关节512、左肩关节513和头部关节514。
根据实施例,参照图6,多视图3D人体姿势估计(220)可以由计算系统120使用处理600来执行。过程600可以通过端到端深度神经网络(deep neural network,DNN)模型来实现。
处理600可以是两级方法,在该两级方法中,在每个单个摄像机视图中估计身体关节的2D坐标,然后使用三角和线性回归来考虑多视图信息以推断3D人体姿势。
例如,参照图6,过程600可以包括从摄像机110中的每个摄像机得到相应的单视图视频(例如,单视图视频610-1、…、610-N)。基于每个单视图视频610-1、…、610-N,可以得到相应的2D主干620-1、…、620-N。基于每个2D主干620-1、…、620-N,可以得到相应的一组2D关节热图630-1、…、630-N。可以将各组2D关节热图630-1、…、630-N输入到相应的soft-argmax函数640-1、…、640-N,以得到相应的一组2D关节关键点650-1、…、650-N。随后,可以使用所有组的2D关节关键点650-1、…、650-N,并使用基于每个2D主干620-1、…、620-N得到的关节置信度来执行代数三角剖分660,以得到一套3D身体关节位置670,该套3D身体关节位置670是一套估计的3D身体关节。
参照图7A-7B,计算系统120可以被配置为执行人体动作可视化(230)处理,在人体动作可视化(230)处理中,基于一套估计的3D身体关节(例如,一套3D身体关节位置670)来表示患者的估计的3D人体动作。人体动作可视化(230)处理可以包括去除由失败姿势估计所引起的噪声,以及生成实时动画。
例如,如图7A所示,计算系统120可以被配置为将患者的视频图像与患者的一套估计的3D身体关节(例如,一套3D身体关节位置670)进行组合,并将组合显示为动画710。根据一个实施例,动画710可以同时包括与该套估计的3D身体关节相结合的患者的多个透视视频图像。作为示例,动画710可示出患者的右透视视频712和患者的前透视视频714。然而,视频的数量和视角的类型在动画710中可以变化。
此外,如图7B所示,计算系统120可以被配置为生成类似于动画710的动画720,除了同时在多个视角中示出的一套估计的3D身体关节,没有与该动画一起示出患者的视频图像。
根据实施例,动画710和动画720可以同时显示。根据一个实施例,动画710和动画720可以是实时动画。根据实施例,可以根据单视图视频210-1、…210-N中的两个或更多个(参照图2)获得与该套估计的3D身体关节组合的患者的多个透视视频图像。根据实施例,计算系统120可使动画710和或动画720显示在显示器130上(参照图1)。
通过显示根据本公开实施例的动画,患者可以更好地监测他们的运动和姿势,这可以帮助他们理解他们在康复训练中是如何表现的。
计算系统120还可以被配置为执行人体动作分析(240)过程,在该过程中用户可以根据康复训练类型设置不同的评价指标。计算系统120然后可以基于从多视图3D人体姿势估计(220)处理和人体动作视化(230)处理得到的估计的3D人体动作来计算指标。所估计的3D人体动作可以参照该套估计的3D身体关节(例如,该套3D身体关节位置670)的动画动作(参照图6-图7B)。康复训练类型的一个例子是行走运动的康复训练。行走运动康复训练的指标可能包括患者的行走速度、患者腿部的高度、行走的稳定性以及患者手臂摆动的幅度和频率。根据实施例,计算系统120可以基于用户使用连接到计算系统120的输入设备(例如,鼠标、键盘、触摸屏、麦克风等)选择康复训练类型来自动确定要计算的指标。根据实施例,用户可以使用输入设备手动选择要计算的指标,并且计算系统120可以被配置为基于该选择执行计算。
在人体动作分析(240)处理之后,计算系统120可以被配置为执行评估结果和建议(250)处理。也就是说,例如,计算系统120可以基于人体动作分析(240)处理的结果确定评估结果,并且可以基于评估结果向患者提供(例如,显示在显示器130上或由扬声器输出)训练建议(可以提供或不提供评估结果)。作为示例,当评估结果是由于手臂摆动幅度太低而确定患者的行走运动太慢时,计算系统120可以提供训练建议,即患者应该加强他或她的手臂摆动。根据实施例,由计算系统120执行的结果和建议(250)处理可以包括基于人体动作分析(240)处理的结果来计算并向患者提供(例如,在显示器130上显示或由扬声器输出)最终评估分数。
上述的本公开的处理可以使用计算机可读指令实现为计算机软件,并且计算机软件可以物理地存储在一个或多个计算机可读介质中。例如,图8示出了适用于实现所公开主题的计算系统120的计算机系统900。
计算机软件可以使用任意合适的机器代码或计算机语言进行编码,这些机器代码或计算机语言可以受制于组装、编译、链接或类似机制,以创建包括指令的代码,这些指令可以由计算机中央处理单元(CPUs)、图形处理单元(GPUs)等直接执行或通过解释、微代码执行等执行。
该指令可以在各种类型的计算机或其组件上执行,包括例如,个人计算机、平板计算机、服务器、智能手机、游戏设备、物联网设备等。
图8中显示的计算机系统900的组件在本质上是示例性的,并且不旨在建议对实现本公开实施例的计算机软件的使用范围或功能的任意限制。组件的配置也不应被解释为具有与计算机系统900的示例性实施例中所示任意组件或任意组件的组合相关的任意依赖性或要求。
计算机系统900可以包括某些人机接口输入设备。这种人机接口输入设备可以响应一个或多个人类用户输入,通过例如,触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、鼓掌)、视觉输入(例如:手势)、嗅觉输入(未描绘)。人机接口设备还可以用于捕获不一定与人类有意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静止图像摄像头得到的摄影图像)和视频(例如:二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括键盘901、鼠标902、触控板903、触摸屏910、操纵杆905、麦克风906、扫描仪907和摄像机908中的一个或多个(每个类型仅示出一个)。
计算机系统900还可以包括某些人机接口输出设备。这类人机接口输出设备可以通过例如,触觉输出、声音、光和嗅觉/味觉来刺激一个或多个人类用户的感官。这种人机接口输出设备可以包括触觉输出设备(例如触摸屏910、数据手套或操纵杆905的触觉反馈),但是也可以存在不用作输入设备的触觉反馈设备。例如,这种设备可以是音频输出设备(例如:扬声器909)、耳机(未描绘)、视觉输出设备(例如屏幕910,以包括阴极射线管(CRT)屏幕、液晶显示(LCD)屏幕、等离子屏幕、有机发光二极管(OLED)屏幕,每种屏幕具有或不具有触摸屏输入能力,每种屏幕具有或不具有触觉反馈能力,其中一些设备可以能够输出二维视觉输出或通过诸如立体图像输出的装置输出多于三维的输出);虚拟现实眼镜(未描绘),全息显示器和烟雾罐(未描绘)以及打印机(未描绘)。
计算机系统900还可以包括人类可访问的存储设备以及它们相关联的介质,例如包括具有光碟(CD)/数字影碟(DVD)等的CD/DVD只读存储器(ROM)/读写(RW)920的光学介质921、拇指驱动器922、可移动硬盘驱动器或固态驱动器923、诸如磁带和软盘(未描绘)的传统磁介质、诸如安全加密狗(未描绘)的基于特定ROM/专用集成电路(ASIC)/可编程逻辑器件(PLD)的专用设备等。
本领域技术人员还应理解,与当前公开的主题相关联使用的术语“计算机可读介质”不包括传输介质、载波或其他瞬时信号。
计算机系统900还可以包括到一个或多个通信网络的接口。网络可以是,例如,无线的、有线的、光的。网络可以进一步是本地的、广域的、城域的、车载的以及工业的、实时的、延时容忍的等。网络的例子包括局域网络,比如以太网、无线局域网(LANs)、包括全球移动通信系统(GSM)、第三代移动通信(3G)、第三代移动通信(4G)、第五代移动通信(5G)、长期演进技术(LTE)等的蜂窝网络、包括有线电视(TV)、卫星TV和地面广播TV的TV有线或无线广域网数字网络、车载网络以及包括控制器局域网总线技术(CANBus)的工业网络等。某些网络通常需要连接到某些通用数据端口或外围总线949的外部网络接口适配器(例如,计算机系统900的通用串行总线(USB)端口);其他的网络通常通过附接到如下所描述的系统总线(例如,进入PC计算机系统的以太网接口或进入智能手机计算机系统的蜂窝网络接口)而集成到计算机系统900的核心中。使用任意的这些网络,计算机系统900可以与其他实体通信。这种通信可以是单向只接收的(例如,广播TV),单向只发送的(例如,CANBus到某些CANBus设备),或者双向的(例如,使用局域或广域数字网到其他计算机系统)。这样的通信可以包括到云计算环境955的通信。如上所描述的,可以在这些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口设备、人类可访问存储设备以及网络接口954可以附接到计算机系统900的核心940。
核心940可以包括一个或多个中央处理单元(CPU)941、图形处理单元(GPU)942、现场可编程门区(FPGA)943形式的专用可编程处理单元以及用于特定任务的硬件加速器944等。这些设备与只读存储器(ROM)945、随机访问存储器(RAM)946、诸如内部非用户可访问的硬盘驱动器、固态硬盘(SSD)等内部大容量存储器可以通过系统总线948连接。在一些计算机系统中,可以以一个或多个物理插头的形式接入系统总线948,以实现能够通过附加的CPUs、GPU等进行扩展。外围设备可以直接附接到核心的系统总线948,或者通过外围总线949附接到核心的系统总线948。外围总线的架构包括PCI、USB等。图形适配器950可以包括在核心940中。
CPUs 941、GPUs 942、FPGAs 943和加速器944可以执行某些指令,这些指令组合起来可以构成前述计算机代码。该计算机代码可以存储在ROM 945或RAM 946中。暂时性数据也可以存储在RAM 946中,而永久性数据可以存储在例如内部的大容量存储器947中。可以通过使用高速缓存存储器来实现对存储器设备的快速存储和检索,高速缓存存储器可以与一个或多个CPU 941、GPU 942、大容量存储器947、ROM 945、RAM 946等密切相关联。
计算机可读介质上可以具有计算机代码,该计算机代码用于执行各种计算机实现的操作。介质和计算机代码可以是为了本公开的目的而专门设计和构造的,或者它们可以是计算机软件领域技术人员所熟知和可用的。
作为示例而非限制,具有架构的计算机系统900,特别是核心940可以提供功能,作为处理器(包括CPUs、GPUs、FPGA、加速器等)执行在一个或多个有形的计算机可读介质中的实现的软件的结果。这种计算机可读介质可以是与如上介绍的用户可访问的大容量存储器相关联的介质,以及与核心940的某些存储器相关联,这些存储器是非暂时性质的,比如核心内部大容量存储器947或ROM 945。实现本公开的各种实施例的软件可以存储在这样的设备中并由核心940执行。根据特定需要,计算机可读介质可以包括一个或多个存储器设备或芯片。该软件可以使核心940,具体地,使其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定处理或特定处理的特定部分,包括定义存储在RAM 946中的数据结构以及根据由该软件定义的过程来修改这种数据结构。此外或可选地,计算机系统可以提供功能,作为逻辑硬连接或以其他方式体现在电路(例如:加速器944)中的结果,该电路可以代替软件或与软件一起操作,以执行本文所描述的特定处理或特定处理的特定部分。如果合适,对软件的参考可以包含逻辑,反之亦然。如果合适,对计算机可读介质的参考可以包括存储用于执行的软件的电路(例如,集成电路(IC))、或者实现执行逻辑的电路或者两者。本公开包括硬件和软件的任意合适的组合。
尽管本公开已经描述了几个非限制示例性实施例,但存在落入本公开范围内的替换实施例、置换实施例以及各种等价实施例。因此应当理解,本领域的技术人员将能够设计许多系统和方法,尽管在本文未明确示出或描述,但这些系统和方法体现了本公开的原理,并因此在本公开的精神和范围内。

Claims (20)

1.一种由至少一个处理器执行的方法,其特征在于,所述方法包括:
获取人的身体的多个视频,所述多个视频包括在一个时间段期间内由第一摄像机捕获的第一视角的所述人的第一视频,以及在所述时间段期间内由第二摄像机捕获的与所述第一视角不同的第二视角的所述人的第二视频;
在不依赖于所述人的任何标记的情况下,基于所述多个视频来估计所述人的三维(3D)姿势,所述估计包括获取一套3D身体关节;
获取与所述时间段期间内所述人的动作相对应的所述套的3D身体关节的动作的动画;
对所述套的3D身体关节的所述动作进行分析;以及
通过显示器或扬声器,基于所述分析来指示所述分析的康复评估结果或康复训练建议。
2.根据权利要求1所述的方法,其特征在于,
所述执行所述分析包括:基于所述套的3D身体关节的所述动作来计算至少一个康复评估指标。
3.根据权利要求2所述的方法,其特征在于,
所述执行所述分析还包括:基于来自用户的输入来选择要计算的所述至少一个康复评估指标。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
显示所述套的3D身体关节的所述动作的所述动画。
5.根据权利要求4所述的方法,其特征在于,
实时显示所述时间段期间内所述人的所述动作所对应的所述套的3D身体关节的所述动作的所述动画。
6.根据权利要求5所述的方法,其特征在于,
所述动画包括与所述套的3D身体关节相结合的所述人的所述身体的图像。
7.根据权利要求1所述的方法,其特征在于,
所述获得的多个视频还包括:在所述时间段期间内由第三摄像机捕获的与所述第一视角和所述第二视角不同的第三视角的所述人的第三视频。
8.根据权利要求7所述的方法,其特征在于,
所述第一视角是所述人的左侧视图,所述第二视角是所述人的前视图,以及所述第三视角是所述人的右侧视图。
9.根据权利要求8所述的方法,其特征在于,
所述第二摄像机捕获所述第二视频的高度高于所述第一摄像机捕获所述第一视频的高度以及所述第三摄像机捕获所述第三视频的高度。
10.根据权利要求9所述的方法,其特征在于,
所述第一摄像机捕获所述第一视频的所述高度和所述第三摄像机捕获所述第三视频的所述高度是相同的。
11.一种系统,其特征在于,所述系统包括:
多个摄像机,所述多个摄像机被配置为从人的身体的多个视频中获取相应的视频,所述多个摄像机包括:
第一摄像机,被配置为从所述多个视频中获取在一个时间段期间内第一视角的所述人的第一视频,以及
第二摄像机,被配置为从所述多个视频中捕获所述时间段期间内不同于所述第一视角的第二视角的所述人的第二视频;
显示器或扬声器;
至少一个处理器;以及
存储器,包括计算机代码,所述计算机代码包括:
第一代码,被配置为使得所述至少一个处理器在不依赖于所述人身上的任何标记的情况下通过基于所述多个视频获取一套3D身体关节来估计所述人的三维(3D)姿势;
第二代码,被配置为使得所述至少一个处理器获取与所述时间段期间内所述人的动作相对应的所述套的3D身体关节的动作的动画;
第三代码,被配置为使得所述至少一个处理器对所述套的3D身体关节的所述动作进行分析;以及
第四代码,被配置为使得所述至少一个处理器通过所述显示器或所述扬声器,基于所述分析来指示所述分析的康复评估结果或康复训练建议。
12.根据权利要求11所述的系统,其特征在于,
所述第三代码被配置为使得所述至少一个处理器通过以下来执行所述分析:基于所述套的3D身体关节的所述动作来计算至少一个康复评估指标。
13.根据权利要求12所述的系统,其特征在于,
所述第三代码还被配置为使得所述至少一个处理器基于来自用户的输入来选择要计算的所述至少一个康复评估指标。
14.根据权利要求11所述的系统,其特征在于,
所述系统包括所述显示器,以及
所述第二代码还被配置为使得所述至少一个处理器使所述显示器显示所述套的3D身体关节的所述动作的所述动画。
15.根据权利要求14所述的系统,其特征在于,
所述第二代码被配置为使得所述至少一个处理器使所述显示器实时显示在所述时间段期间内所述人的所述动作所对应的所述动画。
16.根据权利要求15所述的系统,其特征在于,
所述动画包括与所述一套3D身体关节相结合的所述人的所述身体的图像。
17.根据权利要求11所述的系统,其特征在于,
所述多个摄像机还包括第三摄像机,所述第三摄像机被配置为获取在所述时间段期间内与所述第一视角和所述第二视角不同的第三视角的所述人的第三视频。
18.根据权利要求17所述的系统,其特征在于,
所述第一视角是所述人的左侧视图,所述第二视角是所述人的前视图,以及所述第三视角是所述人的右侧视图。
19.根据权利要求18所述的系统,其特征在于,
所述第二摄像机的高度高于所述第一摄像机的高度以及所述第三摄像机的高度。
20.一种非暂时性计算机可读介质,存储有计算机代码,当所述计算机代码被至少一个处理器执行时使得所述至少一个处理器:
在不依赖于所述人的任何标记的情况下,通过基于人的身体的多个视频而获取的一套3D身体关节来估计所述人的三维(3D)姿势;
获取与在一个时间段期间内所述人的动作相对应的所述套的3D身体关节的运动的动画;
对所述套的3D身体关节的所述动作进行分析;以及
通过显示器或扬声器,基于所述分析来指示所述分析的康复评估结果或康复训练建议;
其中,所述多个视频包括在所述时间段期间内由第一摄像机捕获的第一视角的所述人的第一视频,以及在所述时间段期间内由第二摄像机捕获的不同于所述第一视角的第二视角的所述人的第二视频。
CN202180033799.2A 2020-11-12 2021-06-25 基于使用多视图图像的3d人体姿势估计的基于视觉的康复训练系统 Pending CN115515487A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/096,256 2020-11-12
US17/096,256 US20220148453A1 (en) 2020-11-12 2020-11-12 Vision-based rehabilitation training system based on 3d human pose estimation using multi-view images
PCT/US2021/039034 WO2022103441A1 (en) 2020-11-12 2021-06-25 Vision-based rehabilitation training system based on 3d human pose estimation using multi-view images

Publications (1)

Publication Number Publication Date
CN115515487A true CN115515487A (zh) 2022-12-23

Family

ID=81453535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180033799.2A Pending CN115515487A (zh) 2020-11-12 2021-06-25 基于使用多视图图像的3d人体姿势估计的基于视觉的康复训练系统

Country Status (5)

Country Link
US (1) US20220148453A1 (zh)
EP (1) EP4120912A4 (zh)
JP (1) JP7490072B2 (zh)
CN (1) CN115515487A (zh)
WO (1) WO2022103441A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115337607B (zh) * 2022-10-14 2023-01-17 佛山科学技术学院 一种基于计算机视觉的上肢运动康复训练方法
CN115909413B (zh) * 2022-12-22 2023-10-27 北京百度网讯科技有限公司 用于控制虚拟形象的方法、装置、设备及介质
CN116403288A (zh) * 2023-04-28 2023-07-07 中南大学 运动姿态的识别方法、识别装置及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6788809B1 (en) * 2000-06-30 2004-09-07 Intel Corporation System and method for gesture recognition in three dimensions using stereo imaging and color vision
US7308112B2 (en) * 2004-05-14 2007-12-11 Honda Motor Co., Ltd. Sign based human-machine interaction
US8638985B2 (en) * 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US20110054870A1 (en) * 2009-09-02 2011-03-03 Honda Motor Co., Ltd. Vision Based Human Activity Recognition and Monitoring System for Guided Virtual Rehabilitation
US10255677B2 (en) * 2016-02-24 2019-04-09 Preaction Technology Corporation Method and system for determining physiological status of users based on marker-less motion capture and generating appropriate remediation plans
EP3656302B1 (en) * 2018-11-26 2020-09-16 Lindera GmbH System and method for human gait analysis
CN111401340B (zh) 2020-06-02 2020-12-25 腾讯科技(深圳)有限公司 目标对象的运动检测方法和装置
US11989977B2 (en) * 2020-06-30 2024-05-21 Purdue Research Foundation System and method for authoring human-involved context-aware applications

Also Published As

Publication number Publication date
JP2023517964A (ja) 2023-04-27
JP7490072B2 (ja) 2024-05-24
WO2022103441A1 (en) 2022-05-19
EP4120912A1 (en) 2023-01-25
EP4120912A4 (en) 2023-09-13
US20220148453A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
US10674142B2 (en) Optimized object scanning using sensor fusion
Memo et al. Head-mounted gesture controlled interface for human-computer interaction
JP6348574B2 (ja) 総体的カメラ移動およびパノラマカメラ移動を使用した単眼視覚slam
CN103180893B (zh) 用于提供三维用户界面的方法和系统
US11610331B2 (en) Method and apparatus for generating data for estimating three-dimensional (3D) pose of object included in input image, and prediction model for estimating 3D pose of object
CN104781849B (zh) 单眼视觉同时定位与建图(slam)的快速初始化
JP7490072B2 (ja) マルチビュー画像を使用した3d人間ポーズ推定に基づく視覚ベースのリハビリ訓練システム
JP6456347B2 (ja) 平面固有の特徴のターゲットのinsitu生成
TW201835723A (zh) 圖形處理方法和裝置、虛擬實境系統和計算機儲存介質
US20120249807A1 (en) Camera and Sensor Augmented Reality Techniques
CN112346572A (zh) 一种虚实融合实现方法、系统和电子设备
Pfeiffer et al. EyeSee3D 2.0: Model-based real-time analysis of mobile eye-tracking in static and dynamic three-dimensional scenes
JP6386768B2 (ja) 人間工学的な人体模型の姿勢を作成し、かつナチュラルユーザインターフェースを用いてコンピュータ支援設計環境を制御すること
WO2022174594A1 (zh) 基于多相机的裸手追踪显示方法、装置及系统
JP2012053631A (ja) 情報処理装置、情報処理方法
US11989900B2 (en) Object recognition neural network for amodal center prediction
KR20210087075A (ko) 패스 스루 시각화
JP2004265222A (ja) インタフェース方法、装置、およびプログラム
Hernoux et al. A seamless solution for 3D real-time interaction: design and evaluation
Afif et al. Orientation control for indoor virtual landmarks based on hybrid-based markerless augmented reality
LIU et al. A preliminary study of kinect-based real-time hand gesture interaction systems for touchless visualizations of hepatic structures in surgery
Deldjoo et al. A low-cost infrared-optical head tracking solution for virtual 3d audio environment using the nintendo wii-remote
WO2023277043A1 (ja) 情報処理装置
WO2024137521A1 (en) Augmented reality ergonomics evaluation system
CN116485957A (zh) 动画生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40079294

Country of ref document: HK