CN116635910A - 动态身份认证 - Google Patents

动态身份认证 Download PDF

Info

Publication number
CN116635910A
CN116635910A CN202180050653.9A CN202180050653A CN116635910A CN 116635910 A CN116635910 A CN 116635910A CN 202180050653 A CN202180050653 A CN 202180050653A CN 116635910 A CN116635910 A CN 116635910A
Authority
CN
China
Prior art keywords
anatomical landmarks
activity
spatiotemporal
person
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180050653.9A
Other languages
English (en)
Inventor
D·门德洛维奇
M·科伦
L·盖尔伯格
K·科恩
M·A·阿祖莱
O·沃尔沃维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ramot at Tel Aviv University Ltd
Original Assignee
Ramot at Tel Aviv University Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ramot at Tel Aviv University Ltd filed Critical Ramot at Tel Aviv University Ltd
Publication of CN116635910A publication Critical patent/CN116635910A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/117Biometrics derived from hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/1347Preprocessing; Feature extraction
    • G06V40/1353Extracting features related to minutiae or pores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一种识别人的方法,所述方法包括:获取与由人参加的活动相关联的多个解剖界标中的每一个的时空数据,所述数据提供在所述活动期间定义所述解剖界标的至少一个时空轨迹的数据;将所述获取的时空数据建模为时空图(ST‑Graph);以及使用至少一个非局部图卷积神经网络(NLGCN)处理所述时空图,以提供所述人的身份。

Description

动态身份认证
相关申请
本申请根据35U.S.C119(e)要求2020年8月20日递交的申请号为63/067,890的美国临时申请的权益,其公开内容在此引入作为参考。
技术领域
本申请的实施例涉及用于提供个人身份的生物特征认证的方法和设备。
背景技术
日益增加的服务列表需要一种认证程序来认证和授权用户对服务的访问,该程序通常被称为多因子认证程序(multi-factor authentication procedure,MFA)。在MFA程序中,用户需要对多种询问中的每一个询问提供合适的回应。询问类别被称作“认证因子”。普通MFA被称为双因子认证(two-factor authentication,2FA),其中用户被要求正确地响应三个认证因子中的至少两个:知识因子,用于测试用户应该知道的事情,例如密码;拥有因子,其要求用户出示一些其应该拥有的东西,例如信用卡或智能手机;以及固有因子,其要求用户出示一些表示用户特征的东西,例如,类似指纹、声纹或虹膜扫描之类的生物特征。
然而,传统的认证技术似乎在能够容易使用且提供高质量认证上遇到困难,这是现代公民经常参与的活动矩阵的复杂性和相互依赖性的提升所要求的。例如,传统的MFA配置似乎难以满足修订后的欧洲支付服务指令(European Payment Services Directive,PSD2)的强力客户认证(Strong Customer Authentication,SCA)规范,该指令宣布将消费者,银行和第三方供应商(third party providers,TPP)纳入开放银行倡议中。SCA的实施已经延迟了两次。最初计划在2019年9月设立的制度被延迟到2021年3月14日,然后再次延迟到2021年9月14日--当前计划的期限。
发明内容
本申请实施例的其中一方面提到提供一种方法,该方法可以被称为动态识别(dynamic identification)方法,或者简称为DYNAMIDE,用于基于人执行活动的方式的特性来识别该人。根据本申请的一个实施例,DYNAMIDE包括识别解剖界标,可选地将其称作活动基准(activity fiducials,AFIDs),其在人执行活动期间展示各种运动程度或运动缺失,并且在执行活动期间其时空轨迹可用于识别活动。DYNAMIDE包括处理所述轨迹以确定所述轨迹的特征,所述特征有利于区分执行所述活动的个体的活动,且有利于识别执行所述活动的特定个体。
对于执行活动的个体所执行的活动,区分所述活动的活动特征可能是极其细微差别的,并且与所述活动有关的AFID轨迹可能显示出大量细微和不直观的串扰。结果是,活动的一个时空轨迹的特征可能直观看来与该活动的另一个时空轨迹的特征无关,但实际上其可能对于执行该活动的个体来说是特异性的,并且为识别该个体提供了依据。本申请的一个实施例提供了一种有利于发现和使用由轨迹表现出的特性进行识别的时空方法,该轨迹的空间和/或时间处理可以是非局部的,并且有利地限制了许多由AFID轨迹显示的运动所假定的先验处理约束。
根据一个实施例,基于个体可能执行的给定活动来识别特定个体的方案包括:获取个体执行给定活动时的图像序列,并在图像中识别与给定活动相关联的AFID。可以通过处理图像以确定由所识别的AFID展示的时空轨迹,并且通过处理所述轨迹以从可能已经执行所述活动的多个个体中识别出执行了所述活动的特定个体。可选地,处理所述AFID轨迹包括确定在执行所述给定活动期间所述活动基准表现出的局部和非局部时空相关性,以及使用所述相关性来确定所述特定个体的身份。时空相关性可以包括基于空间参数、时间参数或时间和空间参数两者的相关性,所述参数表征一个或多个AFID的一个或多个时空轨迹。
根据本申请的一个实施例,与给定活动相关的活动基准可以是任何身体部分的解剖界标,例如肢体、面部或头部,其在执行给定活动时呈现出的时空轨迹适用于识别执行活动的人。例如,活动基准可以是肢体的关节或骨骼,其在进行诸如步行、打高尔夫球或在ATM机上输入密码之类的活动期间呈现出合适的时空轨迹。对于键入活动来说,活动基准可以包括手部骨骼连接的多个关节。活动基准可以是面部界标,例如眉毛,眼睛和唇角,其运动被用于定义面部动作编码系统(FACS)的动作单元(AUs),该编码系统用于对面部表情和微表情进行分类。活动基准也可以是手的多个手指的指纹的细节对特征,通过足够的光学分辨率进行非接触成像以能够识别细节对。
根据一个实施例,DYNAMIDE使用至少一个神经网络来处理活动的图像,以识别执行该活动的个体。在一个实施例中,训练了至少一个神经网络以检测图像中目标身体部分或区域(body parts or regions of interest,BROI),并识别它们可能包括的活动基准。在执行活动期间所识别的活动基准的空间和时间进展由时空图(spatiotemporal graph,ST-Graph)表示,在该图中,活动基准是多个由空间和时间边界连接的节点,该边界限定了所述活动的活动基准时空轨迹。所述的至少一个神经网络可以包括至少一个图卷积网络(graph convolutional network,GCN),其用于处理所述轨迹并根据执行所述活动的个体来分类所述活动。
在一个实施例中,所述至少一个GCN包括非局部神经网络(nonlocal neuralnetwork,NLGCN),其具有至少一个用于处理所述活动基准时空轨迹的非局部神经网络块。所述至少一个非局部神经网络块可以包括至少一个空间非局部神经网络块和/或至少一个时间非局部神经网络块。可选地,NLGCN被配置为包括多个分量非局部神经网络的多流图卷积网络,所述多个分量非局部神经网络用于处理基于所述活动基准轨迹,以独立自由度为特征的多组数据。在一个实施例中,多流图卷积网络的输出可以包括每个分量图卷积网络的输出的加权平均值。
举例来说,当DYNAMIDE被配置为通过个体键入的方式识别个体时,作为手部关节的活动基准以运动自由度为特征(例如不同手指的关节之间的距离),该运动自由度与通过作为连接关节的手骨的活动基准可用的运动自由度无关。因此,在一个实施例中,DYNAMIDE可以包括具有两个分量非局部神经网络的双流2s-NLGCN多流图卷积网络。两个分量非局部神经网络中的一个处理关节活动基准,另一个处理骨活动基准。在一个实施例中,关节非局部神经网络包括至少一个可学习的“自适应”邻接矩阵,其基本上是通过数据驱动以减少可用于配置2s-非局部神经网络的一些先验约束。根据本申请的实施例,包括自适应邻接矩阵的2s-非局部神经网络可以被称为自适应2s-非局部神经网络(2s-ANLGCN)。键入型DYNAMIDE的2s-非局部神经网络或自适应2s-非局部神经网络的关节和骨非局部神经网络的输出可以融合以识别个体。
根据一个实施例,识别特定个体是实时完成的。实施例提到的实时识别是指在个体正在执行活动时,或者在执行识别的服务的体验质量(quality of experience,QoE)基本上不因识别过程而降低的时间范围内识别个人。
提供本发明内容是为了以简化的形式引入概念的可选项,下面将在具体实施方式中进一步描述该可选项。本发明内容不是用来标识所要求保护主题的关键特征或基本特征,也不是用来限制所要求保护主题的范围。
附图说明
下面参照附图描述本发明实施例的非限制性例子,附图列于说明书之后。出现在多于一个图中的相同特征在它们出现的所有图中一般用相同的标签标记。在图中表示本发明实施例给定特征,并通过图标标记的标签可以用来参考该给定特征。使用图中所示特征的尺寸是为了方便和清楚地表示,而不一定按比例示出。
图1展示了根据本申请的一个实施例的过程的流程图,通过该过程,DYNAMIDE可以处理执行活动的人的视频帧序列,以识别此人。
图2示意性地展示了根据本申请的一个实施例的DYNAMIDE系统处理人在ATM(自动取款机)小键盘上键入时的视频帧序列以识别此人的过程;
图3A示意性展示了根据本申请的一个实施例,在键盘上键入的人的手的图像以及此手的活动基准,DYNAMIDE可用以识别此人;
图3B示意性展示了根据本申请的一个实施例,对图3A中的手进行建模后的空间图,即S图(S-Graph);
图4A示意性地展示了根据本申请的一个实施例的视频帧的放大图,其从图2所示在ATM上进行键入的人所获取的视频帧序列中获得;
图4B示意性地展示了根据本申请的一个实施例,对在图4A所示的视频帧中成像的手进行建模的S图;
图5A示意性地展示了根据本申请的一个实施例,图2所示的视频帧序列的放大图像;
图5B示意性地展示了,根据本申请的一个实施例,与图5A所示的视频帧序列的图像相对应的时空图(spatiotemporal graph,ST-Graph);
图6A展示了根据本申请的一个实施例的示意性时空特征张量,其包括与图5B所示的时空图的节点相关的数据;
图6B展示了根据本申请的一个实施例的非局部神经网络的模式,Dynamide可以使用该模式来处理图6A所示的张量中的数据。
具体实施方式
在论述中,除非另有说明,修饰本申请的实施例的一个或多个特征的条件或关系特性的形容词,如“基本上”和“约为”,应理解为表示该条件或特性被限定在对期望应用的实施例的操作而言所能接受的公差范围内。本申请中的通用术语出现在一个或多个示意性示例中的任何地方时,这一个或多个例子是作为通用术语的非限制性例子,不意味着该通用术语限制于所提及的一个或多个特定例子。短语“在一个实施例中”,无论是否与许可相关联,例如“可以”,“可选地”,或“作为例子”,其用于介绍本申请的可选实施例的一个例子,但不一定是必需的配置。除非另有所指,词语“或”在说明书和权利要求书中被认为是包括在内的“或”,而不是除外的“或”,并且表示它至少连接一个或以上结合体中的至少一个物品。
根据本申请的实施例,图1展示了高级流程图20,可选地也由数字20表示,通过该流程,DYNAMIDE可以对人执行的活动进行响应,从而识别此人。
根据本申请的实施例,在块22中,DYNAMIDE可选地获取参与活动的人的视频帧序列,DYNAMIDE被配置为通过处理该序列以确定参与活动的人的身份。在块24中,DYNAMIDE处理视频帧以识别视频帧中的目标身体区域(body regions of interest,BROI)的图像,至少一个与活动相关的活动基准在其中成像。识别视频帧中的BROI可选地包括确定包括BROI图像的帧的至少一个边界框。在块26中,DYNAMIDE处理视频帧确定的每个边界框,以识别每个边界框中的至少一个活动基准的图像。视频帧的边界框中识别活动基准的图像可选地包括将时空ID(spatiotemporal ID,ST-ID)与该图像关联,该时空ID包括该活动基准的识别标签,“AFID ST-ID”,其用于在视频帧中标记同一活动基准的所有识别图像,并确定该图像的时空坐标。时空坐标包括时间戳和至少两个空间坐标。所述时间戳识别时间(当时的位置),在该时间获得包括活动基准所在的边界框的视频帧,在其他时间中获得视频帧序列中的其他视频帧。所述至少两个空间坐标对应于由所述时间戳指示的时间处的所述活动基准的空间位置。可选地,给定的识别活动基准的AFID ST-ID包括每个空间坐标的标准偏差(standard deviation,SD)和与该AFID ST-ID相关联的活动基准ID标签正确的概率。由所述AFIDST-ID确定的最早和最晚的时间戳和极限空间坐标确定时空体积,其可以被称作时空AFID壳体(spatiotemporal AFID hull,ST-Hull),该壳体包含在视频帧序列中成像和识别的所有活动基准实例的时空坐标。
在块28中,DYNAMIDE使用所述活动基准的时空ID来将所识别的活动基准的实例配置为通过空间和时间边界连接的活动基准时空图(spatiotemporal graph,ST-Graph)的节点。空间边界连接时空图的节点,这些节点表示由相同时间戳识别的活动基准的成像实例,即在同一视频帧中成像的活动基准的成像实例,并且通过人体结构表示施加在活动基准上的空间约束。由空间边界连接,并表示在同一给定帧和给定时间成像的活动基准实例的空间关系的节点的配置,可以被称为在给定时间的活动基准的空间图(spatial graph,S-Graph)。时间边界连接时空图中的时间相邻节点,时空图表示在视频帧序列中两个连续获取的视频帧中的相同活动基准的图像。时间边界表示两个连续时间戳之间的流逝时间。时空图可以被认为包括由时间边界连接的活动基准的空间图。
一个实施例的块30中,DYNAMIDE使用非局部图卷积神经网络(可选为自适应的,即ANLGCN)来处理该活动基准时空图,以确定(可选为实时地)自适应非局部图卷积神经网络被训练以识别的多个人中的某人参与或参加该活动。在一个实施例中,自适应非局部图卷积神经网络被配置为跨越所述活动基准时空壳体,并且使得与在所述壳体中的任何时空位置处的活动基准的成像实例相关联的数据能够通过学习权重加权,并且有助于由所述自适应非局部图卷积神经网络针对壳体中的任意时空位置执行卷积。可选地,NLGCN被配置为包括多个分量非局部图卷积神经网络的多流图卷积神经网络,其用于处理以独立自由度为特征的多组活动基准数据。
根据本申请的实施例,图2示意性地展示了DYNAMIDE系统100,其被配置为执行图1所示的过程,以及通过人执行活动的方式来识别参与该活动的人。DYNAMIDE系统100可以包括处理中心120(可选为基于云的)和具有由虚线111指示的视场(field of view,FOV)的成像系统110。作为示例,在此图中该活动为在ATM60处的人50进行的在小键盘62上键入。
成像系统110用于提供多个在小键盘62上键入的人50的一只手或多只手52的2D和/或3D的“N”帧视频帧114n(1<n<N)的视频序列114。成像系统110通过至少一个有线和/或无线通信信道113连接到处理中心120,成像系统110通过处理中心120将其获取的视频帧发送到处理中心。处理中心120被配置为处理所接收的视频帧114n,以识别其手52在视频帧中被成像的人50。处理中心包括和/或具有对数据和/或可执行指令的访问权限(在下文中也称为软件),以及对各种电子和/或光学物理和/或虚拟处理器、存储器和/或有线或无线通信接口中的任何一个的访问权限(在下文中也被称作硬件),其可以是支持处理中心提供的功能所需要的。
举例来说,处理中心120包括支持对象检测模块130、活动基准识别模块140,以及分类器模块150的软件和硬件,该对象检测模块130可用于检测视频帧114n中的相关身体区域,该活动基准识别模块140可用于识别所检测到的相关身体区域内的活动基准并提供每个所识别活动基准的时空ID,该分类器模块150包括一个非局部分类器,该非局部分类器可用于将该组时空ID处理为时空图,以识别人50。
在一个实施例中,对象相关身体区域检测模块130包括快速对象检测器,例如能够实时检测相关身体区域的YOLO(YouLookOnlyOnce)检测器。活动基准识别模块140可以包括用于在被检测的相关身体区域内识别活动基准的卷积姿态机(convolutional posemachine,CPM)。分类器模块150包括一个上文提及以及将在下文进行论述的非局部图卷积网络(可选为自适应的)。分类器模块150在图2中示意性展示,其提供由直方图152表示的概率的输出。该直方图给出了当DYNAMIDE100被训练以识别给定人是其手52在视频帧中被成像并进行键入的人时,多个人中的每个给定人被识别的概率。Dynamide100被示意性地表示为当被成像的手52在视频帧114n中进行打字时,其能够成功识别出手的主人50。
在一个实施例中,DYNAMIDE100用于识别键入的人的活动基准是其键入的手的关节(手指和/或手腕关节)和手指骨头(指骨)。根据本申请的一个实施例,图3A示意性地展示了具有手指关节(也称指节)和腕关节的手200的图像,所述腕关节过DYNAMIDE100可选地用作活动基准以处理键入手的视频图像。关节在手200上的位置由加号“+”表示,并且如图中所示,通常可以由手关节标签“JH”(hand joint label)表示,并且由数字标签J0,J1,…,J20单独区分。当字母数字标签引用时,可以识别被DYNAMIDE100用作键入活动的活动基准的给定指骨,该字母数字标签表示给定指骨所连接的两个指节。例如在图3A中,连接关节J5和J6的指骨由虚线标记的B5-6示意性地展示,并且指骨B18-19连接关节J18和J19。指骨一般可由标签BH引用。
根据本申请的一个实施例,图3B示意性地展示了空间图200,该空间图200可以用于表示给定时间的活动基准的空间关系,并且作为示例示出了在给定时间被成像的手200的空间关系。如图3A所示,在空间图200中,手关节活动基准JH由通常被标签JN引用的节点表示。节点JN通过字母数字标记JN0,JN1,…,JN20分别区分,并分别对应于图3A所示的同源指节J0,J1,…,J20。连接节点JN的空间图200的边缘表示指骨,即骨活动基准,其连接指节。如图3B所示,边缘一般可通过标签BE引用,并通过对应于手200中的同源手指骨的参考标签分别引用。例如,图3B中的边缘BE5-6对应图3A中的骨B5-6。
根据本申请的一个实施例,图4A示意性地展示了视频帧中序列114(图2)的第n个视频帧114n的放大图,该视频帧通过成像系统110在获得时间tn获取,并被传输到DYNAMIDE处理中心120进行处理。视频帧114n对在小键盘62上键入的手52和手周围环境(所述手可能位于成像系统110的FOV111(图2)中)的特征进行成像。周围特征在图4A中示意性展示,例如可以包括ATM60的结构的一部分,例如柜台64和侧壁66,以及人50已经放置在柜台64上的移动电话55。
如上所述,在处理视频帧114n的序列114时,对象检测模块130可以确定将手52的图像定位为对象的帧上的边界框,该对象包括活动基准检测器140识别的联合关节活动基准以及DYNAMIDE100用于识别人50的对象。由对象检测器模块130在视频帧114n中对手52确定的边界框由虚线矩形116表示。活动基准检测器140在边界框116中检测并识别的指节活动基准由通用的活动基准标签JH(图3A)表示。图4B示意性地展示了空间图-52(tn),在该图中基于从获得时间tn获得的视频帧114n的手的图像将手52建模。空间图-52(tn)中的指节节点可以通过合适的指节节点标签JN0,JN1,…,JN20表示,并添加一个参数来表示与节点所属的空间图-52(tn)相关的获得时间tn。例如,空间图-52(tn)中的节点JN0,JN1,…,JN20可以参考JN0(tn),JN1(tn),…,JN20(tn)。
图5A示意性地展示了图2展示的视频序列114的放大图,包括在对应时间t1,t2,t3,…,tN,在ATM60上键入的手被成像的视频帧1141,1142,1143,…,114N。根据本申请的一个实施例,图5B示意性地展示了时空图52,在该时空图52上,对基于在视频帧1141-114N内手52的图像进行的键入活动的时空进展建模。时空图52包括空间图-52(tn)(1≤n≤N),对应于视频帧1141-114N内手52的图像。在相邻的空间图,空间图-52(tn)和空间图-52(tn+1)上的同源节点JN通过表示一段流逝时间的时间边界连接,这段流逝时间即他们各自的获得时间tn到tn+1之间经过的时间。所有在相邻的空间图-52(tn)和空间图-52(tn+1)之间的时间边界拥有相同的时间长度,并标记为TEn,n+1。图5B中的一些时间边界由他们各自的标签标记。
与时空图-52相关联的节点数据提供了一组时空输入特征,DYNAMIDE处理中心120的分类器模块150处理这些特征以确定在ATM60的小键盘62上打字的人50的身份。如图6A中示意性展示的那样,该组输入特征可以被建模成输入时空特征张量300,其具有按行,列和深度指示张量中的位置的活动基准,时间和信道轴(axes)。对于时空图-52,活动基准轴通过节点号校准,该节点号表示手52中的特定关节,并且时间轴由顺序的帧号或帧的获得时间校准。举例来说,应当注意,尽管时空特征张量300的信道轴示意性地展示了四个信道,但是根据实施例,时空特征张量可以具有多于或少于四个信道。例如,沿着活动基准和时间轴分别指示的给定节点和给定时间的信道轴条目(entry)可以提供两个或三个空间坐标,用于确定给定节点在给定时间的空间位置。信道条目还可以为坐标的精确度和给定节点被正确识别的概率提供误差估计。
在一个实施例中,分类器模块150可以具有包括至少一个非局部图卷积网络(NLGCN)的分类器,以处理张量300中的数据,并根据本申请的实施例为人50提供身份。可选地,所述至少一个非局部图卷积神经网络包括至少一个自适应非局部图卷积神经网络,所述自适应非局部图卷积神经网络除了包括非图卷积网络层之外还包括自适应邻接矩阵。该自适应邻接矩阵用于改善手关节相对于彼此的时空运动的分类器识别,所述时空运动不受空间结构的限制,并且对于人执行打字的方式是特异性的。
根据本申请的实施例,作为例子,图6B展示了分类器320的模式,DYNAMIDE处理中心120可用此模式来处理张量300中的数据。分类器320可选地包括卷积神经网络块322,324和326,它们将数据向前反馈到完全连接的网络328(fully connected net,FCN)中,这为多个人中的每个人提供了一个概率,即关于这个人是否就是在小键盘62上键入,并且其手52在视频帧114(图2)中被成像的人的概率。块322可选地包括将数据向前反馈到时间卷积网络(time convolutional network,TCN)的图卷积网络。块324包括将数据向前反馈到时间卷积网络的自适应非局部图卷积网络(ANL-GCN),而块326包括将数据向前反馈到自适应非局部图卷积网络的图卷积网络。
因此,本申请的一个实施例提供了一种识别人的方法,所述方法包括:获取与由人参加的活动相关联的多个解剖界标中的每一个的时空数据,所述时空数据提供定义所述解剖界标在所述活动期间的至少一个时空轨迹的数据;将所获取的时空数据建模为时空图(ST-Graph);以及使用至少一个非局部图卷积神经网络(NLGCN)处理时空图,以提供此人的身份。可选地,所述至少一个非局部神经网络包括至少一个自适应非局部神经网络(ANLGCN),所述自适应非局部神经网络包括自适应邻接矩阵,所述自适应邻接矩阵被训练成响应于与所述多个解剖界标中的不是仅由所述人的身体结构决定的的解剖界标相关的数据。附加地或可选地,处理时空图包括将多个解剖界标分割成多组解剖界标,每组解剖界标的特征在于运动自由度的不同配置。可选地,该方法包括将所获取的与每组中的解剖界标相关联的时空数据建模为时空图。处理过程可以包括通过至少一个非局部图卷积神经网络中的其中一个非局部网络,处理对多组解剖界标中的每一组进行建模的时空图,其与处理多个组中的其他组无关,以确定表示人的身份的数据。该方法可选地包括融合来自所有组的确定数据以提供此人的身份。
在一个实施例中,获取时空数据包括获取对参加活动的人成像的视频帧序列,每个视频帧包括成像于多个解剖界标中的一个解剖界标的至少一个相关身体区域(BROI)的图像。可选地,该方法包括处理视频帧以在每个视频帧中检测至少一个相关身体区域。附加地或可选地,该方法包括在所述至少一个检测到的相关身体区域中的每一个中识别所述多个解剖界标中的一个解剖界标的图像。可选地,该方法包括处理所识别的解剖界标的图像以确定定义时空轨迹的数据。
在一个实施例中,多个解剖界标包括关节。可选地,多个解剖界标包括连接关节的骨。附加地或可选地,关节包括手指指节。可选地,该活动包括手指操作序列。手指操作可以包括参与操作键盘的操作。
在一个实施例中,关节包括大附肢的关节。可选地,该活动可选为运动。可选地,该运动是足球。可选地,运动是高尔夫球。
在一个实施例中,所述多个解剖界标包括面部界标。可选地,面部界标包括其运动被用于定义面部动作编码系统(facial action coding system,FACS)的动作单元(actionunits,AU)的面部界标,所述面部动作编码系统被用于分类面部表情和微表情。在一个实施例中,所述多个解剖界标包括手的多个手指的指纹的细节对特征。
根据一个实施例,还提供了一种用于识别人的系统,该系统包括:成像系统,用于获取具有对参加活动的人成像的视频帧的视频;以及可用于根据前述声明中的任一项来处理视频帧以提供此人的身份的软件。
在本申请中对本发明实施例的描述是以示例的方式提供的,而不是要限制本发明的范围。所描述的实施例包括不同的特征,在所有实施例中不是所有的特征都是必需的。一些实施例仅利用特征中的一些或特征的可能组合。所描述的本发明的实施例的变化以及包括在所描述的实施例中指出的特征的不同组合的实施例对于本领域的人员来说是显而易见的。本发明的范围仅由权利要求书限定。

Claims (23)

1.一种识别人的方法,其特征在于,所述方法包括:
获取与由人参加的活动相关联的多个解剖界标中的每一个的时空数据,所述时空数据提供在所述活动期间定义所述解剖界标的至少一个时空轨迹的数据;
将所述获取的时空数据建模为时空图(ST-Graph);以及
使用至少一个非局部图卷积神经网络(NLGCN)处理所述时空图,以提供所述人的身份。
2.如权利要求1所述的方法,其特征在于,所述至少一个非局部图卷积神经网络包括至少一个自适应非局部图卷积神经网络(ANLGCN),所述自适应非局部图卷积神经网络包括被训练成响应于所述多个解剖界标的相关解剖界标的数据的自适应邻接矩阵,所述自适应邻接矩阵不仅仅由所述人的身体结构决定。
3.如权利要求1或2所述的方法,其特征在于,处理所述时空图包括将所述多个解剖界标分割成多组解剖界标,每组所述解剖界标由运动自由度的不同配置来表征。
4.如权利要求3所述的方法,其特征在于,所述方法包括将获取的与每组中的所述解剖界标相关联的时空数据建模为时空图。
5.如权利要求4所述的方法,其特征在于,处理包括:通过所述至少一个非局部图卷积神经网络中的一个非局部图卷积神经网络,对为所述多组解剖界标中的每一组建模的所述时空图进行处理,其与处理所述多组解剖界标中的其他组无关,以确定表示所述人的身份的数据。
6.如权利要求5所述的方法,其特征在于,所述方法包括融合来自所有组的所述确定的数据,以提供所述人的身份。
7.如前述权利要求中任一项所述的方法,其特征在于,获取所述时空数据包括获取对参与所述活动的人进行成像的视频帧序列,每帧视频帧包括一幅对所述多个解剖界标中的一个解剖界标成像的至少一个目标身体部位(BROI)的图像。
8.如权利要求7所述的方法,其特征在于,所述方法包括处理所述视频帧以在每帧视频帧中检测所述至少一个相关身体部位。
9.如权利要求7或8所述的方法,其特征在于,所述方法包括在所述至少一个检测的相关身体部位中的每一个中识别所述多个解剖界标中的一个解剖界标的图像。
10.如权利要求9所述的方法,其特征在于,所述方法包括处理所识别的解剖界标的所述图像以确定定义所述时空轨迹的所述数据。
11.如前述权利要求中任一项所述的方法,其特征在于,所述多个解剖界标包括关节。
12.如权利要求11所述的方法,其特征在于,所述多个解剖界标包括连接所述关节的骨。
13.如权利要求11或12所述的方法,其特征在于,所述关节包括手指指节。
14.如权利要求13所述的方法,其特征在于,所述活动包括一系列的手指操作。
15.如权利要求14所述的方法,其特征在于,所述手指操作包括涉及操作键盘的操作。
16.如权利要求11-15中任一项所述的方法,其特征在于,所述关节包括大附肢的关节。
17.如权利要求16所述的方法,其特征在于,所述活动是运动。
18.如权利要求17所述的方法,其特征在于,所述运动是足球。
19.如权利要求17所述的方法,其特征在于,所述运动是高尔夫球。
20.如前述权利要求中任一项所述的方法,其特征在于,所述多个解剖界标包括面部界标。
21.如权利要求20所述的方法,其特征在于,所述面部界标包括其运动被用于定义面部动作编码系统(FACS)的动作单元(AU)的面部界标,所述动作编码系统用于分类面部表情和微表情。
22.如前述权利要求中任一项所述的方法,其特征在于,所述多个解剖界标包括手的多个手指的指纹的细节对特征。
23.一种用于识别人的系统,其特征在于,所述系统包括:
成像系统,用于获取具有对参加活动的人成像的视频帧的视频;以及
可用于根据前述权利要求中任一项来处理所述视频帧以提供所述人的身份的软件。
CN202180050653.9A 2020-08-20 2021-07-30 动态身份认证 Pending CN116635910A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063067890P 2020-08-20 2020-08-20
US63/067,890 2020-08-20
PCT/IL2021/050925 WO2022038591A1 (en) 2020-08-20 2021-07-30 Dynamic identity authentication

Publications (1)

Publication Number Publication Date
CN116635910A true CN116635910A (zh) 2023-08-22

Family

ID=80322705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180050653.9A Pending CN116635910A (zh) 2020-08-20 2021-07-30 动态身份认证

Country Status (6)

Country Link
US (1) US20230306094A1 (zh)
EP (1) EP4200725A1 (zh)
JP (2) JP2023535231A (zh)
KR (2) KR20230164240A (zh)
CN (1) CN116635910A (zh)
WO (1) WO2022038591A1 (zh)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001069536A2 (en) * 2000-03-10 2001-09-20 Sarnoff Corporation Method and apparatus for qualitative spatiotemporal data processing
CN104156650A (zh) 2014-08-08 2014-11-19 浙江大学 一种基于手部运动的用户身份识别方法
JP2017049867A (ja) * 2015-09-03 2017-03-09 日本電気株式会社 認証装置、防犯システム、認証方法およびプログラム
US11106273B2 (en) * 2015-10-30 2021-08-31 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
EP3407232B1 (en) * 2017-05-23 2021-07-28 Ordnance Survey Limited Spatiotemporal authentication
CN108304757A (zh) * 2017-06-16 2018-07-20 腾讯科技(深圳)有限公司 身份识别方法及装置
JP6819633B2 (ja) * 2018-03-08 2021-01-27 オムロン株式会社 個人識別装置および特徴収集装置
WO2020137536A1 (ja) * 2018-12-28 2020-07-02 日本電気株式会社 人物認証装置、制御方法、及びプログラム
US11531393B1 (en) * 2019-06-28 2022-12-20 Sensoriai LLC Human-computer interface systems and methods
US11281227B2 (en) * 2019-08-20 2022-03-22 Volkswagen Ag Method of pedestrian activity recognition using limited data and meta-learning
US11423660B2 (en) * 2019-10-18 2022-08-23 Here Global B.V. Methods and systems for determining emergency data for a vehicle
CN110909621A (zh) * 2019-10-30 2020-03-24 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于视觉的健身指导系统
CN111339942B (zh) * 2020-02-26 2022-07-12 山东大学 基于视点调整的图卷积循环网络骨骼动作识别方法及系统
CN111444488A (zh) 2020-03-16 2020-07-24 安徽清新互联信息科技有限公司 一种基于动态手势的身份认证方法
US20210309181A1 (en) * 2020-04-03 2021-10-07 Micron Technology, Inc. Intelligent Preparation of Vehicles for Operations based on User Recognition from a Distance
US11276249B2 (en) * 2020-05-14 2022-03-15 International Business Machines Corporation Method and system for video action classification by mixing 2D and 3D features

Also Published As

Publication number Publication date
KR20230018529A (ko) 2023-02-07
EP4200725A1 (en) 2023-06-28
KR102607766B1 (ko) 2023-11-29
WO2022038591A1 (en) 2022-02-24
JP2024059900A (ja) 2024-05-01
US20230306094A1 (en) 2023-09-28
JP2023535231A (ja) 2023-08-16
KR20230164240A (ko) 2023-12-01

Similar Documents

Publication Publication Date Title
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
US20180211104A1 (en) Method and device for target tracking
CN110147721B (zh) 一种三维人脸识别方法、模型训练方法和装置
Patruno et al. People re-identification using skeleton standard posture and color descriptors from RGB-D data
CN104778465B (zh) 一种基于特征点匹配的目标跟踪方法
JP2018508888A (ja) モバイル・デバイスを用いてキャプチャしたイメージを使用する指紋ベースのユーザ認証を実行するためのシステムおよび方法
US20120163661A1 (en) Apparatus and method for recognizing multi-user interactions
US20210133580A1 (en) Upgrading a machine learning model&#39;s training state
JP2006293644A (ja) 情報処理装置、情報処理方法
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
CN111353336B (zh) 图像处理方法、装置及设备
Eisenbach et al. User recognition for guiding and following people with a mobile robot in a clinical environment
Li et al. Robust multiperson detection and tracking for mobile service and social robots
CN112200074A (zh) 一种姿态对比的方法和终端
Gurbuz et al. Model free head pose estimation using stereovision
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和系统
Alexanderson et al. Robust online motion capture labeling of finger markers
CN110991292A (zh) 动作识别比对方法、系统、计算机存储介质和电子装置
WO2022018811A1 (ja) 被写体の3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置
CN113282164A (zh) 一种处理方法和装置
US11048926B2 (en) Adaptive hand tracking and gesture recognition using face-shoulder feature coordinate transforms
CN116635910A (zh) 动态身份认证
Athavale et al. One eye is all you need: Lightweight ensembles for gaze estimation with single encoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination