CN110569707A - 一种身份识别方法和电子设备 - Google Patents

一种身份识别方法和电子设备 Download PDF

Info

Publication number
CN110569707A
CN110569707A CN201910556108.1A CN201910556108A CN110569707A CN 110569707 A CN110569707 A CN 110569707A CN 201910556108 A CN201910556108 A CN 201910556108A CN 110569707 A CN110569707 A CN 110569707A
Authority
CN
China
Prior art keywords
face
person
features
recognized
voiceprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910556108.1A
Other languages
English (en)
Inventor
鞠汶奇
张阿强
刘子威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Original Assignee
Shenzhen Heertai Home Furnishing Online Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Heertai Home Furnishing Online Network Technology Co Ltd filed Critical Shenzhen Heertai Home Furnishing Online Network Technology Co Ltd
Priority to CN201910556108.1A priority Critical patent/CN110569707A/zh
Publication of CN110569707A publication Critical patent/CN110569707A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及一种身份识别方法和电子设备,所述方法包括:获取待识别图片,待识别图片中包括至少一个待识别人的人脸图像,基于待识别图片获得待识别人的人脸图像;基于人脸图像获取待识别人的人脸特征;获取人脸特征的第一权重系数;获取待识别人的辅助特征;获取辅助特征的第二权重系数;根据第一权重系数和第二权重系数、结合人脸特征和所述辅助特征,获得待识别人的识别特征;将待识别人的识别特征匹配已知身份的识别特征,获得待识别人的身份。结合待识别人的人脸特征和辅助特征以及各自的权重系数获得识别特征,可以结合多种特征综合判断待识别人的身份,减小由于人脸图像质量差对身份识别效果的影响,从而提高身份识别的准确性。

Description

一种身份识别方法和电子设备
技术领域
本发明实施例涉及身份识别技术领域,特别涉及一种身份识别方法 和电子设备。
背景技术
身份识别技术越来越多的应用在人类的生产和生活中,目前的身份 识别技术中,采用人的脸部特征进行身份识别的人脸识别技术应用较为 广泛。目前的人脸识别通常利用基于机器学习的神经网络模型进行识别。 即训练基于机器学习的神经网络模型,然后利用所述识别模型对已知身 份的人脸图像提取人脸特征,获得已知身份的人脸特征。在对未知身份 的人脸图像进行识别时,首先利用该识别模型提取人脸特征,获得未知 身份的人脸特征,再将未知身份的人脸特征匹配已知身份的人脸特征, 从而获得所述未知身份。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
在利用样本图片训练所述识别模型时,需利用高质量的人脸图片进 行训练。因此,在进行人脸识别时,也需要人脸没有遮挡、且光照均匀 稳定,对于光照条件差或有遮挡的人脸识别效果差。
发明内容
本发明实施例的目的是提供一种识别效果好的身份识别方法和电 子设备。
第一方面,本发明实施例提供了一种身份识别方法,所述方法包括:
获取待识别图片,所述待识别图片中包括至少一个待识别人的人脸 图像,基于所述待识别图片获得所述待识别人的人脸图像;
基于所述人脸图像获取所述待识别人的人脸特征;
获取所述人脸特征的第一权重系数;
获取所述待识别人的辅助特征;
获取所述辅助特征的第二权重系数;
根据所述第一权重系数和所述第二权重系数、结合所述人脸特征和 所述辅助特征,获得所述待识别人的识别特征;
将所述待识别人的识别特征匹配已知身份的识别特征,获得所述待 识别人的身份。
在一些实施例中,所述辅助特征包括声纹特征,所述第二权重系数 包括声纹系数,则所述获取所述待识别人的辅助特征,包括:
获取所述待识别人的声音信号,基于所述声音信号获取所述声纹特 征,获取所述待识别图片的时间与获取所述声音信号的时间位于同一时 刻或者同一时段;
所述获取所述辅助特征的第二权重系数,包括:
获取所述待识别人的声纹系数,所述声纹系数用以表示所述声纹特 征针对每个所述待识别人的权重。
在一些实施例中,所述方法还包括:
将所述人脸图像分割成至少两个人脸栅格区域;
则,所述获取所述待识别人的人脸特征,包括:
利用预先获取的人脸识别模型对所述至少两个人脸栅格区域提取 人脸特征,获得至少两个人脸特征,每个人脸特征对应一个人脸栅格区 域。
在一些实施例中,所述获取所述人脸特征的第一权重系数,包括:
将所述至少两个人脸栅格区域输入预先获取的图像质量识别模型, 获得各个人脸栅格区域对应的所述第一权重系数,所述第一权重系数用 于表征每个人脸栅格区域的图像质量。
在一些实施例中,所述基于所述声音信号获取所述声纹特征,包括:
将所述声音信号转换成声音数据;
利用预先获取的声音识别模型对所述声音数据提取声纹特征,获得 所述声纹特征。
在一些实施例中,所述获取所述待识别人的声纹系数,包括:
将所述声音数据输入预先获取的声音质量识别模型,获得声音系数, 所述声音系数用于表征所述声音信号的质量;
从所述人脸图像中提取嘴部图像,将所述嘴部图像和所述声音数据 输入预先获取的声音匹配模型,获得所述声音数据和所述人脸图像的匹 配系数;
根据所述声音系数和所述匹配系数获得所述待识别人对应的所述 声纹系数。
在一些实施例中,所述方法还包括:
获取已知人的人脸图像,将所述人脸图像分割成至少两个人脸栅格 区域,利用所述人脸识别模型对所述至少两个人脸栅格区域提取人脸特 征,获得至少两个人脸特征;
获取所述已知人的声纹特征;
获取所述已知人的人脸特征的第三权重系数,所述第三权重系数用 于表征所述已知人的人脸图像的图像质量。
在一些实施例中,所述方法还包括:
根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合 所述已知人的人脸特征和声纹特征,获得所述已知身份的识别特征;
则,获取所述待识别人的识别特征,包括:
根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合 所述待识别人的人脸特征和声纹特征,获得所述待识别人的识别特征。
在一些实施例中,所述待识别图片包括至少两个图片;
则,所述根据所述第一权重系数、所述声纹系数和所述第三权重系 数、结合所述待识别人的人脸特征和声纹特征,获得所述待识别人的识 别特征,包括:
将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一 权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该待识别图片的全脸 人脸特征;
拼接所述至少两帧图片的全脸人脸特征,获得所述待识别人的结合 人脸特征;
结合所述待识别人的声纹系数和所述声纹特征获得所述待识别人 的结合声纹特征;
结合所述待识别人的结合声纹特征和所述待识别人的结合人脸特 征、获得所述待识别人的识别特征;
则,所述根据所述第一权重系数、所述声纹系数和所述第三权重系 数、结合所述已知人的人脸特征和声纹特征,获得所述已知身份的识别 特征,包括:
针对所述已知人的人脸图像,将所述人脸栅格区域的人脸特征结合 该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格 区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该已知人的全脸人脸 特征;
将所述已知人的全脸人脸特征复制为所述至少两个,并拼接至少两 个全脸人脸特征,获得所述已知人的结合人脸特征;
结合所述已知人的声纹特征和所述已知人的结合人脸特征、获得所 述已知身份的识别特征。
在一些实施例中,所述待识别图片包括至少两帧图片,并被分成至 少两组待识别图片;
则,所述方法还包括:
获取基于每组待识别图片获得的所述待识别人的身份;
从获取的所述待识别人的各个身份中、选择数量最多的身份作为所 述待识别人的最终身份。
在一些实施例中,所述辅助特征包括步态特征,所述步态特征用于 表征人的走路姿态。
第二方面,本发明实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令 被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的 方法。
第三方面,本发明实施例提供了一种非易失性计算机可读存储介质, 所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执 行指令被电子设备执行时,使所述电子设备执行上述的方法。
第四方面,本申请实施例还提供了一种计算机程序产品,所述计算 机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序, 所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使 所述电子设备执行上述的方法。
本发明实施例的身份识别方法和电子设备,基于待识别人的人脸图 像获取待识别人的人脸特征,以及人脸特征的第一权重系数,再获取所 述待识别人的辅助特征和所述辅助特征的第二权重系数,然后根据第一 权重系数和第二权重系数、结合人脸特征和辅助特征获得所述待识别人 的识别特征,并利用识别特征进行身份识别。结合所述待识别人的人脸 特征和辅助特征以及各自的权重系数获得识别特征,可以结合多种特征 综合判断待识别人的身份,减小由于人脸图像质量差对身份识别效果的 影响,从而提高身份识别的准确性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明, 这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标 号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例 限制。
图1a是本发明实施例身份识别方法和装置的其中一个应用场景示 意图;
图1b是本发明实施例身份识别方法和装置的另一个应用场景示意 图;
图2是本发明身份识别方法的一个实施例的流程示意图;
图3是本发明身份识别方法的另一个实施例的流程示意图;
图4是本发明身份识别装置的一个实施例的结构示意图;
图5是本发明身份识别装置的另一个实施例的结构示意图;
图6是本发明电子设备的一个实施例的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合 本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的身份识别方法、装置和电子设备适用于图1a所示的应用场景。在所述应用场景中,包括电子设备100和需要识别身 份的用户200。其中,电子设备100可以为任何合适的由集成电路、晶 体管、电子管等电子元器件组成,应用电子技术软件发挥作用的设备, 例如智能手机、平板电脑、个人PC机、服务器、机器人等。待识别身 份的用户200可以为一个或多个。
电子设备100可以基于用户200的人脸特征、声纹特征等能体现个 体独特性的特征来识别用户200的身份。目前的身份识别技术中,多采 用人脸特征进行身份识别,但是人脸识别依赖高质量的人脸图片,在光 照条件差或者人脸有遮挡的场合,识别效果差。本发明实施例采用人的 两种以上特征进行身份识别,除了常用的人脸特征外还采用其他辅助特 征,例如声纹特征、步态特征(即人的步行姿态)等。结合人脸特征和 辅助特征获得待识别人的识别特征,并利用识别特征进行身份识别,可 以结合多种特征综合判断身份,减小由于人脸图像质量差对身份识别效 果的影响,从而提高身份识别的准确性。
在其中一些应用场景中(例如图1a),利用电子设备100自带的图 像采集装置采集用户200的图像,电子设备100基于所述图像获得人脸 图像,并基于人脸图像提取人脸特征。在另一些应用场景中,请参照图 1b,所述应用场景还包括单独设置的图像采集装置300,单独设置的图 像采集装置300与电子设备100通信连接,图像采集装置300获得用户的图像后,将所述图像传送给电子设备100。
基于辅助特征的种类,所述应用场景中还可以设置其他硬件装置来 帮助获取辅助特征,例如辅助特征为步态特征的场合,可以利用图像采 集装置采集用户200的图像,电子设备100基于所述图像获取用户的步 态特征。在辅助特征为声纹特征的场合,该应用场景中还需设置声音采 集装置,由声音采集装置采集用户的声音信号,电子设备100基于该声 音信号获取声纹特征。
其中,声音采集装置可以是电子设备100自带的(请参照图1a), 也可以是单独设置的(请参照图1b中的声音采集装置500)。声音采集 装置可以为任何能将声波转换成电信号的设备,例如麦克风等。图像采 集装置可以为摄像头、摄像机、照相机、扫描仪,或者其他带有拍照功 能的设备。
其中,在一些实施例中,可以利用基于机器学习的神经网络模型获 取人脸特征和辅助特征。以下以辅助特征为声纹特征为例、说明利用人 脸特征和辅助特征进行身份识别的过程。
其大体分为三个部分,首先,训练人脸识别模型和声音识别模型。 其次是注册人脸特征和声纹特征,即获取已知人的人脸图像和声音信号, 基于人脸识别模型对所述人脸图像提取人脸特征,基于声音识别模型对 声音信号提取声纹特征,获得该已知人的人脸特征和声纹特征。然后是 身份识别,分别获取待识别图片和声音信号,并基于待识别图片获取待 识别人的人脸图像,其中,获取待识别图片的时间和获取所述声音信号 的时间需位于同一时刻或者同一时段内。利用人脸识别模型对待识别人 的人脸图像提取人脸特征,利用声音识别模型对声音信号提取声纹特征, 结合该人脸特征和声纹特征获得待识别人的识别特征。结合已知人的人 脸特征和声纹特征获得已知身份的识别特征,再将待识别人的识别特征 匹配已知身份的识别特征,从而获得待识别人的身份。
其中,对已知人的人脸图像提取人脸特征和对待识别人的人脸图像 提取人脸特征,需基于同一神经网络模型。对已知人的声音信号提取声 纹特征和对待识别人的声音信号提取声纹特征,亦需基于同一神经网络 模型。
结合人脸特征和声纹特征获得识别特征,可以根据各特征对应的权 重系数获得所述识别特征,即基于人脸图像的图像质量获得人脸特征的 第一权重系数,基于声音信号的声音质量获得声纹特征的第二权重系数, 然后根据第一权重系数和第二权重系数结合人脸特征和声纹特征获得 识别特征。
其中,神经网络模型可以基于任何合适的机器学习算法,训练神经 网络模型属于现有技术的范畴,可以通过大量样本数据以及样本数据对 应的标签(即类别)训练获得,其训练的目的是获得神经网络模型的各 个参数。
训练人脸识别模型的大体过程为,获取大量人脸图像样本(例如N 个人的K个人脸图像样本),其中每一个样本包括两张图片,如果是相 同的图片,则该样本对应的标签可以设为0(也可以设为用于表示相同 图片的其他值),如果是不同的图片,则样本对应的标签设为1(也可以 设为用于表示不同图片的其他值)。将该大量的人脸图像样本及其对应 的标签输入神经网络模型进行训练,从而获得神经网络模型的各个参数。
其中,人脸图像样本可以是全脸图像,基于该全脸图像样本进行训 练可以获得基于神经网络的人脸识别模型。利用该全脸图像样本训练所 述神经网络模型时,需利用高质量的全脸图像进行训练,在进行身份识 别时,也需要待识别的人脸图像是高质量的,因此对图像质量差的人脸 图像不能获得较好的识别效果。
在本发明的一些实施例中,为进一步提高身份识别的准确性,将人 脸图像分割成至少两个人脸栅格区域,并基于人脸栅格区域训练神经网 络模型和提取人脸特征。其中,人脸栅格区域的个数可以为合适的任意 个,例如8个、16个、36个等。将人脸图像分割成至少两个人脸栅格 区域,有的人脸栅格区域的图像质量好,有的人脸栅格区域的图像质量差,可以通过将图像质量好的人脸栅格区域的第一权重系数设置的较大, 将图像质量差的人脸栅格区域的第一权重系数设置的较小,来减少图像 质量差的区域对身份识别的影响,从而提高身份识别的准确性。
在人脸图像分割成至少两个人脸栅格区域的场合(以下以人脸图像 被分割成36个人脸栅格区域为例说明),训练人脸识别模型可以分别基 于各个人脸栅格区域训练36个模型。即将人脸图像样本分成36个人脸 栅格区域,选取相同位置的人脸栅格区域分别训练神经网络模型,获得 36个人脸识别模型。利用每个模型提取人脸特征时也需基于对应的人脸 栅格区域进行,利用36个人脸识别模型分别针对36个人脸栅格区域提 取人脸特征,获得36个人脸特征。
在另一些实施例中,每个人脸栅格区域的大小相同,即将人脸图像 平均分成36个人脸栅格区域。训练人脸识别模型时,将人脸图像样本 平均分成36个人脸栅格区域,将各个人脸栅格区域的人脸图像样本均 输入神经网络模型进行训练,获得一个人脸识别模型。利用该人脸识别 模型分别针对36个人脸栅格区域提取人脸特征,获得36个人脸特征。
训练声音识别模型,可以选择多个人的大量声音样本,例如选择10 个人的大量声音样本,每个声音样本的标签为对应人的序号(1-10), 将该声音样本及其对应的标签输入神经网络模型进行训练,获得所述声 音识别模型。
其中,已知人的人脸特征和声纹特征可以存储于电子设备100本地, 进行身份识别时,可以调取电子设备100本地的已知人的人脸特征和声 纹特征,并结合已知人的人脸特征和声纹特征获得已知身份的识别特征, 将待识别人的识别特征与已知身份的识别特征进行比对。在另一些应用 场景中,请参照图1b,所述应用场景还可以包括云端服务器400,已知 人的人脸特征和声纹特征存储于云端服务器400上,云端服务器400与 电子设备100通信连接,电子设备100可以通过云端服务器400获得所 述已知人的人脸特征和声纹特征。
需要说明的是,图1a中仅示出了一个电子设备100和两个用户200, 图1b中仅示出了一个电子设备100、一个用户200、一个图像采集装置 300和一个云端服务器400,在其他应用场景中,也可以包括更多的电 子设备、用户、图像采集装置和云端服务器,本发明实施例对应用场景 中各组成的数量不作限制。
图2为本发明实施例提供的身份识别方法的流程示意图,所述方法 可以由图1a或图1b中电子设备100执行,如图2所示,所述方法包括:
101:获取待识别图片,所述待识别图片中包括至少一个待识别人 的人脸图像,基于所述待识别图片获得所述待识别人的人脸图像。
其中,待识别图片中可能包含一个待识别人的人脸图像,也可能包 含多个待识别人的人脸图像。如果待识别图片中包含一个待识别人的人 脸图像,则基于所述待识别图片获得一个待识别人的人脸图像,如果待 识别图片中包含多个待识别人的人脸图像,则基于所述待识别图片获得 多个人脸图像中的一部分人脸图像或者全部人脸图像。
在其中一些实施例中,为了提高身份识别的准确性,所述待识别人 的人脸图像仅包含脸部图像,即图像采集装置获取用户的待识别图片后, 电子设备从所述待识别图片中扣除获取待识别人的脸部图像。具体的, 从所述待识别图片中扣除脸部图像,可以利用现有技术中的人脸检测方 法检测待识别图片中脸部所在区域,再从该待识别图片中扣除脸部所在 区域获得脸部图像。
在另一些实施例中,为了进一步提高身份识别的准确性,获得人脸 图像后,将人脸图像缩放至预设尺寸、并分割成至少两个人脸栅格区域, 即将人脸图像栅格化。例如将1024×1024大小的人脸图像用64×64的 小格子进行划分,可以获得6×6个人脸栅格区域。将人脸图像分割成 至少两个人脸栅格区域,在待识别的人脸图像有部分光线较暗或者部分 遮挡的情况下,可以至少保证输入神经网络模型的部分图像是高质量的, 从而能提高身份识别的准确性。
在另一些实施例中,为了进一步提高身份识别的准确性,将人脸图 像转换至标准人脸图像。如果人脸图像分成至少两个人脸栅格区域,以 36个人脸栅格区域为例说明,可以预先训练获得图像校正模型,将分成 36个人脸栅格区域的人脸图像输入所述图像校正模型,即可获得标准人 脸图像,该标准人脸图像中亦包括36个人脸栅格区域。
其中,训练图像校正模型可以基于被分成36个人脸栅格区域的大 量图像样本训练获得,该图像样本对应的标签是每个人脸栅格区域的正 确位置和尺寸,基于该图像样本及其对应的标签训练神经网络模型,获 得所述图像校正模型。
如果人脸图像是未被分割的全脸图像,则可以采用关键点对齐的仿 射变换方法将人脸图像转换至标准人脸图像。首先,设计一个预设尺寸 (以下以预设尺寸为1024×1024为例说明)的标准人脸,然后在该标 准人脸中提取若干关键点,例如提取五个关键点,分别是两个眼睛位置 (100,100)、(300,100),鼻尖位置(150,150),两个嘴角位置 (300,100)、(300,300)。然后根据标准人脸中的两个眼睛位置、 鼻尖位置和两个嘴角位置,以及待识别的人脸图像中的两个眼睛位置、 鼻尖位置和两个嘴角位置,利用仿射变换方法求出待识别的人脸图像转 换至标准人脸的变换矩阵,然后利用该变换矩阵将待识别的人脸图像转 换至标准人脸图像。将人脸图像转换成标准人脸图像可以消除图像中的 畸变和偏差。
需要说明的是,在模型训练、人脸注册以及身份识别阶段对图像的 处理均采用相同的方法。例如,如果在身份识别阶段进行了脸部图像扣 除,则在模型训练阶段和人脸注册阶段也需进行脸部扣除,如果在身份 识别阶段将人脸图像分割成至少两个人脸栅格区域,则在模型训练和人 脸注册阶段也需将人脸图像分割成至少两个人脸栅格区域,如果在身份 识别阶段进行了脸部扣除和标准人脸转换,则在模型训练阶段和人脸注 册阶段也需进行脸部扣除和标准人脸转换。
102:基于所述人脸图像获取所述待识别人的人脸特征。
在其中一些实施例中,可以利用预先获取的神经网络模型对人脸图 像提取人脸特征,即基于所述待识别人的人脸图像,利用预先获取的人 脸识别模型对所述人脸图像提取人脸特征。
如果人脸图像为全脸图像,则可以利用基于全脸图像训练的人脸识 别模型提取人脸特征,如果人脸图像分割成至少两个人脸栅格区域,则 可以利用基于人脸栅格区域训练的人脸识别模型、对每个人脸栅格区域 提取人脸特征。以人脸图像分割成36个人脸栅格区域为例,可以获得 36个人脸特征。
103:获取所述人脸特征的第一权重系数。
其中,在一些实施例中,可以根据人脸图像的图像质量获得人脸特 征的第一权重系数,如果图像质量好,则第一权重系数大,如果图像质 量差,则第一权重系数小。每个第一权重系数与一个人脸特征相对应, 在上述人脸图像分割成36个人脸栅格区域的实施例中,可以获得36个 人脸特征、以及36个人脸特征分别对应的36个第一权重系数。获得第 一权重系数可以预先训练图像质量识别模型,利用图像质量识别模型获 得各个人脸栅格区域对应的第一权重系数。
在其中一些实施例中,可以基于被分成36个人脸栅格区域的整张 图片样本进行模型训练,标签是每个人脸栅格区域对应的图像质量值, 将该图像样本及其对应的标签输入神经网络模型进行训练,获得图像质 量识别模型。将包含36个人脸栅格区域的人脸图像输入该图像质量识 别模型,即可获得36个人脸栅格区域分别对应的第一权重系数。
在另一些实施例中,也可以基于图片样本的各个人脸栅格区域进行 模型训练,将大量的人脸栅格区域及其对应的标签输入神经网络模型进 行训练,获得图像质量识别模型。将单个人脸栅格区域输入该图像质量 识别模型,可以获得该人脸栅格区域对应的第一权重系数,依次输入36 个人脸栅格区域,则可以获得36个第一权重系数。
104:获取所述待识别人的辅助特征。
105:获取所述辅助特征的第二权重系数。
其中,辅助特征例如声纹特征、步态特征等。以辅助特征为声纹特 征为例,可以先获取声音信号,再将声音信号转换成机器能识别的声音 数据,然后基于声音数据提取声纹特征。在其中一些实施例中,可以利 用预先获取的神经网络的声音识别模型、对所述声音数据提取声纹特征。
获取声音信号的时间与获取待识别图片的时间需位于同一时刻或 者同一时段,这样获得的声音信号才更有可能是待识别图片中的待识别 人的声音。具体应用时,可以先获取一张或者几张待识别图片,然后获 取对应时间的声音信号,也可以先获取一段声音信号,再获得对应时间 段内的一张或者多张待识别图片。
在待识别图片中有可能包含一个待识别人,也有可能包含多个待识 别人。声音信号有可能是一个人的声音,也有可能是多个人的声音,如 果是多个人的声音,则可能声音不清晰。只有声音信号与人脸图像属于 同一个待识别人、且声音清晰(清晰的声音更容易提取待识别人的声纹 特征)时,该声音信号对该待识别人的身份识别才具有可借鉴性。因此, 当声音信号不清晰(例如为多个人的混杂声音)时,或者声音信号与待 识别人的人脸图像不匹配时,可以设置该待识别人对该声纹特征的声纹 系数低。
因此,在其中一些实施例中,待识别人的声纹系数可以取决于两个 因素,分别是声音系数和匹配系数(例如将声音系数与匹配系数相乘获 得声纹系数),其中,声音系数用于表征声音信号的质量,匹配系数用 于表征声音信号与待识别人的匹配程度。
其中,在一些实施例中,可以通过将所述声音数据输入预先获取的 声音质量识别模型,获得声音系数。其中,训练声音质量识别模型,可 以获取大量声音样本,对一个人的清晰的声音样本,为其设置较大值的 标签,对多个人的不清晰的声音样本,为其设置较小值的标签。将该声 音样本及其对应标签输入神经网络模型进行训练,获得所述声音质量识别模型。
其中,在一些实施例中,获得匹配系数,可以在待识别人的人脸图 像中提取嘴部图像,然后将嘴部图像和声音数据输入预先获取的声音匹 配模型,获得声音数据和人脸图像的匹配系数,也即声音信号与该待识 别人的匹配系数。其中,训练声音匹配模型,可以获取嘴部图像和声音 数据的大量样本,如果两者互相匹配,则标签为0(也可以设为表示匹配的其他值),如果两者互相不匹配,则标签为1(也可以设为表示不 匹配的其他值),将该样本及其对应标签输入神经网络模型进行训练, 获得所述声音匹配模型。具体的,从人脸图像中提取嘴部图像,可以利 用现有技术中的嘴部检测方法检测人脸图像中嘴部所在区域,再从该人 脸图像中扣除嘴部所在区域获得嘴部图像。
106:根据所述第一权重系数和所述第二权重系数、结合所述人脸 特征和所述辅助特征,获得所述待识别人的识别特征。
例如,将人脸特征和辅助特征根据各自的第一权重系数和第二权重 系数进行加权和,获得待识别人的识别特征。
107:将所述待识别人的识别特征匹配已知身份的识别特征,获得 所述待识别人的身份。
利用待识别人的识别特征进行身份识别前,还需进行已知人的人脸 特征和声纹特征的注册。其中,已知人的人脸特征和声纹特征可以是其 他装置获得之后直接加载在电子设备100上或云端服务器400上的。在 另一些实施例中,已知人的人脸特征和声纹特征也可以是电子设备100 或者云端服务器400自身获得的。在电子设备100自身获得已知人的人脸特征和声纹特征的实施例中,身份识别方法还包括获得已知人的人脸 特征和声纹特征的步骤。
电子设备上具有大量的已知人的人脸特征和声纹特征,因此,可以 根据大量的已知人的人脸特征和声纹特征、结合第一权重系数和声纹系 数获取大量的已知身份的识别特征,将待识别人的识别特征匹配已知身 份的识别特征,获得其中最相似的已知身份的识别特征,该已知身份即 为待识别人的身份。该实施例请参照图3中的各个步骤101a-107。
其中,在一些实施例中,判断待识别人的识别特征与已知身份的识 别特征的相似性,可以计算待识别人的识别特征与各个已知身份的识别 特征的欧式距离,如果其中最小的欧氏距离小于预设距离阈值,则该最 小的欧式距离对应的识别特征的已知身份即为待识别人的身份。
其中,在一些实施例中,为提高身份识别的准确性,获取待识别人 的识别特征时对图像的处理、采用的模型和计算方法,需与获取已知身 份的识别特征时对图像的处理、采用的模型和计算方法相同。
在其中一些应用场景中,注册已知人的人脸特征和声纹特征时,采 用质量好的人脸图像和声音信号,则不需要考虑人脸特征和声纹特征的 权重系数。在另一些应用场景中,无法保证注册时获得高质量的人脸图 像,在这种情况下,需考虑人脸特征的权重系数,则注册人脸特征时, 同时获取该人脸特征的第三权重系数,该第三权重系数用于表征所述已 知人的人脸图像的图像质量。同样的,该第三权重系数可以通过图像质 量识别模型获得。
以下以考虑注册人脸特征的权重系数、且人脸图像分割成至少两个 人脸栅格区域为例,说明获得待识别人的识别特征和已知身份的识别特 征的过程。
获取待识别人的识别特征时,将人脸栅格区域的人脸特征与该人脸 栅格区域对应的第一权重系数和第三权重系数相乘,获得该人脸栅格区 域的分区人脸特征。拼接每个人脸栅格区域的分区人脸特征,获得该待 识别人的全脸人脸特征。将待识别人的声纹系数和声纹特征相乘,获得 待识别人的结合声纹特征。拼接该待识别人的结合声纹特征和全脸人脸 特征,获得该待识别人的识别特征f1。其中,所述拼接即将各特征连接 成一个向量。
获取已知身份的识别特征时,将已知人的人脸栅格区域的人脸特征 与该人脸栅格区域对应的第一权重系数和第三权重系数相乘,获得该人 脸栅格区域的分区人脸特征。拼接每个人脸栅格区域的分区人脸特征, 获得该已知人的全脸人脸特征。将已知人的声纹系数和声纹特征相乘, 获得该已知人的结合声纹特征。拼接该已知人的结合声纹特征和全脸人 脸特征,获得该已知人的识别特征f2。将f1匹配各个f2,以获取待识 别人的身份。
在另一些实施例中,为进一步提高身份识别的准确性,获取多帧待 识别图片进行身份识别,该多帧待识别图片可以是连续帧图片也可以不 是连续帧图片。其中,利用现有技术中的跟踪算法可以确定多帧图片中 的同一个人。如果待识别图片为多帧图片(以下以m帧为例说明),则 获取每帧待识别图片的全脸人脸特征后,将各帧待识别图片的对应全脸人脸特征拼接,获得待识别人的结合人脸特征。再将结合人脸特征与结 合声纹特征拼接获得识别特征f1。为了保证f1与f2的长度一致,获取 已知人的一帧图片的全脸人脸特征后,将该全脸人脸特征复制为m个、 并将m个全脸人脸特征进行拼接,获得已知人的结合人脸特征,再将已 知人的结合人脸特征和结合声纹特征拼接获得识别特征f2。将f1匹配 各个f2,以获取待识别人的身份。
在另外一些实施例中,为进一步提高身份识别的准确性,获取多帧 待识别图片后,将多帧待识别图片分成至少两组,每组包含一张或者多 张待识别图片。基于每组待识别图片获得一个身份,则可以获得多个身 份,然后利用投票规则,选取得票最多的身份作为待识别人的最终身份。
本发明实施例中涉及的各种模型,例如人脸识别模型、图像质量识 别模型、声音识别模型、声音质量识别模型和声音匹配模型等,可以是 其他装置通过训练获得神经网络模型之后直接加载在电子设备100上的。 在另一些实施例中,也可以是电子设备100自身通过训练神经网络模型 获得的。在该实施例中,身份识别方法还包括训练其中部分或者全部模 型的步骤。
需要说明的是,101、102、103、104、105、106和107仅用于代表 各步骤,并不表示各步骤的先后顺序。
本发明实施例基于待识别人的人脸图像获取待识别人的人脸特征, 以及人脸特征的第一权重系数,再获取所述待识别人的辅助特征和所述 辅助特征的第二权重系数,然后根据第一权重系数和第二权重系数、结 合人脸特征和辅助特征获得所述待识别人的识别特征,并利用识别特征 进行身份识别。结合所述待识别人的人脸特征和辅助特征以及各自的权 重系数获得识别特征,可以结合多种特征综合判断待识别人的身份,减 小由于人脸图像质量差对身份识别效果的影响,从而提高身份识别的准 确性。
在辅助特征为步态特征的场合,利用人脸特征和步态特征进行身份 识别,可以先提取图片中能大体显示全身的待识别人的图像,然后基于 该图像提取人脸图像和腿部图像,再基于人脸图像提取人脸特征、基于 腿部图像提取腿部特征,并根据人脸图像的质量为人脸特征设置权重系 数。然后基于人脸特征及其对应的权重系数结合腿部特征获得待识别人 的识别特征,并通过同样的方法获得已知人的识别特征,再根据待识别 人的识别特征和已知人的识别特征进行身份识别。
相应的,本发明实施例还提供了一种身份识别装置,用于图1a或 图1b中的电子设备,如图4所示,身份识别装置300包括:
待识别人脸获取模块301,用于获取待识别图片,所述待识别图片 中包括至少一个待识别人的人脸图像,基于所述待识别图片获得所述待 识别人的人脸图像;
待识别人脸特征提取模块302,用于基于所述人脸图像获取所述待 识别人的人脸特征;
第一权重系数获取模块303,用于获取所述人脸特征的第一权重系 数;
待识别辅助特征获取模块304,用于获取所述待识别人的辅助特征;
第二权重系数获取模块305,用于获取所述辅助特征的第二权重系 数;
待识别识别特征获取模块306,用于根据所述第一权重系数和所述 第二权重系数、结合所述人脸特征和所述辅助特征,获得所述待识别人 的识别特征;
身份识别模块307,用于将所述待识别人的识别特征匹配已知身份 的识别特征,获得所述待识别人的身份。
本发明实施例基于待识别人的人脸图像获取待识别人的人脸特征, 以及人脸特征的第一权重系数,再获取所述待识别人的辅助特征和所述 辅助特征的第二权重系数,然后根据第一权重系数和第二权重系数、结 合人脸特征和辅助特征获得所述待识别人的识别特征,并利用识别特征 进行身份识别。结合所述待识别人的人脸特征和辅助特征以及各自的权 重系数获得识别特征,可以结合多种特征综合判断待识别人的身份,减 小由于人脸图像质量差对身份识别效果的影响,从而提高身份识别的准 确性。
在其中一些实施例中,所述辅助特征包括声纹特征,所述第二权重 系数包括声纹系数;
则,所述待识别辅助特征获取模块304具体用于:
获取所述待识别人的声音信号,基于所述声音信号获取所述声纹特 征,获取所述待识别图片的时间与获取所述声音信号的时间位于同一时 刻或者同一时段;
所述第二权重系数获取模块305具体用于:
获取所述待识别人的声纹系数,所述声纹系数用以表示所述声纹特 征针对每个所述待识别人的权重。
在另一些实施例中,请参照图5,所述装置还包括:
人脸分区模块308,用于将所述人脸图像分割成至少两个人脸栅格 区域;
则,所述待识别人脸特征提取模块302具体用于:
利用预先获取的人脸识别模型对所述至少两个人脸栅格区域提取 人脸特征,获得至少两个人脸特征,每个人脸特征对应一个人脸栅格区 域。
在其中一些实施例中,所述第一权重系数获取模块303具体用于:
将所述至少两个人脸栅格区域输入预先获取的图像质量识别模型, 获得各个人脸栅格区域对应的所述第一权重系数,所述第一权重系数用 于表征每个人脸栅格区域的图像质量。
在其中一些实施例中,所述待识别辅助特征获取模块304具体用于:
将所述声音信号转换成声音数据;
利用预先获取的声音识别模型对所述声音数据提取声纹特征,获得 所述声纹特征。
在其中一些实施例中,所述第二权重系数获取模块305具体用于:
将所述声音数据输入预先获取的声音质量识别模型,获得声音系数, 所述声音系数用于表征所述声音信号的质量;
从所述人脸图像中提取嘴部图像,将所述嘴部图像和所述声音数据 输入预先获取的声音匹配模型,获得所述声音数据和所述人脸图像的匹 配系数;
根据所述声音系数和所述匹配系数获得所述待识别人对应的所述 声纹系数。
在其他实施例中,请参照图5,所述装置还包括注册模块309,用 于:
获取已知人的人脸图像,将所述人脸图像分割成至少两个人脸栅格 区域,利用所述人脸识别模型对所述至少两个人脸栅格区域提取人脸特 征,获得至少两个人脸特征;
获取所述已知人的声纹特征;
获取所述已知人的人脸特征的第三权重系数,所述第三权重系数用 于表征所述已知人的人脸图像的图像质量。
在其他实施例中,请参照图5,所述装置还包括:
已知识别特征获取模块310,用于根据所述第一权重系数、所述声 纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征, 获得所述已知身份的识别特征;
则,待识别识别特征获取模块306具体用于:
根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合 所述待识别人的人脸特征和声纹特征,获得所述待识别人的识别特征。
在另一些实施例中,所述待识别图片包括至少两个图片;
则,待识别识别特征获取模块306具体用于:
将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一 权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该待识别图片的全脸 人脸特征;
拼接所述至少两帧图片的全脸人脸特征,获得所述待识别人的结合 人脸特征;
结合所述待识别人的声纹系数和所述声纹特征获得所述待识别人 的结合声纹特征;
结合所述待识别人的结合声纹特征和所述待识别人的结合人脸特 征、获得所述待识别人的识别特征;
则,已知识别特征获取模块310具体用于:
针对所述已知人的人脸图像,将所述人脸栅格区域的人脸特征结合 该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格 区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该已知人的全脸人脸 特征;
将所述已知人的全脸人脸特征复制为所述至少两个,并拼接至少两 个全脸人脸特征,获得所述已知人的结合人脸特征;
结合所述已知人的声纹特征和所述已知人的结合人脸特征、获得所 述已知身份的识别特征。
在另一些实施例中,所述待识别图片包括至少两帧图片,并被分成 至少两组待识别图片;
则,请参照图5,所述装置还包括投票模块311,用于:
获取基于每组待识别图片获得的所述待识别人的身份;
从获取的所述待识别人的各个身份中、选择数量最多的身份作为所 述待识别人的最终身份。
在其中一些实施例中,所述辅助特征包括步态特征,所述步态特征 用于表征人的走路姿态。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的 功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本 申请实施例所提供的方法。
如图6所示,为电子设备100的硬件结构示意图,请参照图6,电 子设备100包括:
一个或多个处理器1以及存储器2,图6中以一个处理器1为例。
处理器1和存储器2可以通过总线或者其他方式连接,图6中以通 过总线连接为例。
存储器2作为一种非易失性计算机可读存储介质,可用于存储非易 失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例 中的身份识别方法对应的程序指令/模块(例如,附图4、附图5所示的 各模块)。处理器1通过运行存储在存储器2中的非易失性软件程序、指 令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的身份识别方法。
存储器2可以包括存储程序区和存储数据区,其中,存储程序区可 存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根 据控制器的使用所创建的数据等。此外,存储器2可以包括高速随机存 取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、 闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器2 可选包括相对于处理器1远程设置的存储器,这些远程存储器可以通过 网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部 网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器2中,当被所述一个或者 多个处理器1执行时,执行上述任意方法实施例中的身份识别方法,例 如,执行以上描述的图2中的方法步骤101-107、图3中的方法步骤 101a-107;实现图4中的模块301-307、图5中的模块301-311的功能。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的 功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本 申请实施例所提供的方法。
本申请实施例提供了一种非易失性计算机可读存储介质,所述计算 机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个 或多个处理器执行,例如图6中的一个处理器1,可使得上述一个或多个 处理器可执行上述任意方法实施例中的身份识别方法,例如,执行以上 描述的图2中的方法步骤101-107、图3中的方法步骤101a-107;实现图4中的模块301-307、图5中的模块301-311的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件 说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件 可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分 布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模 块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域普通技术人员可以清楚地了解到 各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬 件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分 流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存 储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方 法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储 记忆体(Read-Only Memory,ROM)或随机存储记忆体 (RandomAccessMemory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非 对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特 征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的 本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人 员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使 相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (13)

1.一种身份识别方法,其特征在于,所述方法包括:
获取待识别图片,所述待识别图片中包括至少一个待识别人的人脸图像,基于所述待识别图片获得所述待识别人的人脸图像;
基于所述人脸图像获取所述待识别人的人脸特征;
获取所述人脸特征的第一权重系数;
获取所述待识别人的辅助特征;
获取所述辅助特征的第二权重系数;
根据所述第一权重系数和所述第二权重系数、结合所述人脸特征和所述辅助特征,获得所述待识别人的识别特征;
将所述待识别人的识别特征匹配已知身份的识别特征,获得所述待识别人的身份。
2.根据权利要求1所述的方法,其特征在于,所述辅助特征包括声纹特征,所述第二权重系数包括声纹系数;
则,所述获取所述待识别人的辅助特征,包括:
获取所述待识别人的声音信号,基于所述声音信号获取所述声纹特征,获取所述待识别图片的时间与获取所述声音信号的时间位于同一时刻或者同一时段;
所述获取所述辅助特征的第二权重系数,包括:
获取所述待识别人的声纹系数,所述声纹系数用以表示所述声纹特征针对每个所述待识别人的权重。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述人脸图像分割成至少两个人脸栅格区域;
则,所述获取所述待识别人的人脸特征,包括:
利用预先获取的人脸识别模型对所述至少两个人脸栅格区域提取人脸特征,获得至少两个人脸特征,每个人脸特征对应一个人脸栅格区域。
4.根据权利要求3所述的方法,其特征在于,所述获取所述人脸特征的第一权重系数,包括:
将所述至少两个人脸栅格区域输入预先获取的图像质量识别模型,获得各个人脸栅格区域对应的所述第一权重系数,所述第一权重系数用于表征每个人脸栅格区域的图像质量。
5.根据权利要求2-4任意一项所述的方法,其特征在于,所述基于所述声音信号获取所述声纹特征,包括:
将所述声音信号转换成声音数据;
利用预先获取的声音识别模型对所述声音数据提取声纹特征,获得所述声纹特征。
6.根据权利要求5所述的方法,其特征在于,所述获取所述待识别人的声纹系数,包括:
将所述声音数据输入预先获取的声音质量识别模型,获得声音系数,所述声音系数用于表征所述声音信号的质量;
从所述人脸图像中提取嘴部图像,将所述嘴部图像和所述声音数据输入预先获取的声音匹配模型,获得所述声音数据和所述人脸图像的匹配系数;
根据所述声音系数和所述匹配系数获得所述待识别人对应的所述声纹系数。
7.根据权利要求3-4任意一项所述的方法,其特征在于,所述方法还包括:
获取已知人的人脸图像,将所述人脸图像分割成至少两个人脸栅格区域,利用所述人脸识别模型对所述至少两个人脸栅格区域提取人脸特征,获得至少两个人脸特征;
获取所述已知人的声纹特征;
获取所述已知人的人脸特征的第三权重系数,所述第三权重系数用于表征所述已知人的人脸图像的图像质量。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征,获得所述已知身份的识别特征;
则,获取所述待识别人的识别特征,包括:
根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述待识别人的人脸特征和声纹特征,获得所述待识别人的识别特征。
9.根据权利要求8所述的方法,其特征在于,所述待识别图片包括至少两个图片;
则,所述根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述待识别人的人脸特征和声纹特征,获得所述待识别人的识别特征,包括:
将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该待识别图片的全脸人脸特征;
拼接所述至少两个图片的全脸人脸特征,获得所述待识别人的结合人脸特征;
结合所述待识别人的声纹系数和所述声纹特征获得所述待识别人的结合声纹特征;
结合所述待识别人的结合声纹特征和所述待识别人的结合人脸特征、获得所述待识别人的识别特征;
则,所述根据所述第一权重系数、所述声纹系数和所述第三权重系数、结合所述已知人的人脸特征和声纹特征,获得所述已知身份的识别特征,包括:
针对所述已知人的人脸图像,将所述人脸栅格区域的人脸特征结合该人脸栅格区域对应的第一权重系数和第三权重系数、获得该人脸栅格区域的分区人脸特征;
拼接每个人脸栅格区域的分区人脸特征,获得该已知人的全脸人脸特征;
将所述已知人的全脸人脸特征复制为所述至少两个,并拼接至少两个全脸人脸特征,获得所述已知人的结合人脸特征;
结合所述已知人的声纹特征和所述已知人的结合人脸特征、获得所述已知身份的识别特征。
10.根据权利要求1-4、8和9任意一项所述的方法,其特征在于,所述待识别图片包括至少两帧图片,并被分成至少两组待识别图片;
则,所述方法还包括:
获取基于每组待识别图片获得的所述待识别人的身份;
从获取的所述待识别人的各个身份中、选择数量最多的身份作为所述待识别人的最终身份。
11.根据权利要求1所述的方法,其特征在于,所述辅助特征包括步态特征,所述步态特征用于表征人的走路姿态。
12.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11任一项所述的方法。
13.一种非易失性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被电子设备执行时,使所述电子设备执行如权利要求1-11任一项所述的方法。
CN201910556108.1A 2019-06-25 2019-06-25 一种身份识别方法和电子设备 Pending CN110569707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556108.1A CN110569707A (zh) 2019-06-25 2019-06-25 一种身份识别方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556108.1A CN110569707A (zh) 2019-06-25 2019-06-25 一种身份识别方法和电子设备

Publications (1)

Publication Number Publication Date
CN110569707A true CN110569707A (zh) 2019-12-13

Family

ID=68773719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556108.1A Pending CN110569707A (zh) 2019-06-25 2019-06-25 一种身份识别方法和电子设备

Country Status (1)

Country Link
CN (1) CN110569707A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444886A (zh) * 2020-04-27 2020-07-24 无锡职业技术学院 一种基于可穿戴设备的智能人脸识别系统
CN112133311A (zh) * 2020-09-18 2020-12-25 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574510A (zh) * 2015-12-18 2016-05-11 北京邮电大学 一种步态识别方法及装置
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
CN107451454A (zh) * 2017-07-29 2017-12-08 广东欧珀移动通信有限公司 解锁控制方法及相关产品
CN107590452A (zh) * 2017-09-04 2018-01-16 武汉神目信息技术有限公司 一种基于步态与人脸融合的身份识别方法及装置
CN108171032A (zh) * 2017-12-01 2018-06-15 平安科技(深圳)有限公司 一种身份鉴定方法、电子装置及计算机可读存储介质
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
US20180338178A1 (en) * 2017-05-18 2018-11-22 Sony Corporation Identity-based face and voice recognition to regulate content rights and parental controls using consumer profiles
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法
CN109740492A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种身份认证方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574510A (zh) * 2015-12-18 2016-05-11 北京邮电大学 一种步态识别方法及装置
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US20180338178A1 (en) * 2017-05-18 2018-11-22 Sony Corporation Identity-based face and voice recognition to regulate content rights and parental controls using consumer profiles
CN107451454A (zh) * 2017-07-29 2017-12-08 广东欧珀移动通信有限公司 解锁控制方法及相关产品
CN107590452A (zh) * 2017-09-04 2018-01-16 武汉神目信息技术有限公司 一种基于步态与人脸融合的身份识别方法及装置
CN108171032A (zh) * 2017-12-01 2018-06-15 平安科技(深圳)有限公司 一种身份鉴定方法、电子装置及计算机可读存储介质
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
CN109214820A (zh) * 2018-07-06 2019-01-15 厦门快商通信息技术有限公司 一种基于音视频结合的商户收款系统及方法
CN109740492A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种身份认证方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444886A (zh) * 2020-04-27 2020-07-24 无锡职业技术学院 一种基于可穿戴设备的智能人脸识别系统
CN112133311A (zh) * 2020-09-18 2020-12-25 科大讯飞股份有限公司 说话人识别方法、相关设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110232369B (zh) 一种人脸识别方法和电子设备
CN108710847B (zh) 场景识别方法、装置及电子设备
US11270099B2 (en) Method and apparatus for generating facial feature
CN108416323B (zh) 用于识别人脸的方法和装置
CN108885698A (zh) 人脸识别方法、装置和服务器
CN110163211B (zh) 一种图像识别方法、装置和存储介质
CN112381104A (zh) 一种图像识别方法、装置、计算机设备及存储介质
CN108388889B (zh) 用于分析人脸图像的方法和装置
CN112633221A (zh) 一种人脸方向的检测方法及相关装置
CN111191073A (zh) 视频音频识别方法、设备、存储介质及装置
CN112241689A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN111382655A (zh) 一种举手行为识别方法及装置、电子设备
CN111353364A (zh) 一种人脸动态识别方法及装置、电子设备
CN110569707A (zh) 一种身份识别方法和电子设备
CN113642639A (zh) 活体检测方法、装置、设备和存储介质
CN111259700B (zh) 用于生成步态识别模型的方法和装置
CN110837901A (zh) 云试驾预约审核方法及装置、存储介质、云服务器
CN110599514A (zh) 图像分割的方法、装置、电子设备及存储介质
CN110545386B (zh) 用于拍摄图像的方法和设备
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
CN109598201B (zh) 动作检测方法、装置、电子设备及可读存储介质
CN111507124A (zh) 基于深度学习的非接触式视频测谎方法及系统
CN116546304A (zh) 一种参数配置方法、装置、设备、存储介质及产品
CN111310528B (zh) 一种图像检测方法、身份验证方法、支付方法及装置
CN109447081B (zh) 一种光学字符识别数据集的获取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200410

Address after: 1706, Fangda building, No. 011, Keji South 12th Road, high tech Zone, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen shuliantianxia Intelligent Technology Co.,Ltd.

Address before: 518000, building 10, building ten, building D, Shenzhen Institute of Aerospace Science and technology, 6 hi tech Southern District, Nanshan District, Shenzhen, Guangdong 1003, China

Applicant before: SHENZHEN H & T HOME ONLINE NETWORK TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213