CN112733636A - 活体检测方法、装置、设备和存储介质 - Google Patents

活体检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112733636A
CN112733636A CN202011587469.1A CN202011587469A CN112733636A CN 112733636 A CN112733636 A CN 112733636A CN 202011587469 A CN202011587469 A CN 202011587469A CN 112733636 A CN112733636 A CN 112733636A
Authority
CN
China
Prior art keywords
audio
information
lip language
data
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011587469.1A
Other languages
English (en)
Inventor
时旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN202011587469.1A priority Critical patent/CN112733636A/zh
Publication of CN112733636A publication Critical patent/CN112733636A/zh
Priority to PCT/CN2021/120422 priority patent/WO2022142521A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请提供一种活体检测方法、装置、设备和存储介质,该方法包括:获取待检测的多媒体数据;提取所述多媒体数据中的音频数据和视频数据;对所述音频数据进行语音识别,得到语音信息,以及对所述视频数据进行唇语识别,得到唇语信息;根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,并基于所述偏移信息验证所述多媒体数据是否来自于活体。本申请实现了显著提高了活体检测的准确率,漏检率下降,对于一些部分少量音画不同步的视频提供了容错率。节省了原来对大量音画不同步视频的标注成本。

Description

活体检测方法、装置、设备和存储介质
技术领域
本申请涉及多媒体信息技术领域,具体而言,涉及一种活体检测方法、装置、设备和存储介质。
背景技术
活体检测,是在一些身份验证场景确定对象真实生理特征的方法,基于唇语视频进行活体验证的应用场景中,一般通过实时获取用户当下的视频数据,然后基于视频内容检测是否符合活体的音画同步特点。
音画同步,一般是指播放器正在渲染的每一帧画面和正在播放的每一段声音都是严格对应起来,不存在人耳和肉眼可以分辨出来的偏差。
目前,音画同步检测方式通常使用大量标注的音画同步/不同步视频作为样本,通过神经网络训练得到模型,该模型可以针对输入的视频,输出同步分数,若同步分数大于阈值则判定为音画同步,反之音画不同步。
但是,上述方式具有如下缺陷:
1)视频音画不同步的情况很复杂,训练集很难覆盖复杂的场景。
2)模型输出的同步分数不准确,生产环境中经常遇到判断错误的案例。
3)通过分数与阈值的比较判断逻辑过于简单,容错性较低。
发明内容
本申请实施例的目的在于提供一种活体检测方法、装置、设备和存储介质,显著提高了活体检测的准确率,漏检率下降。
本申请实施例第一方面提供了一种活体检测方法,包括:获取待检测的多媒体数据;提取所述多媒体数据中的音频数据和视频数据;对所述音频数据进行语音识别,得到语音信息,以及对所述视频数据进行唇语识别,得到唇语信息;根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,并基于所述偏移信息验证所述多媒体数据是否来自于活体。
于一实施例中,所述对所述音频数据进行语音识别,得到语音信息,包括:对所述音频数据逐帧进行语音识别,获取所述音频数据的音频元素信息;提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序,所述语音信息包括:所述音频元素信息、所述音频起始帧序和所述音频终止帧序。
于一实施例中,所述对所述视频数据进行唇语识别,得到唇语信息,包括:对所述视频数据逐帧进行唇语识别,获取所述视频数据的唇语元素信息;提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序,所述唇语信息包括:所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。
于一实施例中,所述根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,包括:对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串;分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对,并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时,基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息。
于一实施例中,所述基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息,包括:针对所述音频元素字符串和所述唇语元素字符串,分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差,并分别计算每个所述元素字符的音频终止时间与视频终止时间之间的终止时间差;计算每个所述元素字符的所述起始时间差与所述终止时间差的时差平均值;计算全部所述元素字符的所述时差平均值的偏移平均值,所述偏移信息为所述偏移平均值。
于一实施例中,所述对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串,包括:将所述音频元素信息转换为所述预设长度的所述音频元素字符串,将所述唇语元素信息转换为所述预设长度的所述唇语元素字符串;分别识别所述音频元素字符串和所述唇语元素字符串的位数,当识别位数小于第一阈值时,输出为识别错误;当所述识别位数大于或等于所述第一阈值,且小于第二阈值时,以第一预设值代替识别缺失的位;当所述识别位数大于或等于第二阈值时,基于所述音频元素信息、所述唇语元素信息的内容,通过匹配算法,提取匹配准确的位数。
于一实施例中,所述基于所述偏移信息验证所述多媒体数据是否来自于活体,包括:判断所述偏移信息是否在预设偏移范围内;若所述偏移信息在所述预设偏移范围内,输出所述多媒体数据来自于活体,否则,输出所述多媒体数据并非来自于活体。
本申请实施例第二方面提供了一种活体检测装置,包括:获取模块,用于获取待检测的多媒体数据;提取模块,用于提取所述多媒体数据中的音频数据和视频数据;识别模块,用于对所述音频数据进行语音识别,得到语音信息,以及对所述视频数据进行唇语识别,得到唇语信息;解析模块,用于根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,并基于所述偏移信息验证所述多媒体数据是否来自于活体。
于一实施例中,所述识别模块用于:对所述音频数据逐帧进行语音识别,获取所述音频数据的音频元素信息;提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序,所述语音信息包括:所述音频元素信息、所述音频起始帧序和所述音频终止帧序。
于一实施例中,所述识别模块用于:对所述视频数据逐帧进行唇语识别,获取所述视频数据的唇语元素信息;提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序,所述唇语信息包括:所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。
于一实施例中,所述解析模块用于:对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串;分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对,并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时,基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息。
于一实施例中,所述基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息,包括:针对所述音频元素字符串和所述唇语元素字符串,分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差,并分别计算每个所述元素字符的音频终止时间与视频终止时间之间的终止时间差;计算每个所述元素字符的所述起始时间差与所述终止时间差的时差平均值;计算全部所述元素字符的所述时差平均值的偏移平均值,所述偏移信息为所述偏移平均值。
于一实施例中,所述对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串,包括:将所述音频元素信息转换为所述预设长度的所述音频元素字符串,将所述唇语元素信息转换为所述预设长度的所述唇语元素字符串;分别识别所述音频元素字符串和所述唇语元素字符串的位数,当识别位数小于第一阈值时,输出为识别错误;当所述识别位数大于或等于所述第一阈值,且小于第二阈值时,以第一预设值代替识别缺失的位;当所述识别位数大于或等于第二阈值时,基于所述音频元素信息、所述唇语元素信息的内容,通过匹配算法,提取匹配准确的位数。
于一实施例中,所述解析模块还用于:判断所述偏移信息是否在预设偏移范围内;若所述偏移信息在所述预设偏移范围内,输出所述多媒体数据来自于活体,否则,输出所述多媒体数据并非来自于活体。
本申请实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行本申请实施例第一方面及其任一实施例的方法,以检测出多媒体数据是否来自于活体。
本申请实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。
本申请提供的活体检测方法、装置、设备和存储介质,通过提取多媒体数据中的音频数据和视频数据,然后分别对音频数据进行语音识别,对视频数据进行唇语识别,进而得到语音信息和唇语信息,然后基于语音信息和唇语信息解析得到所述多媒体数据的偏移信息,进而基于所述偏移信息验证所述多媒体数据的是否来自于活体,如此,无需做大量样本标注,节约检测成本,而且综合考虑语音信息和唇语信息的特点,提高了活体检测的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一实施例的电子设备的结构示意图;
图2为本申请一实施例的活体验证场景系统的示意图;
图3为本申请一实施例的活体检测方法的流程示意图;
图4为本申请一实施例的活体检测方法的流程示意图;
图5为本申请一实施例的活体检测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程,以检测出多媒体数据的活体信息。
于一实施例中,电子设备1可以是手机、笔记本电脑、台式计算机、或者多台计算机组成的运算系统等设备。
请参看图2,其为本申请一实施例的活体验证场景系统,包括:服务器20和用户端30。其中,服务器20可以藉由电子设备1实现,服务器20中可以包括:语音识别模块21和唇语识别模块22。在实际活体验证场景中,比如门禁系统,当用户触发身份验证时,服务器20生成随机文本信息,并显示在用户端30,以供用户朗读该随机文本信息,然后用户端30录制用户朗读的多媒体数据,并将多媒体数据上传至服务器20。服务器20基于多媒体数据进行后续的用户身份验证。
于一实施例中,上述基于多媒体数据进行后续的用户身份验证的方法也可以在用户端30执行。
其中,随机文本信息可以是预设长度的随机数字,比如可以是四位随机数字,可以通过一定策略避免相同数字连续出现,以降低识别难度。
然而在针对基于唇语视频进行活体验证的应用场景中,实际应用中往往出现有如下几种恶意攻击类型:
1、多媒体数据中的人物仅完成嘴部动作不发声,视频外有其他人读目标数字。
2、提前录制好音频,并用准备好的音频替换视频中的实际现场音频。
3、提前录制好视频和音频,识别目标数字后,组合四位数字音频和视频。
为了有效防止上述攻击视频带来的安全威胁,本实施例基于语音识别模块21和唇语识别模块22对多媒体数据进行综合分析,得到语音信息和唇语信息,并基于语音信息和唇语信息解析得到多媒体数据的偏移信息,进而基于所述偏移信息验证所述多媒体数据的是否来自于活体。
本实施例的活体检测方案,可以有效防止以上攻击视频,提高活体验证的安全性。
请参看图3,其为本申请一实施例的活体检测方法,该方法可由图1所示的电子设备1来执行,并可以应用于如图2所示的活体验证场景中,以准确检测出多媒体数据的是否来自于活体,提高活体验证的安全性。以服务器20执行该方法为例,该方法包括如下步骤:
步骤301:获取待检测的多媒体数据。
在本步骤中,多媒体数据可以是待验证的用户的实时视频资料,比如可以基于服务器20生成的随机文本内容供用户朗读,此处随机文本内容可以是四位随机数字,通过一定策略避免相同数字连续出现,以降低识别难度。以随机数字为例,用户对获取到的四位随机数字朗读,完成多媒体数据录制,并上传至服务器20。
于一实施例中,若由用户端执行该方法,则用户端获取到多媒体数据后,不需要上传。
步骤302:提取多媒体数据中的音频数据和视频数据。
在本步骤中,服务器20从用户上传的视频资料中提取音频数据,提取过程中可以指定音频采样率,并读取视频帧率作为视频数据。其中,音频数据包含语音信息,视频数据包含用户唇语动作的图像信息。
于一实施例中,可以按照预设音频采样率提取多媒体数据中的音频数据。预设的音频采样率可以由服务器20指定,该音频采样率可以准确的保留原多媒体数据中语音的相关特征,以供后续计算使用。
于一实施例中,可以按照预设视频帧率读取多媒体数据中的视频数据。预设的视频帧率是服务器20读取视频数据的帧率,该视频帧率需要保证读取到的视频数据保留了原多媒体数据中的视频特征,以供后续计算使用。
步骤303:对音频数据进行语音识别,得到语音信息,以及对视频数据进行唇语识别,得到唇语信息。
在本步骤中,可以基于神经网络算法,对用户对四位随机数朗读的音频数据逐帧进行语音识别,得到语音信息。并可以基于神经网络算法,对用户朗读四位随机数的视频数据逐帧进行唇语识别,即识别视频图像中的用户的唇语动作,获得唇语信息。
步骤304:根据语音信息和唇语信息解析得到音频数据和视频数据之间的偏移信息,并基于偏移信息验证多媒体数据的是否来自于活体。
在本步骤中,为了有效防止上述攻击视频带来的安全威胁,可以综合对语音信息和唇语信息在音画同步上的特征进行解析,得到多媒体数据的偏移信息,并基于偏移信息验证多媒体数据的是否来自于活体。
上述活体检测方法,通过提取多媒体数据中的音频数据和视频数据,然后分别对音频数据进行语音识别,对视频数据进行唇语识别,进而得到语音信息和唇语信息,然后基于语音信息和唇语信息解析得到多媒体数据的偏移信息,进而基于偏移信息验证多媒体数据的是否来自于活体,如此,无需做大量样本标注,节约检测成本,而且综合考虑语音信息和唇语信息的特点,提高了活体检测的准确度。可以有效防止以上攻击视频,提高活体验证的安全性。
请参看图4,其为本申请一实施例的活体检测方法,该方法可由图1所示的电子设备1来执行,并可以应用于如图2所示的活体验证场景中,以准确检测出多媒体数据的是否来自于活体,提高活体验证的安全性。该方法包括如下步骤:
步骤401:获取待检测的多媒体数据。详细参见上述实施例中对步骤301的描述。
步骤402:提取多媒体数据中的音频数据和视频数据。详细参见上述实施例中对步骤302的描述。
步骤403:对音频数据逐帧进行语音识别,获取音频数据的音频元素信息。
在本步骤中,可以基于神经网络算法,对用步骤402中获得的音频数据逐帧进行语音识别,获取用户朗读随机数的文本信息。
于一实施例中,语音识别过程可以如下:
4a):采集预设数量的数字音频(比如人朗读数字0-9的音频),并进行标注,区分训练集、验证集、测试集。
4b):对训练集的音频进行神经网络训练,同时用验证集对训练过程的中间结果进行验证(实时调整训练参数),当训练精度和验证精度达到一定阈值时,得到语音识别模型。
4c):用测试集对步骤4b)中得到的语音识别模型测试,衡量模型的性能。
4d):逐帧输入步骤402中获得的音频数据至语音识别模型,模型计算出音频数据的音频元素信息。
步骤404:提取音频元素信息中每个元素的音频起始帧序和音频终止帧序,语音信息中包括:音频元素信息、音频起始帧序和音频终止帧序。
在本步骤中,上述得到的音频元素信息中,至少包括每个元素的音频起始帧序和音频终止帧序,比如每个随机数字的音频起始帧序和音频终止帧序,将其从音频元素信息中提取出来。
步骤405:对视频数据逐帧进行唇语识别,获取视频数据的唇语元素信息。
在本步骤中,可以基于神经网络算法,对用步骤402中获得视频数据逐帧进行唇语识别,获取唇语元素信息。
于一实施例中,唇语识别的过程可以如下:
6a):采集预设数量的数字唇语视频,比如可以是人在朗读数字0-9时拍摄的唇语图片,并进行特征标注,区分训练集、验证集、测试集。
6b):对训练集的视频进行神经网络训练,同时用验证集对训练过程的中间结果进行验证(实时调整训练参数),当训练精度和验证精度达到一定阈值时,得到唇语识别模型。
6c):用测试集对步骤6b)中得到的唇语识别模型测试,衡量模型的性能。
6d):逐帧将步骤402中获得的视频数据输入唇语识别模型,得到模型计算出的视频数据的唇语元素信息。
步骤406:提取唇语元素信息中每个元素的视频起始帧序和视频终止帧序,唇语信息包括:唇语元素信息、视频起始帧序和视频终止帧序。
在本步骤中,上述唇语元素信息中至少包括每个元素的视频起始帧序和视频终止帧序,比如用户朗读每个数字的视频起始帧序和视频终止帧序,将其从唇语元素信息中提取出来。
于一实施例中,步骤403-步骤404与步骤405-步骤406的执行顺序不做限定。
步骤407:对语音信息进行数据标准化处理,并基于音频元素信息生成预设长度的音频元素字符串,对唇语信息进行数据标准化处理,并基于唇语元素信息生成预设长度的唇语元素字符串。
在本步骤中,针对如图2所示的活体验证场景,用户录制的多媒体数据可能存在多种格式,内容也可能繁乱复杂,为了简化数据处理过程,在采集多媒体数据之前,服务器20先生成随机文本信息,比如四位随机数字,供用户朗读,进而录制朗读时的多媒体数据。在后续的数据处理中,需要对音频元素信息和唇语元素信息进行数据标准化处理,统一成长度固定的数字串。此处的预设长度就是服务器20生成随机数字的长度,比如服务器20生成的随机数字为四位,此处的预设长度就是四位。用户朗读的是四位随机数字,故需要将音频元素信息和唇语元素信息标准化为四位。四位随机数字更有利于检测结果的准确性。
于一实施例中,步骤407具体可以包括:将音频元素信息转换为预设长度的音频元素字符串,将唇语元素信息转换为预设长度的唇语元素字符串。分别识别音频元素字符串和唇语元素字符串的位数,当识别位数小于第一阈值时,输出为识别错误。当识别位数大于或等于第一阈值,且小于第二阈值时,以第一预设值代替识别缺失的位。当识别位数大于或等于第二阈值时,基于音频元素信息、唇语元素信息的内容,通过匹配算法,提取匹配准确的位数。
于一实施例中,以预设长度为四位为例,在对音频元素信息和唇语元素信息进行数据标准化处理时,可以过滤掉不足三位的错误结果,并以-1代替识别缺失的位。若位数超过四位,通过匹配算法算出识别准确的位,同样以-1代替识别不准确的位。
于一实施例中,以四位随机数字为例,数据标准化处理过程可以如下:首先分别将音频元素信息转换为四位的音频元素字符串,将唇语元素信息转换为四位的唇语元素字符串,分别判断音频元素字符串和唇语元素字符串的位数,当位数小于三位时,判断为识别错误,终止验证流程。当位数等于三位时,以-1代替识别缺失的位。当位数恰好等于四位,直接输出识别结果。当位数大于四位时,基于文本信息的内容,通过匹配算法,提取匹配准确的位,当匹配准确的位数小于四位时,以-1代替缺失的位。比如假设音频元素信息或者唇语元素信息内容为(12345)五位随机数字,而服务器20生成的四位随机数字为(1234),则可以从(12345)中提取出内容和位数为(1234)的部分作为标准化处理的结果。
步骤408:分别将音频元素字符串和唇语元素字符串与预设字符串进行比对,并在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时,基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序,计算多媒体数据的偏移信息。
于一实施例中,在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时,步骤408可以包括:
S81:针对音频元素字符串和元素字符串唇语元素字符串,分别计算每个元素的音频起始时间与视频起始时间之间的起始时间差,并分别计算每个元素的音频终止时间与视频终止时间之间的终止时间差。
在本步骤中,元素就是文本内容中的一个发音元素,四位随机数字为(1234),那么1、2、3、4就是四个元素。可以遍历音频元素字符串和元素字符串唇语元素字符串,采用如下公式计算每个元素的:
音频起始时间:audio_start=(audio_fstart/audio_sampling_rate)*1000。
音频终止时间:audio_end=(audio_fend/audio_sampling_rate)*1000。
视频起始时间:lip_start=(lip_fstart/fps)*1000。
视频终止时间:lip_end=(lip_fend/fps)*1000。
然后计算每个元素的:
起始时间差:abs(lip_start–audio_start)。
终止时间差:abs(lip_end–audio_end)。
其中,audio_fstart为音频元素字符串中每个元素的音频起始帧序,audio_fend为音频元素字符串中每个元素的音频终止帧序,audio_sampling_rate音频采样率。lip_fstart为元素字符串唇语元素字符串中每个元素视频起始帧序,lip_fend为元素字符串唇语元素字符串中每个元素视频终止帧序,fps为预设的视频帧率。abs()为求绝对值。
S82::计算每个元素的起始时间差与终止时间差的时差平均值。
在本步骤中,可以采用如下公式计算时差平均值:
diff_time=(abs(lip_start–audio_start)+abs(lip_end–audio_end))/2。
其中,diff_time表示偏移量公式(单位ms),其函数功能为返回两个时间变量之间的时间间隔,即计算两个时刻之间的时间差,此处diff_time的结果表示每个元素的时差平均值。
S83::计算全部元素的时差平均值的偏移平均值,偏移信息为偏移平均值。
在本步骤中,可以对所有元素的时差平均值取均值,以四位随机数字为例,具体可以采用如下公式计算偏移平均值:
result=(diff_time[0]+diff_time[1]+diff_time[2]+diff_time[3])/4。
其中,result为偏移平均值,diff_time[0]表示第1位数字的时差平均值,diff_time[1]表示第2位数字的时差平均值,diff_time[2]表示第3位数字的时差平均值,diff_time[3]表示第4位数字的时差平均值。
通过上述步骤S81至步骤S83,实现了基于音频元素字符串和唇语元素字符串,计算多媒体数据的偏移平均值,就是偏移信息。
步骤409:判断偏移信息是否在预设偏移范围内。若是,进入步骤410,否则进入步骤411。
在本步骤中,预设偏移范围可以经过实际测试数据统计得到,其可以表征活体录制的多媒体数据的特征。
步骤410:输出多媒体数据来自于活体。
在本步骤中,若偏移信息在预设偏移范围内,说明该多媒体数据的偏移信息足够小,是一般活体发出的实际行为产生的多媒体数据,则输出多媒体数据来自于活体。
步骤411:输出多媒体数据并非来自于活体。
在本步骤中,若偏移信息不在预设偏移范围内,说明当前的多媒体数据可能不是活体发出的行为,或者是恶意合成的攻击数据,则输出多媒体数据并非来自于活体,并且在如图2所示的活体验证场景中,本次验证不通过。可以发出警示。
上述活体检测方法,显著提高了活体检测的准确率,漏检率下降。对于一些部分少量音画不同步的视频提供了容错率。节省了原来对大量音画不同步视频的标注成本。
请参看图5,其为本申请一实施例的活体检测装置500,该装置应用于图1所示的电子设备1,并可以应用于如图2所示的活体验证场景中,以准确检测出多媒体数据的是否来自于活体,提高活体验证的安全性。该装置包括:获取模块501、提取模块502、识别模块503和解析模块504,各个模块的原理关系如下:
获取模块501,用于获取待检测的多媒体数据。详细参见上述实施例中对步骤301的描述。
提取模块502,用于提取多媒体数据中的音频数据和视频数据。详细参见上述实施例中对步骤302的描述。
识别模块503,用于对音频数据进行语音识别,得到语音信息,以及对视频数据进行唇语识别,得到唇语信息。详细参见上述实施例中对步骤303的描述。
解析模块504,用于根据语音信息和唇语信息解析得到音频数据和视频数据之间的偏移信息,并基于偏移信息验证多媒体数据的是否来自于活体。详细参见上述实施例中对步骤304的描述。
于一实施例中,识别模块503用于:对音频数据逐帧进行语音识别,获取音频数据的音频元素信息。提取音频元素信息中每个元素的音频起始帧序和音频终止帧序,语音信息包括:音频元素信息、音频起始帧序和音频终止帧序。
于一实施例中,识别模块503用于:对视频数据逐帧进行唇语识别,获取视频数据的唇语元素信息。提取唇语元素信息中每个元素的视频起始帧序和视频终止帧序,唇语信息包括:唇语元素信息、视频起始帧序和视频终止帧序。
于一实施例中,解析模块504用于:对语音信息进行数据标准化处理,并基于音频元素信息生成预设长度的音频元素字符串,对唇语信息进行数据标准化处理,并基于唇语元素信息生成预设长度的唇语元素字符串。分别将音频元素字符串和唇语元素字符串与预设字符串进行比对,并在音频元素字符串和唇语元素字符串均与预设字符串的语义匹配时,基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序,计算多媒体数据的偏移信息。
于一实施例中,基于音频元素字符串、音频起始帧序、音频终止帧序、唇语元素字符串、视频起始帧序和视频终止帧序,计算多媒体数据的偏移信息,包括:针对音频元素字符串和唇语元素字符串,分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差,并分别计算每个元素字符的音频终止时间与视频终止时间之间的终止时间差。计算每个元素字符的起始时间差与终止时间差的时差平均值。计算全部元素字符的时差平均值的偏移平均值,偏移信息为偏移平均值。
于一实施例中,对语音信息进行数据标准化处理,并基于音频元素信息生成预设长度的音频元素字符串,对唇语信息进行数据标准化处理,并基于唇语元素信息生成预设长度的唇语元素字符串,包括:将音频元素信息转换为预设长度的音频元素字符串,将唇语元素信息转换为预设长度的唇语元素字符串。分别识别音频元素字符串和唇语元素字符串的位数,当识别位数小于第一阈值时,输出为识别错误。当识别位数大于或等于第一阈值,且小于第二阈值时,以第一预设值代替识别缺失的位。当识别位数大于或等于第二阈值时,基于音频元素信息、唇语元素信息的内容,通过匹配算法,提取匹配准确的位数。
于一实施例中,解析模块504还用于:判断偏移信息是否在预设偏移范围内。若偏移信息在预设偏移范围内,输出多媒体数据来自于活体,否则,输出多媒体数据并非来自于活体。
上述活体检测装置500的详细描述,请参见上述实施例中相关方法步骤的描述。
本发明实施例还提供了一种非暂态电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等。存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种活体检测方法,其特征在于,包括:
获取待检测的多媒体数据;
提取所述多媒体数据中的音频数据和视频数据;
对所述音频数据进行语音识别,得到语音信息,以及对所述视频数据进行唇语识别,得到唇语信息;
根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,并基于所述偏移信息验证所述多媒体数据是否来自于活体。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频数据进行语音识别,得到语音信息,包括:
对所述音频数据逐帧进行语音识别,获取所述音频数据的音频元素信息;
提取所述音频元素信息中每个元素的音频起始帧序和音频终止帧序,所述语音信息包括:所述音频元素信息、所述音频起始帧序和所述音频终止帧序。
3.根据权利要求2所述的方法,其特征在于,所述对所述视频数据进行唇语识别,得到唇语信息,包括:
对所述视频数据逐帧进行唇语识别,获取所述视频数据的唇语元素信息;
提取所述唇语元素信息中每个元素的视频起始帧序和视频终止帧序,所述唇语信息包括:所述唇语元素信息、所述视频起始帧序和所述视频终止帧序。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,包括:
对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串;
分别将所述音频元素字符串和所述唇语元素字符串与预设字符串进行比对,并在所述音频元素字符串和所述唇语元素字符串均与所述预设字符串的语义匹配时,基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述音频元素字符串、所述音频起始帧序、所述音频终止帧序、所述唇语元素字符串、所述视频起始帧序和所述视频终止帧序,计算所述多媒体数据的偏移信息,包括:
针对所述音频元素字符串和所述唇语元素字符串,分别计算每个元素字符的音频起始时间与视频起始时间之间的起始时间差,并分别计算每个所述元素字符的音频终止时间与视频终止时间之间的终止时间差;
计算每个所述元素字符的所述起始时间差与所述终止时间差的时差平均值;
计算全部所述元素字符的所述时差平均值的偏移平均值,所述偏移信息为所述偏移平均值。
6.根据权利要求4所述的方法,其特征在于,所述对所述语音信息进行数据标准化处理,并基于所述音频元素信息生成预设长度的音频元素字符串,对所述唇语信息进行数据标准化处理,并基于所述唇语元素信息生成所述预设长度的唇语元素字符串,包括:
将所述音频元素信息转换为所述预设长度的所述音频元素字符串,将所述唇语元素信息转换为所述预设长度的所述唇语元素字符串;
分别识别所述音频元素字符串和所述唇语元素字符串的位数,当识别位数小于第一阈值时,输出为识别错误;
当所述识别位数大于或等于所述第一阈值,且小于第二阈值时,以第一预设值代替识别缺失的位;
当所述识别位数大于或等于第二阈值时,基于所述音频元素信息、所述唇语元素信息的内容,通过匹配算法,提取匹配准确的位数。
7.根据权利要求1所述的方法,其特征在于,所述基于所述偏移信息验证所述多媒体数据是否来自于活体,包括:
判断所述偏移信息是否在预设偏移范围内;
若所述偏移信息在所述预设偏移范围内,输出所述多媒体数据来自于活体,否则,输出所述多媒体数据并非来自于活体。
8.一种活体检测装置,其特征在于,包括:
获取模块,用于获取待检测的多媒体数据;
提取模块,用于提取所述多媒体数据中的音频数据和视频数据;
识别模块,用于对所述音频数据进行语音识别,得到语音信息,以及对所述视频数据进行唇语识别,得到唇语信息;
解析模块,用于根据所述语音信息和所述唇语信息解析得到所述音频数据和所述视频数据之间的偏移信息,并基于所述偏移信息验证所述多媒体数据是否来自于活体。
9.一种电子设备,其特征在于,包括:
存储器,用以存储计算机程序;
处理器,用以执行如权利要求1至7中任一项所述的方法,以检测出多媒体数据是否来自于活体。
10.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至7中任一项所述的方法。
CN202011587469.1A 2020-12-29 2020-12-29 活体检测方法、装置、设备和存储介质 Pending CN112733636A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011587469.1A CN112733636A (zh) 2020-12-29 2020-12-29 活体检测方法、装置、设备和存储介质
PCT/CN2021/120422 WO2022142521A1 (zh) 2020-12-29 2021-09-24 活体检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011587469.1A CN112733636A (zh) 2020-12-29 2020-12-29 活体检测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112733636A true CN112733636A (zh) 2021-04-30

Family

ID=75607094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011587469.1A Pending CN112733636A (zh) 2020-12-29 2020-12-29 活体检测方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN112733636A (zh)
WO (1) WO2022142521A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810680A (zh) * 2021-09-16 2021-12-17 深圳市欢太科技有限公司 音频同步检测方法及装置、计算机可读介质和电子设备
WO2022142521A1 (zh) * 2020-12-29 2022-07-07 北京旷视科技有限公司 活体检测方法、装置、设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209175B (zh) * 2022-07-18 2023-10-24 深圳蓝色鲨鱼科技有限公司 一种语音传输方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834900A (zh) * 2015-04-15 2015-08-12 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN110704683A (zh) * 2019-09-27 2020-01-17 深圳市商汤科技有限公司 音视频信息处理方法及装置、电子设备和存储介质
US20200218916A1 (en) * 2018-09-07 2020-07-09 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for anti-spoofing detection, and storage medium
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN105426723A (zh) * 2015-11-20 2016-03-23 北京得意音通技术有限责任公司 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统
CN108038443A (zh) * 2017-12-08 2018-05-15 深圳泰首智能技术有限公司 见证服务测试结果的方法与装置
WO2019113776A1 (zh) * 2017-12-12 2019-06-20 福建联迪商用设备有限公司 一种基于人脸和声纹的支付认证方法及终端
CN112733636A (zh) * 2020-12-29 2021-04-30 北京旷视科技有限公司 活体检测方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834900A (zh) * 2015-04-15 2015-08-12 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
US20200218916A1 (en) * 2018-09-07 2020-07-09 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for anti-spoofing detection, and storage medium
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN110704683A (zh) * 2019-09-27 2020-01-17 深圳市商汤科技有限公司 音视频信息处理方法及装置、电子设备和存储介质
CN111881726A (zh) * 2020-06-15 2020-11-03 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142521A1 (zh) * 2020-12-29 2022-07-07 北京旷视科技有限公司 活体检测方法、装置、设备和存储介质
CN113810680A (zh) * 2021-09-16 2021-12-17 深圳市欢太科技有限公司 音频同步检测方法及装置、计算机可读介质和电子设备

Also Published As

Publication number Publication date
WO2022142521A1 (zh) 2022-07-07

Similar Documents

Publication Publication Date Title
CN112733636A (zh) 活体检测方法、装置、设备和存储介质
CN106601243B (zh) 一种视频文件识别方法及装置
CN112328999B (zh) 双录质检方法、装置、服务器及存储介质
CN110047095B (zh) 基于目标检测的跟踪方法、装置及终端设备
CN109361825A (zh) 会议纪要记录方法、终端及计算机存储介质
CN110378228A (zh) 面审视频数据处理方法、装置、计算机设备和存储介质
CN109118420B (zh) 水印识别模型建立及识别方法、装置、介质及电子设备
CN109785846B (zh) 单声道的语音数据的角色识别方法及装置
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
US9626575B2 (en) Visual liveness detection
US20070220265A1 (en) Searching for a scaling factor for watermark detection
CN112434178B (zh) 图像分类方法、装置、电子设备和存储介质
CN112380922B (zh) 复盘视频帧确定方法、装置、计算机设备和存储介质
CN112232276A (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
US9317887B2 (en) Similarity calculating method and apparatus
CN112351047B (zh) 基于双引擎的声纹身份认证方法、装置、设备及存储介质
CN117235406A (zh) 基于区块链的信息内容安全的管控方法及装置
CN111881734A (zh) 一种自动截取目标视频的方法和装置
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
CN115331703A (zh) 一种歌曲人声检测方法及装置
CN114140850A (zh) 人脸识别方法、装置和电子设备
CN113642443A (zh) 模型的测试方法、装置、电子设备及存储介质
WO2019120247A1 (zh) 一种文字校验方法及装置
CN115250375B (zh) 一种基于固定话术的音视频内容合规性检测方法及装置
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430