具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
根据特定说话人的声音信息对其进行身份认证时,如果待认证对象为非入侵者,则待认证对象通过其唇部发出声音时(比如,诵读相应的文本内容时),根据声音采集装置采集的声音信息确定的声源位置信息,与根据图像采集装置采集的图像确定的待认证对象的唇部位置信息之间的匹配程度应当相对较高,即声源位置信息与唇部位置信息之间的匹配程度应当满足一定的预设条件;反之,如果确定的声源位置信息与唇部位置信息之间的匹配程度较低,即声源位置信息与唇部位置信息之间的匹配程度不满足一定的预设条件,则说明声音采集装置采集的声音信息对应的声源并非待认证对象的唇部,声源极有可能为存储有特定说话人的声音信息的音频播放器,声音采集装置采集的声音信息可能为音频播放器播放的、根据预先获取的特定说话人的语音语料编辑的、用于冒充特定说话人通过身份认证的语音信息,即待认证对象可能为冒充特定说话人的入侵者。
有鉴于此,针对前述现有技术可能无法有效的避免入侵者冒充特定说话人通过身份认证的问题,本申请的基本构思是提出了一种身份认证方法、装置、计算机可读存储介质及电子设备,具体地,可以根据声音采集装置采集的声音信息确定声音信息对应的声源的位置信息,然后根据图像采集装置采集的图像确定待认证对象的唇部位置信息,进一步确定声源位置信息与唇部位置信息的第一匹配程度之后,当且仅当确定的第一匹配程度满足第一预设条件时,才根据声音采集装置采集的声音信息对待认证对象进行身份认证。基于该基本构思的本申请的各个实施例,能够避免入侵者利用音频播放器播放根据预先获取的特定说话人的语音语料编辑的语音信息来冒充特定说话人,可更为有效的避免入侵者冒充特定说话人通过身份认证。
在介绍本申请的基本构思之后,下面将结合附图来具体介绍本申请所述提供技术方案的各种非限制性实施例。
示例性系统
图1是本申请一示例性实施例提供的身份认证系统的结构示意图。
如图1所示,本申请一示例性实施例提供的身份认证系统,包括:声音采集装置10、图像采集装置20以及电子设备90,声音采集装置10及图像采集装置20分别与电子设备90连接,电子设备90上可部署本申请下述示例性装置部分提供的任一种身份认证装置,电子设备90的处理器可执行部署的身份认证装置中一个或多个模块、单元所分别对应的可执行指令,实现本申请下述示例性方法部分提供的任一种身份认证方法。
一般的,声音采集装置可以是由多个麦克风组成的麦克风阵列;图像采集装置可以是单目相机。
显而易见的,声音采集装置及图像采集装置可分别设置于第一指定位置和第二指定位置,工作可对声音采集装置中各个麦克风的位置信息以及图像采集装置的工况参数(包括图像采集装置的内参和外参)进行标定之后,将声音采集装置中各个麦克风的位置信息以及图像采集装置的工况参数写入电子设备内的配置文件,以便电子设备可基于写入配置文件的声音采集装置中各个麦克风的位置信息以及图像采集装置的工况参数,实现本申请示例性方法部分提供的任一种身份认证方法
示例性方法
图2是本申请一示例性实施例提供的一种身份认证方法的流程示意图。本实施例可应用在电子设备上。
如图2所示,本申请一示例性实施例提供的一种身份认证方法,可以包括如下步骤201~步骤204:
步骤201,根据声音采集装置采集的声音信息,确定所述声音信息对应的声源位置信息。
具体地,声音采集装置可以包括由多个麦克风组成的麦克风阵列,还可以包括实现相应信号处理及数据传输功能的模数转换器、外围电路。
设置于第一指定位置的麦克风阵列中的每个麦克风,均可独立采集声音采集装置所在环境的声音信息,标定设置于第一指定位置的麦克风阵列中各个麦克风的位置信息之后,即可基于声音时间差(Time-Delay Estimation,TDE)的声源定位技术对各个麦克风分别采集的声音信息进行处理,得到麦克风阵列采集的声音信息所对应的声源的声源位置信息。
需要说明的是,声音采集装置所在环境中可能还存在除待认证对象或音频播放器之外的其他噪声源,声音采集装置采集的声音信息可能对应一个或多个声源,即此处确定的声源位置信息的数量可能为一个或多个。
步骤202,根据图像采集装置采集的图像,确定待认证对象的唇部位置信息。
具体地,可首先标定设置于第二指定位置的图像采集装置的内参及外参,当图像采集装置采集的图像中存在待认证对象的人物图像时,即可根据图像采集装置采集的图像、已经标定的图像采集装置的内参及外参,确定出待认证对象的唇部位置信息。
步骤203,确定所述声源位置信息与所述唇部位置信息的第一匹配程度。
具体地,可根据声源位置信息及唇部位置信息分别对应在相同坐标系下的两个坐标点之间的距离,度量声源位置信息与唇部位置信息的第一匹配程度。显而易见的,声源位置信息及唇部位置信息分别对应在相同坐标系下的两个坐标点之间的距离越小,则声源位置信息与唇部位置信息的第一匹配程度越大;反之,声源位置信息及唇部位置信息分别对应在相同坐标系下的两个坐标点之间的距离越大,则声源位置信息与唇部位置信息的第一匹配程度越小。
不难理解的,也可通过除上述方式外的其他方式确定声源位置信息与唇部位置信息的第一匹配程度。
步骤204,当所述第一匹配程度满足第一预设条件时,根据所述声音信息对待认证对象进行身份认证。
具体地,第一预设条件包括但不限于第一匹配程度大于第一预设阈值,第一预设阈值可以为经验值。
需要说明的是,当声源位置信息的数量为多个时,具体可以检测计算的各个第一匹配程度中的最大值是否满足第一预设条件,如果最大值满足第一预设条件,即可根据声音信息对待认证对象进行身份认证。
该实施例中,当且仅当声源位置信息与唇部位置信息的第一匹配程度满足第一预设条件时,才根据声音采集装置采集的声音信息对待认证对象进行身份认证,能够避免入侵者利用音频播放器播放根据预先获取的特定说话人的语音语料编辑的语音信息来冒充特定说话人,可更为有效的避免入侵者冒充特定说话人通过身份认证。
图3是本申请一示例性实施例提供的另一种身份认证方法的流程示意图。
如图3所示,在上述如图2所示的基础上,本申请一个示例性实施例中,在步骤201之前,还包括如下步骤301:
步骤301,根据图像采集装置采集的图像,确定是否存在待认证对象。
这里,当存在待认证对象时,才可执行步骤201。
具体地,可通过对图像采集装置采集的图像进行人脸检测,当检测到图像采集装置采集的图像中存在人脸图像时,则说明存在待认证对象,反之,当检测到图像采集装置采集的图像中不存在人脸图像时,则说明不存在待认证对象。
一般的,图像采集装置及声音采集装置通常可以在接收到相应的触发信号之后,长期处于监控态,即声音采集装置通常能够持续采集其所在环境的声音信息,图像采集装置通常能够持续采集相应区域的图像;基于此,该实施例当且仅当根据图像采集装置采集的图像确定出存在待认证对象之后,才执行后续处理过程,可较大程度的降低计算量,节约计算资源。
图4是本申请一示例性实施例提供的又一种身份认证方法的流程示意图。
如图4所示,在如图1所示所示实施例的基础上,在步骤201之前,还包括如下步骤401:
步骤401,随机生成提示文本,向待认证对象提供随机生成的所述提示文本。
具体地,可通过显示器和/或扬声器显示/播放随机生成的提示文本,实现向待认证对象提供随机生成的提示文本。
该实施例中,通过向用户提供随机生成的提示文本,可指示待认证对象对向其提供的提示文本进行跟读以发出相应的语音信息,以便后续过程中声音采集装置能够采集到与该提示文本相对应的语音信息,进而实现后续的身份认证过程。
需要说明的是,如图3所示实施例可以与如图4所示实施例相结合,即当且仅当如图3所示实施例的步骤301确定出存在待认证对象之后,才执行如图4所示实施例的步骤401,并继续执行后续步骤201~步骤204。
图5是本申请一示例性实施例提供的再一种身份认证方法的流程示意图。
如图5所示,在如图4所示实施例的基础上,本申请一个示例性实施例中,在步骤204所述根据所述声音信息对待认证对象进行身份认证之前,还包括如下步骤501~步骤504:
步骤501,根据图像采集装置采集的图像,获取待认证对象的唇动信息。
本领域技术人员应当理解的,图像采集装置可连续采集图像,这里可以根据声音采集装置采集声音信息时,与采集的声音信息在时序上相互对应的由图像采集装置采集的若干张图像,获取到待认证对象的唇动信息。
步骤502,确定所述唇动信息对应的当前文本。
本领域技术人员应当理解的,可通过调用预先训练的唇语语音识别模型对唇动信息进行检测,得到唇动信息对应的当前文本。
步骤503,确定所述当前文本与所述提示文本的第二匹配程度。
具体地,随机生成的提示文本可以由若干数字及文字构成,第二匹配程度具体指示了当前文本与提示文本的相似度,第二匹配程度越高,则说明待认证对象在针对向其提供的提示文本进行跟读的可能性越高。
步骤504,检测第二匹配程度是否满足第二预设条件,如果是,则执行所述根据所述声音信息对待认证对象进行身份认证。
具体地,第二预设条件包括但不限于第二匹配程度大于第二预设阈值,第二预设阈值可以为经验值。
随机生成的提示文本具有随机性,通过向待认证对象提供随机生成的提示文本以指示待认证对象对提示文本进行跟读以发出声音信息,当得到的第二匹配程度不满足第二预设条件,则说明声音采集装置采集的声音信息并不是待认证对象对提示文本进行跟读后由其唇部发出的声音信息,待认证对象可能为入侵者;本申请实施例中,当且仅当第二匹配程度满足第二预设条件时,即待认证对象对提示文本进行跟读、声音采集装置采集的声音信息为待认证对象对提示文本进行跟读后由其唇部发出的声音信息时,在第一匹配程度也满足第一预设条件的前提下,才根据声音采集装置采集的声音信息对待认证对象进行身份认证,可更为有效的避免入侵者冒充特定说话人通过身份认证。
图6是如图2至5中任一示例性实施例中提供的方法中唇部检测步骤的流程示意图。
如图6所示,在如图2至5中任一所示实施例的基础上,本申请一个示例性实施例中,唇部检测步骤202具体可以包括如下步骤2021~步骤2023:
步骤2021,在图像采集装置采集的图像中检测待认证对象的人物图像。
步骤2022,在检测的人物图像中检测待认证对象的唇部图像。
步骤2023,根据检测的人物图像在其所属的图像中的第一位置、检测的唇部图像在其所属的人物图像中的第二位置,确定待认证对象的唇部位置信息。
具体地,在已经标定图像采集装置的工况参数(包括图像采集装置的内参及外参)的前提下,可根据检测的人物图像在其所属的图像中的第一位置及图像采集装置的工况参数,计算出待认证对象与图像采集装置之间的距离,然后根据唇部图像在其所属的人物图像中的第二位置,得到待认证对象的唇部相对于其所在位置的地面的高度,之后,即可根据待认证对象与图像采集装置之间的距离、待认证对象的唇部相对于地面的高度以及图像采集装置的工况参数,计算出待认证对象的唇部在相应的空间坐标系下的空间位置,从而基于该空间位置得到待认证对象的唇部位置信息。
示例性装置
基于与本申请方法实施例相同的构思,本申请实施例还提供了一种身份认证装置。
图7为本申请一示例性实施例提供的一种身份认证装置的结构示意图。
如图7所示,本申请一示例性实施例提供的一种身份认证装置,包括:
声源定位模块701,用于根据的声音采集装置采集的声音信息,确定所述声音信息对应的声源位置信息;
唇部定位模块702,用于根据的图像采集装置采集的图像,确定待认证对象的唇部位置信息;
位置匹配模块703,用于确定所述声源定位模块701确定的所述生源位置信息与所述唇部定位模块702确定的所述唇部位置信息的第一匹配程度;
识别认证模块704,用于当所述位置匹配模块703确定的所述第一匹配程度满足第一预设条件时,根据所述声音信息对待认证对象进行身份认证。
图8是本申请一示例性实施例提供的另一种身份认证装置的结构示意图。
如图8所示,本申请一个示例性实施例中,所述装置还包括:对象检测模块801,用于根据图像采集装置采集的图像,确定是否存在待认证对象,当存在待认证对象时,可触发声源定位模块701或文本提示模块802。
如图8所示,本申请一个示例性实施例中,所述装置,还包括:文本提示模块802,用于随机生成提示文本,向待认证对象提供随机生成的所述提示文本。
如图8所示,本申请一个示例性实施例中,所述装置还包括:
唇动信息获取模块803,用于根据的图像采集装置采集的图像,获取待认证对象的唇动信息;
文本识别模块804,用于确定所述唇动信息获取模块803获取的所述唇动信息对应的当前文本;
文本匹配模块805,用于确定所述文本识别模块804确定的所述当前文本与所述文本提示模块802生成的所述提示文本的第二匹配程度,当所述第二匹配程度满足第二预设条件时,触发所述识别认证模块。
本申请一个示例性实施例中,所述唇部定位模块702,包括:
人物图像检测单元,用于在图像采集装置采集的图像中检测待认证对象的人物图像;
唇部图像检测单元,用于在检测的人物图像中检测待认证对象的唇部图像;
唇部位置确定单元,用于根据检测的人物图像在其所属的图像中的第一位置、检测的唇部图像在其所属的人物图像中的第二位置,确定待认证对象的唇部位置信息。
示例性电子设备
图9为本申请一示例性实施例提供的电子设备的结构示意图。
如图9所示,电子设备90包括一个或多个处理器901和存储器902。
处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。
存储器902可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行所述程序指令,以实现上文所述的本申请的各个实施例的身份认证方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备90还可以包括:输入装置903和输出装置904,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置903可以是通信网络连接器;此外,该输入装置903还可以包括例如键盘、鼠标等等。该输出装置904可以向外部输出各种信息,包括确定出的目标成像距离对应的感兴趣区域的位置及尺寸,还可以包括根据确定的目标成像距离对应的感兴趣区域的位置及尺寸、从图像采集装置采集的图像中选取的感兴趣区域等。该输出装置904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备90中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的身份认证方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的身份认证方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。