CN111492373A

CN111492373A - 与基于声学的回声签名的用户认证相关联的系统和方法

Info

Publication number: CN111492373A
Application number: CN201880081085.7A
Authority: CN
Inventors: 叶凡; 周兵
Original assignee: Research Foundation of State University of New York
Current assignee: Research Foundation of State University of New York
Priority date: 2017-10-30
Filing date: 2018-10-29
Publication date: 2020-08-04
Also published as: US20200309930A1; US11513205B2; CA3080399A1; WO2019089432A1

Abstract

公开了与基于涉及与设备相关联的回声签名的联合特征表示来预测设备用户的认证相关联的系统。该系统执行包括响应于与设备相关联的配置文件的处理请求而发射声学信号的操作。该系统接收基于从相对于离散时段的与用户相关联的一个或更多个深度部分的独特轮廓的声学信号的反射而定制的一组回声声学信号。提取与回声声学信号相关联的一个或更多个区域分段以训练分类模型。基于所提取的一个或更多个区域分段生成分类模型。基于分类模型生成联合特征表示。在联合特征表示的预测中使用基于向量的分类模型。该系统基于联合特征表示的预测来确定联合特征表示是否与回声签名相关联。还公开了相应的方法和计算机可读设备。

Description

与基于声学的回声签名的用户认证相关联的系统和方法

相关申请的交叉引用

本非临时申请要求于2017年10月30日提交的美国临时申请No.62/578,724、于2018年6月4日提交的美国临时申请No.62/680,035以及于2018年9月21日提交的美国临时申请No.62/734,557的权益，为了所有目的，每个美国临时申请的说明书的全部内容均通过引用结合在本申请中。

政府许可权声明

本发明是在由国家科学基金会授予的合同编号NSF 1730291下，在政府支持下进行的。政府享有本发明的某些权利。

技术领域

本公开涉及一种与生成基于声学的回声签名相关联的系统和方法，该基于声学的回声签名是与设备的原始用户相关联的独特的基于回声的印记，该印记在设备的当前用户的认证的预测期间被实施。更具体地，本发明涉及一种新颖的训练和增强分类模型的系统和方法，以便在设备的当前用户配置文件的认证期间，预测相对于时段的、包括用户的声学特征和视觉标志性特征的联合特征表示的相应的认证。

背景技术

历史上，智能手机上的用户认证对于许多重要的日常应用(诸如社交网络、购物、存钱和其他现代活动等)而言是关键的。用户认证的核心是在期望的安全性和便利性之间的平衡。解决方案必须是安全还容易实施的。为解决这个问题已经进行了一系列努力。

最基本和传统的使用PIN码的方法有着可用性(例如，用户忘记了密码)和安全性(例如，肩窥攻击)的双重问题。基于脸部的认证可以容易地被用户的图像或视频文件欺骗。例如，任何简单的扭曲(诸如要求眨眼)都容易受到视频文件攻击。虹膜扫描很可能是最安全的方法，然而，它需要当前在大多数商业上可购得的移动设备上难以利用的特殊的传感器。

指纹传感器虽然便于认证，但是正面临由不断增加的屏幕尺寸的趋势造成的实际挑战，这种趋势为指纹传感器留下了很小的空间。另一个示例，苹果公司的Face

将点投影仪、泛光照明器和红外深度传感器封装在小区域中，以便感测脸部的3D形状，从而通常在节省空间的同时实现有效的安全性。然而，特殊的传感器仍然使用宝贵的正面空间，并且对于消费者来说在已经昂贵的设备上花费额外的费用(其材料账单的5％)。

因此，智能手机或其他移动设备上的高效且有效的用户认证应当满足用户的安全性和便利性两者，这仍然有固有的困难的平衡技术。如上所述，苹果公司的Face

是这种努力的最新成果，但是其代价是需要点投影仪、泛光照明器和红外摄像头的附加硬件。

具体地，智能手机认证的历史包括使用传统的个人识别码(PIN)或文本/图形密码，文本/图形密码最早且仍然最广泛地用于智能手机用户认证。尽管简单，但是PIN或密码可以容易地被用户设备附近的某人窥视。当被录音或者声音被高级学习算法近似模仿时，语音识别很容易被欺骗。呼吸印记

感测用户的呼吸音，当用户具有激烈的运动时，该呼吸音可能显著地改变。基于视觉的脸部识别易受伪装图像的攻击。尽管眨眼可以提高其安全性，但是录好的视频仍然可以欺骗系统。指纹传感器已经取得了极好的安全性和便利性。然而，该传感器占用了许多宝贵的空间，并从来自用户的指纹伪造指纹已经证明是实用的解决方案。更先进的指纹传感器使用超声波来穿透皮肤并构建3D成像，但此类传感器在大多数智能手机上通常是难以利用的，并将增加成本。苹果公司的

使用特殊的原深感摄像头(TrueDepth)传感器，带来额外的硬件成本，并需要重大的设计改变。英特尔的实感

是类似的技术，但是它昂贵且功率计算量大，不适合于移动设备。

因此，需要一种基于声学回声签名的认证系统，该系统利用与用于用户认证的视觉特征相结合的用户的独特面部深度的主动且新颖的声学感测，该声学感测可以使用现有硬件取得高均衡准确度。

为了使用声学信号和视觉方面取得有弹性的、安全的和易于使用的认证，仍有以下挑战：1)回声信号对用户的脸部和设备之间的相对位置(即，姿势)高度敏感，这使得更难以提取可靠的不敏感姿势特征以用于鲁棒的认证；2)智能手机通常包括多个扬声器和麦克风。确定哪些扬声器和麦克风是最合适的以及什么是要实施的最佳声信号对于认证性能仍是关键的；以及3)对于权宜的用户注册和实时认证，需要复杂的信号处理、特征提取和机器学习技术。

因此，期望实施一种嵌入在智能手机或移动设备中的、无需任何附加硬件(诸如传感器)的用户认证系统。

还期望实施一种基于声学的回声签名认证系统和相关方法，其从用户的智能手机设备的耳机扬声器发出几乎无声的信号，以便“照亮”用户的脸部。从回声中提取的声学特征与从前置摄像头检测到的视觉面部标志组合并用于认证用户，而不需要向现有智能手机设备添加任何附加硬件组件。

由于回声签名声学特征取决于用户的独特3D面部几何形状，因此该回声签名系统不会像2D视觉脸部识别系统那样容易被图像或视频欺骗。这样的系统可以仅用商用硬件来实施，从而避免了由例如

公司的Face

所实施的解决方案中的特殊传感器的额外成本。对人和非人对象(诸如图像、照片和雕像)的实验表明，回声签名以93.75％的均衡准确度和93.50％的F分数执行，同时平均精度是98.05％，并且没有观察到基于图像/视频的攻击在任何欺骗中成功。

还期望实施一种新颖的用户认证系统，该系统通过利用现有的耳机扬声器和前置摄像头来创建回声签名，这可以容易地部署在大多数手机上。不需要昂贵的特殊传感器(例如，深度或虹膜)，其也不需要更多硬件空间来将这些组件嵌入在设备中。回声签名认证系统将来自定制的CNN特征提取器的声学特征与来自视觉算法的面部标志性特征组合作为用户的联合特征描述。

还期望实施不需要用户记住和使用任何密码的认证，从而避免类似PIN码的可用性问题。声学特征取决于个人用户的3D面部几何形状，因此相较容易欺骗的、基于2D视觉的方法的图像/视频攻击更有弹性。类似于FaceID，回声签名不需要用户直接触摸屏幕或手机，从而避免了诸如例如潮湿的手指等给指纹传感器造成困难的问题。

还期望实施一种适于包括任何硬件限制、感测分辨率和人类的可听度在内的注意事项的声学发射信号。在某些实施例或方面中，为了来自脸部的回声的可靠分段而实施新颖的声学信号处理技术。

还期望实施一种新颖的用户认证系统，该系统利用声学和/或视觉来进行安全、方便和有效的用户认证，而不需要除了已知的智能手机设备之外的任何附加的特殊硬件。

还期望实施一种新颖的回声签名认证系统，该系统从智能手机设备的耳机扬声器主动发出几乎听不见的声学信号，以便“照亮”用户的脸部，并且通过从用户的脸部的3D面部轮廓反弹的回声和声学信号中的任一个提取的独特的特征来认证用户。

还期望有效地对抗手持手机姿势中必需的改变，并且替代地实施从用户的3D面部轮廓反弹的回声(即，声学信号)。在某些方面或实施例中，实施了端到端混合机器学习框架，该框架使用卷积神经网络来提取典型的声学特征，并将视觉和声学特征融合到支持向量机(SVM)用于最终认证。

在某些方面或实施例中，训练卷积神经网络(CNN)以提取可靠的声学特征，该声学特征还可以进一步与视觉面部标志位置组合，该视觉面部标志位置又被输入到二进制支持向量机(SVM)分类器中用于用户的最终认证层。

发明内容

根据实施例或方面，本技术针对在注册和/或用户认证期间与预测与用户有关的回声签名相关联的系统和方法。

特别地，根据实施例或方面，当前公开的技术针对与基于关于与设备相关联的回声签名的联合特征表示来预测设备用户的认证相关联的系统和方法。该系统包括回声签名引擎，该回声签名引擎包括执行各种操作的处理器。

根据实施例或方面，公开了一种包括处理器执行如下操作的系统和方法，所述操作包括响应于与设备相关联的配置文件的处理请求而发射声学信号。该系统和方法还包括接收一组回声声学信号，该回声声学信号基于声学信号从相对于离散时段的与用户相关联的一个或更多个深度部分的独特轮廓的反射定制。该系统和方法还包括提取与回声声学信号相关联的一个或更多个区域分段以便训练分类模型。该系统和方法还包括基于所提取的一个或更多个区域分段生成分类模型。该系统和方法还包括基于分类模型提取联合特征表示。该系统和方法还包括生成在联合特征表示的预测中使用的基于向量的分类模型。该系统和方法还包括基于对联合特征表示的预测来确定联合特征表示是否与同设备相关联的配置文件相关联。

根据附加的实施例或方面的系统和方法，该系统和方法还包括分别在下文提供的操作。在又一公开的实施例中，该系统和方法还包括与用户配置文件相关联的联合特征表示包括声学特征。该系统和方法还包括与用户配置文件相关联的联合特征表示包括提取的与相对于离散时段的一个或更多个深度部分的独特轮廓相关联的标志坐标。该系统和方法还包括与用户配置文件相关联的联合特征表示包括提取的与相对于离散时段的一个或更多个深度部分的独特轮廓相关联的声学特征。所述系统和方法还包括，用于处理与计算设备相关联的配置文件的请求包括原始用户配置文件的初始注册或相对于当前时段的用户配置文件的认证以访问计算设备。该系统和方法还包括用于处理与计算设备相关联的配置文件的请求还包括通过将与原始用户配置文件的联合特征表示相关联的向量特征和与相对于当前时段的当前用户配置文件的联合特征表示相关联的向量特征进行比较来认证当前用户配置文件以访问计算设备。

该系统和方法还包括基于与当前用户配置文件的联合特征表示相关联的向量特征相对于与原始用户配置文件的联合特征表示相关联的向量特征的相似性是否高于阈值来认证当前用户配置文件。该系统和方法还包括提取与回声声学信号相关联的一个或更多个区域分段的操作进一步包括识别与接收的声学回声信号相关联的一个或更多个区域分段中的直接路径分段。该系统和方法还包括提取与回声声学信号相关联的一个或更多个区域分段的操作进一步包括识别与接收的回声声学信号相关联的一个或更多个区域分段中的主回声分段。该系统和方法还包括：生成与用户配置文件相关联的联合特征表示还包括用合成的声学特征和增强的标志坐标来增强联合特征表示，该合成的声学特征和增强的标志坐标与相对于变化的离散时段的与用户相关联的一个或更多个深度部分的独特轮廓相关联。该系统和方法还包括提取与合成的声学特征和/或增强的标志坐标相关联的一个或更多个变化的向量特征，用于生成相对于变化的离散时段的联合特征表示。

根据另一公开的实施例，公开了一种存储指令的计算机可读设备，所述指令在由处理设备实行时执行各种操作。还公开了包括响应于与设备相关联的配置文件的处理的请求而发射声学信号的操作。还公开了包括接收一组回声声学信号的操作，所述回声声学信号基于声学信号从相对于离散时段的与用户相关联的一个或更多个深度部分的独特轮廓的反射而定制。还公开了包括提取与回声声学信号相关联的一个或更多个区域分段以训练分类模型的操作。还公开了包括基于所提取的一个或更多个区域分段生成分类模型的操作。还进一步公开了包括基于分类模型提取联合特征表示的操作。还进一步公开了包括生成在联合特征表示的预测中使用的基于向量的分类模型的操作。还进一步公开了包括基于联合特征表示的预测来确定联合特征表示是否与同设备相关联的配置文件相关联。

在又一个公开的实施例中，与用户配置文件相关联的联合特征表示包括声学特征。又一公开的实施例包括与用户配置文件相关联的联合特征表示包括提取的与相对于离散时段的一个或更多个深度部分的独特轮廓相关联的标志坐标。又一公开的实施例包括与用户配置文件相关联的联合特征表示包括提取的与相对于离散时段的一个或更多个深度部分的独特轮廓相关联的声学特征。

通过结合附图阅读以下详细说明，本申请的这些和其它目的、目标和优点将变得显而易见。

附图说明

专利或申请文件可以包含至少一幅实行为彩色的附图。在请求并支付任何必要的费用后，相应的专利局将提供具有任何彩图的本专利或专利申请公开的副本。

在附图的各图中以示例而非限制的方式示出了一些实施例或方面，在附图中：

图1示出了根据本公开的系统和方法的实施例的回声签名系统的示例，其中从耳机扬声器发出声音信号以便生成声学签名来认证用户。

图2A提供了根据本公开的回声签名认证系统和方法的实施例的提取声学特征并将其与视觉面部标志组合的预训练CNN的工作流程的示例性概述。

图2B提供了根据本公开的系统和方法的实施例的用户配置文件注册的示例性概述。

图2C提供了根据本公开的系统和方法的实施例的使用图像和声学特征两者的用户配置文件注册和认证的示例性概述。

图2D提供了根据本公开的系统和方法的实施例的使用图像和声学特征的用户配置文件注册和认证的另一示例性概述。

图2E提供了根据本公开的系统和方法的实施例的三种认证模式和相关应用场景的示例性概述。

图2F提供了根据本公开的系统和方法的实施例的三种认证模式和相关应用场景的示例性概述。

图3示出了在某些实施例中的设备7，该设备7包括通常包括在示例设备7中的扬声器、麦克风和摄像头布局。

图4示出了根据本公开的系统和方法的实施例的在噪声去除后接收信号的样本记录分段的图形表示。

图5示出根据本公开的系统和方法的实施例的来自声学、视觉和校准声学的距离测量值的图形表示。

图6示出了根据本公开的系统和方法的实施例的通过使用分段信号分析在捕捉脸部上的微小表面几何形状时使用调频连续波(FMCW)来确定频移Δf和相应的距离测量值以测量每个回声的到达时间的图形表示。

表1提供了各种CNN层、层类型、输出形状和参数数量的表格表示。

图7提供了根据本公开的系统和方法的实施例示出用于认证的端到端混合机器学习框架的工作流程的示例性概述。

图7A示出了根据本公开的回声签名认证系统和方法的实施例的与通过在生成分类器时提取和融合声学特征和图像特征两者来生成基于图像的CNN和基于声学的CNN相关联的工作流程的示例性概述。

图8A提供了根据本公开的系统和方法的实施例的确定面部标志和相应的脸部跟踪的图示。

图8B提供了根据本公开的系统和方法的实施例的处理根据图8A的所检测的面部标志和面部跟踪以及确定从原始图像到移动图像的摄像头位置之间的相应的标志变换的图示。此外，为了进一步阐明所示出的主题，在下一张附图中还提供了图8A和8B的并排图示。

图9提供了在基于声学的面部回声签名系统和方法的实施例的示例性实施期间的用户认证的图示。

图10A示出了根据本公开的系统和方法的实施例的声学信号预处理的任何示例性方法的流程图。

图10B示出了根据本公开的系统和方法的实施例的形成图10A中所示的声学信号预处理方法的部分的信号分段的任何示例性方法的流程图。

图10C示出了根据本公开的系统和方法的实施例的形成图10A中所示的声学信号预处理方法的分段信号分析的任何示例性方法的流程图。

图10D示出了根据本公开的系统和方法的实施例的FMCW的任何示例性方法的流程图，所述FMCW是用于执行如图10C所示的分段信号分析的部分的可选实施例。

图10E示出了根据本公开的系统和方法的实施例的用于对时空数据进行聚类的示例算法的一部分，该算法用于消除声学距离测量离群值中的误差，特别是从元素q是密度可达的误差。

图10F示出了根据本公开的系统和方法的实施例的用于对时空数据进行聚类的示例算法的一部分，该算法用于消除声学距离测量离群值中的误差，特别是消除p和q通过元素o彼此密度连接的误差。

图10G示出了根据本公开的系统和方法的实施例的用于对时空数据进行聚类的示例算法的一部分，该算法用于消除声学距离测量离群值中的误差，特别是消除核心对象在其给定半径的邻域内并且相对于边界对象和噪声的误差。

图11A示出了根据本公开的系统和方法的实施例的作为如示例图7所示的认证过程的一部分的、执行数据增强以便检测面部标志的示例性方法的流程图。

图11B示出了根据本公开的系统和方法的实施例的作为如示例图7所示的用户认证过程的一部分的、为了检测面部标志和面部跟踪而执行如图11A所示的数据增强的示例性方法的流程图。

图12示出了根据本公开的系统和方法的实施例的也结合图2A描述的用户配置文件注册的示例性方法的流程图。

图13A示出了根据本公开的系统和方法的实施例的也结合图2A描述的声学特征提取的示例性方法的流程图。

图13B示出了根据本公开的系统和方法的实施例的也结合图8A和9描述的在用户认证期间实施的面部对准的示例性方法的流程图。

图14示出了根据本公开的系统和方法的实施例的也结合图2A描述的用户认证的示例性方法的流程图。

图15A示出了根据本公开的系统和方法的实施例的对从CNN提取的特征的不同分类器性能的图形表示。

图15B示出了根据本公开的系统和方法的实施例的使用不同特征的SVM性能的图形表示。

表2提供了具有视觉、声学和联合特征的平均值/中值准确度的表格表示。

图16A提供了仅使用声学特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。

图16B提供了仅使用联合特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。

表3提供了新用户的认证准确度的表格表示。

图17A提供了在不同的训练数据量下(特别是在没有数据增强(DA)的情况下)DA的分类性能比较的图形表示。

图17B提供了在不同训练数据量下(特别是在有数据增强(DA)的情况下)DA的分类性能比较的图形表示。

图18提供了具有不同试验次数的连续认证性能的图形表示。

图19提供了在不同类型的噪声下的性能的表格表示。

图20为表格格式的图形表示，示出了在模型使用附加的～1分钟的数据更新之前/之后具有不同外貌变化的五(5)个用户的平均召回率。

表4为平均/最大资源消耗的表格格式的表示。

表5为不同模式的功耗的表格格式的表示。

图21为以执行根据一个或更多个实施例的方法的计算系统的形式示出的示例性机器的一部分的框图。

图22示出了根据基于声学的回声签名系统的实施例的系统框图，其包括与认证系统相关联的示例电子设备的组成组件。

图23示出了根据包括示例计算系统的、基于声学的回声签名系统的实施例的、包括示例移动设备的组成组件的系统框图。

图24示出了根据包括示例计算系统的、基于声学的回声签名系统的实施例的、包括示例移动设备的组成组件的系统框图。

应当理解，附图中的元件是为了简单和清楚而示出的。为了有助于对所示实施例的较少阻碍的查看，不一定示出在商业上可行的实施例中可能有用或必要的常见但公知的元件。

具体实施方式

在以下描述中，为了解释的目的，阐述了许多具体细节以便提供对示例性实施例或各方面的透彻理解。然而，对于本领域技术人员来说，显然可以在没有所有公开的具体细节的情况下实践示例性实施例。

本公开涉及一种与生成与设备的原始用户相关的、基于声学的回声签名印记相关联的系统和方法，该系统和方法在设备的当前用户的认证的预测期间被实施。更具体地，本发明涉及一种训练和增强分类模型的新颖的系统和方法，以便在设备的用户的认证期间预测包括用户的声学特征和视觉标志特征的联合特征表示的相应认证。

在某些方面或实施例中，设想了一种端对端混合机器学习框架，使用卷积神经网络来提取典型的声学特征，并将视觉和声学特征融合到SVM以用于最终认证。

还设想了用于生成“合成的”训练样本的数据增强方案，其显著地减少了具有有限训练样本大小的假阴性，因此节省了用户在生成新的配置文件注册方面的工作。

公开了用于不同应用场景的三种新颖的认证模式，超低功率存在检测、低功率连续认证和双因素一次通过认证，平衡了安全性、用户便利性和功耗之间的任何折衷。

本公开的系统和方法能够取得93.75％的均衡准确度和93.50％的F分数，同时精度在98.05％的等级。此外，没有观察到成功欺骗本公开的系统或方法的基于图像和/或视频的攻击的实例。

实际上，本公开的基于回声签名的认证系统和方法是首次利用与视觉特征组合的主动声学感测来进行智能手机用户认证，因此，显示了鲁棒性而无需任何附加的(一个或更多个)特殊传感器或硬件来取得相同等级的安全认证。

现有的认证易受信息泄漏的影响。关键的PIN码或密码很容易被泄露或窃取。作为示例，在肩窥攻击中，对于站在附近的人来说窥视整个PIN键入并不罕见。其它类型的攻击是重现攻击。在这种攻击中，基于2D图像的脸部识别系统遭受由用户脸部的图像或视频的重放攻击。作为示例，三星的旗舰银河S8上的人脸识别系统被报道为被简单的图片欺骗。另一种攻击的形式是生物特征复制。指纹是用于认证解决方案的主流生物特征。然而，指纹广泛地留在由用户触摸的对象(例如眼镜)上，并且可以用合理的工作和技术来复制以欺骗传感器。

更具体地，公开了一种与根据基于声学的面部识别的用户认证相关联的系统和方法，该基于声学的面部识别使用所产生的对于特定用户而言是独特的且与特定用户相关联的面部回声签名。在某些实施例或方面中，本公开的系统实施了在大多数智能手机或个人数字助理(PDA设备)上广泛可用的现有硬件，使得其可以以最小的增加的硬件成本或无硬件成本而快速地大规模部署。此外，本公开的面部回声签名系统和方法实施了对每个人都普遍的生物特征。

人脸由于其独特性而被广泛用作生物特征。然而，大多数现有的基于2D视觉的系统可能被图像或视频欺骗。因此，本公开的系统和方法利用面部轮廓的3D信息以在用户认证中实现高得多的安全性和更好的性能。

为了实施安全形式的认证，生物特征不能随时间改变太多。例如心跳、呼吸、步态和/或姿势等生物特征高度地受到用户的身体状况(例如，跑步相对于步行)的影响。因此，这些类型的生物特征不被认为是用于鲁棒认证的最佳选择。相反，人脸几何形状不可能在较短的时间段内显著改变。然而，在本公开的系统和方法中可以容易地适应像戴帽子或戴眼镜的日常变化。

用户规避现有认证系统的能力的难度等级被认为是任何认证系统运行并确保高安全等级的重要组件。诸如PIN码、基于2D的脸部识别和/或指纹感测等现有认证方法的实施具有在认证期间被规避的一些必要的风险。然而，实施本公开的双因素认证同时分析声学和视觉特征，并且任何规避的尝试将需要复制足够接近人脸的3D面部几何形状和声学反射属性两者，这将比现有认证方法更难以实现。

因此，本公开的基于回声签名的认证系统和方法更安全、有弹性，并且在某些实施例中实施了双因素认证系统和方法，其可以在大多数现有智能手机中实施而无需任何附加的特殊传感器和/或其他硬件组件。为了适应不同的应用场景，公开了不同的认证模式，其包括安全性、便利性和功耗之间的折衷。虽然应当使用轻量级视觉算法来最小化计算复杂度，但是也设想了未来与现有技术的视觉解决方案的集成。这种“自由”声学辅助认证当然将在未来的移动认证发展中起重要作用。

参考图1A，示出了根据本公开的基于回声签名的系统和方法的实施例的实施的声学信号的图示。系统1发出几乎听不见的声音信号4，该声音信号4被示出从设备7的耳机扬声器8传出，其中信号4照亮用户的脸部9。将从由用户的脸部9反射的回声中提取的声学特征与从设备7的前置摄像头检测到的视觉面部标志相结合，以便认证用户3(如结合图2A和7更详细描述了的)。

参考图7A示出了根据本公开的回声签名认证系统和方法的实施例的工作流程的示例性概述的图示，该工作流程与基于复杂的基于图像的CNN16和基于声学的CNN 12生成的分类器19、提取的声学特征13和图像特征17以及在生成的分类器19中融合的特征13、17两者相关联。在设想的实施例中，反射的回声声学信号10被处理并生成为频谱图表示11。接下来生成与脸部区域回声分段108的主回声分段109和直接路径分段107相关的声学CNN12，如下文在图4中所讨论的。接下来生成声学特征13并将该声学特征13与图像特征17(在步骤14-17中以并行轨迹生成)融合18。用户的图像14从摄像头103获得，并用相应的脸部和标志跟踪15进行处理，如图所示。接下来生成图像CNN 16。复杂的图像特征17从图像CNN 16提取，并与声学特征13融合。一旦在步骤18中融合，分类器就被生成并且在用户配置文件的认证期间被使用。可选地，可以生成来自现有图像脸部识别解决方案(诸如预训练的脸部识别神经网络)的复杂视觉特征，并将其用作图像特征，以在生成分类器时与声学特征融合。

在某些实施例或方面中，本公开的系统采用与智能设备7相关联的扬声器/麦克风用于声学感测。如图3所示的前置摄像头103用于面部标志检测(例如，眼睛、嘴)。根据图2A所示的过程的实施例，设备7使用深度学习方法从回声信号提取声学特征，并且将这样的特征与面部标志融合作为用于认证的联合表示。系统1利用检测到的(一个或更多个)声学信号、视觉标志特征和组件来进行安全和方便的用户认证。特别地，回声签名系统主动地从耳机扬声器8发出几乎听不见的声学信号4以“照亮”用户的脸部9，并通过从用户的脸部9的3D面部轮廓或3D几何形状10反弹或反射的回声5中提取的独特特征来认证用户。

如以下参考图2A的进一步描述，为了应对例如由持手机姿势的变化导致的任何改变，训练卷积神经网络(CNN)以提取可靠的声学特征。这些可靠的声学特征进一步与视觉面部标志位置组合以馈送用于最终认证的二进制支持向量机(SVM)分类器。由于回声特征取决于用户3的3D面部几何形状9，公开的系统可以容易地被类似于2D视觉脸部识别系统的图像或视频欺骗。

更具体地，图2A中示出了本公开的系统设计的实施例的概述20，其包括两个主要阶段：用户注册21和用户认证22。在用户配置文件注册21期间，回声签名系统使用预训练的CNN来在声学感测23期间提取声学特征，该声学特征与视觉面部标志组合作为联合特征。然后训练SVM分类器30以认证注册的用户。SVM分类器通常被认为对于包括面部图像(无论脸部9的正面姿势或其它视图如何)的通用模式识别处理是有效的。

在注册阶段，回声签名系统使用设备7的前置摄像头检测面部标志(例如，眼睛、嘴、眉毛、颧骨、鼻子)。同时，耳机扬声器8发出由回声签名系统模块或回声签名系统处理器或引擎生成的设计的声学信号，以便“照亮”用户的脸部3。从用户的脸部9反弹回来或反射的回声被设备7的麦克风接收。然后，使用预训练的CNN模型25来提取对任何手机姿势改变都有弹性的声学特征，将该声学特征与检测到的面部标志28组合作为联合特征表示29，然后将该联合特征表示29传送并馈送到SVM分类器30中用于模型训练。

在用户认证阶段22内，用户将智能手机保持在脸部9的前面用于面部标志检测28和声学感测23。在联合特征提取阶段35内提取联合特征，并将该联合特征馈送到训练好的SVM分类器34中用于最终认证。如果系统没有识别出这些特征，则在步骤33中拒绝用户访问。否则，在步骤32中认证用户并允许用户访问该设备。可选地，基于图像的脸部识别系统36可被集成在回声签名系统20的实施例中，用于在用户认证22期间进行预筛选。如果用户图像没有被系统20识别，则在步骤37中拒绝访问。否则，如果图像被识别，则系统在步骤35中进行联合特征提取。接下来在步骤35中提取联合特征，并在步骤34中将该联合特征馈送到训练好的SVM分类器中以用于下一层认证。

具体地，在某些实施例中，回声签名系统实施预训练的CNN以提取声学特征，将该声学特征与视觉面部标志组合作为联合特征。这种联合特征的提取发生在步骤35中。在步骤34中训练SVM分类器以使用在步骤35中的联合特征的提取来认证注册用户。在注册阶段21，使用预训练的CNN模型来提取对于打电话姿势改变有弹性的声学特征，在步骤29中将该声学特征与面部标志28组合作为联合特征表示，然后在用户配置文件注册21的步骤30中将该联合特征表示馈送到SVM分类器中以用于SVM模型训练。然后在步骤31中将训练好的数据存储在配置文件数据库中。

在如图2A所示的用户配置文件注册21阶段内发生的声学感测23过程期间，从人脸9反射的声学回声信号4被检测，并且被确定为通常从一个人脸到另一人脸呈现出高度独特的特性。(例如，以声学信号的形式检测的)回声4通常对用户脸部9和设备7之间的相对位置和/或距离敏感。每个3D面部轮廓10呈现独特的一组多个反射表面，其产生个体回声的独特的总和。不同的材料吸收和衰减声波不同，因此，允许系统区分类似几何形状及不同材料(例如，石雕)的对象。脸部9的面部区域轮廓10包括3D表面，因此具有一定深度。作为示例，无论手机到用户的距离如何，当处于正面的全脸部姿势时，鼻尖最靠近手机，而用户3的耳朵通常最远。主回声假设脸部是平坦的表面。为了覆盖脸部9的深度，系统将主脸部信号扩展至两端。下面结合图8A更详细地描述该过程的实施例。

图2B提供了根据本公开的系统和方法的实施例的用户配置文件注册的附加概述。在某些方面或实施例中，系统利用智能手机上的前置摄像头进行脸部识别，并且利用一个或更多个扬声器/麦克风进行用户配置文件注册的声学验证阶段。示例性系统设计包括两个主要阶段：用户配置文件注册和用户认证。

在如图2B所示的用户配置文件注册期间，系统允许用户将他/她的个人生物特征信息注册到配置文件数据库48中，其中记录图像和声学两者。该示例注册过程包括两个步骤。首先，系统在步骤40开始处理，通过实施基于图像的面部识别方法41以注册用户脸部9。这种基于图像的面部识别可以在认证阶段期间随后用于第一轮识别。其次，系统进行到下一个注册阶段43，在注册阶段43将处于与用户的脸部9的不同角度/距离处的声音特征与具有屏幕上对应空间位置的对应脸部基准点一起注册到设备7。使用各种算法提取这样的面部基准点提取44。在示例性实施例中可以使用用于基准点检测的现有API。在这样的示例性系统中，用户可能需要将手机移动到他/她的脸部的前方，以便收集足够的数据来实现注册。

在脸部注册41期间，系统使用传统的基于图像的脸部识别方法注册用户的脸部9。然后，注册的基于图像的配置文件可以用于第一轮识别，并且还可以用于检索用户的声学配置文件以用于第二级确认。在步骤44期间，使用例如现有的算法提取相应的面部基准点。系统使用例如与智能设备7和用户的脸部9之间的相对位置/取向相关联的描述符来记录这样的面部基准点的位置。基于由系统处理器所接收的基准点的位置，在步骤45期间确定脸部9和摄像头之间的相对位置。与回声签名注册和/或认证平台相关联的系统处理器、回声签名处理设备、回声签名引擎或处理器、或计算设备可以计算这些值。

系统可进一步配置为在步骤46设计定制的声音信号，例如在高频范围17-24KHz的声音发射和记录步骤，这对于人类几乎是听不见的。在步骤46期间，可以设计和随机地发出不同的定制声音信号以增强安全性。在示例性实施例中，在认证阶段期间，系统随机地发出设计的信号并验证从用户的面部轮廓10反射的对应的反射信号。在某些实施例中，在步骤46期间，设备7(例如，智能手机)的前置面板上的扬声器(例如，耳机扬声器)用于声音发射信号，并且任何反射信号由麦克风8使用智能设备7捕获。

在声学特征提取期间，在步骤47中，系统通过识别信号振幅从人脸提取反射信号分段。由于用户的脸部与扬声器/麦克风之间的相对位置，来自用户的脸部的反射信号呈现出高振幅。接下来，系统可以提取并识别该信号分段作为用户的独特声学配置文件。声学特征可以通过机器学习方法(例如，深度神经网络等)手动或自动提取。相应的配置文件和提取的信息存储在图2B所示的配置文件数据库48中。

在例如图2C所示的示例性用户认证过程期间，用户将需要通过传统的脸部识别和声学验证过程两者以便实现或取得对设备7的系统访问。首先，在例如传统的脸部识别方法之后，将用户的脸部9与数据库中的图像配置文件进行比较以用于预筛选。如果在步骤49中找到匹配的配置文件，则这将触发脸部基准点检测和声学感测模块，找到脸部和摄像头之间的相对位置，发出设计的信号并记录反射信号。然后，系统算法从反射信号中提取特征，并在给定的相对位置的情况下匹配这些特征。这可以通过使用相关或机器学习回归算法计算相似性度量来实现。如果相似性高于某个阈值(例如75％、85％、95％的相似性)，则在认证阶段53内批准认证。否则，在步骤61中拒绝用户访问。

类似于图2B，图2C中示出的是类似面部识别的初始步骤51，但是具有在步骤52中示出的拒绝访问的增加步骤，例如基于传统的基于图像的面部识别方法。也设想实施基于图像的面部识别的其它方法。在步骤51期间，如图2C所示，系统使用现有方法执行图像脸部识别，该现有方法允许系统预筛选用户，并从相应的数据库中检索他/她的配置文件以与其匹配。

在如图2C所示的用户配置文件注册期间，系统允许用户将他/她的个人生物特征信息注册到配置文件数据库58中，其中图像和声学两者都被记录。该示例性注册过程包括两个步骤。首先，系统在步骤50开始处理，通过实施基于图像的面部识别方法51以注册用户脸部9。这种基于图像的面部识别可以在认证阶段期间随后用于第一轮识别。其次，系统进行到下一个注册阶段53，在注册阶段53将处于与用户的脸部9的不同角度/距离处的声音特征与具有屏幕上对应空间位置的对应脸部基准点一起注册到设备7。使用各种算法提取这样的面部基准点提取54。在这样的示例性系统中，用户可能需要将手机移动到他/她的脸部的前方，以便收集足够的数据来实现注册。

在脸部注册51期间，系统使用传统的基于图像的脸部识别方法注册用户的脸部9。然后，注册的基于图像的配置文件可以用于第一轮识别，并且还可以用于检索用户的声学配置文件以用于第二级确认。在步骤54期间，使用例如现有的算法提取相应的面部基准点。系统使用例如与智能设备7和用户的脸部9之间的相对位置/取向相关联的描述符来记录这样的面部基准点的位置。基于由系统处理器所接收的基准点的位置，在步骤55期间确定脸部9和摄像头之间的相对位置。与回声签名注册和/或认证平台相关联的系统处理器、回声签名处理设备、系统引擎、处理器和/或计算设备可以计算这些值。

系统可进一步配置为在步骤56设计定制的声音信号，例如在高频范围17-24KHz的声音发射和记录步骤，这对于人类几乎是听不见的。在步骤56期间，可以设计和随机地发出不同的定制声音信号以增强安全性。在示例性实施例中，在认证阶段期间，系统随机地发出设计的信号并确认从用户的面部轮廓10反射的对应的反射信号。在某些实施例中，在步骤56期间，设备7(例如，智能手机)的前置面板上的扬声器(例如，耳机扬声器)用于声音发射信号，并且任何反射信号由麦克风8使用智能设备7捕获。

在声学特征提取期间，在步骤57中，系统通过识别信号振幅从人脸提取反射信号分段。由于用户的脸部与扬声器/麦克风之间的相对位置，来自用户的脸部的反射信号呈现出高振幅。接下来，系统可以提取并识别该信号分段作为用户的独特声学配置文件。声学特征可以通过机器学习方法(例如，深度神经网络等)手动或自动提取。相应的配置文件和提取的信息存储在图2C所示的配置文件数据库58中。

系统接下来从声学记录中提取特征，并将它们与数据库中的给定位置处的注册特征进行匹配。在步骤59过程内的匹配过程可以利用诸如两个向量之间的欧几里德距离、两个信号的相关性以及机器学习算法中使用的其他相似性度量等现有算法。

在某些方面或实施例中，通过使用比传统方法更精确的深度神经网络实施比已知的传统方法增强的面部识别，并可以实施增强的面部识别以增强当前图像面部识别方法。还可以通过指示用户眨眼、张开嘴等来实施活体检测特征，这还可以被集成为另一安全层。注意，对于攻击者使用视频避开这种安全不是太困难。然而，视频将不能通过本公开的实施图像识别和声学回声签名的双因素认证系统和方法。

另外，在某些方面或实施例中，系统可通过设计更复杂的(一个或更多个)复合发射信号来实施丰富的声学特征。一个简单的解决方案是系统可以在每次执行认证时发出多个声音脉冲。然后，系统检查所有接收的信号以便减少错误警报。

在其他实施例或方面，回声签名系统和方法实施混排发射信号。由于系统主动发出声音信号，因此可以在每个时间点控制信号。该系统可以实施不同频率、不同组合和不同模式的多个声音信号。针对每个设计信号收集相应的训练数据，并分别训练模型。在认证阶段，系统可以随机选择一个或混合多个信号用于测试。由于攻击者将不能够预测发射信号，所以这使得系统难以规避此类基于声学的认证。尽管响应信号可以被攻击者完美地记录和重现(但是由于硬件性能的缺陷这通常是不可能的)，但是本公开的系统和方法仍然能够克服这样的挑战，因为所接收的信号将包括攻击者的响应和重现的信号的混合，使得基于声学的安全特征相当难以规避。

通过降低阈值，系统也可以以最小的功耗保持实时认证。当使用者离开声音信号的检测区时，手机将自动地锁定。这进一步提高了安全性，因为系统和设备要求较低的准确度，并且能够在不打扰用户的情况下产生用于连续检测的听不见的声音信号。注意，该阈值是测量特征与注册特征之间的相似性度量标准。因此，如果将阈值设置为较低的预定值，则用户更容易通过认证而不尝试过多次数。相应地，如果将阈值设置为较高值的预定值，则用户将更难通过认证，并且可能需要更多尝试来寻求进入设备。

来自人脸的声学回声是高度独特的。回声对用户脸部和设备之间的相对位置非常敏感。每个3D面部轮廓是独特的一组多个反射表面，其产生个体回声的独特的总和。不同的材料吸收和衰减声波不同，因此，允许系统区分类似几何形状及不同材料(例如，石雕与活的人脸)的对象。

图3中示出的是设备7，该设备7包括在某些实施例中通常包括在示例性智能手机设备中的扬声器、麦克风和摄像头布局。示出了两个扬声器，在设备7的底部的主扬声器104，在顶部用于进行手机呼叫的耳机扬声器101。在底部还有一个麦克风102，在顶部有另一个麦克风100用于噪声消除。

图3所示的移动设备7可以由用户3以通过检测用户的脸部9来使设备7解锁或保持解锁的方式和位置来手持。设备7可以是在正常使用期间可以容易地握在用户的手中的若干不同类型的小型消费电子设备中的任何一种。特别地，设备7可以是任何配备摄像头的移动设备，诸如蜂窝电话、智能手机、媒体播放器或平板类便携式计算机等，所有这些都可以具有内置摄像头。设备7可以具有外部正面，该外部正面有前置摄像头103和显示屏105。如下面将更全面地解释的，摄像头103用于在用户面对显示屏105时捕获设备用户3的图像，以便解锁设备7或保持设备解锁。根据基于回声签名的认证系统和方法的一个或更多个实施例，摄像头103还可用于捕获用户3的图像，该图像随后可用于将用户认证为设备7的授权用户。

图3示出了智能手机设备7上的扬声器、麦克风和摄像头的典型布局。在某些实施例中，顶部麦克风100被用作接收器，因为它靠近耳机扬声器101，并且较少受到用户的持该设备的手的影响。如图3所示，手更靠近底部麦克风102。即使轻微的手移动也会在由设备7的底部麦克风102接收的声音信号中产生噪声和变化。

在某些实施例或方面中，如图3所示，单独地或组合地实施耳机扬声器101、顶部麦克风100和前置摄像头103，以用于甚至更鲁棒的声学/视觉感测。耳机扬声器101可出于通常两个原因而被选择用于声音发射：1)它是存在于大多数智能手机设备上的设计。顶部麦克风100的位置适于“照亮”用户的脸部。可选地，主扬声器104包括位于设备7的底部或背部上的更多样的设计；2)耳机扬声器101靠近前置摄像头103，这使得当前置摄像头用于调整相对于用户3的打电话姿势时的对准误差最小化。

回声签名系统考虑发射信号配置中的以下注意事项来确定声学信号的形成。首先，在本公开的实施例中，系统有助于将感兴趣的分段(例如，来自脸部的回声)与其它反射(诸如来自杂波的干扰和来自说话者101、104的自干扰)隔离。这种配置要求信号足够短，使得来自不同距离处的对象的回声在时域中几乎没有重叠。其次，声学信号对于人耳应该尽可能听不到，以使打扰最小化。在某些实施例或方面中，所实施的频率范围通常超过20KHz。设计的信号频率范围通常远离(例如，低于8KHz的)环境噪声，以使得能够以其改进的鲁棒性(例如，使用带通滤波器)来进行噪声消除。

在某些公开的实施例中，确定从人眼到手机的舒适距离是25-50cm，对应于在声速下1.4-2.8ms的延迟。基于实验，当频率在20KHz以上时，功率衰减严重，信噪比较差，来自脸部的任何回声都被噪声遮盖、掩盖或埋藏。考虑到所有这些发现，选择具有长度为1ms的脉冲信号，该脉冲信号的线性增加频率为16-2KHz。应用汉宁窗来重新整形脉冲包络，以便增加其峰-旁瓣比(Peak-to-Side lobe Ratio)，从而产生回声的更高SNR。在需要连续声音-发射相位的认证模式中，可以实施每个脉冲50ms的延迟，使得来自两个连续脉冲的回声不重叠。

在某些实施例或方面中，背景噪声在背景噪声消除期间被消除。接收的原始信号经过16-22KHz巴特沃斯带通滤波器滤除背景噪声，使从人脸反射的微弱回声将不会被噪声埋藏或遮盖。

在图4中示出了在噪声消除之后的接收信号的样本记录分段的图形表示。直接路径分段被定义为从扬声器直接传输到麦克风的发射信号，在某些实施例中，该直接路径分段理想地应当是发射信号的副本并且呈现最高的振幅。主回声对应于来自脸部的主表面(例如脸颊、前额)的回声的混合。在距手机不同距离处的脸部的其它表面(例如鼻子、下巴)也产生回声，比主回声更早/更晚到达。脸部区域回声包括所有这些回声，捕获脸部的全部信息。脸部区域回声的准确分段对于最小化来自手机周围的动态杂波的干扰以及减少用于模型训练和性能的数据维度是关键的。

在某些方面或实施例中，在信号分段期间，存在与提取脸部区域分段相关联的两个步骤，包括：1)在原始记录中定位直接路径分段；2)在直接路径分段之后定位脸部区域分段的主回声，该主回声沿x轴位于时间-采样表示中。

定位直接路径的第一步骤实施了在发射和记录阶段之间存在的恒定间隙的基本假设，因此直接路径可以位于该恒定间隙之后。然而，发射和记录两者都必须经历操作系统中的多层硬件和软件处理，其中许多具有不可预测的、变化的延迟。因此，使用恒定延迟来定位直接路径是极其不可靠的。

而由于直接路径信号通常具有最高的振幅，因此使用互相关来定位该直接路径信号更可靠。基于实验，直接路径信号的偶然偏移在互相关之后仍然发生，这是由于来自互相关结果中的可比较峰值的模糊性。为了增强稳定性，本文下面公开了两种技术：1)模板信号校准；2)信号微调。

在某些方面或实施例中，模板信号校准用于增强直接路径信号的稳定性。由于硬件(例如扬声器/麦克风)缺陷，所接收的声音信号通常与所生成的设计发射信号略有不同。为了获得用于互相关的精确“模板”信号，系统在安静的环境中执行发射和记录，使得可以可靠地检测直接路径信号，并且保存为用于未来互相关的校准模板。

在某些方面或实施例中，信号微调用于增强直接路径信号的稳定性。除了汉宁窗之外，系统可以实施手动调谐以便稍微调谐信号以使关键峰/谷更突出，这显著地减少了互相关模糊度。在本公开的实施例中，仅模板信号的中心部分(15个样本)用于互相关，进一步增强了对残余噪声的弹性。

根据示例性实施例或方面，描述了定位主回声信号分段。一种用于定位主回声的方法是在直接路径定位之后，找到对应于典型手机手持距离(例如，25-50cm)的互相关峰位置。然而，人脸回声188(以及它们各自的回声信号)可能很弱，以致于来自远处的较大障碍物的回声可能具有同等的振幅。这使得估计不稳定，并且导致偶然的位置“跳跃”，因此在距离测量值中出现(例如，距离测量值不同于所有其他测量值的)离群值。

图5是来自声学、视觉和校准声学的距离测量值的图形表示。图5中的虚线示出了当设备7从脸部9来回移动时来自声学的距离测量值。可以观察到由于来自声学信号的一般分组111的离群值110的这种“跳跃”而导致的一些离群值。为了解决“跳跃”的这个问题，在某些公开的实施例中，可以实施包括两个步骤的视觉辅助的主回声定位技术。

第一步骤包括视觉测量校准。应用摄像头图像投影原理，设备7相对于脸部9放置得越近，图像越大并且面部标志之间的距离越大，反之亦然。例如，眼睛或耳朵之间的距离取决于脸部到摄像头103的距离而变得更小或更宽。因此，从脸部9到设备d_v的距离可以用本文提供的以下方程式(1)表示：

其中在方程式(1)中，d_p为两个面部标志之间的距离，τ为用户3的特定的未知比例因子。

系统选择d_p作为两个眼睛标志之间的像素距离，因为它们通常被广泛地分离并且可以被可靠地检测。为了估计比例因子τ，系统根据声学距离测量值和以像素为单位的d_p,i计算每个成对d′_v,i的τ_i。为了消除由声学距离测量离群值引起的误差，系统首先使用例如基于密度的空间聚类算法DBSCAN来确定{τ_i}的主集群。注意到DBSCAN通常是公知的聚类算法。回声签名系统可以通过诸如KNN或简单的多数投票方案等其它聚类算法来实施。系统接下来实施利用线性回归以找到使d′_v和

之间的偏移量最小化的最佳的τ。图5示出了在视觉校准的声学距离测量值113中被提取并去除的离群值110。

完成去除离群值的问题的第二步是实施视觉辅助的主回声定位技术。虽然基于视觉的距离测量通常被认为比基于声学的更稳定，但是基于视觉的测量值不能捕获由智能手机设备7或用户的脸部9的旋转所引起的误差。因此，在某些实施例中使用视觉校准的距离测量，以便缩小主回声搜索范围并且减少任何相应的离群值。系统还实施互相关以找到该范围内的准确主峰位置。但是，设备用户3的脸部9不能旋转到极端角度，否则面部标志检测可能失败。

由于人脸的深度有限，所以在某些实施例中，系统例如在主回声分段之前和之后扩展10个样本点以覆盖整个脸部9区域(允许7cm的深度范围)。确定脸部区域的样本点可以由系统稍后用作认证期间的机器模型的输入。注意，平均人脸通常具有七(7)个深度(例如，鼻子、脸部、脸颊、前额、眼睛、下巴、嘴)，声学信号从该七(7)个深度产生回声。鼻子被认为离摄像头103最近，而脸部离摄像头最远。脸颊通常被认为大约在中间距离。因此，脸部被认为是通常具有七(7)个深度的3D对象。

图6示出了根据本公开的系统和方法的实施例的通过使用调频连续波(FMCW)来确定频移Δf和相应的距离测量值，在捕捉脸部上的微小表面几何形状时使用分段信号分析，从而测量每个回声的到达时间的图形表示。

根据实施例，由系统实施分段信号分析，以便在时域中分离和识别个体回声4，从个体回声4中消除了任何噪声并且可以用于估计离对象的距离。脸部9区域回声4是具有不同振幅和相位的个体回声的组合，因此由于噪声，在时域中分离个体回声可能是困难的。因此，根据实施例，系统使用雷达中使用的调频连续波(FMCW)技术来测量每个回声信号的到达时间。在传统FMCW中，扬声器101、104传输具有从f_min到f_max的线性增加频率的连续啁啾信号。为了估计与对象的距离，FMCW使用称为信号混合的技术将回声信号4的频率与参考信号的频率进行比较，以确定与距离成比例的频移Δf(例如，如图6所示)。因此，确定Δf提供距离(例如，使用Δf乘以常数系数)。

为了捕获脸部9上的任何微小表面几何形状，FMCW距离测量的分辨率是关键的。分辨率Δf等于快速傅立叶变换(FFT)(例如，在一段时间(或空间)上对信号进行采样并将其分成其频率分量的算法)中的一个间隔(bin)的大小。这些分量是在不同频率的单个正弦振荡，每个频率具有其自己的振幅和相位，这取决于所使用的带宽。在某些实施例中，由系统实施16-22KHz的宽频率，虽然它对于一些用户3可能是轻微可听的。如图6所示，在长度为T的脸部区域的持续时间内进行FFT，因此一个FFT间隔的大小为1/T。给定最小可测量的频移Δf_min＝1/T，可以使用信号的斜率来计算最小可测量的距离分辨率，该斜率是总扫描带宽B除以扫描时间T。因此根据下文的以下方程式(2)来定义距离分辨率d_r：

其中C为声速。假定在20℃时C＝343m/s，则d_r为

注意这是FMCW能够分离混合回声4的分辨率。主回声位置的分辨率对应于一个单个声学样本，其为

其中F_s＝48KHz为记录采样频率。在FMCW信号混合之后，生成分段的脸部区域回声4的频谱图，然后在认证阶段22内用作CNN训练的输入，如上文至少结合图2A以及下文如图7进一步所描述的。

图7提供了用于认证的端到端混合机器学习框架的图示，其包括两个主要部分(图7中所示)：基于CNN的声学表示学习和基于SVM的双因素认证阶段。

图7中所示的是与声学表示学习相关联的工作流程。

诸如梅尔频率倒谱系数(mel-frequency cepstral coefficients)[32]、色谱图和谱对比度等传统的声学特征已经被证明在人类语音识别和基于语音的认证中是有效的，但是在主动声学感测中是无效的。最近，深度学习方法(尤其是CNN)由于其强大的自动特征提取而在诸如图像分类等各种挑战性任务中取得了成功。根据图7所示的实施例，实施了基于CNN的神经网络，其将分段信号的频谱图作为输入，并且在收集的来自用户的大数据集上训练它。这些提取的特征优于所有传统特征。

图7中所示的认证框架120包括两个主要部分：声学表示学习(如参照122-128所示)和双因素认证121。

根据如表1所示的用于声学特征学习的设计的定制CNN架构，系统根据如图7所示的认证模型执行声学表示学习。在表1中提供了各种CNN层、层类型、输出形状和参数数量。

图7示出了与本公开的基于回声签名的系统相关联的两个主要子过程：1)在PC上的CNN一次离线训练123；2)双因素认证121(包括子过程：SVM训练129和在智能手机设备7上的实时预测131)。在实施例中，该系统使用从多个用户处提取的声学信号训练CNN模型以用于特征提取128。该系统采用噪声去除技术过滤出声学信号127，并且下一步执行信号分段126，以便提取脸部区域分段108。脸部区域分段108是对应于脸部区域(凭借脸部具有一定的深度)的信号分段，也如结合图4所示和所描述的。如图4所示，脸部区域分段包括脸部区域回声108(即，脸部区域回声分段)。基本上，根据实施例，脸部区域分段包括来自不同的脸部子区域的回声的混合组合。这样的脸部区域可以包括主回声部分109，该主回声部分109包括来自主表面(例如，脸部的脸颊和前额)的回声的混合。脸部的其它表面(例如鼻子和下巴)到达相对于手机的不同距离处，但也产生比主回声部分(如图4中的虚线区域所示)更早或更晚到达的回声。

注意，上述实施例中的身体部分是面部区域，但是注意，(包括但不限于用户注册和/或用户认证阶段的任何阶段的)信号分段分析可应用于对如下所述的回声声学信号的分析：所述回声声学信号产生于向设备用户的其他独特身体部分发射声学信号生成并从该其他独特身体部分的反射。这些其它独特的身体部分包括但不限于例如手、一个或更多个手指、颈部或其它通常可见的身体部分区域，这些身体部分区域包括在离散时段(例如离散时间段)内用于处理回声声学信号所必要的深度(并且进一步地，不需要设备用户移除任何外套或改变他们当前外貌等)。

在图4中表示为脸部区域回声分段108的脸部区域回声包括所有的各个回声信号和捕获与脸部相关联的全部信息的独特参数(例如，振幅、频率值、时间轴值、密度等)。脸部区域回声的准确分段对于最小化来自围绕手机并与手机相关联的动态杂波的干扰以及减少诸如模型训练和性能的相应阶段的数据维度是重要的。

在信号分段的步骤126之后，在步骤124的声学表示学习过程中，系统接下来使用包括脸部区域回声分段108和主回声分段109的声学信号信息，以训练CNN模型作为特征提取器125。还应注意，为了处理手机持握姿势的任何变化，训练卷积神经网络(CNN)以提取可靠的声学特征，并且还将该卷积神经网络(CNN)与视觉面部标志位置或特征组合或融合，以在双因素认证121期间馈送二进制支持向量机(SVM)分类器用于最终认证。

该训练好的CNN模型125被传送到预训练的CNN模型135。系统接着在双因素认证阶段121期间，在步骤139中从与单个用户相关联的声学信号中提取声学特征。系统接着在步骤138中执行噪声去除。接下来在步骤136中执行信号分段，在该步骤136中确定脸部区域回声，并且该脸部区域回声相当于来自脸部主表面(例如脸颊和前额)的回声的混合，并且可以包括脸部的其它表面(例如鼻子和下巴)的回声的混合。在示例性实施例中，在生成独特的(例如类似于用户指纹的)回声签名印记时使用回声的这种混合，该独特的回声签名印记对个体用户3是独特的，并反映用户的独特的身份以在认证阶段22期间解锁设备7。注意，在示例性实施例中，系统可以真正地采用用户的附加的设计的姿势和/或相貌来增强回声签名印记，使得用户不被束缚于仅一个姿势/相貌以便解锁设备7。

并行地，系统还将用摄像头103检测用户3的脸部9的视觉图像，该图像接下来被用于从摄像头预览140检测面部标志并跟踪面部位置137。该系统接下来处理脸部对准模块，如将结合图8A和8B更详细地描述。所检测的面部标志主要用于脸部对准，这对于鲁棒的声学感测是重要的。虽然这样的面部标志不旨在大大提高识别准确度，但是在某些实施例中，回声签名系统和过程是基于声学的方法，该方法可以合并更复杂的面部特征，例如，来自在巨大的脸部图像数据集上训练的深度神经网络的特征。那些训练好的特征将对认证阶段22期间的性能改进和可靠性具有较高的影响。

参考图7A，示出了根据本公开的回声签名认证系统和方法的实施例的工作流程的示例性概述的图示，该工作流程与基于复杂的基于图像的CNN 16和基于声学的CNN 12生成的分类器19、在生成分类器19时提取的声学特征13和图像特征17相关联。在设想的实施例中，反射的回声声学信号10被处理和生成为频谱图表示11。接下来生成声学CNN 12，该声学CNN 12与脸部区域回声分段108的主回声分段109以及直接路径分段107相关，如以下在图4中所讨论的。接下来生成声学特征13并将该声学特征13与(在步骤14-17中以并行轨迹生成的)图像特征17融合18。如图所示，用户14的图像从摄像头103获得，并采用相应的脸部和标志跟踪15进行处理。接下来生成图像CNN 16。复杂的图像特征17从图像CNN 16中提取，并与声学特征13融合。一旦在步骤18中融合，分类器就被生成并且在用户配置文件的认证期间被使用。可选的，可以生成来自诸如预训练的脸部识别神经网络的现有图像脸部识别解决方案的复杂视觉特征，并将该复杂视觉特征用作图像特征，以在生成分类器时与声学特征融合。

将图像上的面部标志的2D坐标与对应的128维CNN特征串联起来作为步骤132中的联合特征，用于最终的认证阶段22。接下来，在步骤129中，系统为每个个体注册用户3训练129SVM模型130，并使用训练好的SVM模型130来执行SVM预测131，以进行最终认证。SVM训练通常在步骤129中只发生一次，以训练SVM模型130，然后将训练好的模型130用于SVM预测130。特别地，训练卷积神经网络(CNN)以提取可靠的声学特征，这些声学特征进一步与视觉面部标志位置结合。这种联合特征表示132又被传送到二进制支持向量机(SVM)分类器130用于最终认证。在这个阶段期间，系统将视觉和声学特征(作为联合特征表示132)融合到SVM以进行训练129和SVM预测131，用于用户3的最终认证22。在认证阶段期间，用户仅需要将智能手机保持在脸部的前方以用于面部标志检测和声学感测。在最终认证期间，提取联合特征并将其馈送到训练好的SVM分类器130中。可选地，或同时地，系统可以在认证之前或与认证并行地实施现有的基于图像的脸部识别系统，该基于图像的脸部识别系统可以被集成在基于声学的回声签名系统中用于预筛选。

在双因素认证阶段121期间使用联合声学和视觉特征。联合特征阶段132包括使用所接收的与图像上的面部标志相关联的2D坐标的系统处理，该2D坐标与对应的128维CNN特征串联作为联合特征132用于最终认证22。同时收集声学数据133和视觉数据135(例如标志坐标)两者，使得它们良好同步，从而基于所接收和处理的声学回声信号确保屏幕上的面部标志分布与相对的设备位置之间的一致性。注意，联合特征(特别是面部几何形状)可以被表示为向量。例如，在声学表示学习期间，CNN可以针对50个类别被训练，并提取可以用于区分超过50个类别的更多类别的特征。为了将训练好的模型用作一般的声学特征提取器，可以去除用于最终分类的最后一层。因此，剩余的网络输出128维特征向量。训练好的模型可以具有710539个参数和5.47MB的大小，这对于用于实时处理和认证的移动设备而言是足够便携的。所提出的CNN仅是神经网络的一个示例。不是这种网络模型的其它神经网络架构或这种网络模型的变型也可被实施。甚至存在更复杂的神经网络，其被设想在本公开的系统中实施。

在某些公开的实施例中，在分类期间使用一类SVM，以及一类SVM实施无监督算法，该无监督算法学习用于新颖性检测的决策函数：将新数据分类为与训练集相似或不同。系统检测训练集的软边界，以便将新样本分类为属于该集或不属于该集。接下来，系统实施用于最终分类的具有径向基函数(RBF)核函数的一类SVM。这允许系统更容易地在移动设备7上训练129用于新用户(或例如戴着新的帽子或眼镜的不同配置的相同用户)的SVM分类模型，而不需要如CNN中那样大量训练数据。

理想地，用户应当在相对于脸部的各种相对位置处移动设备，以便在用户注册期间收集足够的训练数据。实际上，这对用户施加了更多的工作，并且更难以确定何时收集了足够的数据。不足的训练数据将导致更高的假阴性(即，拒绝合法用户)。因此，在某些实施例中，数据增强技术通过基于步骤131中的面部标志变换和声学信号预测来生成“合成的”训练样本以增添步骤130中的训练数据。在该过程期间，系统通过假设手机的不同姿态，将测量的面部标志和声学信号变换成合成的面部标志和声学信号，增强数据训练集，使得该数据训练集反映用户相对于手机或设备和/或改变的外观或视觉相貌(例如，晚妆、化妆、换发型、太阳镜、眼镜、跑步头带等)处于不同姿势的更鲁棒的表示。

根据实施例，双因素一次通过认证，系统实施用户3必须适当地持握手机以在有效区域矩形151、153内对准他的脸部的模式，如屏幕105上所示(例如，参考以下结合图8A和9的进一步描述)。如上所述，来自摄像头图像的视觉面部标志(包括标志坐标)134和由训练好的CNN 135提取的声学特征133两者都被馈送到用于识别的SVM模型130。然而，这样的处理可以包括更繁重的计算、能量成本，但是提供适用于诸如手机解锁和/或账户登录等场景的最高安全级别。

在某些实施例或方面中，基于声学的面部回声签名系统将修正线性单元(ReLU)作为用于卷积层的激活函数来实施，尤其是用于深度网络加速训练的一种普遍选择。具有2×2大小的两个最大池化层被用于下采样来自它们的先前激活层的输入表示。这通过减少用于训练和推断两者的参数的数目来节省计算成本，这在CNN模型将被部署在移动设备上时是关键的。在每个最大池化层后加入脱落层以防止过拟合。批标准化通过减去批平均值并除以批标准偏差来标准化前一层的输出，这增加了神经网络的稳定性并加速训练(在我们的情况下为～6×加速)。将分类交叉熵用作损失函数。具有柔性最大值激活函数的稠密层输出每类的概率。

在实施例中，在包含来自50个类别(45个用户和5个非人类别)的声学样本的数据集上训练CNN。尽管在某些示例性实施例中针对50个类别训练CNN，但是训练好的模型的目的是提取可以用于区分超出那些50个类别的更多类别的特征。为了将训练好的模型实施为一般声学特征提取器，去除用于最终分类的最后一层。因此，剩余的网络输出128维特征向量。训练好的模型具有710539个参数以及5.47MB的大小，这对于用于实时推断的移动设备而言是足够便携的。

面部标志检测27是用户配置文件注册阶段21的另一阶段，如先前结合图2A结合用户配置文件注册阶段21和用户认证阶段22所描述的。

更具体地，根据实施例，在面部标志检测27期间，本公开的基于声学的面部回声签名系统提取脸部的轻量级视觉特征，以便补充所提取的声学特征，并在认证22期间处理这两个特征。视觉技术用于两个目的：1)检测面部标志，所述面部标志稍后被用作基本视觉特征；和2)在智能手机屏幕设备7上跟踪用户的脸部9，使得用户3可将设备保持在相对于例如由图8A中所示的矩形151、153的图示的距离的某些“有效”区内。有效区151、153包括相对于用户脸部9和智能设备7的距离和/或取向，用于在用户配置文件注册21中的相应数据收集和处理，然后用于用户认证22。

图8A提供了根据本公开的系统和方法的实施例的确定面部标志和相应的脸部跟踪的图示。图8B提供了根据本公开的系统和方法的实施例的、根据图8A处理所检测到的面部标志155和进行脸部跟踪以及确定摄像头位置之间的从原始图像(摄像头#1)到偏移图像(摄像头#2)的相应标志变换的图示。

在图8A中，系统检测图像上的相应面部标志155(例如，眼角/眼尖、眼睛中心、鼻子、脸颊、以及嘴、发际线、眉毛)的2D坐标(例如(x，y)坐标对)作为面部特征。例如，可以在安卓平台上使用来自

的移动视觉API来完成该检测。脸部还通过在脸部9的区域周围形成的至少一个边界矩形来跟踪。相应的标志155与脸部9的关键几何形状特征(眼睛、脸颊、鼻子、嘴、下巴、前额、眉毛、发际线等)以及与设备7到脸部9的相对位置和/或距离相关的相应位置相关联。该系统可以在包括三星S7 Edge，三星S8和华为P9在内的多个安卓智能手机上实施基于声学的面部回声签名系统和方法。图9是根据实施例的在认证和/或注册选择的实施期间的示例性用户接口177的图示。原型包括三个主要模块：面部标志检测、声学感测和用于认证的机器学习管道。“预测/训练”开关175用于认证/注册选择。

在图8A所示的面部标志检测期间，系统可以使用例如用于实时面部标志检测和脸部跟踪的

移动视觉API来实施这样的检测。在这种示例中，帧率被设置为30fps，分辨率为1024×768。

更具体地，如图8A和9(包括在附图的下一张图片中所示的并排版本)所示，包括表示为实线矩形152的中间(红色)矩形的、表示设备用户3的检测到的面部区域9的图像快照150，以及被认为是固定的脸部有效区域153、151的内边界158和外边界157的表示为虚线矩形153、151的两个(绿色)矩形。在示例性实施例中，在数据收集和处理期间，用户脸部9在两个(绿色)虚线矩形153、151内对准。否则，如果脸部9在两个(绿色)虚线矩形153、151的边界内没有对准，则丢弃声学数据。如图8A所示的标志点155和如图9所示的较亮(黄色)点155是系统检测的面部标志，该面部标志被保存为像素坐标，例如通常以2D(x，y)像素坐标对或可选地以3D(x，y，z)坐标的方式。

将图像150上的面部标志155的2D坐标与对应128维CNN特征串联作为联合特征表示132用于最终认证。同时收集声学和视觉数据，使得它们很好地同步，这确保了屏幕105上的面部标志155分布与相对的设备位置之间的对应，因此，确保了回声信号之间的对应。

数据增强是由基于声学的面部回声签名系统使用的用于确定如图8B所示的两个或更多个摄像头位置之间的标志变换和图8A和8B的并排视图的过程。应用投影几何形状，映射到摄像头103中的像平面上的世界坐标系中的3D点(x_w,y_w,z_w)的投影矩阵P被建模为本文列出的以下方程式(3)和(4)：

其中λ是齐次坐标的比例因子，(u,v)表示其在图像上的像素坐标，

是摄像头的内参矩阵，例如，以像素为单位的焦距f_x和f_y、扭曲(skew)s和图像中心(c_x,c_y)。[R|T]表示摄像头的外参矩阵，例如，在世界坐标系中的摄像头的姿势，其中R是用于其3D取向的3×3矩阵，并且T是用于其3D平移的3×1矩阵。

如图8B所示，在示例性实施例中，两个摄像头(摄像头31和摄像头#2)使用以下定义的方程式(5)以不同的距离/角度拍摄同一对象的图像(例如，在摄像头#2处，示出为具有相应变换图像的摄像头#1)：

x＝[u,v,1]^Tand x′＝[u′,v′,1]^T (5)

在两个图像上表示对象的像素坐标。不失一般性，第一个摄像头被定义为世界原点，因此两个摄像头(图8B中的摄像头#1和摄像头#2)的投影矩阵由本文的以下方程式(6)定义：

P＝K[I|0],P′＝K′[R|T] (6)

其中I是3×3的单位矩阵。

基于投影几何形状确定的以上描述，系统将一个摄像头中的标志155像素坐标变换为用户3的任何其它或新的摄像头姿势的坐标，因此为一个或更多个用户增加特定的训练集以覆盖多个设想姿势(而非使用户3手动地注册多个姿势)，这是与特定用户3的用户3回声签名相关联的更鲁棒的训练集的自动格式化以供稍后在认证阶段期间检索。

根据实施例，系统计算标志的世界坐标，如图8B所示。给定第一摄像头的投影矩阵P和标志像素坐标x，系统可以将标志的世界坐标计算为(x_w,y_w,z_w)^T＝z_wK^-1x，其中z_w是标志距摄像头中心的距离，其可以经由声学感测模块来测量。

系统接下来将标志155变换到新图像上。根据新检测到的摄像头姿势的投影矩阵，系统可以通过实施在下文中定义为方程式(7)的以下方程式来计算标志的对应像素坐标：

x′＝K′RK^-1x+K′T/z_w (7)

该变换方程(7)包括两部分：第一项仅取决于图像位置，即x，而不取决于标志的深度z_w；第二项取决于深度并且考虑了摄像头平移。在纯平移(R＝I,K′＝K)的情况下，方程式(7)简化为下文提供的方程式(8)

x′＝x+KT/z_w. (8)

在认证的下一步骤期间，数据增强、该回声签名系统和方法、基于上文列出的方程式(8)增强所创建的训练集。在这种数据收集和相关处理之前，该系统首先采用印刷有已知大小的棋盘格的基准纸张来校准摄像头。因此，该系统能够识别并生成其内参矩阵K。当检测到新的摄像头姿势时，系统识别θ的值，其中θ＝(T,φ)，其中T表示其3D坐标，并且φ＝(α,β,γ)表示其沿着智能手机的三个坐标轴的任何旋转角度。系统接下来基于例如使用罗德里格斯公式将φ变换为3×3的旋转矩阵R。

在罗德里格斯公式中，如果v是R³中的向量，并且k是描述旋转轴的单位向量，v根据右手法则绕该旋转轴旋转角度θ，旋转向量的罗德里格斯公式由如下方程式(9)定义：

v_rot＝v cosθ+(kxv)sinθ+k(k·v)(1-cosθ) (9)

一种供选择的陈述是将轴向量表示为限定旋转平面的任意两个非零向量a和b的向量积a×b，以及被远离a并且朝向b测量的角度θ的方向。定义α以表示这些向量之间的角度，两个角度θ和α不必相等，但是它们以相同的方向被测量。然后可以根据本文的以下方程式(10)确定单位轴向量。

该系统接下来计算方程式(8)中的x′。因此，对于检测到的给定的新摄像头姿势，系统识别θ的值，其中θ＝(T,φ)，T代表其3D坐标，并且φ＝(α,β,γ)表示其沿着智能手机的三个坐标轴的任何旋转角度。系统接下来基于例如使用至少上述方程式(9)和(10)的罗德里格斯公式将φ变换为3×3的旋转矩阵R。

因此，根据声音传播平方反比定律，将脸部区域信号分段偏移相同的距离，其中通过等于距离平方的倒数的比例来调整振幅。由于智能手机设备7(一个或更多个)扬声器101、104和麦克风8的全指向属性，设备7来自固定位置的轻微旋转引起信号中可忽略的变化，因此仅设备位置变化会导致任何这样的声学信号变换。

图9提供在基于声学的面部回声签名系统和方法的实施例的示例性实施期间的用户认证的图示。如图9所示的用户认证期间的用户屏幕或用户接口3的示例性实施包括三个主要模块的实施：1)面部标志检测，2)声学感测，以及3)用于认证的机器学习管道。例如，“预测/训练”175开关被用于认证/注册选择，如图9中用户接口屏幕177的底部所示。示例性P9/S8选择开关174用于选择麦克风(顶部麦克风对底部麦克风)。用户接口按钮P9和S8174正好相反，因此在所示的示例中需要手动选择。

为了实施面部标志检测，系统可以使用例如用于实时面部标志检测和脸部跟踪的

移动视觉API。帧率被设置为30fps，分辨率为1024×768。中间(红色)较暗阴影矩形171(图9)的边界定义了在用户接口177的边界线内检测到的用户3的脸部区域9。两个(绿色)较浅阴影矩形170定义脸部有效区域170的内边界和外边界，在所示的示例性实施例中该脸部有效区域170的内边界和外边界是固定的。在用户注册和/或用户认证以及相关数据收集期间，用户脸部9在图9所示的两个(绿色)虚线矩形170内对准；由于系统需要用户脸部9被对准以准确地执行认证，否则会丢弃声学数据。在这种双因素认证模式中，用户3必须正确地握持手机7以在如图9的屏幕177上所示的有效区域矩形170内对准他的脸部。图9中所示的较亮的圆圈点(黄点)155是检测到的面部标志155，其由系统处理器识别并保存为像素坐标。

在声学感测期间，为了确定面部标志，声学信号被预处理并实时显示在用户接口屏幕177上，而且来自脸部的分段信号在信号分段部分173中被(以蓝色)强调。该系统可以放大3X倍，使直接路径信号更直观。图9所示的示例中的认证结果172为拒绝，并且用户被拒绝访问设备7。

在声学表示124的机器学习管道的实施期间，系统需要至少一个CNN声学特征提取器和一个SVM分类器。该系统在PC上例如使用英特尔i7-8700K CPU、64GB存储器和GTX1080Ti GPU、使用用于CNN构建和训练的谷歌张量流图(Tensorflow)后端的深度学习离线训练CNN模型。训练好的模型被冻结并部署在移动设备上。使用从CNN提取的声学特征，在移动设备上训练使用支持向量机(LibSVM)的SVM分类器。CNN和SVM两者推断都在移动设备7上实时执行。

图2D提供了根据本公开的系统和方法的实施例的使用图像和声学特征两者的用户配置文件注册和认证的另一示例性概述。在示例性实施例中，用户配置文件注册状态63包括并行执行的声学记录65和摄像头预览66两者。声学记录路径65包括回声分解67、特征提取69、SVM训练70和存储在相应数据库71中以供稍后在使用认证阶段64期间检索。摄像头预览66路径包括在步骤68中确定眼睛/嘴的位置和其他面部特征。接着，系统进入步骤64的用户验证阶段。在该示例性实施例中，系统在步骤72通过访问配置文件数据库71中与用户相关联的训练集来执行面部识别。如果面部识别模块不符合要求，则系统在步骤73拒绝用户的访问。如果面部识别模块通过，则系统在步骤74进入面部对准，在步骤75进入声学感测，在步骤76进入回声验证模块。如果回声验证步骤失败，则在步骤77拒绝用户的访问。如果回声验证模块76通过，则系统已经认证了用户3身份，并在步骤78允许访问。

图2E提供了根据本公开的系统和方法的实施例的三种认证模式和相关应用场景的示例性概述。图2E中示出了包括声学感测和摄像头预览阶段的感测模态80。在阶段81中，执行提取特征81模块，其包括声学感测模块80和脸部到设备距离确定模块，所述声学感测模块80包括脸部深度分布(包括相应的斜率和能级)。在阶段81期间还执行的是摄像头预览发送模态81，提取包括以像素为单位的特征点的特征和相应的脸部对准模块。如图2E所示的认证模式83包括：1)低功率连续认证，该低功率连续认证提供连续保护但安全级别低；2)双因素认证，该双因素认证用于在具有中级安全等级的解锁手机应用和具有中级功率用途的中等便利因素中使用；以及3)极端安全认证模式，该极端安全认证模式为银行转帐、帐户登录等提供更高的安全级别，但是在更高功率使用方面具有更低的便利性。

参考图2F，在某些方面或实施例中设想了三种认证模式。虚线框86中所示的三种认证模式包括：1)双因素一次通过认证，2)低功率连续认证，和3)超低功率存在检测，适用于需要逐渐降低的安全级别但更高的用户便利性和功率效率的场景。如图2F所示，该系统实施具有声学感测和摄像头预览的两个阶段感测模态84。在声学感测期间，系统感测用于提取的回声特征以供在提取特征阶段85中使用。对于声学感测，实施为声学频谱，以供在超低功率存在检测期间使用。在低功率连续认证期间实施从声学感测84提取CNN特征。在感测模态阶段84内的摄像头预览期间，在双因素一次通过认证期间提取并实施脸部对准和其他复杂特征85。

在双因素一次通过认证模式期间，用户3必须正确地持握手机7以在图9的用户接口屏幕177上显示为虚线矩形的有效区域矩形170内对准他的脸部。来自摄像头图像的视觉脸部标志和由训练好的CNN提取的声学特征两者都被传送到SVM用于识别。这种模式通常需要更多的计算、能量成本，但是提供适合于诸如手机解锁、帐户登录、其它基于安全的特征等的场景的最高安全级别。在这种示例性模式期间，使用声学和视觉特征两者。将所提取的面部和声学特征132与在双因素认证121期间、在使用SVM模型130的实时预测122、131期间发生的预训练的CNN特征135进行比较，如例如图7中所示。

在低功率连续认证(LP模式)期间，从CNN提取的声学特征被用于一类SVM分类中。这避免了功耗摄像头和更巨大的实时视频处理，但是提供了适合于诸如在完成登录之后银行交易中连续访问/浏览私人数据的场景的降低的安全级别。类似于训练数据收集，用户需要在各种位置范围内持握手机。

在超低功率存在检测(ULP模式)期间，系统仅使用声学信号和SVM模型来检测用户脸部的存在。为了使计算和能量成本最小化，一组(例如，直接路径信号之后的前80个)样本的频谱而不是CNN提取的特征被传送到SVM。训练SVM的数据收集包括在用户的脸部前持握设备时的阳性样本、在将设备放在桌子上、口袋中或持握设备远离用户时的阴性样本。这种模式消耗最少的功率，并且适合于像当用户脸部不可用或不存在时自动屏幕锁定的场景。

超低功率存在检测模式提供基本的安全保护，但是在较低功率使用方面提供较高的便利性。低功率连续认证模式提供具有中级安全性和中级功耗的便利性的连续保护。双因素一次通过认证模式提供最高的安全级别，并且可以被实施用于银行转账、账户登录，但是提供较低的便利性，因为对于这种双因素一次通过认证模式需要较高的功耗。

转到图10A，公开了描写声学信号预处理的步骤的示例性流程图。在该过程的第一步骤，步骤180中，回声签名处理设备执行背景噪声去除。在步骤180，原始信号通过带通滤波器(例如16-22KHz巴特沃斯带通滤波器)进行传输，从而进行噪声去除。因此，当通过带通滤波器传输时，滤波器使落入特定范围内的原始信号的频率通过，并且剔除(或衰减)落入该范围之外的频率。

接下来，在步骤181中，对滤波后的信号进行信号分段。信号分段181的处理的每个步骤在图10B的流程图中进一步详述，该流程图10B示出了在信号分段181期间由回声签名处理器和/或引擎381(参考图24)执行的每个步骤。接下来在图10A中，系统在步骤182中执行分段后的信号分析，在图10C所说明的步骤中更详细地描写。

根据实施例，步骤181中所示的并且在图10B中进一步描写的信号分段总体上包括识别和提取脸部区域分段的两个步骤：1)在原始记录中定位直接路径分段(例如，参见图4在时间0-1.3ms之间的信号的直接路径分段)；以及2)定位主回声(参见图4中的位于大约1.8ms-2.9ms之间的圆圈部分)。因此，在确定直接路径分段之后确定脸部区域分段，例如如图4所示。

更特别地，通常基于在发射和记录信号之间存在恒定间隙的假设定位直接路径185。因此，直接路径可以位于该恒定间隙之后。然而，发射和记录信号两者都是在设备的操作系统(OS)中处理的多层硬件和软件处理，其中许多具有不可预测的、变化的延迟。因此，使用恒定延迟来定位直接路径通常被认为是不可靠的。

而由于直接路径信号通常具有最高的振幅，因此使用互相关来定位该直接路径更可靠。由于来自互相关结果中的可比较峰值的模糊性，直接路径信号的偶然偏移在互相关之后仍然发生。然而，在某些实施例中，采用以下技术来补偿此类模糊性。

一种这样的技术是模板信号校准183。由于硬件(扬声器/麦克风)缺陷，所接收的声音信号通常与所设计的发射信号略有不同。为了获得用于互相关的精确“模板”信号，系统在安静的环境中执行发射和记录，使得可以可靠地检测直接路径信号，并且保存为用于未来互相关的校准模板。

另一种这样的技术是信号微调184。除了汉宁窗之外，系统手动地轻微调谐信号以更突出地生成关键峰/谷，这显著地降低了互相关模糊度。在互相关中仅使用模板信号的中心部分(例如，15个样本)，进一步增强了对残余噪声的弹性。

接下来，系统通过定位声学信号的主回声分段部分187来执行信号分段。在某些方面或实施例中，系统能够通过识别与在示例性实施例中位于直接路径107位置之后的、与典型手机握持距离(例如，25-50cm)相对应的互相关峰位置来定位主回声185。然而，人脸回声可能很弱，以致于来自远处的较大障碍物的回声可能具有同等的振幅。这使得估计不稳定，并且导致偶然的位置“跳跃”，因此在距离测量中可能出现离群值。图5中的虚线示出了当设备从脸部来回移动时来自声学的距离测量值。由于这种“跳跃”的离群值110形成了一些离群值110。为了解决这个问题，如下所述，实施包括两个步骤的视觉辅助的主回声定位技术。

在图10B中，下一步骤执行视觉测量校准186。使用摄像头图像投影原理，设备7越接近脸部9，图像越大并且任何相应面部标志155之间的距离越大，反之亦然。因此，从脸部9到设备7的距离d_v可以被表述为

其中d_p是两个面部标志之间的距离，τ是针对用户的未知比例因子。在某些实施例中，系统选择d_p作为两个眼睛标志之间的像素距离，因为它们被广泛地分离并且可以被可靠地检测。为了估计比例因子τ，系统处理器根据声学距离测量值和以像素为单位的d_p,i计算每个成对d′_v,i的τ_i。为了消除由声学距离测量离群值引起的误差，系统使用例如基于密度的空间聚类算法(称为DBSCAN)来确定{τ_i}的主集群。

DBSCAN被设计为发现任何数据库D中的任意形状的集群，并且同时可以区分噪声点。更具体地，DBSCAN接受基于用户定义的距离测量的半径值Eps(ε)和在Eps半径内应出现的最小点的数量的值MinPts。解释DBSCAN算法的一些概念和术语可以定义如下：

聚类问题可以定义如下：

提供了n个数据对象D＝{o1,o2,...,on}的数据库。基于某些相似性度量将D分类为C＝{C₁,C₂,...,C_k}的过程被称为聚类，C_i被称为集群，其中C_i由以下提供的方程式(11)定义：

聚类算法可以被分类为五个主要定义，如以下进一步提供的：

定义1(邻域(Neighborhood))。它由两点p和q的距离函数(例如，曼哈顿距离、欧几里得距离)确定，由dist(p,q)表示。

定义2(Eps-邻域)。点p的Eps邻域由{q∈D|dist(p,q)≤Eps}定义。

定义3(核心对象(Core object))。核心对象指的是这样的点，其给定半径(Eps)的邻域必须包含至少最小数目(MinPts)的其它点(例如，如图10G所示)。

定义4(直接密度可达(Directly density-reachable))。如果p在q的Eps邻域内，并且q是核心对象，则对象p是从对象q直接密度可达的。

定义5(密度可达(Density-reachable))。如果存在对象链p₁,...,p_n,p₁＝q并且p_n＝q，使得p_i+1是从p_i关于Eps和MinPts直接密度可达的，则对象p是从对象q关于Eps和MinPts的密度可达的，其中1≤i≤n,p_i∈D(例如，如图10E所示)。

定义6(密度连接(Density-connected))。如果存在对象o∈D使得p和q两者都是从o关于Eps和MinPts密度可达的，则对象p到对象q是关于Eps和MinPts密度连接的(例如，如图10E所示)。

定义7(基于密度的集群(Density-based cluster))。集群C是满足以下“最大性(maximality)”和“连通性(connectivity)”要求的D的非空子集：

(1)

如果q∈C，并且p是从q关于Eps和MinPts密度可达的，那么p∈C。

(2)

p和q关于Eps和MinPts是密度连接的。

定义8(边界对象(Border object))。如果对象p不是核心对象而是从另一个核心对象密度可达的，则对象p为边界对象。该算法开始于数据库D中的第一点p，并且检索Eps距离内的点p的所有邻居。如果这些邻居的总数大于MinPts-如果p是核心对象-则创建新的群集。点p及其邻居被分配到该新的集群中。然后，系统迭代地收集在距核心点Eps距离内的邻居。重复该过程，直到所有的点都被处理。

根据另一个实施例，系统实施用于基于密度的空间聚类过程的ST-DBSCAN算法，由于扩展而需要四个参数Eps1、Eps2、MinPts和Δ_∈以避免识别相邻集群的问题。Eps1是空间属性(纬度和经度)的距离参数。Eps2是非空间属性的距离参数。诸如欧几里得、曼哈顿或明可夫斯基距离度量等的距离度量可以用于Eps1和Eps2。MinPts是在某点的Eps1和Eps2距离内的点的最小数目。如果区域是密集的，则它应当包含比MinPts值更多的点。提出了一种简单的启发式算法，其在许多情况下对于确定参数Eps和MinPts是有效的。启发式算法建议MinPts≈ln(n)，其中n是数据库的大小，Eps必须根据MinPts的值来选择。启发式算法方法的第一步是确定每个对象到k个最近邻居的距离，其中k等于MinPts。然后这些k距离值应当以降序排序。然后，我们应该确定排序图表的第一“谷”的阈值点。Eps被选择为小于由第一谷限定的距离的值。因为相邻位置的非空间值内的小偏差，最后的参数Δ_∈用于防止发现结合了的集群。该算法从数据库D中的第一点p开始，并检索从p关于Eps1和Eps2密度可达的所有点。如果P是核心对象(例如，参见如上文定义的定义3)，则形成集群。如果P是边界对象(例如，参见上面定义的定义8)，没有点是从P密度可达的，则算法访问数据库的下一点。重复该过程直到所有点都已经被处理。

算法从数据库D(i)中的第一点开始。在处理这一点之后，算法选择D中的下一点。如果所选对象(object)不属于任何群集，则调用Retrieve_Neighbors函数。Retrieve_Neighbors(object，Eps1，Eps2)的调用将具有小于Eps1和Eps2参数的距离的对象返回到所选对象。换句话说，Retrieve_Neighbors函数检索从所选对象关于Eps1、Eps2和MinPts的所有密度可达对象(例如，定义5)。结果集形成所选对象的Eps邻域(例如参见定义2)。Retrieve_Neighbours(object，Eps1，Eps2)等于Retrieve_Neighbours(object，Eps1)和Retrieve_Neighbours(object，Eps2)的交集。如果Eps邻域内返回的点的总数小于MinPts输入，则将该对象指定为噪声。这意味着所选点没有足够的邻居来被聚类。如果被标记为噪声的点不是直接密度可达的(例如参见定义4)，而是从数据库的一些其它点密度可达的(例如参见定义6)，则它们可以稍后被改变。这发生在集群的边界点。如果所选点在Eps1和Eps2距离内具有足够的邻居-如果它是核心对象-则构建新的集群。然后，该核心对象的所有直接密度可达的邻居也被标记为新的集群标签。然后，该算法通过使用堆栈从该核心对象迭代地收集密度可达的对象。堆栈对于从直接密度可达对象中找到密度可达对象是必要的。如果对象没有被标记为噪声或者它不在集群内，且该集群的平均值和新到来的值之间的差小于Δ_∈，则将该对象放置在当前集群中。在处理所选点之后，算法选择D中的下一点，并且算法迭代地继续，直到所有点都已经被处理。

当算法通过使用Retrieve_Neighbors函数搜索任何对象的邻居时，它考虑空间和时间邻域两者。将对象的非空间值(例如温度值)与空间相邻的非空间值进行比较，并且还与时间相邻的值(同年的前一天、同年的下一天、以及其它年份的同一天)进行比较。通过这种方式，当算法被应用于包含空间和非空间值之外的时间值的表时，数据的非空间、空间和时间特征被用于聚类。如果两个集群C1和C2彼此非常接近，则点p可以同时属于C1和C2两者。在这种情况下，点p必须是C1和C2中的边界点。该算法将点p分配给首先发现的集群。

返回参考图5，在基于密度的空间聚类算法(例如上文描述的DBSCAN)的实施之后，系统接下来利用线性回归来找到使d′_v和

之间的偏移最小化的最佳τ。图5示出了通过实施上述基于密度的空间聚类算法中的一个，在视觉校准的声学距离测量值111、113中去除离群值110，以便消除任何误差。

参考图10B，在如图10A所示的声学信号预处理的信号分段181部分期间，在某些实施例中，系统通过执行模板信号校准183来开始信号分段的过程。该过程通常最初执行一次。由于设备7的硬件(例如，扬声器/麦克风)的缺陷，所接收的声音信号通常与所设计的发射信号稍微不同。为了获得用于互相关的精确的“模板”信号，在安静的环境中执行发射和记录，使得可以可靠地检测直接路径信号185，并将其保存为用于未来互相关的校准模板。

接着在步骤184中，过程进行到微调接收的信号。如在模板信号校准183中，通常该过程最初在声学信号预处理期间发生一次，特别是在信号分段181期间。系统可以将汉宁窗应用于接收的信号，或者通过将Hann窗应用于接收的信号来执行“信号的汉宁”。

Hann函数典型地用作数字信号处理中的窗函数，并用于选择一系列采样的子集，以便执行傅立叶变换或其它类型的计算。Hann窗是通常由w_r＝1_[0,N-1]定义的已调制的矩形窗的线性组合。Hann窗的优点是非常低的重叠，并且稍微折衷的是降低的分辨率(主瓣的加宽)。

可选地，系统可以略微地实施信号的手动调谐，以使关键峰/谷更突出，这显著地减少了互相关模糊度。通常，在互相关中仅使用模板信号的中心部分(例如，15个样本)，进一步增强了对残余噪声的弹性。

在某些实施例或方面，图10B中提供的信号分段的过程通常(除例如步骤183-184和186中所示的校准和微调步骤之外)实施两个主要步骤以便提取脸部区域分段，具体地，1)如步骤185所示在原始记录中定位直接路径分段；然后在步骤187中定位主回声以识别脸部区域分段。

在图10B的实施例中，为了在连续记录的(一个或更多个)回声信号4中找到主回声，系统必须识别和使用在接收的回声信号4中的“参考位置”。检测直接路径信号107并将其用作“参考位置”，如图10B的步骤185所示。直接路径信号107通常是指从扬声器(例如101、104)直接传播到麦克风100的声学信号4，该直接路径信号107被认为是在发射之后记录的回声信号的初始第一“副本”。在步骤185中识别直接路径信号107之后，其相应位置指的是直接路径信号107和主回声109之间沿x轴的时间延迟，该时间延迟是时间元素变量(参考图4)。

更具体地，系统接下来在图10B的步骤187中识别主回声109在时间轴上(如图4所示)的位置。系统接着确定直接路径信号107和主回声109之间的时间延迟。给定时间延迟，系统可以估计声音传输距离，该距离是时间×声速除以2(当声音来回传输时)。

特别地，当系统在步骤185中确定直接路径信号107的位置时，可以做出的简单假设是在发射和记录信号之间存在恒定间隙，因此直接路径信号107通常可以位于该恒定间隙之后。然而，发射和记录两者都必须经过设备7的操作系统中的多层硬件和软件处理，其中许多都呈现出不可预测的、变化的延迟。因此，仅使用恒定延迟来定位直接路径107可证明是不可靠的。

而由于直接路径信号107通常是呈现最高振幅的信号，因此使用互相关来定位直接路径信号107更可靠。如上所述，由于来自互相关结果中的可比较峰值的模糊性，在互相关之后直接路径信号107的偶然偏移仍然发生。因此，为了增强在步骤185中的互相关之后的直接路径信号107的稳定性，系统实施如上所述的以下步骤：1)在步骤183中的模板信号校准和2)在步骤184中的信号微调。普遍的，由于所接收的声音信号通常与所设计的发射信号稍微不同，为了获得用于互相关的精确的“模板”信号，系统最初在安静的环境中执行发射和记录(或在发射和记录声学信号的同时，阻挡环境噪声或执行噪声去除函数的其他方法)，使得直接路径信号107可以被更可靠地检测，并将其保存为用于未来互相关的校准模板。

因此，在步骤185中，系统在步骤184中使用模板信号校准183和信号微调技术，以便对噪声去除之后的信号进行互相关，并且找到相关信号的(一个或更多个)峰值，使系统可以在步骤185中更容易和准确地检测直接路径信号107。因此，作为示例，在从麦克风发射到用户3的面部区域9之后，所记录的信号的第一副本被标识为直接路径信号107，如图4所示。

注意，在步骤186中，系统通过检测用户3的面部标志155(例如用户3的两个眼睛位置或嘴角)在步骤186中执行视觉测量校准。在该示例性实施例中，这样的视觉测量校准186用于用户3的脸部9的各种面部几何形状的相应估计，特别是用户3的面部特征的特定面部几何形状和这样的面部特征的相应轮廓10。用户脸部9离摄像头较近或较远，系统能够估计用户离手机的距离，并确定声音或声学信号的哪个分段从脸部9发出(而不是从另一对象发出)。因此，实施线性关系以确定像素距离和脸部9到设备7的真实距离之间的比例值，如以下进一步的描述。该估计可以提供对回声信号位置的估计，这有助于在实施互相关时减少离群值。

可以检测其他预期的几何形状，例如，使用用户3的手的几何形状可以是替代用户的3脸部9的另一预期的实施方式。

如上所述，在示例性实施例中的视觉测量校准186的步骤应用摄像头图像投影原理。设备7越靠近用户3的脸部9，图像越大并且面部标志113之间的距离越大，反之亦然。因此，从脸部到设备的距离d_v被表示为：

其中d_p是两个面部标志之间的距离，并且τ是针对用户的未知比例因子。

系统选择d_p作为两个标志之间的像素距离，例如两个眼睛标志155，因为它们通常被更广泛地分离并可以被可靠地检测。系统可以检测中间关系，并且还使用两个标志眼睛点155之间的脸部9到摄像头103的距离。为了估计比例因子τ，系统根据声学距离测量值和以像素为单位的d_p,i计算每个成对d′_v,i的τ_i。为了消除由如图5所示的声学距离测量离群值110引起的误差，系统首先使用基于密度的空间聚类算法(例如如上所述的DBSCAN)定位和识别{τ_i}的主集群。系统接下来利用线性回归来寻找使d′_v与

之间的偏移最小化的最佳τ。

图5示出了在与视觉校准的声学距离测量值相关联的信号中去除离群值110。

接着在图10B的步骤187期间，系统执行使用互相关和视觉测量来定位主回声的步骤。在定位主回声187时，系统通过提取关于脸部的3D几何形状及其相应标志155的最多信息来确定从脸部9发射的主回声109。在示例性实施例中，用于在所有脸部区域回声108中定位主回声109的直接方式是识别直接路径信号107的位置之后的、对应于典型的手机握持距离(例如，25-50cm)的互相关峰位置。然而，人脸回声可能很弱，以致于来自位于更远处的较大障碍物的回声可能具有同等的振幅。这可能致使估计不稳定，并且可能导致偶然的位置“跳跃”，因此在这样的距离测量值中可能出现离群值110。图5中的虚线示出了当设备从脸部来回移动时来自声学信号的距离测量值。如上所述，图5中示出了一些由于这样的“跳跃”异常而产生的离群值110。因此，为了减少这些离群值110，可以实施视觉辅助的主回声定位技术。

视觉辅助的主回声定位技术可以用于估计用户的脸部9的3D几何形状。然而，基于视觉的距离测量虽然通常是稳定的，但是不能捕获由智能手机或用户的脸部9的旋转引起的误差。因此，视觉校准的距离测量被用于缩小主回声搜索范围并减少从主回声信号109检测到的离群值110。在示例性实施例中，系统实施互相关以在检测到的声学信号的相关范围内找到确切的主峰位置。注意，如果用户脸部旋转到极端角度，则面部标志155检测可能无法正确地工作。

特别地，在步骤188的脸部区域回声检测期间，注意到人脸具有3D表面，因此相对于其各种特征(例如眼睛、鼻子、颧骨、嘴等)具有一定深度。对于具有平均人脸9的用户3，鼻尖通常最靠近设备7，而耳朵通常最远。注意，平均人脸通常具有来自声学信号回声的七(7)个深度(例如鼻子、脸部、脸颊、前额、眼睛、下巴、嘴)。鼻子被认为最靠近摄像头103，而脸部离摄像头最远。脸颊通常被认为大约在中间距离。因此，脸部被认为是通常具有七(7)个深度的3D对象。注意这七(7)个深度以及来自每个面部轮廓的声学信号回声是如何被系统全部处理以生成与个体用户3相关联的独特回声签名的，所述个体用户3经由用户配置文件注册21过程向系统注册，如图2A所示。

理论上，当检测主回声信号109时，系统假设脸部9是平坦的表面。因此，为了覆盖脸部的深度，并检测与标志155相关联的所有声学信号(用于训练CNN或SVM模型数据库，并稍后实施相应的声学和/或视觉特征提取以用于稍后的用户认证)，系统将主脸部信号扩展到例如其两个端点(例如，由用户3的两只耳朵描绘的线)。系统可以在主回声分段109之前和之后扩展10个采样点，以便确定整个脸部区域108的回声，从而允许大约～7cm的深度范围。

因此在步骤188期间，在检测和识别脸部区域回声108(其用于生成与用户3相关联的回声签名)期间，由于人脸的深度是有限的，所以在示例性实施例中的系统在主回声分段109之前和之后都扩展一些时间采样点，例如(如图4所示的位于时间x轴上的)10个采样点，以便覆盖整个脸部区域(例如，允许～7cm的深度范围)。

更具体地，通常以48KHz对声学信号进行采样，这意味着每秒48,000个采样点。如图4所示，主回声109和脸部区域回声108包括(沿x轴的)时间采样点。主回声109是较大脸部区域回声分段108的一部分。十个采样点对应于主回声和脸部区域回声之间的差。在本公开的实施例中，在主回声109之前有10个采样点，并且在主回声109之后有另外10个采样点被扩展。与脸部区域回声108各自的x轴时间采样点相关联的这些脸部区域回声108可以稍后用作在用户认证121期间使用的任何实施的机器模型(例如CNN)的输入，例如如图7所示。

进行到图10B中的步骤188，系统接下来确定脸部区域回声108(如图4所示)，其回声信号与生成与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记或表示或图案相关联。系统首先通过识别最大峰振幅来定位直接路径信号107，如上文关于步骤185所述。接下来，系统通过使用如上文关于步骤187所述的互相关和视觉测量值来识别主回声分段109的位置。接下来，系统现在可以通过基本上扩展如上所述的主回声109采样点来确定脸部区域回声。在图10B的示例性实施例中，通常首先需要识别直接路径信号107，以便系统可以确定和识别主回声109，该主回声109通常沿着图4的x轴跟随所示的直接路径信号107。

图10C示出了根据本公开的系统和方法的实施例的分段信号分析的任何示例性方法的流程图，其形成了图10A中所示的声学信号预处理方法的一部分。

从图10C的步骤190开始，将分段后的脸部区域回声108与包括每秒多个采样点的时间序列数据(如图4的x轴所示)相关联。因为脸部区域回声包括具有不同振幅和相位的个体回声的组合，所以由于噪声，在时域中分离这样的个体回声可能是繁重的。来自脸部的回声反映来自独特表面9的独特的脊和子脊。来自脸部的回声是与许多小的表面区域和它们相应的几何形状相关联的汇编。面部区域回声分段是从用户的脸部9的独特表面几何形状发出的复杂且连续的声学信号的量化重建值。

在本公开的实施例中，系统通过在雷达中使用的调频连续波(FMCW)技术来测量每个回声的到达时间。在传统FMCW中，扬声器传输具有从f_min到f_max的线性增加频率的连续啁啾信号。为了估计与对象的距离，FMCW使用称为信号混合的技术将回声信号的频率与参考信号的频率进行比较，如步骤191所示，以找到与距离成比例的频移Δf(如图6所示)。因此，找到的Δf提供了该距离(即，Δf乘以常数系数)。

为了捕获脸部9上的微小表面几何形状，FMCW距离测量分辨率是关键的。分辨率Δf等于快速傅立叶变换(FFT)中一个间隔的大小，这取决于所使用的带宽。快速傅立叶变换(FFT)是由该实施例实施的示例性算法，其在一段时间(或空间)上对信号进行采样，并将信号划分成其频率分量。

因此尽管一些用户可以轻微地听到，但是系统实施如16-22KHz的宽频率。如图6所示，在长度为T的脸部区域的持续时间内进行FFT，因此一个FFT间隔的大小为1/T。给定最小可测量的频移Δf_min＝1/T，可以使用信号的斜率(图6所示)来计算最小可测量距离分辨率，该斜率是总扫描带宽B除以扫描时间T。因此距离分辨率由方程式(2)定义：

其中C是声速。假定在20℃时C＝343m/s，则d_r为

注意这是FMCW能够分离混合回声的分辨率。主回声位置的分辨率对应于一个单个声学样本，其为

其中F_s＝48KHz为记录采样频率。

短时傅立叶变换(STFT)是在示例性实施例中使用的傅立叶相关变换，以在信号随时间变化时确定信号的局部部分的正弦频率和相位内容。实际上，计算STFT的程序是将较长的时间信号分成相等长度的较短分段，然后对每个较短分段分别计算傅立叶变换。这揭示了每个较短分段上的傅立叶频谱。然后通常绘制作为时间函数的变化的频谱。因此，当声学面部区域回声信号随时间变化时，将频谱图表示为声学脸部区域回声信号的频率的频谱的图像或视觉表示。频谱图有时被称为声谱记录、声纹或语音图。当数据以3D绘图(3Dplot)方式表示时，它们也可以被称作瀑布图表示。

在步骤191执行FMCW信号混合之后，在步骤192使用STFT生成分段后的脸部区域回声的频谱图。然后，在认证121期间，该频谱图被用作CNN训练的输入，如上文关于图7描述的。基本上，分段后的脸部区域回声信号的频谱图是时间序列数据到频谱图的转换。包括与相应振幅值关联的频率和时间数据的2D值被生成为图像表示。接着，将分段后的脸部区域回声的频谱图图像传送到CNN分类器，以提取与声学脸部区域相关联的特征，特别是在这种分段后信号分析期间，通过分段后的脸部区域回声来捕获表面几何形状。CNN被特别地分类以训练模型。

图10D示出了根据本公开的系统和方法的实施例的FMCW的任何示例性方法的流程图，该FMCW是用于执行如图10C所示的分段后信号分析部分的可选实施例。在步骤194中，回声签名处理器将回声信号分段与参考信号相乘(例如，如图6所示)。在步骤195中混合信号，类似于使用上文所述的FMCW技术混合图10C所示的分段后的脸部区域回声信号步骤191。在步骤196中生成使用STFT的频谱图。在步骤197中确定回声信号和参考信号之间的频率差，类似于上文所述的步骤，也参考图6。如图6所示，在步骤198中可以使用来自斜率的数据、x轴上的时间数据和y轴的频率值计算回声信号的时间延迟。

特别地，该系统通过在雷达中使用的调频连续波(FMCW)技术测量每个回声的到达时间。在传统FMCW中，扬声器101、104传输具有从f_min到f_max的线性增加频率的连续啁啾信号。为了估计与对象的距离，FMCW使用称为信号混合的技术将回声信号的频率与参考信号的频率进行比较，如步骤195所示，以找到与距离成比例的频移Δf和Δt(如图6所示)。因此，找到的Δf提供了该距离(即，Δf乘以常系数)。给定最小可测量频移Δf_min＝1/T，可以使用信号的斜率(参考图6中所示的斜率)来计算最小可测量距离分辨率，该斜率是总扫描带宽B除以扫描时间T(实施上文列出的方程式(2))。

因此，如图10D的步骤199所示，使用计算的时间延迟来计算脸部9和设备7之间的、涉及脸部的不同区域的相应距离。

图11A示出了根据本公开的系统和方法的实施例的作为如图7的示例所示的认证过程的一部分的执行数据增强以检测面部标志的示例性方法的流程图。在示例性实施例中，图11A检测标志的世界坐标，该世界坐标是脸部在空间中的位置的坐标。

该系统实施一个分类系统以训练用于稍后在认证阶段22、121期间的检索和使用(参考图2A和7)的数据集。例如，一类SVM是无监督算法，学习用于新颖性检测的决策函数，并执行将新数据分类为与训练集相似或不同。这种一类SVM检测训练集的软边界，因此它可以将新样本分类为属于该集或不属于该集。在实施例中，系统实施了用于最终分类的具有径向基函数(RBF)核函数的一类SVM。这允许系统在移动设备上为新用户3(或例如戴着新帽子或眼镜的不同或修改外貌的相同用户)训练SVM分类模型，而不需要如CNN中的大量训练数据。

为了更理想地完成该训练集，用户3应当在相对于脸部9的各种相对位置处移动设备，以便在用户注册21期间收集足够的训练数据。实际上，这对用户施加了更多的工作，并且系统难以确定何时已经收集了足够的数据来捕获这样的不同用户模式或外貌。不足的训练数据将影响生成更高的假阴性(即，拒绝合法用户)。因此，在图11A和11B所示的实施例中，系统执行数据增强技术，其通过基于面部标志变换和声学信号预测生成“合成的”训练样本来增添训练数据。在该增强过程期间，系统通过假设(合成)手机7的不同姿势，将测量的面部标志和声学信号变换为合成的面部标志和声学信号。因此，系统增强训练数据集，以便完成对于用户9的不同摄像头姿势的投影图像的估计。另外，系统假设摄像头姿势确实改变，估计面部标志155的相应坐标。

在图11A中，从步骤200开始，回声签名处理器或其他预期的计算设备、回声签名系统引擎或处理器通过实施(先前结合图7所示的元素134进行描述的)下面定义的方程式(3)和(4)来计算标志的世界坐标。

系统首先使用例如如图8A所示的来自谷歌的移动视觉API在安卓平台上检测图像上的面部标志155(例如，眼角/尖、鼻子和嘴)的2D坐标作为特征。图8A中所示的脸部9由一个或更多个以虚线示出的边界矩形151、153跟踪。这些标志描述了脸部9上的关键几何形状特征，以及它们与从设备7到脸部9的相对位置相关联的位置。在图11A的步骤200中所示的示例性实施例中的标志坐标包括计算合成的面部标志坐标。从一个特定视角和距离检测图像的面部标志坐标。然后，假定从不同的角度或距离拍摄图像，系统利用某些变换函数来计算标志坐标155。

更具体地，图11A中的数据增强202是由基于声学的面部回声签名系统使用的用于确定例如图8B以及图8A和8B的并排视图中所示的两个或更多个摄像头位置之间的标志变换201的过程。应用投影几何形状，映射到摄像头103中的像平面上的世界坐标系下的3D点(x_w,y_w,z_w)的投影矩阵P被建模为本文下面列出的方程式(3)和(4)：

是摄像头的内参矩阵，例如，以像素为单位的焦距f_x和f_y、扭曲s和图像中心(c_x,c_y)。[R|T]表示摄像头的外参矩阵，例如，在世界坐标系中的摄像头的姿势，其中R是用于其3D取向的3×3矩阵，并且T是用于其3D平移的3×1矩阵。

如图8B所示，在示例性实施例中，两个摄像头以不同的距离/角度拍摄同一对象的图像，定义以下方程式(5)：

x＝[u,v,1]^Tand x′＝[u′,v′,1]^T (5)

在两个图像上表示对象的像素坐标。不失一般性，第一摄像头被定义为世界原点，因此两个摄像头的投影矩阵在此由本文的以下方程式(6)定义：

P＝K[I|0],P′＝K′[R|T] (6)

其中I是3×3的单位矩阵。

基于投影几何形状确定的以上描述，系统将一个摄像头中的标志155像素坐标变换为用户3的任何新的摄像头姿势的坐标，因此为一个或更多个用户增加特定的训练集。

如图11A的步骤201所示，系统接下来将标志155变换到新图像上。根据新检测到的摄像头姿势的投影矩阵，系统可以通过实施在下文中定义为方程式(7)的以下方程式来计算标志的对应像素坐标：

x′＝K′RK^-1x+K′T/z_w (7)

该变换方程(7)包括两部分：第一项仅取决于图像位置，即x，而不取决于标志的深度z_w；第二项取决于深度并且考虑了摄像头平移。在纯平移(R＝I,K′＝K)的情况下，方程式(7)简化为下文提供的方程式(8)。

x′＝x+KT/z_w. (8)

进行到图11A的步骤201，系统处理器通过实施以上定义的方程式(8)将标志坐标变换到(一个或更多个)新图像上。

在认证的下一步骤期间，如图11A中的步骤202所示的数据增强、该回声签名系统和方法、基于上文列出的方程式(8)增强所创建的训练集。在这种数据收集和相关处理之前，在图11A的示例性实施例中，系统首先采用印刷有已知大小的棋盘格的基准纸张来校准摄像头。因此，该系统能够识别并生成其内参矩阵K。当检测到新的摄像头姿势时，系统识别θ的值，其中θ＝(T,φ)，其中T表示其3D坐标，并且φ＝(α,β,γ)表示其沿着智能手机的三个坐标轴的任何旋转角度。系统接下来基于例如使用罗德里格斯公式将φ变换为3×3的旋转矩阵R。

因此，根据声音传播平方反比定律，将脸部区域信号分段偏移相同的距离，其中通过等于距离平方的倒数的比例来调整振幅。由于智能手机扬声器和麦克风的全指向属性，在固定位置处的轻微设备旋转引起信号中的可忽略的变化，因此仅设备位置变化会导致声学信号变换。

在图11A所示的这种数据增强过程期间，系统提取脸部的轻量级视觉特征以补充声学特征。视觉技术用于两个目的：1)检测面部标志155，所述面部标志155稍后被用作基本视觉特征；和2)在视觉和/或声学数据的数据收集和处理期间，在智能手机屏幕105上跟踪用户的脸部9，使得用户可将设备7保持在(因此，距离和取向导致的)某些“有效”区内，用于稍后用户9的认证。

因此，系统增强训练数据集以便完成用户9的不同摄像头姿势的投影图像的估计。此外，系统假设摄像头姿势确实改变，估计面部标志155的相应坐标。

图11B示出了根据本公开的系统和方法的实施例的如图7的示例所示的用户认证过程的一部分的、为了检测面部标志和面部跟踪而执行如图11A所示的数据增强的示例性方法的流程图。图11B是在当手机7被保持在离设备7不同的角度或距离时声学信号改变的示例性实施例中实施的。在图11B所示的过程期间实施数据增强以便计算面部标志和声学信号两者，假设设备7被保持在不同的角度和距离处。该数据增强技术创建了更鲁棒的训练模型，使得系统可以以各种姿势和/或甚至以不同的配置(例如，戴帽子、太阳镜、化妆/浓妆、不同发型、头发被绑在后面、具有浓密的发型、白天/晚上的外貌等等)检测用户3的脸部9。

在图11B中以步骤203开始，回声签名处理器或其他预期的计算设备、引擎或处理器通过实施下面定义的(先前结合图7所示的元素134和图11A中的步骤200-201进行描述的)方程式(3)和(4)来计算标志像素坐标。注意，在步骤203中确定像素坐标是确定了脸部9相对于显示器或用户接口105的位置(而不是确定脸部9相对于空间的标志坐标)。

在步骤203的示例性实施例中的标志坐标包括计算(相对于设备7的用户接口或显示屏105的)合成的面部标志像素坐标。从一个特定视角和距离检测图像的面部标志像素坐标。然后，假定从不同的角度或距离拍摄图像，系统利用某些变换函数来计算标志坐标155。此外，图11B确定如果设备7位于离用户脸部9的不同角度或距离处，则声学信号如何改变。数据增强是计算面部标志和声学信号的过程，假设手机位于离用户脸部9的不同角度和距离处，通过合成来自这样的不同视角和距离的图像，使得用户3在用户配置文件注册阶段21期间不必提供多个姿势。因此，图11B中所示的数据增强的过程便于增强训练数据集，使得不同姿势和/或配置或外貌的用户的多个姿势或图像被处理并成为用于稍后的用户认证的训练集的一部分。

在实施例中，系统首先使用例如来自安卓平台上的谷歌的移动视觉API，检测图像上的面部标志(例如，眼角/眼尖、鼻子和嘴)的2D坐标作为特征，如图8A所示。图8A中所示的脸部9由一个或更多个以虚线示出的边界矩形151、153跟踪。这些标志描述了脸部9上的关键几何形状特征，并且这些标志位于与从设备7到脸部9的相对位置相关联的位置。

如上所述，图11A中的数据增强202是由基于声学的面部回声签名系统使用的、用于确定例如图8B以及图8A和8B的并排视图中所示的两个或更多个摄像头位置之间的标志变换201的过程。应用投影几何形状，映射到摄像头103中的像平面上的世界坐标系下的3D点(x_w,y_w,z_w)的投影矩阵P被建模为本文下面列出的方程式(3)和(4)：

其中λ是齐次坐标的比例因子，(u,v)指示其在图像上的像素坐标，

x＝[u,v,1]^Tand x′＝[u′,v′,1]^T (5)

其中x表示在两个图像上对象的像素坐标。不失一般性，第一摄像头被定义为世界原点，因此两个摄像头的投影矩阵由本文的以下方程式(6)定义：

P＝K[I|0],P′＝K′[R|T] (6)

其中I是3×3的单位矩阵。

根据实施例，在图11B的步骤203中的系统计算标志的像素坐标(也如图8B所示)。步骤203的示例性实施例中的标志坐标包括计算合成的面部标志坐标。从一个特定视角和距离检测图像的面部标志坐标。然后，假定从不同的角度或距离拍摄图像，系统利用某些变换函数来计算标志坐标155。

给定第一摄像头的投影矩阵P和标志像素坐标x，系统可以将标志的世界坐标计算为(x_w,y_w,z_w)T＝z_wK^-1x，其中z_w是标志距摄像头中心的距离，其可以经由声学感测模块来测量。

x′＝K′RK^-1x+K′T/z_w (7)

x′＝x+KT/z_w. (8)

进行到图11A的步骤201，系统处理器通过实施上面定义的方程式(8)将标志坐标变换到(一个或更多个)新图像上。在步骤203的示例性实施例中的标志坐标包括计算合成的面部标志坐标。从一个特定视角和距离检测图像的面部标志坐标。然后，假定从不同的角度或距离拍摄图像，系统利用某些变换函数来计算标志坐标155。

在认证的下一步骤期间，如图11A中的步骤202所示的数据增强、回声签名系统和方法、基于上文列出的方程式(8)增强所创建的训练集。在这样的数据收集和相关处理之前，在图11A的示例性实施例中，系统首先采用印刷有已知大小的棋盘格的基准纸张来校准摄像头，这是具有校准功能的计算机视觉中的标准技术。因此，系统能够识别并生成其内参矩阵K。当检测到新的摄像头姿态时，系统识别θ的值，其中θ＝(T,φ)，其中T表示其3D坐标，并且φ＝(α,β,γ)表示其沿着智能手机的三个坐标轴的任何旋转角度。系统接下来基于例如使用罗德里格斯公式将φ变换为3×3的旋转矩阵R。

系统能够在步骤203中通过合成从距用户3的不同视角和距离检测的用户3的图像数据来计算这样的标志像素坐标。因此，系统能够生成用户3的合成图像，并计算从不同的特定视角和距离得到的合成的面部标志坐标。然后，系统利用上文描述的变换函数，使用假定从与设备摄像头103的不同角度和/或距离拍摄的用户的图像的合成图像来计算相应的标志坐标。

参考图11B的步骤204，系统接下来通过实施(如先前在图10B中描述的)信号分段过程来确定脸部区域回声108。

特别地，图11B的步骤204包括通过应用信号分段方法确定(例如，如图4所示的)脸部区域回声分段109，该信号分段方法包括模板信号校准(步骤183)、信号微调(步骤184)、使用互相关定位直接路径信号185、视觉测量校准(步骤186)、使用互相关和视觉测量定位主回声(步骤187)以及最终确定脸部区域回声188(如上文结合图10B所述的)。然后，脸部区域回声188被用于生成与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案。

更具体地，在图10B的示例中所示的信号分段109处理期间，首先确定直接路径分段107，然后接下来可以确定主回声分段109(位于脸部区域回声分段108内)，如图4所示。具体地，在这样的信号分段处理期间并返回参考图10B，在如图10A中所示的声学信号预处理的信号分段181部分期间，系统在某些实施例中通过执行模板信号校准183来开始处理。该过程通常最初执行一次。由于设备7的硬件(例如，扬声器/麦克风)的缺陷，所接收的声音信号通常与所设计的发射信号略有不同。为了获得用于互相关的准确的“模板”信号，在安静的环境中执行发射和记录，使得可以可靠地检测直接路径信号185，并将该直接路径信号185保存为用于未来互相关的校准模板。

Hann函数典型地用作数字信号处理中的窗函数，并用于选择一系列采样的子集，以便执行傅立叶变换或其它类型的计算。Hann窗是通常由w_r＝1_[0,N-1]定义的调制矩形窗的线性组合。Hann窗的优点是非常低的重叠，并且稍微折衷的是降低的分辨率(主瓣的加宽)。

在某些实施例或方面，图10B中提供的信号分段的过程通常(除例如步骤183-184和186中所示的校准和微调步骤外)实施两个主要步骤以便提取脸部区域分段，具体地，1)如步骤185所示在原始记录中定位直接路径分段；然后在步骤187中定位主回声以识别脸部区域分段。

在图10B的示例过程的实施例中，为了在连续记录的(一个或更多个)回声信号4中找到主回声109，系统必须识别和使用在接收的回声信号4中的“参考位置”。检测直接路径信号107并将其用作“参考位置”，如图10B的步骤185所示。直接路径信号107通常是指从扬声器(例如101、104)直接传播到麦克风100的声学信号4，该直接路径信号107被认为是在发射之后记录的回声信号的初始第一“副本”。在步骤185中识别直接路径信号107之后，其相应位置指的是直接路径信号107和主回声109之间沿x轴的时间延迟，该时间延迟是时间元素变量(参考图4)。

更具体地，系统接下来在图10B的步骤187中识别主回声109在时间轴(如图4所示)上的位置。系统接着确定直接路径信号107和主回声109之间的时间延迟。给定时间延迟，系统可以估计声音传输距离，该距离是时间×声速除以2(当声音来回传输时)。

注意，在步骤186中，系统通过检测用户3的面部标志155(例如用户3的两个眼睛位置或嘴角)在步骤186中执行视觉测量校准。在该示例性实施例中，这样的视觉测量校准186用于用户3的脸部9的各种面部几何形状的相应估计，特别是用户3面部特征的特定面部几何形状和这样的面部特征的相应轮廓10。用户脸部9离摄像头较近或较远，系统能够估计用户离手机的距离，并确定声音或声学信号的哪个分段从脸部9发出(而不是从另一对象发出)。因此，实现线性关系以确定像素距离和脸部9到设备7的真实距离之间的比例值，如以下进一步的描述。该估计可以提供对回声信号位置的估计，这有助于在实现互相关时减少离群值。注意，可以检测其它预期的几何形状，例如，使用用户3的手的几何形状可以是替代用户的3脸部9的另一预期的实施方式。

之间的偏移最小化的最佳τ。图5示出了在与视觉校准的声学距离测量值相关联的信号中去除离群值110。

特别地，在步骤188的脸部区域回声检测期间，注意到人脸具有3D表面，因此相对于其各种特征(例如眼睛、鼻子、颧骨、嘴等)具有一定深度。对于具有平均人脸9的用户3，鼻尖通常最靠近设备7，而耳朵通常最远。理论上，当假设检测主回声信号109时，系统假设脸部是平坦的表面。因此，为了覆盖脸部的深度，系统将扩展主脸部信号以覆盖其两端(例如，由用户3的两只耳朵描绘的线)。系统可以在主回声分段109之前和之后扩展10个采样点，以便确定整个脸部区域108的回声，从而允许大约～7cm的深度范围用于处理这样的图像。因此，在图10B中的步骤188期间，在脸部区域回声分段108的检测和识别期间，由于人脸的深度是有限的，所以示例性实施例中的系统在主回声分段109之前和之后都扩展一些时间采样点，例如(如图4所示的位于时间x轴上的)10个采样点，以便覆盖整个脸部区域(包括脸部的七(7)个深度，例如鼻子、脸部、脸颊、前额、嘴、眼睛、耳朵)(例如，允许～7cm的深度范围)。

如上所述，面部区域回声188然后被用于生成与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案。

返回参考图11B，一旦系统在步骤204中使用图10B中所示的示例性信号分段过程确定了脸部区域回声108(并且因此确定了与识别和认证特定用户3相关联的独特回声签名印记、表示或图案)，则系统接下来在步骤205中通过应用声音传播定律来调整脸部区域回声分段108的振幅。在步骤204期间，系统基本上放大回声信号的视图(参考图4)，使得可以相对于x轴来解译和识别脸部区域回声108。

直接路径分段107是从扬声器直接传输到麦克风的发射信号，其理想地应当是发射信号的副本并且具有最高的振幅。主回声109对应于来自脸部的主表面(例如，脸颊和前额)的回声的混合。在距手机7不同距离处的脸部的其它表面(例如鼻子和下巴)也产生回声，比主回声更早/更晚到达。脸部区域回声108包括所有这些回声，捕获脸部的全部信息。因此，在步骤204中的信号分段期间对脸部区域回声的准确分段对于最小化来自围绕手机7的动态杂波的干扰以及减少用于模型训练和性能的数据维度是重要的。

在图11B中的信号分段步骤204期间，通常在提取脸部区域分段中实施两个步骤：在原始记录中定位直接路径分段，然后定位主回声109和定位通常位于直接路径分段107之后的时间采样轴(参考图4)上的脸部区域分段108。

因此，遵循图11B的步骤205中的声音传播平方反比定律，将脸部区域信号分段108偏移相同的距离，其中通过等于距离平方的倒数的比例来调节振幅。由于智能手机扬声器101、104和麦克风8的全指向属性，设备7在固定位置处的轻微旋转引起回声声学信号中的可忽略的变化，因此仅设备位置变化会导致任何声学信号变换。假设声音传播定律是等距的，假设来自直接路径信号的任何不同距离是通过调整信号的振幅来确定的，因此可以生成数据。

接着在步骤206中，系统沿着时间轴偏移调节后的脸部区域回声108，以便满足与假定到用户3的脸部9的摄像头103的不同视角和距离的任何合成的图像相关联的任何距离变化。注意，因为脸部9可以位于离设备7更远的位置，所以从用户脸部9反射的回声通常更弱并且被延迟。如果将用户向右或向左偏移，如果回声是较强的信号，则振幅可以更高(取决于哪个方向将致使用户更靠近手机)。如果回声正在减弱，则从用户脸部9反射的回声通常被更多地延迟且更弱—这样的回声信号以相对于更强的回声信号更大的延迟被接收。如果当用户3更靠近设备7时回声更强，则回声信号被更快且更强地接收。这种回声信号的相应振幅更高，回声将更强。

最后，在图11B的步骤207中，系统合成声学数据并输出与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案以用于系统输入。这种独特回声签名印记被输入到在SVM预测131和/或双因素认证121(如图7的示例所示)中使用的预训练CNN模型和/或SVM模型中。

与独特回声签名印记、表示或图案相关联的联合声学和视觉特征表示132被用于双因素验证121(例如，如图7所示)，所述独特回声签名印记、表示或图案与识别和验证特定用户3相关联。注意，对于某些实施例中的分类，一类SVM是无监督算法，其通过将新数据分类为与训练集相似或不同来学习用于新颖性检测的决策函数。SVM检测训练集的软边界，以便将新样本分类为属于该集或不属于该集。在某些实施例中，一类SVM实施用于最终分类的径向基函数(RBF)核函数。这种实施方式允许系统容易地为移动设备上的新用户(或佩戴新帽子或眼镜的同一用户)训练SVM分类模型，而不需要如CNN中那样的大量训练数据。基于这种数据增强过程的训练好的分类模型用于生成与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案。

在图11B的数据增强过程期间，系统考虑在相对于脸部的各种相对位置移动设备的用户3的合成的图像，以便在用户注册21期间收集足够的训练数据(而不是在用户注册21期间让用户手动输入不同的姿势)。实际上，这对用户施加了更多的工作，并且难以知道何时已经收集了足够的数据。训练数据不足将导致更高的假阴性(例如，合法用户3的拒绝的更多实例)。因此，该系统实施数据增强技术，该数据增强技术通过(如上文更详细地描述的)基于面部标志变换和声学信号预测生成“合成的”训练样本来增添训练数据。在该过程期间，通过在如图11B所示的增强过程期间相对于设备7假设不同的姿势，系统将测量的面部标志和声学信号变换成在图11B的步骤207中输出的合成的面部标志和声学信号。在图11B的步骤207中，这种合成的面部标志和声学信号被用于生成与识别和认证特定用户3相关联的(类似于特定用户3的指纹的)独特的回声签名印记、表示或图案。

图12示出了(在图2A的元素21中示出的)用户配置文件注册的示例性方法的流程图，该方法与在(例如如图2A所示的)用户配置文件注册21期间生成与识别特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案相关联，并用于随后的检索以及在(例如如图2A所示的)用户认证22期间实施。图2A示出了在执行SVM训练30中使用的联合特征29表示，该联合特征29作为(类似于用户3的独特指纹的)用户3的回声签名声学印记存储在用户配置文件数据库31中，但是基于由声学感测23/声学信号处理24提取的声学特征和提取的视觉面部特征28(而不是基于用户3的独特指纹生物特征)。

从图12的步骤210中的声学信号处理开始，用户注册的过程从检测最初从耳机扬声器发出的声学信号开始，该耳机扬声器用几乎听不见的声音信号4(例如，如图1所示)照亮用户的脸部9，该几乎听不见的声音信号又从独特面部轮廓(或用户的脸部9的至少七个深度)反射，作为独特声学信号5，该独特声学信号5被传送给与设备7相关联的接收器并由该接收器接收，以由(如图24的示例性实施例所示的)回声签名处理器381处理。

系统在步骤211中开始执行(如结合图10A步骤180所描述的)背景噪声去除，在示例中，原始声学信号通过16-22KHz巴特沃斯带通滤波器传送。系统接下来开始执行结合图10A步骤181所描述的信号分段过程。系统在步骤212中通过在原始记录中初始定位直接路径分段107(如图4所示)并接着(如结合步骤185-187所描述的)定位主回声分段109来提取脸部区域分段108(其中，脸部分段108位于时间采样轴上，在直接路径分段107之后)，来执行(在图10B中的)信号分段的步骤。系统可以使用互相关185来定位直接路径分段107，使用互相关和视觉测量技术187来执行视觉测量校准186和定位主回波109。接下来使用例如如结合图10D的步骤196所示和所描述的STFT来生成频谱图213。在步骤213中使用STFT计算频谱图，该频谱图以图像或视觉形式提供与声学脸部区域回波信号相关联的频率随时间变化的频谱的表示。

因此，频谱图被表示为声学脸部区域回波信号108的频率随时间变化的频谱的图像或视觉表示。频谱图有时被称为声谱记录、声纹或语音图。当数据以3D绘图方式表示时，它们也可被称作瀑布图表示。在如图10C所示的步骤191中执行FMCW信号混合之后，使用例如步骤192中所示的STFT，生成分段的脸部区域回波108的频谱图。然后，在认证121期间，该频谱图被用作CNN训练的输入，如上文关于图7描述的。基本上，分段后的脸部区域回声信号的频谱图是时间序列数据到频谱图的转换。包括与相应振幅值关联的频率和时间数据的2D值被生成为图像表示。如图12的步骤214所示，接着将分段后的脸部区域回声的频谱图图像传送到CNN分类器，以提取与声学脸部区域相关联的特征，特别是在这种分段信号分析期间，通过分段后的脸部区域回声108来捕获独特表面几何形状。CNN被特别地分类以训练模型。

如图12的步骤215-218所示，进行用于用户注册过程的视觉特征提取的图像处理的并行跟踪。图像处理特征提取开始于步骤215中的使用设备7摄像头103的摄像头预览。接下来，系统在步骤216中执行(如先前在图11A、步骤200和图11B、步骤203的示例性实施例中所描述的)面部标志检测和脸部跟踪。系统处理器执行(如图8A的示例中所示和所述的)对检测到的面部标志的处理和脸部跟踪，以及确定摄像头位置(摄像头#1和摄像头#2)之间的、(如图8B的示例中所示和所述的)从原始图像到偏移图像的相应标志变换。

接下来在步骤217中，系统执行脸部对准。初始用户注册21和稍后的用户认证22需要脸部对准217的步骤。用户将手机握持在不同的位置可能是不方便的，然而，数据增强的过程能够以相对于设备7摄像头103的各种用户位置来补充CNN或SVM训练集，使得面部对准217对用户3而言不太麻烦。基于声学的面部回声签名系统实施用于脸部对准的视觉面部标志28的检测27，这对于在联合特征提取29期间的鲁棒的声学感测23也是重要的。虽然这样的面部标志不只旨在显著提高识别准确度，但作为基于声学的方法，回声签名系统可以合并更复杂的面部特征(例如，来自在巨大的脸部图像数据集上训练的深度神经网络的特征)，该特征可以改善现有技术的基于面部的认证系统。

系统接下来在步骤219中合并在步骤214中执行的声学特征提取与在步骤218中执行的视觉特征提取。声学和面部特征的这种合并类似于在图2的示例中描述的联合特征表示29。

在步骤214中，预训练的CNN模型可被用作普通的声学特征提取器，其可被馈送到基于SVM的分类器以用于认证(例如，如图7中的步骤129中的SVM训练和在认证模型212中描述的SVM模型130所示)。在图12中，在步骤220中执行分类器训练，其可以是基于CNN或SVM的被训练的分类模型。训练好的模型包括与用户3相关联的回声签名声学印记，该训练好的模型在用户注册期间被存储在用户配置文件数据库221中(并且被用于如下面结合图14所描述的认证)。

图13A示出了根据所公开的系统和方法的实施例的、也在图2A中描述的声学特征提取和视觉特征提取的示例性方法的流程图。由图13A定义的声学特征提取过程开始于在步骤230中生成声学频谱图表示。如上所述，根据图7所示的实施例，实施了基于CNN的神经网络，其将分段信号的声学频谱图作为输入，并在收集自用户的大数据集上训练该神经网络。因此，频谱图表示为声学脸部区域回声信号的频率随时间变化的频谱的图像或视觉表示。频谱图有时被称为声谱记录、声纹或语音图。当数据以3D绘图方式表示时，它们也可被称作瀑布图表示。

在步骤191执行FMCW信号混合之后，在步骤192使用STFT生成分段后的脸部区域回声的频谱图。然后，在认证121期间，该频谱图被用作CNN训练的输入，如上文关于图7所述的。基本上，分段后的脸部区域回声信号的频谱图是时间序列数据到频谱图的转换。包括与相应振幅值相关联的频率和时间数据的2D值被生成为图像表示。在步骤231中，将分段后的脸部区域回声的频谱图图像发送到预训练的CNN分类器，以便提取与声学脸部区域相关联的特征，特别是在这种分段信号分析期间由分段后的脸部区域回声109捕获的独特表面几何形状。CNN被特别地分类以训练模型。因此，系统能够在步骤232中提取声学特征，该声学特征用于训练模型(例如，CNN或SVM模型)或者甚至用于执行如图7的认证模型121中所示的相应SVM预测131。

图13B示出了根据本公开的系统和方法的实施例的在用户认证期间实施的面部对准的示例性方法的流程图，也在图8A和9中示出。从步骤240开始，用户3在面部对准过程期间移动设备7或他/她的脸部。系统接着通过跟踪边界线(在下文描述的是如图8A和9所示的边界矩形)跟踪该脸部。系统接着检测该矩形是否在有效区域内(例如见图9，矩形170，脸部有效区域)。边界矩形171定义如图9所示的检测脸部区域。如果系统在步骤242检测到该矩形确实在有效区域内，系统在步骤243确定脸部确实被对准。

更具体地，图13B的面部对准过程的一些示例性实施例包括示例性双因素一次通过认证过程，其中系统实施一种模式，在该模式中，用户3必须正确地握持手机在有效区域矩形151、153内对准他的脸部，如屏幕105上所示(例如，参考以下结合图8A和9的进一步描述的)。如上所述，来自摄像头图像的视觉面部标志(包括标志坐标)134和由训练好的CNN135提取的声学特征133两者被馈送到用于识别的SVM 130。

更具体地，根据另一个实施例，在面部标志检测27期间，本公开的基于声学的面部回声签名系统提取脸部的轻量级视觉特征，以便补充所提取的声学特征，并在认证22期间处理这两个特征。视觉技术用于两个目的：1)检测面部标志，所述面部标志稍后被用作基本视觉特征；和2)在智能手机屏幕设备7上跟踪用户的脸部9，使得用户3可将设备保持在相对于例如由图8A中所示的矩形151、153的图示的距离的某些“有效”区内。有效区151、153包括相对于用户脸部9和智能设备7的距离和/或取向，用于在用户配置文件注册21中的相应数据收集和处理，然后用于用户认证22。

图8A和9中示出了图13B的面部对准过程的又一示例性实施例(包括在以下图片中的并排姿势)，是包括表示为实线矩形152的中间(红色)矩形的、表示设备用户3的检测到的面部区域9的图像快照150，以及被固定的脸部有效区域153、151的内边界158和外边界157考虑的、表示为虚线矩形153、151的两个(绿色)矩形。在示例性实施例中，在数据收集和处理期间，用户脸部9在两个(绿色)虚线矩形153、151内对准。否则，如果脸部9在两个(绿色)虚线矩形153、151的边界内没有对准，则丢弃声学数据，并且该过程在如图13B所示的步骤240处再次开始。如图8A所示的标志点155和如图9所示的较亮(黄色)点155是系统检测的面部标志，该面部标志例如通常以2D(x，y)像素坐标对或可选地以3D(x，y，z)坐标的方式被保存为像素坐标。

移动视觉API。帧率被设置为30fps，分辨率为1024×768。中间(红色)较暗阴影矩形171(如图9的示例所示)的边界定义了在用户接口177的边界线内检测到的用户3的脸部区域9。两个(绿色)较浅阴影矩形170定义脸部有效区域170的内边界和外边界，在所示的示例性实施例中该脸部有效区域170的内边界和外边界是固定的。在用户注册和/或用户认证以及相关数据收集期间，用户脸部9在图9所示的两个(绿色)虚线矩形170内对准；由于系统需要用户脸部9被对准以准确地执行认证，否则会丢弃声学数据。在这种双因素认证模式中，用户3必须正确地握持手机7以在如图9的屏幕177上所示的有效区域矩形170内对准他的脸部。图9中所示的较亮的圆圈点(黄点)155是检测到的面部标志155，其由系统处理器识别并保存为像素坐标。

在双因素一次通过认证功率模式期间的另一个描述示例中，用户3必须正确地握持手机7以在图9的用户接口屏幕177上显示为虚线矩形的有效区域矩形170内对准他的脸部。来自摄像头的视觉面部标志和由训练好的CNN提取的声学特征两者都被传送到用于面部和/或用户认证的SVM。这种模式可能需要更多的计算、能量成本，但是提供适合于诸如手机解锁、帐户登录、其它基于安全的特征等的场景的最高安全级别。在这种示例性模式期间，使用声学和视觉特征两者。将所提取的面部和声学特征132与在双因素认证121期间、在使用SVM模型130的实时预测122、131期间发生的预训练的CNN特征135进行比较，如例如图7中所示。

图14示出了根据本公开的系统和方法的实施例的用户认证的示例性方法的流程图，该方法也结合图2A进行了描述。

具体地，图14示出了根据本公开的系统和方法的实施例的声学特征提取和视觉特征提取的示例性方法的流程图，同样在图2A中进行了描述。

图14示出了用户认证(其在图2A的元素22中示出)的示例性方法的流程图，该方法与在(例如如图2A所示的)用户配置文件注册21期间生成与识别特定用户3相关联的(类似于特定用户3的指纹的)独特回声签名印记、表示或图案相关联，并用于随后的检索以及在(例如如图2A所示的)用户认证22期间实施。图2A示出了在执行SVM训练30中使用的联合特征29表示，该联合特征29作为(类似于用户3的独特指纹的)用户3的回声签名声学印记存储在用户配置文件数据库31中，但是基于由声学感测23/声学信号处理24提取的声学特征和提取的视觉面部特征28(而不是基于用户3的独特指纹生物特征)。

在图10的步骤250中以声学信号处理开始，用户认证的过程开始于最初从耳机扬声器发出的声学信号的检测，该耳机扬声器用几乎听不见的声音信号4(例如如图1所示)照亮用户的脸部9，该几乎听不见的声音信号4从独特面部轮廓(或用户的脸部9的至少七个深度)反射，作为独特声学信号5，该独特声学信号5被与设备7相关联的接收器发送和接收以便由回声签名处理器381(如图24的示例性实施例所示)处理。

系统在步骤251中开始执行(如结合图10A的步骤180所述的)背景噪声去除。在示例中，原始声学信号通过16-22KHz巴特沃斯带通滤波器传送。系统接下来开始执行结合图10A步骤181所描述的信号分段过程。系统在步骤252中通过在原始记录中初始定位直接路径分段107(如图4所示)并接着(如结合步骤185-187所描述的)定位主回声分段109来提取脸部区域分段108(其中，脸部分段108位于时间采样轴上，在直接路径分段107之后)，来执行(在图10B中的)信号分段的步骤。系统可以使用互相关185来定位直接路径分段107，使用互相关和视觉测量技术187来执行视觉测量校准186和定位主回波109。接下来使用例如如结合图10D的步骤196所示和所描述的STFT来生成频谱图213。在步骤213中使用STFT计算频谱图，该频谱图以图像或视觉形式提供与声学脸部区域回波信号相关联的频率随时间变化的频谱的表示。

因此，频谱图被表示为声学脸部区域回波信号108的频率随时间变化的频谱的图像或视觉表示。频谱图有时被称为声谱记录、声纹或语音图。当数据以3D绘图方式表示时，它们也可被称作瀑布图表示。在如图10C所示的步骤191中执行FMCW信号混合之后，使用例如步骤192中所示的STFT，生成分段的脸部区域回波108的频谱图。然后，在认证121期间，该频谱图被用作CNN训练的输入，如上文关于图7描述的。基本上，分段后的脸部区域回声信号的频谱图是时间序列数据到频谱图的转换。包括与相应振幅值关联的频率和时间数据的2D值被生成为图像表示。如图14的步骤253所示，接着将分段后的脸部区域回声的频谱图图像传送到CNN分类器，以提取与声学脸部区域相关联的特征，特别是在这种分段信号分析期间，通过分段后的脸部区域回声108来捕获独特表面几何形状。CNN被特别地分类以训练模型。

如图14的步骤255-258所示，进行用于用户注册过程的视觉特征提取的图像处理的并行跟踪。图像处理特征提取开始于步骤255中的使用设备7摄像头103的摄像头预览。接下来，系统在步骤256中执行(如先前在图11A、步骤200和图11B、步骤203的示例性实施例中所描述的)面部标志检测和脸部跟踪。系统处理器执行(如图8A的示例中所示和所述的)对检测到的面部标志的处理和脸部跟踪，以及确定摄像头位置(摄像头#1和摄像头#2)之间的、(如图8B的示例中所示和所述的)从原始图像到偏移图像的相应标志变换。

接下来在步骤257中，系统执行脸部对准。初始用户注册21和稍后的用户认证22需要脸部对准217的步骤。用户将手机握持在不同的位置可能是不方便的，然而，数据增强的过程能够以相对于设备7摄像头103的各种用户位置来补充CNN或SVM训练集，使得面部对准217对用户3而言不太麻烦。基于声学的面部回声签名系统实施用于脸部对准的视觉面部标志28的检测27，这对于在联合特征提取29期间的鲁棒的声学感测23也是重要的。虽然这样的面部标志不只旨在显著提高识别准确度，但作为基于声学的方法，回声签名系统可以合并更复杂的面部特征(例如，来自在巨大的脸部图像数据集上训练的深度神经网络的特征)，该特征可以改善现有技术的基于面部的认证系统。

系统接下来在步骤259中合并在步骤254中执行的声学特征提取与在步骤258中执行的视觉特征提取。声学和面部特征的这种合并类似于在图2的示例中描述的联合特征表示29。

在步骤254中，预训练后的CNN模型可被用作普通的声学特征提取器，其可被馈送到基于SVM的分类器用于认证(例如，如图7中的SVM训练步骤120和认证模型212的SVM模型130所示)。在图14中，在步骤260中执行分类，其可以基于训练好的基于SVM的分类模型。在本实施例中，训练分类的SVM以认证注册的用户。包括与用户3相关联的回声签名声学印记的训练好的模型在结合图12描述的用户注册期间被存储在用户配置文件数据库221中(并且在图14的用户认证过程期间在本文描述的认证期间被实施)。如果分类步骤260未能将用户配置文件模型与刚刚生成的声学和视觉特征配置文件相匹配，则系统在步骤261中拒绝用户3的访问。如果在步骤260中分类确实通过，并且确实匹配用户配置文件模型，则系统在步骤262中允许访问设备。

本质上，在认证阶段期间，用户仅需要将智能手机握持在他/她的脸部9的前面以用于面部标志检测和声学感测。联合特征被提取并被馈送到训练好的SVM分类器中以进行最终认证。如果系统没有找到与存储的配置文件的匹配，则系统在步骤261拒绝访问，用户验证失败。

一类SVM分类是无监督算法，学习用于新颖性检测的决策函数，并用于将新数据分类为与训练集相似或不同。该一类SVM检测训练集的软边界，以将新样本分类为属于该集或不属于该集。在示例性方法中，实施了将具有径向基函数(RBF)核函数的一类SVM用于最终分类。这允许系统更容易地在移动设备上为新用户(或佩戴新帽子或眼镜的相同用户)训练SVM分类模型，而不需要如CNN中的大量训练数据。

理想地，用户应当在相对于脸部的各种相对位置处移动设备，以便在用户注册期间收集足够的训练数据。实际上，这对用户施加了更多的工作，并且难以知道何时已经收集了足够的数据。不足的训练数据将导致更高的假阴性(即，拒绝合法用户)。因此，使用例如在图11A和11B中描述的数据增强技术，通过基于面部标志变换和声学信号预测生成“合成的”训练样本来增添训练数据。在该增强过程期间，系统通过假设手机的不同姿势将测量的面部标志和声学信号变换成合成的面部标志和声学信号，从而创建覆盖特定用户3的许多姿势和/或各种视觉外貌的更鲁棒的训练集。

执行评价研究以评价基于回声签名的认证系统和方法的性能等级。在示例性研究中，根据指导方针，实验中招募了45名不同年龄、性别和肤色的参与者。参与者脸部的身体外观的多样性有助于捕获足够的数据以创建有力的特征提取模型。研究中还包括五(5)种非人类类别：在不同材料(诸如纸、桌面监视器、纸盒上的照片、墙壁和大理石雕塑等)上打印/显示的人脸。在数据收集期间，要求每个参与者将智能手机握持在他/她的脸部的前方以确保脸部对准。为了适应轻微的手机移动，鼓励参与者缓慢地移动手机以覆盖不同的姿势。当脸部在有效区域之外时捕获的任何数据被自动丢弃。

从每个用户捕获约120秒的数据，约7-8MB且包括～2000个样品。为了确保多样性，在不同的背景噪声和照明条件下在多个不受控制的环境(例如，安静的实验室、嘈杂的教室和室外环境)中收集数据。更容易接近的一部分参与者在不同时间和位置处在多个会话中收集数据。同时还检测并记录面部标志，但是没有记录面部图像以保护参与者的隐私。总计，数据集包含91708个来自50个类的有效样本。将数据集分成三部分：70％用于模型训练，15％各用于模型验证和测试。另外，12个更多的志愿者加入作为新用户用于模型评估。

图15A和15B示出了对从CNN提取的特征的不同分类器性能和使用不同特征的SVM性能的图形表示。具体地，图15示出了根据本公开的系统和方法的实施例的对从CNN提取的特征的不同分类器性能的图形表示。

图15A示出了根据本公开的系统和方法的实施例的使用不同特征的SVM性能的图形表示。使用测试数据集来比较不同分类器和特征提取方法的性能。具体地，关于不同的分类器，我们的训练好的CNN的最后的完全连接层被移除，使得剩余的网络被用作一般特征提取器。然后，将这些提取的特征馈送到不同的分类器以进行最终分类。线性回归(LR)、线性判别分析(LDA)、K最近邻(KNN)、决策树(DT)、朴素贝叶斯(NB)、支持向量机(SVM)和独立的神经网络(NN)各自进行比较。图15A中的箱形图示出了下四分位数和上四分位数以及中位数。从该箱伸出的须(whiskers)示出了准确度的范围，并且须以外的离群值被标记为圆圈。确定SVM优于所有其它分类器，并且SVM训练花费更短的时间(与NN的65.38s相比只有15.06s，NN具有第二好的性能)。因此，选择SVM作为最终的用于认证的分类器。

此外，比较使用测试数据集的不同特征提取方法的性能。比较了不同的常用声学特征：频谱图(SPEC)、梅尔频率倒谱系数(MFCC)、色谱图(CHRO)、光谱对比度(CONT)和CNN特征。图15B提供了使用SVM分类器对它们的准确度的表示。CNN提取器优于所有其它特征，并且达到了～95％的最高准确度，这示出了CNN特征提取器的有效性和必要性。频谱图具有在～85％的较低的准确度和色谱图具有67％的准确度。MFCC和CONT具有低的多的～30％的准确度，这是所期望的，因为它们主要用于人类语音识别，而不是在回声签名印记系统和方法中使用的主动声学感测。此外，使用CNN特征来训练SVM模型的15.06s是用频谱图训练时所需的134s的零点几。当在资源约束移动设备上训练模型时，这是一个显著的改进，这对于用户注册的速度是关键的。

还评估了认证的准确性。在二元分类问题中，有四个结果：真阳性(TP)，阳性样本正确地分类为阳性类别；真阴性(TN)，阴性样本正确地分类为阴性类；假阳性(FP)，阴性样本错误地分类为阳性类；以及假阴性(FN)，阳性样本错误地分类为阴性类。具体地，在认证场景中，高TP意味着授权用户可以容易地获得访问，而高TN意味着系统可以阻止大多数攻击。最坏的情况是高FP，这意味着未授权的用户获得访问。高FN意味着授权用户可能被拒绝访问，这通常是恼人的并且不是用户友好的。在这个评价中，对每个对象训练一类SVM，并使用来自其余用户的数据来附加模型。注意，该模型仅在阳性样本上训练，它在训练期间没有来自攻击者的阴性样本。

引入精度、召回率、F分数和均衡准确度(BAC)作为度量。精度是所有被分类为阳性的样本中的真阳性的分数，定义为

召回率是所有阳性样本中的真阳性的分数，定义为

高精度度量标准意味着授权用户可以容易地通过，而高召回率意味着授权用户很少被拒绝。当类别分配不平衡时，单独的精度和召回率可能是误导性的。还引入了F分数和均衡准确度(BAC)，两者都对类别分配不敏感。F分数是精度和召回率的调和平均，其最佳值为1和最差值为0，定义为

BAC是真阳性率

和真阴性率

的平均，定义为

BAC为1意味着没有假阳性(即，成功攻击)或没有假阴性(即，拒绝合法用户的访问)。

表2示出了使用视觉、声学和联合特征的平均值和中值准确度。视觉(少数面部标志如眼角/尖、鼻子和嘴的2D坐标)是具有～72％的低平均精度的较差结果。声学达到86％，并且联合特征进一步将精度增加到88％，同时还将召回率降低了～6％。这是因为面部特征的简单2D坐标没有捕获脸部的全部特征，因此当存在许多测试对象时，它们单独地不能很好地执行。它们可以帮助“阻止”未授权的用户，这些用户可以呈现出类似的声学特征，从而提高精度。然而，它们也使得授权用户更难通过，从而降低了召回率。声学和联合特征两者均具有～85％的平均F分数和高于90％的BAC。所使用的视觉特征不是如在现有技术的基于视觉的脸部识别系统中所使用的面部外观的复杂和详细的视觉特征(例如，脸部的轮廓)。这些基本脸部标志主要用于脸部对准，这对于鲁棒的声学感测是关键的。虽然这样的面部标志不旨在大大提高识别准确度，但是作为基于声学的方式的回声签名系统可以自由地合并更复杂的面部特征，例如，来自在巨大的脸部图像数据集上的训练的深度神经网络的特征。这将对性能改进具有高得多的影响。

表2提供了具有视觉、声学和联合特征的平均值/中值准确度的表示。图16A提供了仅使用声学特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。图16B提供了仅使用联合特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。

注意声学和联合特征的中位数精度(～99％)和F分数(～94％)比各自的平均值(83～88％)高得多。这是由离群值引起的。图16A提供了仅使用声学特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。图16B提供了仅使用联合特征的一类SVM模型的精度、召回率、F分数和BAC的图形表示。

图16A和16B示出了声学和联合特征的所有四个度量标准的箱形图。具有非常低的精度的一些离群值类别引起低平均值，但不影响中值。这种离群值主要是非人类噪声类别或具有非常有限的有效样本的人类类别。当排除这样的离群值时，平均值将显著增加至大于～95％。

还评价了对新用户的性能以确定预训练后的CNN能多好地为新用户提取特征。该评价包括十二(12)名附加的志愿者，其数据未用于CNN训练。每个志愿者遵循相同的～2分钟的数据的数据收集过程，其中一半用于SVM训练，另一半用于测试。为每个志愿者训练一类SVM模型，并用来自用户的阳性样本和来自所有其他用户的阴性样本(包括来自在CNN训练中使用的50个类别的数据)测试该模型。表3示出了平均精度超过98％，由于不存在离群值类别，与表2中的结果相比，增加了大约10％。类似地，与表2相比，平均召回率、F分数和BAC都得到了改善。

表3提供了新用户的认证准确度的表格式表示。

为了确定有效的数据增强可以通过在训练数据有限时生成“合成的”训练样本来改善性能，进行了数据增强评价。该评价从该2分钟数据中分出20％的样本作为测试集，并将训练集的大小从20％改变为80％。在该分出之前对数据集进行混合，以使数据集更加平衡。

图17A提供了在不同训练数据量下数据增强(DA)的分类性能比较的表格表示。特别地，在图17A和17B中，在50-600的不同的训练样本数量下显示了精度、召回率、F分数和BAC，该样本是相对于另外1054个阳性测试样本和来自现有50个类别的所有91708个阴性样本进行测试的。显然，数据增强显著提高了召回率，因此提高了F分数和BAC，尤其是当训练样本非常有限(例如，＜100)时。随着大小的生长，采用了数据增强的召回率总是更高。然而，精度降低至～95％，这是因为“合成的”训练样本具有更多的噪音，使得更容易具有假阳性。该性能由超过400个训练样本来衡量，该训练样本可以在注册新用户时在一分钟内收集。

也执行了连续模式评价。具体评价的是存在检测和仅使用声学的连续认证的两个连续模式。

另外，评价了存在检测。在评价期间，智能手机被放置在不同的位置处并且保持在用户的脸部前方。检测结果实时显示在屏幕上，使得正确性水平明显。基于该实验，具有不明显的延迟的、几乎具有100％的准确度的，系统能够区分是放置在桌上还是握持在用户的前面。当设备接近一些主要的对象时，将设备保持在空中有时可能被检测为用户存在，这可能影响及时的屏幕锁定。

还评价了连续认证。为了确保连续认证期间的友好的用户体验，低假阴性率是非常重要的。一个志愿者参与实验，其中当脸部对准时，使用数据训练模型。在认证阶段，志愿者保持正常使用设备，并试图在摄像头禁用的情况下将设备保持在脸部对准的位置。评价每个循环进行多个认证试验时的精度、召回率、F分数和BAC。认证试验每100ms发生一次，因此来自多个试验的一个判定足够快，不会对用户造成明显的延迟。在一个周期内必须通过至少一次试验来声明认证成功。

图18示出了显示具有不同试验次数的连续认证性能的图形表示。特别地，图18示出了更多的试验快速增加召回率，同时降低精度。这是因为更多的试验给予用户更多的通过机会，从而减少拒绝，同时增加假阳性。为每个认证循环选择三(3)次试验以平衡所有的度量标准。

另外评价了对实际使用具有直接影响的以下因素。图19提供了具有指示在不同类型的噪声下的性能的柱的表格表示。

评价了对背景噪声的鲁棒性。特别地，在不同条件下评估了针对背景噪声的鲁棒性：安静的房间，具有环境噪声(在附近播放流行音乐)，以及具有加上自噪声的环境(在数据收集期间通过同一设备上的耳机扬声器播放音乐，这是极端条件)。图19提供了结果。除了稍微低的召回率之外，在安静的和环境噪声条件之间没有大的差别，这证明了回声签名系统相对于环境噪声是非常鲁棒的。加上自噪声的环境使召回率降低到～70％，但精度保持在95％以上。

还评价了图像欺骗攻击。为了进行这种评价，将五名志愿者的彩色照片以10种不同的大小打印在纸上，并且还在桌面监视器上显示照片，同时在距智能手机设备20-50cm之间的各种距离处逐渐放大/缩小照片。如果只使用视觉特征，则确定打印和显示的照片可以容易地通过系统，但是它们都不能通过声学认证或双因素认证。

诸如戴着眼镜和/或帽子等用户外观变化，可能导致反射声学信号的变化，从而生成更多的假阴性和低召回率。为了克服这些问题，除了现有的训练数据之外，SVM模型还用新出现的数据样本重新训练。图20是表格格式的图形表示，其示出了在模型更新之前/之后使用附加～1分钟的数据进行具有不同外观变化的5个用户的平均召回率。注意，在没有重新训练的情况下，召回率值被减少到单个数字。在重新训练之后，召回率值增加回到正常水平，因此正确的用户可以容易地通过。这表明重新训练在对抗这些变化方面是有效的。

还进行了关于用户体验的评价。对20个用户(主要是研究生和本科生学生)进行调查以收集他们的反馈，主要是在直接影响用户体验的两个方面：1)对所发射的声音信号的灵敏度；2)新用户注册的工作。在20个用户中，仅四个被报告能够在将智能手机保持在正常距离的同时从耳机听到高频声音。20个用户中，9个用户认为回声签名系统与诸如基于图像的脸部识别和指纹传感器等其他认证系统同样容易注册；6个用户认为它更难注册，5个用户认为它更容易注册。

执行了关于资源消耗的评价。特别地，评价了存储器、使用安卓工作室IDE分析器工具的CPU用途、以及使用在三星S7 Edge、三星S8和华为P9上的高通的Trepn分析器工具的功耗。

表4是以表格形式的平均/最大资源消耗的图形表示。特别地，示出了存储器和CPU资源消耗的表格格式的结果。表4示出了三个智能手机上的资源消耗。存储器具有平均～22MB和最大～50MB的消耗，该消耗在正在运行使用张量流图推理的CNN特征提取时出现。CPU完成所有机器学习推理的平均时间量在所有手机上是低的(5-7ms)。最大CPU时间为约～30ms，其仍然非常低。这种低存储器和CPU应用使得可以在大多数现有设备上部署回声签名系统。

也评价了响应延迟。响应延迟是系统在原始输入信号准备好之后产生认证结果所需的时间(参见表4)。三星S8呈现出具有平均～15ms的最小延迟，而其它两个设备(三星S7Edge和华为P9)呈现出32-45ms的延迟。当用户在寻求将脸部对准在有效区域中时保持移动手机时，延迟接近最大，这导致了大量的摄像头预览刷新和渲染。延迟通常还受其它计算繁重的后台应用程序的影响。对于实时连续认证，连续的声音信号发射之间的延迟是50ms。优选地，在回声签名系统中，每隔一个声音信号发射的实例执行认证，留下足够的时间用于处理。

也评价了功耗。测试了三种模式和使用面部标记的2D坐标的纯基于视觉的认证，每30分钟测量三星S7 Edge、S8和华为P9的功耗。将高通Trepn分析器工具用于这种评价，为所选应用提供了mW的功耗。屏幕打开时减去具有由在表5所示的不同模式引起的增加的功耗的背景功耗。

表5示出了诸如ULP(mW)、LP(mW)、双因子(mW)和视觉(mW)等不同模式的功耗。结果表明存在检测消耗最小功率，而低功率连续认证比基于纯轻量级视觉的认证花费更少的功率。双因素认证呈现出最高的电池消耗；但是还设计用于在仅仅几秒内完成偶然的一次通过认证，而不是延长周期连续操作。基于视觉的模式相对于LP的轻微功率增加是由于所使用的简单形式的面部标志，该简单形式的面部标志与诸如

的那些更复杂的面部标志相比重量轻得多。

智能手机认证。个人识别码(PIN)或文本/图形密码是最早并且仍然最广泛使用的智能手机用户认证方法。尽管简单，但是PIN或密码可以容易地被靠近用户设备7的某些人窥视。当被录音或者声音被高级学习算法近似模仿时，语音识别很容易被欺骗。呼吸印记感测用户的呼吸音，当用户具有激烈的运动时该呼吸音可能显著改变。基于视觉的脸部识别易受伪装图像的攻击。尽管眨眼可以提高其安全性，但是录好的视频仍然可以欺骗系统。指纹传感器已经取得了极好的安全性和便利性。然而，该传感器占用了许多宝贵的空间，并从用户留下的指纹伪造的指纹被证明是实用的。更先进的指纹传感器使用超声波来穿透皮肤并构建3D成像，但此类传感器在大多数智能手机上是难以利用的。苹果的

使用特殊的原深感摄像头传感器，带来额外的硬件成本并且需要重大的设计改变。英特尔的实感

是类似的技术，但是它昂贵并且功率计算量大，不适合于移动设备。不同于所有上述解决方案，基于回声签名声学的系统是首次将主动声学感测与视觉特征相结合用于用户认证的系统。它使用现有硬件取得了高均衡准确度(～95％)。

基于声学的脸部识别。在一些现有工作中，声学已经被用于脸部识别。I.E.Dror等人使用来自特殊超声波传感器的类似蝙蝠的声纳输入识别出五张人脸的有限数目，具有超过96％的准确度，以及具有88％的准确度识别出16张脸的性别。K.Kalgaonkar等人提出了基于多普勒效应的感测机制，以使用超声波来捕获说话脸部的动作模式。K.K.Yoong等人使用来自超声波回声信号的手工制作特征，以99.73％的准确度对多达10张脸进行分类。与使用在消费类电子产品中难以利用的特殊超声波传感器的所有上述工作相比，基于回声签名的认证系统使用目的不在于超声波频率的商品类智能手机扬声器和麦克风。这在信号设计和处理方面设置了许多挑战，并且需要更多的实验和测试来找出在硬件限制内提供所需的感测分辨率同时最小化用户的可听度的最佳信号设计。此外，这种现有工作使用纯超声波感测而没有来自视觉的帮助，因此产生了主要限制(例如，需要用户以固定位置和角度移动头部)。另一方面，回声签名系统使用用于实际的双因素视觉-声学认证的脸部跟踪算法来利用视觉对准脸部。回声签名是首次基于移动设备的方式。新用户可以在设备上使用预训练后的CNN模型注册以提取特征并训练独立SVM模型。虽然现有工作使用了手工制作特征或需要重新训练整个神经网络，但是在移动设备上是效率低且不可行的。

声学感测广泛用于距离测量，因此应用于定位、跟踪、应力和相遇检测。蜂鸣声-蜂鸣声(Beep-Beep)测量和剑术(SwordFight)直接测量两部智能手机之间的距离；Liu等人利用互相关来计算按键窥探的到达时间差；Yang等人检测车辆中的驾驶员手机应用；回声签名标签识别不同的位置，并且蝙蝠侠(BatMapper)使用回声信号来构建室内楼层平面图。此外，声学测距可以显著地提高智能手机定位准确度，例如，在匹配手机之间添加约束，部署发送空间信标信号的锚网络，或者使高精度无基础设施的移动设备跟踪。UbiK、AAMouse、FingerlIO和LLAP利用接收信号中的相移进行近场手指姿态跟踪，取得～1cm或更高的精度。压力感测在不受约束的声学环境中使用智能手机来检测个人压力。ApenaApp使用FMCW监视胸部和腹部的微小呼吸运动，SonaBeat使用信号相移监视呼吸节拍。CAT利用具有外部扬声器的FMCW进行智能手机移动跟踪，并取得mm级准确度。DopEnc提取声学特征以识别遇到的人。与它们相比，回声签名系统利用来自用于用户认证的不同目的的深度神经网络的声学特征。

利用复杂的视觉特征。回声签名系统可配置成与诸如

基于神经网络的现有技术开源面部识别系统等现有技术基于图像的脸部识别算法集成以便更实际地使用。利用

的初步原型可以被实施，在其中生成128维特征向量作为图像表示。

该原型用五(5)名志愿者评价，并用打印在纸上的用户图像或显示在桌面监视器上的图像/视频攻击系统。尽管在识别每个脸部时具有100％的准确性，但是

几乎没有针对真实人脸识别图像的能力。相反，在回声签名中使用的双因素认证方法阻止了由于声学特征的显著差异而引起的所有图像攻击，同时保留了高识别准确度。

是一种成熟的商业产品，其工作通常具有上述缺点。然而，基于回声签名的系统是一种可替代的低成本的基于声学的方法，其以更低的成本呈现出有希望的类似性能，并具有优于

的一些优点。例如，

可能在直射阳光下失效，而基于回声签名的系统使用声学并且不受强烈阳光的影响。对于进一步增加鲁棒性和进一步改进存在很大的空间，其中可以通过从大量人口获得数据来训练更鲁棒的模型，合并来自许多不同角度的声学数据，所有这些声学数据将进一步改进和扩展其预期的商业性能。

基于回声签名声学的系统，其利用商品类智能手机上的声学和视觉来进行两因素认证对抗对于手动手机姿势改变的要求。采用在大的声学数据集上被训练的卷积神经网络，它能够提取最好地区分不同用户的、可靠的声学特征。然后该CNN被用作普通声学特征提取器以馈送至用于认证的基于SVM的分类器。实验表明，回声签名系统取得了93.75％的均衡准确度和93.50％的F分数，平均精度为98.05％。

图21为普通的计算系统300的说明性实施例的方块图。计算系统300可以包括一组指令，该组指令可以被实行以使计算系统300执行本文公开的任何一个或更多个方法或基于计算机的功能。计算系统300或其任何部分可以作为独立设备来操作，或者可以例如使用网络322或其他连接来连接到其他计算系统或外围设备。

计算系统300也可以实施为各种设备或并入各种设备，该设备诸如个人计算机(PC)、平板PC、个人数字助理(PDA)、移动设备、掌上计算机、膝上型计算机、台式计算机、通信设备、控制系统、web应用或能够(顺序地或以其他方式)执行指定由机器进行的动作的指令集的任何其他机器。此外，虽然示出了单个计算系统300，但是术语“系统”还应被理解为包括单独地或联合地实行一组或多组指令以执行一个或更多个计算机功能的系统或子系统的任何集合。

如图21所示，计算系统300可包括处理器304，例如中央处理单元(CPU)、图形处理单元(GPU)或两者。此外，计算系统300可以包括主存储器和/或程序存储器306以及静态存储器和/或数据存储器308，它们可以经由总线310彼此通信。如图所示，计算系统300还可以包括诸如液晶显示器(LCD)、有机发光二极管(OLED)、平板显示器、固态显示器或阴极射线管(CRT)等视频显示单元312。另外，计算系统300可以包括诸如键盘的输入设备314和诸如鼠标的光标控制设备316。计算系统300还可以包括磁盘驱动单元318、诸如扬声器或遥控器等信号生成设备319、以及网络接口设备324。

在特定的实施例或方面，如图21所示，磁盘驱动单元318可以包括机器可读介质或计算机可读介质320，该机器可读介质或计算机可读介质320中可嵌入、编码或存储一个或更多个例如软件的指令302集。此外，指令302可以体现如本文所描述的方法或逻辑的一个或更多个。在特定的实施例或方面中，指令302可在由计算系统300实行期间完全或至少部分地寄居在主存储器306、静态存储器308和/或处理器304内。主存储器306和处理器304还可以包括计算机可读介质。

用于本公开的分段系统和方法的质量评估的上述方法可以在使用公知的计算机处理器、存储器单元、存储设备、计算机软件和其他组件的计算机上实施。

图22是根据本发明一个实施例的用于认证系统的示例性电子设备的示意图。电子设备330可以包括处理器331、存储装置332、存储器333、通信电路334、输入/输出电路335、图像认证系统336、回声签名声学认证系统337和电源。在一些实施例中，电子设备组件330中的一个或更多个可以被组合或省略(例如，组合存储装置332和存储器333)。在一些实施例中，电子设备330可以包括未组合或未包括在图22所示的那些组件中的其他组件(例如，显示器、总线或输入机构)，或图22所示的组件的若干实例。为了简单的目的，在图22中仅示出了每个组件中的一个。

处理器331可以包括任何处理电路，该任何处理电路操作为控制电子设备330的操作和性能。例如，处理器331可以用于运行操作系统应用、固件应用、媒体回放应用、媒体编辑应用或任何其他应用。在一些实施例中，处理器可以驱动显示器并处理从用户接口接收的输入。

存储装置332可包括例如一个或更多个存储介质，包括硬盘驱动器、固态驱动器、闪存、诸如ROM的永久存储器、任何其它合适类型的存储组件、或其任何组合。存储装置332可以存储例如媒体数据(例如，音乐和视频文件)、(例如，用于在设备100上实施功能的)应用数据、固件、用户喜好信息数据(例如，媒体回放喜好)、认证信息(例如，与授权用户相关联的数据的函数库)、生活方式信息数据(例如，食物喜好)、运动信息数据(例如，由运动监测设备获得的信息)、交易信息数据(例如，诸如信用卡信息的信息)、无线连接信息数据(例如，可以使得电子设备330能够建立无线连接的信息)、订阅信息数据(例如，保持跟踪用户订阅的播客或电视节目或其他媒体的信息)、联系信息数据(例如，手机号码和电子邮件地址)、日历信息数据、以及任何其他合适的数据或其任何组合。

存储器333可包括高速缓冲存储器、诸如RAM的半永久存储器和/或用于临时存储数据的一个或更多个不同类型的存储器。在一些实施例中，存储器333还可以用于存储用于操作电子设备应用的数据，或者可被存储在存储装置332中的任何其它类型的数据。在一些实施例中，存储器333和存储装置332可以被组合为单个存储介质。

通信电路334可以允许设备330使用任何合适的通信协议与一个或更多个服务器或其他设备通信。电子设备330可以包括用于使用不同的通信网络同时执行若干通信操作的通信电路334的一个或更多个实例，尽管为了避免附图过于复杂在图22中仅示出了一个。例如，通信电路334可以支持Wi-Fi(例如，802.11协议)、以太网、蓝牙.TM.(其是由蓝牙信号公司(Bluetooth Sig,Inc.)所拥有的商标)、射频系统、蜂窝网络(例如，GSM、AMPS、GPRS、CDMA、EV-DO、EDGE、3GSM、DECT、IS-136/TDMA、iDen、LTE或任何其它合适的蜂窝网络或协议)、红外线、TCP/IP(例如，在每个TCP/IP层中使用的任何协议)、HTTP、比特流、FTP、RTP、RTSP、SSH、IP语音(VOIP)、任何其它通信协议或其任何组合。

输入/输出电路335可以被操作为将模拟信号和其它信号转换(以及编码/解码，如果需要)为数字数据。在一些实施例中，输入/输出电路还可以将数字数据转换成任何其它类型的信号，反之亦然。例如，输入/输出电路335可以接收和转换(例如，来自多触摸屏的)物理接触输入、(例如，来自鼠标或传感器的)物理移动、(例如，来自麦克风的)模拟音频信号或任何其他输入。数字数据可以被提供给处理器331、存储装置332、存储器333或电子设备330的任何其他组件，并且数字数据可以从处理器331、存储装置332、存储器333或电子设备330的任何其他组件接收。尽管输入/输出电路335在图22中被示为电子设备330的单个组件，但是输入/输出电路的若干实例可以被包括在电子设备330中。

电子设备330可以包括用于允许用户向输入/输出电路335提供输入的任何合适的机构或组件。例如，电子设备330可以包括任何合适的输入机构，例如按钮、小键盘、拨号盘、点击轮或触摸屏等。在一些实施例中，电子设备330可以包括电容感测机构或多点触摸电容感测机构。

在一些实施例中，电子设备330可包括与输出设备相关联的专用输出电路，例如一个或更多个音频输出等。音频输出可以包括内置于电子设备330中的一个或更多个扬声器(例如，单声道或立体声扬声器)，或者远程地耦接到电子设备330的音频组件(例如，可以有线或无线地耦接到通信设备的头戴式耳机或耳塞式耳机)。

在一些实施例中，I/O电路335可以包括用于提供给用户可见的显示的显示电路(例如，屏幕或投影系统)。例如，显示电路可以包括结合在电子设备330中的屏幕(例如，LCD屏幕)。作为另一个示例，显示电路可以包括可移动显示器或投影系统(例如，视频投影仪)，用于在远离电子设备330的表面上提供内容的显示。在一些实施例中，显示电路可以包括编码器/解码器(编解码器)，以将数字媒体数据转换为模拟信号。例如，显示电路(或电子设备330内的其他适当的电路)可以包括视频编解码器、音频编解码器或任何其他合适类型的编解码器。

显示电路还可包括显示驱动器电路、用于驱动显示驱动器的电路或两者。显示电路可操作为在处理器331的指导下显示内容(例如，媒体回放信息、在电子设备上实施的用于应用的屏幕、关于正在进行的通信操作的信息、关于进入的通信请求的信息、或设备操作屏幕)。

图像认证系统336和/或回声签名声学认证系统或引擎337(其可以被集成为一个分立组件，或可选的如图所示，被集成为电子设备330的分立的分离组件)可以包括任何合适的系统或传感器，该任何合适的系统或传感器可操作为接收或检测识别设备330的用户的输入。例如，图像认证系统336可以包括皮肤图案感测机构，用于基于用户的面部图案、眼睛特征(例如，视网膜)或静脉特征来识别用户的光学系统，或用于检测用户的任何其他独特生物特征或属性的任何其他传感器。作为另一示例，认证系统336可以操作为接收识别用户的秘密或机密条目(例如，设备上的手势，或触摸显示器上的对象或颜色的特定图案)。作为又一示例，认证系统336可以操作为检测由用户引起的设备的特定移动或振动。认证系统336可以被组合或嵌入在电子设备330的任何其他元件(例如，显示器或摄像头)中，或者使用由电子设备的各种传感器(例如，加速度计或接近传感器)检测到的事件。在一些实施例中，可以在电子设备中组合或实施各种类型的认证系统。

回声签名声学认证系统337可以被配置为响应于从诸如电子设备330的耳机扬声器的输入/输出电路335生成的可听见或几乎听不见的声学信号的发射，检测和接收从用户3的独特面部轮廓或例如手的其他轮廓发射或反射的声学回声信号。这样的声学回声信号操作为在由认证系统337处理时(例如，基于确定的脸部区域回声108分段)识别用户。在一些实施例中，一个或更多个类型的认证系统可以与电子设备330中的回声签名声学认证系统337组合或实施。

在一些实施例中，电子设备330可包括总线，该总线操作为提供数据传输路径，用于将数据传送到控制处理器331、存储装置332、存储器333、通信电路334、输入/输出电路335、认证系统336、回声签名声学认证系统337以及包括在电子设备330中的任何其它组件，从这些组件传输数据，或在这些组件之间传输数据。

为了防止对存储在存储器或存储装置中的数据或信息的未授权访问，电子设备可指示认证系统识别用户并授权对所请求的资源的访问。电子设备在提供对任何电子设备资源的访问之前可能需要授权。在一些实施例中，电子设备在提供对不同应用或与不同应用相关联的不同数据或文件的访问之前可能需要不同级别的授权。例如，电子设备可以要求用户在提供对应用或数据的访问之前满足若干认证系统(比如，除了第一认证或初始认证(例如用于解锁设备的密码、匹配的声学回声签名、基于图像的认证以及其他预期的迭代认证)之外的、例如使用生物特征的第二认证。

图23示出了根据包含示例性计算系统的基于声学的回声签名系统的实施例的包含示例性移动设备的组成组件的系统框图。

图23中的设备365包括与运动传感器351、摄像头电路352、存储装置360、存储器359、显示器357和用户接口358交互的主处理器353。设备365还可以与通信电路350、扬声器355和麦克风356交互。设备365的各种组件可以数字地互连，并且通过由主处理器353实行的软件栈使用或管理。这里示出或描述的许多组件可以被实施为一个或更多个专用硬件单元和/或被编程的处理器(由处理器(例如，主处理器353)实行的软件)。

主处理器353通过执行在设备365上实施的一个或更多个应用的一些或全部操作、通过实行可在存储装置360中找到的用于设备365的全部操作的指令(软件代码和数据)来控制设备365的全部操作。处理器可以例如驱动显示器357且通过用户接口358(其可与显示器357集成作为单个触敏显示面板(例如，移动设备365的正面上的图3的显示面板105)的一部分)接收用户输入。主处理器353还可以控制设备365的锁定和解锁功能。

存储装置360使用非易失性固态存储器(例如，闪存)和/或动态非易失性存储设备(例如，旋转磁盘驱动器)提供相对大量的“永久”数据存储。存储装置360可以包括本地存储装置和远程服务器上的存储空间。存储装置360可以存储数据，该数据诸如授权用户的图像数据363，运动模式的数据和/或与用户的回声签名相关联的声学信号数据364，以及在更高级别控制和管理设备的不同功能的软件组件365。例如，可以存在配置摄像头电路352以捕获用于检测用户的脸部的图像的锁定应用361和解锁应用362。

除了存储装置360之外，还可以存在存储器359，也称为主存储器或程序存储器，其提供对由主处理器353和/或回声签名处理器或回声签名引擎354实行的存储代码和数据的相对快速的访问。存储器359可包括固态随机存取存储器(RAM)，例如静态RAM或动态RAM。可以存在一个或更多个处理器，例如运行或实行各种软件程序、模块或指令集(例如应用)的主处理器353和/或回声签名处理器354，这些软件程序、模块或指令集在被永久地存储在存储装置360中时已经被传输到用于实行的存储器359，从而执行上述各种功能。应当注意，这些模块或指令不需要被实施为单独的程序，而是可以以各种组合来组合或以其他方式重新布置。此外，某些功能的实施可以分布在两个或更多个模块中，并且可能与某些硬件结合。

设备365可以包括通信电路350。通信电路350可以包括用于有线或无线通信的组件，例如双向会话和数据传输。例如，通信电路350可以包括耦合到天线的RF通信电路，使得设备365的用户可以通过无线通信网络发出或接收呼叫。RF通信电路可以包括RF收发机和蜂窝基带处理器以使得能够通过蜂窝网络进行呼叫。在另一个实施例中，通信电路350可以包括Wi-Fi通信电路，使得设备365的用户可以使用互联网协议语音(VOIP)连接通过无线局域网来发出或发起呼叫。

设备365可以包括运动传感器351，也称为惯性传感器，其可以用于检测设备365的移动。运动传感器351可以包括位置、取向或移动(POM)传感器，诸如加速度计、陀螺仪、光传感器、红外(IR)传感器、接近传感器、电容接近传感器、声学传感器、声波或声纳传感器、雷达传感器、图像传感器、视频传感器、全球定位(GPS)检测器、RP检测器、RF或声学多普勒检测器、罗盘、磁力计或其他类似传感器等。例如，运动传感器351可以是光传感器，其通过检测环境光的强度或环境光的强度的突然变化来检测设备365的移动或没有移动。运动传感器351基于设备365的位置、取向和移动中的至少一个来生成信号。信号可以包括运动的特性，诸如加速度、速度、方向、方向的变化、持续时间、振幅、频率或任何其他移动特征。处理器353接收传感器信号并部分地基于传感器信号控制设备365的一个或更多个操作，例如下面描述的解锁功能。

在一个实施例中，设备365可以包括存储在存储装置360中的与用户回声签名模式相关联的移动模式和/或声学信号364。移动模式可与装置365的功能(例如，解锁功能)相关联。例如，处理器353可以将传感器信号与存储的移动模式364进行比较，以确定用户是否将设备365移动到使用位置，即，指示用户可能想要使用设备的位置。比较功能可以包括采用模式识别算法或技术或统计模型。在另一实施例中，处理器353可使用传感器信号通过使倾斜角与检测到的线性加速度相关来推断或计算装置365相对于静态线性加速度(即，重力)的倾斜或倾角。以这种方式，处理器353可以计算或推断设备365何时受到例如用户的手的动态加速。在又一实施例中，运动传感器351可包括诸如低通滤波器、阈值检测器、振幅检测器或频率检测器等其它信号处理电路以去除表示装置365的非故意的移动的信号。例如，低通滤波器可以用于去除或阻挡表示设备的短暂的、非故意的移动或设备的其他移动的噪声或寄生信号，所述设备的其他移动可能在例如移动车辆的行走、慢跑或弹跳期间发生。

在另一实施例中，运动传感器351可与抓握检测器或接近传感器(未图示)组合用于设备365的解锁功能中。抓握检测器可以用于识别用户何时持握设备365、触摸显示屏105或按压按钮。抓握检测器可包括一个或更多个开关和/或按钮以检测至少一个手指的存在。接近传感器可以感测设备365何时在用户的手中，使得设备365可以忽略不基于用户的手的移动和/或定位的位置、取向或移动的改变。通过要求用户在移动设备365的同时明确地与设备365的一部分交互，无意地启动解锁功能的可能性被最小化或消除。

设备365还包括实施装置365的数字摄像头功能的摄像头电路352。一个或更多个固态图像传感器被构建到设备365中，并且每个固态图像传感器可以位于包括相应透镜的光学系统的焦平面处。摄像头的视场内的场景的光学图像在图像传感器上形成，且传感器通过以数字图像或图片的形式捕获场景来进行响应，数字图像或图片包括随后可以被存储在存储装置360中的像素。摄像头电路352可以用于捕获在设备365的锁定或解锁功能中由处理器353和/或回声签名处理器354分析的图像。例如，摄像头电路352可以捕获设备365的授权用户的面部配置文件的图像，并且该图像可以与授权用户363的图像一起存储在存储装置360中。当摄像头电路352随后捕获想要解锁设备365的用户的图像时，处理器353和/或回声签名处理器354可以将随后捕获的图像中的面部轮廓(或训练SVM模型364的存储的声学和视觉特征表示)与授权用户363的图像的每个图像中的面部轮廓(或训练SVM模型364的存储的声学和视觉特征表示)进行比较，以确定用户是否是授权用户。这可以使用匹配看起来像同一个人的脸部的适当面部识别软件来实现。这也可以附加于面部识别来实现，或者可选地通过实施由回声签名处理器354处理的基于声学的回声签名认证来实现，该处理器在用户注册期间确定用户的回声签名配置文件，并将回声签名配置文件存储在存储装置360的声学信号回声签名配置文件364中。回声签名配置文件和/或包括声学信号签名364还可包括与声学特征表示相结合的视觉特征表示(即，联合特征表示)，其中相应的训练好的SVM模型在SVM预测131过程期间实施。

图24示出了根据包含示例性计算系统的基于声学的回声签名系统的实施例的包含示例性移动设备的组成组件的系统框图。

更具体地，图24中示出的是根据本发明的说明性实施例的个人计算设备370。该框图提供了诸如可由个人计算设备370采用而非限制的计算机系统的一般框图。个人计算设备370可包括与处理器375集成和/或作为分离的分立组件或模块381的处理器375和/或回声签名处理器381、存储设备380、用户接口372、显示器376、编解码器374、总线383、存储器379、通信电路378、扬声器或换能器371、麦克风373和图像传感器377。处理器375和/或回声签名处理器381可控制包括在个人计算设备370中的许多功能和其它电路的操作。处理器375、381可以驱动显示器376并且可以从用户接口372接收用户输入。

存储装置380可存储媒体(例如，音乐和视频文件)、(例如，用于在设备370上植入功能的)软件、喜好信息(例如，媒体回放喜好)、生活方式信息(例如，食物喜好)、个人信息(例如，由运动监视设备获得的信息)、交易信息(例如，诸如信用卡信息的信息)、文字处理信息、个人生产率信息、无线连接信息(例如，可使得媒体设备能够与另一设备建立无线通信的信息)、订阅信息(例如，保持跟踪用户订阅的播客或电视节目或其它媒体的信息)和任何其它合适的数据。存储设备380可以包括一个或更多个存储介质，包括例如硬盘驱动器、诸如ROM的永久性存储器、诸如RAM的半永久性存储器、或高速缓存。

存储器379可以包括一个或更多个不同类型的存储器，其可以用于执行设备功能。例如，存储器379可包括高速缓存、ROM和/或RAM。总线383可以提供数据传输路径，用于至少向存储设备380、存储器379和处理器375、381传输数据、从它们接收数据或在它们之间传输数据。可以包括编码器/解码器(编解码器)374，以将数字音频信号转换为模拟信号，用于驱动扬声器371产生包括语音、音乐和其它类似音频的声音。编解码器374还可以将来自麦克风373的音频输入转换为数字音频信号。编解码器374可以包括用于处理数字和/或模拟视频信号的视频编解码器。

用户接口372可以允许用户与个人计算设备370交互。例如，用户输入设备372可以采取诸如按钮、小键盘、拨号盘、点击轮或触摸屏等各种形式。通信电路378可以包括用于无线通信(例如，短距离和/或长距离通信)的电路。例如，无线通信电路可以是根据802.11标准之一许可的无线通信的Wi-Fi启用电路。或者替换所标识的协议，或者除了所标识的协议之外也可以使用其他无线网络协议标准。其它网络标准可以包括蓝牙、全球移动通信系统(GSM)和基于码分多址(CDMA)的无线协议。通信电路378还可以包括使设备300能够电耦合到另一设备(例如，计算机或附加设备)并且与该另一设备通信的电路。

在一个实施例中，个人计算设备370可以是专用于处理诸如音频和视频的媒体的便携式计算装置。例如，个人计算设备370可以是媒体设备，诸如媒体播放器(例如，MP3播放器)、游戏机、遥控器、便携式通信设备、远程订购接口、音频游览播放器或其他合适的个人设备。个人计算设备370可以是电池供电的和高度便携的，以便允许用户听音乐、玩游戏或录像、记录视频或拍摄照片、与其他人通信、和/或控制其他设备。此外，个人计算设备370的大小可以被设置为使其相对容易地适合放入用户的口袋或手中。通过手持，个人计算设备370(或图22所示的电子设备330)相对较小，并且容易地由其用户持握和使用，因此实际上可以带到用户旅行的任何地方。

如前所述，某些类型的个人计算设备370(例如个人媒体设备)的相对小的形状因素使得用户能够容易地操纵设备的位置、取向和移动。因此，个人计算设备370可以提供感测位置、取向和移动的这种改变的改进技术，以使得用户能够通过影响这种改变来与设备370交互或控制设备。此外，设备370可以包括在处理器375、381的控制下的振动源，例如，以便于向用户发送与包括用于用户认证的设备370的操作有关的声学信号、运动、振动和/或移动信息。个人计算设备370还可以包括图像传感器377，其使得设备370能够连续地、周期性地、在选择的时间和/或在选择的条件下捕获图像或图像序列(例如，视频)。

脸部检测和识别是不同的过程。脸部检测包括检测和/或定位图像内的一个或更多个脸部的过程。脸部识别包括识别所检测的脸部与特定的人或用户相关联的过程。然而，脸部识别通常与脸部检测一起和/或在脸部检测之后执行。

脸部检测和识别在诸如机器人和计算机视觉的技术领域中是已知的。然而，该技术有许多有利的应用，这些应用使得能够在用户和个人计算系统之间进行更有效的控制和交互。在某些实施例中，诸如设备330和370的个人计算设备包括例如摄像头的图像传感器，该图像传感器被定向为使得其能够在用户与个人计算设备被动地或主动地连接时感测用户的脸部的存在。例如，图像传感器可以嵌入在设备7的显示器105内。可选地，图像传感器可以与设备7的显示器105连接和/或安装在设备7的显示器105上。因此，在某些实施例中，图像传感器与个人计算设备的处理器一起操作，根据在个人计算设备上运行的应用的要求，充当用户存在传感器和/或用户认证器。

特别地，对于基于声学回声签名的用户认证，设备370便于从耳机扬声器371发射几乎听不见的声音信号以照亮用户的脸部，使得声学回声信号可以从用户的脸部9的独特面部轮廓10反射，因此在用户注册期间用于创建基于用户的声学回声信号的独特回声签名配置文件。回声签名配置文件可以存储在存储装置380中，并且在用户搜索解锁设备370时在用户认证期间被检索。

前述的具体实施方式应被理解为在各个方面是说明性的和示例性的，而不是限制性的，并且本文公开的本发明的范围不应由具体实施方式确定，而是由根据专利法允许的全部范围解释的权利要求确定。应当理解，这里示出和描述的实施例仅是本发明原理的说明，并且在不脱离本发明的范围和精神的情况下，本领域技术人员可以实施各种修改。本领域技术人员可以在不背离本发明的范围和精神的情况下实施各种其它特征组合。

在可选实施例或方面，可以构造诸如专用集成电路、可编程逻辑阵列和其他硬件设备等专用硬件实施，以实现这里描述的一个或更多个方法。可以包括各种实施例或方面的装置和系统的应用可以广泛地包括各种电子和计算系统。本文描述的一个或更多个实施例或方面可以使用两个或更多个特定互连的硬件模块或设备来实现功能，所述硬件模块或设备具有可以在模块之间并且通过模块通信的相关控制和数据信号，或者作为专用集成电路的部分。因此，本系统包含软件、固件和硬件实施。

根据各种实施例或方面，本文所描述述的方法可通过有形地体现在处理器可读介质中的软件程序来实施，并且可由处理器来实行。此外，在示例性的、非限制性的实施例或方面中，实施方式可以包括分布式处理、组件/对象分布式处理和并行处理。可选地，虚拟计算系统处理可以被构造为实施如本文所述的方法或功能中的一个或更多个。

还预期计算机可读介质包括指令302，或者接收和实行响应于传播信号的指令302，使得连接到网络322的设备可以通过网络322传送语音、视频或数据。此外，指令302可以经由网络接口设备324通过网络322被发送或接收。

虽然计算机可读介质被示出为单个介质，但是术语“计算机可读介质”包括单个介质或更多个介质，诸如集中式或分布式数据库，和/或存储一个或更多个指令集的相关联的高速缓存和服务器。术语“计算机可读介质”还应当包括能够存储或编码指令集以供处理器执行或使得计算系统执行本文公开的方法或操作中的任何一个或更多个的任何有形介质。

在特定的非限制性示例性实施例或方面，计算机可读介质可包括容纳一个或更多个非易失性只读存储器的固态存储器，诸如存储卡或其他封装。此外，计算机可读介质可以是随机存取存储器或其它易失性可重写存储器。另外，计算机可读介质可以包括诸如磁盘或磁带或其它存储设备等磁光或光学介质以捕获和存储载波信号，例如通过传输介质传送的信号。电子邮件的数字文件附件或其它自包含信息档案或档案集可被视为等同于有形存储介质的分布式介质。因此，其中可以存储数据或指令的计算机可读介质或分布式介质和其他等同物和后继介质中的任何一个或更多个都包括在这里。

根据各种实施例或方面，本文所描述的方法可被实施为在计算机处理器上运行的一个或更多个软件程序。包括但不限于专用集成电路、可编程逻辑阵列和其它硬件设备的专用硬件实施同样可以被构造为实施本文描述的方法。此外，包括但不限于分布式处理或组件/对象分布式处理、并行处理或虚拟机器处理的替代软件实施也可被构造来实施本文描述的方法。

还应当注意，实施本公开的方法的软件可以可选地存储在诸如磁介质(诸如磁盘或磁带等)、磁光或光学介质(诸如磁盘)或者固态介质(诸如存储卡或容纳一个或更多个只读(非易失性)存储器、随机存取存储器或其它可重写(易失性)存储器的其它封装等)等有形存储介质上。软件还可以利用包括计算机指令的信号。电子邮件的数字文件附件或其它自包含信息档案或档案集被认为是等同于有形存储介质的分布式介质。因此，本文包括本文列出的有形存储介质或分布式介质，以及其中可以存储本文的软件实施的其他等同物和后继介质。

因此，一种与同生成与设备的原始用户相关联的基于声学的回声签名配置文件相关联的方法相关联的系统和方法在设备的当前用户的认证的预测期间被实施。更具体地，本发明涉及一种新颖的系统和方法，其训练和增强分类模型，以便在设备的用户的认证期间预测包括用户的声学特征和视觉标志性特征的联合特征表示的相应认证。甚至更具体地，已经描述了用于实施新颖的系统和方法的系统和方法训练SVM分类模型，并随后在SVM预测过程期间被实施以确定基于所提取的声学和视觉特征表示的用户配置文件是否与在用户认证期间与设备的实际拥有者相关联的回声签名配置文件相匹配。该SVM分类模型与生成独特回声签名配置文件相关联，该独特回声签名配置文件与设备的原始拥有者/用户相关联。

尽管已描述特定示例性实施例或方面，但将显而易见，可在不脱离本发明的较广泛范围的情况下对这些实施例或方面作出各种修改和改变。因此，说明书和附图被认为是说明性的而非限制性的。形成本文的一部分的附图以说明而非限制的方式示出了其中可以实践本主题的特定实施例或方面。充分详细地描述了所说明的实施例或方面，以使得所属领域的技术人员能够实践本文所描述的教导。可以利用其他实施例或方面，并且可以从其导出其他实施例或方面，使得可以在不脱离本公开的范围的情况下进行结构和逻辑替换和改变。因此，此具体实施方式不应视为具有限制意义，且各种实施例或方面的范围仅由所附权利要求连同此权利要求所赋予的等同物的全部范围界定。

本发明主题的这些实施例或方面在本文中可单独地和/或共同地由术语“发明”或“实施例”来指代，这仅仅是为了方便，而不是旨在实际上公开了一个以上发明或发明概念的情况下将本申请的范围自动限制于任何单个发明或发明概念。因此，尽管本文已说明和描述了特定实施例或方面，但应了解，经计算以实现相同目的的任何布置可替代所展示的特定实施例或方面。本公开旨在覆盖各种实施例或方面的任何和所有修改或变化。在阅读了以上描述之后，以上实施例或方面的组合以及本文没有具体描述的其它实施例或方面对于本领域技术人员将是显而易见的。

在各实施例或方面的前述描述中，为了使本公开流畅，各种特征被一起分组在单个实施例中。本公开的方法不应被解释为反映所要求保护的各实施例或方面具有比每个权利要求中明确记载的特征更多的特征。相反，如以下权利要求所反映的，发明主题在于少于单个公开的实施例或方面的所有特征。因此，以下权利要求由此被并入具体实施方式中，其中每个权利要求独立地作为单独的示例性实施例或方面。可以设想，本文所述的各种实施例或方面可以组合或分组为在具体实施方式中未明确指出的不同组合。此外，还设想覆盖这样的不同组合的权利要求可以类似地独立它们自己作为单独的示例性实施例或方面，其可以被并入具体实施方式中。

尽管本说明书参考特定的标准和协议描述了在实施例中实施的组件和功能，但是本公开的实施例不限于这些标准和协议。

本文描述的实施例的说明旨在提供对各种实施例的结构的一般理解，它们不旨在用作可能利用本文描述的结构的装置和系统的所有元件和特征的完整描述。在阅读以上描述之后，许多其它实施例对于本领域技术人员将是显而易见的。可以利用和从中导出其他实施例，使得可以在不偏离本公开的范围的情况下做出结构和逻辑替换和改变。附图也仅仅是代表性的，并且可能不是按比例绘制的。其某些比例可能被夸大，而其它比例可能被最小化。因此，说明书和附图应被认为是说明性的而非限制性的。

本发明主题的这样的实施例在本文中可单独地和/或共同地由术语“实施例”来指代，这仅仅是为了方便，而不旨在自动地将本申请的范围限制于任何单个实施例或发明概念，如果实际上公开了多于一个实施例或发明概念的话。因此，尽管本文已说明和描述了特定实施例，但应了解，经计算以取得相同目的的任何布置可替代所展示的特定实施例。本公开旨在覆盖各种实施例的任何和所有修改或变化。在阅读以上描述之后，以上实施例的组合以及本文没有具体描述的其它实施例对于本领域技术人员将是显而易见的。

提供摘要以符合31C.F.R.§1.12(b)，其要求将允许读者快速确定技术公开的性质的摘要。应当理解，它不是用于解释或限制权利要求的范围或含义。另外，在前述具体实施方式中，可以看出，为了使本公开流畅，将各种特征一起分组在单个实施例中。公开的这种方法不应被解释为反映所要求保护的实施例需要比每个权利要求中明确记载的特征更多的特征的意图。相反，如所附权利要求所反映的，发明主题在于少于单个公开的实施例的所有特征。因此，以下权利要求由此被并入具体实施方式中，其中每个权利要求独立地作为单独要求保护的主题。

本领域技术人员将理解，本发明的各方面可用其它计算机系统配置来实践，其他计算机系统配置包括因特网设备、手持式设备、蜂窝或移动手机、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、包括瘦客户机、小型计算机、大型计算机等的客户端-服务器环境。本发明的各方面可以在专用计算机或数据处理器中实现，该专用计算机或数据处理器被具体编程、配置或构造为执行下面详细解释的计算机可执行指令或模块中的一个或更多个。实际上，如本文所使用的术语“计算机”是指任何数据处理平台或设备。

本发明的各方面也可以在分布式计算环境中实践，其中任务或模块由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块或子程序可以位于本地和远程存储器存储设备(诸如相对于可穿戴和/或移动计算机和/或固定位置计算机等)中。下面描述的本发明的各方面可以存储和分布在计算机可读介质上，以及通过因特网或通过其它网络(包括无线网络)电子地分布。所述计算机可读介质包括磁和光可读和可移动计算机盘。相关领域的技术人员将认识到，本发明的部分可以存储在服务器计算机或服务器平台上，而对应的部分存储在客户端计算机上。例如，这样的客户端服务器架构可以在单个移动计算设备内、在若干用户的若干计算机之间、以及在移动计算机和固定位置计算机之间采用。本发明的各方面所特有的数据结构和数据的传输也包含在本发明的范围内。

尽管已经描述了具体的示例性实施例，但是将显而易见的是，在不脱离本文描述的发明主题的更宽范围的情况下，可以对这些实施例进行各种修改和改变。因此，说明书和附图应被认为是说明性的而非限制性的。形成本文的部分的附图以说明而非限制的方式示出了其中可实践的主题的特定实施例。充分详细地描述了所说明的实施例以使所属领域的技术人员能够实践本文所公开的教导。可以利用其他实施例并从其导出其他实施例，使得可以在不脱离本公开的范围的情况下进行结构和逻辑替换和改变。因此，该具体实施方式不应被理解为限制性的，并且各种实施例的范围仅由所附权利要求以及这些权利要求所授权的等效物的全部范围来限定。

本发明主题的这些实施例在这里可以单独地和/或共同地由术语“实施例”来指代，这仅仅是为了方便，而不旨在自动地将本申请的范围限制于任何单个实施例或发明概念中，如果实际上公开了多于一个实施例或发明概念的情况下。因此，尽管本文已说明和描述了特定实施例，但应了解，经计算以取得相同目的任何布置可替代所展示的特定实施例。本公开旨在覆盖各种实施例的任何和所有修改或变化。在阅读以上描述之后，以上实施例的组合以及本文没有具体描述的其它实施例对于本领域技术人员将是显而易见的。

在各实施例的前述描述中，为了使本公开流畅，各种特征被一起分组在单个实施例中。本公开的方法不应被解释为反映所要求保护的各实施例具有比每个权利要求中明确记载的特征更多的特征。相反，如以下权利要求所反映的，发明主题在于少于单个公开的实施例的所有特征。因此，以下权利要求书由此被并入到具体实施方式中，其中每个权利要求独立地作为单独的示例性实施例。

尽管在此已经参考附图描述了优选实施例，但是应当理解，本公开不限于这些精确的实施例，并且在不脱离实施例的范围或精神的情况下，本领域技术人员可以在此进行各种其它改变和修改，而且旨在要求保护落入本公开范围内的所有这些改变和修改。

Claims

1.一种与基于涉及与设备相关联的回声签名的联合特征表示来预测设备用户的认证相关联的系统，所述系统包括：

回声签名引擎，所述回声签名引擎包括执行以下操作的处理器：

响应于处理与所述设备相关联的配置文件的请求而发射声学信号；

接收基于从相对于离散时段的与所述用户相关联的一个或更多个深度部分的独特轮廓的声学信号的反射而定制的一组回声声学信号；

提取与所述回声声学信号相关联的一个或更多个区域分段以训练分类模型；

基于所提取的所述一个或更多个区域分段生成所述分类模型；

基于所述分类模型提取联合特征表示；

生成在所述联合特征表示的预测中使用的基于向量的分类模型；以及

基于所述联合特征表示的所述预测来确定所述联合特征表示是否与所述回声签名相关联。

2.根据权利要求1所述的系统，其中，与所述用户配置文件相关联的所述联合特征表示包括声学特征。

3.根据权利要求1所述的系统，其中，与所述用户配置文件相关联的所述联合特征表示包括所提取的与相对于离散时段的一个或更多个深度部分的所述独特轮廓相关联的标志坐标。

4.根据权利要求3所述的系统，其中，与所述用户配置文件相关联的所述联合特征表示包括所提取的与相对于离散时段的一个或更多个深度部分的所述独特轮廓相关联的声学特征。

5.根据权利要求1所述的系统，其中，用于处理与计算设备相关联的所述配置文件的所述请求包括原始用户配置文件的初始注册或相对于当前时段的用户配置文件的认证以访问计算设备。

6.根据权利要求5所述的系统，其中，用于处理与所述计算设备相关联的所述配置文件的请求还包括：通过将与所述原始用户配置文件的联合特征表示相关联的向量特征和与相对于所述当前时段的所述当前用户配置文件的联合特征表示相关联的向量特征进行比较来认证当前用户配置文件以访问所述计算设备。

7.根据权利要求6所述的系统，其中，所述操作还包括：基于与所述当前用户配置文件的联合特征表示相关联的所述向量特征相对于与所述原始用户配置文件的联合特征表示相关联的向量特征的相似性是否高于阈值来认证所述当前用户配置文件。

8.根据权利要求1所述的系统，其中，所述提取与所述回声声学信号相关联的所述一个或更多个区域分段的操作还包括：在与接收到的声学回声信号相关联的所述一个或更多个区域分段中识别直接路径分段。

9.根据权利要求1所述的系统，其中，所述提取与所述回声声学信号相关联的所述一个或更多个区域分段的操作还包括：在与所述接收到的回声声学信号相关联的所述一个或更多个区域分段中识别主回声分段。

10.根据权利要求3所述的系统，其中，生成与所述用户配置文件相关联的所述联合特征表示还包括：用增强后的标志坐标来增强所述联合特征表示，所述合成的声学特征和增强后的标志坐标与相对于不同的离散时段的与所述用户相关联的一个或更多个深度部分的所述独特轮廓相关联。

11.根据权利要求10所述的系统，其中，提取与所述合成的声学特征和/或增强后的标志坐标相关联的一个或更多个不同的向量特征用于生成相对于所述不同的离散时段的所述联合特征表示。

12.一种与基于涉及与设备相关联的回声签名的联合特征表示来预测所述设备用户的认证相关联的方法，所述方法包括：

基于所述分类模型提取联合特征表示；

生成在所述联合特征表示的所述预测中使用的基于向量的分类模型；以及

13.根据权利要求12所述的方法，其中，与所述用户配置文件相关联的所述联合特征表示包括声学特征。

14.根据权利要求12所述的方法，其中，与所述用户配置文件相关联的所述联合特征表示包括与所提取的相对于离散时段的一个或更多个深度部分的所述独特轮廓相关联的标志坐标。

15.根据权利要求14所述的方法，其中，与所述用户配置文件相关联的所述联合特征表示包括所提取的与相对于离散时段的一个或更多个深度部分的所述独特轮廓相关联的声学特征。

16.根据权利要求12所述的方法，其中，用于所述处理与计算设备相关联的所述配置文件的请求包括原始用户配置文件的初始注册或相对于当前时段的用户配置文件的认证以访问计算设备。

17.根据权利要求16所述的方法，其中，所述处理与所述计算设备相关联的所述配置文件的请求还包括：通过与所述原始用户配置文件的所述联合特征表示相关联的向量特征和与相对于所述当前时段的所述当前用户配置文件的所述联合特征表示相关联的向量特征的比较，来认证当前用户配置文件以访问所述计算设备。

18.根据权利要求17所述的方法，其中，所述操作还包括：基于与所述当前用户配置文件的所述联合特征表示相关联的所述向量特征相对于与所述原始用户配置文件的所述联合特征表示相关联的向量特征的相似性是否高于阈值来认证所述当前用户配置文件。

19.根据权利要求12所述的方法，其中，所述提取与所述回声声学信号相关联的所述一个或更多个区域分段的操作还包括：在与接收到的声学回声信号相关联的所述一个或更多个区域分段中识别直接路径分段。

20.根据权利要求12所述的方法，其中，所述提取与所述回声声学信号相关联的所述一个或更多个区域分段的操作还包括：在与所述接收到的回声声学信号相关联的所述一个或更多个区域分段中识别主回声分段。

21.根据权利要求14所述的方法，其中，所述生成与所述用户配置文件相关联的所述联合特征表示的操作还包括：采用增强后的标志坐标来增强所述联合特征表示，所述合成的声学特征和增强后的标志坐标与相对于不同的离散时段的与所述用户相关联的一个或更多个深度部分的所述独特轮廓相关联。

22.根据权利要求21所述的方法，其中，提取与所述合成的声学特征和/或增强后的标志坐标相关联的一个或更多个不同的向量特征用于生成相对于所述不同的离散时段的所述联合特征表示。

23.一种存储当被处理设备运行时执行下述操作的指令的计算机可读装置，所述操作包括：

基于所述分类模型提取联合特征表示；

24.根据权利要求23所述的计算机可读介质，其中，与所述用户配置文件相关联的所述联合特征表示包括声学特征。

25.根据权利要求23所述的计算机可读介质，其中，与所述用户配置文件相关联的所述联合特征表示包括所提取的与相对于离散时段的、一个或更多个深度部分的所述独特轮廓相关联的标志坐标。

26.根据权利要求25所述的计算机可读介质，其中，与所述用户配置文件相关联的所述联合特征表示包括所提取的与相对于离散时段的一个或更多个深度部分的所述独特轮廓相关联的声学特征。