CN113826135B - 使用话音识别进行非接触式认证的系统、方法和计算机系统 - Google Patents

使用话音识别进行非接触式认证的系统、方法和计算机系统 Download PDF

Info

Publication number
CN113826135B
CN113826135B CN201980092076.2A CN201980092076A CN113826135B CN 113826135 B CN113826135 B CN 113826135B CN 201980092076 A CN201980092076 A CN 201980092076A CN 113826135 B CN113826135 B CN 113826135B
Authority
CN
China
Prior art keywords
data
user
authentication
client device
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980092076.2A
Other languages
English (en)
Other versions
CN113826135A (zh
Inventor
R·P·辛格
V·V·米什拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuda Information Service Co ltd
Original Assignee
Fuda Information Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuda Information Service Co ltd filed Critical Fuda Information Service Co ltd
Publication of CN113826135A publication Critical patent/CN113826135A/zh
Application granted granted Critical
Publication of CN113826135B publication Critical patent/CN113826135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/10Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
    • G06Q20/108Remote banking, e.g. home banking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/409Device specific authentication in transaction processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了使用话音识别进行非接触式认证的系统、方法和计算机系统。该系统可以包括存储指令的一个或更多个存储器单元,以及被配置成执行该指令以执行操作的一个或更多个处理器。该操作可以包括接收用户数据,该用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符。该操作可以包括:基于所接收到的音频数据生成经处理的音频数据。该经处理的音频数据可以具有第二数据格式。该操作可以包括:向语音模块发送经处理的音频数据。该操作可以包括:从语音模块接收话音匹配结果。在一些实施方式中,该操作包括:基于话音匹配结果来对用户进行认证,以及向与客户端装置标识符相关联的客户端装置发送包括认证结果的客户端通知。

Description

使用话音识别进行非接触式认证的系统、方法和计算机系统
技术领域
本申请涉及使用话音识别进行非接触式认证的系统、方法和计算机系统。
背景技术
常规的认证系统和方法通常需要与装置接触。例如,可能需要用户手动将认证数据输入用户装置(即,接触该装置)以授权下载、授权帐户登录、授权基于互联网的购买、授权当面交易(in-person transaction)、打开入口点(access point)(通过安全检查点、进入建筑物内的受限空间、进入停车设施)、出席活动、启动车辆、登上飞行器或其它交通工具等。认证数据可以包括PIN码、密码、指纹、敲击码(tap code)或其它认证数据。用户装置可以是智能手机、个人计算机、平板电脑、可佩戴装置、智能腕表、电子眼镜或另一用户装置。
常规的认证系统和方法可能依赖于来自专用认证装置的认证数据,诸如具有磁条的卡、具有芯片的卡、钥匙装置、表链等。认证过程可能涉及通过例如划过(swiping)、扫描或者以其它方式将认证装置移动到传感器附近来对该装置进行物理操纵。
这些常规的认证系统和方法存在缺陷,部分是因为它们依赖于与装置的接触,诸如手动输入认证数据或者物理操纵专用认证装置,这可能是缓慢且低效的。用户可能需要记住一个或更多个认证输入。携带多个专用认证装置可能是不方便的。如果用户忘记了认证输入或者忘记了携带认证装置,那么该用户可能无法在希望时间完成认证过程。
此外,常规的系统容易出现安全风险,因为恶意行为者可以窃取认证数据或专用认证装置并使用所窃取的数据或装置。在这样的情况下,认证系统可能无法区分恶意行为者和真正的经授权用户。
另外,许多常规的系统没有采用先进的认证方法,诸如面部识别、话音(voice)识别等。常规的系统可能缺乏执行高级认证方法的计算功率或带宽。结果,常规的系统可能无法迅速且高效地处理高级认证方法。此外,高级认证方法的数据可能会提出额外的安全挑战,这是因为这些数据可能是高度个人化的(例如,话音和面部识别数据),并因此,使用此类数据需要额外的安全预防措施,而这对于常规的系统来说可能是昂贵的或者是不可用的。
另外,用户可能需要在不同类型的装置上执行认证,这些装置中的各个装置皆可能具有不同的软件和硬件系统(即,不同的平台)。这些装置可能涉及由一家或更多家公司制造的系统,这些系统中的各个系统皆是以不同的方式来实现类似的技术的。这种多样性给认证系统带来了以下负担:接收采用多种格式的数据以及使用多种通信协议连接至装置。
此外,认证过程可能需要用户装置或专用认证装置与第三方认证装置(例如,客户端装置)之间的交互。在一些地区或市场,第三方认证装置的供应可能有限或价格过高。一些常规的装置可能需要专门的培训,而这会增加成本并使装置的使用不方便。残障用户可能难以或无法使用一些装置。例如,无学习能力或有视力障碍的用户在使用具有触摸屏的装置时可能会遇到困难。另外,第三方装置(即,平台)的软件和硬件系统组件可能与用户装置的软件和硬件系统组件(平台)不兼容。例如,为了认证交易,用户可能需要与被配置成从信用卡和一种类型的智能手机接收数据的销售点装置接合,但是该销售点装置未被配置成从另一类型的智能手机接收数据,后端认证系统可能需要采用与一个平台兼容但不与装置的本机格式兼容的特定格式的数据。随着装置标准的变化以及新的装置变得可用,这些限制使得设计通用解决方案变得困难。
已经提出了对常规系统的问题的一些解决方案。例如,一些系统采用被配置成使用近场技术连接至用户装置并参与认证协议的第三方认证装置。然而,这些系统中的许多系统都需要进行接触(例如,手动输入认证数据和/或将用户装置物理移动得靠近扫描仪)。此外,如上指出,这些系统可能不可用或者是昂贵的、不执行高级认证过程以及仅与在有限数量的平台上运行的有限数量的装置兼容。
因此,针对现有方法存在的不足和问题,需要采用可以被用于许多不同类型的装置的非接触式认证的改进系统和方法。这种非常规的系统将提高安全性、提高便利性、降低成本以及增加跨平台的灵活性。
发明内容
所公开的实施方式提供了与多个平台兼容的使用话音识别来进行非接触式授权(authorization)的系统和方法。非常规公开的实施方式提供对需要接触(认证数据的手动输入、装置的物理操纵或其它接触)的常规系统的增强并且改进受限于特定平台或者需要特定第三方认证装置的常规系统。所公开的系统和方法可以使用宽泛种类的用户装置和客户端装置来执行,这是因为系统认证可以由远程组件(例如,服务器、云服务器)或者在本地装置上存储的语音(speech)模型的副本来执行。所公开的系统和方法使用常规的硬件和软件以及专用硬件和软件的组合来实现,诸如被专门构造和/或编程用于执行与所公开的方法步骤相关联的功能的机器。
在一些实施方式中,所公开的系统和方法的各方面可以在一个或更多个云服务上实现,该云服务被设计成响应于事件触发而生成(启动(spin-up))短暂容器实例、将一个或更多个任务指派给容器实例、以及在任务完成时终止(停止(spin-down))容器实例。通过实现使用这种云服务的方法,所公开的系统实现了基于需求的高效供应和资源并且提供了安全优势,这是因为在任务完成时可以关闭和销毁短暂容器实例。即,容器实例防止尝试访问容器,并且不允许从外部使用终端或远程外壳(shell)工具(就像SSH、RTF、FTP或Curl一样)进行访问。此外,终止容器实例可以包括销毁数据,从而保护敏感数据。销毁数据可以提供安全优势,这是因为它可以涉及永久性删除数据(例如,盖写数据)以及关联的文件指针。
与本实施方式一致,公开了使用话音识别来进行非接触式授权的系统。该系统可以包括存储指令的一个或更多个存储器单元,以及被配置成执行该指令以执行操作的一个或更多个处理器。该操作可以包括接收用户数据,该用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符。该操作可以包括:通过通信模块,基于所接收到的音频数据,生成经处理的音频数据。该经处理的音频数据可以具有第二数据格式。该操作可以包括:通过通信模块,向语音模块发送经处理的音频数据。该操作可以包括:在通信模块处,从语音模块接收话音匹配结果。在一些实施方式中,该操作包括:基于话音匹配结果来对用户进行认证,以及向与客户端装置标识符相关联的客户端装置发送包括认证结果的客户端通知。
与本实施方式一致,公开了使用话音识别来进行非接触式授权的方法。所述方法可以包括以下步骤:接收用户数据,该用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符。所述方法可以包括以下步骤:基于所接收到的音频数据,生成经处理的音频数据。该经处理的音频数据可以具有第二数据格式。所述方法可以包括以下步骤:通过通信模块,向语音模块发送经处理的音频数据。所述方法可以包括以下步骤:在通信模块处,从语音模块接收话音匹配结果。在一些实施方式中,所述方法包括以下步骤:基于话音匹配结果来对用户进行认证,以及向与客户端装置标识符相关联的客户端装置发送包括认证结果的客户端通知。
以其它公开的实施方式一致,非暂时性计算机可读存储介质可以存储程序指令,该程序指令由至少一个处理器执行并且执行本文所描述的方法中的任一方法。
前面的一般描述和下面的详细描述都仅是示例性和解释性的,而并非是对权利要求的限制。
附图说明
被并入并构成本说明书的一部分的附图例示了多个实施方式,并且与本描述一起用于说明所公开的原理。在图中:
图1是与所公开的实施方式一致的进行非接触式授权的示例性系统的图。
图2是与所公开的实施方式一致的示例性用户装置的图。
图3是与所公开的实施方式一致的示例性客户端装置的图。
图4是与所公开的实施方式一致的示例性存储系统的图。
图5是与所公开的实施方式一致的示例性认证系统的图。
图6是与所公开的实施方式一致的进行非接触式认证的示例性过程的流程图。
图7是与所公开的实施方式一致的示例性存储系统过程的流程图。
图8是与所公开的实施方式一致的示例性认证系统过程的流程图。图9是与所公开的实施方式一致的示例性话音识别过程的流程图。
图10是与所公开的实施方式一致的用于处理第三方系统请求的示例性过程的流程图。
图11是与所公开的实施方式一致的用于连接至用户装置的示例性过程的流程图。
图12是与所公开的实施方式一致的用于对用户进行认证的示例性过程的流程图。
图13是与所公开的实施方式一致的用于对用户进行认证的示例性过程的流程图。
具体实施方式
所公开的实施方式包括用于使用话音识别来进行非接触式认证以提高安全性、便利性以及常规认证过程的跨平台兼容性的系统和方法。可以执行认证以授权下载、授权帐户登录、授权基于互联网的购买、授权当面交易、通过入口点、出席活动、启动车辆、登上飞行器或其它交通工具等。
现在,对示例性实施方式进行详细说明,在附图中例示了并且在本文中公开了该示例性实施方式的示例。在方便的情况下,贯穿附图使用相同标号来指相同或相似部分。
图1是与所公开的实施方式一致的进行非接触式授权的示例性系统100的图。系统100可以包括:用户装置102、客户端装置104、存储系统106、认证系统108以及第三方系统110。系统100的组件可以通过网络112彼此连接。如图1所示,可以将用户装置104直接连接至车辆系统102。可以将认证系统108直接连接至存储系统106和/或第三方系统110。
如本领域技术人员应意识到,系统100的组件可以以各种方式进行设置,并且在适用的情况下,利用硬件、固件和/或软件的任何合适的组合来加以实现。例如,与图1中的描绘相比,系统100可以包括更多或更少数量的用户装置、客户端装置、存储系统、认证系统、第三方系统或网络。另外,系统100还可以包括与所公开的实施方式一致的、执行或协助执行一个或更多个过程的未描绘的其它组件或装置。图1示出的示例性组件和布置并非旨在限制所公开的实施方式。
参照图1,用户装置102可以是移动装置,诸如智能手机、平板电脑、个人计算机、卡装置、可佩戴健身跟踪器、钥匙装置、电子眼镜、被配置成执行人类用户所说指令的任何装置、被配置成执行根据所公开的实施方式的方法的专用装置等。用户装置102包括一个或更多个存储器单元以及一个或更多个处理器,该处理器被配置成执行与所公开的实施方式一致的操作。用户装置102被连接至网络112并且可以另外连接至客户端装置104。下面,参照图2,更详细地描述用户装置102的示例性实施方式。
系统100可以包括客户端装置104。客户端装置104可以是终端、信息亭(kiosk)、传感器、安全系统组件、计算机、移动装置、平板电脑、智能腕表、可佩戴装置、交易装置、销售点装置、自动取款机、个人电子助理(例如,AMAZON的ALEXA、GOOGLE HOME、APPLE的SIRI、MICROSOFT CORTANA)、机器人装置、被配置成执行人类用户所说指令的任何装置、或者其它装置。客户端装置102包括一个或更多个存储器单元以及一个或更多个处理器,该处理器被配置成执行与所公开的实施方式一致的操作。客户端装置102被连接至网络112并且可以另外连接至用户装置102。下面,更详细地描述客户端装置102的示例性实施方式。
图1示出的存储系统106包括一个或更多个存储器单元以及一个或更多个处理器,该处理器被配置成执行与所公开的实施方式一致的操作。在一些实施方式中,存储系统106可以包括硬件、软件和/或固件模块。在一些实施方式中,可以将存储系统106的一些或所有组件安装在单个装置(诸如用户装置或客户端装置)中。在一些实施方式中,存储系统106的一些或所有组件可以托管于装置、计算机、服务器、服务器集群或者云服务(例如,GOOGLEFIREBASE、AMAZON S3、GOOGLE CLOUD SPANNER、ORACLE CLOUD STORAGE CLASSIC、MICROSOFT AZURE BLOB STORAGE、IBM CLOUD OBJECT STORAGE,、VMWARE、SAP CLOUDPLATFORM、个人云等)。在未示出的一些实施方式中,存储系统106可以是认证系统108的组件。可以将存储系统106连接至网络112并且可以另外连接至认证系统108。下面,更详细地描述存储系统106。
仍参照图1,认证装置108包括一个或更多个存储器单元以及一个或更多个处理器,该处理器被配置成执行与所公开的实施方式一致的操作。在一些实施方式中,认证系统108可以包括硬件、软件和/或固件模块。在一些实施方式中,可以将认证系统108的一些或所有组件安装在单个装置(诸如用户装置或客户端装置)中。在一些实施方式中,认证系统108的一些或所有组件可以托管于一个或更多个服务器、一个或更多个服务器集群或者一个或更多个云服务(例如,MICROSOFT AZURE、AMAZON AWS LAMBDA、MICROSOFT COGNITIVESERVICES、ORACLE CLOUD、GOOGLE CLOUD FUNCTIONS、APACHE OPENWHISK等)。可以将认证系统108连接至网络112并且可以另外连接至存储系统106和/或第三方系统110。下面,更详细地描述认证系统108。
系统100可以包括第三方系统110。第三方装置110包括一个或更多个存储器单元以及一个或更多个处理器,该处理器被配置成执行与所公开的实施方式一致的操作。在一些实施方式中,认证系统108可以包括硬件、软件和/或固件模块。第三方系统110可以包括与所公开的实施方式一致的以下项中的一个或更多个:保健系统、安全系统、金融系统、交易系统、信用卡系统、政府系统、投票系统、停车通道系统、建筑物访问系统或其它系统。可以将第三方系统110连接至网络112并且可以另外连接至认证系统108。
如图1所示,可以将用户装置102、客户端装置104、存储系统106、认证系统108或第三方系统110连接至网络112。网络112可以是公共网络或专用网络并且例如可以包括有线或无线网络,包括但不限于,局域网、广域网、城域网、IEEE 802.11无线网络(例如,“Wi-Fi”)、网络(例如,互联网)中的网络、固定电话网络等。在一些实施方式中,网络112可以是安全网络并且需要密码或其它认证标准来访问该网络。
图2是与所公开的实施方式一致的示例性用户装置102的图。用户装置102可以是移动装置,诸如智能手机、平板电脑、个人计算机、卡装置、可佩戴健身跟踪器、钥匙装置、电子眼镜、被配置成执行人类用户所说指令的任何装置、被配置成执行根据所公开的实施方式的方法的专用装置等。
如图2中描绘的,用户装置102可以包括:一个或更多个处理器210、输入/输出单元(I/O装置)220以及一个或更多个存储器单元230。图2是用户装置102的示例性配置。如本领域技术人员应意识到,被包括在用户装置102中的组件和组件的布置可以进行改变。例如,与图2中的描绘相比,用户装置102可以包括更多或更少数量的处理器210、I/O装置220或者存储器单元230。另外,用户装置102还可以包括与所公开的实施方式一致的、执行或协助执行一个或更多个过程的未描绘的其它组件或装置。图2示出的组件和布置并非旨在限制所公开的实施方式,这是因为被用于实现所公开的过程和特征的组件可能会有所不同。
处理器210可以是已知的计算处理器,例如包括:由QUALCOMM制造的SNAPDRAGON系列微处理器、由SAMSUNG制造的EXYNOS系列、或者由APPLE、TEXAS INSTRUMENTS(Tl)、HEWLETT PACKARD、NVIDIA、QUALCOMM、SAMSUNG、PANASONIC或者LG制造的各种处理器中的任一种。处理器210可以构成同时执行并行处理的单核或多核处理器。例如,处理器210可以是配置有虚拟处理技术的单核处理器。在某些实施方式中,处理器210可以使用逻辑处理器来同时执行和控制多个处理。处理器210可以实现虚拟机技术或者其它已知技术,以提供对多个软件处理、应用、程序等进行执行、控制、运行、操纵、存储等的能力。在另一实施方式中,处理器210可以包括被配置成提供并行处理功能以允许同时执行多个处理的多核处理器布置(例如,双核、四核等)。本领域普通技术人员应理解,可以实现提供本文所公开的能力的其它类型的处理器布置。所公开的实施方式不限于任何类型的处理器210。处理器210可以执行被存储在存储器230中的各种指令,以执行下面更详细描述的所公开实施方式的各种功能。将处理器210配置成执行以一种或更多种已知编程语言编写的函数。
再次参照图2,I/O装置220可以包括:麦克风221、扬声器222、显示器223、收发器224、位置传感器225、触觉装置226、摄像机227、扫描仪228和/或输入装置229。I/O装置220可以包括与所公开的实施方式一致的、执行或协助执行一个或更多个过程的未描绘的其它I/O装置。在一些实施方式中,可以将I/O装置220中的一些或所有I/O装置安装至用户装置102。在一些实施方式中,I/O装置220中的一些或所有I/O装置可以是以通信方式联接至用户装置102的独立装置的组件。
如图2所示,I/O装置220可以包括被配置成接收音频信号的麦克风221。在一些实施方式中,麦克风221包括麦克风阵列。可以将麦克风221安装至用户装置102或者可以以通信方式联接至用户装置102(例如,有线耳机、无线麦克风等)。
在一些实施方式中,用户装置102包括被配置成提供音频输出的一个或更多个扬声器222。在一些实施方式中,扬声器222包括扬声器阵列。可以将扬声器222可以安装在用户装置102之中或之上,或者可以是被以通信方式联接至用户装置102的独立装置的组件(例如,有线扬声器、无线扬声器等)。
I/O装置220还可以包括显示器223。显示器223可以包括发光组件,诸如发光二极管(LED)或者能够向用户提供可见信号的其它组件。在一些实施方式中,显示器223包括以下项中的至少一种:监视器、LCD显示器、LED显示器、触摸屏、灯、投影仪或利益可视显示器。
如图所示,I/O装置220可以包括收发器224。收发器224可以包括被配置成与任何类型的蜂窝数据网络中的至少一种或者Wi-Fi收发器、Li-Fi收发器、近场通信(NFC)收发器、无线电收发器、超高频(UHF)收发器、蓝牙收发器、红外收发器或其它无线收发器中的至少一种进行连接的收发器。
在一些实施方式中,用户装置102包括位置传感器225。位置传感器225可以包括全球定位系统(GPS)传感器、磁力计或加速度计中的至少一种。位置传感器225可以是用户装置102的组件或者可以是被以通信方式联接至用户装置102的独立装置。
I/O装置220可以包括被配置成接收用户指令信号并提供触觉反馈的触觉(haptic)(即,触知(tactile))装置228。在一些实施方式中,触觉反馈的强度、持续时间以及模式基于用户指令信号。在一些实施方式中,显示或播放通知包括提供触觉反馈。
I/O装置220可以包括摄像机227。摄像机227可以包括视频摄像机、被配置成拍摄照片的静止图像摄像机。摄像机227可包括镜头和数字成像装置,诸如电荷耦合器件(CCD)传感器。摄像机227可以是用户装置102的组件或者可以是被以通信方式联接至用户装置102的独立装置。
如图2所示,I/O装置220可以包括扫描仪228。扫描仪228可以是3D图像扫描仪、激光扫描仪、条形码扫描仪或者其它扫描仪。在一些实施方式中,扫描仪228包括适于发送和接收光信号以对物体的3D形状进行检测的3D扫描仪。例如,可以将扫描仪228配置成,使用任何合适的技术(例如,光编码、立体成像、飞行时间等)来检测3D形状。在一些实施方式中,可以将扫描仪228配置为具有光模式发送器(例如,使用红外光)的3D摄像机。扫描仪228可以是用户装置102的组件或者可以是被以通信方式联接至用户装置102的独立装置。
I/O装置220可以包括输入装置229。输入装置229可以包括以下项中的至少一种:触摸板、触摸屏、键盘、鼠标器、按钮、拨号盘、旋钮、开关、指纹扫描仪、超声波扫描仪等。如本领域技术人员应意识到,输入装置229可以是能够接收用户输入以执行或协助执行与所公开的实施方式一致的方法的任何装置。例如,可以将输入装置229配置成通过接收通行码来帮助执行认证过程。再次参照图2,用户装置102包括具有一个或更多个存储器单元的存储器230。存储器230可以是易失性或非易失性的、磁性的、半导体的、光学的、可去除的、不可去除的或其它类型的存储装置或者有形(即,非暂时性)计算机可读介质。存储器230可以存储被用于执行与所公开的实施方式一致的方法的一个或更多个程序(例如,模块、代码、脚本或函数)。程序可以包括在由一个或更多个处理器执行时执行已知操作系统功能的操作系统(未示出)。所公开的实施方式可以与运行任何类型的操作系统的计算机系统一起操作和起作用。在存储器230中存储的程序可以以一种或更多种编程或脚本语言来进行编写。可以将存储器230中的此类软件段或模块中的一个或更多个集成到计算机系统、非暂时性计算机可读介质或现有通信软件中。也可以将程序作为固件或电路逻辑来进行实现或复制。
存储器230可以包括程序(例如,模块、代码、脚本、算法),以对用户进行认证、创建或编辑用户简档、对用户进行认证、记录话音数据、分析话音数据、捕获成像数据、记录视频数据、执行视频识别、执行面部识别、检测指纹、发送和接收数据、显示消息、播放消息、生成触觉反馈、存储数据、和/或已所公开的实施方式一致的其它功能。存储器230包括已加密数据或未加密数据中的至少一种。
如图2所示,存储器230可以包括认证模块232和通信模块234。
在一些实施方式中,认证模块232包括与所公开的实施方式一致的指令,该指令在由处理器210执行时,使处理器210执行操作以对用户进行认证。例如,可以将认证模块232配置成确认用户的身份。认证模块232被配置成接收认证输入并且还可以被配置成证实认证输入。将认证模块232配置成,从I/O装置220接收输入和向I/O装置220发送输出,以及向存储器232的其它模块(包括通信模块234)发送数据和从其接收数据。在一些实施方式中,将认证模块232配置成经由网络(诸如网络112)发送和接收数据。
在一些实施方式中,将认证数据存储在认证模块232中。认证数据例如可以包括:用户简档数据、生物特征数据、指纹数据、通行码数据、话音识别数据、图像数据或者其它认证数据。在一些实施方式中,将认证数据存储在一个或更多个远程数据库(未描绘)中,并且认证模块232包括从远程数据库接收认证数据的程序和脚本。在一些实施方式中,远程数据库可以是认证系统108的组件。
再次参照图2,存储器230可以包括通信模块234。通信模块包括协议和通信标准以经由收发器224打开和维持连接。通信模块234可以包括用于连接至蜂窝数据网络、Wi-Fi网络、蓝牙装置、Li-Fi网络、光学无线网络、近场通信(NFC)网络或者其它无线连接的功能。在一些实施方式中,通信模块234包括用于使用通用串行总线(USB)连接、Firewire连接、以太网连接或者另一线缆连接中的至少一种来连接至装置的功能。通信模块234可以包括与例如网络112和/或客户端装置104进行连接的程序和脚本。例如,可以将通信模块234配置成,扫描和检测客户端装置,并且连接至所检测到的客户端装置(例如,经由蓝牙、Li-Fi、Wi-Fi、NFC等)。将通信模块234配置成经由网络(诸如网络112)发送和接收数据,并且配置成向用户装置102的其它模块(例如包括认证模块232)发送和接收数据。
图3是与所公开的实施方式一致的示例性客户端装置104的图。客户端装置104可以是终端、信息亭(kiosk)、传感器、安全系统组件、计算机、移动装置、平板电脑、智能腕表、可佩戴装置、交易装置、销售点装置、自动取款机、个人电子助理(例如,AMAZON的ALEXA、GOOGLE HOME、APPLE的SIRI、MICROSOFT CORTANA)、机器人装置或者其它装置。
如图3中描绘的,客户端装置104可以包括:一个或更多个处理器310、输入/输出单元(I/O装置)320以及一个或更多个存储器单元330。处理器310可以是如上所述的已知计算处理器。
图3是客户端装置104的示例性配置。如本领域技术人员应意识到,被包括在客户端装置104中的组件和组件的布置可以进行改变。例如,与图3中的描绘相比,客户端装置104可以包括更多或更少数量的处理器310、I/O装置320或者存储器单元330。另外,客户端装置104还可以包括与所公开的实施方式一致的、执行或协助执行一个或更多个过程的未描绘的其它组件或装置。图3示出的组件和布置并非旨在限制所公开的实施方式,这是因为被用于实现所公开的过程和特征的组件可能会有所不同。
再次参照图3,I/O装置320可以包括:麦克风321、扬声器322、显示器323、收发器324、位置传感器325、触觉装置326、摄像机327、扫描仪328和/或输入装置329。I/O装置320可以包括与所公开的实施方式一致的、执行或协助执行一个或更多个过程的未描绘的其它I/O装置。I/O装置320可以包括上面参照I/O装置220描述的特征。在一些实施方式中,可以将I/O装置320中的一些或所有I/O装置安装至客户端装置104。在一些实施方式中,I/O装置320中的一些或所有I/O装置可以是以通信方式联接至客户端装置104的独立装置的组件。
再次参照图3,客户端装置104如上所述包括具有一个或更多个存储器单元的存储器330。存储器330可以包括程序(例如,模块、代码、脚本、算法)、以对用户进行认证、创建或编辑用户简档、对用户进行认证、记录话音数据、分析话音数据、捕获成像数据、记录视频数据、执行视频识别、执行面部识别、检测指纹、发送和接收数据、显示消息或通知、播放消息或通知、生成触觉反馈、存储数据、和/或已所公开的实施方式一致的其它功能。存储器330包括已加密数据或未加密数据中的至少一种。
如图3所示,存储器330可以包括认证模块332和通信模块334。在一些实施方式中,认证模块332包括与所公开的实施方式一致的指令,该指令在由处理器310执行时,使处理器310执行操作以对用户进行认证。例如,可以将认证模块332配置成确认用户的身份。认证模块332被配置成接收认证输入并且还可以被配置成证实认证输入。将认证模块332配置成,从I/O装置220接收输入和向I/O装置320发送输出,以及向存储器332的其它模块(包括通信模块334)发送数据和从其接收数据。在一些实施方式中,将认证模块332配置成经由网络(诸如网络112)发送和接收数据。
在一些实施方式中,将认证数据存储在认证模块332中。认证数据例如可以包括:用户简档数据、生物特征数据、通行码数据、话音识别数据、图像数据或者其它认证数据。在一些实施方式中,将认证数据存储在一个或更多个远程数据库(未描绘)中,并且认证模块332包括从远程数据库接收认证数据的程序和脚本。在一些实施方式中,远程数据库可以是认证系统108的组件。
再次参照图3,存储器330可以包括通信模块334。通信模块包括协议和通信标准以经由收发器324打开和维持连接。通信模块334可以包括用于连接至蜂窝数据网络、Wi-Fi网络、蓝牙装置、Li-Fi网络、光学无线网络、近场通信(NFC)网络或者其它无线连接的功能。在一些实施方式中,通信模块334包括用于使用通用串行总线(USB)连接、Firewire连接、以太网连接或者另一线缆连接中的至少一种来连接至装置的功能。通信模块334可以包括与例如网络112和/或用户装置102进行连接的程序和脚本。例如,可以将通信模块334配置成,扫描和检测用户装置,并且连接至所检测到的用户装置(例如,经由蓝牙、Li-Fi、Wi-Fi、NFC等)。将通信模块334配置成经由网络(诸如网络112)发送和接收数据,并且配置成向客户端装置104的其它模块(例如包括认证模块332)发送和接收数据。
图4是与所公开的实施方式一致的示例性存储系统106的图。如图所示,存储系统106包括一个或更多个处理器410、一个或更多个I/O装置420、一个或更多个存储器单元430。在一些实施方式中,存储系统106的一些或所有组件可以托管于装置、计算机、服务器、服务器集群或者云服务(例如,GOOGLE FIREBASE、AMAZON S3、GOOGLE CLOUD SPANNER、ORACLE CLOUD STORAGE CLASSIC、MICROSOFT AZURE BLOB STORAGE、IBM CLOUD OBJECTSTORAGE、VMWARE CLOUD、SAP CLOUD PLATFORM、私有云等)。在一些实施方式中,存储系统106是可扩展系统,该可扩展系统被配置成,通过响应于触发事件和在完成任务之后终止资源来提供计算资源从而高效地管理资源和增强安全性(例如,启动和终止容器实例的可扩展云服务)。
在未示出的一些实施方式中,存储系统106可以是认证系统108的组件。可以将存储系统106连接至网络112并且可以另外连接至认证系统108。
处理器410可以包括如上所述的一个或更多个已知计算处理器。本领域普通技术人员应理解,可以实现提供本文所公开的能力的其它类型的处理器布置。所公开的实施方式不限于在存储系统108中配置的任何类型的处理器。处理器410可以执行被存储在存储器430中的各种指令,以执行下面更详细描述的所公开实施方式的各种功能。将处理器410配置成执行以一种或更多种编程语言编写的函数。
I/O装置420可以包括用于连接至网络112以及向系统100的其它组件发送数据和从系统100的其它组件接收数据(例如,经由收发器)的组件。I/O装置420可以包括显示器、LED、路由器、触摸屏、键盘、麦克风、扬声器、触觉装置、摄像机、按钮、拨盘、开关、旋钮、收发器或另一I/O装置中的至少一种,以执行所公开的实施方式的方法。
仍参照图4,存储系统106如上所述包括具有一个或更多个存储器单元的存储器430。可以将存储器430中的一个或更多个软件段或模块集成到计算机系统、非暂时性计算机可读介质或现有通信软件中。也可以将程序、模块或代码作为固件或电路逻辑来进行实现或复制。
如图所示,存储器430可以包括数据432和程序434。在一些实施方式中,数据432包括一个或更多个数据库,该数据库包括表、查询、对象、模式、报告、视图等的有组织的或结构化的集合。数据432可以包括与用户或用户简档相关联的所存储数据。
程序434可以包括用于处理所接收到的数据的程序(例如,模块、代码、脚本或函数)。例如,可以将程序434配置成将文件从一种格式转换为另一种格式。例如,转换可能发生在.aac、.wav、.mp3、.wav、MIDI文件、RIFF文件等之间,和/或可以包括转换成预定位深度(例如,16位脉冲编码调制(PCM))。可以将程序434配置成响应于触发事件来执行任务。例如,响应于诸如从系统100的一个组件(例如,从用户装置102)接收到输入数据的触发事件,可以将程序434配置成,对输入数据进行处理并将经处理的数据转发至另一系统组件(例如,认证系统108)。可以将程序434配置成,生成(启动)短暂容器实例,以执行一个或更多个任务(例如,FIREBASE实例、CONNECTIVITY实例、GOOGLE CLOUD实例和/或AZURE实例)。可以将程序434配置成,将任务指派给先前生成的容器实例(即,暖(warm)容器实例)。程序434可以包括用于处理音频文件、处理生物特征数据或者处理其它认证数据的程序。程序434可以包括应用编程接口(API)。
图5是与所公开的实施方式一致的示例性认证系统108的图。如图所示,认证系统108包括一个或更多个处理器510、一个或更多个I/O接口520、一个或更多个存储器单元530。在一些实施方式中,认证系统108的一些或所有组件可以托管于一个或更多个装置、一个或更多个计算机、一个或更多个服务器、一个或更多个服务器集群或者一个或更多个云服务(例如,MICROSOFT AZURE、AMAZON AWS LAMBDA、MICROSOFT COGNITIVE SERVICES、ORACLE CLOUD、GOOGLE CLOUD FUNCTIONS、APACHE OPENWHISK、VMWARE、SAP CLOUDPLATFORM、SALESFORCE CLOUD等)。在一些实施方式中,认证系统108是可扩展系统,该可扩展系统被配置成,通过响应于触发事件和在完成任务之后终止资源来提供计算资源从而高效地管理资源和增强安全性(例如,启动和终止容器实例的可扩展云服务)。可以将认证系统108连接至网络112并且可以另外连接至存储系统106和/或第三方系统110。
处理器510可以包括如上所述的一个或更多个已知计算处理器。本领域普通技术人员应理解,可以实现提供本文所公开的能力的其它类型的处理器布置。所公开的实施方式不限于在认证系统108中配置的任何类型的处理器。处理器510可以执行被存储在存储器530中的各种指令,以执行下面更详细描述的所公开实施方式的各种功能。将处理器510配置成执行以一种或更多种编程语言编写的函数。
I/O装置520可以包括用于连接至网络112以及向系统100的其它组件发送数据和从系统100的其它组件接收数据(例如,经由收发器)的组件。I/O装置520可以包括显示器、LED、路由器、触摸屏、键盘、麦克风、扬声器、触觉装置、摄像机、按钮、拨盘、开关、旋钮、收发器或另一I/O装置中的至少一种,以执行所公开的实施方式的方法。
仍参照图5,认证系统108如上所述包括具有一个或更多个存储器单元的存储器530。可以将存储器530中的一个或更多个软件段或模块集成到计算机系统、非暂时性计算机可读介质或现有通信软件中。也可以将程序、模块或代码作为固件或电路逻辑来进行实现或复制。如图所示,存储器530可以包括数据531和程序535。在一些实施方式中,数据531包括一个或更多个数据库,该数据库包括表、查询、对象、模式、报告、视图等的有组织的或结构化的集合。数据531可以包括所存储的用户数据532、客户端数据532以及模型存储部534。
用户数据532可以包括用户简档数据,该用户简档数据包括以下项中的至少一种:人口统计用户数据(例如,姓名、地址、出生日期、性别)、个人标识符(例如,社会安全号、驾照号码)、用户名、密码、标识已注册用户装置的信息、用户活动历史(即,日志)、金融数据(例如,交易历史、帐户信息)或者与用户相关联的第三方数据(例如,医疗数据、行政数据、财产数据、税务数据、金融数据等)。可以将用户数据532组织成包括与相应用户相关联的用户数据的多个用户简档。
如图所示,存储器530可以包括客户端数据533。客户端数据533可以包括与用户相关联的数据(例如,如上面公开的与用户数据532相关)或者与客户端相关联的数据。客户端可以是组织(例如,医院、商家、公司、银行、网站、在线零售商、学校、政府组织、非营利组织等)。例如,客户端数据533可以包括和与客户端相关联的动作历史(例如,交易历史)相关的数据。
模型存储部534可以包括与所公开的实施方式一致的能够执行一个或更多个任务的多个数据模型。例如,模型存储部534可以包括:机器学习模型、生成对抗网络模型、随机森林模型、递归神经网络模型、卷积神经网络(CNN)模型、深度学习模型、会话模型、监督模型、隐马尔可夫模型、自我学习模型、判别式学习模型、贝叶斯学习模型、结构化序列学习模型、自适应学习模型、统计模型或其它数据模型。可以对模型进行训练以执行任务并存储在模型存储部534中。例如,被存储在模型存储部534中的模型能够在音频信号中进行话音识别,或者能够进行面部识别,或者能够执行另一个认证过程。模型存储部534可以包括索引,该索引包括关于所存储的模型的信息,该信息包括:模型性能指标、版本历史或其它信息。本领域技术人员应理解,模型存储部534还可以包括其它数据以执行实施方式的所公开方法。
程序535可以包括用于执行与所公开的实施方式一致的方法的程序(例如,模块、代码、脚本或函数)。例如,可以将程序535配置成生成模型、从模型存储部中检索模型、对模型进行训练和/或向系统100的其它组件发送数据和从该系统的其它组件接收数据。可以将程序535配置成响应于触发事件来执行任务。例如,响应于诸如从系统100的一个组件(例如,从存储系统106)接收到数据的触发事件,可以将程序535配置成,处理数据(例如,执行话音识别过程)并将通知发送给另一系统组件(例如,用户装置102或客户端装置104中的至少一个)。可以将程序535配置成,生成(启动)短暂容器实例,以执行一个或更多个任务(例如,AZURE实例、LAMBDA实例、FIREBASE实例、加密服务实例和/或其它实例)。可以将程序535配置成,将任务指派给先前生成的容器实例(即,暖(warm)容器实例)。程序535可以包括一个或更多个API,并且各个API皆可以与程序535的一个或更多个模块相关联。
如图所示,程序535包括:通信模块538、认证模块537以及语音模块538。通信模块536包括协议和通信标准以打开和保持与系统100的其它组件的连接以及认证服务108的各个组件之间的连接。通信模块536可以包括用于连接至蜂窝数据网络、Wi-Fi网络、蓝牙装置、Li-Fi网络、光学无线网络、近场通信(NFC)网络或者其它无线连接的功能。在一些实施方式中,通信模块535包括用于使用通用串行总线(USB)连接、Firewire连接、以太网连接或者另一线缆连接中的至少一种来连接至装置的功能。
通信模块536可以包括与例如网络112、存储系统106和/或第三方系统110进行连接的程序和脚本。将通信模块536配置成经由网络(诸如网络112)发送和接收数据,并且被配置成向认证系统108的其它模块发送和接收数据。可以将通信模块536的组件存储在一个或更多个装置、计算机、服务器、服务器集群或云服务上。可以将通信模块536配置成,生成(启动)短暂容器实例,以执行一个或更多个任务,或者将任务指派给正在运行的(暖)容器实例。
将认证模块537配置成执行认证过程。例如,认证模块537可以包括利用从数据531检索到的认证数据来证实所接收到的认证数据的程序。可以将认证模块537配置成,从用户数据532、从客户端数据533、从模型存储部534和/或从数据531的其它组件中检索数据。认证模块537可以包括用于验证生物特征的的算法、面部识别、话音识别、话音识别或者其它认证算法。可以将认证模块537配置成,运行图像处理模型以执行分类任务、识别任务或者其它任务。可以将认证模块537配置用于数据加密、数据解密、标记化(tokenization)或者其它安全协议。可以将认证模块537的组件存储在一个或更多个装置、计算机、服务器、服务器集群或云服务上。可以将认证模块538配置成,生成(启动)短暂容器实例,以执行一个或更多个任务,或者将任务指派给正在运行的(暖)容器实例。
可以将认证模块537配置成,生成与所公开的实施方式一致的执行任务的模型。该模型可以是机器学习模型或其它数据模型。可以将认证模块537配置成,检索和执行被存储在模型存储部(诸如模型存储部534)中的模型。
可以将认证模块537配置成,对模型进行训练和/或执行超参数调谐。例如,可以将认证模块537配置成,优化一个或更多个模型参数并且优化一个或更多个超参数。模型参数可以是模型权重、系数、偏移量(offset)等。超参数可以包括训练参数(诸如学习速率、批量大小等)或者架构参数(诸如神经网络中的层数、神经网络节点的激活函数的选择、卷积神经网络中的层等)。为了对模型进行训练,可以将认证模块537配置成,执行诸如以下项的过程:网格搜索、随机搜索、高斯过程、贝叶斯过程、协方差矩阵适应进化策略(CMA-ES)、基于导数的搜索、随机爬山(stochastic hill-climb)、邻域搜索、自适应随机搜索等。
语音模块538包括用于话音和话音识别过程的程序。可以将语音模块538的组件存储在一个或更多个装置、计算机、服务器、服务器集群或云服务上。语音模块538可以是认证模块537的组件或者可以是被存储在相同或不同的装置、计算机、服务器、服务器集群或云服务上的单独模块。例如,语音模块538可以托管于MICROSOFT COGNITIVE SERVICES。可以将语音模块538配置成,生成(启动)短暂容器实例,以执行一个或更多个任务,或者将任务指派给正在运行的(暖)容器实例。
语音模块538包括话音识别算法。语音模块538可以包括将语音转换为文本、验证话音、标识未知说话者(speaker)或和/或识别已知说话者的算法。可以将语音模块538配置成识别密语(passphrase)或其它短语。可以将语音模块538配置成,生成与所公开的实施方式一致的执行任务的模型。该模型可以是机器学习模型或其它数据模型。可以将语音模块538配置成,检索和执行被存储在模型存储部(诸如模型存储部534)中的模型。可以将语音模块538配置成,对模型进行训练和/或执行超参数调谐,如上所述。
图6是与所公开的实施方式一致的进行非接触式认证的示例性过程600的流程图。在一些实施方式中,过程600是由用户装置(例如由用户装置102)来执行的。可以执行过程600,以与所公开的实施方式一致地对用户进行认证,准许访问受限区域、完成交易、检索敏感数据或者完成另一授权协议。例如,过程600可以包括经由话音识别来授权具有用户装置102(例如,智能手表)的用户以从具有客户端装置104(例如,平板电脑)的商家购买物品(例如,食品)。
在步骤602,用户装置(例如,用户装置102)与所公开的实施方式一致地检测客户端装置(例如,客户端装置104)。在一些实施方式中,检测客户端装置包括进行扫描以检测客户端装置并建立到客户端装置的连接。检测客户端装置可以包括扫描蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等中的至少一种。建立连接可以包括使用以下项中的的至少一种来连接至客户端装置:蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等。步骤602可以由通信模块234来执行。
在步骤604,用户装置与所公开的实施方式一致地接收来自客户端装置的请求。该请求可以包括完成认证过程的请求。该请求可以包括与以下项中的至少一项相关的信息:客户端装置(例如,标识符或客户端名称)、入口点(例如,安全入口点)、交易(例如,销售价格)、第三方或其它信息。
在步骤606,用户装置与所公开的实施方式一致地呈现提示以提供认证数据。该提示可由扬声器(例如,扬声器222)播放和/或显示在显示器(例如,显示器223)上。该提示可以包括提供认证数据的请求。所请求的认证数据包括以下项中的至少一种:语音数据(例如,声明密语或其它短语的请求)、pin码、密码、敲击模式或其它认证数据。
在步骤608,用户装置与所公开的实施方式一致地接收输入数据。输入数据可以是所请求的认证数据。例如,输入数据可以是包括在麦克风(例如,输入装置229)处接收到的用户话音信号的语音数据。
在步骤610,用户装置与所公开的实施方式一致地发送输入数据。在一些实施方式中,发送输入包括将输入从用户装置102发送给存储系统106或认证系统108中的至少一个。
在步骤612,用户装置与所公开的实施方式一致地接收通知。通知可以包括与认证是否已经成功完成相关的信息或者其它信息,在一些实施方式中,通知是从认证系统108、客户端装置104、第三方系统110或存储系统106中的一个接收的。
在步骤614,用户装置与所公开的实施方式一致地呈现所接收到的通知。所接收到的通知可由扬声器(例如,扬声器222)播放和/或显示在显示器(例如,显示器223)上。
如图6所示,步骤606可以与所公开的实施方式一致地跟随步骤614。例如,如果通知包括认证未成功完成或者需要附加信息的声明,则用户装置可以呈现提示以提供认证数据。在其它的实施方式中,过程600在步骤614之后结束。例如,如果通知包括认证成功完成的声明,则过程600可以结束。
图7是与所公开的实施方式一致的示例性存储系统过程700的流程图。可以执行过程700以将数据从一种格式转换成另一种格式,从而允许系统100的装置与组件之间更大的跨平台兼容性。
在一些实施方式中,过程700是作为可扩展的受事件驱动的过程的一部分来执行的,以通过响应于触发事件和在完成任务之后终止资源来提供计算资源从而高效地管理资源和增强安全性(例如,启动和终止容器实例的可扩展云服务)。存储系统106的组件可以与所公开的实施方式一致地执行过程700。在一些实施方式中,认证系统108的组件执行过程700(例如,如果存储系统108是认证系统108的子组件)。
在步骤702,存储系统与所公开的实施方式一致地接收用户数据。在一些实施方式中,步骤702是由存储系统108的组件来执行的。存储系统108可以从用户装置102或客户端装置104中的至少一个接收该用户数据。步骤702可以包括启动(生成)短暂容器实例以执行过程700的后续步骤。
步骤702的用户数据可以包括:包括话音数据的音频数据、包括人口统计用户数据(例如,姓名、地址、出生日期、性别)、个人标识符(例如,社会安全号码、驾照号码)、用户名、密码中的至少一个的用户简档数据、标识已注册用户装置的信息、用户活动历史(例如,日志)、金融数据(例如,交易历史、账户信息)、与用户相关联的第三方数据(例如,医疗数据、行政数据、财产数据、税务数据、金融数据等)或者其它信息。在一些实施方式中,所接收到的用户数据还包括以下项中的至少一种:客户端数据(例如,标识符、客户端名称),入口点数据(例如,安全入口点标识符)或者交易数据(例如,销售价格)。
在步骤704,存储系统与所公开的实施方式一致地基于所接收到的用户数据来生成经处理的用户数据。例如,步骤704可以包括将音频数据从一种数据格式转换成另一种数据。例如,转换可能发生在.aac、.wav、.mp3、.wav、MIDI文件、RIFF文件等之间,和/或可以包括转换成预定位深度(例如,16位脉冲编码(PCM))。在一些实施方式中,步骤704包括其它数据处理,诸如图像处理、加密、解密、标记化等。步骤704可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤706,存储系统与所公开的实施方式一致地向认证系统(例如,认证系统108)发送警报。警报可以包括已经接收到用户数据的信息。在一些实施方式中,该警报包括所接收到的用户数据或者经处理的用户数据(例如,用户简档数据和/或音频数据)。步骤706可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤708,存储系统与所公开的实施方式一致地从认证系统(例如,认证系统108)接收请求。在一些实施方式中,步骤708是由存储系统106的组件来执行的。该请求可以包括将所接收到的用户数据和/或经处理的用户数据发送给认证系统的请求。步骤708可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤710,基于该请求,存储系统与所公开的实施方式一致地向认证系统(例如,认证系统108或认证模块232)发送用户数据。所发送的用户数据可以包括所接收到的用户数据和/或经处理的用户数据。步骤710可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤712,存储系统与所公开的实施方式一致地从认证系统(例如,认证系统108或认证模块232)接收通知。该通知可以包括接收到用户数据的声明和/或销毁用户数据的指令。步骤712可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤714,存储系统与所公开的实施方式一致地销毁用户数据和/或销毁经处理的音频数据。销毁用户数据可以包括永久性删除用户数据和经处理的音频数据。销毁用户数据可以包括删除与用户数据和经处理的音频相关联的文件指针。在一些实施方式中,通过盖写与用户数据、音频数据以及经处理的音频数据相关联的存储器来永久性删除敏感文件104。步骤714可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。步骤714可以包括终止短暂容器实例。
图8是与所公开的实施方式一致的示例性认证系统过程800的流程图。作为非接触式授权过程的一部分,可以执行过程800以认证所接收到的数据(例如,来自用户装置102的用户数据、来自客户端装置104的数据)。过程800的步骤可以由认证系统(例如,认证系统108)来执行,该认证系统托管于一个或更多个装置、一个或更多个计算机、一个或更多个服务器或者一个或更多个云服务平台。在一些实施方式中,过程800是作为可扩展的受事件驱动的过程的一部分来执行的,以通过响应于触发事件和在完成任务之后终止资源来提供计算资源从而高效地管理资源和增强安全性(例如,启动和终止容器实例的可扩展云服务)。
在步骤802,认证系统与所公开的实施方式一致地接收用户数据。例如,认证模块537可以从系统100的另一组件(例如,从用户装置102、客户端装置104或存储系统108中的一个)接收用户数据。用户数据包括音频数据。在一些实施方式中,音频数据是直接从用户装置102或客户端装置104发送的音频数据。在一些实施方式中,音频数据是从存储系统106接收的经处理的音频数据。经处理的音频数据可以具有与原始记录的音频数据不同的数据格式。用户数据可以包括:包括话音数据的音频数据、包括人口统计用户数据(例如,姓名、地址、出生日期、性别)、个人标识符(例如,社会安全号码、驾照号码)、用户名、密码中的至少一个的用户简档数据、标识已注册用户装置的信息、用户活动历史(即,日志)、金融数据(例如,交易历史、账户信息)、与用户相关联的第三方数据(例如,医疗数据、行政数据、财产数据、税务数据、金融数据等)或者其它信息。在一些实施方式中,所接收到的用户数据还包括以下项中的至少一种:客户端数据(例如,标识符、客户端名称),入口点数据(例如,安全入口点标识符)或者交易数据(例如,销售价格)。步骤802可以与所公开的实施方式一致地包括响应于接收到数据而启动短暂容器实例,该容器实例是由认证系统托管的。
在步骤804,认证系统与所公开的实施方式一致地处理用户数据。在一些实施方式中,处理用户数据包括将音频数据从一种数据格式转换成另一种数据格式。例如,转换可能发生在.aac、.wav、.mp3、.wav、MIDI文件、RIFF文件等之间,和/或可以包括转换成预定位深度(例如,16位PCM)。处理用户数据可以包括:图像处理、面部识别过程、证实生物特征数据、加密或解密过程或者其它数据过程。在一些实施方式中,处理用户数据包括基于所接收到的用户数据来标识用户简档。例如,标识用户简档可以包括基于用户名、密码或标识符中的至少一个来从数据存储部(例如,用户数据532、数据库等)中检索用户简档。在一些实施方式中,处理用户数据包括基于所接收到的用户数据来标识客户端装置。例如,标识客户端装置可以包括基于所接收到的客户端装置标识符来从客户端数据533中检索信息。步骤804可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤808,认证系统与所公开的实施方式一致地将指令和经处理的用户数据发送给语音模块(例如,语音模块538)。步骤808可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。指令可以包括执行话音识别过程的命令。指令可以包括将语音转换为文本、验证话音、标识未知说话者或和/或识别已知说话者的命令。指令可以包括将所接收到的话音信号与用户进行匹配的命令。指令可以包括使用所存储的模型(例如,使用被存储在模型存储部534中的模型)的命令。指令可以包括包含参考话音信号的数据。参考话音信号可以与用户简档相关联。指令可以包括用于语音模块生成短暂容器实例以执行任务的命令,该任务包括话音识别。
在步骤808,认证系统与所公开的实施方式一致地从语音模块接收匹配结果。例如,响应于指令,语音模块可以将语音模型应用于输入音频数据以确定用户身份并返回声明确定结果的匹配结果。匹配结果还可以包括标识语音分量的信息。例如,匹配结果可以标识与用户相关联的所存储的关键短语。匹配结果可以指示用户未被识别。
在步骤810,认证系统与所公开的实施方式一致地执行认证过程。认证过程可以包括将所接收到的数据与日志数据进行比较。认证过程可以包括基于匹配结果来对用户进行认证。认证过程可以是基于匹配结果并且还基于附加认证标准的多因素认证。附加认证标准可以包括:密码、通行码、敲击码中的至少一种;指纹扫描;响应于包括代码的通知而接收的代码(例如,在将代码经短信发送或电子邮件发送给与用户相关联的帐户之后接收该代码);生物特征;面部识别过程已经成功的指示;或者其它认证标准。步骤810可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤812,认证系统与所公开的实施方式一致地向用户装置(例如,用户装置102)或客户端装置(例如,客户端装置104)中的至少一个发送通知。该通知可以声明认证过程的结果。该通知可以包括与客户端装置或第三方有关的信息。步骤812可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤814,认证系统与所公开的实施方式一致地更新日志。例如,可以对日志进行更新,以记录接收到请求的时间、认证是否成功、与过程800相关联的所存储的数据的位置或者其它信息。日志例如可以被存储在用户数据532或客户端数据533中的一个中。步骤814可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
过程800的步骤中的任一步骤都可以包括终止执行相应步骤的短暂容器实例。
图9是与所公开的实施方式一致的示例性话音认证过程900的流程图。可以执行过程900,以将语音转换为文本、验证话音、标识未知说话者或和/或识别已知说话者的命令。在一些实施方式中,过程900是作为可扩展的受事件驱动的过程的一部分由语音模块538来执行的,以通过响应于触发事件和在完成任务之后终止资源来提供计算资源从而高效地管理资源和增强安全性(例如,启动和终止容器实例的可扩展云服务)。
在步骤902,语音模块与所公开的实施方式一致地接收指令(例如,在语音模块538处)。步骤902可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。指令可以包括执行话音识别过程的命令。指令可以包括用于对语音模型进行训练的命令。指令可以包括将语音转换为文本、验证话音、标识未知说话者或和/或识别已知说话者的命令。指令可以包括将所接收到的话音信号与用户进行匹配的命令。指令可以包括使用所存储的模型(例如,使用被存储在模型存储部534中的模型)的命令。指令可以包括包含参考话音信号的数据。参考话音信号可以与用户简档相关联。指令可以包括用于语音模块生成短暂容器实例以执行任务的命令,该任务包括话音识别。
在步骤904,语音模块与所公开的实施方式一致地对指令进行分类。例如,可以将指令分类为对语音模型进行训练的训练指令,或者将所接收到的话音信号与用户进行匹配的匹配指令。如图9所示,如果将指令分类为训练指令,则可以执行步骤906至914,并且可以跳过步骤916至924。另选地,如图所示,如果将指令分类为匹配指令,则可以执行步骤916到924并且可以跳过步骤906到914。步骤904可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤906,语音模块与所公开的实施方式一致地检索所存储的语音模型。例如,可以基于用户信息和/或基于所接收到的指令来从模型存储部(例如,模型存储部534)中检索所存储的模型。在一些实施方式中,步骤906包括生成新的语音模型。语音模型可以包括以下项中的至少一种:机器学习模型、生成对抗网络模型、随机森林模型、递归神经网络模型、卷积神经网络(CNN)模型、深度学习模型、会话模型、监督模型、隐藏Markov模型、自学习模型、判别式学习模型、Bayesian学习模型、结构化序列学习模型、自适应学习模型、统计模型或另一数据模型。步骤906可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤908,语音模块接收训练数据。训练数据可以包括一个或更多个包含语音的音频信号。训练数据可以包括与用户相关联的语音以及与其它个人相关联的语音。训练数据可以包括标记说话者、标记包含密语的音频数据的元数据或者其它元数据。步骤902可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤910,语音模块与所公开的实施方式一致地对语音模型进行训练。步骤910可以包括超参数调谐。例如,训练可以包括优化模型参数以及一个或更多个超参数。模型参数可以是模型权重、系数、偏移量(offset)等。超参数可以包括训练参数(诸如学习速率、批量大小等)或者架构参数(诸如神经网络中的层数、神经网络节点的激活函数的选择、卷积神经网络中的层等)。为了对模型进行训练,可以将认证模块537配置成,执行诸如以下项的过程:网格搜索、随机搜索、高斯过程、贝叶斯过程、协方差矩阵适应进化策略(CMA-ES)、基于导数的搜索、随机爬山(stochastic hill-climb)、邻域搜索、自适应随机搜索等。步骤910可以包括确定语音模型的性能指标(例如,准确度得分)。步骤910可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤912,语音模型与所公开的实施方式一致地被存储在模型存储部(例如,模型存储部534)中。步骤912可以包括通过记录一个或更多个模型特征(例如,性能指标)来更新模型索引。步骤912可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤914,将语音模型与所公开的实施方式一致地发送给系统100的另一组件。例如,可以发送语音模型以在用户装置102或客户端装置104中的一个或更多个处本地使用。步骤914可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
再次参照步骤904,如果将所接收到的指令分类为匹配指令,则在步骤916中,语音模块可以与所公开的实施方式一致地检索所存储的语音模型。例如,可以基于用户信息来从模型存储部(例如,模型存储部534)中检索所存储的模型。在步骤916检索所存储的语音模型还可以包括与所公开的实施方式一致地,基于指令检索用户数据,该用户数据包括一个或更多个参考音频数据。所存储的语音模型可以是匹配指令中标识的语音模型。步骤916可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤918,语音模块与所公开的实施方式一致地接收输入数据,该输入数据包括音频数据。例如,输入数据可以是从用户装置102、客户端装置104或存储系统106中的至少一个接收的。在一些实施方式中,输入数据是从存储系统106接收的经处理的音频数据。步骤918的音频数据包括话音数据。输入数据可以包括其它用户数据(例如,用户简档数据)或元数据。步骤918可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤920,语音模块与所公开的实施方式一致地根据输入数据和语音模型来生成匹配结果。例如,语音模块538可以将语音模型应用于输入音频数据以确定用户身份。该确定可以基于与用户相关联的参考音频数据。匹配结果还可以包括标识语音分量的信息。例如,匹配结果可以包括在输入音频数据中标识与用户相关联的所存储的关键短语。步骤920可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤922,语音模块可以与所公开的实施方式一致地更新语音模型。例如,如果在步骤920确认匹配,则语音模块可以与所公开的实施方式一致地(例如,通过优化模型参数),根据所确认的匹配来对语音模型进行训练;这样,语音模型可以参与机器学习并解决模型漂移或数据随时间的漂移(例如,由于用户的话音因年龄而发生变化、暂时的生病、不同程度的疲劳等)。步骤922可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤924,语音模块可以与所公开的实施方式一致地将匹配结果发送给系统100的另一组件。例如,可以将匹配结果从语音模块538发送给认证模块537、用户装置102、客户端装置104或第三方系统110。步骤924可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
图10是与所公开的实施方式一致的用于处理第三方系统请求的示例性过程1000的流程图。过程1000可以由用户装置102、客户端装置104、存储系统108或认证系统108中的一个来执行。例如,第三方系统110可以是金融机构,并且过程1000可以由认证系统108来执行,以处理交易并将支付从用户装置102所标识的账户发送给客户端装置104所标识的账户。如本领域技术人员应意识到,该示例仅用于例示而并非限制于过程1000的实施方式。
在步骤1002,执行装置与所公开的实施方式一致地标识第三方系统。可以至少基于与用户装置102相关联的用户数据或者与客户端装置104相关联的客户端数据中的一个来标识系统。步骤1002可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
在步骤1004,执行装置与所公开的实施方式一致地向第三方系统发送请求。该请求与所公开的实施方式一致地可以包括认证数据、认证的结果。该请求可以包括将信息(例如,记录)发送给用户装置102、客户端装置104或认证系统108中的至少一个。例如,该请求可以包括发送声明支付是否成功的通知的请求。
在步骤1006,执行装置与所公开的实施方式一致地接收来自第三方系统的响应于请求的通知。在一些实施方式中,通知可以声明支付是否成功。步骤1006可以与所公开的实施方式一致地由一个或更多个短暂容器实例来执行。
图11是与所公开的实施方式一致的用于连接至用户装置的示例性过程1100的流程图。过程1100例如可以由客户端装置104来执行。
在步骤1102,客户端装置(例如,客户端装置104)与所公开的实施方式一致地检测用户装置(例如,用户装置102)。在一些实施方式中,检测用户装置包括进行扫描以检测用户装置并建立到用户装置的连接。检测客户端装置可以包括扫描蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等中的至少一种。建立连接可以包括使用以下项中的的至少一种来连接至客户端装置:蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等。在一些实施方式中,可以由通信模块324执行步骤1102。
在步骤1104,客户端装置与所公开的实施方式一致地向用户装置发送请求。该请求可以包括与账户、交易、入口点、事件、车辆等相关的信息。该请求可以包括客户端装置标识符和/或客户端帐户标识符。该请求可以包括完成认证过程的请求。
在步骤1106,客户端装置与所公开的实施方式一致地接收来自认证系统的通知。该通知可以声明与用户装置相关联的用户是否成功完成了认证过程。通知可以声明与请求相关的其它信息,例如包括支付是否成功。
在步骤1108,客户端装置与所公开的实施方式一致地呈现通知。在一些实施方式中,呈现通知包括通过扬声器(例如,扬声器322)播放音频信号或者在显示器(例如,显示器323)上显示通知。
在步骤1110,客户端装置与所公开的实施方式一致地向用户装置发送通知。发送通知可以包括发送所接收到的通知(步骤1106)。发送通知还可以包括发送附加信息(例如,发送活动的记录或日志,诸如支付收据)。
图12是与所公开的实施方式一致的用于对用户进行认证的示例性过程1200的流程图。过程1200发生在用户装置102或客户端装置104中的一个处(例如,通过认证模块232或认证模块234中的一个)。过程1200可以是过程600或过程1100的子过程。作为由远程系统组件(例如,由认证系统108或第三方系统110)发起的多因素认证过程的一部分,例如可以发生过程1200。
在步骤1202,认证模块与所公开的实施方式一致地接收认证请求。例如,用户装置102可以从第三方系统110、客户端装置104或认证系统108中的一个处接收认证请求。作为另一示例,客户端装置104可以从第三方系统110、用户装置102或认证系统108中的一个处接收认证请求。该请求可以包括临时代码或其它认证数据。在一些实施方式中,认证请求是在用户装置102或客户端装置104中的一个处本地生成和接收的,而不是从另一系统组件接收的。
在步骤1204,认证模块与所公开的实施方式一致地显示包括认证请求的提示。呈现提示可以包括播放音频信号(例如,经由扬声器222或扬声器322)或者显示提示(例如,使用显示器223或显示器323)中的至少一个。
在步骤1206,认证模块与所公开的实施方式一致地接收认证输入数据。认证输入数据可以包括例如在麦克风221或麦克风321中的一个处接收的话音信号。认证输入数据还可以包括密码、通行码、敲击码;指纹扫描;生物特征;面部识别过程已经成功的指示;或者其它认证输入数据。
在步骤1208,认证模块与所公开的实施方式一致地执行认证过程,从而生成认证结果。认证过程可以包括在用户装置102或客户端装置104中的一个上本地验证认证输入数据。例如,认证过程可以包括使用本地存储在用户装置102或客户端装置104中的一个上的语音模型来执行话音识别过程。认证过程可以包括向认证系统108发送认证输入数据和/或其它数据以及从认证系统108接收认证结果。认证输入数据可以包括在步骤1202接收的临时代码或其它认证数据。
在步骤1210,认证模块与所公开的实施方式一致地发送通知。例如,通知可以从用户装置102和客户端装置104中的一个发送给用户装置102和客户端装置104中的另一个。通知可以从用户装置102和客户端装置104中的一个发送给系统100的另一组件(例如,认证系统108或第三方系统110)。
图13是与所公开的实施方式一致的用于对用户进行认证的示例性过程1300的流程图。过程1300是在用户装置(例如,用户装置102)处执行的。
在步骤1302,用户装置与所公开的实施方式一致地收集训练数据。训练数据可以包括一个或更多个包含语音的音频信号(例如,经由麦克风221)。训练数据可以包括与用户相关联的语音以及与其它个人相关联的参考语音。训练数据可以包括标记说话者、标记包含密语的音频数据的元数据或者其它元数据。
在步骤1304,用户装置与所公开的实施方式一致地向认证系统(例如,认证系统108)发送认证模型请求。模型请求可以包括训练数据。
在步骤1306,用户装置与所公开的实施方式一致地从认证系统接收认证模型并且存储该模型。认证模型与所公开的实施方式一致地可以包括由认证系统训练的语音模型。可以将语音模型配置成执行话音识别算法。模型能够将语音转换为文本、验证话音、标识未知说话者或和/或识别已知说话者。认证模型可以包括:机器学习模型、生成对抗网络模型、随机森林模型、递归神经网络模型、卷积神经网络模型、深度学习模型、统计模型或另一数据模型。在步骤1308在用户装置处存储认证模型可以包括将认证模型存储在认证模块232中。
在步骤1308,用户装置与所公开的实施方式一致地检测客户端装置(例如,客户端装置804)。在一些实施方式中,检测客户端装置包括进行扫描以检测客户端装置并建立到客户端装置的连接。检测客户端装置可以包括扫描蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等中的至少一种。建立连接可以包括使用以下项中的的至少一种来连接至客户端装置:蓝牙信道、Wi-Fi信道、Li-Fi信道、红外信道、NFC信道等。步骤1308可以由通信模块234来执行。
在步骤1310,用户装置与所公开的实施方式一致地接收来自客户端装置的请求。该请求可以包括完成认证过程的请求。该请求可以包括与以下项中的至少一项相关的信息:客户端装置(例如,标识符或客户端名称)、入口点(例如,安全入口点)、交易(例如,销售价格)、第三方或其它信息。
在步骤1312,用户装置与所公开的实施方式一致地呈现提示以提供认证数据。该提示可由扬声器(例如,扬声器222)播放和/或显示在显示器(例如,显示器223)上。该提示可以包括提供认证数据的请求。所请求的认证数据包括语音数据(例如,声明密语或其它短语的请求)。所请求的认证数据还可以包括pin码、密码、敲击模式或其它认证数据。
在步骤1314,用户装置与所公开的实施方式一致地接收输入数据。输入数据可以是所请求的认证数据。
在步骤1316,用户装置与所公开的实施方式一致地通过用户装置来对输入数据进行认证。认证输入数据包括将认证模型应用于输入数据以生成认证结果。步骤1316可以由认证模块234来执行。
在步骤1318,用户装置与所公开的实施方式一致地呈现认证通知。呈现认证结果可以包括播放音频信号(例如,经由扬声器222)或者在显示器上显示结果(例如,经由显示器223)。
在步骤1320,用户装置与所公开的实施方式一致地发送通知。该通知可以声明认证结果。用户装置可以向客户端装置104、认证系统108或第三方系统110中的至少一个发送通知。
本文所公开的系统和方法涉及对常规认证系统的非常规改进。与常规的技术相比,所公开的实施方式可以提高安全性、便利性以及跨平台兼容性。
所公开的实施方式的描述并非详尽的,并且不限于所公开的精确形式或实施方式。通过考虑所公开的实施方式的说明书和实践,对实施方式的修改和改变将是显而易见的。另外,所公开的实施方式不限于本文所讨论的示例。
基于本说明书的书面描述和方法的计算机程序处于软件开发人员的技能范围内。可以使用多种编程技术来创建各种函数、脚本、程序或模块。例如,程序、脚本、函数、程序段或程序模块可以以或者借助于包括以下项的语言来进行设计:JAVASCRIPT、C、C++、JAVA、PHP、PYTHON、RUBY、PERL、BASH或者其它编程或脚本语言。可以将此类软件段或模块中的一个或更多个集成到计算机系统、非暂时性计算机可读介质或现有通信软件中。也可以将程序、模块或代码作为固件或电路逻辑来进行实现或复制。
此外,虽然本文已经描述了例示性实施方式,但是该范围包括具有基于本公开的等同要素、修改、省略、组合(例如,跨各种实施方式的方面的组合)、改变或更改的任何和所有实施方式。权利要求中的要素要基于权利要求中采用的语言来进行广义解释,而不限于本说明书中或本申请进行期间所描述的示例,这些示例要被解释为非排它性的。此外,所公开方法的步骤可以以任何方式来进行修改,包括重新排序步骤或者插入或删除步骤。本说明书和示例仅旨在被视为示例性的,并且真实的范围和精神是由所附权利要求以及它们的等同物的全部范围来指示的。

Claims (18)

1.一种使用话音识别来进行非接触式认证的系统,所述系统包括:
一个或更多个存储器,所述一个或更多个存储器存储指令;以及
一个或更多个处理器,所述一个或更多个处理器执行所述指令以执行包括以下项的操作:
接收用户数据,所述用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符;
基于接收到的音频数据,生成经处理的音频数据,所述经处理的音频数据具有第二数据格式;
由语音模块从模型存储部检索针对与所述用户标识符相关联的用户训练的语音模型,所述语音模型包括机器学习模型;
运行检索到的语音模型,以基于所述经处理的音频数据生成话音匹配结果;
由认证模块基于所述话音匹配结果来对所述用户进行认证;
向与所述客户端装置标识符相关联的客户端装置发送包括所述认证的结果的客户端通知;
基于所述用户标识符、所述客户端装置标识符以及所述话音匹配结果,对日志进行更新;
使用短暂容器实例盖写所述用户数据;以及
在盖写所述用户数据之后,终止所述短暂容器实例。
2.根据权利要求1所述的系统,其中:
所述用户数据包括生物特征数据,以及
所述用户的认证是基于生物特征数据的。
3.根据权利要求1所述的系统,所述操作还包括:
向与所述用户标识符相关联的所述用户装置发送包括所述认证的结果的用户通知。
4.根据权利要求1所述的系统,所述操作还包括:
响应于所接收到的用户数据,启动容器实例,其中,所述容器实例使用所述一个或更多个处理器执行以下项中的至少一项:
对所述音频数据进行处理,
发送经处理的音频数据,
接收所述话音匹配结果,
对所述用户进行认证,以及
发送所述客户端通知。
5.根据权利要求4所述的系统,所述操作还包括:
基于所述话音匹配结果,终止所述容器实例,所述终止包括销毁所述用户数据。
6.根据权利要求1所述的系统,所述操作还包括:
销毁所述用户数据。
7.根据权利要求1所述的系统,其中,由所述语音模块生成所述话音匹配结果是进一步基于在所述音频数据中标识的短语的。
8.根据权利要求1所述的系统,所述操作还包括:
启动容器实例,其中,所述容器实例使用所述一个或更多个处理器执行以下项中的至少一项:
检索所述语音模块;
生成所述话音匹配结果;以及
发送所述话音匹配结果。
9.根据权利要求1所述的系统,所述操作还包括:
基于所述话音匹配结果和所述经处理的音频数据,对所述语音模块进行更新。
10.根据权利要求1所述的系统,其中,所述机器学习模型包括以下项中的至少一种:递归神经网络模型、隐藏Markov模型、判别式学习模型、Bayesian学习模型、结构化序列学习模型或者自适应学习模型。
11.根据权利要求1所述的系统,所述操作还包括:
基于所述用户数据和所述话音匹配结果,确定支付方法;
向金融机构发送支付请求;以及
从所述金融机构接收支付通知,所述支付通知包括支付请求结果,并且
其中,所述客户端通知包括所述支付请求结果。
12.根据权利要求1所述的系统,所述操作还包括:
通过存储服务从用户装置接收所述用户数据;
从所述存储服务向认证服务发送警报,所述警报包括所述用户标识符;
从所述认证服务接收针对所述用户数据的请求;
基于所述请求向所述认证服务发送所述用户数据;
从所述认证服务接收通知,所述通知声明已经通过所述认证服务接收到所述用户数据;以及
销毁所述用户数据。
13.根据权利要求12所述的系统,其中,销毁所述用户数据的步骤包括:
永久性地删除所述用户数据,并且删除与所述用户数据相关联的文件指针。
14.根据权利要求1所述的系统,其中,所述系统位于云服务处。
15.根据权利要求1所述的系统,其中:
所述认证模块位于第一云服务处;并且
所述语音模块位于第二云服务处。
16.根据权利要求1所述的系统,其中,所述客户端装置与入口点相关联。
17.一种使用话音识别来进行非接触式认证的计算机实现方法,所述计算机实现方法包括以下步骤:
由通信模块接收用户数据,所述用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符;
由所述通信模块处理所述音频数据,所得的经处理的音频数据具有第二数据格式;
由所述通信模块向语音模块发送所述经处理的音频数据以及指令,所述指令用于确定所述经处理的音频数据中的话音数据是否匹配与所述用户标识符相关联的话音模式;
由所述通信模块从模型存储部检索针对与所述用户标识符相关联的用户训练的语音模型,所述语音模型包括机器学习模型;
由所述通信模块运行检索到的语音模型,以基于所述经处理的音频数据生成话音匹配结果;
由所述通信模块发送所述话音匹配结果;
在所述通信模块处从所述语音模块接收所述话音匹配结果;
由认证模块基于所述话音匹配结果来对所述用户进行认证;
由所述通信模块向与所述客户端装置标识符相关联的客户端装置发送包括所述认证的结果的客户端通知;
由所述通信模块基于所述用户标识符、所述客户端装置标识符以及所述话音匹配结果,对日志进行更新;
使用短暂容器实例盖写所述用户数据;以及
在盖写所述用户数据之后,终止所述短暂容器实例。
18.一种使用话音识别来进行非接触式认证的计算机系统,所述计算机系统包括:
一个或更多个存储器,所述一个或更多个存储器存储指令;以及
一个或更多个处理器,所述一个或更多个处理器被配置成执行所述指令以执行包括以下项的操作:
在认证系统处接收用户数据,所述用户数据包括用户标识符、具有第一数据格式的音频数据、以及客户端装置标识符;
通过认证服务启动第一容器实例;
通过所述第一容器实例处理所述音频数据,经处理的音频数据具有第二数据格式;
通过所述认证服务启动第二容器实例;
从所述第一容器实例向所述第二容器实例发送所述经处理的音频数据、所述用户标识符以及所述客户端装置标识符;
通过所述第二容器实例从模型存储部检索针对与所述用户标识符相关联的用户训练的机器学习模型;
运行所述机器学习模型,以基于所述经处理的音频数据和所述用户标识符,来确定话音匹配结果;
通过所述第二容器实例,基于所述话音匹配结果来对所述用户进行认证;
通过所述第二容器实例,向与所述客户端装置标识符相关联的客户端装置发送包括所述认证的结果的客户端通知;
基于所述用户标识符、所述客户端装置标识符以及所述话音匹配结果,对日志进行更新;
使用短暂容器实例盖写所述用户数据;以及
在盖写所述用户数据之后,终止所述短暂容器实例。
CN201980092076.2A 2019-01-08 2019-12-27 使用话音识别进行非接触式认证的系统、方法和计算机系统 Active CN113826135B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/242,672 2019-01-08
US16/242,672 US20200220869A1 (en) 2019-01-08 2019-01-08 Systems and methods for contactless authentication using voice recognition
PCT/US2019/068687 WO2020146151A1 (en) 2019-01-08 2019-12-27 Systems and methods for contactless authentication using voice recognition

Publications (2)

Publication Number Publication Date
CN113826135A CN113826135A (zh) 2021-12-21
CN113826135B true CN113826135B (zh) 2024-03-22

Family

ID=71403410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980092076.2A Active CN113826135B (zh) 2019-01-08 2019-12-27 使用话音识别进行非接触式认证的系统、方法和计算机系统

Country Status (4)

Country Link
US (1) US20200220869A1 (zh)
EP (1) EP3908934A4 (zh)
CN (1) CN113826135B (zh)
WO (1) WO2020146151A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872610B2 (en) * 2019-01-31 2020-12-22 Rsa Security Llc Generating random pass-phrases using word-level recurrent neural networks
US11210587B2 (en) * 2019-04-23 2021-12-28 Sciencelogic, Inc. Distributed learning anomaly detector
CN110290468B (zh) * 2019-07-04 2020-09-22 英华达(上海)科技有限公司 虚拟隔音通信方法、装置、系统、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000037106A (ko) * 2000-04-07 2000-07-05 이상건 네트워크 기반의 화자 학습 및 화자 확인 방법 및 장치
CN103198830A (zh) * 2007-12-31 2013-07-10 摩托罗拉移动公司 用于实现分布式多模式应用的方法和设备
WO2018087764A1 (en) * 2016-11-09 2018-05-17 Idefend Ltd. Phonetically configurable means of user authentication

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865414B2 (en) * 2000-03-01 2011-01-04 Passgate Corporation Method, system and computer readable medium for web site account and e-commerce management from a central location
US8812319B2 (en) * 2001-01-31 2014-08-19 Ibiometrics, Inc. Dynamic pass phrase security system (DPSS)
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
US20060156052A1 (en) * 2004-10-27 2006-07-13 Bodnar Eric O Method and apparatus for management of data on handheld devices
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
CN101141246B (zh) * 2006-09-05 2011-07-06 华为技术有限公司 一种业务密钥获取方法和一种订阅管理服务器
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US8589166B2 (en) * 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
JP5733927B2 (ja) * 2010-08-03 2015-06-10 キヤノン株式会社 送信装置、送信方法、送信システム、及び、プログラム
US9444816B2 (en) 2011-03-30 2016-09-13 Qualcomm Incorporated Continuous voice authentication for a mobile device
US9021565B2 (en) * 2011-10-13 2015-04-28 At&T Intellectual Property I, L.P. Authentication techniques utilizing a computing device
CN103680495B (zh) * 2012-09-26 2017-05-03 中国移动通信集团公司 语音识别模型训练方法和装置及语音识别终端
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
US9491033B1 (en) * 2013-04-22 2016-11-08 Amazon Technologies, Inc. Automatic content transfer
CN103700370B (zh) * 2013-12-04 2016-08-17 北京中科模识科技有限公司 一种广播电视语音识别系统方法及系统
US9455987B2 (en) * 2014-04-17 2016-09-27 Client Care Audit Inc. Method, system and apparatus for geo-verification
KR20160026138A (ko) * 2014-08-29 2016-03-09 주식회사 에이에스디코리아 클라우드 데이터 시스템의 급속 동기화 방법 및 그를 이용한 클라우드 데이터 시스템
CN104464735A (zh) * 2014-12-12 2015-03-25 宇龙计算机通信科技(深圳)有限公司 语音信息识别方法、语音信息识别装置与终端
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
US20160253669A1 (en) * 2015-02-27 2016-09-01 Samsung Electronics Co., Ltd. Method for providing payment service and electronic device thereof
WO2016155012A1 (zh) * 2015-04-03 2016-10-06 华为技术有限公司 一种无线通信网络中的接入方法、相关装置及系统
US10498882B2 (en) * 2016-05-20 2019-12-03 T-Mobile Usa, Inc. Secure voice print authentication for wireless communication network services
JP2018025855A (ja) * 2016-08-08 2018-02-15 ソニーモバイルコミュニケーションズ株式会社 情報処理サーバ、情報処理装置、情報処理システム、情報処理方法、およびプログラム
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
CN106356054A (zh) * 2016-11-23 2017-01-25 广西大学 一种基于语音识别的农产品信息采集方法和系统
TWI637337B (zh) * 2017-02-10 2018-10-01 緯創資通股份有限公司 利用近場通訊之電子系統及網頁自動登入及安全交易方法
BR112019014039A2 (pt) * 2017-03-07 2020-02-04 Hewlett Packard Development Co autenticação de mensagens de dados baseada em um número aleatório
US10438584B2 (en) * 2017-04-07 2019-10-08 Google Llc Multi-user virtual assistant for verbal device control
CN109145145A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
US10468019B1 (en) * 2017-10-27 2019-11-05 Kadho, Inc. System and method for automatic speech recognition using selection of speech models based on input characteristics
US10896672B2 (en) * 2018-04-16 2021-01-19 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10460235B1 (en) * 2018-07-06 2019-10-29 Capital One Services, Llc Data model generation using generative adversarial networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000037106A (ko) * 2000-04-07 2000-07-05 이상건 네트워크 기반의 화자 학습 및 화자 확인 방법 및 장치
CN103198830A (zh) * 2007-12-31 2013-07-10 摩托罗拉移动公司 用于实现分布式多模式应用的方法和设备
WO2018087764A1 (en) * 2016-11-09 2018-05-17 Idefend Ltd. Phonetically configurable means of user authentication

Also Published As

Publication number Publication date
US20200220869A1 (en) 2020-07-09
WO2020146151A1 (en) 2020-07-16
EP3908934A4 (en) 2022-12-28
EP3908934A1 (en) 2021-11-17
CN113826135A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
US11847199B2 (en) Remote usage of locally stored biometric authentication data
US11882118B2 (en) Identity verification and management system
US11595382B2 (en) Facial profile password to modify user account data for hands free transactions
US11783018B2 (en) Biometric authentication
EP3374916B1 (en) Facial profile modification for hands free transactions
US10346605B2 (en) Visual data processing of response images for authentication
EP3673398B1 (en) Secure authorization for access to private data in virtual reality
EP4354311A2 (en) Blockchain-based identity and transaction platform
EP3374915B1 (en) Facial template and token pre-fetching in hands free service requests
US20170364920A1 (en) Security approaches for virtual reality transactions
CN105100108B (zh) 一种基于人脸识别的登录认证方法、装置及系统
CN113826135B (zh) 使用话音识别进行非接触式认证的系统、方法和计算机系统
US11769152B2 (en) Verifying user identities during transactions using identification tokens that include user face data
EP3622435B1 (en) Method and apparatus for security verification based on biometric feature
WO2018233110A1 (zh) 支付数据的验证方法及装置
CN112084476A (zh) 生物识别身份验证方法、客户端、服务器、设备及系统
EP4163854A1 (en) Systems and methods for conducting remote user authentication
US20210287681A1 (en) Systems and methods for contactless authentication using voice recognition
TW201944320A (zh) 支付認證方法、裝置、設備及存儲介質

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant