CN110036616A - 保护音频数据 - Google Patents

保护音频数据 Download PDF

Info

Publication number
CN110036616A
CN110036616A CN201780074819.4A CN201780074819A CN110036616A CN 110036616 A CN110036616 A CN 110036616A CN 201780074819 A CN201780074819 A CN 201780074819A CN 110036616 A CN110036616 A CN 110036616A
Authority
CN
China
Prior art keywords
audio
equipment
frequency information
limited period
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780074819.4A
Other languages
English (en)
Other versions
CN110036616B (zh
Inventor
李·坎贝尔
塞缪尔·克拉默·贝德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110036616A publication Critical patent/CN110036616A/zh
Application granted granted Critical
Publication of CN110036616B publication Critical patent/CN110036616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/02Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

用于保护音频数据的方法,系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,方法包括限制设备(100,220)对由麦克风(115,210)检测到的音频信息的访问,接收指示授权设备(100,220)在有限的时间段期间访问由麦克风(115,210)检测到的音频信息的数据,并且响应于接收指示授权设备(100,220)在有限的时间段期间访问由麦克风(115,210)检测到的音频信息的数据而向设备(100,220)提供音频信息。该方法还包括在有限的时间段期间针对热字的存在监测由麦克风(115,210)检测到的音频信息,并且在有限的时间段结束之后,限制设备(100,220)对由麦克风(115,210)检测到的音频信息的访问。

Description

保护音频数据
背景技术
本说明书一般涉及用于处理音频数据的安全技术。
互联网连接的设备经常受到恶意攻击者的危害。连接的设备变得更加复杂并被准许对用户的数据的访问。许多连接的设备包括麦克风和扬声器。对这些设备的一种潜在攻击是因为恶意攻击者利用连接的设备的一个或多个麦克风危害连接的设备并收听室内的音频。
发明内容
在某些实现中,可以通过限制设备访问设备所获取的音频数据的能力来增强安全性。例如,可以加密由设备的麦克风检测到的音频或以其他方式使设备不可访问由设备的麦克风检测到的音频。当设备具有对音频数据的合法需求时,可以准许设备访问在有限的时间段期间检测到的音频的授权。在该有限的时间段期间,麦克风检测到的音频未加密,允许设备访问音频。设备的安全模块可以根据设备的上下文而在提供加密的音频和未加密的音频之间切换。另外,如下所述,各种技术可以使设备能够接收和响应语音命令,即使在音频被加密所以设备无法访问用于该命令的音频时。
作为示例,设备可以包括连接到麦克风的处理模块。处理模块可以被配置为控制设备对在麦克风处接收到的音频的访问。具体地,处理模块可以通过以设备不能访问音频数据的方式加密音频数据来限制对检测到的音频的访问。在设备需要访问检测到的音频时,处理模块可以从可信源(例如,设备通过诸如互联网的网络与其通信的远程服务器)接受令牌。令牌可以授权设备访问未加密的音频。一旦验证了令牌,处理模块允许设备接收未加密的音频数据。令牌可以指示音频数据可以被检测到并被未加密地传送给设备的预定时间量。因此,处理模块可以在有限的时间段期间授权设备对音频的访问,并且一旦有限的时间段结束就限制对音频的访问。
本说明书中所描述的主题的一个创新方面体现在包括以下动作的方法中;由设备的处理模块限制设备对由麦克风检测到的音频信息的访问,由处理模块接收指示授权设备在有限的时间段期间访问由麦克风检测到的音频信息的数据,并且响应于接收到指示授权设备在有限的时间段期间访问由麦克风检测到的音频信息的数据而向设备提供音频信息。该方法还可以包括由处理模块在有限的时间段期间针对热词的存在监测由麦克风检测到的音频信息并且在有限的时间段结束之后由处理模块限制设备对麦克风检测到的音频信息的访问的动作。
其他实现和其他方面包括被配置为执行编码在计算机存储设备上的方法的动作的相应的系统、装置和计算机程序。在某些方面,提供了一种用于限制对由设备的麦克风检测到的音频数据的访问的方法、设备和系统,以防止来自设备的对音频数据的未授权窥探或访问。在设备处理器接收到指示在有限的时间段期间授权音频访问的数据时,处理器允许设备接收音频数据。在时间段已经结束时,(再次)限制音频访问。在授权的音频访问期间,处理器还针对热词的存在监测音频数据。热词可以包括指示将要向设备提供命令或查询的预定的词或短语。处理器可以加密命令或查询以便向远程服务器传输用于安全处理。如果有限的时间段未过期,那么设备处理器可以返回到允许设备接收音频数据。
每个实现可以可选地包括以下特征中的一个或多个。例如,该方法可以包括响应于确定有限的时间段已经结束而限制对麦克风检测到的音频信息的访问。方法还可以包括接收令牌,所述令牌指示(i)授权设备在有限的时间段期间访问由麦克风检测到的音频信息,以及(ii)该有限的时间段的持续时间,评估令牌以验证令牌的有效性,并且响应于验证了令牌的有效性而提取令牌的数据,该数据指示(i)授权设备在有限的时间段期间访问麦克风检测到的音频信息,以及(ii)有限的时间段的持续时间。另外,该方法可以包括以下中的至少一个:加密由麦克风检测到的音频信息,或阻止从处理模块到设备对音频信息的访问。
此外,该方法可以包括在有限的时间段期间检测热词的存在,并且响应于在有限的时间段期间检测到热词的存在而在有限的时间段期间限制设备对由麦克风检测到的并且跟随热词的音频信息的访问。在这种情况下,该方法可以包括在有限的时间段期间检测跟随热词的命令的存在,确定命令在有限的时间段期间已经结束,并且响应于确定命令在有限的时间段期间已经结束而向设备提供音频信息直到有限的时间段的结束为止。
在某些方面,该方法还可以包括在确定命令在有限的时间段期间已经结束之后,在有限的时间段期间检测在检测到另一个热词之前发生的问题的存在,并且响应于在有限的时间段期间检测到在检测到另一个热词之前发生的问题的存在而向设备提供音频信息直到该有限的时间段结束为止。另外,方法可以包括接收用于访问由麦克风检测到的音频信息的请求,其中响应于设备的触发而由设备提供该请求。在这种情况下,该方法可以包括将请求与从处理模块的标识符和时间中得出的值或数据串相关联。
有利的实现可以包括以下特征中的一个或多个。在某些实现中,技术使得设备能够在允许对未加密的音频数据的访问的第一模式和通过加密音频数据来限制访问的第二模式之间无缝转换。在设备接收到音频时,可以基于设备的上下文进行转换。在某些实现中,设备能够使用可信源(诸如位于设备处的处理模块和远程服务器)在提供未加密的音频数据和提供加密的音频数据之间无缝转换。处理模块可以被配置为基于当前上下文或情况来控制转换。
通常,音频的加密可以用作默认或基线操作模式。这提供了增强的安全性。如果非法入侵或以其他方式危害设备,攻击者可能获得设备上的全部信息,包括基于麦克风输入而生成的音频数据。然而,通过在标准操作期间加密音频,音频数据的加密将防止攻击者窃听检测到的音频。
本文档中所描述的技术还提供安全语音命令处理。设备可以包括与设备的主处理器分离的直接接收音频信息并控制对音频数据的访问的安全处理模块。处理模块可以通过检测标志语音动作(诸如口头命令和查询)的热词来促进语音命令的安全处理。例如,在检测到热词时,处理模块可以使加密的音频数据被发送到服务器系统。服务器系统可以处理音频并指示设备执行由用户请求的命令。以这种方式,设备接受并执行语音命令,而同时设备不能拦截或改变语音命令的音频。
在选择性地允许设备(诸如,对讲机)在适当的时候使用音频输入时,可以获得如上所述的安全益处。在发生适当的事件或条件时,在验证了授权设备访问音频之后,处理模块可以在有限的时间段期间提供原始音频或未加密的音频。在有限的时间段结束时,处理模块可以转换回加密后续接收到的音频。该技术通过使用位于设备处的可信的处理模块以及通过与可信的远程服务器的通信来增加在不可信设备中接收到的音频数据的机密性。因此,技术可用于减轻恶意攻击,在所述恶意攻击中攻击者试图窃听室内音频和/或从不可信的设备向可信的服务器传输恶意命令。
在以下附图和描述中阐述了本发明的一个或多个实施例的细节。根据说明书,附图和权利要求,本发明的其他特征和优势将变得显而易见。
附图说明
图1是用于保护音频数据的示例系统的图。
图2是用于保护音频数据的示例架构的图。
图3是示出在提供加密的音频和未加密的音频之间的基于上下文的切换的示例的事件时间线。
图4是示出用于保护音频数据的示例过程的流程图。
各图中相同的附图标志和指定指示相同的要素。
具体实施方式
图1是用于保护音频数据的系统100的图。系统可以在提供加密的音频数据和未加密的音频数据之间进行基于上下文的切换。系统100能够加密音频以增强安全性。系统100还能够在适合于设备执行合法功能的某些时间提供未加密的音频。
系统100包括经由网络130通信的设备120和服务器140。网络130可以包括一个或多个公共或专用网络并且可以包括因特网。设备120可以使用一个或多个有线或无线网络(诸如,以太网、LAN、WAN、Wi-Fi、蓝牙等)通过网络130通信。设备120可以是各种类型的设备(诸如,台式机、膝上型电脑、智能手机、平板电脑等)中的任何一种。在某些实现中,设备120是一种设备,诸如对讲机系统、婴儿监视器、卡拉OK机或在其操作期间使用麦克风输入的其他设备。设备120包括处理设备120的主要功能的处理器128。设备120还可以包括用于接收原始音频110的麦克风115。麦克风115可以表示集成在设备120中和/或与设备120通信的一个或多个麦克风。
另外,设备120包括管理各种音频相关的处理任务的单独的处理模块122。处理模块122可以是使设备120能够接受并响应语音动作(诸如,语音命令和语音查询)的语音助理模块。例如,处理模块122可以确定说出了热词,并且指定在热词之后发生的音频数据以便向服务器140传输。处理模块122可以包括用于检测接收到的音频中的热词(例如,预定的关键词或短语)的存在的热词模块123。处理模块122还可以包括用于检测口头的后续的请求是否已经发生而不是紧跟在热词之后的问题模块124。
处理模块122可以是与主机设备202集成的安全的硬件模块。可以将处理模块122实现为例如一个或多个半导体芯片、卡、电路板或其他电子模块。可以使用模拟和/或数字电路来执行处理模块122的操作。例如,处理模块122可以包括通用处理器、数字信号处理器、模数转换器和/或其他处理元件。处理模块122可以包括包含易失性存储器或非易失性存储器的一个或多个数据存储设备,其可以存储软件、固件、设置、数据等。
在某些实现中,处理模块122由第三方提供并且在与设备120不同的安全域中操作。因此,即使设备120受到危害,处理模块122也独立地操作以加密音频,安全地处理语音命令并决定何时允许设备120接收未加密的音频数据。在某些实施方式中,处理模块122直接接收通过设备120的麦克风115接收到的音频输入。换句话说,可以通过处理模块122路由用于设备120的检测到的音频,并且除非由处理模块122允许,否则可以阻止设备120访问检测到的音频。处理模块122可以包括用于加密音频数据的加密模块125。处理模块122还可以存储模块标识符126。在某些实现中,模块标识符126是区分处理模块122和其他设备的全部其他处理模块的唯一标识符。
在某些实现中,处理模块122不包括用于与服务器140通信的直接网络接口。相反,处理模块122可以与处理器128通信并且依靠设备120以传输和接收用于处理模块122的消息。
设备120可以包括用户接口、传感器或元件,该元件生成用于指示加密的音频和未加密的音频之间的所请求的转换的触发数据121。例如,对讲机系统可以包括人可以按下以发起呼叫的按钮。在用户按下按钮时,设备120可以生成指示设备120需要访问从麦克风115中检测到的音频的触发数据121。
通常,作为默认或基线操作模式,处理模块122可以加密由麦克风115检测到的音频数据。以这种方式,处理模块122可以被配置为限制对由麦克风接收到的音频数据的访问,即使从包括处理模块122的设备120中访问由麦克风接收到的音频数据。在图1的示例中,作为默认或基线操作状态,处理模块122加密全部接收到的音频以限制设备120对接收到的音频的访问。
有时,设备120可能具有使用由麦克风115生成的音频数据的合法需要。为便于这种使用,处理模块122可以与服务器140通信以确定是否应该准许设备120对检测到的音频的访问。例如,在每一次设备120需要访问来自麦克风的音频时,设备120可以向服务器140发送对接收到的音频的访问的请求。如果设备120被授权,那么处理模块122可以从服务器140接收指示设备120被授权接收音频的令牌。处理模块可以被配置为验证接收到的令牌的真实性,并且响应于验证令牌而向设备120提供未加密的音频。在有限的时间段结束之后,处理模块122可以自动停止向设备120提供未加密的音频,并且恢复加密检测到的音频。
在步骤(A)处,在设备120的麦克风115处接收音频110。音频110可以包括在麦克风115处接收到的原始音频。音频110可以包括在设备120的环境中的各种类型的音频。可以直接向处理模块122传输音频110以便处理。通常,处理模块122不向设备120或服务器140提供音频。然而,处理模块122可以针对标志语音动作(诸如,语音命令或语音查询)的开始的热词的存在而监测音频。如果检测到热词,则处理模块122可以加密后续的音频并使设备120的处理器128将加密的音频数据发送到服务器140。然后,服务器140处理音频以发起由用户请求的命令。处理模块122可以被配置为首先加密离开处理模块122的全部接收到的音频信息使得设备120不能访问检测到的音频。
在步骤(B)处,设备120接收或生成指示设备120需要对使用麦克风115获取到的音频数据的访问的触发数据121。例如,触发数据121可以指示条件或事件,诸如用户对按钮、滑块、触摸屏或其他用户接口元件的输入。作为一个示例,设备120可以是对讲机设备并且触发数据121可以指示人按下按钮以发起呼叫。基于触发数据121,设备120确定它需要对来自麦克风115的音频的访问。
在步骤(C)处,响应于触发数据121,处理器128生成用于对检测到的音频的访问的请求135。例如,请求135可以是对使设备120能够在有限的时间段期间访问音频数据的令牌的请求。
在某些实现中,作为生成用于对音频数据的访问的请求135的一部分,处理器128向处理模块122发送请求127以获取信息。响应于请求127,处理模块122可以生成并提供要包括在请求135中的识别数据129或其他数据。识别数据129可以指示用于处理模块122的模块标识符126或者从用于处理模块122的模块标识符126中得出。识别数据129还可以包括时间(诸如当前时间)或者从时间中得出。例如,处理模块122可以通过加密包括模块标识符126和其他变化的信息(诸如时间)的数据集来生成标识数据129。模块标识符126向服务器140指示请求135对应于哪个处理模块122。变化的信息(诸如当前时间)的使用可确保加密数据针对每个会话而改变。此外,提供请求135的时间有助于防止重放攻击,因为稍后再次使用的识别数据129将显示不是当前的时间。
如上所述,可以例如使用签名或散列加密识别数据129或以其他方式安全地编码识别数据129,使得识别数据129不能被读取,或者至少不能在不可检测到改变的情况下改变。因为通过被假设为不安全的设备120发送来自处理模块122的信息,所以从处理模块122到服务器140的通信通常可以使用加密技术或其他技术使得服务器140可以识别设备120并避免或检测篡改。
在步骤(D)处,设备120通过网络130将包括来自处理模块122的识别数据129的请求135发送到服务器140。服务器140可以包括远离设备120的一个或多个服务器。服务器140可以是被配置为接收请求135的可信系统。服务器140可以被配置为基于请求135中的标识数据129、设备120的已知特性和/或其他信息来准许或拒绝请求135。
在步骤(E)处,服务器140评估请求135并生成准许或拒绝对接收到的音频的访问的响应。如下所述,响应可以是指示授权设备120访问来自麦克风115的音频的安全令牌144。如果访问音频是不适当的,则服务器140可以提供指示应该拒绝访问的响应。在某些实现中,可以以安全令牌的形式提供拒绝访问的响应。
服务器140可以执行多个确定以评估是否应该准许访问。例如,服务器140可以验证请求135的完整性。服务器140可以解密或以其他方式解码请求135中的标识数据129,并提取用于验证的信息。如上所述,该识别数据129可以指示例如,模块标识符126,做出对访问的请求的时间或其他信息。用服务器140和处理模块122都已知的密钥对该信息进行加密可以证明识别数据129的有效性,从而证明请求135。类似地,识别数据可以包括服务器140可以用来验证请求135的真实性的伴随散列或签名。
服务器140可以使用来自识别数据129的信息来确定是否应该准许请求。例如,服务器140可以从识别数据129或请求135的另一部分提取时间。服务器140可以比较所提取的时间和请求135的时间。如果服务器140接收到请求135的时间距所提取的时间在阈值时间量内,例如在15秒内,在1分钟内等,服务器140可以确定请求135是当前的。如果服务器140接收到请求135在所提取的时间之后超过最大时间量,则服务器140确定请求135无效并且应拒绝请求。
服务器140可以从识别数据129中提取模块标识符126,并使用模块标识符126查找关于包括特定处理模块122的设备120的信息。例如,服务器140可以访问将处理模块标识符映射到对应的设备类型的设备数据132。其他信息(诸如设备120的型号、设备的制造商和设备120的能力)也可以存储在设备数据132中。可以使用来自设备制造商的信息填入设备数据132,例如,以指示某些处理模块集与某些设备类型相关联。
可能要求设备具有某种类型以准许对音频数据的访问。某些类型的设备可以包括处理模块122以允许语音助理功能,但是不需要将检测到的音频用于它们的设备的操作。例如,可能期望智能洗衣机响应用户语音请求,但洗衣机不需要用于操作的音频。对于这些类型的设备,服务器140自然地可以拒绝对音频数据的访问。相反,诸如对讲机、婴儿监视器、卡拉OK机等的其他设备可能需要检测到的音频用于除响应用户语音请求之外的目的。服务器140可以使用设备数据132以验证请求来自具有对音频的合法使用的适当设备作为评估请求135的一部分。在图1的示例中,服务器确定设备120是对讲机,并且因此服务器140确定设备120是用于接收音频数据的适当类型的设备。
服务器140可以在评估请求135时执行其他确定。例如,服务器140可以访问用户帐户数据并识别与设备120相关联的用户帐户。例如,服务器140可以查找从请求135中提取的模块标识符126。用户帐户可以指示服务器140可以用来评估请求135的各种类型的信息,包括用户的偏好、准许设备的安全级别或许可、其他设备的状态或位置、访问历史等。类似地,请求135可以包括指示设备120的状态或所请求的对音频数据的使用的信息。这些也可以由服务器140评估以确定访问是否适当。
如果服务器140确定请求135是可信的,当前的(例如,没有延迟或重复)并且用于适当类型的设备,则服务器140生成指示应该准许设备120对音频数据的访问的令牌144。令牌144可以指示设备120可以获得对音频数据的访问的有限的时间段145。该有限的时间段可以指示为到期时间、时间长度、时间范围或以其他方式。在对讲机的情况下,服务器140可以指示设备120应该接收访问例如仅一分钟或两分钟。授权持续的时间量可以基于设备120的类型。例如,服务器140可以确定授权卡拉OK机更长的时间量(诸如5分钟)或者授权婴儿监视器15分钟。时间量也可以根据请求135所指示的任务或其他上下文而变化。指示设备120接收音频的授权的数据和指示有限的时间段的数据可以由服务器140加密或以其他方式安全地编码,使得不能伪造信息。
在某些实现中,在向设备120提供对音频的访问之前,服务器140向用户设备发送用于用户确认的请求。例如,在响应于请求135而生成和发送令牌144之前,服务器140可以确定向设备120注册用于特定用户的用户帐户。根据用户帐户数据,服务器140可以识别与用户帐户相关联的用户设备(诸如用户的电话)并发送设备120已请求对音频数据的访问的通知。通知可以包括用户可以与其交互以允许或拒绝访问的用户接口,例如按钮或显示在触摸屏上的其他区域。例如,通知可以询问“您是否要立即使用对讲机?”并为用户提供选择是或否的选项。以这种方式,在设备试图访问音频时可以通知用户,并且可以检测并防止由受到危害的设备的企图的窃听。
在步骤(F)处,服务器140经由网络130向设备120传输令牌144。设备120接收令牌144。然而,因为令牌数据被加密或以其他方式安全地编码,所以设备120通常不能读取数据。此外,由于处理模块122控制对使用麦克风115生成的音频数据的访问,所以设备120不接收音频直到处理模块122切换到提供未加密的音频数据的模式。
在步骤(G)处,设备120向处理模块122提供令牌,并且处理模块评估令牌144。处理模块122可以被配置为验证令牌144的有效性。因此,处理模块122可以解密或以其他方式解码令牌144以确定是否允许设备120对接收到的音频数据的访问。类似于识别数据129的生成,可以生成具有允许处理模块122验证令牌是当前的并且不是过时的时间或其他信息的令牌144。例如,处理模块122可以比较所提取的时间值与处理模块122接收到令牌144的时间。如果这两个时间在彼此的阈值时间量内,则可以确定该请求是当前的。否则,因为可能过时或可能是先前令牌的重复,可以忽略令牌144。作为另一示例,令牌可包括可与识别数据中的数据匹配的数据。例如,令牌144可以包括在识别数据129中编码的秘密值或随机值,证明令牌144是使用用于相同设备120和相同会话的秘密值生成的。
令牌144指示是否授权设备120从麦克风115接收音频数据。在某些实现中,即使拒绝授权,也提供令牌144。这可以至少向设备120和/或处理模块122提供接收了和应答了请求135的确认。
另外,处理模块122可以基于令牌144确定设备120可以访问接收到的音频数据的有限的时间段145。如上所述,这可以以任何适当的形式确定,例如,持续时间、授权到期、授权持续的时间范围等。例如,如果处理模块122确定可以准许设备120访问音频数据的许可,则处理模块122可以切换到未加密的音频模式并在有限的时间段145内将原始音频或未加密的音频146传送到处理器128。如本文进一步讨论的,未加密的音频通道可以称为未加密的音频模式,并且加密的音频通道可以称为加密的音频模式。
在步骤(H)处,在令牌144被验证并且处理模块122已经确定授权设备120对音频数据的访问之后,处理模块122向设备120的处理器128提供未加密的音频。例如,一旦验证了授权,处理模块122基本上可以开始实时地提供音频数据。该访问可以允许设备120以与如果设备120具有与麦克风115或不安全的典型模拟到数字音频处理硬件的直接连接基本上相同的方式使用音频数据。也就是说,在某些实现中,处理器128在有限的时间段145内可以基本上不限制对检测到的音频数据的访问。因此,设备(诸如对讲机)可以无阻碍且无延迟地为正在进行的呼叫提供音频。随着接收到音频,处理模块122可以继续提供未加密的音频。
在有限的时间段145结束时,处理模块122自动转换回限制对由麦克风115检测到的音频的访问。例如,可使用密码模块125加密在有限的时间段145结束之后检测到的音频使得再次限制设备120访问音频数据。为了再次访问音频,设备120可以例如通过检测需要音频并以与对请求135所讨论的相同方式发起请求的生成而发起对授权的新的请求。
在某些方面,处理模块122可以被配置为在向设备120提供未加密的音频的同时例如在有限的时间段145内检测热词。处理模块122可以使用热词模块123来执行该功能。热词模块123可以实现热词检测模型,该热词检测模型可以包括训练的机器学习模型,诸如神经网络、最大熵分类器等。热词模块123可以使用用于在音频访问受限的同时检测发生的热词的相同的热词检测模型,或者可以使用不同的热词检测模型。在某些实现中,当在限制音频的时段内以及在音频不受限制的时段内操作时,热词模块123的一个或多个参数可以是不同的。
在某些示例中,热词或语音命令的检测可以中断设备120对接收到的音频的开放访问。以这种方式,可以将旨在用于语音助理而非用于设备120的语音命令和其他用户请求安全地路由到服务器140。在使音频对设备120可用的有限的时间段145内,向设备120提供音频并且还使用热词模块123来监测音频。如果热词模块123例如以至少最小置信水平检测到热词,即使授权的有限的时间段145还没结束,也可以限制设备对音频的访问。因此,热词的检测可以提示处理模块122从提供未加密的音频以便设备120使用转换到提供要发送到服务器140的加密音频。因此,在检测到热词时,热词模块123可以向处理模块122传送信号以限制设备120对音频数据的访问。这允许处理模块122以加密的音频模式接收用户语音请求直到检测到的语音请求的结束为止。因此,在授权设备120访问音频数据的有限的时间段145内,可以在设备120处接收命令和其他请求而不会牺牲命令的机密性。
处理模块122可以包括语音活动检测器或用于确定用户的语音请求的结束的其他功能。例如,在热词和紧接着的后续的语音命令之后,语音活动检测器可以检测至少预定的最小持续时间(例如,2秒,5秒等)的讲话中的暂停。这可以向处理模块122指示对应于热词的用户请求已经结束。在用户请求结束时,处理模块122可以停止提供要发送到服务器140的加密音频。处理模块122还确定有限的时间段145是否已经结束。如果有限的时间段145已经结束,处理模块122例如通过不向设备120提供音频数据或仅提供设备120不可访问的加密音频数据而继续阻止对音频的访问。然而,如果有限的时间段还没结束,处理模块122返回到未加密的模式并再次提供未加密的音频。
处理模块122还可以被配置为处理不是紧跟在热词之后的某些命令。有时,在用户已说出热词和第一语音请求之后,用户可以暂停并稍后进行第二语音请求而不说出第二热词。例如,用户可以说出热词,例如“好的,手机”,并且询问“订购辣肠披萨”。在命令已结束之后并且可能在动作完成之后,用户可以跟进第二语音请求,“比萨将何时到达?”,试图继续与虚拟助手进行对话而在第二次请求之前没有说出热词。在这种情况下,对于要由处理模块122接收的命令和后续的问题,可以仅检测到一个热词。为了检测这些类型的后续的请求或者不在热词之后的其他请求,处理模块122可以使用问题模块124。
在已知的用户语音请求结束之后的特定持续时间内,问题模块124可以通过评估语音特征来操作。类似于热词模块123,问题模块124可以包括音频处理模型,例如,训练的机器学习模型,诸如神经网络、分类器等。例如,问题模块124可以在先前请求结束之后的一段时间(例如,30秒,1分钟等)内,针对潜在的后续的请求而监测音频。在此期间,问题模块124可以监测声音特性(诸如,语音音调变化)以生成指示已经做出后续的请求的估计的可能性的似然分值。类似地,问题模块124可以检测标志可能的问题的非热词语项,例如,谁、什么、何地、为何、何时、如何等,并且单独地或与其他数据组合而使用该信息以生成似然分值。在似然分值满足阈值时,处理模块122可以例如通过转换到加密模式并将加密的音频作为潜在语音命令提供给服务器140而将音频视为潜在的用户语音请求。
图2是用于在加密的音频和未加密的音频之间的基于上下文的切换的示例架构200的图。用于在加密的音频和未加密的音频之间的基于上下文的切换的架构200包括麦克风210、设备220、处理模块230、服务器240和扬声器250。架构200示出了其中处理音频数据以在加密的音频通道和未加密的音频通道之间转换的框图。音频数据可以响应于触发以及响应于接收的音频数据的特定内容在加密的音频通道和未加密的音频通道之间转换。
麦克风210包括持续地传输原始音频215的一个或多个麦克风。麦克风210连接到处理模块230。麦克风210将接收的音频传送到处理模块230。处理模块230可以被配置为经由加密模块233加密音频数据。在某些实现中,全部接收的音频215首先由加密模块233加密。
随着麦克风210接收音频215并将音频传输到处理模块230以便加密,可以发起设备220的触发222。触发222可以指示用于设备220对音频数据的访问的请求。例如,触发222可以是发起通过对讲机系统传输未加密音频的请求的对讲机系统的按钮。触发222可以发起由设备220的处理器224生成请求234。
响应于触发222,处理器224可以生成请求234并将请求234传送到处理模块230。处理模块230可以被配置为向请求234添加加密值。加密值可以包括用于处理模块230的标识符以及时间。在某些方面,时间对应于生成请求234的时间。在其他方面,时间对应于致动触发222的时间。用于处理模块230的标识符可以指定设备220的所有者和/或设备220的类型。在某些实现中,加密值是散列。在将加密值添加到请求234之后,可以将请求234传送回处理器224。请求234可以从设备220传输到服务器240以便请求234的验证。
服务器240可以被配置为接收请求234并验证请求234的完整性。换句话说,服务器240可以被配置为确定是否允许设备220访问音频数据。服务器240可以被配置为基于请求234的加密值来验证请求234。具体地,服务器240可以被配置为通过查找与加密值相对应的信息来验证请求234的完整性。服务器240可以被配置为基于用于处理模块230的标识符和与请求234相关联的时间来确定设备220是否可信。例如,服务器240可以访问包括验证的标识符的列表的查找表。在这种情况下,服务器240可以被配置为将加密值的标识符与查找表进行比较以验证请求的完整性。具体地,如果加密值的标识符存在于查找表中并且标识符与适当类型的设备相关联,可以在有限的时间段期间允许设备220对音频数据的访问。否则,如果在查找表中不存在加密值的标识符或者如果所指示的设备类型不具有接收音频数据的资格,服务器240将不准许设备220访问音频数据的访问权。
如果服务器240确定请求234有效并且访问授权是适当的,服务器240生成编码设备220可以访问音频的有限的时间量242的令牌241。否则,如果服务器240没有确定请求有效,服务器240生成编码用于忽略对加密的音频的访问的请求并继续限制设备220对音频数据的访问的命令的令牌241。
服务器240可以被配置为向设备220传输令牌241。设备220可以被配置为经由处理器224将令牌241传送到处理模块230。处理模块230可以被配置为解码令牌241。具体地,处理模块230可以被配置为评估令牌241以验证令牌241的有效性,验证设备220访问音频数据的许可,并且(如果准许了设备220对音频数据的访问)提取设备220可以访问音频数据的持续时间242。
处理模块230可以被配置为使用加密模块233切换到未加密的音频模式。在这种情况下,处理模块可以被加密模块233使用以在有限的时间段242(如令牌241所指示)内允许设备对音频数据的访问。处理模块230可以被配置为在有限的时间段期间将音频215作为未加密的音频数据从麦克风210传送到设备220。
设备220可以被配置为使用处理器224经由未加密的音频通道从处理模块230接收未加密的音频数据。在某些实现中,未加密的音频数据可以由处理器224传输到扬声器250。因此,未加密的音频数据可以被转换为声音以便由扬声器250发射。例如,响应于对讲系统中的按钮按下的致动,作为对广播接收到的音频的请求的验证的结果,可以由一个或多个扬声器广播在对讲机处接收到的音频。
在某些实现中,处理模块230可以进一步包括热词模块231和问题模块232。在这种情况下,处理模块230可以被配置为在有限的时间段242内检测接收到的音频数据中的热词和问题。例如,处理模块230可以使用热门模块231以在有限的时间段242内检测预定的热词。如果热词模块231检测到热词,处理模块230可以被配置为在有限的时间段242内从未加密的音频模式转换到加密的音频模式。在某些方面,检测到的热词和跟随检测到的热词的音频被加密并从设备220传输到服务器240。因此,该热词和跟随检测到的热词的音频可以不传送到扬声器250。
在某些实现中,跟随热词的音频可以包括命令。该命令可以由加密模块233加密使得限制设备220对命令的访问。因此,在有限的时间段242内,由于响应于检测到热词而从未加密的模式转换到加密的模式,可以将命令安全地发送到服务器240。
在有限的时间段242内,跟随热词的音频可以附加地包括后续的问题。问题模块232可以检测后续的问题。处理模块230可以使用问题模块232来指示设备220对音频数据的访问应保持受限。因此,如果处理模块230经由热词模块231检测到热词,在可以检测到命令和/或后续的问题的有限的时间段242内的一部分时间内可以加密音频数据以便将命令和/或后续的问题安全传输到服务器240。
图3是示出了在提供加密的音频和未加密的音频之间的基于上下文的切换的示例的事件时间线300。时间线300示出了用于未加密的音频302的通道和用于加密的音频304的通道。基于沿时间线300发生的事件,可使用未加密的音频通道302或加密的音频通道304将音频数据从处理模块传输到设备。
在事件310处,在设备处检测到触发条件或触发事件。在检测到触发时,处理模块通过要求任何访问在加密的音频通道304上发生来限制对音频数据的访问。触发可以提示设备生成对访问未加密的音频数据的授权的请求,这将需要从使用加密的音频通道304到未加密的音频通道302的转换。可能需要未加密的音频数据的设备的示例包括对讲系统、卡拉OK机、婴儿监视器等。触发可用于初始化对通过未加密的音频通道302传输未加密的音频的请求的生成。
在事件312处,设备生成用于对音频数据的访问的请求。对令牌的请求试图使设备能够访问音频信息。对令牌的请求可以包括由处理模块生成的并传送给设备的加密值。加密值可以包括用于处理模块的标识符以及生成请求的时间。对令牌的请求可以由设备与处理模块组合生成并传送给服务器以用于验证该请求。因为还未允许设备对音频信息的访问,所以继续使用加密的音频信道304。
在事件314处,设备从服务器接收令牌。服务器可以被配置为基于请求的加密值验证对令牌的请求。因此,服务器可以被配置为基于请求的加密值将生成的令牌传输到设备。令牌可以包括指示是否授权设备访问由麦克风检测到的音频信息的信息。另外,令牌可以包括指定设备可以访问音频数据的有限的时间段的信息。设备继续使用加密的音频信道304直到令牌本身被处理模块验证为止。
在事件316处,设备将令牌传送到处理模块以用于验证。处理模块可以被配置为验证令牌。响应于验证令牌的有效性,处理模块可以被配置为从令牌中提取指示是否授权设备访问音频信息的信息。另外,处理模块可以被配置为从令牌提取指示有限的时间段的持续时间的信息。如图3所示,如果处理模块验证了令牌的有效性,发生从加密的音频通道304到未加密的音频通道302的转换。因此,一旦令牌已经由处理模块验证,则允许设备访问音频信息。
在事件318处,处理模块在有限的时间段期间检测热词。响应于检测到热词,处理模块在有限的时间段期间从未加密的音频通道302转换到加密的音频通道304。因此,可以加密跟随热词的音频使得设备不能访问跟随热词的音频。
在事件320处,处理模块检测跟随热词的命令。处理模块在有限的时间段期间在加密的音频通道304上检测到命令。在某些实现中,有限的时间段期间,在加密的音频信道304上后续的问题可以跟随命令。处理模块可以被配置为检测是否存在后续的问题。
在某些方面,处理模块经由加密的音频通道304向设备传送命令和后续的问题。该设备可以被配置为向服务器安全地传输命令和后续的问题。服务器可以被配置为解密命令和后续的问题。由于响应于检测到热词,音频数据已经从未加密的音频信道302转换到加密的音频信道304,在有限的时间段期间限制设备访问命令和后续的问题。
在事件322处,处理模块检测命令的结束。当检测到命令的结束时,处理模块在有限的时间段期间从加密的音频通道304转换为未加密的音频通道302。在某些方面,处理模块在命令结束之前检测后续的问题。在这种情况下,处理模块可以被配置为检测后续的问题的结束并且在检测到后续的问题的结束时从加密的音频信道304转换到未加密的音频信道302。在示例中,处理模块可以被配置为在检测到命令结束之后并且在有限时间段期间的一段时间中检测后续的问题。因此,在发生对后续的问题的检测的一段时间结束之后,处理模块转换回未加密的音频通道302。
在事件324处,处理模块检测由令牌指示的有限的时间段的到期。在检测到有限的时间段结束时,处理模块从未加密的音频通道302转换到加密的音频通道302。因此,处理模块限制设备对音频数据的访问。
在某些实现中,有限的时间段发生在命令结束之前。在这种情况下,处理模块在命令结束之前从未加密的音频通道302转换到加密的音频通道302。因此,有限的时间段定义了针对单个验证的令牌可以使用未加密的音频信道302的持续时间。
图4是示出用于在加密的音频和未加密的音频之间的基于上下文的切换的示例过程400的流程图。为方便起见,将过程400描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,根据本说明书而适当地编程的用于在加密的音频和未加密的音频之间的基于上下文的切换的系统(例如,用于图1的在加密的音频和未加密音频之间的基于上下文的切换的系统100)可以执行过程400。
在步骤410处,设备的处理模块限制设备对音频信息的访问。可以由与处理模块通信的麦克风来检测音频信息。因此,可以将音频信息传送到加密音频信息的设备的处理模块。由于音频信息的加密可以限制设备对音频信息的访问。在这种情况下,仍然可以向设备传送加密的音频信息,然而,由于加密,设备不可能访问音频信息。在其他方面,可以通过完全阻止从处理模块到设备的音频信息的访问来限制设备对音频信息的访问。
在步骤420处,处理模块接收指示授权设备在有限的时间段期间访问音频信息的数据。处理模块可以从远程服务器接收数据(诸如令牌)。例如,服务器可以向设备传输安全令牌。设备可以被配置为向处理模块传送安全令牌到以便解码。处理模块可以解码令牌以确定授权设备在令牌所指示的有限的时间段期间访问由麦克风接收到的音频信息。
在步骤430处,处理模块向设备提供音频信息。例如,处理模块可以被配置为响应于解码令牌而向设备提供音频信息。在解码令牌时,处理模块可以从令牌中提取指示授权设备在有限的时间段期间访问音频信息的信息。在某些实现中,处理模块解码令牌以确定未授权设备访问音频信息。在这种情况下,处理模块继续限制设备对音频信息的访问。
在步骤440处,处理模块在有限的时间段期间针对热词的存在监测音频信息。在一个示例中,如果处理模块在有限的时间段期间检测到热词,处理模块可以在有限的时间段期间限制设备访问由麦克风检测到的并且跟随热词的音频信息。此外,处理模块可以在有限的时间段期间检测跟随热词的命令的存在。在这种情况下,处理模块可以被配置为在有限的时间段期间确定命令何时结束。在确定命令在有限的时间段期间结束之后,处理模块可以向设备提供音频信息,直到有限的时间段结束为止。在另一示例中,在确定命令已经在有限时间段期间结束之后,处理模块可以被配置为在有限的时间段期间检测在检测到另一个热词之前发生的问题的存在。响应于检测到问题的存在,处理模块可以被配置为向设备提供音频信息,直到有限的时间段结束为止。
在步骤450处,处理模块在有限的时间段结束之后限制对音频信息的访问。在某些实现中,处理模块响应于确定有限的时间段已经结束而限制对麦克风检测到的音频信息的访问。可以经由从未加密的音频通道到加密的音频通道的转换来限制设备对音频信息的访问。在这种情况下,加密的音频信息仍然可以传送给设备,然而,由于加密,设备不可能访问音频信息。在其他方面,可以通过完全阻止从处理模块到设备的音频信息的访问来限制设备对音频信息的访问。
已经描述了多种实现方式。然而,应该理解的是,在不脱离本公开的精神和范围的情况下,可以进行各种修改。例如,可以使用上面示出的流程的具有重新排序的,添加的或移除的步骤的各种形式。
本说明书中描述的本发明的实施例和全部功能操作,包括本说明书中公开的架构及架构的等同物,或者架构中的一个或多个的组合,可以在数字电子电路中或在计算机软件,固件或硬件中实现。本发明的实施例可以实现为一个或多个计算机程序产品,例如,在计算机可读介质上编码的一个或多个计算机程序指令模块,所述计算机程序指令模块用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质组合,或其一个或多个的组合。术语“数据处理装置”包括用于处理数据的全部装置,设备和机器,举例来说包括可编程处理器,计算机或多个处理器或计算机。除了硬件之外,装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件的代码、协议栈、数据库管理系统、操作系统或者其一个或多个的组合。传播的信号是人工生成的信号,例如,机器生成的电,光或电磁信号,生成所述传播的信号以对信息进行编码以便传输到合适的接收器设备。
可以用任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用程序、脚本或代码),所述编程语言包括编译或解释语言,并且可以以任何形式部署,所述形式包括作为单独的程序或作为适于在计算环境中使用的模块、组件、子程序或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,存储在专用于所讨论的程序的单个文件中或存储在多个协调文件中(例如,存储一个或多个模块,子程序或代码的各部分的文件)。可以部署计算机程序以在一个计算机上或在位于一个站点上或跨多个站点分布的并通过通信网络互连的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
作为示例,适合于执行计算机程序的处理器包括通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如,磁盘,磁光盘或光盘)接收数据或将数据传输到一个或多个大容量存储设备,或者用于两者。然而,计算机不需具有这类设备。此外,计算机可以嵌入另一个设备中,仅举几例,例如平板电脑、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括全部形式的非易失性存储器,介质和存储器设备,举例来说包括半导体存储器设备(例如EPROM,EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动磁盘)、磁光盘、和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本发明的实施例可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和用户可以通过其向计算机提供输入的定点设备(例如鼠标或轨迹球)的计算机上实现。可以使用其他类型的设备提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈,听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括听觉,语音或触觉输入。
本发明的实施例可以在包括后端部件的计算系统中实现,例如所述后端组件作为数据服务器;或者所述计算系统包括中间件部件,例如应用服务器;或者所述计算系统包括前端部件,例如具有图形用户界面或Web浏览器的客户端计算机,用户可以通过所述图形用户界面或Web浏览器与本发明的实现交互,或者一个或多个这类后端,中间件或前端部件的任何组合。系统的部件可以通过任何形式或介质的数字数据通信互连,例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在对应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
虽然本说明书包含许多细节,但这些细节不应被解释为对本发明范围或可要求保护的范围的限制,而是作为对本发明特定实施例特有的特征的描述。在单独的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外,尽管可以将上面的特征描述为以某些组合起作用并且甚至最初如此声明,但是在某些情况下可以从组合中删除所要求保护的组合中的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然在附图中以特定顺序描述了操作,但是这不应该被理解为要求以示出的特定顺序或按顺序执行这些操作,或者执行全部示出的操作以实现期望的结果。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施例中的各种系统组件的分离不应被理解为在全部实施例中都需要这种分离,并且应该理解的是,所描述的程序部件和系统通常可以一起集成在单个软件产品中或打包到多种软件产品中。
在提到HTML文件的每个实例中,可以替换其他文件类型或格式。例如,HTML文件可以由XML、JSON、纯文本或其他类型的文件替换。此外,在提及表或散列表的情况下,可以使用其他数据结构(诸如电子表格,关系数据库或结构化文件)。
已经描述了本发明的特定实施例。其他实施例在以下权利要求的范围内。例如,权利要求中记载的步骤可以以不同的顺序执行并且仍然实现期望的结果。

Claims (20)

1.一种方法,包括:
由设备的处理模块限制所述设备对由麦克风检测到的音频信息的访问;
由所述处理模块接收指示授权所述设备在有限的时间段期间访问由所述麦克风检测到的音频信息的数据;
响应于接收到指示授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的音频信息的数据,向所述设备提供音频信息;
由所述处理模块在所述有限的时间段期间针对热词的存在而监测由所述麦克风检测到的音频信息;以及
在所述有限的时间段结束之后,由所述处理模块限制所述设备对由所述麦克风检测到的音频信息的访问。
2.根据权利要求1所述的方法,进一步包括,响应于确定所述有限的时间段已经结束而限制对由所述麦克风检测到的音频信息的访问。
3.根据权利要求1或2所述的方法,其中,接收指示授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的音频信息的数据包括:
接收令牌,所述令牌指示(i)授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的所述音频信息,以及(ii)所述有限的时间段的持续时间;
其中所述方法进一步包括:
评估所述令牌以验证所述令牌的有效性;以及
响应于验证所述令牌的所述有效性,提取所述令牌的数据,该数据指示(i)授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的所述音频信息,以及(ii)所述有限的时间段的持续时间。
4.根据权利要求1到3中的任一项所述的方法,其中,限制所述设备对由所述麦克风检测到的音频信息的访问包括以下中的至少一个:
加密由所述麦克风检测到的所述音频信息;或
阻止对所述音频信息从所述处理模块到所述设备的访问。
5.根据权利要求1到4中的任一项所述的方法,进一步包括:
在所述有限的时间段期间检测所述热词的存在;以及
响应于在所述有限的时间段期间检测到所述热词的存在,在所述有限的时间段期间,限制所述设备对由所述麦克风检测到的并且跟随所述热词的音频信息的访问。
6.根据权利要求5所述的方法,进一步包括:
在所述有限的时间段期间,检测跟随所述热词的语音请求,其中所述语音请求是口头命令或请求;
确定在所述有限的时间段结束之前所述语音请求已经结束;以及
响应于确定在所述有限的时间段结束之前所述语音请求已经结束,向所述设备提供在所述语音请求结束之后检测到的未加密的音频信息。
7.根据权利要求6所述的方法,进一步包括:
在确定在所述有限的时间段结束之前所述语音请求已经结束之后,并且在提供在所述语音请求结束后检测到的未加密音频信息之后,检测在所述有限的时间段期间发生的并且前面没有附加的热词的第二语音请求;以及
响应于检测到在所述有限的时间段期间发生的并且前面没有附加的热词的所述第二语音请求,向所述设备提供与所述第二语音请求相对应的加密的音频。
8.根据权利要求1到7中的任一项所述的方法,进一步包括:接收访问由所述麦克风检测到的音频信息的请求,其中响应于检测到用户与所述设备交互而由所述设备提供所述请求。
9.根据权利要求8所述的方法,其中,接收访问由所述麦克风检测到的音频信息的请求包括:将所述请求与从(i)所述处理模块的标识符,和(ii)指示时间的数据中得出的数据相关联。
10.一种设备,包括:
麦克风;以及
被配置为执行操作的处理模块,所述操作包括:
限制所述设备对由麦克风检测到的音频信息的访问;
接收指示授权所述设备在有限的时间段期间访问由所述麦克风检测到的音频信息的数据;
响应于接收到指示授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的音频信息的数据,向所述设备提供音频信息;
在所述有限的时间段期间针对热词的存在而监测由所述麦克风检测到的音频信息;以及
在所述有限的时间段结束之后,限制所述设备对由所述麦克风检测到的音频信息的访问。
11.根据权利要求10所述的设备,其中所述操作进一步包括,响应于确定所述有限的时间段已经结束而限制对由所述麦克风检测到的音频信息的访问。
12.根据权利要求10或11所述的设备,其中,接收指示授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的音频信息的数据包括:
接收令牌,所述令牌指示(i)授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的所述音频信息,以及(ii)所述有限的时间段的持续时间;
其中所述操作进一步包括:
评估所述令牌以验证所述令牌的有效性;以及
响应于验证所述令牌的所述有效性,提取所述令牌的数据,该数据指示(i)授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的所述音频信息,以及(ii)所述有限的时间段的持续时间。
13.根据权利要求10到12中的任一项所述的设备,其中,限制所述设备对由所述麦克风检测到的音频信息的访问包括以下中的至少一个:
加密由所述麦克风检测到的所述音频信息;或
阻止对所述音频信息从所述处理模块到所述设备的访问。
14.根据权利要求10到13中的任一项所述的设备,所述操作进一步包括:
在所述有限的时间段期间检测所述热词的存在;以及
响应于在所述有限的时间段期间检测到所述热词的存在,在所述有限的时间段期间,限制所述设备对由所述麦克风检测到的并且跟随所述热词的音频信息的访问。
15.根据权利要求14所述的设备,其中所述操作进一步包括:
在所述有限的时间段期间,检测跟随所述热词的语音请求,其中所述语音请求是口头命令或请求;
确定在所述有限的时间段结束之前所述语音请求已经结束;以及
响应于确定在所述有限的时间段结束之前所述语音请求已经结束,向所述设备提供在所述语音请求结束之后检测到的未加密的音频信息。
16.根据权利要求15所述的设备,其中所述操作进一步包括:
在确定在所述有限的时间段结束之前所述语音请求已经结束之后,并且在提供在所述语音请求结束后检测到的未加密音频信息之后,检测在所述有限的时间段期间发生的并且前面没有附加的热词的第二语音请求;以及
响应于检测到在所述有限的时间段期间发生的并且前面没有附加的热词的所述第二语音请求,向所述设备提供与所述第二语音请求相对应的加密的音频。
17.根据权利要求10到16中的任一项所述的设备,其中所述操作进一步包括:接收访问由所述麦克风检测到的音频信息的请求,其中响应于检测到用户与所述设备交互而由所述设备提供该请求。
18.根据权利要求17所述的方法,其中,接收访问由所述麦克风检测到的音频信息的请求包括:将所述请求与从(i)所述处理模块的标识符,和(ii)指示时间的数据中得出的数据相关联。
19.存储包括能够由一个或多个处理器执行的指令的软件的一个或多个非暂时性计算机可读介质,所述指令在这样执行时使所述一个或多个处理器执行操作,所述操作包括:
限制设备对由麦克风检测到的音频信息的访问;
接收指示授权所述设备在有限的时间段期间访问由所述麦克风检测到的音频信息的数据;
响应于接收到指示授权所述设备在所述有限的时间段期间访问由所述麦克风检测到的音频信息的数据,向所述设备提供音频信息;
在所述有限的时间段期间针对热词的存在而监测由所述麦克风检测到的音频信息;以及
在所述有限的时间段结束之后,限制所述设备对由所述麦克风检测到的音频信息的访问。
20.根据权利要求19所述的一个或多个非暂时性计算机可读介质,其中所述操作包括权利要求2到9中的任一项所述的方法。
CN201780074819.4A 2016-12-07 2017-08-01 保护音频数据 Active CN110036616B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/372,182 2016-12-07
US15/372,182 US9940930B1 (en) 2016-12-07 2016-12-07 Securing audio data
PCT/US2017/044842 WO2018106293A1 (en) 2016-12-07 2017-08-01 Securing audio data

Publications (2)

Publication Number Publication Date
CN110036616A true CN110036616A (zh) 2019-07-19
CN110036616B CN110036616B (zh) 2021-08-13

Family

ID=59702813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780074819.4A Active CN110036616B (zh) 2016-12-07 2017-08-01 保护音频数据

Country Status (4)

Country Link
US (2) US9940930B1 (zh)
EP (1) EP3533196B1 (zh)
CN (1) CN110036616B (zh)
WO (1) WO2018106293A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10103872B2 (en) * 2014-09-26 2018-10-16 Intel Corporation Securing audio communications
US10237268B2 (en) * 2016-11-02 2019-03-19 Google Llc Secure passcode processing device
CN112822205B (zh) * 2016-12-21 2024-02-02 创新先进技术有限公司 跨设备的登录方法、系统及装置
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10887423B2 (en) * 2017-05-09 2021-01-05 Microsoft Technology Licensing, Llc Personalization of virtual assistant skills based on user profile information
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
WO2019083500A1 (en) * 2017-10-24 2019-05-02 Visa International Service Association SYSTEM, METHOD AND APPARATUS FOR AUTOMATICALLY ENCODING DATA IN ELECTRONIC COMMUNICATION
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
KR102612835B1 (ko) * 2018-04-20 2023-12-13 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10887351B2 (en) * 2018-05-02 2021-01-05 NortonLifeLock Inc. Security for IoT home voice assistants
CN110211608B (zh) * 2019-06-11 2021-05-28 兰州理工大学 一种语音检索方法及系统
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
US11310209B2 (en) * 2019-09-10 2022-04-19 Motorola Solutions, Inc. Method and device for protecting confidentiality of audio messages
CA3059032A1 (en) * 2019-10-17 2021-04-17 The Toronto-Dominion Bank Homomorphic encryption of communications involving voice-enabled devices in a distributed computing environment
US11437043B1 (en) * 2019-12-12 2022-09-06 Amazon Technologies, Inc. Presence data determination and utilization
US20220129543A1 (en) * 2020-10-27 2022-04-28 Arris Enterprises Llc Secure voice interface in a streaming media device to avoid vulnerability attacks
US11620990B2 (en) 2020-12-11 2023-04-04 Google Llc Adapting automated speech recognition parameters based on hotword properties
US11662973B2 (en) * 2021-03-16 2023-05-30 Dell Products, L.P. Systems and methods for orchestrated audio session management for modern workspaces
US11783831B1 (en) * 2021-06-29 2023-10-10 Amazon Technologies, Inc. Data protection in a multi-assistant system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158470A (zh) * 2011-01-30 2011-08-17 韦峻峰 一种用于移动便携式设备的声信号处理系统及其处理方法
US20120034904A1 (en) * 2010-08-06 2012-02-09 Google Inc. Automatically Monitoring for Voice Input Based on Context
CN102469213A (zh) * 2010-11-03 2012-05-23 捷讯研究有限公司 对锁定功能的访问
US20120297467A1 (en) * 2011-05-16 2012-11-22 Tec Solutions, Inc. Authentication platform and related method of operation
CN203180938U (zh) * 2012-12-21 2013-09-04 国民技术股份有限公司 电子令牌和电子令牌认证系统
CN204103936U (zh) * 2014-10-31 2015-01-14 上海众人科技有限公司 一种动态令牌及动态令牌认证系统

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267312A (en) 1990-08-06 1993-11-30 Nec Home Electronics, Ltd. Audio signal cryptographic system
AU6049298A (en) 1997-01-31 1998-08-25 T-Netix, Inc. System and method for detecting a recorded voice
US6496581B1 (en) 1997-09-11 2002-12-17 Digisonix, Inc. Coupled acoustic echo cancellation system
US7228429B2 (en) 2001-09-21 2007-06-05 E-Watch Multimedia network appliances for security and surveillance applications
US6889321B1 (en) 1999-12-30 2005-05-03 At&T Corp. Protected IP telephony calls using encryption
US6507653B1 (en) 2000-04-14 2003-01-14 Ericsson Inc. Desired voice detection in echo suppression
US6741874B1 (en) 2000-04-18 2004-05-25 Motorola, Inc. Method and apparatus for reducing echo feedback in a communication system
US6928161B1 (en) 2000-05-31 2005-08-09 Intel Corporation Echo cancellation apparatus, systems, and methods
US7447321B2 (en) 2001-05-07 2008-11-04 Harman International Industries, Incorporated Sound processing system for configuration of audio signals in a vehicle
US7158776B1 (en) 2001-09-18 2007-01-02 Cisco Technology, Inc. Techniques for voice-based user authentication for mobile access to network services
US7072354B1 (en) * 2001-10-03 2006-07-04 Cisco Technology, Inc. Token registration of managed devices
JP4557548B2 (ja) 2002-01-02 2010-10-06 ソニー エレクトロニクス インク 部分暗号化及びパケット識別子のマッピング
WO2003079721A1 (en) 2002-03-13 2003-09-25 Harman International Industries, Incorporated Audio feedback processing system
US6904146B2 (en) 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US20080312934A1 (en) 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8553865B2 (en) 2007-07-27 2013-10-08 Clear-Com Research, Inc. Multi-point to multi-point intercom system
US20090049307A1 (en) * 2007-08-13 2009-02-19 Authennex, Inc. System and Method for Providing a Multifunction Computer Security USB Token Device
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20100114573A1 (en) * 2008-10-30 2010-05-06 Motorola, Inc. Method and Device for Verifying a User
WO2011112767A2 (en) * 2010-03-10 2011-09-15 Sra International, Inc. One vault voice encryption
US8950002B2 (en) 2011-08-15 2015-02-03 Bank Of America Corporation Method and apparatus for token-based access of related resources
WO2013025590A1 (en) 2011-08-15 2013-02-21 Bank Of America Corporation Method and apparatus for making token-based access decisions
US8898459B2 (en) 2011-08-31 2014-11-25 At&T Intellectual Property I, L.P. Policy configuration for mobile device applications
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8452597B2 (en) 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9191823B2 (en) * 2012-06-29 2015-11-17 GSMK Gesellschaft für sichere mobile Kommunikation mbH Mobile device and method to monitor a baseband processor in relation to the actions on an applicaton processor
WO2014142702A1 (en) 2013-03-15 2014-09-18 Obschestvo S Ogranichennoy Otvetstvennostiyu "Speaktoit" Selective speech recognition for chat and digital personal assistant systems
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9058805B2 (en) 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US20140343949A1 (en) 2013-05-17 2014-11-20 Fortemedia, Inc. Smart microphone device
US9723487B2 (en) * 2013-08-19 2017-08-01 American Megatrends, Inc. Mobile device security system
US8719039B1 (en) 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9684778B2 (en) * 2013-12-28 2017-06-20 Intel Corporation Extending user authentication across a trust group of smart devices
US9270931B2 (en) 2014-05-05 2016-02-23 Cloudtalk Llc Intercom system utilizing Wi-Fi
WO2016049235A1 (en) * 2014-09-23 2016-03-31 UV Networks, Inc. Application host with distributed remote input and output interfaces
US10103872B2 (en) 2014-09-26 2018-10-16 Intel Corporation Securing audio communications
US9891882B2 (en) 2015-06-01 2018-02-13 Nagravision S.A. Methods and systems for conveying encrypted data to a communication device
US20160365101A1 (en) * 2015-06-15 2016-12-15 Motorola Mobility Llc Enabling Event Driven Voice Interaction with a Device
US20170012982A1 (en) * 2015-07-10 2017-01-12 Google Inc. Protecting Data From Unauthorized Access
CN105933893A (zh) 2016-03-30 2016-09-07 苏州美天网络科技有限公司 一种蓝牙耳机对讲系统的数据加密系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120034904A1 (en) * 2010-08-06 2012-02-09 Google Inc. Automatically Monitoring for Voice Input Based on Context
CN102469213A (zh) * 2010-11-03 2012-05-23 捷讯研究有限公司 对锁定功能的访问
CN102158470A (zh) * 2011-01-30 2011-08-17 韦峻峰 一种用于移动便携式设备的声信号处理系统及其处理方法
US20120297467A1 (en) * 2011-05-16 2012-11-22 Tec Solutions, Inc. Authentication platform and related method of operation
CN203180938U (zh) * 2012-12-21 2013-09-04 国民技术股份有限公司 电子令牌和电子令牌认证系统
CN204103936U (zh) * 2014-10-31 2015-01-14 上海众人科技有限公司 一种动态令牌及动态令牌认证系统

Also Published As

Publication number Publication date
CN110036616B (zh) 2021-08-13
US9940930B1 (en) 2018-04-10
WO2018106293A1 (en) 2018-06-14
US20180190290A1 (en) 2018-07-05
EP3533196A1 (en) 2019-09-04
EP3533196B1 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
CN110036616A (zh) 保护音频数据
US9124386B2 (en) System, device, and method for securing voice authentication and end-to-end speech interaction
WO2017197974A1 (zh) 一种基于生物特征的安全认证方法、装置及电子设备
CN109472166A (zh) 一种电子签章方法、装置、设备及介质
CN104063788B (zh) 一种移动平台可信支付系统及方法
WO2015101336A1 (en) Signature verification method, apparatus, and system
CN108667608A (zh) 数据密钥的保护方法、装置和系统
CN108781163A (zh) 用于无密码计算机登录的服务辅助移动配对的系统和方法
JP2018533141A5 (zh)
CN105409264A (zh) 用于保护受信任计算基的凭证保险库的系统和方法
KR20160097323A (ko) Nfc 인증 메커니즘
JP2007072608A (ja) 機器情報送信プログラム、サービス制御プログラム、機器情報送信装置、サービス制御装置および機器情報送信方法
CN112187931A (zh) 会话管理方法、装置、计算机设备和存储介质
US20190213306A1 (en) System and method for identity authentication
CN107979467A (zh) 验证方法及装置
WO2015019821A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR20150083334A (ko) 인터넷 환경에서의 사용자 보안 인증 시스템 및 그 방법
JP5391766B2 (ja) 認証方法、認証システム、サーバ装置、およびクライアント装置
US20100273552A1 (en) Method for Authentication of Game Executing Authority Recording Medium for Storing Authentication Program of Game Executing Authority, and Server for Storing Authentication Program of Game Executing Authority
CN108460251A (zh) 运行应用程序的方法、装置及系统
JP5278495B2 (ja) 機器情報送信方法、機器情報送信装置、機器情報送信プログラム
JP2017530636A (ja) 認証スティック
CN104994503B (zh) 一种移动应用访问方法
TWI546698B (zh) 基於伺服器的登入系統、登入驗證伺服器及其驗證方法
KR20150072574A (ko) 일회용 비밀번호 생성 방법 및 이를 수행하는 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant