CN111402903A - 采用深度学习的超声攻击检测 - Google Patents

采用深度学习的超声攻击检测 Download PDF

Info

Publication number
CN111402903A
CN111402903A CN201911180255.XA CN201911180255A CN111402903A CN 111402903 A CN111402903 A CN 111402903A CN 201911180255 A CN201911180255 A CN 201911180255A CN 111402903 A CN111402903 A CN 111402903A
Authority
CN
China
Prior art keywords
attack
ultrasonic
neural network
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911180255.XA
Other languages
English (en)
Inventor
帕维尔·特雷拉
库巴·洛帕特卡
简·巴纳斯
彼得·克林克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN111402903A publication Critical patent/CN111402903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/032Protect output to user by software means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本公开涉及采用深度学习的超声攻击检测。提供了用于增强语音启用设备的机构、方法和计算机可读介质。该方法包括由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,该分段信号指出检测到的关键字在音频流内的位置,由超声攻击检测器对音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图,并且由超声攻击检测器利用频谱图作为输入运行神经网络分类器,神经网络分类器把真实人类语音与由语音启用设备上的超声攻击造成的互调失真产物辨别开。

Description

采用深度学习的超声攻击检测
技术领域
实施例概括而言涉及语音控制设备(speech-controlled device)。更具体而言,实施例涉及用于语音控制设备的采用深度学习的超声攻击检测。
背景技术
超声攻击(ultrasonic attack),也称为海豚攻击(dolphin attack),可对语音控制设备造成严重的安全性问题。这种攻击可利用语音控制设备内的麦克风在超声频率下的非线性特性。有可能产生一种不可听的超声攻击信号,该信号在被语音控制设备上搭载的麦克风捕捉之后可导致互调失真。这种失真在人类语音的基带中留下类似语音的伪影信号。虽然该伪影信号在空气中是不可听的,但它随后被语音控制设备处理,就好像它是正常人类语音那样。语音控制设备内的关键短语检测引擎可产生假触发,从而导致自动语音识别开始处理不可听的命令,而这些命令可能是恶意的。从而,攻击者可在用户没有意识到的情况下取得对语音控制设备的控制。
市售的语音控制设备,例如
Figure RE-GDA0002380649850000011
Figure RE-GDA0002380649850000012
可能是易受这种攻击影响的。此弱点当被恶意利用时对用户构成严重威胁。当今的智能扬声器和其他语音启用设备能够访问用户的在线购物、互联网浏览、家庭照明、家庭恒温器,并且在一些情况中能够访问安全锁特征。海豚攻击的潜在危险包括但可不限于交互干扰、身份盗用、未授权的购买和干扰智能家庭系统。因此,如果希望保护基于语音的人机交互的安全并因此将其进一步推广,超声攻击是一个要应对的问题。
发明内容
本公开的实施例提供了用于增强语音启用设备的机构、方法和计算机可读介质。该方法包括由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,该分段信号指出检测到的关键字在音频流内的位置,由超声攻击检测器对音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图,并且由超声攻击检测器利用频谱图作为输入运行神经网络分类器,神经网络分类器把真实人类语音与由语音启用设备上的超声攻击造成的互调失真产物辨别开。该机构包括用于执行上述方法的相应装置。该计算机可读介质包括存储于其上的指令,这些指令当被一个或多个计算设备执行时使得该一个或多个计算设备执行上述方法。
附图说明
通过阅读以下说明书和所附权利要求,并且通过参考以下附图,实施例的各种优点将对本领域技术人员变得清楚,在附图中:
图1是根据实施例图示出能够把真实人类语音与由超声攻击造成的互调失真产物的语音启用设备辨别开的增强机构的示例的框图;
图2A是根据实施例图示出基于基带语音信号x(t)模拟攻击信号x’(t)所要求的三个构造块的图;
图2B是根据实施例的表示攻击者输入命令x(t)的示例信号频谱的图示;
图2C是根据实施例表示不可听的经调制超声攻击信号y(t)的示例信号频谱的图示;
图2D是根据实施例的表示被攻击设备上的具有互调失真产物的基带攻击信号x’(t)的示例信号频谱的图示;
图3是根据实施例的示例攻击模拟实现方式的详细框图;
图4A-4D根据实施例图示了在0-200Hz的频率范围上的记录语音与模拟语音的比较;
图4E-4H根据实施例图示了在4-8kHz的频率范围上的记录语音与模拟语音的比较;
图5是根据实施例图示出用于机器学习分类器的神经网络拓扑结构的图;
图6是根据实施例的对于能够把真实人类语音与由超声攻击造成的互调失真产物辨别开的语音启用设备执行超声攻击检测的示例方法600的流程图;
图7是根据实施例具有增强机构来把真实人类语音与由超声攻击造成的互调失真产物辨别开的语音启用设备的示例的框图;
图8是根据实施例的半导体封装装置的示例的图示;
图9是根据实施例的示范性处理器的框图;以及
图10是根据实施例的示范性计算系统的框图。
在接下来的详细描述中,参考了附图,附图形成本文的一部分,其中相似的标号始终指定相似的部件,并且在附图中以说明方式示出了可实践的实施例。要理解,在不脱离本公开的范围的情况下,可利用其他实施例并且可做出结构或逻辑上的改变。因此,不应从限制意义上来理解接下来的详述描述,并且实施例的范围由所附权利要求及其等同物来限定。
具体实施方式
通过允许设备把真实人类语音与由超声攻击造成的互调失真产物辨别开来增强语音启用设备能力的技术。除其他外,增强型语音启用设备包括一种机器学习、数据驱动信号分类器,其被训练为区分正常语音和由超声攻击(也称为海豚攻击)造成的语音。该分类器包括两个输出类别:海豚攻击类别和正常语音类别或非海豚攻击类别。如果分类器输出指出发生了海豚攻击,则相应的关键字检测将被取消以防止攻击者在增强型语音启用设备上执行命令。如果分类器输出指出发生了正常语音,则相应的关键字检测将被触发以为增强型语音启用设备启用正常操作。
各种操作可按对于理解要求保护的主题最有帮助的方式被依次描述为多个离散动作或操作。然而,描述的顺序不应当被解释为意味着这些操作一定是依赖于顺序的。具体地,可不按呈现的顺序执行这些操作。可按与描述的实施例不同的顺序执行描述的操作。在额外的实施例中可执行各种额外的操作并且/或者可省略描述的操作。
说明书中提及“一个实施例”、“实施例”、“说明性实施例”等等表明描述的实施例可包括特定的特征、结构或特性,但每个实施例可包括或者可不一定包括该特定特征、结构或特性。另外,这种短语不一定指同一实施例。此外,当结合一实施例来描述特定的特征、结构或特性时,认为结合其他实施例(无论是否明确描述)来实现这种特征、结构或特性是在本领域技术人员的知识范围内的。此外,应当明白,“A、B和C的至少一者”形式的列表中包括的项目可以指(A);(B);(C);(A和 B);(B和C);(A和C);或者(A、B和C)。类似地,以“A、B 或C的至少一者”的形式列出的项目可以指(A);(B);(C);(A 和B);(B和C);(A和C);或者(A、B和C)。
公开的实施例在一些情况下可以用硬件、固件、软件或者其任何组合来实现。公开的实施例也可实现为由一个或多个暂态或非暂态机器可读 (例如,计算机可读)存储介质承载或存储在其上的指令,这些指令可被一个或多个处理器读取和执行。机器可读存储介质可实现为用于以机器可读的形式存储或传输信息的任何存储设备、机构或者其他物理结构(例如,易失性或非易失性存储器、介质盘或者其他介质设备)。就本文使用的而言,术语“逻辑”和“模块”可以指以下各项、是以下各项的一部分或者包括以下各项:专用集成电路(application specific integrated circuit, ASIC)、电子电路、执行具有机器指令(从汇编器和/或编译器生成)的一个或多个软件或固件程序的处理器(共享的、专用的或群组的)和/或存储器(共享的、专用的或群组的)、组合逻辑电路、和/或提供描述的功能的其他适当组件。
在附图中,可按特定的布置和/或排序示出一些结构或方法特征。然而,应当明白这种特定的布置和/或排序可不是必需的。相反,在一些实施例中,可按与示意图中所示不同的方式和/或顺序来布置这种特征。此外,在特定附图中包括某个结构或方法特征并不打算暗示这种特征是所有实施例中必需的,并且在一些实施例中可不包括这种特征或者可将这种特征与其他特征组合。
图1是根据实施例图示出用于语音启用设备把真实人类语音与由超声攻击造成的互调失真产物辨别开的增强机构100的示例的框图。除其他外,增强机构100包括一个或多个麦克风102a-n、关键字检测器106和超声攻击检测器108。在一个实施例中,一个或多个麦克风102a-n可耦合到可选的预处理器104以对经由一个或多个麦克风102a-n接收的音频输入流进行预处理。预处理可包括从接收自一个或多个麦克风102a-n的音频信号中消除可能降低系统性能和/或增大误比特率的非零DC(直流)偏置电平。预处理还可包括在非零DC偏置电平被去除之后提升信号的电平。预处理器不限于只去除非零DC偏置电平和提升音频信号的电平。处理器 104也可执行对输入音频信号的其他增强,例如波束成形和声学回波消除,两者都是相关领域技术人员所公知的。在另一实施例中,可不使用可选的预处理器104。在此情况中,音频输入流绕过预处理器104并且直接被关键字检测器106和超声攻击检测器108接收。
关键字检测器106可被用于识别关键字,这些关键字将激活或触发语音启用设备100利用机器学习和自动语音识别(automatic speech recognition,ASR)技术来做出响应。例如,如果语音启用设备是Amazon 的Echo设备,则用于激活Echo设备的关键字可以是“Alexa”或“Echo”。其他语音启用设备可使用其他关键字来激活语音启用设备。
超声攻击检测器108可用于通过把真实人类语音与由超声攻击造成的互调失真产物辨别开来增强语音启用设备100。超声攻击检测器108使用具有两个输出类别的机器学习-数据驱动信号分类器。第一输出类别表示海豚攻击。第二输出类别表示真实人类语音。如果超声攻击检测器108的输出表示海豚攻击,则相应的关键字检测器106被取消以防止攻击者在语音启用设备100上执行任何恶意命令。如果超声攻击检测器108的输出表示真实人类语音,则语音启用设备100将继续正常操作。
分类器必须被训练来区分真实人类语音和包括海豚攻击的语音。海豚攻击利用麦克风在高频下的非线性行为。当小心准备的超声攻击信号在语音启用设备100附近被发送时,可发生攻击。海豚攻击信号是被调制到超声频带和相应的载波频率中的基带语音信号的混合。由于对于语音启用设备100而言麦克风在高频下的高互调失真,上述的超声信号经历互调并且互调失真产物可出现在语音基带中。对于现有技术水平的语音识别引擎而言很难将所得到的具有互调失真产物的基带语音信号与真实基带语音信号区分开来。
在一实施例中,机器学习数据驱动信号分类器可被实现为被训练为区分真实语音和来自超声攻击的语音的人工神经网络。可在购买设备之前在工厂进行对人工神经网络的训练。海豚攻击模拟被用于为人工神经网络训练生成数据。基于基带语音信号x(t)模拟攻击信号x’(t)需要关于海豚攻击如何工作的知识。
图2A根据实施例图示出基于基带语音信号x(t)模拟攻击信号x’(t)所要求的三个构造块。如图2A中所示,第一构造块被表示为黑客设备202。黑客设备202可实现为具有高采样(即,96kHz或以上)的DSP(Digital Signal Processing,数字信号处理)算法。黑客设备202接收基带语音信号 x(t)并且输出经由扬声器(未明确示出)呈现的超声信号y(t)。超声信号 y(t)通过第二构造块被传输,该第二构造块被表示为空气204。空气204可被表示为具有已知的脉冲响应的线性时不变系统。此系统可被表示为使用与上文所示相同的高采样的离散FIR滤波器。由语音启用设备内的麦克风捕捉的超声信号y’(t)被示为到第三构造块206的输入。y’(t)是由通过第二构造块空气204传输产生的信号。超声攻击信号相对于其中心频率而言是相对窄带的。另外,在这种高频率下的传递函数将是难以确定或预测的,因为信道的声学属性保持未知。将这两个因素都考虑在内允许了简化该模拟并且假定y’(t)=y(t)。第三构造块被表示为被攻击设备206。被攻击设备 206可实现为具有高互调失真的非线性数字滤波器。可实现滤波器的各种组合来获得具有高互调失真的基带语音信号的期望结果,其被表示为 x’(t)。
图2B是根据实施例的表示攻击者输入命令x(t)的示例信号频谱的图示。攻击者输入命令x(t)被示为具有从大约0到截止频率的频率的信号。
图2C是根据实施例表示不可听的经调制超声攻击信号y(t)的示例信号频谱的图示。如图2C中所示,不可听的经调制的超声攻击信号y(t)的频率范围是从(超声载波频率-截止频率)到(超声载波频率+截止频率)。
图2D是表示被攻击设备206上的具有互调失真产物的基带攻击信号 x’(t)的示例信号频谱的图示。如图所示,超声分量因为抗混叠滤波器和低采样频率而在被攻击设备的频谱中是不可见的,但在低频率下的互调产物的能量可能高到足以模仿真实语音。
图3是根据实施例的示例攻击模拟实现方式300的详细框图。在图3 中也示出了如图2A中所示的基本构造块202、204和206。可在数字处理域中模拟攻击。为了训练机器学习分类器在真实人类语音和由超声攻击造成的互调失真产物之间进行区分,对攻击信号进行模拟来提供训练机器学习分类器识别海豚攻击的互调失真产物所需要的训练数据。
黑客设备块202复制黑客将如何产生攻击。黑客设备块202包括在4- 8kHz或16kHz的采样频率下记录的输入基带语音信号x(t),这是语音信号的正常采样。为了模拟基带语音信号x(t)在超声采样频率下看起来将是什么样,x(t)在304被上采样到超声采样频率。在一个实施例中,超声采样频率可以是192kHz。经上采样的信号在306被调制并且在310被利用超声载波振荡器308来混合以从黑客设备202获得攻击信号y(t)。
如先前参考图2A陈述的原因,不模拟空气传播。从而,y(t)被示为通过空气块204被传输到被攻击设备块206。被攻击设备块206在数字域中模拟被攻击设备上的互调失真。互调失真是通过滤波来实现的。在316,利用设备传递函数对y(t)进行滤波。接下来,在318,利用非线性滤波器对来自设备传递函数的输出信号进行滤波。随后在320,通过抗混叠滤波器对非线性滤波器的输出进行滤波。在一个实施例中,抗混叠滤波器可以是低通滤波器。随后在332,对来自抗混叠滤波器的输出信号进行下采样以获得基带信号x’(t)。信号x’(t)是攻击已发生后的信号。信号x’(t)类似于输入信号x(t),但其包括超声攻击的特征。从而,对于被攻击设备的麦克风的超声攻击是人类在空气中不可听的语音。它通过麦克风也应当是不可听的,但因为其是超声频率的失真点,所以它通过麦克风是可听的。
示例模拟实现方式被就其相对于利用易受攻击的DMIC(数字麦克风)对超声攻击信号的实际记录的准确性进行了评估。在图4A-4H中突出显示了模拟实现方式的结果。在每个情况中考查了相同的语音样本——女性声音的话语,它们被时间对齐并正规化到相同的RMS(均方根)水平。图4A-4D根据实施例图示了在0-200Hz的频率范围上的记录语音与模拟语音的比较。图4A和4B分别图示了记录基带语音和记录超声语音。图 4C和4D分别图示了基带起源的模拟语音和超声起源的模拟语音。如图 4A-4B中所示,在记录信号对和模拟信号对两者中都存在相似的趋势。在 50Hz以下在基带信号和超声信号之间存在能量的增大。
图4E-4H根据实施例图示了在4-8kHz的频率范围上的记录语音与模拟语音的比较。图4E和4F分别图示了记录基带语音和记录超声语音。图 4G和4H分别图示了基带起源的模拟语音和超声起源的模拟语音。如图 4E-4H中所示,在记录信号对和模拟信号对两者中同样都存在相似的趋势。与50Hz以下的基带信号和超声信号不同,在4kHz以上在基带和超声信号之间存在能量的减小。
如前所示,机器学习分类器被训练来区分基带(原始)信号x(t)和由超声攻击产生的信号x’(t)。图5是根据实施例图示出用于机器学习分类器 500的神经网络拓扑结构的图。该网络具有递归拓扑结构,该拓扑结构包括两(2)个仿射层502和506和两(2)个长短期记忆(Long Short-Term Memory,LSTM)层510和514。网络输出包括仿射层518,其后是全局最大池化(pooling)层520和柔性最大激活函数522。
注意,大小随着深度减小。仿射层502包括256个单元(即,神经网络中的单元或乘加节点),而仿射层506包括128个单元。LSTM层510 和514各自包括64个单元。最后的仿射层518包括2个单元。
到网络的输入是在关键字检测(如图1中所示)之后被分段的话语的幅值频谱图。采用幅值频谱图作为输入提供了信号的丰富通用表示,从而允许网络自行学习重要的特征。频谱图使能了对整个频带的分析。
仿射层502和506被放置在拓扑结构的开始处以提取更高级别特征并且在被馈送到递归LSTM层510中之前降低维度。仿射层502和506被用于捕捉一些频谱能量系数上的相互依从性并且它们学习在频谱中出现的模式。仿射层502、506和518不拥有记忆。
LSTM层510和514具有记忆,这允许了它们学习帧之间的时间依从性。它们不仅学习个体频谱帧的形状,而且学习时间演变。LSTM层可记住它们在几步之前看到了什么并且将其与它们当前看到的相比较,同时学习时间品质。两个LSTM层510和514被用于使能对更复杂、更高级别的依从性的捕捉和更高级别的抽象。
同样,在网络的输出处是另一个仿射层518。仿射层518只具有两个单元。这些单元之一发射(fire)海豚攻击信号,另一个单元发射基带真实语音信号。
最大池层520从整个时间序列中选择最大输出值。柔性最大层522对网络输出进行正规化,以使得它们全都在0到1的值之间,其中具有最高值的输出在柔性最大之后获得最高值并且所有输出加起来等于1。柔性最大输出的示例可视化被示为524。
期望的神经网络输出,也称为地面实况标签,被示为526。利用交叉熵函数(xent)528将期望的神经网络输出与柔性最大输出相比较,交叉熵函数528是对于分类的误差度量。在实施例中,交叉熵函数528可与诸如均方误差之类的其他度量互换使用。
注意,非线性函数,例如双曲正切504和508和S形函数512和 516,被称为挤压函数或者激活函数。它们被策略性地放置在神经网络内分别紧跟在前两个仿射层502和506和两个LSTM层510和514之后。插入非线性挤压函数使得整个网络能够高度非线性并且能够学习非常复杂的依从性。双曲正切激活函数将真实值匹配到区间-1到1,而S形激活函数将所有事物匹配到从0到1的值。
虽然对于神经网络选择了仿射和LSTM层以及非线性双曲正切和S形激活函数,但实施例可使用其他层类型和激活函数。例如,LSTM层的替代可包括例如递归神经网络(recurrent neural network,RNN)、具有门控递归单元(Gated Recurrent Unit,GRU)的网络、具有卷积层的网络 (CNN)(包括门控卷积和直接应用到波形输入的卷积),以及时间延迟神经网络。仿射层的替代可包括但不限于具有卷积层的网络(CNN),其包括门控卷积和直接应用到波形输入的卷积。双曲正切和S形函数的替代可包括但不限于修正线性单元(rectified linear unit,ReLU)激活函数和最大输出激活函数。不同拓扑结构网络可被用于实施例中,并且诸如LSTM 和GRU之类的递归层是有益的。
图6是根据实施例的对于能够把真实人类语音与由超声攻击造成的互调失真产物辨别开的语音启用设备执行超声攻击检测的示例方法600的流程图。方法600一般可实现在诸如如图1所示的语音启用设备的增强机构 100之类的机构中。更具体地,方法600可实现在作为存储在诸如随机访问存储器(random access memory,RAM)、只读存储器(read onlymemory,ROM)、可编程ROM(programmable ROM,PROM)、固件、闪存等等之类的机器或计算机可读存储介质中的逻辑指令集合的一个或多个模块中,实现在诸如可编程逻辑阵列(programmable logic array, PLA)、现场可编程门阵列(field programmable gatearray,FPGA)、复杂可编程逻辑器件(complex programmable logic device,CPLD)之类的可配置逻辑中,利用诸如专用集成电路(application specific integrated circuit,ASIC)、互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)或晶体管-晶体管逻辑(transistor-transistor logic, TTL)技术之类的电路技术实现在固定功能逻辑硬件中,或者这些的任何组合。
例如,可以以一种或多种编程语言的任何组合来编写用于执行方法 600中所示的操作的计算机程序代码,所述编程语言包括面向对象的编程语言,比如JAVA、SMALLTALK、C++等,还包括传统的过程式编程语言,比如“C”编程语言或类似的编程语言。此外,逻辑指令可包括汇编指令、指令集体系结构(instruction set architecture,ISA)指令、机器指令、机器相关指令、微代码、状态设置数据、用于集成电路的配置数据、个性化电子电路和/或原生于硬件的其他结构组件(例如,主机处理器、中央处理单元(CPU)、微控制器等等)的状态信息。
该过程开始于块602中,在此处该过程立即前进到块604。在块604 中,来自图1的麦克风102a-n的音频输入信号(也称为音频输入流)被超声攻击检测器108接收。超声攻击检测器108还接收来自图1的关键字检测器106的分段输入。如前所示,分段输入定义关键字在音频输入流中的位置。该过程随后前进到块606。
在块606中,执行对由关键字在音频输入流中的位置(即,分段)定义的音频输入数据的预处理。预处理可包括以下各项中的一个或多个:从接收自一个或多个麦克风102a-n的音频信号中消除可降低系统性能和/或增大误比特率的非零DC(直流)偏置电平,提升音频信号的电平,进行波束成形以按增大去往/来自所选方向的信号强度同时衰减去往/来自不希望方向的所有其他音频信号的方式来组合音频信号,以及声学回波消除。音频输入流的预处理是相关领域的技术人员所公知的。预处理产生被用作到机器学习分类器500中的输入的音频频谱图。该过程前进到块608。
在块608中,机器学习分类器500(即,神经网络)被运行以确定幅值输入频谱图的特征。从而,在输入频谱图的特征上运行神经网络,一直到最后仿射层的激活,在整个序列上进行最大池化之后,但在柔性最大之前。如前所述,最后仿射层具有两个单元,一个单元发射基带真实语音信号,一个单元发射海豚攻击信号。该过程随后前进到块610。
在块610中,神经网络500被评分。利用被称为“正向传播”的过程来对神经网络500评分。正向传播是相关领域的技术人员所公知的。该过程随后前进到块612。
在块612中,计算攻击得分。攻击得分被确定为图5中所示的神经网络500的最后层(即,具有两个单元的仿射层518)的输出(用于发射基带真实语音信号输出的输出1和用于发射海豚攻击信号输出的输出2)之间的差异。该过程随后前进到块614。
在块614中,将攻击得分与预定的阈值相比较。如果攻击得分低于预定的阈值,则音频信号关键字被辨识为超声攻击并且被拒绝。如果攻击得分等于或高于预定的阈值,则音频信号关键字被辨识为人类语音并且被接受。在此情况下,该关键字被用于触发设备。
图7示出了可容易替代上文参考图1示出的语音启用设备(包括增强机构)的系统700。图示的系统700包括处理器702(例如,主机处理器、中央处理单元/CPU),其具有耦合到系统存储器706(例如,易失性存储器、动态随机访问存储器/DRAM)的集成存储器控制器(integrated memory controller,IMC)704。处理器702可包括具有一个或多个处理器核(未示出)的核心区域。处理器702还可耦合到输入/输出(I/O)模块 708,I/O模块708与网络接口电路710(例如,网络控制器、网络接口卡 /NIC)和大容量存储装置712(非易失性存储器/NVM、硬盘驱动器 /HDD、光盘、固态盘/SSD、和闪存)通信。网络接口电路710可接收数据,例如要响应于用户做出的音频查询/请求而提供给用户的数据,其中系统存储器706和/或大容量存储装置712可以是存储指令714的存储器设备,指令714当被处理器702执行时使得系统700执行已经论述过的方法 600(图6)的一个或多个方面。从而,对指令714的执行可使得系统700 通过语音启用设备的超声攻击检测器接收来自一个或多个麦克风的音频流和来自关键字检测器的指出检测到的关键字在音频流内的位置的分段信号,通过超声攻击检测器对音频流的分段部分进行预处理以获得幅值频谱图,其中音频流的分段部分包括关键字话语,并且通过超声攻击检测器运行使用幅值频谱图作为输入的神经网络分类器,该神经网络分类器把真实人类语音与由语音启用设备上的超声攻击造成的互调失真产物辨别开。处理器702和I/O模块708可作为片上系统(system on chip,SoC)被包含到共享晶粒716中。
图8示出了包括基板802(例如,硅、蓝宝石、砷化镓)和耦合到基板802的逻辑802(例如,晶体管阵列和其他集成电路/IC组件)的半导体封装装置800(例如,芯片)。可实现在可配置逻辑和/或固定功能逻辑硬件中的逻辑804一般可实现已经论述过的方法600(图6)的一个或多个方面。
图9根据一个实施例图示了处理器核900。处理器核900可以是任何类型的处理器的核,例如微处理器、嵌入式处理器、数字信号处理器 (DSP)、网络处理器或者其他执行代码的设备。虽然在图9中只图示了一个处理器核900,但处理元件可替换地包括多于一个图9中所示的处理器核900。处理器核900可以是单线程核,或者对于至少一个实施例,处理器核900可以是多线程的,因为其对于每个核可包括多于一个硬件线程情境(或者说“逻辑处理器”)。
图9还图示了耦合到处理器核900的存储器970。存储器970可以是本领域技术人员已知的或者以其他方式可获得的各种存储器(包括存储器层次体系的各种层)中的任何一者。存储器970可包括要被处理器核900 执行的一个或多个代码905指令,其中代码905可实现已经论述过的方法 300(图3)、方法400(图4)、方法500(图5)和方法600(图6)。处理器核900遵循由代码905指示的指令的程序序列。每个指令可进入前端部分910并且被一个或多个解码器920处理。解码器920可生成诸如具有预定格式的固定宽度微操作之类的微操作作为其输出,或者可生成其他指令、微指令或者反映原始代码指令的控制信号。图示的前端部分910还包括寄存器重命名逻辑925和调度逻辑930,它们一般分配资源并且对与转换指令相对应的操作排队以便执行。
处理器核900被示为包括具有一组执行单元955-1至955-N的执行逻辑950。一些实施例可包括专用于特定功能或功能集合的若干个执行单元。其他实施例可只包括一个执行单元或者可执行特定功能的一个执行单元。图示的执行逻辑950执行由代码指令指定的操作。
在代码指令所指定的操作执行完成之后,后端逻辑960让代码905的指令退出。在一个实施例中,处理器核900允许指令的乱序执行,但要求指令的按序退出。退出逻辑965可采取本领域技术人员已知的各种形式 (例如,重排序缓冲器之类的)。这样,处理器核900在代码905的执行期间至少就由解码器生成的输出、被寄存器重命名逻辑925利用的硬件寄存器和表格和被执行逻辑950修改的任何寄存器(未示出)而言被变换。
虽然在图9中没有图示,但处理元件可包括具有处理器核900的芯片上的其他元件。例如,处理元件可包括与处理器核900一起的存储器控制逻辑。处理元件可包括I/O控制逻辑和/或可包括与存储器控制逻辑集成的 I/O控制逻辑。处理元件也可包括一个或多个缓存。
现有参考图10,其中示出了根据实施例的计算系统100的框图。图 10中所示的是多处理器系统1000,其包括第一处理元件1070和第二处理元件1080。虽然示出了两个处理元件1070和1080,但要理解系统1000 的实施例也可包括仅一个这种处理元件。
系统1000被示为点到点互连系统,其中第一处理元件1070和第二处理元件1080经由点到点互连1050耦合。应当理解,图10中所示的任何或所有互连可实现为多点分支总线,而不是点到点互连。
如图10中所示,处理元件1070和1080的每一者可以是多核处理器,包括第一和第二处理器核心(即,处理器核心1074a和1074b和处理器核心1084a和1084b)。这种核心1074a、1074b、1084a、1084b可被配置为以与上文联系图9所述类似的方式来执行指令代码。
每个处理元件1070、1080可包括至少一个共享缓存1096a、1096b。共享缓存1096a、1096b可存储被处理器的一个或多个引擎利用的数据(例如,指令),例如分别是核心1074a、1074b和1084a、1084b。例如,共享缓存1096a、1096b可在本地缓存存储器1032、1034中所存储的数据,供处理器的引擎更快速访问。在一个或多个实施例中,共享缓存1096a、 1096b可包括一个或多个中间级别缓存,例如第2级(L2)、第3级 (L3)、第4级(4)或其他级别的缓存、最后一级缓存(last level cache,LLC),和/或这些的组合。
虽然示为只具有两个处理元件1070、1080,但要理解实施例的范围不限于此。在其他实施例中,一个或多个额外的处理元件可存在于给定的处理器中。或者,处理元件1070、1080中的一个或多个可以是除了处理器以外的元件,例如加速器或者现场可编程门阵列。例如,(一个或多个) 额外的处理元件可包括与第一处理器1070相同的(一个或多个)额外的处理器,与第一处理器1070异质或非对称的(一个或多个)额外的处理器,加速器(例如,图形加速器或者数字信号处理(DSP)单元),现场可编程门阵列,或者任何其他处理元件。在处理元件1070、1080之间,就包括体系结构特性、微体系结构特性、热特性、功率消耗特性等等在内的价值的度量的范围而言可以有多种差异。这些差异可实际上将其自身展现为处理元件1070、1080之间的非对称性和异质性。对于至少一个实施例,各种处理元件1070、1080可存在于相同的晶粒封装中。
第一处理元件1070还可包括存储器控制器逻辑(MC)1072和点到点 (P-P)接口1076和1078。类似地,第二处理元件1080可包括MC 1082 和P-P接口1086和1088。如图10中所示,MC 1072和1082将处理器耦合到各自的存储器,即存储器1032和存储器1034,存储器1032和存储器 1034可以是在本地附接到各个处理器的主存储器的一部分。虽然MC 1072和1082被示为集成到处理元件1070、1080中,但对于替换实施例,MC 逻辑可以是在处理元件1070、1080之外的分立逻辑,而不是集成在其中。
第一处理元件1070和第二处理元件1080可分别经由P-P互连1076、 1086耦合到I/O子系统1090。如图10中所示,I/O子系统1090包括P-P 接口1094和1098。此外,I/O子系统1090包括接口1092来将I/O子系统 1090与高性能图形引擎1038耦合。在一个实施例中,总线1049可用于将图形引擎1038耦合到I/O子系统1090。可替换地,点到点互连可耦合这些引擎。
进而,I/O子系统1090可经由接口1096耦合到第一总线1016。在一个实施例中,第一总线1016可以是外围引擎互连(Peripheral Engine Interconnect,PCI)总线,或者诸如快速PCI总线或另一种第三代I/O互连总线之类的总线,虽然实施例的范围不限于此。
如图10中所示,各种I/O设备1014(例如,生物计量扫描仪、扬声器、相机、传感器)可耦合到第一总线1016,以及可将第一总线1016耦合到第二总线1020的总线桥1018。在一个实施例中,第二总线1020可以是低引脚数(low pin count,LPC)总线。各种设备可耦合到第二总线 1020,例如包括键盘/鼠标1012、(一个或多个)通信设备1026、和数据存储单元1019,例如盘驱动器或者其他大容量存储设备,它们在一个实施例中可包括代码1030。图示的代码1030可实现已经论述过的方法300 (图3)、方法400(图4)、方法500(图5)和方法600(图6),并且可与已经论述过的代码905(图9)类似。另外,音频I/O 1024可耦合到第二总线1020并且电池1010可向计算系统1000供应电力。
注意到设想了其他实施例。例如,取代图10的点到点体系结构,系统可实现多点分支总线或者另外的这种通信拓扑结构。另外,可替换地利用比图10中所示更多或更少的集成芯片来划分图10的元件。
附加注释和示例
示例1可包括一种用于语音启用设备的增强机构,包括一个或多个麦克风,用来接收音频流;耦合到所述一个或多个麦克风的关键字检测器,用来检测用于触发语音启用设备的关键字的话语,其中所述关键字检测器提供指出检测到的关键字在所述音频流内的位置的分段信号;以及耦合到所述一个或多个麦克风和所述关键字检测器的超声攻击检测器,用来对所述音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图并且利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
示例2可包括如示例1所述的增强机构,其中所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取所述频谱图的特征,学习与所述频谱图相关联的帧之间的模式和时间依从性,并且从所述频谱图捕捉高阶依从性和高水平的抽象。
示例3可包括如示例1所述的增强机构,其中神经网络分类器输出层包括两个单元,第一单元发射海豚攻击信号并且第二单元发射真实人类基带信号。
示例4可包括如示例1所述的增强机构,其中所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以学习所述频谱图的复杂依从性。
示例5可包括如示例1所述的增强机构,其中所述超声攻击检测器对所述神经网络分类器进行打分,计算攻击得分,并且将所述攻击得分与预定阈值相比较,其中当所述攻击得分低于所述预定阈值时,所述超声攻击检测器将检测到的关键字作为超声攻击而拒绝以防止攻击者在所述语音启用设备上执行恶意命令,并且其中当所述攻击得分等于或高于所述预定阈值时,所述超声攻击检测器将检测到的关键字作为真实人类语音而输出来触发所述语音启用设备。
示例6可包括一种增强语音启用设备的方法,包括由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,该分段信号指出检测到的关键字在所述音频流内的位置;由所述超声攻击检测器对所述音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图;并且由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
示例7可包括如示例6所述的方法,其中所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
示例8可包括如示例6所述的方法,其中所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
示例9可包括如示例6所述的方法,其中所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
示例10可包括如示例6所述的方法,其中预处理包括以下各项中的一项或多项:从所述音频流的分段部分消除非零直流(DC)偏置电平,提升所述音频流的分段部分的信号电平,对所述音频流的分段部分进行波束成形,以及对所述音频流的分段部分执行声学回波消除。
示例11可包括如示例6所述的方法,其中所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
示例12可包括如示例11所述的方法,其中所述神经网络分类器包括非线性激活函数,该非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
示例13可包括如示例6所述的方法,还包括对所述神经网络分类器进行打分;计算攻击得分;并且将所述攻击得分与预定阈值相比较,其中当所述攻击得分低于所述预定阈值时,所述方法还包括将检测到的关键字辨识为超声攻击;并且拒绝检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令。
示例14可包括如示例13所述的方法,其中如果所述攻击得分等于或好于所述预定阈值,则所述方法还包括将检测到的关键字辨识为真实人类语音;并且将检测到的关键字作为检测到关键字触发而输出以触发来自所述语音启用设备的响应。
示例15可包括如示例6所述的方法,其中海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t)进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已发生攻击之后的所述被攻击设备的模型。
示例16可包括至少一个计算机可读介质,包括一组指令,所述指令当被一个或多个计算设备执行时使得所述一个或多个计算设备:由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,该分段信号指出检测到的关键字在所述音频流内的位置;由所述超声攻击检测器对所述音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图;并且由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
示例17可包括如示例16所述的至少一个计算机可读介质,其中所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
示例18可包括如示例16所述的至少一个计算机可读介质,其中所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
示例19可包括如示例16所述的至少一个计算机可读介质,其中所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
示例20可包括如示例16所述的至少一个计算机可读介质,其中用于预处理的指令包括用于以下各项中的一项或多项的指令:从所述音频流的分段部分消除非零直流(DC)偏置电平,提升所述音频流的分段部分的信号电平,对所述音频流的分段部分进行波束成形,以及对所述音频流的分段部分执行声学回波消除。
示例21可包括如示例16所述的至少一个计算机可读介质,其中所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
示例22可包括如示例21所述的至少一个计算机可读介质,其中所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
示例23可包括如示例16所述的至少一个计算机可读介质,还包括一组指令,所述指令当被一个或多个计算设备执行时使得所述一个或多个计算设备:对所述神经网络分类器进行打分;计算攻击得分;并且将所述攻击得分与预定阈值相比较,其中当所述攻击得分低于所述预定阈值时,所述指令当被所述一个或多个计算设备执行时还使得所述一个或多个计算设备将检测到的关键字辨识为超声攻击;并且拒绝检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令。
示例24可包括如示例23所述的至少一个计算机可读介质,其中如果所述攻击得分等于或好于所述预定阈值,则所述指令当被所述一个或多个计算设备执行时还使得所述一个或多个计算设备在所述攻击得分等于或好于所述预定阈值时将检测到的关键字辨识为真实人类语音;并且将检测到的关键字作为检测到关键字触发而输出以触发来自所述语音启用设备的响应。
示例25可包括如示例16所述的至少一个计算机可读介质,其中海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t) 进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已攻击之后的所述被攻击设备的模型。
示例26可包括一种装置,其包括一个或多个基板;以及耦合到所述一个或多个基板的逻辑,其中所述逻辑包括可配置逻辑或固定功能硬件逻辑中的一个或多个,所述逻辑耦合到所述一个或多个基板,用来由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,该分段信号指出检测到的关键字在所述音频流内的位置的;由所述超声攻击检测器对所述音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图;并且由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
示例27可包括如示例26所述的装置,其中所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
示例28可包括如示例26所述的装置,其中所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
示例29可包括如示例26所述的装置,其中所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
示例30可包括如示例16所述的装置,其中耦合到所述一个或多个基板以进行预处理的逻辑包括进行以下操作的逻辑:从所述音频流的分段部分消除非零直流(DC)偏置电平,提升所述音频流的分段部分的信号电平,对所述音频流的分段部分进行波束成形,并且对所述音频流的分段部分执行声学回波消除。
示例31可包括如示例26所述的装置,其中所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
示例32可包括如示例31所述的装置,其中所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
示例33可包括如示例26所述的装置,还包括耦合到所述一个或多个基板以进行以下操作的逻辑:对所述神经网络分类器进行打分;计算攻击得分;并且将所述攻击得分与预定阈值相比较,其中当所述攻击得分低于所述预定阈值时,耦合到所述一个或多个基板的所述逻辑将检测到的关键字辨识为超声攻击;并且拒绝检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令。
示例34可包括如示例33所述的装置,其中如果所述攻击得分等于或好于所述预定阈值,则所述装置还包括耦合到所述一个或多个基板以进行以下操作的逻辑:在所述攻击得分等于或好于所述预定阈值时将检测到的关键字辨识为真实人类语音;并且将检测到的关键字作为检测到关键字触发而输出以触发来自所述语音启用设备的响应。
示例35可包括如示例26所述的装置,其中海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t)进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已发生攻击之后的所述被攻击设备的模型。
示例36可包括一种使能语音启用设备的安全操作的设备,包括:用于由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号的装置,该分段信号指出检测到的关键字在所述音频流内的位置;用于由所述超声攻击检测器对所述音频流的包括检测到的关键字的分段部分进行预处理以获得频谱图的装置;以及用于由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器的装置,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
示例37可包括如示例36所述的设备,其中所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
示例38可包括如示例36所述的设备,其中所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
示例39可包括如示例36所述的设备,其中所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
示例40可包括如示例36所述的设备,其中用于预处理的装置包括以下各项中的一项或多项:用于从所述音频流的分段部分消除非零直流 (DC)偏置电平的装置,用于提升所述音频流的分段部分的信号电平的装置,用于对所述音频流的分段部分进行波束成形的装置,以及用于对所述音频流的分段部分执行声学回波消除的装置。
示例41可包括如示例36所述的设备,其中所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
示例42可包括如示例41所述的设备,其中所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
示例43可包括如示例36所述的设备,还包括用于对所述神经网络分类器进行打分的装置;用于计算攻击得分的装置;以及用于将所述攻击得分与预定阈值相比较的装置,其中当所述攻击得分低于所述预定阈值时,所述装置还包括:用于将检测到的关键字辨识为超声攻击的装置;以及用于拒绝检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令的装置。
示例44可包括如示例43所述的设备,其中如果所述攻击得分等于或好于所述预定阈值,则所述装置还包括用于将检测到的关键字辨识为真实人类语音的装置;以及用于将检测到的关键字作为检测到关键字触发而输出以触发来自所述语音启用设备的响应的装置。
示例45可包括如示例36所述的设备,其中海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t)进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已发生攻击之后的所述被攻击设备的模型。
实施例适用于与所有类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片集组件、可编程逻辑阵列(programmable logicarray,PLA)、存储器芯片、网络芯片,片上系统(systems on chip,SoC)、SSD/NAND控制器ASIC,等等。此外,在一些附图中,用线条来表示信号导线。某些可能是不同的,以指示更多的构成信号路径;具有数字标注,以指示构成信号路径的数目;和/或在一端或多端具有箭头,以指示主要信息流方向。然而,这不应当以限制方式来解释。更确切地说,可结合一个或多个示范性实施例来使用这种添加的细节以促进对电路的更容易理解。任何表示的信号线,无论是否具有附加信息,都可实际上包括一个或多个信号,这一个或多个信号可在多个方向上行进并且可利用任何适当类型的信号方案来实现,例如利用差动对实现的数字或模拟线路、光纤线路和/或单端线路。
可能已经给出了示例大小/型号/值/范围,但是实施例不限于此。随着制造技术(例如,光刻术)日益成熟,预期能够制造具有更小大小的器件。此外,为了图示和论述的简单,并且为了不模糊实施例的某些方面,在附图内可以示出或不示出到IC芯片和其他组件的公知电源/地连接。另外,可以以框图形式示出布置以避免模糊实施例,并且同时也考虑到了如下事实:关于这种框图布置的实现的具体细节是高度取决于在其内实现实施例的计算系统的,即,这种具体细节应当完全在本领域技术人员的视界内。在阐述具体细节(例如,电路)以便描述示例实施例的情况下,本领域技术人员应当清楚,没有这些具体细节,或者利用这些具体细节的变体,也可实现实施例。从而说明书应当被认为是例示性的,而不是限制性的。
术语“耦合”在本文中可用于指所考虑的组件之间的任何类型的关系,无论是直接的还是间接的,并且可应用到电的、机械的、液体的、光的、电磁的、机电的或其他连接。此外,除非另外指出,否则术语“第一”、“第二”等等在本文中可只用于促进论述,而不带有特定的时间或先后意义。
就在本申请中和权利要求中使用的而言,由术语“……中的一个或多个”联接的项目的列表可意指列出的术语的任何组合。例如,短语“A、B 或C中的一个或多个”可意指A;B;C;A和B;A和C;B和C;或者 A、B和C。
本领域技术人员从前述描述将会明白,可按多种形式来实现实施例的宽广技术。因此,虽然已结合其特定示例描述了实施例,但实施例的真实范围不应当限于此,因为本领域技术人员在研习了附图、说明书和所附权利要求后将清楚其他修改。

Claims (25)

1.一种使能语音启用设备的安全操作的设备,包括:
用于由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号的装置,所述分段信号指出检测到的关键字在所述音频流内的位置;
用于由所述超声攻击检测器对所述音频流的包括所述检测到的关键字的分段部分进行预处理以获得频谱图的装置;以及
用于由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器的装置,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
2.如权利要求1所述的设备,其中,所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
3.如权利要求1所述的设备,其中,所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
4.如权利要求1所述的设备,其中,所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
5.如权利要求1所述的设备,其中,用于预处理的装置包括以下各项中的一项或多项:用于从所述音频流的所述分段部分消除非零直流DC偏置电平的装置,用于提升所述音频流的所述分段部分的信号电平的装置,用于对所述音频流的所述分段部分进行波束成形的装置,以及用于对所述音频流的所述分段部分执行声学回波消除的装置。
6.如权利要求1所述的设备,其中,所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
7.如权利要求6所述的设备,其中,所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
8.如权利要求1所述的设备,还包括:
用于对所述神经网络分类器进行打分的装置;
用于计算攻击得分的装置;以及
用于将所述攻击得分与预定阈值相比较的装置,其中,当所述攻击得分低于所述预定阈值时,所述设备还包括:
用于将所述检测到的关键字辨识为超声攻击的装置;以及
用于拒绝所述检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令的装置。
9.如权利要求8所述的设备,其中,如果所述攻击得分等于或好于所述预定阈值,则所述设备还包括:
用于将所述检测到的关键字辨识为真实人类语音的装置;以及
用于将所述检测到的关键字作为检测到关键字触发而输出以触发来自所述语音启用设备的响应的装置。
10.如权利要求1所述的设备,其中,海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t)进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已发生攻击之后的所述被攻击设备的模型。
11.一种增强语音启用设备的方法,包括:
由语音启用设备的超声攻击检测器从一个或多个麦克风接收音频流并且从关键字检测器接收分段信号,所述分段信号指出检测到的关键字在所述音频流内的位置;
由所述超声攻击检测器对所述音频流的包括所述检测到的关键字的分段部分进行预处理以获得频谱图;并且
由所述超声攻击检测器利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
12.如权利要求11所述的方法,其中,所述关键字检测器利用机器学习和自动语音识别技术来识别用于激活或触发所述语音启用设备做出响应的关键字并且将所述分段信号输出到所述超声攻击检测器。
13.如权利要求11所述的方法,其中,所述神经网络分类器包括两个输出类别,第一输出类别发射海豚攻击信号并且第二输出类别发射真实人类语音信号。
14.如权利要求11所述的方法,其中,所述神经网络分类器被训练为辨识由超声攻击造成的互调失真和真实人类语音。
15.如权利要求11所述的方法,其中,预处理包括以下各项中的一项或多项:从所述音频流的所述分段部分消除非零直流DC偏置电平,提升所述音频流的所述分段部分的信号电平,对所述音频流的所述分段部分进行波束成形,以及对所述音频流的所述分段部分执行声学回波消除。
16.如权利要求11所述的方法,其中,所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取特征、学习模式、学习帧之间的时间依从性、并且从所述频谱图捕捉高阶依从性和高水平的抽象。
17.如权利要求16所述的方法,其中,所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以从所述频谱图学习复杂依从性。
18.如权利要求11所述的方法,还包括:
对所述神经网络分类器进行打分;
计算攻击得分;并且
将所述攻击得分与预定阈值相比较,其中,当所述攻击得分低于所述预定阈值时,所述方法还包括:
将所述检测到的关键字辨识为超声攻击;并且
拒绝所述检测到的关键字以防止攻击者在所述语音启用设备上执行恶意命令。
19.如权利要求18所述的方法,其中,如果所述攻击得分等于或好于所述预定阈值,则所述方法还包括:
将所述检测到的关键字辨识为真实人类语音;并且
将所述检测到的关键字作为检测到关键字触发而输出,以触发来自所述语音启用设备的响应。
20.如权利要求11所述的方法,其中,海豚攻击模拟被用于生成数据来训练所述神经网络分类器,其中所述海豚攻击模拟对输入语音基带信号x(t)建模,其中通过对所述输入语音基带信号x(t)进行上采样并且将该信号调制到超声频带和相应的载波频率中以无线地发送到被攻击设备来将所述输入语音基带信号x(t)建模为超声攻击信号y(t),其中在所述被攻击设备处,通过对y(t)进行滤波和下采样以获得x’(t)来将所述信号y(t)建模为包含互调失真,其中x’(t)表示在已发生攻击之后的所述被攻击设备的模型。
21.一种用于语音启用设备的增强机构,包括:
一个或多个麦克风,用来接收音频流;
耦合到所述一个或多个麦克风的关键字检测器,用来检测用于触发语音启用设备的关键字的话语,其中所述关键字检测器提供指出检测到的关键字在所述音频流内的位置的分段信号;以及
耦合到所述一个或多个麦克风和所述关键字检测器的超声攻击检测器,用来对所述音频流的包括所述检测到的关键字的分段部分进行预处理以获得频谱图并且利用所述频谱图作为输入来运行神经网络分类器,所述神经网络分类器把真实人类语音与由所述语音启用设备上的超声攻击造成的互调失真产物辨别开。
22.如权利要求21所述的增强机构,其中,所述神经网络分类器包括递归拓扑结构,该递归拓扑结构具有递归层,用来提取所述频谱图的特征,学习与所述频谱图相关联的帧之间的模式和时间依从性,并且从所述频谱图捕捉高阶依从性和高水平的抽象。
23.如权利要求21所述的增强机构,其中,神经网络分类器输出层包括两个单元,第一单元发射海豚攻击信号并且第二单元发射真实人类基带信号。
24.如权利要求21所述的增强机构,其中,所述神经网络分类器包括非线性激活函数,所述非线性激活函数被策略性地放置在所述递归层内以学习所述频谱图的复杂依从性。
25.如权利要求21所述的增强机构,其中,所述超声攻击检测器对所述神经网络分类器进行打分,计算攻击得分,并且将所述攻击得分与预定阈值相比较,其中当所述攻击得分低于所述预定阈值时,所述超声攻击检测器将所述检测到的关键字作为超声攻击而拒绝以防止攻击者在所述语音启用设备上执行恶意命令,并且其中当所述攻击得分等于或高于所述预定阈值时,所述超声攻击检测器将所述检测到的关键字作为真实人类语音而输出来触发所述语音启用设备。
CN201911180255.XA 2018-12-28 2019-11-27 采用深度学习的超声攻击检测 Pending CN111402903A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/235,903 US10957341B2 (en) 2018-12-28 2018-12-28 Ultrasonic attack detection employing deep learning
US16/235,903 2018-12-28

Publications (1)

Publication Number Publication Date
CN111402903A true CN111402903A (zh) 2020-07-10

Family

ID=67392303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911180255.XA Pending CN111402903A (zh) 2018-12-28 2019-11-27 采用深度学习的超声攻击检测

Country Status (3)

Country Link
US (1) US10957341B2 (zh)
CN (1) CN111402903A (zh)
DE (1) DE102019218259A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611329A (zh) * 2021-07-02 2021-11-05 北京三快在线科技有限公司 一种语音异常检测的方法及装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102419597B1 (ko) * 2017-09-29 2022-07-11 삼성전자주식회사 입력 디바이스와 전자 장치, 이를 포함하는 시스템 및 그 제어 방법
US11457033B2 (en) * 2019-09-11 2022-09-27 Artificial Intelligence Foundation, Inc. Rapid model retraining for a new attack vector
DE112020005717T5 (de) * 2019-11-21 2022-09-08 Cirrus Logic International Semiconductor Ltd. Erkennung von live-sprache
CN111027060B (zh) * 2019-12-17 2022-04-29 电子科技大学 基于知识蒸馏的神经网络黑盒攻击型防御方法
US12119022B2 (en) * 2020-01-21 2024-10-15 Rishi Amit Sinha Cognitive assistant for real-time emotion detection from human speech
CN115299075B (zh) 2020-03-20 2023-08-18 杜比国际公司 扬声器的低音增强
US11422085B2 (en) * 2020-05-18 2022-08-23 At&T Intellectual Property I, L.P. Signal detection system for improved microphone-controllable device security
US12020697B2 (en) * 2020-07-15 2024-06-25 Raytheon Applied Signal Technology, Inc. Systems and methods for fast filtering of audio keyword search
US11961535B2 (en) 2020-07-28 2024-04-16 Intel Corporation Detection of laser-based audio injection attacks using channel cross correlation
US20230274758A1 (en) * 2020-08-03 2023-08-31 Sony Group Corporation Method and electronic device
CN112581975B (zh) * 2020-12-11 2024-05-17 中国科学技术大学 基于信号混叠和双声道相关性的超声波语音指令防御方法
CN112908344B (zh) * 2021-01-22 2023-08-08 广州大学 一种鸟鸣声智能识别方法、装置、设备和介质
US12067824B2 (en) * 2022-04-06 2024-08-20 Johnson Controls Tyco IP Holdings LLP Method and system for indoor geolocation and access control

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101526506B1 (ko) * 2015-03-26 2015-06-09 김상환 청각적 정보 보안시스템
IL270564B (en) * 2017-05-22 2022-07-01 Magic Leap Inc Pairing with a companion device
GB201801663D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
US10672416B2 (en) * 2017-10-20 2020-06-02 Board Of Trustees Of The University Of Illinois Causing microphones to detect inaudible sounds and defense against inaudible attacks
US10565978B2 (en) * 2018-08-31 2020-02-18 Intel Corporation Ultrasonic attack prevention for speech enabled devices
US10971144B2 (en) * 2018-09-06 2021-04-06 Amazon Technologies, Inc. Communicating context to a device using an imperceptible audio identifier
TWI682770B (zh) * 2018-10-16 2020-01-21 宏碁股份有限公司 診斷輔助方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611329A (zh) * 2021-07-02 2021-11-05 北京三快在线科技有限公司 一种语音异常检测的方法及装置
CN113611329B (zh) * 2021-07-02 2023-10-24 北京三快在线科技有限公司 一种语音异常检测的方法及装置

Also Published As

Publication number Publication date
US20190237096A1 (en) 2019-08-01
US10957341B2 (en) 2021-03-23
DE102019218259A1 (de) 2020-07-02

Similar Documents

Publication Publication Date Title
CN111402903A (zh) 采用深度学习的超声攻击检测
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
Chen et al. Long short-term memory for speaker generalization in supervised speech separation
TWI802602B (zh) 用於語音喚醒(wov)關鍵詞註冊的處理器實現的方法和系統
Alegre et al. Spoofing countermeasures to protect automatic speaker verification from voice conversion
Janicki et al. An assessment of automatic speaker verification vulnerabilities to replay spoofing attacks
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
CN110634499A (zh) 用深特征损失训练的用于语音去噪的神经网络
US8635181B2 (en) System and method for tagging signals of interest in time variant data
CN105190751B (zh) 键盘输入检测和抑制
US20200243067A1 (en) Environment classifier for detection of laser-based audio injection attacks
WO2021000498A1 (zh) 复合语音识别方法、装置、设备及计算机可读存储介质
WO2023283823A1 (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN111465980A (zh) 用于时延降低的自动语音辨识的得分趋势分析
CN110459207A (zh) 唤醒语音关键短语分割
KR20210036692A (ko) 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치
CN111179909B (zh) 一种多麦远场语音唤醒方法及系统
Chakravarty et al. Data augmentation and hybrid feature amalgamation to detect audio deep fake attacks
Prashanth et al. A review of deep learning techniques in audio event recognition (AER) applications
US20210398535A1 (en) Method and system of multiple task audio analysis with shared audio processing operations
CN114566156A (zh) 一种关键词的语音识别方法及装置
Bořil et al. GAN-based augmentation for gender classification from speech spectrograms
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
Jha et al. Analysis of Human Voice for Speaker Recognition: Concepts and Advancement
Dennis et al. Generalized Hough transform for speech pattern classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination