CN115700877A - 音频特征检测技术 - Google Patents

音频特征检测技术 Download PDF

Info

Publication number
CN115700877A
CN115700877A CN202210820101.8A CN202210820101A CN115700877A CN 115700877 A CN115700877 A CN 115700877A CN 202210820101 A CN202210820101 A CN 202210820101A CN 115700877 A CN115700877 A CN 115700877A
Authority
CN
China
Prior art keywords
audio
user
audio sample
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210820101.8A
Other languages
English (en)
Inventor
H.穆拉利达拉
G.乔斯
J.米斯特里
R.K.萨胡
S.克鲁西文蒂苏布拉曼耶斯瓦拉萨伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN115700877A publication Critical patent/CN115700877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

训练用于音频特征检测模型的用户特定扰动生成器包括:接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征;接收所述用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性;以及对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练是基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本。利用所述用户特定扰动来扰动所述用户的音频样本可致使音频特征检测模型辨识包括所述音频特征的音频样本中的所述音频特征,和/或制止辨识不包括所述音频特征的音频样本中的所述音频特征。

Description

音频特征检测技术
技术领域
各种实施方案总体上涉及计算装置,并且更具体地,涉及音频特征检测。
背景技术
虚拟助理技术,通常还被称为个人助理技术或智能个人助理技术,是不断发展的技术领域。个人助理代理与对应的个人助理服务介接,以便为用户执行各种任务或服务。用户可经由诸如智能手机、智能扬声器或车载信息娱乐系统的装置与个人助理代理进行交互。个人助理代理可经由对应的个人助理服务连接到其他装置和/或各种在线资源(例如,搜索引擎、数据库、电子商务站点、个人日历等)以执行各种任务和服务。可执行的任务的示例包括操作装置、执行搜索、进行购买、提供推荐和设置日历预约中的一者或多者。个人助理技术的示例包括Amazon.com,Inc.的
Figure BDA0003742256380000011
Google LLC的
Figure BDA0003742256380000014
ASSISTANT、Apple Inc.的
Figure BDA0003742256380000012
和Microsoft Corporation的
Figure BDA0003742256380000013
实施特定个人助理代理的装置可被配置为通过监测音频输入与用户介接。在一些情况下,装置可被配置为监测来自一个或多个麦克风的输入,以检测用户生成的音频特征的实例,其中音频触发的实例指示用户与装置交互的意图。在一些此类情况下,音频触发可以是唤醒词,例如由制造商指派或由用户选择的装置的名称,或者指示引导到装置的查询或命令的词语或短语。在登记阶段期间,装置可使用用户的一个或多个肯定音频样本来训练音频触发检测模型,诸如用户重复说出唤醒词,所述一个或多个肯定音频样本中的每一者都包括音频特征。在检测阶段期间,装置可利用音频特征检测模型来处理用户的音频样本,以辨识音频样本中的音频特征。基于所述辨识,装置可处理音频样本,以在音频特征之后的音频中检测由用户作为与装置的交互的一部分而生成的表达的实例,诸如命令、请求、查询。装置可进一步处理音频样本以理解所述表达并基于所述表达而生成信息或采取动作,诸如生成向用户提供信息或向用户指示装置对所述表达的响应的完成、成功、失败的音频输出。
此类装置的一个缺点在于,不同的用户可能例如由于口音、方言、诸如语速的说话方式等而以不同的方式说出表达。语音差异可能会导致智能个人助理代理界面无法辨识用户的音频样本中的音频特征(,漏报)和/或将其他词语辨识为音频特征(,误报)。例如,否定音频样本不包括音频特征,而是包括当以特定口音或方言说出时或者当用户以特定说话方式(诸如语速)说出时在声学上与音频特征相似的词语或短语。在此类情况下,装置可接收不包括音频特征而是包括在声学上相似的表达的用户的否定音频样本,并且可达成所述音频样本包括音频特征的实例的误报确定。基于误报确定,装置可接收用户的额外表达的音频输入并且对所述音频输入进一步进行采样,并且可生成音频响应,这可使用户感到惊讶或沮丧。
如前文所说明,需要更有效的技术来减少在音频特征检测期间的漏报和误报。
发明内容
一个实施方案阐述了一种训练用于音频特征检测模型的用户特定扰动生成器的计算机实施的方法。所述方法包括接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征。所述方法还包括接收用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性。所述方法还包括对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本。基于所述方法,利用用户特定扰动来扰动用户的音频样本致使音频特征检测模型辨识包括音频特征的用户的音频样本中的所述音频特征,并且制止辨识不包括所述音频特征的用户的音频样本中的音频特征。
其他实施方案尤其提供一种被配置为实施上文阐述的方法的系统和非暂时性计算机可读介质。
另一实施方案阐述了一种确定用户与装置之间的交互的系统。所述系统包括存储指令的存储器。所述系统包括一个或多个处理器,所述一个或多个处理器执行指令以执行包括以下各项的步骤:从用户接收音频样本;接收与用户相关联的用户特定扰动;以及基于所述音频样本和所述用户特定扰动而确定所述音频样本是否包括音频特征。
其他实施方案尤其提供一种被配置为实施上文阐述的计算机实施的和非暂时性计算机可读介质。
所公开的技术相对于现有技术的至少一个技术优势在于,利用所公开的技术,诸如智能个人助理的装置展现出辨识用户的音频样本中的音频特征的降低的漏报率和/或由于包括音频特征的用户的一个或多个肯定音频样本与和用户的一个或多个肯定音频样本中的至少一者共享声学相似性的用户的否定音频样本之间的声学相似性而辨识不包括音频特征的用户的否定音频样本中的音频特征的降低的误报率。降低的漏报率可提高装置对用户的响应性。降低的误报率可节省电池寿命或装置的不必要的处理。此外,由于在用户未期望时装置收听用户和对用户作出响应的降低的比率,用户与智能个人助理之间的交互得以改善,从而产生更高置信度的用户体验。这些技术优点提供了优于现有技术方法的一个或多个技术改进。
附图说明
因此可通过参考各种实施方案而具有可详细理解各种实施方案的上述特征的方式、以上简要概括的发明性概念的更特定的描述,所述实施方案中的一些实施方案绘示于附图中。然而,应注意,附图仅绘示发明性概念的典型实施方案且因此将不被视为以任何方式限制范围,因为存在其他同等有效的实施方案。
图1绘示了被配置为实施各种实施方案的一个或多个方面的计算装置;
图2A是根据各种实施方案的一个或多个方面的对抗性地训练用户特定扰动生成器模型以生成用户特定音频样本扰动的第一示例的框图;
图2B是根据各种实施方案的一个或多个方面的处理已经被由用户特定扰动生成器模型生成的用户特定音频样本扰动扰动的音频样本的表示的音频特征检测模型的第一示例的框图;
图3A是根据各种实施方案的一个或多个方面的对抗性地训练用户特定扰动生成器模型以生成用户特定内部表示扰动的第二示例的框图;
图3B是根据各种实施方案的一个或多个方面的处理已经被由用户特定扰动生成器模型生成的用户特定内部表示扰动扰动的音频样本的内部表示的音频特征检测模型的第二示例的框图;
图4绘示了根据各种实施方案的一个或多个方面的用于训练用户特定扰动生成器的方法步骤的流程图;
图5绘示了根据各种实施方案的一个或多个方面的用于确定用户与装置之间的交互的方法步骤的流程图;
图6绘示了根据各种实施方案的一个或多个额外方面的用于训练用户特定扰动生成器的方法集的流程图;以及
图7绘示了根据各种实施方案的一个或多个额外方面的用于确定用户与装置之间的交互的方法步骤的流程图。
具体实施方式
在以下描述中,陈述众多具体细节以提供对各种实施方案的更透彻的理解。然而,本领域技术人员将明白,可在没有这些特定细节中的一者或多者的情况下实践发明性概念。
图1绘示了被配置为实施各种实施方案的一个或多个方面的计算装置100。计算装置100可以是桌上型计算机、膝上型计算机、智能手机、个人数字助理(PDA)、平板计算机、智能扬声器或适合于实践各种实施方案的一个或多个方面的任何其他类型的计算装置。在一些实施方案中,计算装置100是智能个人助理。应注意,本文描述的计算装置是说明性的,并且任何其他技术上可行的配置落在各种实施方案的范围内。
如图所示,计算装置100包括(不限于)互连件(总线)112,所述互连件连接一个或多个处理器102、耦合到一个或多个输入/输出(I/O)装置108的输入/输出(I/O)装置接口104、存储器116、存储装置114和网络接口106。处理器102可以是任何合适的处理器,诸如中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)和/或任何其他类型的处理单元或不同处理单元的组合,诸如被配置为与GPU联合操作的CPU。一般来说,处理器102可以是能够处理数据和/或执行软件应用程序的任何技术上可行的硬件单元。
I/O装置108可包括:能够提供输入的装置,诸如键盘、鼠标、触敏屏幕等;以及能够提供输出的装置,诸如显示装置。在一些实施方案中,I/O装置108包括音频扬声器132(和/或类似的音频输出装置,诸如耳机)、麦克风134、显示装置136以及一个或多个物理控件138(例如,一个或多个物理按钮、一个或多个触摸屏按钮、一个或多个物理旋钮等)。另外,I/O装置108可包括能够接收输入以及提供输出两者的装置,诸如触摸屏、通用串行总线(USB)端口等。I/O装置108可被配置为从计算装置100的用户接收各种类型的输入(例如,经由麦克风134接收音频输入,诸如话音输入)。I/O装置108还可向计算装置100的终端用户提供各种类型的输出,诸如在显示装置136上显示的数字图像或数字视频或文本和/或经由音频扬声器132输出音频。在一些实施方案中,I/O装置108中的一者或多者被配置为将第一计算装置100耦合到第二装置(未示出)。例如,I/O装置108可包括去往/来自另一个装置(例如,智能手机)的无线和/或有线接口(例如,蓝牙接口、通用串行总线接口)。
存储装置114可包括用于应用程序和数据的非易失性存储装置,并且可包括固定或可移除磁盘驱动器、闪存存储器装置以及CD-ROM、DVD-ROM、蓝光、HD-DVD或其他磁性、光学或固态存储装置。此外,在一些实施方案中,一个或多个数据存储,诸如音频样本数据库、用于文本-语音转换的音素数据库以及用于话音辨识和/或语音-文本转换的训练数据,可存储在存储装置114中。
存储器116可包括随机存取存储器(RAM)模块、快闪存储器单元或任何其他类型的存储器单元或它们的组合。处理器102、输入/输出(I/O)装置接口104和网络接口106可被配置为从存储器116读取数据以及将数据写入所述存储器。存储器116包括可由处理器102执行的各种软件程序(例如,操作系统、一个或多个应用程序)以及与所述软件程序相关联的应用程序数据。
在一些实施方案中,计算装置100包括在计算网络环境101中,所述计算网络环境还包括网络110,所述网络可包括一个或多个远程装置140。网络110可以是允许在计算装置100与诸如网络服务器或另一连网计算装置或系统的外部实体或装置之间交换数据的任何技术上可行类型的通信网络。例如,网络110可包括广域网(WAN)、局域网(LAN)、无线网络(例如,WiFi网络)和/或互联网以及其他。计算装置100可经由网络接口106与网络110连接。在一些实施方案中,网络接口106是硬件、软件或者硬件与软件的组合,所述网络接口被配置为连接到网络110并且与所述网络介接。
在一些实施方案中,计算装置100可与提供远离计算装置100的一个或多个云计算系统(例如,服务器系统)的一个或多个远程装置140交互。计算装置100可接收来自用户的请求并且响应于来自用户的请求而执行一项或多项任务。可由计算装置100单独地或与一个或多个远程装置140合作执行的任务的示例包括(不限于):响应于用户查询而获得搜索结果或回答(例如,经由搜索引擎或数据库);访问一个或多个资源(未示出)以获得数据( ,获得电子邮件消息、获得日历事件、获得待办事项列表项目);在一个或多个资源处创建或修改数据(例如,撰写电子邮件消息、修改日历事件、删除待办事项列表项目);以及向装置发出指令以执行特定操作或执行特定功能(例如,指示智能恒温器调整加热设置点、指示扬声器播放歌曲)。
在一些实施方案中,计算装置100可包括使计算装置100能够与用户交互的音频处理应用程序142。例如,音频处理应用程序142可接收呈音频格式的请求(例如,请求的音频样本)并返回包括将要向用户输出的音频样本(和/或与音频样本相关联的数据)的响应。作为第一示例,用户可发出包括请求的话音输入。计算装置100可接收包括所述请求的音频样本。计算装置100然后可例如使用音频处理应用程序142的音频特征检测模型144处理所述请求,可训练所述音频特征检测模型以检测音频样本中的音频特征并返回包括音频输出(例如,话音输出、文本-语音输出)的对应响应。作为第二示例,用户可发出包括请求的话音输入,并且可通过语音-文本模块将所述话音输入转换为文本。计算装置100然后可处理文本请求并返回包括输出给用户的文本的响应。如先前论述,可接收请求和/或返回响应的一个此类音频处理应用程序142是智能个人助理。其他示例包括(例如)具有话音功能的媒体车辆界面;支持话音的媒体系统,诸如音频和/或视频呈现装置;具有话音功能的游戏控制台;具有话音功能的可穿戴装置等。
在一些场景中,装置可接收音频样本,诸如话音输入,其中装置可辨识一个或多个特征。例如,用户可说出唤醒词以诸如在用户引导到装置的请求或命令的词语、短语或表达开始时将装置从待机模式激活。所述装置可监测音频输入(诸如由一个或多个麦克风接收)以辨识音频样本的音频特征,并且可基于对音频特征以及任选地音频样本的其他特征(诸如唤醒词和在所述唤醒词之前或之后的一个或多个词语)的检测而执行进一步的处理。所述装置可使用多种技术来执行此类检测,诸如(例如)使用频率分析来比较音频输入的音频样本的波形和待检测的音频特征的波形,和/或使用音素分析来检测音频样本中的音素序列,并且将所述序列与待检测的音频特征的音素序列进行比较。如果此类比较指示音频样本和待检测的音频特征是相似的(例如,在相似性阈值内),则装置可确定音频样本包括所述音频特征。此外,装置可响应于对音频特征的检测,诸如处理用户的自然语言表达以确定查询并且生成和输送对所述查询的响应。
更具体地,装置可包括音频特征检测模型144,所述音频特征检测模型已经被训练成基于一个或多个肯定音频样本而检测音频特征,所述一个或多个肯定音频样本中的每一者都包括音频特征。例如,可使用一组一个或多个肯定音频样本来训练机器学习模型,诸如递归神经网络(RNN),其中个人(诸如典型用户)说出唤醒词。一个或多个标记可识别每个肯定音频样本内的音频特征的实例(例如,在其中出现音频特征的每个肯定音频样本的一部分的开始、结束、长度和/或持续时间)。可训练机器学习模型以基于一个或多个肯定音频样本和标记而生成指示在所述一个或多个肯定音频样本中的每一者中检测到音频特征的输出。另外,可向否定样本(例如,用户没有说出唤醒词的音频样本)提供指示所述音频样本不包括所述特征的标记。可训练机器学习模型以基于一个或多个否定音频样本中的每一者和对应标记而生成不指示在所述一个或多个否定音频样本中的每一者中检测到音频特征的输出。在成功训练之后,可部署音频特征检测模型144来处理音频样本以检测音频特征在未标记的音频样本(例如,由一个或多个麦克风接收的用户的未标记的音频样本,其可能包括或可能不包括诸如唤醒词的音频特征)中的出现,并且基于所述训练而将未标记的音频样本分类为包括或不包括所述特征。应注意,本文描述的音频特征检测模型144是说明性的,并且用于检测音频样本的音频特征的任何其他技术上可行的技术落入各种实施方案的范围内。
音频特征检测模型144的第一个问题是漏报的发生,其中用户提供包括音频特征的音频样本,但由于用户的语音的方面,装置未能检测到音频样本中的音频特征。例如,装置可存储第一个人(诸如典型用户)所说的唤醒词的波形,并且可将所述唤醒词的所述波形与第二个人(诸如装置的特定用户)的音频样本的波形进行比较。如果第二个人与第一个人不同地说出唤醒词,诸如带有口音、以地方方言、以特定说话方式(例如,语速、音量或音高)等说出,则音频特征检测模型144可确定第一个人说出的唤醒词的波形(作为待检测的音频特征)与第二个人的音频样本(诸如装置的用户的音频样本)的波形相异。由于漏报检测,装置可能无法检测到音频样本中的音频特征,并且可能无法响应于用户的音频样本。结果,用户可能不得不重复音频样本(例如,重复唤醒词)以接收来自装置的响应。
音频特征检测模型144的第二个问题是误报的发生,其中由于用户的语音方面,装置检测到未打算提供音频特征的用户的音频样本中的所述音频特征(例如,辨识未打算说出唤醒词以与装置交互的个人的语音中的所述唤醒词)。例如,用户可提供不包括音频特征(例如,唤醒词)的音频样本,而是包括与待在音频样本中检测到的音频特征在声学上相似(例如,在声学相似性阈值内)的词语或短语的音频样本。在一些情况下,此声学相似性可能是由于口音、以地方方言、以特定说话方式(例如,语速、音量或音高)等而出现的,其中用户的音频样本在声学上与诸如唤醒词的待检测的音频特征相似。结果,音频特征检测模型144可确定用户的音频样本的波形和/或音素序列与待检测的音频特征的波形和/或音素序列在声学上相似(例如,在声学相似性阈值内),并且可能错误地确定音频样本包括待检测的音频特征。由于误报确定,装置可接收用户的音频输入并进一步对所述音频输入进行采样,并且可生成对所述音频输入的响应。因为用户未有意提供音频特征(例如,通过说出唤醒词)并且不打算与装置交互,所以装置的响应可能使用户感到惊讶或沮丧。
为了解决这些问题,在一些实施方案中,可基于用户的一个或多个肯定音频样本(所述一个或多个肯定音频样本中的每一者都包括音频特征)以及与所述一个或多个肯定音频样本中的一者或多者共享声学相似性的用户的一个或多个否定音频样本而对机器学习模型进行训练。例如,所述声学相似性可以是一个或多个肯定音频样本的波形与一个或多个否定音频样本的波形之间在波形差异阈值内的差异,或者是一个或多个肯定音频样本的音素序列与一个或多个否定音频样本的音素序列之间在音素序列差异阈值(诸如编辑距离)内的差异。
在一些实施方案中,装置可生成用户特定扰动,可将所述用户特定扰动应用于用户的音频样本的表示。例如,装置可要求用户提供音频特征的一个或多个肯定音频样本( ,说出唤醒词的一个或多个实例),并且提供与一个或多个肯定音频样本中的至少一者共享声学相似性的一个或多个否定音频样本(例如,说出与唤醒词不同但由于用户的口音、地方方言、话音方式等而与所述唤醒词在声学上相似的词语的一个或多个实例)。可训练用户特定扰动生成器模型146以生成用户特定扰动,所述用户特定扰动当被应用于(例如,组合)用户的音频样本的表示时产生被扰动的表示。音频特征检测模型144可处理音频样本的被扰动的表示以辨识音频特征,并且制止辨识不包括所述音频特征的否定音频样本中的音频特征。装置可使用音频特征检测模型144的输出来确定是响应于所述音频样本(例如,通过生成和提供对被确定为包括音频特征的音频样本的响应)还是制止响应于音频样本(例如,通过制止响应于被确定为不包括音频特征的音频样本)。因此,根据一些实施方案,所述装置可考虑到用户的口音、地方方言、说话方式等而更准确且选择性地检测和响应于在用户的音频样本中对音频特征的包括。
将了解,图1示出了实施方案的仅一个示例,并且在不脱离实施方案的范围的情况下其他实施方案可变化。例如,图1的计算装置100包括存储音频特征检测模型144和用户特定扰动生成器模型146的存储器116。作为第一示例性变体,其他实施方案可在第一存储器中实施音频特征检测模型144的全部或部分,并且在第二存储器中实施用户特定扰动生成器模型146的全部或部分。作为第二示例性变体,其他实施方案可将音频特征检测模型144的全部或部分和/或用户特定扰动生成器模型146的全部或部分实施为离散电路,诸如神经处理电路。作为第三示例性变体,其他实施方案可包括组合了音频特征检测模型144和用户特定扰动生成器模型146的一个机器学习模型。作为第四示例性变体,用户特定扰动生成器模型146和/或音频特征检测模型144的全部或部分可在诸如一个或多个远程装置140的不同装置中实施。
图2A是根据各种实施方案的一个或多个方面的对用户特定扰动生成器模型146-1进行第一对抗性训练208-1以生成用户特定音频样本扰动的框图。在一些实施方案中,用户特定扰动生成器模型146-1可用作如图1中所示的用户特定扰动生成器模型146。用户特定音频样本扰动212-1可由音频特征检测模型144-1处理,所述音频特征检测模型可以是例如图1的计算装置100中包括的音频特征检测模型144-1。
如图2A中所示,用户200提供一组训练音频样本202,包括一个或多个肯定音频样本204,所述一个或多个肯定音频样本204中的每一者都包括音频特征206。例如,音频特征206可以是唤醒词的实例、指示引导到计算装置100的查询或命令的词语或短语的实例等。用户200还提供不包括音频特征但与一个或多个肯定音频样本204中的一者或多者具有声学相似性的一个或多个否定音频样本208。例如,一个或多个否定音频样本208中的每一者可以是或可包括与唤醒词不同但在声学上与唤醒词相似的词语或短语(例如,其中一个或多个肯定音频样本的波形与一个或多个否定音频样本的波形之间的差异在波形差异阈值内)。
在一些实施方案中,可在登记期间为用户200选择训练音频样本202,例如,选定的唤醒词和与唤醒词不同但在声学上相似的一个或多个词语。在一些实施方案中,所述选择可基于用户200的一个或多个特征,诸如用户200的人口统计特征。作为第一个这样的示例,可基于以下确定来选择训练音频样本202:具有与用户200相似的人口统计特征的个人经常以可致使唤醒词难以检测的口音、地方方言、说话方式等说出所述唤醒词。作为第二个这样的示例,可基于以下确定来选择训练音频样本202:具有与用户200相似的人口统计特征的个人经常说出与唤醒词不同但可由于口音、地方方言、说话方式等而听起来像唤醒词的特定词语。在一些实施方案中,一个或多个肯定音频样本204与一个或多个否定音频样本208之间的声学相似性可以是或可包括一个或多个肯定音频样本204中的第一肯定音频样本的频谱与一个或多个否定音频样本208中的第一否定音频样本的频谱之间的频谱差异,所述频谱差异在频谱差异阈值内。可替代地或另外,在一些实施方案中,一个或多个肯定音频样本204与一个或多个否定音频样本208之间的声学相似性可以是或可包括一个或多个肯定音频样本204中的第一肯定音频样本的音素序列与一个或多个否定音频样本208中的第一否定音频样本的音素序列之间的音素序列差异,所述音素序列差异在音素序列差异阈值内。
在一些实施方案中,可提前选择将要由用户提供的训练音频样本202。作为第一示例,开发者可确定与唤醒词在声学上相似的一组词语或短语(例如,基于评估无论是在普通用户之间还是在具有相似的人口统计特征的用户子集之间导致唤醒词误报的音频样本)。作为第二示例,语言学家可识别与唤醒词在声学上相似的一组词语或短语(例如,具有可能与唤醒词的音素序列相似的音素序列的词语或短语,无论是在一般情况下还是当所述词语或短语是由具有相似人口统计特征的用户子集说出)。在这些和其他示例中,计算装置100的存储器116或存储装置114可存储一组预定的训练音频样本202,将使用所述一组预定的训练音频样本来登记与人口统计简档匹配的用户200(例如,位于特定地理区域中和/或说特定语言的用户200)。计算装置100可从所存储的一组一个或多个否定音频样本208中选择与包括音频特征206的一个或多个肯定音频样本204中的至少一者共享声学相似性的一个或多个否定音频样本208中的每一者。
可替代地或另外,在一些实施方案中,可在登记时选择训练音频样本202。作为第一示例,计算装置100可执行对用户200的音频样本的评估以确定用户200的口音、地方方言、说话方式等,并且可基于此确定而选择训练音频样本202。计算装置100可基于从用户200接收的一个或多个肯定音频样本204而选择一个或多个否定音频样本208中的每一者。作为第二示例,当用户200说出唤醒词时,可要求用户200选择和说出与所述唤醒词在声学上相似的一些词语或短语(例如,用户200已经在与智能话音助手装置交互时遇到误报和/或漏报的词语或短语)。
在一些实施方案中,为了从用户200接收训练音频样本202,计算装置100可请求用户200提供一个或多个否定音频样本208。例如,计算装置100可提供要求用户200说出一个或多个肯定音频样本204中的每一者以及一个或多个否定音频样本208中的每一者的话音提示。可替代地或另外,计算装置100可显示要求用户200说出一个或多个肯定音频样本204中的每一者以及一个或多个否定音频样本208中的每一者的书面指令。一个或多个否定音频样本208中的每一者可以是基于用户的口音、用户的方言、用户的说话方式等而与一个或多个肯定音频样本204中的至少一者共享声学相似性的用户200的口头表达。用户200可选择一个或多个肯定音频样本204以及一个或多个否定音频样本208。用户可指示训练音频样本202中的哪些音频样本包括音频特征206以及训练音频样本202中的哪些音频样本不包括音频特征206。
基于训练音频样本202,可执行对抗性训练210-1以训练用户特定扰动生成器模型146-1来生成用户特定音频样本扰动212-1。例如,由于用户200的口音、方言、说话方式等,一个或多个肯定音频样本204以及一个或多个否定音频样本208可具有在声学上相似的第一子样本,诸如唤醒词的第一部分,其中一个或多个肯定音频样本204以及一个或多个否定音频样本208的第一子样本的对应波形是相似的。此外,由于用户200的口音、方言、说话方式等,一个或多个肯定音频样本204以及一个或多个否定音频样本208可具有在声学上不同的第二子样本,诸如唤醒词的第二部分,其中一个或多个肯定音频样本204以及一个或多个否定音频样本208的第二子样本的对应波形是不同的。
作为第一示例,在对抗性训练210-1期间,用户特定扰动生成器模型146-1可生成用户特定音频样本扰动212-1,诸如波形。一个或多个肯定音频样本204的波形以及一个或多个否定音频样本208的波形可例如通过波形相加、相减、相乘、相除或平均而被用户特定音频样本扰动212-1扰动。例如,用户特定音频样本扰动212-1可以是增加或传递与说出唤醒词的典型用户的波形的对应的子样本相似的一个或多个肯定音频样本204的波形的子样本的波形,和/或减少或掩蔽与说出唤醒词的典型用户的波形的对应的子样本相异的一个或多个肯定音频样本204的波形的子样本的波形,其中所述相似性和所述相异性是基于用户200的口音、方言、说话方式等。作为第二示例,用户特定音频样本扰动212-1可以是基于用户200的口音、方言、说话方式等而减少或掩蔽与一个或多个否定音频样本208的对应的子样本相似的一个或多个肯定音频样本204的波形的子样本的波形,和/或增加或传递与一个或多个否定音频样本208的对应的子样本相异的一个或多个肯定音频样本204的波形的子样本的波形,其中所述相似性和所述相异性是基于用户200的口音、方言、说话方式等。可由音频特征检测模型144-1处理已经被用户特定音频样本扰动212-1扰动的训练音频样本202,以确定被扰动的一个或多个肯定音频样本204是否被辨识为包括音频特征206以及被扰动的一个或多个否定音频样本208是否不被辨识为包括音频特征206。
基于这些确定,对抗性训练210-1可调整用户特定扰动发生器模型146-1(例如,诸如随机地和/或根据梯度来调整波形的相应频率和/或样本,和/或调整用户特定扰动生成器模型146-1以在一组候选用户特定音频样本扰动212-1中进行选择,诸如保留具有高性能的一个或多个候选者并丢弃具有较差性能的一个或多个候选者)。作为第一示例,对抗性训练210-1可包括调整用户特定扰动生成器模型146-1以生成用户特定音频样本扰动212-1,所述用户特定音频样本扰动增加包括音频特征206的预定音频样本与一个或多个肯定音频样本204的被扰动的肯定音频样本之间的声学相似性。作为第二示例,对抗性训练210-1可包括调整用户特定扰动生成器模型146-1以生成用户特定音频样本扰动212-1,所述用户特定音频样本扰动减小一个或多个肯定音频样本204的被扰动的肯定音频样本与一个或多个否定音频样本208的被扰动的否定音频样本之间的声学相似性。通过对用户特定扰动生成器模型146-1的这种调整,所述对抗性训练210-1可增加被扰动的一个或多个肯定音频样本204包括音频特征206的正确肯定确定;减少被扰动的一个或多个肯定音频样本204不包括音频特征206的错误否定确定;增加被扰动的一个或多个否定音频样本208不包括音频特征206的正确否定确定;和/或减少被扰动的一个或多个否定音频样本208包括音频特征206的错误否定确定。
可在监测指示对抗性训练210-1的进展的训练度量的同时执行(例如,以迭代方式,诸如一个或多个时期)对用户特定扰动生成器模型146-1的对抗性训练210-1。例如,对于对抗性训练210-1的每个时期,可监测损失度量(例如,被扰动的一个或多个肯定音频样本204和被扰动的一个或多个否定音频样本208的分类误差之和,或在训练音频样本202中的每一者的被扰动的内部表示和对应标记的分类置信度之间计算的均方误差)作为用户特定扰动生成器模型146-1的对抗性训练210-1的进展的指示符。在一些实施方案中,可将相似的损失度量用于一个或多个肯定音频样本204以及一个或多个否定音频样本208。在一些实施方案中,可将不同的损失度量用于一个或多个肯定音频样本204以及一个或多个否定音频样本208(例如,在误报被感知为是用户200常见的或比漏报更让所述用户感到沮丧的情况下)。可基于损失度量而确定对用户特定扰动生成器模型146-1的对抗性训练210-1的完成(例如,确定损失度量在损失度量阈值内,或者进一步训练损失度量不太可能提高用户特定扰动生成器模型146-1在训练音频样本202的评估集上的性能)。所得的用户特定扰动生成器模型146-1可产生用户特定音频样本扰动212-1,所述用户特定音频样本扰动当用于扰动用户200的音频样本时增加了音频特征检测模型144-1正确地确定在被扰动的音频样本中包括或不存在音频特征206的可能性。
图2B是根据各种实施方案的一个或多个方面的处理已经被由用户特定扰动生成器模型146-1生成的用户特定音频样本扰动212-1扰动的音频样本214的表示的音频特征检测模型144-1的第一示例的框图。音频特征检测模型144-1可以是(例如)包括在图1的计算装置100中的音频特征检测模型144。用户特定扰动生成器模型146-1可以是(例如)包括在图1的计算装置100中的用户特定扰动生成器模型146并且可通过在图2A中示出的对抗性训练210-1而生成。
在图2B中,用户200提供音频样本214,诸如由计算装置100的麦克风134检测和采样的表达。为了确定音频样本214是否包括音频特征206,诸如唤醒词,可通过由用户特定扰动生成器模型146-1生成的用户特定音频样本扰动212-1来扰动216音频样本214。在一些实施方案中,用户特定音频样本扰动212-1可以是将要应用于任何音频样本214的用户特定扰动生成器模型146-1的输出,诸如“冻结的”扰动。在一些实施方案中,用户特定扰动生成器模型146-1可基于音频样本214而生成用户特定音频样本扰动212-1,例如,基于音频样本214的特征(诸如幅度、持续时间、频率分布等)的用户特定音频样本扰动212-1。例如,扰动216可以是(例如)应用于音频样本214和用户特定音频样本扰动212-1的算术运算,诸如相加、相减、相乘、相除、平均、滤波等。例如,扰动216可以是应用于音频样本214和用户特定音频样本扰动212-1的逻辑运算,诸如应用于音频样本214和表示为掩蔽或传递音频样本214的每个子样本的位掩码的用户特定音频样本扰动212-1的逻辑“与”和“或”运算。
可由音频特征检测模型144-1处理被扰动的音频样本218以执行音频特征检测220,以便确定被扰动的音频样本218是否包括音频特征206。音频特征检测模型144-1可以是(例如)机器学习模型,所述机器学习模型已经被训练以辨识音频样本214中的音频特征206,并且可类似地应用于被扰动的音频样本218。音频特征检测模型144-1可包括多种机器学习模型类型的一个或多个机器学习模型,诸如递归神经网络(RNN)或基于变换器的自动编码器。此外,音频特征检测模型144-1可使用许多音频特征检测技术来执行音频特征检测220。作为第一示例,音频特征检测220可包括将被扰动的音频样本218的波形与音频特征206的波形进行比较,并且基于波形之间的差异在波形差异阈值内而确定被扰动的音频样本218是否包括音频特征206。作为第二示例,音频特征检测220可包括:将被扰动的音频样本218的表示确定为音素序列;将被扰动的音频样本218的音素序列与音频特征206的音素序列进行比较;以及基于音素之间的差异在音素差异阈值(诸如编辑距离)内而确定被扰动的音频样本218是否包括音频特征206。在其他实施方案中,实施了用于音频特征检测220的多种技术及其组合的多种其他机器学习模型及其全体中的任一者可包括在音频特征检测模型144-1中。
计算装置100可基于确定被扰动的音频样本218是否包括音频特征206而响应于音频样本214。例如,如果音频特征检测模型144-1确定被扰动的音频样本218包括音频特征206,则计算装置100可生成响应222并将响应222呈现给用户200。例如,响应222可以是(例如)对用以指示计算装置100是活动的并且准备好接收进一步的输入的唤醒词的确认;对响应于作为或包括命令的音频特征206而采取的计算装置100的动作的确认;和/或对作为或包括查询的音频特征206的回答。此外,如果音频特征检测模型144-1确定被扰动的音频样本218不包括音频特征206,则计算装置100可诸如通过忽视音频样本214和/或从存储器116或存储装置114删除音频样本214来制止224提供响应222。通过基于利用用户特定音频样本扰动212-1来扰动音频样本214而将音频特征检测模型144-1应用于被扰动的音频样本218,而不是应用于未被扰动的音频样本214,如图2B中示出而配置的实施方案可在降低的误报和/或漏报的发生率的情况下更准确地响应于音频样本214。
图3A是根据各种实施方案的一个或多个方面的对抗性地训练210-2用户特定扰动生成器模型146-2以生成用户特定内部表示扰动212-2的第二示例的框图。图3B的用户特定扰动生成器模型146-2可以是(例如)如图1中所示的用户特定扰动生成器模型146。可通过音频特征处理检测模型144-2处理用户特定内部表示扰动212-2,所述音频特征检测模型例如可以是包括在图1的计算装置100中的音频特征检测模型144-2。
类似于图2A,用户200可提供一组训练音频样本202,所述一组训练音频样本包括一个或多个肯定音频样本204(所述一个或多个肯定音频样本中的每一者都包括音频特征206)以及一个或多个否定音频样本208(所述一个或多个否定音频样本208中的每一者都不包括音频特征206)。在一些实施方案中,为了从用户200接收训练音频样本202,计算装置100可请求用户200提供一个或多个否定音频样本208。例如,计算装置100可提供要求用户200说出一个或多个肯定音频样本204中的每一者以及一个或多个否定音频样本208中的每一者的话音提示。可替代地或另外,计算装置100可显示要求用户200说出一个或多个肯定音频样本204中的每一者以及一个或多个否定音频样本208中的每一者的书面指令。一个或多个否定音频样本208中的每一者可以是基于用户的口音、用户的方言、用户的说话方式等而与一个或多个肯定音频样本204中的至少一者共享声学相似性的用户200的口头表达。用户200可选择一个或多个肯定音频样本204以及一个或多个否定音频样本208。用户可指示训练音频样本202中的哪些音频样本是包括音频特征206的肯定音频样本204以及训练音频样本202中的哪些音频样本是不包括音频特征206的否定音频样本208。
图3A示出了基于训练音频样本202的对抗性训练210-2,以训练用户特定扰动生成器模型146-2来生成用户特定内部表示扰动212-2。与图2A不同,对图3A中的用户特定扰动生成器模型146-2进行训练以生成用户200的音频样本的内部表示的用户特定内部表示扰动212-2。例如,可通过音频特征检测模型144-2部分处理训练音频样本202中的每一者以生成内部表示,诸如特征向量。作为一个这样的示例,所述部分处理可包括将训练音频样本202中的每一者转换为音素序列,并且可将一个或多个肯定音频样本204的音素序列与一个或多个否定音频样本208的对应的音素序列进行比较。对用户特定扰动生成器模型210的对抗性训练210-2可涉及生成训练音频样本202的内部表示的用户特定内部表示扰动212-2,诸如音素序列的修改。
在一些实施方案中,用户特定内部表示扰动212-2可以是一组权重,通过所述一组权重来评估音频样本214的每个音素或音素子序列。例如,用户特定内部表示扰动212-2可指示跟用户200的一个或多个肯定音频样本204的单独的音素或音素组与音频特征206的对应的音素或音素组之间的相似性成比例的权重。也就是说,用户特定内部表示扰动212-2可指示与唤醒词的典型说出实例的已建立的音素或音素子序列相似的当用户200说出时的唤醒词的音素或音素子序列的大权重,和/或与唤醒词的典型说出实例的已建立的音素或音素子序列相异的当用户200说出时的所述唤醒词的音素或音素子序列的小权重。作为第二示例,用户特定内部表示扰动212-2可指示跟用户200的一个或多个肯定音频样本204的单独的音素或音素组与用户200的一个或多个否定音频样本208的对应的音素或音素组之间的相似性成反比的权重。也就是说,用户特定内部表示扰动212-2可指示跟与当用户200说出时的唤醒词不同但在声学上相似的词语的对应的音素或音素子序列相似的当用户200说出时的唤醒词的音素或音素子序列的小权重,和/或跟与当用户200说出时的唤醒词不同但在声学上相似的词语的对应的音素或音素子序列相异的当用户200说出时的唤醒词的音素或音素子序列的大权重。在一些实施方案中,可基于实施了用于音频特征检测220的多种技术的音频特征检测模型144-2的多种机器学习模型和其全体而生成和扰动与各种其他音频特征检测模型兼容的音频样本的除了基于音素的表示之外的表示。作为权重的替代方案,用户特定内部表示扰动212-2可以是位掩码,所述位掩码传递与音频特征206的对应的音素或音素序列相似和/或与一个或多个否定音频样本208的对应的音素或音素序列相异的一个或多个肯定音频样本204的音素或音素序列,并且掩蔽与音频特征206的对应的音素或音素序列相异和/或与一个或多个否定音频样本208的对应的音素或音素序列相似的一个或多个肯定音频样本204的音素或音素序列。
基于这些确定,对抗性训练210-2可调整用户特定扰动生成器模型146-2(例如,调整由用户特定扰动生成器模型146-2针对相应的音素或音素子序列应用的权重、位掩码等,和/或调整用户特定扰动生成器模型146-2以在一组候选用户特定内部表示扰动212-2中进行选择,诸如保留具有高性能的一个或多个候选者并丢弃具有较差性能的一个或多个候选者)。作为第一示例,对抗性训练210-2可包括调整用户特定扰动生成器模型146-2以生成用户特定内部表示扰动212-2,所述用户特定内部表示扰动增加包括音频特征的预定音频样本的被扰动的内部表示306与一个或多个肯定音频样本204的被扰动的内部表示306之间的相似性。作为第二示例,对抗性训练210-2可包括调整用户特定扰动生成器模型146-2以生成用户特定内部表示扰动212-2,所述用户特定内部表示扰动减小一个或多个肯定音频样本204的被扰动的内部表示306与被扰动的一个或多个否定音频样本208的被扰动的内部表示306之间的相似性。通过对用户特定扰动生成器模型146-2的此类调整,对抗性训练210-2可增加一个或多个肯定音频样本204的被扰动的内部表示包括音频特征206的正确肯定;减少一个或多个肯定音频样本204的被扰动的内部表示不包括音频特征206的错误否定确定;增加一个或多个否定音频样本208的被扰动的内部表示不包括音频特征206的正确否定确定;和/或减少一个或多个否定音频样本208的被扰动的内部表示包括音频特征206的错误肯定确定。
类似于图2A,可在监测指示对抗性训练210-2的进展的训练度量的同时执行( ,以迭代方式,诸如在一个或多个训练时期内)对如图3A中所示的用户特定扰动生成器模型146-2的对抗性训练210-2。例如,对于对抗性训练210-2的每个时期,可监测损失度量( ,一个或多个肯定音频样本204的被扰动的内部表示306和一个或多个否定音频样本208的被扰动的内部表示306的分类误差之和,或在训练音频样本202中的每一者的被扰动的内部表示306和对应标记的分类置信度之间计算的均方误差)作为用户特定扰动生成器模型146-2的对抗性训练210-2的进展的指示符。在一些实施方案中,可将相似的损失度量用于一个或多个肯定音频样本204以及一个或多个否定音频样本208。在一些实施方案中,可将不同的损失度量用于一个或多个肯定音频样本204以及一个或多个否定音频样本208( ,在误报被感知为是用户200常见的或比漏报更让所述用户感到沮丧的情况下)。可基于损失度量而确定对用户特定扰动生成器模型146的对抗性训练210-2的完成(例如,确定损失度量在损失度量阈值内,或者进一步训练损失度量不太可能提高用户特定扰动生成器模型146-2在训练音频样本202的评估集上的性能)。所得的用户特定扰动生成器模型146-2可产生用户特定内部表示扰动212-2作为内部表示扰动,所述内部表示扰动当用于扰动用户200的音频样本214的内部表示时增加音频特征检测模型144-2正确地确定在音频样本214的被扰动的内部表示中包括或不存在音频特征206的可能性。
图3B是根据各种实施方案的一个或多个方面的处理已经被由用户特定扰动生成器模型146-2生成的用户特定内部表示扰动212-2扰动的音频样本214的被扰动的内部表示306的音频特征检测模型144-2的第二示例的框图。音频特征检测模型144-2可以是(例如)包括在图1的计算装置100中的音频特征检测模型144。用户特定扰动生成器模型146-2可以是(例如)包括在图1的计算装置100中的用户特定扰动生成器模型146并且可通过在图3A中示出的对抗性训练210-2而生成。
类似于图2B,图3B示出用户200提供音频样本214,所述音频样本可包括或可不包括音频特征206。此外,类似于图2B,图3B示出了利用由用户特定扰动生成器模型146-2生成的用户特定音频内部表示扰动212-2来扰动音频样本214以供音频特征检测模型144-2处理。与图2B不同,用户特定内部表示扰动212-2用于扰动音频特征检测模型144-2内的音频样本214的内部表示302。例如,可提供音频样本214作为音频特征检测模型144-2的输入,所述音频特征检测模型诸如神经网络(例如,处理音频样本214的子样本序列的递归神经网络),其中音频特征检测模型144-2生成音频样本214的内部表示(例如,特征向量)。所述内部表示302可以是(例如)指示音频样本214的子样本的音素或音素序列的神经网络的层的输出。在一些实施方案中,内部表示302包括音频特征检测模型144-2的状态,诸如在递归神经网络中处理音频样本214的前面的子样本的结果。
如图3B中所示,用户特定内部表示扰动212-2可例如通过以下方式扰动304音频样本214的内部表示302以产生被扰动的内部表示306:使内部表示302的特征向量与由用户特定内部表示扰动212-2指示的权重相加、相减、相乘或相除,和/或基于由用户特定内部表示扰动212-2指示的位掩码而传递或掩蔽内部表示302的特征向量的音素。音频特征检测模型144-2可继续处理被扰动的内部表示306以产生对音频样本214是否包括音频特征206的确定。类似于图2B的示例,音频特征检测模型144-2确定音频样本214(被用户特定内部表示扰动212-2扰动)是否包括音频特征206。例如,基于音频特征检测模型144-2确定被扰动的内部表示306是与包括音频特征206的音频样本214的内部表示一致的内部表示。类似地包括音频特征206,计算装置100可生成和呈现对音频样本214的响应222;并且基于音频特征检测模型144-2确定音频样本214不包括音频特征206,计算装置100可制止224呈现对音频样本214的响应222。通过基于用户特定内部表示扰动212-2将音频特征检测模型144-2应用于音频样本214的被扰动的内部表示306,而不是应用于未被扰动的内部表示302,如图3B中所示而配置的实施方案可在降低的误报和/或漏报的发生率的情况下更准确地响应于音频样本214。
在一些实施方案中,一个计算装置100可被配置为使用本文呈现的技术来与用户200交互。例如,并且如图1中所示,计算装置100可包括音频处理应用程序142,所述音频处理应用程序包括音频特征检测模型144和用户特定扰动生成器模型146两者。在登记期间,计算装置100可接收用户200的一个或多个肯定音频样本204以及一个或多个否定音频样本208,并且可对抗性地训练用户特定扰动生成器模型146以生成用户特定扰动212。在对抗性训练之后,基于从用户200接收到可包括或可不包括音频特征206的音频样本214,计算装置100可利用用户特定扰动212来扰动音频样本214的表示以生成被扰动的表示,音频特征检测模型处理音频样本214的被扰动的表示以确定音频样本124是否包括音频特征206,并且基于所述确定而确定对音频样本214的响应(例如,通过基于确定音频样本124包括音频特征206而提供响应222,以及基于确定音频样本124不包括音频特征206而制止224提供响应)。在一些这样的实施方案中,计算装置100可对抗性地训练图2A和图2B的用户特定扰动生成器模型146-1以生成音频样本扰动,并且可扰动216音频样本214以生成由图2B的音频特征检测模型144-1处理的被扰动的音频样本218。在一些这样的实施方案中,计算装置100可对抗性地训练图3A和图3B的用户特定扰动生成器模型146-2以生成内部表示扰动,并且可扰动304音频样本214的内部表示302以生成由图3B的音频特征检测模型144-2处理的被扰动的内部表示306。
在一些实施方案中,两个或更多个计算装置可各自实施所公开技术的一个或多个特征,以使计算装置100中的一者能够与用户200交互。作为第一个这样的示例,第一计算装置100,诸如在远程装置140中的一者上执行的基于云的服务器或服务,可对抗性地训练用户特定扰动生成器模型146,诸如图2A的用户特定扰动生成器模型146-1和/或图3A的用户特定扰动生成器模型146-2,并且可将用户特定扰动生成器模型146部署到第二计算装置100(例如,远程装置140中的一者)。第二计算装置100可接收和存储用户特定扰动生成器模型146,并且基于从用户200接收到可包括或可不包括音频特征206的音频样本214,第二计算装置100可利用用户特定扰动212来扰动音频样本214的表示,通过音频特征检测模型处理音频样本214的被扰动的表示以确定音频样本124是否包括音频特征206。在一些这样的实施方案中,第二计算装置100可利用用户特定音频样本扰动212-1来扰动216音频样本214,以生成由图2B的音频特征检测模型144-1处理的被扰动的音频样本218。在一些这样的实施方案中,第二计算装置100可利用用户特定内部表示扰动212-2来扰动304音频样本214的内部表示302,以生成由图3B的音频特征检测模型144-2处理的被扰动的内部表示306。基于所述确定,第二计算装置100可确定对音频样本214的响应(例如,通过基于确定音频样本124包括音频特征206而提供响应222,和/或基于确定音频样本124不包括音频特征206而制止224提供响应)。
作为第二个这样的示例,第一计算装置100,诸如在远程装置140中的一者上执行的基于云的服务器或服务,可对抗性地训练用户特定扰动生成器模型146,诸如图2A的用户特定扰动生成器模型146-1,并且可将由用户特定扰动生成器模型146-1生成的用户特定音频样本扰动212-1(诸如音频样本扰动)部署到第二计算装置100(例如,远程装置140中的一者)。第二计算装置100可接收和存储用户特定音频样本扰动212-1。基于从用户200接收到可包括或可不包括音频特征206的音频样本214,第二计算装置100可利用用户特定音频样本扰动212-1来扰动音频样本214的表示,并且通过音频特征检测模型处理音频样本214-1的被扰动的表示以确定音频样本124是否包括音频特征206。基于所述确定,第二计算装置100可基于所述确定而确定对音频样本214的响应(例如,通过基于确定音频样本124包括音频特征206而提供响应222,和/或基于确定音频样本124不包括音频特征206而制止224提供响应)。
作为第三个这样的示例,第一计算装置100,诸如在远程装置140中的一者上执行的基于云的服务器或服务,可对抗性地训练用户特定扰动生成器模型146,诸如图2A的用户特定扰动生成器模型146-1,并且可扰动从第二计算装置100接收的音频样本214。例如,基于从用户200接收到可包括或可不包括音频特征206并且可发送的音频样本214,第二计算装置100可将音频样本214发送到第一计算装置100。第一计算装置100可生成和/或检索用户特定音频样本扰动212-1,利用用户特定音频样本扰动212-1来扰动音频样本214,并且将被扰动的音频样本218发送回第二计算装置100(例如,远程装置140中的一者)。第二计算装置100可利用接收到的用户特定音频样本扰动212-1来扰动216音频样本214以生成被扰动的音频样本218。第二计算装置100可通过音频特征检测模型144-1处理被扰动的音频样本214以确定音频样本124是否包括音频特征206,并且可基于所述确定而确定对音频样本214的响应(例如,通过基于确定音频样本124包括音频特征206而提供响应222,以及基于确定音频样本124不包括音频特征206而制止224提供响应)。
作为第四个这样的示例,第一计算装置100,诸如在远程装置140中的一者上执行的基于云的服务器或服务,可包括音频处理应用程序142,所述音频处理应用程序包括音频特征检测模型144和用户特定扰动生成器模型146,并且所述第一计算装置可处理由第二计算装置100接收的用户200的音频样本214。例如,基于接收到用户200的音频样本214,第二计算装置100可将音频样本214发送到第一计算装置100。第一计算装置100可利用用户特定扰动212,诸如由图2B的用户特定扰动生成器模型146-1生成的用户特定音频样本扰动212-1,来扰动音频样本214的表示。第一计算装置100可利用音频特征检测模型144,诸如图2B的音频特征检测模型144-1,来处理被扰动的表示,以确定音频样本214是否包括音频特征206。第一计算装置100可将所述确定返回到第二计算装置100,所述第二计算装置可确定对音频样本214的响应(例如,通过基于确定音频样本124包括音频特征206而提供响应222,和/或基于确定音频样本124不包括音频特征206而制止224提供响应)。许多这样的变化落入各种实施方案的范围内。
图4绘示了根据各种实施方案的一个或多个方面的用于训练用于音频特征检测模型的用户特定扰动生成器的方法步骤的流程图。虽然相对于图1和图2A的系统描述了方法步骤,但本领域技术人员将理解,被配置为以任何次序执行所述方法步骤的任何系统落在各种实施方案的范围内。
如图所示,方法400开始于步骤402,其中计算装置(例如,计算装置100、远程装置140等)接收用户200的一个或多个肯定音频样本204,所述一个或多个肯定音频样本204中的每一者都包括音频特征206。例如,音频处理应用程序142,诸如智能个人助理中的音频处理应用程序,可要求用户200说出包括音频特征206的一个或多个词语或短语,诸如包括唤醒词的不同短语。音频处理应用程序142可利用一个或多个麦克风134接收一个或多个肯定音频样本204并将所述一个或多个肯定音频样本204存储在存储装置114中。
在步骤404处,音频处理应用程序142接收用户200的一个或多个否定音频样本208。一个或多个否定音频样本208中的每一者与一个或多个肯定音频样本204中的至少一者共享声学相似性。例如,音频处理应用程序142可要求用户200说出不包括音频特征206但可在用户200说出时由于用户200的口音、方言、说话方式等而听起来像音频特征206的一个或多个词语或短语。在一些实施方案中,音频处理应用程序142可确定用户200的人口统计特征,并且选择当由具有与用户200相似的人口统计特征的个人说出时与音频特征206共享声学相似性的一组否定音频样本。所述一组否定音频样本可由开发者或语言学家选择。音频处理应用程序142可利用一个或多个麦克风134接收一个或多个否定音频样本208并将所述一个或多个否定音频样本存储在存储装置114中。
在步骤406处,音频处理应用程序142对抗性地训练用户特定扰动生成器模型146-1以生成用户200的用户特定音频样本扰动212-1。例如,音频处理应用程序142可训练用户特定扰动生成器模型146-1以生成用户特定音频扰动212-1,所述用户特定音频扰动当与用户200的音频样本组合时增加用户的肯定音频样本与音频特征206之间的声学相似性和/或减小所述肯定音频样本与所述音频特征之间的声学相异性。在一些实施方案中,音频处理应用程序142可训练用户特定扰动生成器模型146-1以生成用户特定音频样本扰动212-1,所述用户特定音频样本扰动当与用户200的音频样本组合时减小用户200的否定音频样本与音频特征206之间的声学相似性和/或增加所述否定音频样本与所述音频特征之间的声学相异性。
图5绘示了根据各种实施方案的一个或多个方面的用于确定用户的音频样本是否包括音频特征的方法步骤的流程图。虽然相对于图1和图2B的系统描述了方法步骤,但本领域技术人员将理解,被配置为以任何次序执行所述方法步骤的任何系统落在各种实施方案的范围内。
如图所示,方法500开始于步骤502,其中计算装置(例如,计算装置100、远程装置140等)接收用户200的音频样本214。例如,音频处理应用程序142,诸如智能个人助理中的音频处理应用程序,可检测到用户200正在说话,利用一个或多个麦克风134接收用户200的语音的音频样本214,并且任选地将音频样本214存储在存储装置114中。音频样本214可以是作为或包括音频特征206(例如,唤醒词)的肯定音频样本,或者可以是不包括音频特征206但在声学上与音频特征206相似的否定音频样本。
在步骤504处,音频处理应用程序142利用由用户特定扰动生成器模型146-1生成的用户特定音频样本扰动212-1来扰动音频样本214,以生成被扰动的音频样本218。例如,用户特定音频样本扰动212-1可以是这样的波形,对于肯定音频样本,所述波形增加或传递在声学上与音频特征206相似的音频样本214的子样本,并且减少或掩蔽在声学上与音频特征206相异的音频样本214的子样本。可替代地或另外,用户特定音频扰动可以是这样的波形,对于否定音频样本,所述波形减少或掩蔽在声学上与音频特征206相似的音频样本214的子样本,并且增加或传递在声学上与音频特征206相异的音频样本214的子样本。
在步骤506处,音频处理应用程序142利用音频特征检测模型144-1处理被扰动的音频样本218以确定音频样本214是否包括音频特征206。例如,音频特征检测模型144-1可将被扰动的音频样本218的波形与音频特征206的波形进行比较,以确定被扰动的音频样本218与音频特征206之间的差异是否在差异阈值内。如果是,则音频处理应用程序142可生成并呈现对音频样本214的响应222,诸如响应于音频特征206或提供对用户200的查询或命令的响应;并且如果否,则音频处理应用程序142可制止提供响应224。
图6绘示了根据各种实施方案的一个或多个额外方面的用于基于用户的一个或多个肯定音频样本和用户的一个或多个否定音频样本来训练用于音频特征检测模型的用户特定扰动生成器的方法步骤的流程图。虽然相对于图1和图3A的系统描述了方法步骤,但本领域技术人员将理解,被配置为以任何次序执行所述方法步骤的任何系统落在各种实施方案的范围内。
如图所示,方法600开始于步骤602,其中计算装置(例如,计算装置100、远程装置140等)接收用户200的一个或多个肯定音频样本204。一个或多个肯定音频样本204中的每一者都包括音频特征206。例如,音频处理应用程序142,诸如智能个人助理中的音频处理应用程序,可要求用户200说出包括音频特征206的一个或多个词语或短语,诸如包括唤醒词的不同短语。音频处理应用程序142可利用一个或多个麦克风134接收一个或多个肯定音频样本204,并将所述一个或多个肯定音频样本204存储在存储装置114中。
在步骤604处,音频处理应用程序142接收用户200的一个或多个否定音频样本208。一个或多个否定音频样本208中的每一者与一个或多个肯定音频样本204中的至少一者共享相似性。例如,音频处理应用程序142可要求用户200说出不包括音频特征206但可在用户200说出时由于用户200的口音、方言、说话方式等而听起来像音频特征206的一个或多个词语或短语。在一些实施方案中,音频处理应用程序142可确定用户200的人口统计特征,并且选择当由具有与用户200相似的人口统计特征的个人说出时与音频特征206共享声学相似性的一组否定音频样本208。所述一组否定音频样本集208可由开发者或语言学家选择。音频处理应用程序142可利用一个或多个麦克风134接收一个或多个否定音频样本208,并将所述一个或多个否定音频样本208存储在存储装置114中。
在步骤606处,音频处理应用程序142对抗性地训练用户特定扰动生成器模型146-2以生成用户200的音频样本的内部表示的用户特定内部表示扰动212-2。例如,音频处理应用程序142可训练用户特定扰动生成器模型146-2以生成用户特定内部表示扰动212-2,所述用户特定内部表示扰动当与表示音频特征检测模型(例如,音频特征检测模型144-2)内的用户200的肯定音频样本204的内部表示的特征向量组合时增加所述特征向量与作为音频特征206的内部表示的特征向量之间的相似性和/或减小所述特征向量之间的相异性。在一些实施方案中,音频处理应用程序142可训练用户特定扰动生成器模型146-2以生成用户特定内部表示扰动212-2,所述用户特定内部表示扰动当与表示音频特征检测模型内的用户200的否定音频样本的内部表示的特征向量组合时减小否定音频样本208的内部表示与音频特征206的内部表示之间的相似性和/或增加所述内部表示之间的相异性。
图7绘示了根据各种实施方案的一个或多个额外方面的用于确定用户的音频样本是否包括音频特征的方法步骤的流程图。虽然相对于图1和图3B的系统描述了方法步骤,但本领域技术人员将理解,被配置为以任何次序执行所述方法步骤的任何系统落在各种实施方案的范围内。
如图所示,方法700开始于步骤702,其中计算装置(例如,计算装置100、远程装置140等)接收用户的音频样本。例如,音频处理应用程序142,诸如智能个人助理中的音频处理应用程序,可检测到用户200正在说话,利用一个或多个麦克风134接收用户200的音频样本214,并且任选地将音频样本214存储在存储装置114中。音频样本214可以是作为或包括音频特征206(例如,唤醒词)的肯定音频样本,或者可以是不包括音频特征206但在声学上与音频特征206相似的否定音频样本。
在步骤704处,音频处理应用程序142利用音频特征检测模型144-2处理音频样本214,以生成音频样本214的内部表示302。例如,可通过诸如人工神经网络的模型部分地处理音频样本214,以生成被部分处理的音频样本的特征的特征向量作为神经元层的输出。所述特征可以是(例如)对应于音频样本214的音素序列的编码。
在步骤706处,音频处理应用程序142利用由用户特定扰动生成器模型146-2生成的用户特定内部表示扰动212-2来扰动音频样本214的内部表示302,以生成被扰动的内部表示306。例如,用户特定内部表示扰动306可以是应用于表示序列的特征向量的加权,对于肯定音频样本,所述加权增加或传递与音频特征206的音素序列中的对应音素相似的音素的特征向量的值,并且减小或掩蔽与音频特征206的音素序列中的对应音素相异的音素的特征向量的值。可替代地或另外,对于否定音频样本,用户特定内部表示扰动212-2可以是一种加权,所述加权减小或掩蔽与音频特征206的音素序列中的对应音素相似的音素的特征向量的子样本值,并且增加或传递与音频特征206的音素序列中的对应音素相异的音素的特征向量的值。
在步骤708处,音频处理应用程序142利用音频特征检测模型144-2处理被扰动的内部表示306以确定音频样本214是否包括音频特征206。例如,音频处理应用程序142可确定被扰动的内部表示306是否为与包括音频特征206的音频样本214的内部表示一致的内部表示。如果是,则音频处理应用程序142可生成并呈现对音频样本214的响应222,诸如响应于音频特征206或提供对用户200的查询或命令的响应;并且如果否,则所述装置可制止提供响应224。
总而言之,用于训练用于音频特征检测模型的用户特定扰动生成器的技术。所述技术包括接收用户的一个或多个肯定音频样本,其中所述一个或多个肯定音频样本中的每一者都包括待检测和响应的音频特征。所述技术还包括接收用户的一个或多个否定音频样本,其中所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性。然后对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述用户特定扰动可提高音频特征检测模型在音频样本中存在音频特征时辨识所述音频特征并且不辨识不包括所述音频特征的音频样本的能力。
在一些方法中,用户特定扰动是用于扰动随后接收到的用户的音频样本的用户特定音频样本扰动。然后通过音频特征检测模型处理被扰动的音频样本以确定所述音频样本是否包括音频特征。当音频特征检测模型确定音频样本包括音频特征时,所述技术包括生成对音频样本的响应。在其他方法中,用户特定扰动是用于扰动随后接收到的用户的音频样本的内部表示的用户特定内部表示扰动,其中所述内部表示是在音频特征检测模型部分地处理音频样本之后的所述音频样本的表示。音频特征检测模型然后进一步处理音频样本的被扰动的内部表示以确定所述音频样本是否包括音频特征。当音频特征检测模型确定音频样本包括音频特征时,所述技术包括生成对音频样本的响应。
所公开的技术相对于现有技术的至少一个技术优势在于,利用所公开的技术,诸如智能个人助理的装置展现出辨识用户的音频样本中的音频特征的降低的漏报率和/或由于包括音频特征的用户的一个或多个肯定音频样本与和用户的一个或多个肯定音频样本中的至少一者共享声学相似性的用户的否定音频样本之间的声学相似性而辨识不包括音频特征的用户的否定音频样本中的音频特征的降低的误报率。降低的漏报率可提高装置对用户的响应性。降低的误报率可节省电池寿命或装置的不必要的处理。此外,由于在用户未期望时装置收听用户和对用户作出响应的降低的比率,用户与智能个人助理之间的交互得以改善,从而产生更高置信度的用户体验。这些技术优点提供了优于现有技术方法的一个或多个技术改进。
1.在一些实施方案中,一种训练用于音频特征检测模型的用户特定扰动生成器的计算机实施的方法包括:接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征;接收所述用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性;以及对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练是基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本,其中利用所述用户特定扰动来扰动所述用户的音频样本致使音频特征检测模型辨识包括所述音频特征的所述用户的音频样本中的所述音频特征,并且制止辨识不包括所述音频特征的所述用户的音频样本中的所述音频特征。
2.根据条款1所述的计算机实施的方法,还包括:从所存储的一组一个或多个否定音频样本中选择与一个或多个肯定音频样本中的至少一者共享声学相似性的所述一个或多个否定音频样本中的每一者。
3.根据条款1或2所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:利用所述用户特定扰动来扰动所述一个或多个肯定音频样本中的第一肯定音频样本以生成所述一个或多个肯定音频样本的被扰动的肯定音频样本;以及调整所述用户特定扰动生成器模型以生成音频样本扰动,所述音频样本扰动增加在包括所述音频特征的预定音频样本与所述一个或多个肯定音频样本的被扰动的肯定音频样本之间的声学相似性。
4.根据条款1-3中任一项所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:利用所述用户特定扰动来扰动所述一个或多个肯定音频样本中的第一肯定音频样本以生成被扰动的肯定音频样本;利用所述用户特定扰动来扰动所述一个或多个否定音频样本中的第一否定音频样本以生成被扰动的否定音频样本;以及调整所述用户特定扰动生成器模型以生成音频样本扰动,所述音频样本扰动减小所述被扰动的肯定音频样本与所述被扰动的否定音频样本之间的声学相似性。
5.根据条款1-4中任一项所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:利用所述用户特定扰动来扰动音频特征检测模型内的所述一个或多个肯定音频样本中的第一肯定音频样本的内部表示,以生成所述第一肯定音频样本的被扰动的内部表示;以及调整所述用户特定扰动生成器模型以生成内部表示扰动,所述内部表示扰动增加包括所述音频特征的预定音频样本的内部表示与所述第一肯定音频样本的所述被扰动的内部表示之间的相似性。
6.根据条款1-5中任一项所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:利用所述用户特定扰动来扰动音频特征检测模型内的所述一个或多个肯定音频样本中的第一肯定音频样本的内部表示,以生成所述第一肯定音频样本的被扰动的内部表示;利用所述用户特定扰动来扰动所述音频特征检测模型内的所述一个或多个否定音频样本中的第一否定音频样本的内部表示,以生成所述第一否定音频样本的被扰动的内部表示;以及调整所述用户特定扰动生成器模型以生成内部表示扰动,所述内部表示扰动减小所述第一肯定音频样本的所述被扰动的内部表示与所述第一否定音频样本的所述被扰动的内部表示之间的相似性。
7.根据条款1-6中任一项所述的计算机实施的方法,其中所述用户特定扰动是音频样本扰动,将利用所述音频样本扰动来扰动所述用户的音频样本以生成所述用户的被扰动的音频样本。
8.根据条款1-7中任一项所述的计算机实施的方法,还包括:通过所述用户特定扰动生成器模型生成所述用户特定扰动作为音频样本扰动;以及将所述音频样本扰动发送到音频特征检测模型,其中通过所述音频特征检测模型对基于被所述音频样本扰动扰动的所述用户的音频样本的被扰动的音频样本进行分类,以确定所述音频样本是否包括所述音频特征。
9.根据条款1-8中任一项所述的计算机实施的方法,还包括:利用所述用户特定扰动来扰动所述用户的音频样本以生成被扰动的音频样本;以及将所述被扰动的音频样本发送到音频特征检测模型,其中通过所述音频特征检测模型对所述被扰动的音频样本进行分类,以确定所述音频样本是否包括所述音频特征。
10.根据条款1-9中任一条款所述的计算机实施的方法,其中所述用户特定扰动是内部表示扰动,将利用所述内部表示扰动来扰动音频特征检测模型内的用户的音频样本的内部表示,以生成所述用户的所述音频样本的被扰动的内部表示。
11.在一些实施方案中,一种非暂时性计算机可读介质存储指令,所述指令在由处理器执行时致使所述处理器执行以下步骤:接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征;接收所述用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性;以及对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练是基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本,其中利用所述用户特定扰动来扰动所述用户的音频样本致使音频特征检测模型辨识包括所述音频特征的所述用户的音频样本中的所述音频特征,并且制止辨识不包括所述音频特征的所述用户的音频样本中的所述音频特征。
12.根据条款11所述的非暂时性计算机可读介质,还包括基于从所述用户接收的所述一个或多个肯定音频样本而选择所述一个或多个否定音频样本中的每一者。
13.根据条款11或12所述的非暂时性计算机可读介质,其中所述一个或多个否定音频样本中的每一者是基于用户的口音、用户的方言或用户的说话方式中的一者或多者而与所述一个或多个肯定音频样本中的至少一者共享声学相似性的所述用户的口头表达。
14.根据条款11-13中任一条款所述的非暂时性计算机可读介质,其中接收所述用户的所述一个或多个否定音频样本还包括:请求所述用户提供所述一个或多个否定音频样本。
15.根据条款11-14中任一条款所述的非暂时性计算机可读介质,其中所述用户特定扰动是音频样本扰动,将利用所述音频样本扰动来扰动所述用户的音频样本以生成所述用户的被扰动的音频样本。
16.根据条款11-15中任一条款所述的非暂时性计算机可读介质,其中所述用户特定扰动是内部表示扰动,将利用所述内部表示扰动来扰动音频特征检测模型内的用户的音频样本的内部表示,以生成所述用户的所述音频样本的被扰动的内部表示。
17.根据条款11-16中任一条款所述的非暂时性计算机可读介质,其中所述声学相似性是以下各项中的至少一者:所述一个或多个肯定音频样本中的第一肯定音频样本的频谱与所述一个或多个否定音频样本中的第一否定音频样本的频谱之间的频谱差异,所述频谱差异在频谱差异阈值内;或所述一个或多个肯定音频样本中的第一肯定音频样本的音素序列与所述一个或多个否定音频样本中的第一否定音频样本的音素序列之间的音素序列差异,所述音素序列差异在音素序列差异阈值内。
18.在一些实施方案中,一种确定用户与装置之间的交互的系统包括:存储器,所述存储器存储指令;以及一个或多个处理器,所述一个或多个处理器执行所述指令以执行步骤,所述步骤包括:从用户接收音频样本;接收与所述用户相关联的用户特定扰动;以及基于所述音频样本和所述用户特定扰动而确定所述音频样本是否包括音频特征。
19.根据条款18所述的系统,其中所述用户特定扰动是音频样本扰动;并且确定所述音频样本是否包括所述音频特征包括利用所述音频样本扰动来扰动所述音频样本以生成被扰动的音频样本;以及经由音频特征检测模型对所述被扰动的音频样本进行分类。
20.根据条款18或19所述的系统,其中所述用户特定扰动是内部表示扰动;并且确定所述音频样本是否包括音频特征包括:经由音频特征检测模型处理所述音频样本以生成所述音频样本的内部表示;利用所述内部表示扰动来扰动所述内部表示以生成被扰动的内部表示;以及经由所述音频特征检测模型对所述被扰动的内部表示进行分类。
任何权利要求中阐述的任何权利要求要素和/或本申请中描述的任何要素以任何方式进行的任何和所有组合都落在本发明和保护的设想范围内。
已经出于说明的目的呈现了各种实施方案的描述,但是描述无意是详尽的或者受限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域技术人员来说将显而易见。
本实施方案的各方面可体现为系统、方法或计算机程序产品。因此,本公开的各方面可采用以下形式:完全硬件实施方案、完全软件实施方案(包括固件、驻留软件、微代码等),或组合了软件方面和硬件方面的实施方案,所述方面全部可大体上在本文称为“模块”、“系统”或“计算机”。另外,在本公开中描述的任何硬件和/或软件技术、过程、函数、部件、引擎、模块或系统可被实施为电路或电路集合。此外,本公开的各方面可采用计算机程序产品的形式,所述计算机程序产品在一个或多个计算机可读介质中体现,所述一个或多个计算机可读介质具有在上面体现的计算机可读程序代码。
可利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述各项的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下各项:具有一个或多个电线的电连接、便携式计算机软磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式压缩光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述各项的任何合适的组合。在此文献的上下文中,计算机可读存储介质可以是可含有或存储程序以供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合的任何有形介质。
上文参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图说明和/或框图来描述本公开的各方面。应理解,流程图图解和/或框图的每个框以及流程图图解和/或框图中的框的组合可由计算机程序指令实施。可将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。所述指令在经由计算机或其他可编程数据处理设备的处理器执行时使得能够实施在流程图和/或框图的框中指定的功能/动作。此类处理器可以是(非限制)通用处理器、特殊用途处理器、专用处理器或现场可编程门阵列。
图中的流程图和框图说明根据本公开的各种实施方案的系统、方法和计算机程序产品的可能的实现方式的架构、功能性和操作。在此方面,流程图或框图中的每个框可表示代码的模块、段或部分,其包括用于实施指定逻辑功能的一个或多个可执行指令。还应注意,在一些替代性实现方式中,框中所述的功能可能不以图中所述的次序发生。举例来说,连续示出的两个框实际上可基本上同时地执行,或者有时可依据所涉及的功能性而按照颠倒的次序执行所述框。还将注意,可通过执行指定功能或动作的基于专用硬件的系统或者专用硬件与计算机指令的组合来实施框图和/或流程图说明的每个框以及框图和/或流程图说明中的框的组合。
虽然前述内容是针对本公开的实施方案,但在不脱离本公开的基本范围的情况下,可设计出本公开的其他和另外的实施方案,并且由所附权利要求书确定本公开的范围。

Claims (20)

1.一种训练用于音频特征检测模型的用户特定扰动生成器的计算机实施的方法,所述计算机实施的方法包括:
接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征;
接收所述用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性;以及
对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练是基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本,
其中利用所述用户特定扰动来扰动所述用户的音频样本致使音频特征检测模型辨识包括所述音频特征的所述用户的音频样本中的所述音频特征,并且制止辨识不包括所述音频特征的所述用户的音频样本中的所述音频特征。
2.如权利要求1所述的计算机实施的方法,所述计算机实施的方法还包括:从所存储的一组一个或多个否定音频样本中选择与所述一个或多个肯定音频样本中的至少一者共享声学相似性的所述一个或多个否定音频样本中的每一者。
3.如权利要求1所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:
利用所述用户特定扰动来扰动所述一个或多个肯定音频样本中的第一肯定音频样本以生成所述一个或多个肯定音频样本的被扰动的肯定音频样本,以及
调整所述用户特定扰动生成器模型以生成音频样本扰动,所述音频样本扰动增加在包括所述音频特征的预定音频样本与所述一个或多个肯定音频样本的被扰动的肯定音频样本之间的声学相似性。
4.如权利要求1所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:
利用所述用户特定扰动来扰动所述一个或多个肯定音频样本中的第一肯定音频样本以生成被扰动的肯定音频样本,
利用所述用户特定扰动来扰动所述一个或多个否定音频样本中的第一否定音频样本以生成被扰动的否定音频样本,以及
调整所述用户特定扰动生成器模型以生成音频样本扰动,所述音频样本扰动减小所述被扰动的肯定音频样本与所述被扰动的否定音频样本之间的声学相似性。
5.如权利要求1所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:
利用所述用户特定扰动来扰动音频特征检测模型内的所述一个或多个肯定音频样本中的第一肯定音频样本的内部表示,以生成所述第一肯定音频样本的被扰动的内部表示,以及
调整所述用户特定扰动生成器模型以生成内部表示扰动,所述内部表示扰动增加包括所述音频特征的预定音频样本的内部表示与所述第一肯定音频样本的所述被扰动的内部表示之间的相似性。
6.如权利要求1所述的计算机实施的方法,其中对抗性地训练所述用户特定扰动生成器模型还包括:
利用所述用户特定扰动来扰动音频特征检测模型内的所述一个或多个肯定音频样本中的第一肯定音频样本的内部表示,以生成所述第一肯定音频样本的被扰动的内部表示,
利用所述用户特定扰动来扰动所述音频特征检测模型内的所述一个或多个否定音频样本中的第一否定音频样本的内部表示,以生成所述第一否定音频样本的被扰动的内部表示,以及
调整所述用户特定扰动生成器模型以生成内部表示扰动,所述内部表示扰动减小所述第一肯定音频样本的所述被扰动的内部表示与所述第一否定音频样本的所述被扰动的内部表示之间的相似性。
7.如权利要求1所述的计算机实施的方法,其中所述用户特定扰动是音频样本扰动,将利用所述音频样本扰动来扰动所述用户的音频样本以生成所述用户的被扰动的音频样本。
8.如权利要求1所述的计算机实施的方法,所述计算机实施的方法还包括:
通过所述用户特定扰动生成器模型生成所述用户特定扰动作为音频样本扰动;以及
将所述音频样本扰动发送到音频特征检测模型,其中通过所述音频特征检测模型对基于被所述音频样本扰动所扰动的所述用户的音频样本的被扰动的音频样本进行分类,以确定所述音频样本是否包括所述音频特征。
9.如权利要求1所述的计算机实施的方法,所述计算机实施的方法还包括:
利用所述用户特定扰动来扰动所述用户的音频样本以生成被扰动的音频样本;以及
将所述被扰动的音频样本发送到音频特征检测模型,其中通过所述音频特征检测模型对所述被扰动的音频样本进行分类,以确定所述音频样本是否包括所述音频特征。
10.如权利要求1所述的计算机实施的方法,其中所述用户特定扰动是内部表示扰动,将利用所述内部表示扰动来扰动音频特征检测模型内的所述用户的音频样本的内部表示,以生成所述用户的所述音频样本的被扰动的内部表示。
11.一种存储指令的非暂时性计算机可读介质,所述指令在由处理器执行时致使所述处理器执行以下步骤:
接收用户的一个或多个肯定音频样本,所述一个或多个肯定音频样本中的每一者都包括音频特征;
接收所述用户的一个或多个否定音频样本,所述一个或多个否定音频样本中的每一者与所述一个或多个肯定音频样本中的至少一者共享声学相似性;以及
对抗性地训练用户特定扰动生成器模型以生成用户特定扰动,所述训练是基于所述一个或多个肯定音频样本和所述一个或多个否定音频样本,
其中利用所述用户特定扰动来扰动所述用户的音频样本致使音频特征检测模型辨识包括所述音频特征的所述用户的音频样本中的所述音频特征,并且制止辨识不包括所述音频特征的所述用户的音频样本中的所述音频特征。
12.如权利要求11所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质还包括:基于从所述用户接收的所述一个或多个肯定音频样本而选择所述一个或多个否定音频样本中的每一者。
13.如权利要求11所述的非暂时性计算机可读介质,其中所述一个或多个否定音频样本中的每一者是基于以下各项中的一者或多者而与所述一个或多个肯定音频样本中的至少一者共享声学相似性的所述用户的口头表达,
所述用户的口音,
所述用户的方言,或
所述用户的说话方式。
14.如权利要求11所述的非暂时性计算机可读介质,其中接收所述用户的所述一个或多个否定音频样本还包括:请求所述用户提供所述一个或多个否定音频样本。
15.如权利要求11所述的非暂时性计算机可读介质,其中所述用户特定扰动是音频样本扰动,将利用所述音频样本扰动来扰动所述用户的音频样本以生成所述用户的被扰动的音频样本。
16.如权利要求11所述的非暂时性计算机可读介质,其中所述用户特定扰动是内部表示扰动,将利用所述内部表示扰动来扰动所述音频特征检测模型内的所述用户的音频样本的内部表示,以生成所述用户的所述音频样本的被扰动的内部表示。
17.如权利要求11所述的非暂时性计算机可读介质,其中所述声学相似性是以下各项中的至少一者,
所述一个或多个肯定音频样本中的第一肯定音频样本的频谱与所述一个或多个否定音频样本中的第一否定音频样本的频谱之间的频谱差异,所述频谱差异在频谱差异阈值内,或
所述一个或多个肯定音频样本中的第一肯定音频样本的音素序列与所述一个或多个否定音频样本中的第一否定音频样本的音素序列之间的音素序列差异,所述音素序列差异在音素序列差异阈值内。
18.一种确定用户与装置之间的交互的系统,所述系统包括:
存储器,所述存储器存储指令,以及
一个或多个处理器,所述一个或多个处理器执行所述指令以执行多个步骤,所述步骤包括:
从用户接收音频样本;
接收与所述用户相关联的用户特定扰动;以及
基于所述音频样本和所述用户特定扰动而确定所述音频样本是否包括音频特征。
19.如权利要求18所述的系统,其中:
所述用户特定扰动是音频样本扰动;并且
确定所述音频样本是否包括所述音频特征包括:
利用所述音频样本扰动来扰动所述音频样本以生成被扰动的音频样本;以及
经由音频特征检测模型对所述被扰动的音频样本进行分类。
20.如权利要求18所述的系统,其中:
所述用户特定扰动是内部表示扰动;并且
确定所述音频样本是否包括所述音频特征包括:
经由音频特征检测模型处理所述音频样本以生成所述音频样本的内部表示;
利用所述内部表示扰动来扰动所述内部表示以生成被扰动的内部表示;以及
经由所述音频特征检测模型对所述被扰动的内部表示进行分类。
CN202210820101.8A 2021-07-14 2022-07-12 音频特征检测技术 Pending CN115700877A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/375,927 US20230017728A1 (en) 2021-07-14 2021-07-14 Techniques for audio feature detection
US17/375,927 2021-07-14

Publications (1)

Publication Number Publication Date
CN115700877A true CN115700877A (zh) 2023-02-07

Family

ID=82558023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210820101.8A Pending CN115700877A (zh) 2021-07-14 2022-07-12 音频特征检测技术

Country Status (4)

Country Link
US (1) US20230017728A1 (zh)
EP (1) EP4120244A1 (zh)
KR (1) KR20230011894A (zh)
CN (1) CN115700877A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116634437B (zh) * 2023-05-16 2023-12-26 中国人民解放军国防科技大学 一种基于频率选择的对抗样本信号波形生成方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US8934652B2 (en) * 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US10049197B2 (en) * 2014-07-14 2018-08-14 Knuedge Incorporated System and methods for personal identification number authentication and verification
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10540961B2 (en) * 2017-03-13 2020-01-21 Baidu Usa Llc Convolutional recurrent neural networks for small-footprint keyword spotting
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10832671B2 (en) * 2018-06-25 2020-11-10 Intel Corporation Method and system of audio false keyphrase rejection using speaker recognition
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
US11676582B2 (en) * 2019-02-27 2023-06-13 Google Llc Detecting conversations with computing devices
US11282500B2 (en) * 2019-07-19 2022-03-22 Cisco Technology, Inc. Generating and training new wake words
US11341954B2 (en) * 2019-12-17 2022-05-24 Google Llc Training keyword spotters
CN114158283A (zh) * 2020-07-08 2022-03-08 谷歌有限责任公司 自动语音识别中误认的识别和利用
US11545133B2 (en) * 2020-10-12 2023-01-03 Google Llc On-device personalization of speech synthesis for training of speech model(s)
US11741944B2 (en) * 2020-11-24 2023-08-29 Google Llc Speech personalization and federated training using real world noise
US20220366901A1 (en) * 2021-05-12 2022-11-17 Bank Of America Corporation Intelligent Interactive Voice Recognition System

Also Published As

Publication number Publication date
EP4120244A1 (en) 2023-01-18
US20230017728A1 (en) 2023-01-19
KR20230011894A (ko) 2023-01-25

Similar Documents

Publication Publication Date Title
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
CN109964270B (zh) 用于关键短语识别的系统和方法
EP3966809B1 (en) Wake word selection assistance architectures and methods
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US11574637B1 (en) Spoken language understanding models
US20200202869A1 (en) Targeted voice separation by speaker conditioned on spectrogram masking
EP4139816B1 (en) Voice shortcut detection with speaker verification
WO2021162675A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
JP2023550135A (ja) パーソナライズされた否定語に基づいてホットワード認識を適応させること
US20240013784A1 (en) Speaker recognition adaptation
CN115552516A (zh) 校正口头话语的语音误识别
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
CN115700877A (zh) 音频特征检测技术
US20230352004A1 (en) Mixed client-server federated learning of machine learning model(s)
US11646035B1 (en) Dialog management system
US11645468B2 (en) User data processing
US11250853B2 (en) Sarcasm-sensitive spoken dialog system
US10649725B1 (en) Integrating multi-channel inputs to determine user preferences
US12033641B2 (en) Voice shortcut detection with speaker verification
US11929070B1 (en) Machine learning label generation
US20240013782A1 (en) History-Based ASR Mistake Corrections
Gyulyustan et al. Measuring and analysis of speech-to-text accuracy of some automatic speech recognition services in dynamic environment conditions
CN116844555A (zh) 车辆语音交互的方法及装置、车辆、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination