CN118251718A - 使用错误拒绝的数据改善对基于语音的关键词的检测 - Google Patents

使用错误拒绝的数据改善对基于语音的关键词的检测 Download PDF

Info

Publication number
CN118251718A
CN118251718A CN202180102506.1A CN202180102506A CN118251718A CN 118251718 A CN118251718 A CN 118251718A CN 202180102506 A CN202180102506 A CN 202180102506A CN 118251718 A CN118251718 A CN 118251718A
Authority
CN
China
Prior art keywords
user
keyword
samples
true
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180102506.1A
Other languages
English (en)
Inventor
魏军
董晓霞
潘启蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN118251718A publication Critical patent/CN118251718A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Lock And Its Accessories (AREA)

Abstract

本文描述的技术涉及使用已经被错误拒绝的用户音频样本来改善用户关键词检测模型。在一些实施例中,用户设备(UE)可以检测用户在说出关键词时的多次尝试。匹配由UE实现的关键词模型的真关键词可以激活期望的功能,诸如发起助理应用、发起特定应用、从较低功率状态唤醒、转换到较低功率状态、切换功率节省模式、解锁或锁定设备等。在检测到真关键词之前说出但被错误拒绝的任何真关键词可以被发送到服务器以训练关键词模型并生成更新的关键词模型。UE可以接收更新的关键词模型以替换正在使用的关键词模型,从而允许UE不断地提高关键词检测准确性。

Description

使用错误拒绝的数据改善对基于语音的关键词的检测
技术领域
本公开内容总体上涉及用户设备的领域,以及更具体地,涉及消费者设备的音频和语音检测。
背景技术
语音识别技术已经变得越来越普遍并且被有能力的设备的消费者和用户更频繁地用作手动或触觉控制的替代。语音命令可以发布到移动用户设备、物联网(IOT)设备、“智能家居”设备等。作为示例,用户能够在接近设备时通过说出短语或关键词(诸如指派给设备的助理个性或制造商的名称)来快速地将移动设备从睡眠状态唤醒或提出助理应用。该特征已经成为用户日常生活中的便利。
发明内容
本文公开了涉及使用已经被错误拒绝的用户音频样本来改善用户关键词检测模型的技术。在一些实施例中,用户设备(UE)可以检测用户在说出关键词时的多次尝试。匹配由UE实现的关键词模型的真关键词可以激活期望的功能,诸如发起助理应用、发起特定应用、从较低功率状态唤醒、转换到较低功率状态、切换功率节省模式、解锁或锁定设备等。在检测到真关键词之前说出但已被错误拒绝的任何真关键词可以被发送到服务器以训练关键词模型并生成更新的关键词模型。UE可以接收更新的关键词模型以替换正在使用的关键词模型,从而允许UE不断地提高关键词检测准确性。
在本公开内容的一个方面中,公开了一种更新用户设备上的用户音频检测模型的方法。在一些实施例中,所述方法包括:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
在本公开内容的另一方面中,公开了能够改善用户音频检测模型的用户设备。在一些实施例中,所述用户设备包括:存储器;以及处理器,其耦合到所述存储器,并且可操作地被配置为:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
在一些实施例中,所述用户设备包括:用于实现所述用户音频检测模型的单元,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;用于检测来自用户的音频的单元;用于使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在的单元;用于响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据的单元,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;用于将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分的单元,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及用于从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型的单元。
在本公开内容的另一方面中,公开了一种非瞬态计算机可读装置。在一些实施例中,所述存储介质包括多个指令,所述多个指令在由一个或多个处理器执行时,使得用户设备进行以下操作:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
附图说明
图1是根据实施例的通信系统的示意图。
图2是示出一种使用场景的框图,其中关键词在不同时间点被检测为真关键词样本、被拒绝为错误拒绝的真关键词样本、以及被拒绝为假关键词样本。
图3是示出被配置为实现一种机制的系统的框图,在该机制中,基于用户设备(UE)检测到错误拒绝的真关键词样本来更新用户关键词模型。
图4是根据实施例的使用错误拒绝的数据来改善对UE上的基于语音的关键词的检测的方法的流程图。
图5是根据另一实施例的使用错误拒绝的数据来改善对UE上的基于语音的关键词的检测的方法的流程图。
图6是根据一个实施例的训练用于使用错误拒绝的数据来检测基于语音的关键词的模型的方法的流程图。
图7是可以在如本文描述的实施例中利用的UE的实施例的框图。
图8是可以在如本文所述的实施例中利用的计算机系统的实施例的框图。
根据某些示例实现,各个附图中相似的附图标记指示相似的元件。
具体实施方式
虽然通过利用用户的语音训练用户设备而使语音识别可能变得更准确,但是足够数量的训练样本是训练或生成关键词检测模型中最重要的因素之一。难以收集具有独特声纹特征(例如,音调、音高、音色、速度、重音、其它光谱模式)的用户的足够训练样本。支持语音的设备的大多数制造商通常要求用户多次说出正确的关键词以识别用户的声纹并在能够使用相关联的特征(例如,唤醒设备、激活助理)之前训练关键词检测模型。这些样本通常缺乏良好的性能,即关键词的准确检测。此外,该训练后的关键词检测模型在训练后是固定的,因此不能连续或递增地改善。相反,模型必须被完全丢弃和重新训练。重新训练仍然使用有限数量的语音样本,产生与之前相同的限制。
本公开内容的各方面描述了一种用于在用户自然说出关键词音频数据时从用户自动收集关键词音频数据并标识被检测模型拒绝的话语的机制。特别地,错误拒绝的关键词音频数据可以用于改善关键词检测模型。错误拒绝的关键词音频数据可以作为训练样本,作为对现有关键词检测模型的补充,这允许模型不断提升,性能更好,并具有更高的检测准确度和检测率。
虽然术语“关键词”在描述中以其单数形式用于指代,但是将理解,本文描述的相同技术可以应用于单字话语和多字话语。这种多字话语的实例(共同地和通俗地称为“短语”)也可以称为“关键词”。相反,多个意义上的“关键词”可以指至少一个关键词的多个实例,无论是相同的关键词还是不同的关键词。例如,第一、第二和第三关键词(如下面关于图2和图3所讨论的)可以是说出相同关键词的三个单独的实例和/或尝试。此外,“关键词样本”具体可以指与关键词相关联的音频数据(包括语音数据)。
图1是根据实施例的通信系统100的简化图示,其中UE 105、外部客户端180和/或通信系统100的其它组件可以使用本文提供的用于改善用户关键词检测模型的技术。本文描述的技术可以由通信系统100的一个或多个组件来实现。通信系统100可以包括:UE 105、基站120、接入点(AP)130、网络170和外部客户端180。一般而言,通信系统100可以基于由UE105接收和/或从UE 105发送的RF信号以及发送和/或接收RF信号的其它组件(例如,基站120、AP 130)来实现这些元件中的任何元件与这些元件中的任何其它元件之间(例如,经由网络170在UE 105与外部客户端180之间)的数据通信。
应当注意的是,图1仅提供了各种组件的一般说明,可以适当地利用其中的任何组件或所有组件,并且根据需要可以复制其中的每个组件。具体地,尽管仅示出了一个UE105,但是应当理解,许多UE(例如,数百、数千、数百万等)可以利用定位系统100。类似地,通信系统100可以包括比图1中所示出的要多或要少数量的基站120和/或AP 130。所示的连接通信系统100中的各种组件的连接包括数据和信令连接,其可以包括额外(中间)组件、直接或间接物理和/或无线连接和/或额外网络。此外,根据期望功能,组件可以被重新排列、组合、分开、替代和/或省略。在一些实施例中,例如,外部客户端180可以直接连接到UE 105或一个或多个其它UE 145。本领域普通技术人员将认识到对所示组件的许多修改。
取决于期望的功能,网络170可以包括各种无线和/或有线网络中的任何一项。网络170可以例如包括公共和/或专用网络、局域网和/或广域网等的任何组合。此外,网络170可以利用一种或多种有线和/或无线通信技术。在一些实施例中,网络170可以包括例如蜂窝或其它移动网络、无线局域网(WLAN)、无线广域网(WWAN)和/或互联网。网络170的示例包括长期演进(LTE)无线网络、第五代(5G)无线网络(也称为新无线电(NR)无线网络或5G NR无线网络)、Wi-Fi WLAN和互联网。LTE、5G和NR是由第三代合作伙伴计划(3GPP)已经定义或正在定义的无线技术。网络170还可以包括多于一个的网络和/或多于一种类型的网络。
基站120和接入点(AP)130可以通信地耦合到网络170。在一些实施例中,基站120可以由蜂窝网络提供商拥有、维护和/或操作,并且可以采用各种无线技术中的任何无线技术,如下文所述。取决于网络170的技术,基站120可以包括节点B、演进型节点B(eNode B或eNB)、基站收发机(BTS)、无线电基站(RBS)、NR节点B(gNB)、下一代eNB(ng-eNB)等。作为gNB或ng-eNB的基站120可以是下一代无线电接入网络(NG-RAN)的一部分,在网络170是5G网络的情况下,NG-RAN可以连接到5G核心网(5GC)。例如,AP 130可以包括Wi-Fi AP或AP或具有蜂窝能力的AP(例如,4G LTE和/或5G NR)。因此,UE 105可以通过使用第一通信链路133经由基站120接入网络170来与网络连接的设备(诸如外部客户端180)发送和接收信息。另外地或替代地,因为AP 130也可以与网络170通信地耦合,所以UE 105可以使用第二通信链路135或经由一个或多个其它UE 145来与包括外部客户端180的网络连接的和互联网连接的设备进行通信。
如本文所使用的,术语“基站”一般可以指单个物理传输点或多个共址的物理传输点,其可以位于基站120处。发送接收点(TRP)(也称为发送/接收点)对应于这种类型的传输点,术语“TRP”在本文中可以与术语“gNB”、“ng-eNB”和“基站”互换使用。在一些情况下,基站120可以包括多个TRP,例如,每个TRP与针对基站120的不同天线或不同天线阵列相关联。物理传输点可以包括基站120的天线阵列(例如,如在多输入多输出(MIMO)系统中和/或其中基站采用波束成形)。术语“基站”可以另外地指多个非共址的物理传输点的情况下,物理传输点可以是分布式天线系统(DAS)(经由传输介质连接到公共源的空间上分开的天线的网络)或远程无线电头端(RRH)(连接到服务基站的远程基站)。
如本文所使用的,术语“小区”可以一般地指代用于与基站120的通信的逻辑通信实体,并且可以与用于对经由相同或者不同的载波进行操作的相邻小区进行区分的标识符(例如,物理小区标识符(PCID)、虚拟小区标识符(VCID))相关联。在一些示例中,载波可以支持多个小区,并且不同的小区可以根据可以为不同类型的设备提供接入的不同的协议类型(例如,机器类型通信(MTC)、窄带物联网(NB-IoT)、增强型移动宽带(eMBB)或者其它)来配置。在一些情况中,术语“小区”可以指代逻辑实体在其上进行操作的地理覆盖区域的一部分(例如,扇区)。
外部客户端180可以是web服务器或远程应用,其可以与UE 105具有某种关联(例如,可以由UE 105的用户接入),或者可以是向某个或某些其它用户提供数据服务的服务器、应用或计算机系统。web服务器可以包括数据存储介质或模块。这样的数据存储模块可以存储与UE 105或UE 105的用户相关联的简档数据或用户数据。
错误拒绝的关键词的检测
图2是示出一种使用场景的框图,其中关键词在不同时间点被检测为真关键词样本、被拒绝为错误拒绝的真关键词样本、以及被拒绝为假关键词样本。
在此上下文中,“真关键词样本”可以指具有对应于用户关键词模型(利用UE的用户训练)的特性(例如,频谱特性)和/或一个或多个存储的关键词音频数据的音频或语音数据。对真关键词样本的检测可以激活UE的一个或多个功能(发起助理应用、发起特定应用、从较低功率状态唤醒、转换到较低功率状态、切换功率节省模式、解锁或锁定设备等)。在一些实施例中,多个关键词可以激活对应的期望功能。关键词和功能可能不一定具有一对一关系;即,给定功能可以由多于一个的关键词发起或激活。在一些情况下,如果UE不能将关键词与背景噪声区分开,或者如果UE由于与用户关键词模型不匹配而没有将话语识别为关键词,则UE可能不会将说出的关键词检测为真关键词。
在该上下文中,“错误拒绝的真关键词样本”可以指具有与用户关键词模型和/或一个或多个存储的关键词音频数据相对应的一些特性的音频或语音数据,但是在检测到时不激活UE的任何功能。错误拒绝的真关键词样本的示例可以包括尚未与UE相关联(例如,注册或训练)的用户的关键词话语、已经从太远的距离说出而不能以足够的保真度、清晰度或音量拾取的关键词、或者用混淆音频的背景噪声说出的关键词。
在该上下文中,“假关键词样本”可以指不具有与用户关键词模型或任何存储的关键词音频数据相对应的任何特性的音频或语音数据。假关键词样本可以是由不同于与UE相关联的用户的不同用户说出的关键词、听起来类似于关键词的不同单词、用户不正确地说出的关键词、背景对话等。用户在UE附近做出的许多话语或UE检测到的音频将属于这一类别。
参考图2,用户202可以尝试说出关键词204一次或多次,使得UE 105可以经由例如与其集成或与其连接的麦克风来检测说出的关键词的存在。这样的麦克风可以检测音频且引起音频数据的记录,包括对应于关键词样本的音频数据以及背景噪声。
在一些实施例中,UE 105可以维护数字信号处理(DSP)缓冲器206。DSP缓冲器206可以被配置为连续地记录由UE 105的麦克风检测到的音频数据。DSP缓冲器206的长度可以被设置为规定的时间长度,例如,最后10秒。在一些实现中,可以丢弃在规定时间长度之前的记录。在一些实现中,可以存储超过规定时间长度的先前记录以供稍后分析或训练。
在一些实施例中,DSP缓冲器可以保持动态确定的时间长度。例如,时间长度可以从10秒变化到30秒,这取决于诸如接收到的音频的特性之类的因素,例如,过多的背景噪声导致对额外用户音频关键词样本的需求,或者过多的检测到的关键词样本注册为假关键词样本并且导致对额外关键词样本的需求。作为另一示例,如果UE 105正在执行需要大量存储器或处理能力的其它动作,则时间长度可以暂时从10秒减小到5秒,或者直到满足另一条件。
在一些实施例中,DSP缓冲器206可以切换到非连续模式,其中当满足某些标准时,缓冲器是活动的或变为活动的或非活动的。例如,如果UE 105处于低电池模式,则DSP缓冲器206可以变得不活动或周期性地活动,以便减少和节省功率并对UE的其它功能进行优先级排序。作为另一示例,DSP缓冲器206可以在UE 105进入低功率状态(例如,睡眠模式)时变得活跃,因为该较低功率状态增加了用户将尝试唤醒UE 105的可能性,从而使得UE 105能够从用户收集关键词样本。作为另一示例,如果UE 105正在执行需要大量存储器或处理能力的其它动作,则DSP缓冲器206可以变得不活动,以便将资源转移到较高优先级动作。作为另一示例,DSP缓冲器206可以基于一天中的时间(例如,在2AM和6AM之间或当UE不太可能被使用时的其它时间变得不活动)、设备活动(例如,当没有注册用户输入或在一段时间内没有检测到用户使用时变得不活动)、音频活动(例如,当过去30分钟内没有检测到声音时变得不活动或间歇地活动(例如,10分钟开启、10分钟关闭))和/或其它使用指示符变得不活动。
在一些实施例中,UE可以利用用户关键词模型212来确定说出的关键词样本是否是真关键词(这将导致执行期望的UE功能)。在一些实施例中,用户关键词模型212可以在UE上存储和操作。在其它实施例中,用户关键词模型212可以存储在UE外部的存储装置中,例如,存储在联网存储介质上、服务器上或其它可接入存储介质上。用户关键词模型212可以是先前利用任何合适的监督、无监督、半监督和/或强化学习算法结合初始收集的音频数据样本(在例如UE 105的语音识别特征的设置期间输入)训练(至少使用例如前向传播和反向传播)并存储在UE 105的存储器中的学习模型。用户关键词模型212可以基于神经网络(NN)。应用于用户关键词模型212的算法可以包括分类算法,诸如逻辑回归、支持向量机(SVM)、朴素贝叶斯、最近邻(例如,k最近邻(K-NN))、随机森林、高斯混合模型(GMM)等。学习算法的至少一部分还可以包括诸如线性回归之类的非分类算法。
在一些实施例中,用户关键词模型212可以继续至少利用错误拒绝的关键词来训练。可以基于从用户202收集的额外音频数据样本(例如,错误拒绝的真关键词样本)在UE外部(例如,在web服务器180上)更新用户关键词模型212。
再次参考图2,用户202可以说出关键词204的三个实例以尝试将UE 105从低功率状态唤醒或激活应用(例如,助理应用),但是由用户的话语激活的期望功能不限于这样的动作。
UE 105可以检测与第一用户话语相关联的音频,并且在DSP缓冲器206上收集检测到的语音数据作为第一关键词208。图2中所示出的DSP缓冲器206可以已收集包含背景噪声210和/或静默时段的先前音频样本。第一关键词208可以被用户关键词模型212识别为关键词,但是可以不被识别为关键词的真实话语以激活期望的功能(例如,唤醒设备、激活助理)。换句话说,第一关键词208可以是错误拒绝的真关键词样本或假关键词样本。此时,还不知道关键词是否被错误拒绝为真关键词或实际上是假关键词。
在一些实施例中,关键词是否被识别为真关键词的充分性可以取决于诸如用户的语音简档(音调、音高、音色、速度、口音、频谱特性等)和/或基于检测到的音频数据与已经被训练以供UE 105使用的用户关键词模型212的相似性的因素。用户关键词模型212可以使得能够检测在所收集的音频数据样本(例如,关键词样本)和所存储的关键词音频数据之间是否存在至少部分匹配,即,在关键词样本和与真关键词相关联的音频数据之间是否存在足够的匹配。
在一些实施例中,可以基于一个或多个门限来确定检测到的音频数据与用户关键词模型212之间的相似性。在一些实施例中,可以基于满足或超过与用户关键词模型相关联的第一相似性门限但不满足或超过第二相似性门限来确定错误拒绝的真关键词样本的存在。换句话说,错误拒绝的真关键词样本可能与真关键词相似,并且可能用作进一步训练用户关键词模型的样本,但是可能不被认为与可以被视为真关键词样本的样本“足够相似”。真关键词样本可以满足或超过第二相似度门限。
此外,可以基于既不满足也不超过第一相似性门限来确定假关键词样本的存在(与错误拒绝的真关键词相反)。这样的假关键词样本对于训练用户关键词模型可能不是有用的,并且在许多情况下可能被丢弃。
在一些实施例中,由用户关键词模型212做出的唯一区别可以是检测到的音频数据是否是真关键词样本。例如,一个门限可以区分(i)真关键词样本和(ii)错误拒绝的真关键词样本或假关键词样本。如将关于图3讨论的,简单关键词模型316可以区分错误拒绝的真关键词样本和假关键词样本。
在一些实施例中,关键词是否被识别为真关键词的充分性可以基于不同的(第二)用户关键词模型(未示出)。与其它用户关键词模型(例如,用户关键词模型212)相比,这种用户关键词模型可以具有不同或更少的检测标准。例如,在一些实现中,第二用户关键词模型可以比较关键词本身的音频特性(例如,频谱峰值的位置),但不考虑与谁的声音说话或者哪个用户说出关键词。在一些实现中,第二用户关键词模型(或另一用户关键词模型)可以基于表示音频的梅尔频率倒谱系数(MFCC)来确定单词或音素存在于关键词中的可能性。也就是说,当使用具有不同或更少检测标准的第二用户关键词模型时,可以忽略音高、音调、音色和其它声纹特性。根据使用情况,包括更少或额外的检测标准可以降低或增加比较的严格性。在所有情况下,错误拒绝的关键词真关键词样本可以用作至少用于第二用户关键词模型的训练数据。
返回参考图2,如果与第一关键词208相关联的音频数据不向用户202产生期望的结果(例如,唤醒、激活助理),则用户202可以在短时间间隔之后再次尝试第二话语。如图2所示,UE 105可以检测并收集DSP缓冲器206上的第二话语的检测到的语音数据作为第二关键词214。再次,第二关键词214可以被识别为关键词,但是可以不被识别为关键词的真实话语以激活期望的功能,即,另一错误拒绝的真关键词样本或假关键词样本。
当UE不按预期利用期望的功能进行响应时,用户可以再次尝试第三次说话。UE105可以检测并收集DSP缓冲器206上的第三话语的检测到的语音数据作为第三关键词216。第三关键词216可以被用户关键词模型212识别为真关键词,激活期望的功能(例如,唤醒、激活助理)。
在这种场景中,DSP缓冲器206将在规定的时间长度(例如,10秒)内捕获三个关键词话语作为关键词208、214和216以及与关键词相邻的背景噪声210。关键词216对期望功能的激活可以向UE 105指示在DSP缓冲器206中捕获的与先前关键词208、214相对应的音频数据可以是用于更新用户关键词模型212的有用训练数据。为了强调,错误拒绝的真关键词可以用于在持续的基础上提高检测准确性,而不是迫使用户适应或承受初始训练的不准确性。
图3是示出被配置为实现一种机制的系统的框图,在该机制中,基于UE(例如,UE105)检测到错误拒绝的真关键词样本来更新用户关键词模型。在一些实施例中,用户202可以尝试说出关键词204一次或多次,使得UE 105可以经由例如与其集成或与其连接的麦克风来检测说出的关键词的存在,如关于图2所讨论的。DSP缓冲器206可以维持在UE 105中,并且记录对应于三个关键词208、214和216的话语的语音数据以及背景噪声210达规定的时间长度(例如,10秒),如关于图2所讨论的。
在一些实施例中,UE 105可以包括检测模块302。检测模块302可以包括被配置为检测和/或识别音频数据并将音频数据与现有用户关键词模型212进行比较的硬件和/或软件组件。检测模块302可以包括被配置为接收音频数据的数据接口。检测模块302可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由一个或多个处理器装置304执行以执行上述功能。在一些实现中,检测模块302可以包括其自身的处理器以执行指令。耦合到处理器装置304的一个或多个存储器306还可以包括被配置为由用于本文公开的模块中的各种模块的处理器304执行的指令。
可以将与每个潜在关键词(例如,208、214、216)相关联的音频数据发送到检测模块302。例如,与第一关键词208相关联的音频数据可以由检测模块302评估与用户关键词模型212的匹配。如上所述,用户关键词模型212可能先前已经被发起和训练。用于第一关键词208的音频可以由检测模块302确定为不是真关键词样本。随后检测到的针对第二关键词214的音频也可以由检测模块302确定为不是真关键词样本。随后检测到的针对第三关键词216的音频可以基于通过例如相对于与如上所述的用户关键词模型212相关联的第一相似性门限和第二相似性门限进行比较而确定的足够匹配而被视为真关键词样本。
基于对真关键词的检测,检测模块212可以引起用户界面308的激活。在一些实现中,用户界面(UI)308可以是能够至少进行语音激活和基于语音的辅助(通过音频请求用户命令、叙述新闻、询问约会细节等)的助理应用。在一些实现中,UI 308可以包括唤醒或解锁过程,其使得与UE 105相关联的屏幕打开。可以基于对真关键词的检测来激活许多其它功能。
在一些实施例中,UE 105可以包括音频拆分模块310。音频拆分模块310可以包括硬件和/或软件组件,其被配置为(i)从DSP缓冲器206接收DSP缓冲器206中在检测到的真关键词216之前的音频数据312,(ii)过滤掉背景噪声210和/或静默时段,以及(iii)将音频数据312的任何剩余部分拆分并隔离成一个或多个关键词(例如,208和/或214)。检测模块302可以包括被配置为接收和发送音频数据的数据接口、音频滤波器电路和/或音频拆分器。音频拆分模块310可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由一个或多个处理器装置304执行以执行上述功能。在一些实现中,音频拆分模块310可以包括其自身的处理器以执行指令。
在一些实施例中,UE 105可以包括关键词拆分模块314。关键词拆分模块314可以包括硬件和/或软件组件,其被配置为接收与其它真(但是被错误拒绝)和/或非真(假)关键词(例如,208和/或214)相对应的音频数据,并且验证所接收的音频数据是否包含真关键词。此时,尚未确定音频数据是否包含任何实际假关键词样本或错误拒绝的真关键词样本,但是在本讨论中将前述关键词样本如此标记以识别它们。关键词拆分模块314可以包括被配置为接收和发送音频数据的数据接口。关键词拆分模块314可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由一个或多个处理器装置304执行以执行上述功能。在一些实现中,关键词拆分模块314可以包括其自身的处理器以执行指令。
关键词拆分模块314可以包括简单关键词模型316。在一些实施例中,简单关键词模型316可以被配置为检测和比较关键词,但不考虑用户。也就是说,简单关键词模型316可以将关键词本身的音频特性(例如,频谱峰值的位置)与例如与简单关键词模型316相关联的现有音频数据进行比较,但是不考虑例如音高、音调、音色和其它声纹特性,这些声纹特性帮助识别关键词用谁的语音说出的或者哪个用户说出关键词。在一些实施例中,简单关键词模型316可以被配置为基于MFCC来确定关键词中存在单词或音素的可能性。因此,给定其它关键词(例如,208、214)的输入,简单关键词模型316可以将假关键词与已经被错误拒绝的真关键词区分开。上面讨论的不同的(第二)用户关键词模型可以是简单关键词模型316的示例。
在图3的情况下,与第一关键词208相关联的音频数据可以被确定为假关键词样本。也就是说,它不匹配与关键词相关联的简单关键词模型316的任何方面,这指示音频数据不对应于真关键词样本(正确检测到)或错误检测到的真关键词样本。与第二关键词214相关联的音频数据可以被确定为错误检测到的真关键词样本。也就是说,它匹配与简单关键词模型相关联的一些标准。例如,可能已经满足或超过至少相似性门限。
可以丢弃与第一关键词208相关联的音频数据,因为它不被认为对训练用户关键词模型212有用。然而,与第二关键词214相关联的音频数据可以被保留、存储和/或发送到别处,因为音频数据可以用于训练和改善用户关键词模型212。
在替代实施例中,可以使用一个统一关键词模型而不是两个单独的关键词模型来执行关键词检测,即,使用包括用户关键词模型212和简单关键词模型316的功能的至少部分的单个关键词模型。在这样的替代实施例中,可以相对于统一模型而不是用户关键词模型212或简单关键词模型316来评估针对潜在关键词的音频数据。例如,音频数据可以由被配置为实现统一模型的检测模型接收。在一些实现中,一旦检测到真关键词216,统一关键词模型就可以接收整个缓冲器206,而不是仅接收真关键词216的样本或仅接收缓冲器206的其余部分。
在一个场景中,统一模型可以确定给定关键词样本(i)满足或超过相似性门限(例如,上面讨论的第一相似性门限和第二相似性门限)和/或(ii)匹配音频特性以确定关键词样本是真关键词样本,即,“足够相似”以引起或激活期望的功能。
在另一场景中,统一模型可以确定给定关键词样本(i)满足或超过相似性门限(例如,仅第一相似性门限)和/或(ii)匹配音频特性以确定关键词是错误拒绝的真关键词样本,即,不够相似以引起或激活期望的功能,但是足够相似以用于进一步训练模型。
在另一场景中,统一模型可以确定给定关键词样本(i)满足或超过相似性门限(例如,仅第一相似性门限)和/或(ii)不匹配音频特性以确定关键词是假样本。在另一场景中,统一模型可以确定给定关键词样本(i)不满足相似度门限和/或(ii)不匹配音频特性以确定关键词是假样本。
返回参考图3,在一些实施例中,UE 105可以包括上传模块318。在一些实施例中,上传模块318可以被配置为接收和发送从关键词拆分模块314获得的错误拒绝的真关键词样本(例如,214)的至少一部分。上传模块318可以包括数据接口,该数据接口被配置为从其它模块(例如,关键词拆分模块314)接收音频数据,并将音频数据发送到UE 105外部的另一设备(例如,服务器、外部存储装置、另一中间联网设备)。数据接口可以是有线的、有线或无线的(例如,上述任何无线技术)。上传模块318可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由一个或多个处理器装置304执行以执行上述功能。在一些实现中,上传模块318可以包括其自身的处理器以执行指令。
在图3的情况下,上传模块318可以接收与第二关键词214相关联的错误拒绝的真关键词样本。相反,上传模块318可以不接收与第一关键词208相关联的假关键词样本相关联的音频数据,因为它不是对进一步训练有用的真关键词。上传模块318可以将与错误拒绝的真关键词样本相关联的音频数据发送到服务器装置320,其可以是直接发送(例如,有线或有线)或经由网络(例如,无线或其它)。到服务器装置320的发送可以周期性地(例如,每天在预定时间)、在已经收集到多个错误拒绝的真关键词样本之后的分批地、或由用户202手动地或由UE 105确定地发生。
在一些实施例中,服务器装置320可以包括数据存储模块322和训练模块324。数据存储模块322可以被配置为经由上传模块318从UE 105接收错误拒绝的真关键词样本(例如,214)。上传模块318可以包括数据接口,其被配置为从另一装置(例如,UE 105)接收音频数据且使得存储音频数据等。接收接口可以是有线的、有线或无线的(例如,上述任何无线技术)。数据存储模块322可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由服务器装置320的一个或多个处理器装置(未示出)执行以执行上述功能。在一些实现中,数据存储模块322可以包括其自身的处理器以执行指令。
在一些实现中,数据存储模块322可以使得所接收的音频数据的至少一部分存储在与服务器装置320相关联的另一存储装置或存储器上(例如,服务器装置320上或另一服务器上的单独存储装置,或外部存储设备)。数据存储模块322可以被配置为在必要时从其它存储装置或存储器检索音频数据。
如图3所示,数据存储模块322可以接收并存储错误拒绝的真关键词样本。存储装置可以持续一定时间段(例如,2周)或无限时间段(例如,直到手动丢弃或基于溢出(overflow))。所存储的样本可以与作为网络的订户、链接到UE的服务的一部分、操作服务器装置320并提供对用户关键词模型的更新的受管理网络运营商(MNO)的订户等的用户的简档相关联。
训练模块324可以被配置为检索存储在数据存储模块上或经由数据存储模块存储的一个或多个错误拒绝的真关键词样本,并且应用训练算法来生成更新的用户关键词模型。训练模块324可以包括被配置为从数据存储模块322检索音频数据的数据接口。接收接口可以是有线的、有线或无线的(例如,上述任何无线技术)。训练模块324可以包括计算机可读指令或与计算机可读指令相关联,计算机可读指令被配置为由服务器装置320的一个或多个处理器装置(未示出)执行以执行上述功能。在一些实施例中,指令可以被配置为执行训练算法。在一些实现中,训练模块324可以包括其自身的处理器以执行指令。
在一些实施例中,训练模块324可以被配置为结合神经网络(NN)对错误拒绝的真关键词样本使用训练算法,例如机器学习算法。可以基于训练生成新的更新的用户关键词模型326。也就是说,在UE上生成的用户关键词模型212可以不被修改,而是被更新的用户关键词模型326替换。训练模块324可以随后利用额外样本进一步训练更新的用户关键词模型326以生成另一更新的用户关键词模型326。在替代实施例中,用户关键词模型212可以被上传到服务器(例如,经由上传模块318)作为要被更新和替换的初始用户关键词模型。
在一些实施例中,可以实现递归神经网络(RNN),因为它特别适合于语音识别。特别地,通过包括作为网络的一部分的循环,来自先前学习步骤的信息可以持续,从而帮助网络保留先前训练数据(例如,初始和后续训练)并且最终允许更准确地识别真关键词。训练步骤可以利用任何合适的监督、无监督、半监督和/或强化学习算法结合可从数据存储模块322检索的音频数据样本来通过NN至少实现前向传播和反向传播。在一些实施例中,可以使用如上所述的至少分类算法,诸如逻辑回归、支持向量机(SVM)、朴素贝叶斯、最近邻(例如,k最近邻(K-NN))、随机森林、高斯混合模型(GMM)等。学习算法的至少一部分还可以包括非分类算法,诸如线性回归。
根据不同的配置,当已经获得足够数量的错误拒绝的真关键词样本(例如,50个样本)时,或者当用户202手动请求时,使用存储的错误拒绝的真关键词样本训练用户关键词模型以生成更新的用户关键词模型326可以周期性地(例如,在预定时间每周)发生。
在某些实施例中,服务器320还可以例如从检测模块302接收与真关键词样本相关联(与第三关键词216相关联)的音频数据的至少一部分。真关键词样本可以具有与更新用户关键词模型不同量的重要性或相关性(即,可以不提供与模型一样多的改善)。然而,真关键词样本可以用于确认模型的有效性。例如,真关键词样本可以用于推断或测试更新的模型,以确保向UE 105提供更新的用户关键词模型,并且如果由检测模块302实现,则更新的模型将仍然起作用。
在生成更新的用户关键词模型326之后,可以利用例如上述任何无线技术或有线或有线手段经由任何数据传输接口将其发送到UE 105。更新的用户关键词模型326的发送可以周期性地(例如,每天在预定时间)发生,紧接在更新的用户关键词模型326已经被生成之后发生,或者经由用户请求手动发生或由服务器装置320确定。在接收到更新的用户关键词模型326之后,UE 105可以丢弃现有用户关键词模型212并利用更新的用户关键词模型326替换现有用户关键词模型212,并且在评估从用户202检测到的潜在关键词时实现更新的用户关键词模型326。
将被错误拒绝的真关键词的传输可能是有利的,例如,将诸如使用训练算法之类的计算繁重的活动从UE卸载,并且因此节省功率、存储器等。然而,在某些实施例中,对被错误拒绝的真关键词样本的传输可以是可选的。换句话说,在某些实施例中,训练模块(类似于训练模块324)可以驻留在UE 105上,并且可以在UE上训练错误拒绝的真关键词样本,而不将样本发送到诸如服务器320的另一设备。如果例如UE处于具有有限网络接入或没有网络接入的环境中,如果期望用户关键词模型212的立即更新,或者如果用户出于隐私原因而偏好本地维护数据,则这种配置可能是有利的。
方法
图4是根据实施例的使用错误拒绝的数据来改善用户设备(UE)上的基于语音的关键词的检测的方法400的流程图。用于执行图4中所示的一个或多个步骤中所示的功能的单元可以包括UE的硬件和/或软件组件。UE的示例组件在图7中示出,其在下面更详细地描述。关于图1-3讨论的UE 105可以是执行以下步骤的UE的示例。
在步骤402处,UE可以实现现有的用户音频检测模型。现有用户音频检测模型可以是用户关键词模型212的示例。现有用户音频检测模型可以基于一个或多个真关键词样本,例如,最初通过使用户多次发声和重复关键词来训练。
真关键词样本可以被配置为在由UE检测到并且由现有用户音频检测模型进行的评估指示检测到的关键词样本与由模型施加的一个或多个标准匹配时,基于在训练用户音频检测模型之后检测到的真关键词样本来改变UE的操作状态。在一些实施例中,操作状态改变的示例包括发起助理应用、发起特定应用、从较低功率状态唤醒、转换到较低功率状态、切换功率节省模式、解锁或锁定设备等。在一些实施例中,操作状态的改变通常可以包括UE的一个或多个功能的性能。
用于执行步骤402的单元可以包括检测模块(例如,302)和/或UE的其它组件,如图3和7中所示出的。
在步骤404处,UE可以检测来自用户(例如,202)的音频。在一些实施例中,来自用户的音频包括由用户说出的一个或多个基于语音的关键词。关键词的多个实例可以出现在音频中。音频可以包括背景噪声和/或静默时段。
用于执行步骤404的单元可以包括UE的组件(例如,麦克风),如图3和7中所示出的。
在步骤406处,UE可以使用现有用户音频检测模型来检测来自用户的音频中的真关键词样本。在一些实施例中,可以经由针对诸如用户的语音简档之类的因素的评估和/或基于检测到的音频数据与用户关键词模型的相似性来将真关键词确定为真关键词。
真关键词样本可以包含于由UE维持的音频缓冲器(例如,DSP缓冲器206)中,所述音频缓冲器连续地记录由UE检测到的声音,且UE可从缓冲器检测真关键词样本。在一些实施例中,缓冲器的长度可以被设置为预定的时间长度。在一些实施例中,可以基于诸如检测到的音频的特性之类的因素或诸如UE正在执行的其它动作之类的其它条件来动态地确定长度。缓冲器还可以包括背景噪声和其它关键词样本,如本文别处所讨论的。
用于执行步骤406的单元可以包括DSP缓冲器(例如,206)、检测模块(例如,302)和/或UE的其它组件(例如,麦克风),如图3以及图7中所示出的。
在步骤408处,UE可以获得真关键词样本之前的多个用户音频数据。在一些情况下,多个用户音频数据可以包括一个或多个拒绝关键词,包括记录在前述缓冲区中的一个或多个错误拒绝的真关键词样本。在一些情况下,多个用户音频数据可以包括一个或多个错误拒绝的真关键词样本以及记录在缓冲器中的一个或多个假关键词样本。此时可能尚未确定被拒绝的关键词实际上是假的还是错误拒绝的,但是在本讨论中,前述关键词样本被如此标记以标识它们。多个用户音频数据还可以包括在真关键词样本之前的缓冲器中的背景噪声和/或静默时段。然而,针对关键词样本的音频数据可以与背景噪声和静默时段分开或隔离。
用于执行步骤408的单元可以包括D音频拆分模块(例如,310)和/或UE的其它组件(例如,麦克风),如图3以及图7中所示出的。
在步骤410处,UE可以向联网实体发送一个或多个错误拒绝的真关键词样本的至少一部分,以生成更新的用户音频检测模型。在一些实施例中,联网实体可以是“云”服务器装置(例如,320)。在一些实施例中,一个或多个错误拒绝的真关键词样本可以是通过使用关键词拆分模块(例如314)将它们与在步骤408中获得的多个用户音频数据中的一个或更多个假关键词样本分开来获得的,该关键词拆分模块使用可以与被拒绝的关键词的音频特性进行比较的简单关键词模型。假关键词样本对于改善用户关键词模型不太可能是有用的,并且错误拒绝的真关键词样本更可能是有用的,因为它们是应当具有但不激活期望功能的真关键词样本。因此,在一些实施例中,可以丢弃假关键词样本。在某些实施例中,真关键词样本也可以被发送到服务器。
用于执行步骤410的单元可以包括上传模块(例如,318)和/或UE的其它组件,如图3和7中所示出的。
在步骤412处,UE可以从联网实体接收更新的用户音频检测模型,并实现它。在一些实施例中,UE利用接收到的更新的用户音频检测模型替换现有音频检测模型。如果UE接收到另一个更新的用户音频检测模型,则可以利用最近更新的用户音频检测模型替换现有的用户音频检测模型。
在一些实施例中,所接收的更新的用户音频检测模型中的至少一些用户音频检测模型可以作为先前版本保持在存储装置(例如,306)中。如果当前实现的用户音频检测模型不按预期执行(例如,与实现用户音频检测模型的先前版本时相比,更频繁地错误检测到真关键词样本),则可以选择表现更好的先前版本。
用于执行步骤412的单元可以包括UE的一个或多个组件(例如,数据接口),如图3以及图7中所示出的。
图5是根据另一实施例的使用错误拒绝的数据来改善用户设备(UE)上的基于语音的关键词的检测的方法500的流程图。用于执行图5中所示的一个或多个步骤中所示的功能的单元可以包括UE的硬件和/或软件组件。UE的示例组件在图7中示出,其在下面更详细地描述。关于图1-3讨论的UE 105可以是执行以下步骤的UE的示例。
在步骤502处,UE可以通过使用在UE上操作的用户关键词模型来检测用户说出的真关键词。在一些实施例中,可以经由UE设备(例如,麦克风)和检测模块(例如,302)来检测真关键词。可以经由针对诸如用户的语音简档之类的因素的评估和/或基于检测到的音频数据与用户关键词模型的相似性来将真关键词确定为真关键词。
在步骤504处,UE可以获得真关键词之前的音频数据。在一些实施例中,UE保持音频缓冲器,该音频缓冲器连续地记录在一段时间(例如,最后10秒)内检测到的音频。因此,当UE检测到真关键词时(步骤502),缓冲器包含在对应于真关键词的音频数据之前的音频。在前的音频数据可以包含与错误拒绝的真关键词样本和/或假关键词样本相对应的音频数据。此时可能尚未确定被拒绝的关键词是假的还是错误拒绝的。在一些实施例中,真关键词之前的音频数据可以由音频拆分模块(例如,310)接收。
在步骤506处,UE可以将拒绝的关键词与音频数据隔离。在一些实施例中,可以丢弃假关键词、背景噪声和静默。在一些实施例中,隔离可以由关键词拆分模块(例如,314)执行。
在步骤508处,UE可以使用关键词模型来验证被拒绝的关键词是否是真关键词。这样的确定可以通过将拒绝的关键词的音频特性与在关键词拆分模块上操作的简单关键词模型(例如,316)进行比较来进行。在一些实施例中,简单关键词模型可以仅考虑音频特性(基于例如频谱峰值的位置、MFCC),而不考虑用户特性(例如音高、音调、音色)。
在步骤510处,在确定拒绝的关键词是错误拒绝的真关键词时,UE可以向训练模块发送与错误拒绝的真关键词相关联的音频数据。在某些实施例中,与真关键词样本相关联的音频数据也可以被发送到服务器。在一些实施例中,训练模块(例如,324)可以位于外部设备处,诸如“云”服务器(例如,320)。对音频数据的传输可以经由上传模块(例如,318)和/或UE和服务器采用的数据接口来完成。
在步骤512处,UE可以获得并实现更新的用户关键词模型。在一些实施例中,更新的用户关键词模型已经由训练模块训练(或重新训练)。在一些实施例中,检测模块可以实现更新的用户关键词。检测模块处的现有用户关键词模型可以由更新的用户关键词模型替换。在一些实施例中,可以丢弃先前的用户关键词模型。在一些实施例中,可以至少暂时存储先前的用户关键词模型。所存储的先前版本可以是有用的,例如,如果更新的用户关键词模型不按预期执行并且需要回滚。
图6是根据一个实施例的训练用于使用错误拒绝的数据来检测基于语音的关键词的模型的方法的流程图600。用于执行图6中所示的一个或多个步骤中所示的功能的单元可以包括服务器装置的硬件和/或软件组件。服务器的示例组件在图8中示出,其在下面更详细地描述。关于图3讨论的服务器320可以是执行以下步骤的服务器的示例。
在步骤602处,服务器可以接收包括错误拒绝的关键词样本的音频数据。在一些实施例中,音频数据可从UE(例如,105)接收并存储在数据存储模块(例如,322)处。在一些实施例中,可以从除UE之外的另一设备(例如,外部存储装置、联网设备(例如,另一服务器)、与UE 105的用户相关联的另一UE)接收音频数据的至少一部分。服务器可以“在云上”并且使用任何类型的数据接口(例如,有线(wired)、有线(wireline)或无线)(例如,上述任何无线技术)来接收音频数据。
在步骤604处,服务器可以基于将学习算法应用于所接收的错误拒绝的关键词样本的至少一部分来经由训练模块(例如,324)生成用户关键词模型(例如,326)。在一些实施例中,所生成的用户关键词模型是新模型,而不是对现有模型(例如,在UE上操作的现有用户关键词模型(例如,212))的修改。所生成的用户关键词模型可以被配置为由UE例如在检测模块(例如,302)处实现。具体地,可以由新生成的用户关键词模型替换UE上的用户关键词模型的现有版本。然而,在一个替代实施例中,UE上的现有用户关键词模型由训练模块接收和修改,而不是新生成。
在各种实施例中,可以使用上述分类算法中的任何一个或多个分类算法,例如,逻辑回归、支持向量机(SVM)、朴素贝叶斯、最近邻(例如,k最近邻(K-NN))、随机森林、高斯混合模型(GMM)。学习算法的至少一部分还可以包括非分类算法,诸如线性回归。
在步骤606处,服务器将生成的用户关键词模型发送给UE进行实现。可以使用上文提及的任何数据接口进行传输。
装置
图7示出了UE 105的实施例,其可以如上文所述(例如,与图1至图5相关联地)使用。例如,UE 105可以执行图3和图4中所示的方法的一个或多个功能。应当注意的是,图7仅意味着提供各种组件的概括说明,其中任何或全部组件可以在适当时使用。可以注意的是,在一些实例中,由图7所示的组件可以定位到单个物理设备和/或分布在各种网络设备之间,这些网络设备可以设置在不同的物理位置。此外,如前所述,在先前描述的实施例中讨论的UE的功能可以由图7中所示的硬件和/或软件组件中的一项或多项来执行。
UE 105被示出包括可经由总线705电耦合(或可在适当时以其它方式通信)的硬件元件。硬件元件可以包括处理单元710,处理单元710可包括但不限于一个或多个通用处理器、一个或多个专用处理器(诸如数字信号处理器(DSP)芯片、图形加速处理器、专用集成电路(ASIC)等)、和/或其它处理结构或单元。如图7所示,取决于期望的功能,一些实施例可以具有单独的DSP 720。可以在处理单元710和/或无线通信接口730(下文论述)中提供位置确定和/或基于无线通信的其它确定。UE 105还可以包括一个或多个输入设备770,其可以包括但不限于一个或多个键盘、触摸屏、触摸板、麦克风、按钮、拨号盘、开关等;以及一个或多个输出设备715,其可以包括但不限于一个或多个显示器(例如,触摸屏)、发光二极管(LED)、扬声器等。
UE 105还可以包括无线通信接口730,其可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备、和/或芯片集(诸如设备、IEEE 802.11设备、IEEE802.15.4设备、Wi-Fi设备、WiMAX设备、WAN设备、和/或各种蜂窝设备等)等,其可以使得UE105能够与如上文的实施例中所描述的其它设备进行通信。无线通信接口730可以准许例如经由如本文所述的eNB、gNB、ng-eNB、接入点、各种基站和/或其它接入节点类型、和/或其它网络组件、计算机系统、和/或与TRP通信地耦合的任何其它电子设备来与网络的TRP传送(例如,发送和接收)数据和信令。可以经由发送和/或接收无线信号734的一个或多个无线通信天线732来执行通信。根据一些实施例,无线通信天线732可以包括多个离散天线、天线阵列或其任何组合。天线732可能能够使用波束(例如,Tx波束和Rx波束)来发送和接收无线信号。可以使用数字和/或模拟波束成形技术利用相应的数字和/或模拟电路来执行波束成形。无线通信接口730可以包括这样的电路。
取决于期望的功能,无线通信接口730可以包括单独的接收机和发射机,或者收发机、发射机和/或接收机的任何组合,以与基站(例如ng-eNB和gNB)和诸如无线设备和接入点的其他地面收发机通信。UE 105可以与包括各种网络类型的不同数据网络通信。例如,无线广域网(WWAN)可以是CDM)网络、时分多址(TDMA)网络、频分多址(FDMA)网络、正交频分多址(OFDMA)网络、单载波频分多址(SC-FDMA)网络、WiMAX(IEEE 802.16)网络等。CDMA网络可实现一种或多种RAT,诸如CDMA2000、WCDMA等。CDMA2000包括IS-95、IS-2000和/或IS-856标准。TDMA网络可以实现GSM、数字高级移动电话系统(D-AMPS)或一些其它RAT。OFDMA网络可以采用LTE、改善的LTE、5G NR等。5G NR在来自3GPP的文献中描述了LTE、改善的LTE、GSM和WCDMA。在来自名称为“第三代合作伙伴计划X3”(3GPP2)的联盟的文档中描述了Cdma2000。3GPP和3GPP2文档是公开可用的。无线局域网(WLAN)也可以是IEEE 802.11x网络,并且无线个域网(WPAN)可以是蓝牙网络、IEEE 802.15x或一些其它类型的网络。本文描述的技术还可用于WWAN、WLAN和/或WPAN的任何组合。
UE 105还可以包括传感器740。传感器740可以包括但不限于一个或多个惯性传感器和/或其它传感器(例如,加速度计、陀螺仪、相机、磁力计、高度计、麦克风、接近传感器、光传感器、气压计等),其中的一些可以用于获得位置相关测量和/或其它信息。
UE 105的实施例还可以包括能够使用天线782(其可以与天线732相同)从一个或多个GNSS卫星接收信号784的全球导航卫星系统(GNSS)接收机780。基于GNSS信号测量的定位可以用于补充和/或并入本文中所描述的技术。GNSS接收机780可以使用常规技术从GNSS系统的GNSS卫星110提取UE 105的位置,例如全球定位系统(GPS)、伽利略、GLONASS、日本上空的准天顶卫星系统(QZSS)、印度上空的印度区域导航卫星系统(IRNSS)、中国上空的北斗导航卫星系统(BDS)等。此外,GNSS接收机780可以与各种增强系统(例如,基于卫星的增强系统(SBAS))一起使用,所述增强系统可以与一或多个全球和/或区域导航卫星系统(例如,广域增强系统(WAAS)、欧洲对地静止导航覆盖服务(EGNOS)、多功能卫星增强系统(MSAS)和地理增强导航系统(GAGAN)等)相关联或以其它方式启用以与所述一个或多个全球和/或区域导航卫星系统一起使用。
可以注意的是,尽管GNSS接收机780在图7中说明为不同的组件,但实施例不限于此。如本文所使用的,术语“GNSS接收机”可以包括被配置为获得GNSS测量值(来自GNSS卫星的测量值)的硬件和/或软件组件。因此,在一些实施例中,GNSS接收机可以包括由一个或多个处理单元(诸如处理单元710、DSP 720和/或无线通信接口730内的处理单元(例如,在调制解调器中))执行的测量引擎(作为软件)。GNSS接收机还可以可选地包括定位引擎,其可以使用来自测量引擎的GNSS测量值来使用扩展卡尔曼滤波器(EKF)、加权最小二乘(WLS)、影线(hatch)滤波器、粒子滤波器等确定GNSS接收机的位置。定位引擎还可以由一个或多个处理单元执行,例如处理单元710或DSP 720。
UE 105还可以包括存储器760和/或与存储器1060通信。存储器760可以包括但不限于本地和/或网络可接入存储设备、磁盘驱动器、驱动器阵列、光存储设备、固态存储设备,例如随机存取存储器(“RAM”)和/或可编程、可闪存更新等的只读存储器(“ROM”)。这样的存储设备可以被配置为实现任何适当的数据存储,包括但不限于各种文件系统、数据库结构等。
UE 105的存储器760还可以包括软件元件(在图7中未示出),包括操作系统、设备驱动程序、可执行库和/或其它代码,例如一个或多个应用程序,其可以包括由各种实施例提供的计算机程序,和/或可以被设计成实现由其它实施例提供的方法和/或配置系统,如本文所述。仅仅通过示例的方式,关于以上讨论的方法描述的一个或多个过程可以被实现为存储器760中可由UE 105(和/或UE 105内的处理单元710或DSP 720)执行的代码和/或指令。然后,在一方面中,这种代码和/或指令可以用于配置和/或适配通用计算机(或其它设备)以根据所描述的方法执行一个或多个操作。
图8是计算机系统800的实施例的框图,计算机系统800可以全部或部分地用于提供如本文的实施例中描述的一个或多个网络组件(例如,图3的服务器装置320)的功能。应当注意的是,图8仅意味着提供各种组件的概括说明,其中任何或全部组件可以在适当时使用。因此,图8广泛地示出了可以如何以相对分开或相对更集成的方式实现各个系统元件。另外,可以注意到的是,图8所示的组件可以被定位到单个设备和/或分布在可以设置在不同地理位置处的各种联网设备之间。
计算机系统800被示出包括可经由总线805电耦合(或可在适当时以其它方式通信)的硬件元件。硬件元件可以包括处理单元810,其可以包括但不限于一个或多个通用处理器、一个或多个专用处理器(例如数字信号处理芯片、图形加速处理器等)和/或其它处理结构,其可以被配置为执行本文所述方法中的一个或多个方法。计算机系统800还可以包括一个或多个输入设备815,其可以包括但不限于鼠标、键盘、相机、麦克风等;以及一个或多个输出设备820,其可以包括但不限于显示设备、打印机等。
计算机系统800还可以包括(和/或与之通信)一个或多个非暂时性存储设备825,其可以包括但不限于本地和/或网络可接入存储装置,和/或可以包括但不限于磁盘驱动器、驱动器阵列、光学存储设备、固态存储设备(诸如RAM和/或ROM),其可以是可编程的、闪存可更新的等。这样的存储设备可以被配置为实现任何适当的数据存储,包括但不限于各种文件系统、数据库结构等。这样的数据存储可以包括数据库和/或用于存储和管理要经由集线器发送到一个或多个设备的消息和/或其它信息的其它数据结构,如本文所述。
计算机系统800还可以包括通信子系统830,其可以包括由无线通信接口833管理和控制的无线通信技术,以及有线技术(诸如以太网、同轴通信、通用串行总线(USB)等)。无线通信接口833可以经由无线天线850发送和接收无线信号855(例如,根据5G NR或LTE的信号)。因此,通信子系统830可以包括调制解调器、网卡(无线或有线)、红外通信设备、无线通信设备和/或芯片集等,其可以使计算机系统800能够在本文描述的任何或所有通信网络上与相应网络上的任何设备(包括用户设备(UE)、基站和/或其它TRP和/或本文描述的任何其它电子设备)进行通信。因此,通信子系统830可以用于接收和发送数据,如本文实施例中所述。
在许多实施例中,计算机系统800将进一步包括工作存储器835,其可以包括RAM或ROM设备,如上文所描述的。示出为位于工作存储器835内的软件元件可以包括操作系统840、设备驱动器、可执行库和/或其它代码,例如一个或多个应用序845,其可以包括由各种实施例提供的计算机程序,和/或可以被设计为实现方法和/或配置由其它实施例提供的系统,如本文中所描述的。这样的计算机程序可以体现在数据存储模块322和训练模块324的硬件和/或软件实现中。仅仅通过举例的方式,关于上文所论述的方法所描述的一个或多个过程可以实现为可由计算机(及/或计算机内的处理单元)执行的代码和/或指令;在一方面中,接着,此类代码及/或指令可以用于配置和/或适配通用计算机(或其它设备)以根据所描述的方法执行一个或多个操作。
这些指令和/或代码的集合可以存储在非暂时性计算机可读存储介质上,诸如上述存储设备825。在一些情况下,存储介质可以并入计算机系统(例如计算机系统800)内。在其它实施例中,存储介质可以与计算机系统(例如,可移动介质,诸如光盘)分离,和/或在安装包中提供,使得存储介质可以用于编程、配置和/或适配其上存储有指令/代码的通用计算机。这些指令可以采取可由计算机系统800执行的可执行代码的形式和/或可以采取源代码和/或可安装代码的形式,所述源代码和/或可安装代码在计算机系统800上编译和/或安装时(例如,使用各种通常可用的编译器、安装程序、压缩/解压缩实用程序等中的任何一项),接着采取可执行代码的形式。
对于本领域的技术人员来说,显而易见的是,可以根据特定要求进行实质性的变化。例如,还可以使用定制的硬件,和/或可以在硬件、软件(包括便携式软件,例如小程序等)或两者中实现特定元件。此外,可以采用与诸如网络输入/输出设备之类的其它计算设备的连接。
所描述的实现可以在能够根据任何通信标准发送和接收射频(RF)信号的任何设备、系统或网络中实现,所述通信标准诸如电气和电子工程师协会(IEEE)IEEE 802.11标准(包括被识别为技术的标准)、标准、码分多址(CDMA)、频分多址(FDMA)、时分多址(TDMA)、全球移动通信系统(GSM)、GSM/通用分组无线电服务(GPRS)、增强型数据GSM环境(EDGE)、地面集群无线电(TETRA)、宽带CDMA(W-CDMA)、演进数据优化(EV-DO)、1xEV-DO、EV-DO Rev A、EV-DO Rev B、高速分组数据(HRPD)、高速分组接入(HSPA)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进型高速分组接入(HSPA+)、长期演进(LTE)、改善的移动电话系统(AMPS),或用于在无线、蜂窝或物联网(IoT)网络内通信的其它已知信号,例如利用3G、4G、5G、6G或其进一步实现技术的系统。
如本文所使用的,“RF信号”包括通过发射机(或发射设备)和接收机(或接收设备)之间的空间传输信息的电磁波。如本文中使用的,发射机可以向接收机发送单个“RF信号”或多个“RF信号”。然而,由于RF信号通过多径信道的传播特性,接收机可能接收与每个发送的RF信号相对应的多个“RF信号”。在发射机与接收机之间的不同路径上的相同被发送RF信号可以被称为“多径”RF信号。
参考附图,可以包括存储器的组件可以包括非暂时性机器可读介质。本文使用的术语“机器可读介质”和“计算机可读介质”是指参与提供使机器以特定方式操作的数据的任何存储介质。在上文提供的实施例中,各种机器可读介质可涉及向处理单元和/或其它设备提供指令/代码以供执行。另外地或替代地,机器可读介质可以用于存储和/或携带这样的指令/代码。在许多实现方式中,计算机可读介质是物理和/或有形的存储介质。这样的介质可以采用多种形式,包括但不限于非易失性介质和易失性介质。计算机可读介质的常见形式包括例如磁性和/或光学介质、具有孔图案的任何其它物理介质、RAM、可编程ROM(PROM)、可擦除PROM(EPROM)、FLASH-EPROM、任何其它存储器芯片或盒、或计算机可以从中读取指令和/或代码的任何其它介质。
本文讨论的方法、系统和设备是示例。各种实施例可以适当地省略、替代或添加各种过程或组件。例如,关于某些实施例描述的特征可以组合在各种其它实施例中。可以以类似的方式组合实施例的不同方面和元件。本文提供的图的各种组件可以在硬件和/或软件中实现。而且,技术在发展,因此许多元件是不将本公开内容的范围限制到那些特定示例的示例。
事实证明,有时,主要出于常用的原因,将这样的信号称为位、信息、值、元素、符号、字符、变量、术语、数字、数字符号等是方便的。然而,应该理解,所有这些或类似的术语都应与适当的物理量相关联,并且仅仅是方便的标签。除非另有特别说明,如从上面的讨论中显而易见的,否则应理解,在本说明书中,使用诸如“处理”、“计算”、“运算”、“确定”、“查明”、“识别”、“关联”、“测量”、“执行”等术语的讨论指的是特定装置的动作或过程,例如专用计算机或类似的专用电子计算设备。因此,在本说明书的上下文中,专用计算机或类似的专用电子计算设备能够操纵或变换信号,通常表示为专用计算机或类似的专用电子计算设备的存储器、寄存器或其它信息存储设备、传输设备或显示设备中的物理、电子、电气或磁的量。
本文使用的术语“和”和“或”可以包括多种含义,这些含义也至少部分取决于使用这些术语的上下文。通常,“或”(如果用于关联列表,例如A、B或C)旨在表示A、B和C(这里以包含的意义使用)以及A、B或C(这里以排他性意义使用)。此外,本文使用的术语“一个或多个”可以用于以单数描述任何特征、结构或特性,或可用于描述特征、结构或特性的一些组合。然而,应当注意,这仅仅是说明性示例,并且所要求保护的主题不限于该示例。此外,术语“至少一个”如果用于关联列表,例如A、B或C,则可以解释为表示A、B和/或C的任何组合,例如A、AB、AA、AAB、AABBCCC等。
已经描述了若干实施例,在不背离本公开内容的范围的情况下,可以使用各种修改、替代构造和等价物。例如,上述元件可以仅仅是较大系统的组件,其中其它规则可以优先于或以其它方式修改本实施例的应用。此外,可以在考虑上述要素之前、期间或之后采取若干步骤。因此,上述描述并不限制本公开内容的范围。
鉴于本说明书,实施例可以包括特征的不同组合。在以下编号的条款中描述了实现示例:
条款1:一种更新用户设备上的用户音频检测模型的方法,所述方法包括:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
条款2:根据条款1所述的方法,其中:所述多个用户音频数据还包括一个或多个假关键词样本;并且所述方法还包括在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
条款3:根据条款1-2中任一项所述的方法,还包括丢弃所述一个或多个假关键词样本。
条款4:根据条款1-3中任一项所述的方法,还包括:在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述用户音频检测模型发送到所述联网实体,所述联网实体包括服务器装置。
条款5:根据条款1-4中任一项所述的方法,还包括:基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在。
条款6:根据条款1-5中任一项所述的方法,还包括:基于另一用户音频检测模型来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在,所述另一用户音频检测模型至少包括与所述用户音频检测模型不同的检测标准。
条款7:根据条款1-6中任一项所述的方法,还包括:利用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
条款8:根据条款1-7中任一项所述的方法,还包括:在接收到所述更新的用户音频检测模型之后,检测一个或多个第二错误拒绝的真样本;将所述一个或多个第二错误拒绝的真样本的至少一部分发送到所述联网实体,所述一个或多个第二错误拒绝的真样本的所述至少一部分被配置为用于生成第二更新的用户音频检测模型;从所述联网实体接收所述第二更新的用户音频检测模型;以及利用所述第二更新的用户音频检测模型替换所述更新的用户音频检测模型。
条款9:根据条款1-8中任一项所述的方法,还包括:检测一个或多个后续真样本;以及将所述一个或多个后续真样本的至少一部分发送到所述联网实体,所述一个或多个后续真样本的所述至少一部分被配置为用于生成所述更新的用户音频检测模型。
条款10:根据条款1-9中任一项所述的方法,还包括:基于一个或多个真关键词样本训练所述用户音频检测模型,其中,所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据。
条款11:根据条款1-10中任一项所述的方法,还包括:维护音频缓冲器;以及将来自所述用户的音频暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
条款12:一种能够改善用户音频检测模型的用户设备,所述用户设备包括:存储器;以及处理器,其耦合到所述存储器,并且可操作地被配置为:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
条款13:根据条款12所述的用户设备,其中:所述多个用户音频数据还包括一个或多个假关键词样本;并且所述多个指令还被配置为在由所述处理器装置执行时,使得所述用户设备在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
条款14:根据条款12-13中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备丢弃所述一个或多个假关键词样本。
条款15:根据条款12-14中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使得所述用户设备在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述用户音频检测模型发送到所述联网实体,所述联网实体包括服务器装置。
条款16:根据条款12-15中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使得所述用户设备基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在。
条款17:根据条款12至16中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备基于另一用户音频检测模型来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在,所述另一用户音频检测模型至少包括与所述用户音频检测模型不同的检测标准。
条款18:根据条款12-17中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备利用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
条款19:根据条款12-18中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备检测一个或多个后续真样本;以及将所述一个或多个后续真样本的至少一部分发送到所述联网实体,所述一个或多个后续真样本的所述至少一部分被配置为用于生成所述更新的用户音频检测模型。
条款20:根据条款12-19中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备基于一个或多个真关键词样本来训练所述用户音频检测模型,其中,所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据。
条款21:根据条款12至20中任一项所述的用户设备,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备维护音频缓冲器,并且将来自所述用户的音频暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
条款22:一种非暂时性计算机可读装置,其包括存储介质,所述存储介质包括多个指令,所述多个指令被配置为在由一个或多个处理器执行时,使得用户设备进行以下操作:实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;检测来自用户的音频;使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
条款23:根据条款22所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述一个或多个处理器执行时,使所述用户设备维护音频缓冲器,并且将与所述用户的语音相关联的音频数据暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
条款24:根据条款22-23中任一项所述的非暂时性计算机可读装置,其中:所述多个用户音频数据还包括一个或多个假关键词样本;并且所述多个指令还被配置为在由所述一个或多个处理器执行时,使得所述用户设备在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
条款25:根据条款22-24中任一项所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使得所述用户设备基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在。
条款26:根据条款22-25中任一项所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
条款27:一种用户设备,包括:用于实现所述用户音频检测模型的单元,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;用于检测来自用户的音频的单元;用于使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在的单元;用于响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据的单元,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;用于将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分的单元,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及用于从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型的单元。
条款28:根据条款27所述的用户设备,其中:所述多个用户音频数据还包括一个或多个假关键词样本;并且所述用户设备还包括:用于在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离的单元。
条款29:根据条款27-28中任一项所述的用户设备,还包括:用于基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在的单元。
条款30:根据条款27-29中任一项所述的用户设备,其中,所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据;并且所述用户设备还包括用于维护音频缓冲器并且将与所述用户的语音相关联的所述音频数据暂时存储在所述音频缓冲器中达规定长度的单元,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。

Claims (30)

1.一种在用户设备上更新用户音频检测模型的方法,所述方法包括:
实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;
检测来自用户的音频;
使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;
响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;
将所述一个或多个错误拒绝的真关键词样本的至少一部分发送到联网实体,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及
从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
2.根据权利要求1所述的方法,其中:
所述多个用户音频数据还包括一个或多个假关键词样本;以及
所述方法还包括:在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
3.根据权利要求2所述的方法,还包括丢弃所述一个或多个假关键词样本。
4.根据权利要求1所述的方法,还包括:在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述用户音频检测模型发送到所述联网实体,所述联网实体包括服务器装置。
5.根据权利要求1所述的方法,还包括:基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在。
6.根据权利要求1所述的方法,还包括:基于另一用户音频检测模型来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在,所述另一用户音频检测模型至少包括与所述用户音频检测模型不同的检测标准。
7.根据权利要求1所述的方法,还包括:利用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
8.根据权利要求1所述的方法,还包括:
在接收到所述更新的用户音频检测模型之后检测一个或多个第二错误拒绝的真样本;
将所述一个或多个第二错误拒绝的真样本的至少一部分发送到所述联网实体,所述一个或多个第二错误拒绝的真样本的所述至少一部分被配置为用于生成第二更新的用户音频检测模型;
从所述联网实体接收所述第二更新的用户音频检测模型;以及
利用所述第二更新的用户音频检测模型替换所述更新的用户音频检测模型。
9.根据权利要求1所述的方法,还包括:检测一个或多个后续真样本,以及将所述一个或多个后续真样本的至少一部分发送到所述联网实体,所述一个或多个后续真样本的所述至少一部分被配置为用于生成所述更新的用户音频检测模型。
10.根据权利要求1所述的方法,还包括:基于一个或多个真关键词样本训练所述用户音频检测模型,其中,所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据。
11.根据权利要求1所述的方法,还包括:维护音频缓冲器;以及将来自所述用户的音频暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
12.一种能够改善用户音频检测模型的用户设备,所述用户设备包括:
存储器;以及
处理器,其耦合到所述存储器并且可操作地被配置为:
实现所述用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;
检测来自用户的音频;
使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;
响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;
向联网实体发送所述一个或多个错误拒绝的真关键词样本的至少一部分,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及
从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
13.根据权利要求12所述的用户设备,其中:
所述多个用户音频数据还包括一个或多个假关键词样本;以及
所述处理器还被配置为在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
14.根据权利要求13所述的用户设备,其中,所述处理器还被配置为丢弃所述一个或多个假关键词样本。
15.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述用户音频检测模型发送到所述联网实体,所述联网实体包括服务器装置。
16.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在。
17.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:基于另一用户音频检测模型来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在,所述另一用户音频检测模型至少包括与所述用户音频检测模型不同的检测标准。
18.根据权利要求12所述的用户设备,其中,所述处理器还被配置为利用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
19.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:检测一个或多个后续真样本,以及将所述一个或多个后续真样本的至少一部分发送到所述联网实体,所述一个或多个后续真样本的所述至少一部分被配置为用于生成所述更新的用户音频检测模型。
20.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:基于一个或多个真关键词样本训练所述用户音频检测模型,其中,所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据。
21.根据权利要求12所述的用户设备,其中,所述处理器还被配置为:维护音频缓冲器;以及将来自所述用户的音频暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
22.一种非暂时性计算机可读装置,包括存储介质,所述存储介质包括多个指令,所述多个指令被配置为在由一个或多个处理器执行时,使用户设备进行以下操作:
实现用户音频检测模型,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;
检测来自用户的音频;
使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在;
响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;
向联网实体发送所述一个或多个错误拒绝的真关键词样本的至少一部分,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及
从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型。
23.根据权利要求22所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述一个或多个处理器执行时,使所述用户设备维护音频缓冲器,并且将与所述用户的语音相关联的音频数据暂时存储在所述音频缓冲器中达规定长度,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
24.根据权利要求22所述的非暂时性计算机可读装置,其中:
所述多个用户音频数据还包括一个或多个假关键词样本;以及
所述多个指令还被配置为:当由所述一个或多个处理器执行时,使得所述用户设备在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离。
25.根据权利要求22所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使得所述用户设备基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的真关键词样本的存在。
26.根据权利要求22所述的非暂时性计算机可读装置,其中,所述多个指令还被配置为:当由所述处理器装置执行时,使所述用户设备用所接收的更新的用户音频检测模型替换所述用户音频检测模型。
27.一种用户设备,包括:
用于实现用户音频检测模型的单元,所述用户音频检测模型被配置为基于检测到的真关键词样本来改变所述用户设备的操作状态;
用于检测来自用户的音频的单元;
用于使用所述用户音频检测模型来检测来自所述用户的所述音频中的真关键词样本的存在的单元;
用于响应于检测到来自所述用户的所述音频,获得在所述真关键词样本之前的多个用户音频数据的单元,所述多个用户音频数据包括一个或多个错误拒绝的真关键词样本,所述一个或多个错误拒绝的真关键词样本不足以改变所述用户设备的所述操作状态;
用于向联网实体发送所述一个或多个错误拒绝的真关键词样本的至少一部分,或者在所述用户设备处本地访问所述一个或多个错误拒绝的真关键词样本的所述至少一部分的单元,所述一个或多个错误拒绝的真关键词样本的所述至少一部分被配置为用于生成更新的用户音频检测模型;以及
用于从所述联网实体接收所述更新的用户音频检测模型,或者使用所述一个或多个错误拒绝的真关键词样本的所述至少一部分本地生成所述更新的用户音频检测模型的单元。
28.根据权利要求27所述的用户设备,其中:
所述多个用户音频数据还包括一个或多个假关键词样本;以及
所述用户设备还包括:用于在将所述一个或多个错误拒绝的真关键词样本的所述至少一部分发送到所述联网实体之前,将所述一个或多个错误拒绝的真关键词样本与所述一个或多个假关键词样本分离的单元。
29.根据权利要求27所述的用户设备,还包括:用于基于与所述用户音频检测模型相关联的第一相似性门限被满足或超过但不满足或超过第二相似性门限来确定所述多个用户音频数据中的所述一个或多个错误拒绝的关键词真样本的存在的单元。
30.根据权利要求27所述的用户设备,其中:
所述一个或多个真关键词样本和所述多个用户音频数据包括与所述用户的语音相关联的音频数据;以及
所述用户设备还包括:用于维护音频缓冲器并且将与所述用户的语音相关联的所述音频数据暂时存储在所述音频缓冲器中达规定长度的单元,所述音频缓冲器包括所述真关键词样本和所述一个或多个错误拒绝的真关键词样本。
CN202180102506.1A 2021-09-26 2021-09-26 使用错误拒绝的数据改善对基于语音的关键词的检测 Pending CN118251718A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/120549 WO2023044836A1 (en) 2021-09-26 2021-09-26 Improving detection of voice-based keywords using falsely rejected data

Publications (1)

Publication Number Publication Date
CN118251718A true CN118251718A (zh) 2024-06-25

Family

ID=78293839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180102506.1A Pending CN118251718A (zh) 2021-09-26 2021-09-26 使用错误拒绝的数据改善对基于语音的关键词的检测

Country Status (5)

Country Link
EP (1) EP4405939A1 (zh)
KR (1) KR20240074762A (zh)
CN (1) CN118251718A (zh)
TW (1) TW202318234A (zh)
WO (1) WO2023044836A1 (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016039847A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training

Also Published As

Publication number Publication date
WO2023044836A1 (en) 2023-03-30
EP4405939A1 (en) 2024-07-31
KR20240074762A (ko) 2024-05-28
TW202318234A (zh) 2023-05-01

Similar Documents

Publication Publication Date Title
CN109785828B (zh) 基于用户语音风格的自然语言生成
CN112074900B (zh) 用于自然语言处理的音频分析
US8812014B2 (en) Audio-based environment awareness
CN110491414B (zh) 使用动态可调监听超时的自动语音识别
CN110232912B (zh) 语音识别仲裁逻辑
ES2963099T3 (es) Sistema y método de registro de audio inteligente para dispositivos móviles
US10827300B2 (en) Opportunistic signal reception for mobile device position location estimation
US9542947B2 (en) Method and apparatus including parallell processes for voice recognition
EP3852102B1 (en) Voice assistant proxy for voice assistant servers
JP2016503607A (ja) データクラスタのためのコンテキストラベル
WO2014070455A1 (en) Method and apparatus for activating a particular wireless communication device
US20190147855A1 (en) Neural network for use in speech recognition arbitration
US20180075842A1 (en) Remote speech recognition at a vehicle
US20150058023A1 (en) Method and System for Translating Speech
WO2018118744A1 (en) Methods and systems for reducing false alarms in keyword detection
CN109314930B (zh) 用户设备中的传感器数据采集
US20200394228A1 (en) Electronic device and method for predicting an intention of a user
JP2016516235A (ja) 電力効率のよい分類のためのアプリケーションによって制御される粒度
WO2023044836A1 (en) Improving detection of voice-based keywords using falsely rejected data
US20160268987A1 (en) Adjusting audio sampling used with wideband audio
CN115943689A (zh) 噪声环境中的话音或语音识别
WO2019246314A1 (en) Acoustic aware voice user interface
CN117953872A (zh) 语音唤醒模型更新方法、存储介质、程序产品及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination