CN111164675A - 用于具有语音功能的计算机系统的用户定义的唤醒关键短语的动态注册 - Google Patents

用于具有语音功能的计算机系统的用户定义的唤醒关键短语的动态注册 Download PDF

Info

Publication number
CN111164675A
CN111164675A CN201880063401.8A CN201880063401A CN111164675A CN 111164675 A CN111164675 A CN 111164675A CN 201880063401 A CN201880063401 A CN 201880063401A CN 111164675 A CN111164675 A CN 111164675A
Authority
CN
China
Prior art keywords
wov
asr
model
processor
key phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880063401.8A
Other languages
English (en)
Inventor
穆尼尔·尼古拉·亚力山大·乔治
托比亚斯·波克莱特
乔治·施特默尔
乔基姆·霍费尔
约瑟夫·G·鲍尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel IP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel IP Corp filed Critical Intel IP Corp
Publication of CN111164675A publication Critical patent/CN111164675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

提供了用于语音唤醒(WOV)关键短语注册的技术。根据实施例实现该技术的方法包括基于对用户提供的关键短语的子语音单位的序列的标识来生成WOV关键短语模型。WOV关键短语模型被WOV处理器用来检测用户说出的关键短语并响应于该检测而触发自动语音识别(ASR)处理器的操作。该方法还包括基于用户提供的关键短语来更新ASR语言模型。该更新包括以下各项中的一项:将WOV关键短语模型嵌入到ASR语言模型中;转换WOV关键短语模型的子语音单位并将转换后的WOV关键短语模型嵌入到ASR语言模型中;或通过将基于音素音节的统计语言模型应用于用户提供的关键短语来生成ASR关键短语模型并将所生成的ASR关键短语模型嵌入到ASR语言模型中。

Description

用于具有语音功能的计算机系统的用户定义的唤醒关键短语 的动态注册
背景技术
一些计算机系统或平台响应于检测到用户说出的关键字或关键短语而变为活动状态或被“唤醒”。唤醒后,计算机将继续识别并处理关键字之后的附加用户语音。此类系统采用语音识别技术并且通常要求关键短语是预定义的(例如,静态的)而不是用户可选择的,这是不期望的。一些其他系统要求用户在唤醒关键字和所说请求的其余部分之间暂停,以便切换处理模式(例如,从关键字发现模式切换到全语音识别模式)。这样的暂停会中断自然的语音交流,并对用户体验的质量产生负面影响。
附图说明
随着以下具体实施方式的进行并参考附图,所要求保护的主题的实施例的特征和优点将变得显而易见,其中,相同的附图标记表示相同的部分。
图1是根据本公开的某些实施例配置的具有动态语音唤醒(wake-on-voice,WOV)关键短语注册(enrollment)的具有语音功能的计算机系统的顶级框图。
图2是根据本公开的某些实施例配置的动态WOV关键短语注册系统的框图。
图3是根据本公开的某些实施例配置的动态WOV关键短语注册系统的另一框图。
图4是根据本公开的某些实施例配置的动态WOV关键短语注册系统的另一框图。
图5是图示根据本公开的某些实施例的用于动态WOV关键短语注册的方法的流程图。
图6是示意性地图示根据本公开的某些实施例的被配置为执行动态WOV关键短语注册的计算平台的框图。
尽管下面的具体实施方式将参考说明性实施例进行,但是根据本公开,其许多替代、修改和变型将是显而易见的。
具体实施方式
总体而言,本公开提供了用于口语(spoken language)理解系统中的动态语音唤醒(WOV)关键短语注册的技术,该口语理解系统采用了WOV关键短语发现和自动语音识别(ASR)的组合。采用关键短语发现技术来检测用户的唤醒短语的表达(utterance),该唤醒短语然后可以触发ASR识别用户说出的完整请求,包括唤醒短语。尽管关键短语检测和ASR系统通常使用不同的语言模型,但是所公开的技术允许两个系统之间对运行时(runtime)生成的关键短语模型的某种程度的共享,这将在下文中更详细地说明。该技术允许用户动态地选择或定制系统以检测任何期望的唤醒短语;相反,这在使用单独的专用模型进行关键短语检测和语音识别的系统中将是不可能的。
所公开的技术可以在例如可由此类系统执行或以其他方式控制的计算系统或软件产品中实现,不过其他实施例将是显而易见的。该系统或产品被配置为提供动态WOV关键短语注册。根据实施例,用于实现这些技术的方法包括:基于对用户提供的关键短语的子语音(sub-phonetic)单位的正确序列的标识和确定,生成WOV关键短语模型。WOV处理器采用WOV关键短语模型来检测用户说出的关键短语,并响应于该检测而触发自动语音识别(ASR)处理器的操作。该方法还包括基于用户提供的关键短语来更新ASR语言模型,这将在下文中更详细地说明。在一些实施例中,更新可以包括将WOV关键短语模型嵌入到ASR语言模型中。在其他实施例中,更新可以包括执行对WOV关键短语模型的子语音单位的转换,并将转换后的WOV关键短语模型嵌入到ASR语言模型中。在其他实施例中,更新可以包括通过将基于音素音节(phoneme-syllable based)的统计语言模型应用于用户提供的关键短语来生成ASR关键短语模型,并将所生成的ASR关键短语模型嵌入到ASR语言模型中。在其他实施例中,可以将用户提供的关键短语提供为文本条目,其可以被直接提供给WOV处理器和ASR处理器进行注册。
将会理解,本文所述的技术可以通过以与现有方法(这些方法强制要求静态关键短语或需要在关键短语和后续语音之间有尴尬的暂停)相比对用户较为方便和透明的方式允许对用户选择的唤醒关键短语进行动态注册,来允许对于语音语言理解系统改善用户体验。所公开的技术可以在包括膝上型计算机、平板电脑、智能电话、工作站、以及嵌入式系统或设备的广泛平台上实现。这些技术可以进一步以硬件或软件或其组合来实现。
图1是根据本公开的某些实施例配置的具有动态语音唤醒(WOV)关键短语注册的具有语音功能的计算机系统100的顶级框图。具有语音功能的计算机系统100被示出为包括WOV处理器110、ASR处理器120、以及动态WOV关键短语注册系统140。在一些实施例中,具有语音功能的计算机系统100可以被托管在计算或通信平台上,如下文结合图6所详细描述的。
音频输入130的示例被示出为包括来自用户的语音,在此示例中为:“你好,计算机,将厨房的灯打开”。音频输入可以由麦克风、麦克风阵列(例如,被配置为用于波束成形)、或任何其他合适的音频捕获设备提供,或来自存储的记录。WOV处理器110被配置为从音频输入130中检测关键短语“你好,计算机”,其已由用户通过动态WOV关键短语注册系统140所实现的动态注册过程选择。动态WOV关键短语注册系统140的操作在下文中更详细地描述。WOV处理器110还被配置为触发ASR处理器120以识别整个所说出的表达,包括关键短语和剩余的打开厨房灯的用户请求两者。在一些实施例中,触发器可以进一步用于将计算平台或其任何部分从睡眠或空闲状态唤醒到活动识别状态。
在一些实施例中,WOV处理器110采用根据本公开所知的关键短语检测技术。这些关键短语检测技术可以进一步采用包括由用户预定义或选择的唤醒关键短语的关键短语模型,以及用于在应用关键短语模型之后对音素和子语音单位进行较低级分析的声学模型。
在一些实施例中,ASR处理器120采用根据本公开所知的语音识别技术。这些语音识别技术可以进一步采用与关键短语模型分开的语言模型,该语言模型除了预期的用户请求的语法之外还包括唤醒关键短语。作为简化示例,ASR语言模型可以是如下语法:该语法可以识别“[开始|停止|暂停]播放”,且关键短语是“你好,计算机”。在这种情况下,语言模型所理解的组合语法是“你好,计算机,[开始|停止|暂停]播放”。
在一些实施例中,至少当ASR处理器处于较高功耗的识别状态时,WOV处理器或电路110被配置为比ASR处理器或电路120消耗更少的功率,从而允许这两个功能之间的功率优化。例如,在一些实施例中,WOV处理器110可以在低功率CPU或数字信号处理器(DSP)上实现,并且ASR处理器120可以在硬件加速器或适当优化的协处理器上实现。
图2是根据本公开的某些实施例配置的动态WOV关键短语注册系统140a的框图。动态WOV关键短语注册系统140a被示出为包括WOV关键短语模型生成电路214、WOV关键短语模型216、ASR模型更新电路217、以及ASR语言模型218。另外,WOV声学模型222被示出为被语音唤醒处理器110采用,并且ASR声学模型224被示出为被ASR处理器120采用。
WOV关键短语模型生成电路214被配置为基于对用户提供的WOV注册关键短语212的子语音单位的正确序列的标识和确定来生成WOV关键短语模型216。WOV关键短语模型216被WOV处理器110用于从用户在操作220期间说出的音频输入130中检测WOV关键短语。
ASR模型更新电路217被配置为基于用户提供的WOV注册关键短语212来更新ASR语言模型218。ASR语言模型218被ASR处理器120用于从用户在操作220期间说出的语音输入130中识别语音表达。使用根据本公开所知的技术,通过将所生成的WOV关键短语模型216合并或嵌入到ASR语言模型218中来实现更新。WOV声学模型222和ASR声学模型224使用共同的音素和状态序列(例如,它们使用相同的音素和状态序列中的至少一些),就此而言,这里的技术假定它们是较为类似的。
图3是根据本公开的某些实施例配置的动态WOV关键短语注册系统140b的另一框图。动态WOV关键短语注册系统140b被示出为包括WOV关键短语模型生成电路314、WOV关键短语模型316、模型转换电路317、ASR模型更新电路217、以及ASR语言模型318。另外,WOV声学模型322被示出为被语音唤醒处理器110采用,并且ASR声学模型324被示出为被ASR处理器120采用。
WOV关键短语模型生成电路314被配置为基于对用户提供的WOV注册关键短语212的子语音单位的正确序列的标识和确定来生成WOV关键短语模型316。WOV关键短语模型316被WOV处理器110用于从用户在操作220期间说出的音频输入130中检测WOV关键短语。模型转换电路317被配置为通过使用根据本公开所知的技术来执行对WOV关键短语模型316的子语音单位的转换。
ASR模型更新电路217被配置为使用根据本公开所知的技术,通过将由模型转换电路317生成的转换后的WOV关键短语模型合并或嵌入到ASR语言模型318中来更新ASR语言模型318。即使WOV声学模型322可能与ASR声学模型324不同(在大多数应用中通常如此),这通常也是可能的,因为对子语音单位的转换提供了转换后的WOV关键短语模型和ASR语言模型之间的兼容性。此技术假定子语音单位转换对于给定的模型是可能的,可能并非总是这种情况。
图4是根据本公开的某些实施例配置的动态WOV关键短语注册系统140c的另一框图。动态WOV关键短语注册系统140c被示出为包括WOV关键短语模型生成电路414、WOV关键短语模型416、ASR关键短语模型生成电路417、ASR模型更新电路217、以及ASR语言模型418。此外,WOV声学模型422被示出为被语音唤醒处理器110采用,并且ASR声学模型424被示出为被ASR处理器120采用。
WOV关键短语模型生成电路414被配置为基于对用户提供的WOV注册关键短语212的子语音单位的正确序列的标识和确定来生成WOV关键短语模型416。WOV关键短语模型416被WOV处理器110用来从用户在操作220期间说出的音频输入130中检测WOV关键短语。
ASR关键短语模型生成电路417被配置为通过将基于音素音节的统计语言模型(SLM)应用于用户提供的WOV注册关键短语212来生成ASR关键短语模型。给定先前识别的单词的历史(例如,基于隐马尔可夫模型或最大熵模型),SLM计算单词的概率。可以从识别结果晶格(lattice)(其表示关于所说内容的不同假设)中识别并提取关键短语,然后将晶格直接嵌入到ASR的统计语言模型中。
ASR模型更新电路217被配置为使用根据本公开所知的技术,通过将由ASR关键短语模型生成电路417生成的新的ASR关键短语模型合并或嵌入到ASR语言模型418中来更新ASR语言模型418。这是普遍可行的,除了ASR处理器120和ASR关键短语模型生成电路417使用相同的ASR声学模型424之外不需要关于WOV声学模型422和ASR声学模型424的其他任何假设。
在一些实施例中,动态WOV关键短语注册系统140还可以包括字素到音素转换电路(图中未示出),以使得用户定义的关键短语212能够作为文本被输入。字素到音素转换电路被配置为将文本条目转换为音素,以通过WOV关键短语模型生成电路214、314、414生成WOV关键短语模型。字素到音素的映射可以由用户直接提供,也可以使用根据本公开所知的技术作为通过机器学习过程生成的统计模型而获得。
方法
图5是图示根据本公开的某些实施例的用于动态WOV关键短语注册的示例方法500的流程图。可以看出,该示例方法包括多个阶段和子过程,其顺序可以依实施例变化。然而,当总体上考虑时,这些阶段和子过程形成根据本文公开的某些实施例的用于关键短语注册的过程。可以例如通过使用如上所述的图1-4中所示的系统架构来实现这些实施例。然而,根据本公开将显而易见的是,在其他实施例中可以使用其他系统架构。为此,图5中所示的各种功能与其他附图中所示的特定部件的相关性并不旨在暗示任何结构和/或使用限制。而是,其他实施例可以包括例如变化的集成度,其中多个功能由一个系统有效地执行。例如,在替代实施例中,具有解耦的子模块的单个模块可以用于执行方法500的所有功能。因此,根据实现方式的粒度,其他实施例可以具有更少或更多的模块和/或子模块。在其他实施例中,所描绘的方法可以被实现为包括一种或多种非暂时性机器可读介质的计算机程序产品,其在由一个或多个处理器执行时使得该方法被执行。根据本公开,许多变型和替代配置将是显而易见的。
如图5所示,在实施例中,用于动态WOV关键短语注册的方法500从在操作510处基于对用户提供的WOV注册关键短语的子语音单位的正确序列的标识和确定来生成WOV关键短语模型开始。WOV关键短语模型被WOV处理器用来在用户说出WOV关键短语时对其进行检测,以响应于这一关键短语检测而触发ASR处理器的操作。
接下来,在操作520处,基于用户提供的WOV注册关键短语来更新ASR语言模型。ASR语言模型被ASR处理器用来识别用户所说出的语音表达。
在一些实施例中,对ASR语言模型的更新还包括将WOV关键短语模型直接合并到ASR语言模型中。在其他实施例中,对ASR语言模型的更新还包括执行WOV关键短语模型的子语音转换,以及将转换后的WOV关键短语模型合并到ASR语言模型中。在其他实施例中,对ASR语言模型的更新还包括通过将基于音素音节的统计语言模型应用于用户提供的WOV注册关键短语来生成ASR关键短语模型,以及将所生成的ASR关键短语模型合并到ASR语言模型中。
当然,在一些实施例中,如先前结合系统所描述的,可以执行附加操作。例如,可以将用户提供的WOV注册关键短语作为文本条目来提供,在这种情况下可以对文本条目执行字素到音素的转换以生成WOV关键短语模型。在一些实施例中,对ASR处理器的触发可以进一步包括将ASR处理器从较低功耗的空闲状态唤醒至较高功耗的识别状态。
示例系统
图6示出了根据本公开的某些实施例配置的用于执行动态WOV关键短语注册的示例系统600。在一些实施例中,系统600包括计算平台610,其可以托管或以其他方式被合并到个人计算机、工作站、服务器系统、智能家庭管理系统、膝上型计算机、超膝上型计算机(ultra-laptop computer)、平板电脑、触摸板、便携式计算机、手持式计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、蜂窝电话和PDA的组合、智能设备(例如,智能手机或智能平板电脑)、移动互联网设备(MID)、消息传递设备、数据通信设备、成像设备、可穿戴设备、嵌入式系统等。在某些实施例中可以使用不同设备的任何组合。
在一些实施例中,平台610可以包括处理器620、存储器630、动态WOV关键短语注册系统140、WOV处理器110、ASR处理器120、网络接口640、输入/输出(I/O)系统650、用户接口660、音频捕获设备662、以及存储系统670的任何组合。还可以看到,还提供了总线和/或互连692,以允许在上面列出的各种部件和/或其他未示出的部件之间进行通信。平台610可以通过网络接口640耦合到网络694,以允许与其他计算设备、平台、或资源的通信。根据本公开,未反映在图6的框图中的其他组件部分和功能将是显而易见的,并且将理解,其他实施例不限于任何特定的硬件配置。
处理器620可以是任何合适的处理器,并且可以包括一个或多个协处理器或控制器(例如,音频处理器、图形处理单元、或硬件加速器),以协助与系统600相关联的控制和处理操作。在一些示例中,处理器620可以被实现为任何数目的处理器核。处理器(或处理器核)可以是任何类型的处理器,例如微处理器、嵌入式处理器、数字信号处理器(DSP)、图形处理器(GPU)、网络处理器、现场可编程门阵列、或被配置为执行代码的其他设备。处理器可以是多线程核,因为它们每个核可以包括多于一个的硬件线程上下文(hardware threadcontext)(或“逻辑处理器”)。处理器620可以被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器。在一些实施例中,处理器620可以被配置为x86指令集兼容处理器。
存储器630可以使用任何合适类型的数字存储装置来实现,包括例如闪存和/或随机存取存储器(RAM)。在一些实施例中,如本领域技术人员所知,存储器630可以包括存储器层次结构和/或存储器缓存的各个层。存储器630可以被实现为易失性存储器设备,例如但不限于,RAM、动态RAM(DRAM)、或静态RAM(SRAM)设备。存储系统670可以被实现为非易失性存储设备,例如但不限于,硬盘驱动器(HDD)、固态驱动器(SSD)、通用串行总线(USB)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接的存储设备、闪存、备用电池同步DRAM(SDRAM)、和/或网络可访问存储设备中的一个或多个。在一些实施例中,当多个硬盘驱动器被包括时,存储装置670可以包括用于增加针对有价值的数字媒体的存储性能增强保护的技术。在一些实施例中,WOV关键短语模型、ASR语言模型、和声学模型可以被存储在存储器的单独的区块或区域中。
处理器620可以被配置为执行操作系统(OS)680,其可以包括任何合适的操作系统,例如,谷歌Android(谷歌公司,加利福尼亚州山景城)、微软Windows(微软公司,华盛顿州雷德蒙德)、苹果OS X(苹果公司,加利福尼亚州库比蒂诺)、Linux、或实时操作系统(RTOS)。如根据本公开将理解的,本文提供的技术可以在不考虑与系统600结合提供的特定操作系统的情况下实现,并且因此还可以使用任何合适的现有的或后续开发的平台来实现。
网络接口电路640可以是允许在网络694和/或计算机系统600的其他部件之间进行有线和/或无线连接,从而使系统600能够与其他本地和/或远程计算系统、服务器、基于云的服务器、和/或其他资源进行通信的任何适当的网络芯片或芯片组。有线通信可以符合现有的(或待开发的)标准,例如以太网。无线通信可以符合现有的(或待开发的)标准,例如,包括LTE(长期演进)的蜂窝通信、无线保真(Wi-Fi)、蓝牙、和/或近场通信(NFC)。示例性无线网络包括但不限于,无线局域网、无线个域网、无线城域网、蜂窝网络、和卫星网络。
I/O系统650可以被配置为在各种I/O设备和计算机系统600的其他部件之间进行接口。I/O设备可以包括但不限于,用户接口660和音频捕获设备662(例如,麦克风)。用户接口660可以包括诸如显示元件、触摸板、键盘、鼠标、和扬声器等之类的设备(未示出)。I/O系统650可以包括被配置为执行对图像的处理以用于呈现在显示元件上的图形子系统。图形子系统可以是,例如图形处理单元或视觉处理单元(VPU)。可以使用模拟或数字接口来通信地耦合图形子系统和显示元件。例如,接口可以是以下各项中的任一者:高清晰度多媒体接口(HDMI)、显示端口(DisplayPort)、无线HDMI、和/或使用了符合无线高清晰度的技术的任何其他合适的接口。在一些实施例中,图形子系统可以被集成到处理器620或平台610的任何芯片组中。
将理解,在一些实施例中,系统600的各种部件可以被组合或集成在片上系统(SoC)架构中。在一些实施例中,部件可以是硬件部件,固件部件,软件部件或硬件、固件或软件的任何合适的组合。
如前所述,动态WOV关键短语注册系统140被配置为在运行时生成WOV关键短语模型并更新ASR语言模型,以使用户能够定义新的WOV关键短语。如上所述,动态WOV关键短语注册系统140可以包括图1-4中所示的任何或所有电路/部件。这些部件可以与耦合到平台610或以其他方式形成平台610的一部分的各种合适的软件和/或硬件结合实现或以其他方式结合使用。这些部件可以额外地或替代地与能够向用户提供信息并从用户接收信息和命令的用户I/O设备结合实现或以其他方式结合使用。
在一些实施例中,这些电路可以被安装在系统600的本地,如图6的示例实施例所示。可替换地,系统600可以以客户端-服务器布置来实现,其中与这些电路相关联的至少一些功能通过使用小程序(applet)(例如,JavaScript小程序)或其他可下载模块或子模块集来被提供给系统600。这样的远程可访问的模块或子模块可以响应于来自客户端计算系统的对访问给定服务器的请求而被实时地配设,其中该给定服务器具有客户端计算系统的用户感兴趣的资源。在此类实施例中,服务器可以在网络694本地或通过一个或多个其他网络和/或通信信道远程地耦合到网络694。在某些情况下,访问给定网络或计算系统上的资源可能需要诸如用户名、密码之类的凭证和/或遵守任何其他合适的安全机制。
在各种实施例中,系统600可以被实现为无线系统、有线系统、或两者的组合。当被实现为无线系统时,系统600可以包括适合于通过无线共享介质进行通信的部件和接口,例如,一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等等。无线共享介质的示例可以包括无线频谱的一部分,例如射频频谱等。当被实现为有线系统时,系统600可以包括适用于通过有线通信介质进行通信的部件和接口,例如,输入/输出适配器、用于将输入/输出适配器与相应的有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括电线、电缆金属引线、印刷电路板(PCB)、底板、交换结构(switch fabric)、半导体材料、双绞线、同轴电缆、光纤等。
可以使用硬件元件、软件元件、或两者的组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、ASIC、可编程逻辑器件、数字信号处理器、FPGA、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任意组合。确定是否使用硬件元件和/或软件元件来实现实施例可以根据任何数目的因素而变化,例如期望的计算速率、功率水平、热容忍度、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、以及其他设计或性能约束。
可以使用表达“耦合”和“连接”及其派生词来描述一些实施例。这些术语并非旨在互为同义词。例如,可以使用术语“连接”和/或“耦合”来描述一些实施例,以指示两个或更多个元件彼此直接物理或电接触。但是,术语“耦合”也可以表示两个或更多个元件彼此不直接接触,但仍相互协作或相互作用。
可以以硬件、软件、固件、和/或专用处理器的各种形式来实现本文公开的各种实施例。例如,在一个实施例中,至少一种非暂时性计算机可读存储介质具有在其上编码的指令,这些指令在由一个或多个处理器执行时使本文公开的动态关键短语注册方法中的一种或多种得以实现。指令可以通过使用合适的编程语言(例如,C、C++、面向对象的C、Java、JavaScript、Visual Basic.NET、初学者通用符号指令代码(BASIC)或者替代地使用自定义或专有指令集来编码。指令可以以有形地体现在存储器设备上并且可以由具有任何适当架构的计算机执行的一个或多个计算机软件应用和/或小程序的形式来提供。在一个实施例中,系统可以被托管在给定的网站上并且使用例如JavaScript或另一合适的基于浏览器的技术来实现。例如,在某些实施例中,系统可以利用可经由网络694访问的远程计算机系统所提供的处理资源。在其他实施例中,本文公开的功能可以被并入到其他基于语音的软件应用中,例如汽车控制/导航、智能家庭管理、娱乐、和机器人应用。本文公开的计算机软件应用可以包括任何数目的不同模块、子模块、或具有不同功能的其他部件,并且可以向其他部件提供信息或从其他部件接收信息。这些模块可以用于,例如,与输入和/或输出设备(例如,显示屏、触敏表面、打印机、和/或任何其他合适的设备)通信。根据本公开,在图示中未被反映的其他组件部分和功能将是显而易见的,并且应当理解,其他实施例不限于任何特定的硬件或软件配置。因此,在其他实施例中,与图6的示例实施例中包括的那些相比,系统600可以包括附加的、更少的、或替代的子部件。
前述的非暂时性计算机可读介质可以是用于存储数字信息的任何合适的介质,例如,硬盘驱动器、服务器、闪存、和/或随机存取存储器(RAM)、或存储器的组合。在替代实施例中,本文公开的部件和/或模块可以用硬件来实现,包括诸如现场可编程门阵列(FPGA)之类的门级逻辑,或者替代地,诸如专用集成电路(ASIC)之类的特定用途的半导体。可以用具有用于接收和输出数据的多个输入/输出端口以及用于执行本文公开的各种功能的多个嵌入式例程的微控制器来实现其他实施例。将显而易见的是,可以使用硬件、软件、和固件的任何合适的组合,并且其他实施例不限于任何特定的系统架构。
一些实施例可以例如通过使用机器可读介质或物品来实现,该机器可读介质或物品可以存储指令或指令集,如果指令或指令集由机器执行,则可以使机器执行根据实施例的方法和/或操作。这样的机器可以包括,例如,任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理等,并且可以使用硬件和/或软件的任何合适的组合来实现。机器可读介质或物品可以包括例如任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质、和/或存储单元,诸如存储器、可移动或非可移动介质、可擦除或非可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、光盘可记录(CD-R)存储器、光盘可重写(CD-RW)存储器、光盘、磁性介质、磁光介质、可移动存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、盒式磁带等。指令可以包括任何适当类型的代码(例如,源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等),其通过使用任何适当的高级、低级、面向对象的、可视、编译、和/或解释性编程语言来实现。
除非另有特别说明,否则可以理解,诸如“处理”、“计算”、“算出”、“确定”等之类的术语是指计算机或计算系统或类似的电子计算设备的动作和/或过程,其将被表示为计算机系统的寄存器和/或存储器单元内的物理量(例如,电子)的数据操纵和/或转换为被类似地表示为计算机系统的寄存器、存储器单元、或其他此类信息存储传输或显示器内的物理量的其他数据。实施例不限于此情境。
如本文的任何实施例中所用,术语“电路”或“电路系统”是功能性的,并且可以例如单独地或以任意组合包括硬接线电路系统、诸如包括一个或多个单独指令处理核的计算机处理器之类的可编程电路系统、状态机电路系统、和/或存储由可编程电路系统执行的指令的固件。电路系统可以包括处理器和/或控制器,该处理器和/或控制器被配置为执行一个或多个指令以执行本文所述的一个或多个操作。这些指令可以被体现为例如被配置为使电路系统执行上述任何操作的应用、软件、固件等。软件可以被体现为记录在计算机可读存储设备上的软件包、代码、指令、指令集和/或数据。软件可以被体现或实现为包括任何数目的进程,并且继而进程可以被体现或实现为包括任何数目的线程等,以分层的方式。固件可以被体现为在存储器设备中硬编码(例如,非易失性)的代码、指令或指令集和/或数据。电路系统可以集体地或单独地被体现为形成较大系统的一部分的电路系统,例如,集成电路(IC)、专用集成电路(ASIC)、片上系统(SoC)、台式计算机、膝上型计算机、平板计算机、服务器、智能电话等。其他实施例可以被实现为由可编程控制设备执行的软件。在这种情况下,术语“电路”或“电路系统”旨在包括软件和硬件的组合,例如,能够执行软件的处理器或可编程控制设备。如本文所述,可以使用硬件元件、软件元件、或其任何组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如,晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。
本文已经阐述了许多具体细节以提供对实施例的透彻理解。然而,普通技术人员将理解,可以在没有这些具体细节的情况下实践这些实施例。在其他情况下,没有详细描述众所周知的操作、部件和电路,以免模糊实施例。可以理解的是,本文公开的具体结构和功能细节可以是代表性的,但不一定限制实施例的范围。另外,尽管已经以特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求中限定的主题不一定限于本文所述的特定特征或动作。而是,本文描述的特定特征和动作作为实现权利要求的示例形式被公开。
其他示例实施例
以下示例涉及其他实施例,许多排列和配置将从中显而易见。
示例1是用于语音唤醒(WOV)关键短语注册的处理器实现的方法,该方法包括:由基于处理器的系统基于用户提供的WOV注册关键短语来生成WOV关键短语模型,WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及由基于处理器的系统基于用户提供的WOV注册关键短语来更新ASR语言模型,ASR语言模型被ASR处理器用来识别用户说出的语音表达。
示例2包括示例1的主题,其中对ASR语言模型的更新包括将WOV关键短语模型合并到ASR语言模型中。
示例3包括示例1或2的主题,其中WOV处理器使用第一声学模型(AM),ASR处理器使用第二声学模型(AM),并且第一AM和第二AM使用共用音素和状态序列。
示例4包括示例1-3中任一者的主题,其中对ASR语言模型的更新包括执行对WOV关键短语模型的子语音单位的转换以及将转换后的WOV关键短语模型合并到ASR语言模型中。
示例5包括示例1-4中任一者的主题,其中对ASR语言模型的更新包括通过将基于音素音节的统计语言模型应用于用户提供的WOV注册关键短语来生成ASR关键短语模型,以及将所生成的ASR关键短语模型合并到ASR语言模型中。
示例6包括示例1-5中任一者的主题,其中,用户提供的WOV注册关键短语作为文本条目被提供,该方法还包括对文本条目执行字素到音素的转换,以用于生成WOV关键短语模型。
示例7包括示例1-6中任一者的主题,其中,对ASR处理器的触发包括将ASR处理器从较低功耗的空闲状态唤醒至较高功耗的识别状态。
示例8包括示例1-7中任一者的主题,其中,当ASR处理器处于较高功耗的识别状态时,WOV处理器的功耗比ASR处理器少。
示例9是用于语音唤醒(WOV)关键短语注册的系统,该系统包括:WOV关键短语模型生成电路,用于基于用户提供的WOV注册关键短语来生成WOV关键短语模型,WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及ASR模型更新电路,用于基于用户提供的WOV注册关键短语来更新ASR语言模型,ASR语言模型被ASR处理器用于识别用户说出的语音表达。
示例10包括示例9的主题,其中ASR模型更新电路还用于将WOV关键短语模型合并到ASR语言模型中。
示例11包括示例9或10的主题,其中WOV处理器使用第一声学模型(AM),ASR处理器使用第二声学模型(AM),并且第一AM和第二AM使用共用音素和状态序列。
示例12包括示例9-11中任一者的主题,还包括模型转换电路,用于执行对WOV关键短语模型的子语音单位的转换以及将转换后的WOV关键短语模型合并到ASR语言模型中。
示例13包括示例9-12中任一者的主题,还包括ASR关键短语模型生成电路,用于通过将基于音素音节的统计语言模型应用于用户提供的WOV注册关键短语来生成ASR关键短语模型,并将所生成的ASR关键短语模型合并到ASR语言模型中。
示例14包括示例9-13中任一者的主题,其中,用户提供的WOV注册关键短语作为文本条目被提供,该系统还包括字素到音素转换电路,用于将文本条目转换为音素以用于生成WOV关键短语模型。
示例15包括示例9-14中任一者的主题,其中对ASR处理器的触发包括将ASR处理器从功耗较低的空闲状态唤醒到功耗较高的识别状态。
示例16包括示例9-15中任一者的主题,其中,当ASR处理器处于较高功耗的识别状态时,WOV处理器的功耗比ASR处理器少。
示例17是至少一种非暂时性计算机可读存储介质,其上编码有指令,这些指令在由一个或多个处理器执行时,产生以下用于语音唤醒(WOV)关键短语注册的操作,这些操作包括:基于用户提供的WOV注册关键短语来生成WOV关键短语模型,WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及基于用户提供的WOV注册关键短语来更新ASR语言模型,ASR语言模型被ASR处理器用来识别用户说出的语音表达。
示例18包含示例17的主题,其中对ASR语言模型的更新包括将WOV关键短语模型合并到ASR语言模型中的操作。
示例19包括示例17或18的主题,其中WOV处理器使用第一声学模型(AM),ASR处理器使用第二声学模型(AM),并且第一AM和第二AM使用共用音素和状态序列。
示例20包括示例17-19中任一者的主题,其中对ASR语言模型的更新包括执行对WOV关键短语模型的子语音单位的转换以及将转换后的WOV关键短语模型合并到ASR语言模型中的操作。
示例21包括示例17-20中任一者的主题,其中对ASR语言模型的更新包括通过将基于音素音节的统计语言模型应用于用户提供的WOV注册关键短语来生成ASR关键短语模型以及将所生成的ASR关键短语模型合并到ASR语言模型中的操作。
示例22包括示例17-21中任一者的主题,其中用户提供的WOV注册关键短语作为文本条目被提供,还包括对文本条目执行字素到音素的转换以用于生成WOV关键短语模型的操作。
示例23包括示例17-22中任一者的主题,其中对ASR处理器的触发包括将ASR处理器从较低功耗的空闲状态唤醒到较高功耗的识别状态的操作。
示例24包括示例17-23中任一者的主题,其中当ASR处理器处于功耗较高的识别状态时,WOV处理器的功耗比ASR处理器少。
示例25是用于语音唤醒(WOV)关键短语注册的系统,该系统包括:用于基于用户提供的WOV注册关键短语来生成WOV关键短语模型的构件,WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及用于基于用户提供的WOV注册关键短语来更新ASR语言模型的构件,ASR语言模型被ASR处理器用于识别用户说出的语音表达。
示例26包括示例25的主题,其中对ASR语言模型的更新包括用于将WOV关键短语模型合并到ASR语言模型中的构件。
示例27包括示例25或示例26的主题,其中WOV处理器使用第一声学模型(AM),ASR处理器使用第二声学模型(AM),并且第一AM和第二AM使用共用音素和状态序列。
示例28包括示例25-27中任一者的主题,其中对ASR语言模型的更新包括用于执行对WOV关键短语模型的子语音单位的转换的构件和用于将转换后的WOV关键短语模型合并到ASR语言模型中的构件。
示例29包括示例25-28中任一者的主题,其中对ASR语言模型的更新包括用于通过将基于音素音节的统计语言模型应用于用户提供的WOV注册关键短语来生成ASR关键短语模型的构件,和用于将所生成的ASR关键短语模型合并到ASR语言模型中的构件。
示例30包括示例25-29中任一者的主题,其中用户提供的WOV注册关键短语作为文本条目被提供,该系统还包括用于对文本条目执行字素到音素的转换以用于生成WOV关键短语模型的构件。
示例31包括示例25-30中任一者的主题,其中对ASR处理器的触发包括用于将ASR处理器从较低功耗的空闲状态唤醒到较高功耗的识别状态的构件。
示例32包括示例25-31中任一者的主题,其中当ASR处理器处于较高功耗的识别状态时,WOV处理器的功耗比ASR处理器少。
本文所采用的术语和表达被用作描述而非限制的术语,并且在使用此类术语和表达时,无意排除所示和所描述的特征(或其部分)的任何等同物,并且,应当认识到,在权利要求的范围内可以进行各种修改。因此,权利要求旨在涵盖所有这些等同物。本文已经描述了各种特征、方面、和实施例。如本领域技术人员将理解的,特征、方面和实施例易于彼此组合以及变化和修改。因此,应当认为本公开包括这些组合、变化和修改。本公开的范围不旨在限于此详细描述,而是由所附权利要求来限定。要求本申请优先权的未来提交的申请可以以不同的方式要求所公开的主题,并且总体而言可以包括如本文中以各种方式公开或以其他方式展示的一个或多个要素的任何集合。

Claims (24)

1.一种用于语音唤醒(WOV)关键短语注册的处理器实现的方法,所述方法包括:
由基于处理器的系统基于用户提供的WOV注册关键短语来生成WOV关键短语模型,所述WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及
由所述基于处理器的系统基于所述用户提供的WOV注册关键短语来更新ASR语言模型,所述ASR语言模型被所述ASR处理器用来识别所述用户说出的语音表达。
2.根据权利要求1所述的方法,其中,对所述ASR语言模型的更新包括:将所述WOV关键短语模型合并到所述ASR语言模型中。
3.根据权利要求2所述的方法,其中,所述WOV处理器使用第一声学模型(AM),所述ASR处理器使用第二声学模型(AM),并且所述第一AM和所述第二AM使用共用的音素和状态序列。
4.根据权利要求1所述的方法,其中,对所述ASR语言模型的更新包括:执行对所述WOV关键短语模型的子语音单位的转换以及将转换后的WOV关键短语模型合并到所述ASR语言模型中。
5.根据权利要求1所述的方法,其中,对所述ASR语言模型的更新包括:通过将基于音素音节的统计语言模型应用于所述用户提供的WOV注册关键短语来生成ASR关键短语模型,以及将所生成的ASR关键短语模型合并到所述ASR语言模型中。
6.根据权利要求1所述的方法,其中,所述用户提供的WOV注册关键短语作为文本条目被提供,所述方法还包括:对所述文本条目执行字素到音素的转换以用于生成所述WOV关键短语模型。
7.根据权利要求1-6中任一项所述的方法,其中,对所述ASR处理器的触发包括:将所述ASR处理器从较低功耗的空闲状态唤醒至较高功耗的识别状态。
8.根据权利要求7所述的方法,其中,当所述ASR处理器处于所述较高功耗的识别状态时,所述WOV处理器的功耗比所述ASR处理器少。
9.一种用于语音唤醒(WOV)关键短语注册的系统,所述系统包括:
WOV关键短语模型生成电路,用于基于用户提供的WOV注册关键短语来生成WOV关键短语模型,所述WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及
ASR模型更新电路,用于基于所述用户提供的WOV注册关键短语来更新ASR语言模型,所述ASR语言模型被所述ASR处理器用来识别所述用户说出的语音表达。
10.根据权利要求9所述的系统,其中,所述ASR模型更新电路还用于将所述WOV关键短语模型合并到所述ASR语言模型中。
11.根据权利要求10所述的系统,其中,所述WOV处理器使用第一声学模型(AM),所述ASR处理器使用第二声学模型(AM),并且所述第一AM和所述第二AM使用共用的音素和状态序列。
12.根据权利要求9所述的系统,还包括模型转换电路,用于执行对所述WOV关键短语模型的子语音单位的转换,以及将转换后的WOV关键短语模型合并到所述ASR语言模型中。
13.根据权利要求9所述的系统,还包括ASR关键短语模型生成电路,用于通过将基于音素音节的统计语言模型应用于所述用户提供的WOV注册关键短语来生成ASR关键短语模型,以及将所生成的ASR关键短语模型合并到所述ASR语言模型中。
14.根据权利要求9所述的系统,其中,所述用户提供的WOV注册关键短语作为文本条目被提供,所述系统还包括字素到音素转换电路,用于将所述文本条目转换为音素以用于生成所述WOV关键短语模型。
15.根据权利要求9-14中任一项所述的系统,其中,对所述ASR处理器的触发包括将所述ASR处理器从较低功耗的空闲状态唤醒至较高功耗的识别状态。
16.根据权利要求15所述的系统,其中,当所述ASR处理器处于所述较高功耗的识别状态时,所述WOV处理器的功耗比所述ASR处理器少。
17.至少一种非暂时性计算机可读存储介质,其上编码有指令,这些指令在由一个或多个处理器执行时导致用于语音唤醒(WOV)关键短语注册的以下操作,所述操作包括:
基于用户提供的WOV注册关键短语来生成WOV关键短语模型,所述WOV关键短语模型被WOV处理器用来检测用户说出的WOV关键短语的子语音单位的正确序列以及响应于WOV关键短语检测而触发自动语音识别(ASR)处理器的操作;以及
基于所述用户提供的WOV注册关键短语来更新ASR语言模型,所述ASR语言模型被所述ASR处理器用来识别所述用户说出的语音表达。
18.根据权利要求17所述的计算机可读存储介质,其中,对所述ASR语言模型的更新包括如下操作:将所述WOV关键短语模型合并到所述ASR语言模型中。
19.根据权利要求18所述的计算机可读存储介质,其中,所述WOV处理器使用第一声学模型(AM),所述ASR处理器使用第二声学模型(AM),并且所述第一AM和所述第二AM使用共用的音素和状态序列。
20.根据权利要求17所述的计算机可读存储介质,其中,对所述ASR语言模型的更新包括如下操作:执行对所述WOV关键短语模型的子语音单位的转换,以及将转换后的WOV关键短语模型合并到所述ASR语言模型中。
21.根据权利要求17所述的计算机可读存储介质,其中,对所述ASR语言模型的更新包括如下操作:通过将基于音素音节的统计语言模型应用于所述用户提供的WOV注册关键短语来生成ASR关键短语模型,以及将所生成的ASR关键短语模型合并到所述ASR语言模型中。
22.根据权利要求17所述的计算机可读存储介质,其中,所述用户提供的WOV注册关键短语作为文本条目被提供,还包括如下操作:对所述文本条目执行字素到音素的转换以用于生成所述WOV关键短语模型。
23.根据权利要求17-22中任一项所述的计算机可读存储介质,其中,对所述ASR处理器的触发包括如下操作:将所述ASR处理器从较低功耗的空闲状态唤醒至较高功耗的识别状态。
24.根据权利要求23所述的计算机可读存储介质,其中,当所述ASR处理器处于所述较高功耗的识别状态时,所述WOV处理器的功耗比所述ASR处理器少。
CN201880063401.8A 2017-12-27 2018-11-19 用于具有语音功能的计算机系统的用户定义的唤醒关键短语的动态注册 Pending CN111164675A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/855,379 US10672380B2 (en) 2017-12-27 2017-12-27 Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US15/855,379 2017-12-27
PCT/US2018/061728 WO2019133153A1 (en) 2017-12-27 2018-11-19 Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system

Publications (1)

Publication Number Publication Date
CN111164675A true CN111164675A (zh) 2020-05-15

Family

ID=65229831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880063401.8A Pending CN111164675A (zh) 2017-12-27 2018-11-19 用于具有语音功能的计算机系统的用户定义的唤醒关键短语的动态注册

Country Status (5)

Country Link
US (1) US10672380B2 (zh)
CN (1) CN111164675A (zh)
DE (1) DE112018006101T5 (zh)
TW (1) TWI802602B (zh)
WO (1) WO2019133153A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
WO2020013946A1 (en) * 2018-07-13 2020-01-16 Google Llc End-to-end streaming keyword spotting
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
WO2020231181A1 (en) 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Method and device for providing voice recognition service
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110310628B (zh) * 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
US11217245B2 (en) * 2019-08-29 2022-01-04 Sony Interactive Entertainment Inc. Customizable keyword spotting system with keyword adaptation
CN110634483B (zh) * 2019-09-03 2021-06-18 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
US11488581B1 (en) * 2019-12-06 2022-11-01 Amazon Technologies, Inc. System and method of providing recovery for automatic speech recognition errors for named entities
US11741943B2 (en) 2020-04-27 2023-08-29 SoundHound, Inc Method and system for acoustic model conditioning on non-phoneme information features
CN113849792A (zh) * 2020-06-10 2021-12-28 瑞昱半导体股份有限公司 适于具有锁定功能的电子装置的电子组件及解除锁定方法
TWI790647B (zh) * 2021-01-13 2023-01-21 神盾股份有限公司 語音助理系統

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69326431T2 (de) 1992-12-28 2000-02-03 Toshiba Kawasaki Kk Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US6226612B1 (en) 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US20020042713A1 (en) 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
JP2003526120A (ja) * 2000-03-09 2003-09-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 民生電子機器システムとの対話処理方法
WO2005050621A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
US9253560B2 (en) 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
US20110288859A1 (en) 2010-02-05 2011-11-24 Taylor Andrew E Language context sensitive command system and method
US20120265533A1 (en) * 2011-04-18 2012-10-18 Apple Inc. Voice assignment for text-to-speech output
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9275411B2 (en) 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9697831B2 (en) 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US20150221307A1 (en) 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode
US9940944B2 (en) 2014-08-19 2018-04-10 Qualcomm Incorporated Smart mute for a communication device
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9779725B2 (en) 2014-12-11 2017-10-03 Mediatek Inc. Voice wakeup detecting device and method
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
TWI639153B (zh) * 2015-11-03 2018-10-21 絡達科技股份有限公司 電子裝置及其透過語音辨識喚醒的方法
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US20170178625A1 (en) 2015-12-21 2017-06-22 Jonathan Mamou Semantic word affinity automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9792897B1 (en) 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Phoneme-expert assisted speech recognition and re-synthesis
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands

Also Published As

Publication number Publication date
DE112018006101T5 (de) 2020-09-03
TW201928949A (zh) 2019-07-16
US10672380B2 (en) 2020-06-02
US20190043481A1 (en) 2019-02-07
TWI802602B (zh) 2023-05-21
WO2019133153A1 (en) 2019-07-04

Similar Documents

Publication Publication Date Title
US10672380B2 (en) Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US20180293974A1 (en) Spoken language understanding based on buffered keyword spotting and speech recognition
US10403266B2 (en) Detecting keywords in audio using a spiking neural network
US10949736B2 (en) Flexible neural network accelerator and methods therefor
EP3078021B1 (en) Initiating actions based on partial hotwords
US9740678B2 (en) Method and system of automatic speech recognition with dynamic vocabularies
WO2021051544A1 (zh) 语音识别方法及其装置
KR101770932B1 (ko) 모바일 디바이스용 상시 연결형 오디오 제어
US10665222B2 (en) Method and system of temporal-domain feature extraction for automatic speech recognition
US9589564B2 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10657952B2 (en) Score trend analysis for reduced latency automatic speech recognition
US20180357998A1 (en) Wake-on-voice keyword detection with integrated language identification
US11862176B2 (en) Reverberation compensation for far-field speaker recognition
US8600749B2 (en) System and method for training adaptation-specific acoustic models for automatic speech recognition
KR101994569B1 (ko) 상시-온 컴포넌트에서의 클록 스위칭
US20210264898A1 (en) Wake on voice key phrase segmentation
US8346549B2 (en) System and method for supplemental speech recognition by identified idle resources
KR102553234B1 (ko) 음성 데이터 처리 방법, 장치 및 지능형 차량
US10255909B2 (en) Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition
US20140188470A1 (en) Flexible architecture for acoustic signal processing engine
US11074249B2 (en) Dynamic adaptation of language understanding systems to acoustic environments
US20180349794A1 (en) Query rejection for language understanding
US20240071370A1 (en) Adaptive frame skipping for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210708

Address after: California, USA

Applicant after: INTEL Corp.

Address before: California, USA

Applicant before: INTEL IP Corp.