CN108780646A - 用于改进型关键短语检测的中间评分和拒绝环回 - Google Patents

用于改进型关键短语检测的中间评分和拒绝环回 Download PDF

Info

Publication number
CN108780646A
CN108780646A CN201780014305.XA CN201780014305A CN108780646A CN 108780646 A CN108780646 A CN 108780646A CN 201780014305 A CN201780014305 A CN 201780014305A CN 108780646 A CN108780646 A CN 108780646A
Authority
CN
China
Prior art keywords
score
key phrase
state
model
refusal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780014305.XA
Other languages
English (en)
Other versions
CN108780646B (zh
Inventor
T·博克莱特
A·马雷克
T·多劳
P·索邦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108780646A publication Critical patent/CN108780646A/zh
Application granted granted Critical
Publication of CN108780646B publication Critical patent/CN108780646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

讨论涉及用于应用(例如,话音唤醒)的关键短语检测的技术。这些技术可以包括关键短语模型的一个或多个状态的中间评分和/或从关键短语模型的状态到拒绝模型的后向转移或拒绝环回,以基于接收到的表述来减少错误接受。

Description

用于改进型关键短语检测的中间评分和拒绝环回
优先权要求
该申请要求题为“INTERMEDIATE SCORING AND REJECTION LOOPBACK FORIMPROVED KEY PHRASE DETECTION”的2016年3月1日提交的美国专利申请序列号No.15/057,695的优先权,并且其通过完整引用得以合并。
背景技术
关键短语或热点词语检测系统可以用于检测可以通过设备发起活动的词语或短语等。例如,设备可以基于检测到特定词语或短语来唤醒(例如,从低功率或休眠模式转移到有效模式)。这些话音唤醒或关键短语检测系统可能关注于通过有限的存储器和算力来检测所指定的短语以唤醒设备。这些系统的目标可以是使得两种可能的错误类型——错误拒绝(例如,错误地拒绝正确的短语)以及错误接受(例如,错误地接受错的短语)——最小化。具体地说,当所表述的短语的一部分匹配或在语音上相似于关键短语而所表述的短语的另一部分并不匹配或在语音上不相似时,这些错误接受可能更有可能产生。
故此,尤其是当已经表述关键短语的一部分时,现有技术可能提供相对高的假阳性率。随着对于实现关键短语检测系统(例如,话音唤醒系统)的期望变得更广泛,这些问题可能变得严重。
附图说明
在附图中通过示例的方式而非通过限制的方式示出在此所描述的材料。为了说明的简明性和清楚性,附图所示的要素不一定按比例绘制。例如,为了清楚,一些要素的尺寸可以相对于其它要素夸大。此外,在考虑得适当的情况下,标号已经在附图之间重复,以指示对应或类似要素。在附图中:
图1是用于提供关键短语检测的示例设置的说明性示图;
图2是用于提供关键短语检测的示例系统的说明性示图;
图3示出与关键短语检测关联的示例数据结构;
图4示出示例声学模型深度神经网络;
图5示出示例拒绝模型以及包括后向转移的示例关键短语模型;
图6示出用于提供包括从关键短语模型到拒绝模型的后向转移的关键短语检测的示例处理;
图7示出示例拒绝模型以及包括中间评分的示例关键短语模型;
图8示出用于提供包括关键短语模型的中间评分的关键短语检测的示例处理;
图9是示出用于包括后向转移的关键短语检测的示例处理的流程图;
图10是示出用于包括中间评分的关键短语检测的示例处理的流程图;
图11是用于执行关键短语检测的示例系统的说明性示图;
图12是示例系统的说明性示图;以及
图13示出全部根据本公开的至少一些实现方式所布置的示例设备。
具体实施方式
现参照附图描述一个或多个实施例。虽然讨论特定配置和布置,但应理解,仅为了说明的目的而进行该操作。本领域技术人员应理解,在不脱离说明书的精神和范围的情况下,可以采用其它配置和布置。本领域技术人员应理解,也可以在除了在此所描述的之外的各种其它系统和应用中采用在此所描述的技术和/或布置。
虽然以下描述阐述可以例如在架构(例如,片上系统(SoC)架构)中显现的各个实现方式,但在此所描述的技术和/或布置的实现方式不限于特定架构和/或计算系统,并且可以通过用于相似目的的任何架构和/或计算系统得以实现。例如,采用例如多个集成电路(IC)芯片(例如,包括数字信号处理器、专用硬件等)和/或封装的各种架构和/或各种计算设备和/或消费者电子(CE)设备(例如,机顶盒、智能电话等)可以实现本文所描述的技术和/或布置。此外,虽然以下描述可以阐述大量具体细节(例如,系统组件的逻辑实现方式、类型和相互关系、逻辑分区/集成选取等),但可以在没有这些具体细节的情况下实践所要求的主题内容。在其它实例中,为了不掩盖在此所公开的材料,可以并不详细地示出一些材料(例如,控制结构和完整软件指令序列)。
可以在硬件、固件、软件或其任何组合中实现在此所公开的材料。在此所公开的材料也可以实现为可以由一个或多个处理器读取并且执行的机器可读介质上所存储的指令。计算机可读介质可以包括用于存储或发送机器可读的形式的信息的任何介质和/或机构(例如,计算设备)。例如,机器可读介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质;光存储介质;闪存设备;电、光、声学或其它形式的传输信号(例如,载波、红外信号、数字信号等)以及其它介质。
说明书中对“一个实现方式”、“实现方式”、“示例实现方式”等的引用指示所描述的实现方式可以包括特定特征、结构或特性,但每一实施例可以不一定包括特定特征、结构或特性。此外,这些短语不一定指代同一实现方式。此外,当结合实施例描述特定特征、结构或特性时,认为其处于本领域技术人员的知识内,以结合其它实现方式作用于该特征、结构或特征,而无论是否在此明确地描述。
本文描述与具有减少的关于应用(例如,话音唤醒)的错误接受的关键短语检测有关的方法、设备、装置、计算平台和物品。
如上所述,关键短语或热点词语检测系统可以用于检测可以通过设备发起活动(例如,基于检测到关键短语而将设备从低功率或休眠模式唤醒到有效模式)的词语或短语等。如本文所使用的那样,术语关键短语可以指示待检测的任何音频指示符或声学事件(例如,短语、词语或一组音素或语音单元)或音频或声学事件(例如,婴儿的哭声、尖叫等)。此外,为了由系统使用,可以预先确定关键短语,使得可以提供预定关键短语的检测。在实施例中,基于能量的话音激活检测可以检测话语或某种形式的音频输入,并且本文所讨论的关键短语检测可以基于话音激活检测而得以发起。
也如所描述的那样,关键短语或热点词语检测系统可能遭受错误拒绝和错误接受。例如,一些错误接受可能因在语音上相似于所定义的关键短语的表述并且因部分正确的表述而产生。例如,关于关键短语“Hello Computer”的部分正确的表述将包括包含“Hello”或“Computer”的表述。错误接受可以典型地是两种方式。首先,当表述的第一部分(例如,词语或音节)是正确的或在语音上相似于关键短语时,错误接受可能产生,并且虽然表述的其余部分是不正确的,但系统错误地接受表述。当表述的第二部分在语音上相似于关键短语的其余部分(虽然最终是不正确的)时,或当检测系统或模型并非正确地处理关键短语和表述比较时,可能提供这些错误接受。此外,当表述的第二部分或最终部分是正确的或在语音上相似于关键短语,并且即使表述的第一部分是不正确的也确定接受时,错误接受可能产生。当关键短语的第一部分非常短,使得其可能或多或少被旁路(例如,其在关键短语评分中并非被很强地加权)时,这些错误接受可能是更普遍的。
在一些实施例中,可以通过提供从关键短语模型的中间状态到拒绝模型的拒绝环回或后向转移等来减少第一类型的错误接受(例如,表述的第一部分是正确的,而第二部分是不正确的)。例如,拒绝模型可以包括具有去往可以包括通过转移而互连的多个状态关键短语模型的转移的单个状态拒绝模型。可以在每个时间实例保持拒绝模型的单个状态和关键短语模型的多个状态的得分。对于关键短语模型的第一状态,来自拒绝模型的单个状态的转移可以提供:在每个时间实例,关于第一状态,通过将与第一状态对应的自环得分(例如,单个自环得分、或多个自环得分中的最大者)与第一状态在先前时间实例的得分和转移所提供的得分(例如,拒绝模型的单个状态在先前时间实例的得分)中的最大者相加来生成其得分。相似地,互连关键短语模型的多个状态的每个转移可以向接收状态提供之间的选取,通过来自该状态的(例如,来自先前时间实例的)先前得分或基于此而更大的(例如,来自关于转移状态的先前时间实例的)转移到该状态的得分来更新状态。该更新可以包括:将状态的最大自环得分与状态的先前得分和转移后的得分中的最大者相加。
提供后向转移的关键短语模型的中间状态可以在一些示例中处于预定关键短语的词语等之后。所讨论的去往拒绝模型的环回或转移可以提供:通过将单个状态的最大自环得分与单个状态的先前得分和(后向)转移后的得分中的最大者相加来更新拒绝模型的单个状态。该更新可以提供:拒绝模型至少具有与关键短语模型转移状态相同的得分,这样可以减少或消除它们之间的差。例如,可以(例如,经由转移)向拒绝模型的单个状态和关键短语模型的下一状态提供来自关键短语模型的中间状态的得分。去往拒绝模型的单个状态的这种后向转移可以随着评分继续而与关键短语模型的评分状态(例如,典型地,最终状态)超过拒绝模型的单个状态的要求组合来提供:表述的第二或较晚部分也匹配或在语音上相似于预定关键短语的第二或较晚部分。
这些技术可以由此要求说出关键短语的第一部分和第二部分(或更多)。使用这些技术,可以极大地减少或消除表述的第一部分满足关键短语模型的第一部分而第二部分不满足的错误接受。
例如,如本文进一步所讨论的那样,可以基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型和具有多个状态的(例如,表示预定关键短语的)关键短语模型。可以提供从关键短语模型的特定状态到拒绝模型的单个状态并且到关键短语模型的下一状态的转移。如本文所使用的那样,术语转移可以提供从一个状态到另一状态的得分。该转移可以消除或减少拒绝模型与关键短语模型之间的差,如所讨论的那样。可以基于子语音单元的随后得分以及所提供的转移来更新拒绝模型的单个状态以及关键短语模型的各状态。该更新可以提供与拒绝模型的单个状态对应的拒绝似然率得分以及与关键短语模型对应的(典型地,与关键短语模型的最终状态对应的)关键短语似然率得分。可以基于拒绝似然率得分和关键短语似然率得分来确定接收到的音频输入是否与预定关键短语关联。例如,基于拒绝似然率得分和关键短语似然率得分的对数似然率得分可以得以确定,并且与阈值比较,以确定是否已经检测到关键短语。例如,可以在每个时间实例提供接收到的音频输入是否与预定关键短语关联的这种确定。
在一些实施例中,可以通过提供关键短语模型的中间评分来减少第二类型的错误接受(例如,表述的低加权的第一部分是不正确的,而第二部分是正确的)。如所讨论的那样,拒绝模型可以包括具有去往可以包括通过转移而互连的多个状态的关键短语模型的转移的单个状态拒绝模型。在一些示例中,可以基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及(例如,表示预定关键短语的)关键短语模型。可以基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分。例如,拒绝似然率得分可以与拒绝模型的单个状态的得分对应。此外,可以确定完整关键短语似然率得分。例如,完整关键短语似然率得分可以是与关键短语模型的第一状态(例如,中间状态)关联的第一似然率得分和与关键短语模型的第二状态(例如,最终状态)关联的第二似然率得分中的最小者。例如,第一似然率得分和第二似然率得分可以是在特定时间段上所保留的最大得分。此外,关键短语模型的第一状态和第二状态可以选择为关键短语的词语等的代表性状态,并且可以描述为评分状态等。可以基于拒绝似然率得分和完整关键短语似然率得分来确定接收到的音频输入是否与预定关键短语关联。通过取得这些评分状态的两个(或更多个)似然率得分中的最小者以确定完整关键短语似然率得分,可以(例如,通过对关键短语模型的较早的一个或多个状态进行评分)验证关键短语的一个(或多个)第一部分,并且(例如,通过对关键短语的更晚或最终状态进行评分)验证已经表述完整关键短语。例如,基于拒绝似然率得分和完整关键短语似然率得分的对数似然率得分可以与阈值比较,以确定是否已经检测到关键短语。
如所讨论的那样,可以通过提供从关键短语模型的中间状态到拒绝模型的拒绝环回或后向转移来减少一些错误接受(例如,表述的第一部分是正确的,而第二部分是不正确的),并且可以通过提供关键短语模型的中间评分来减少其它错误接受(例如,表述的第一部分是不正确的,而第二部分是正确的)。在实施例中,可以一起组合或提供拒绝环回或后向转移技术以及中间评分技术,以减少这两种错误接受。一起地或单独地实现的这些技术可以显著减少关键短语或热点词语检测系统的错误接受和错误拒绝。
如所讨论的那样,可以基于表示接收到的音频输入的子语音单元的得分来对基于起始状态的拒绝模型和关键短语模型进行更新或评分等。在一些实施例中,可以基于表示可以包括输入话语的接收到的音频输入的特征矢量的时间序列而生成子语音单元的得分的时间序列。例如,可以经由麦克风接收可以包括输入话语流等的音频输入,并且可以随着时间对所得音频数据进行采样,以生成提取系数(例如,Mel频率倒谱系数(MFCC)等)。(例如,随着时间所得到的)多个MFCC集合可以堆叠,以形成特征矢量(例如,多维特征矢量)。此外,可以随着时间生成特征矢量,以提供表示可以包括话语的接收到的音频的特征矢量的时间序列。可以基于声学模型(例如,深度神经网络(DNN)等)来对这些特征矢量进行评分,以提供子语音单元的得分。例如,子语音得分中的至少一些可以与已经说出特定三音素的似然率关联。
基于子语音单元的得分(例如,声学模型的输出),可以更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型。例如,可以在来自声学模型的输出的每个时间实例更新基于起始状态的拒绝模型和关键短语模型。基于起始状态的拒绝模型可以包括例如具有与声学模型的子语音单元的得分中的一些关联的自环的单个状态。这些自环可以包括:基于来自声学模型的输出来更新单个状态,而没有来自模型的其它状态的任何转移。此外,关键短语模型可以包括具有与对于预定关键短语的词库查找关联的各状态之间的转移的多状态词库查找关键短语模型。
如所讨论的那样,基于对基于起始状态的拒绝模型和关键短语模型的更新(可选地,包括从关键短语模型的中间状态到基于起始状态的拒绝模型的后向转移),可以确定接收到的输入话语是否与预定关键短语关联。在实施例中,基于起始状态的拒绝模型的单个状态可以提供拒绝似然率得分(例如,接收到的话语不是关键短语的似然率),并且关键短语模型的最终状态提供关于接收到的音频输入的关键短语似然率得分(例如,接收到的话语是关键短语的似然率)。在实施例中,基于起始状态的拒绝模型的单个状态可以提供拒绝似然率得分,并且关键短语模型的两个或更多个评分状态中的最小者等可以提供完整关键短语似然率得分或最终关键短语似然率得分等。可以基于拒绝似然率得分和关键短语似然率得分或完整关键短语似然率得分来确定关于接收到的音频输入是否与预定关键短语关联的确定。例如,基于拒绝似然率得分和关键短语似然率得分或完整关键短语似然率得分的似然率得分(例如对数似然率比率)可以得以确定,并且与预定阈值比较。例如,如果对数似然率得分大于阈值,则可以从休眠模式激活或唤醒设备,可以提供系统命令等。
图1是根据本公开的至少一些实现方式所布置的用于提供关键短语检测的示例设置100的说明性示图。如图1所示,设置100可以包括用户101,其将音频输入111提供给设备102。例如,设备102可以处于深度休眠或省电模式等下,并且用户101可以正尝试经由关键短语检测唤醒设备102。如果用户101提供标识为设备102的关键短语的音频输入111,则设备102可以从休眠或省电模式等唤醒。例如,设备102可以对用户101提供自动化话音唤醒能力。如所示,在一些示例中,可以经由设备102实现自动化话音唤醒系统,其中,设备102可以是智能电话。然而,设备102可以是任何合适的设备(例如计算机、膝上型设备、超级本、智能电话、平板、平板电话、可穿戴设备(例如智能手表或眼镜)等)。在任何情况下,设备102可以描述为本文所使用的计算设备。
如所示,在一些示例中,用户101可以通过尝试唤醒设备102等提供音频输入111。应理解,设备102也可能接收音频输入背景噪声、静默、背景话语、并非意图得到对设备102的访问的话语等。例如,设备102可能需要区分或分类(例如,如本文所讨论的拒绝模型所提供的)不匹配预定关键短语的音频(例如音频输入111或其它音频)与(例如,如本文所讨论的关键短语模型所提供的)匹配预定关键短语的音频。
图2是根据本公开的至少一些实现方式所布置的用于提供关键短语检测的示例系统200的说明性示图。如图2所示,系统200可以包括麦克风201、特征提取模块202、声学评分模块203、关键短语检测解码器204、关键短语和拒绝模型205、控制器206、声学模型208以及话音活动检测模块207。例如,如图2所示,关键短语检测解码器204可以将关键短语得分215提供给控制器206。基于关键短语得分215(例如,如果关键短语得分215大于阈值等,则)控制器206可以提供系统唤醒指示符216(例如,如果关键短语得分215指示已经匹配预定关键短语),或控制器206可以不提供该指示符,并且系统200可以继续于关于匹配而估计输入话语。如所示,在一些示例中,控制器206也可以提供与关键短语关联的系统命令218,以请求系统200执行操作(例如,启动应用,生成或检索数据等)。如在此进一步讨论的那样,在一些实施例中,可以经由数字信号处理器(DSP)实现特征提取模块202、声学评分模块203、关键短语检测解码器204、控制器206以及话音活动检测模块207。
如所讨论的那样,在一些实施例中,系统200可以实现单个关键短语,使得在检测到关键短语时,可以提供系统唤醒指示符216和/或系统命令218。在其它实施例中,系统200可以(基于实现本文所讨论的多个关键短语模型)实现多个关键短语。在这些实施例中,如果检测到任何关键短语,则可以提供系统唤醒指示符216和/或系统命令218。此外,系统命令218可以与关键短语中的特定关键短语关联。例如,第一唤醒命令(例如,关键短语)(例如,“计算机,播放音乐”)可以(例如,经由系统唤醒指示符216)唤醒设备,并且(例如,经由系统命令218所实现的音乐播放命令)播放音乐,并且第二唤醒命令(例如,关键短语)(例如,“计算机,我有邮件吗?”)可以(例如,经由系统唤醒指示符216)唤醒设备,并且(例如,经由系统命令218所实现的收邮件命令)确定是否已经接收到邮件。
如所示,麦克风201可以从用户101(或多个用户或环境等)接收音频输入(AI)111。在一些示例中,音频输入111由用户101发放,以唤醒系统200和/或使得系统200执行操作。如所讨论的那样,麦克风201可能接收并非意图唤醒系统200的音频输入或其它背景噪声或甚至静默。例如,音频输入111可以包括用户101所发放的任何话语以及麦克风201的环境中的任何其它背景噪声或静默等。音频输入111可以表征为音频、输入音频、输入话语流等。麦克风201可以接收音频输入111和/或其它音频(例如,作为空气中的声波),并且将音频输入111和/或这些其它音频转换为电信号(例如,数字信号),以生成音频数据(AD)211。例如,音频数据211可以存储在存储器(图2中未示出)中,被传送以用于继续的处理等。
如所示,话音活动检测模块207可以接收音频数据211。例如,话音活动检测模块207可以甚至在系统200的深度休眠模式下(例如,经由DSP)进行操作,以连续地监控音频数据211。在检测到需要系统200进一步估计的话音或其它声音时,话音活动检测模块207可以提供发起信号(IS)217,其可以激活系统200的其它模块以提供关键短语检测。例如,话音活动检测模块207可以将发起信号217提供给特征提取模块202,以激活系统200的特征提取模块202和其它组件。在实施例中,可以通过环缓冲器等缓冲一部分音频数据211(例如,360ms的音频数据等)。当话音活动检测模块207检测到需要进一步估计的话音或其它声音时,特征提取模块202可以从缓冲器接收数据,并且经由音频数据211接收其它到来音频。
如果检测到预定关键短语,则如本文所讨论的那样,系统200可以进入用于用户101的更高级操作模式。此外,话音活动检测模块207可以在关键短语检测期间(例如,在并未检测到或尚未检测到关键短语的同时)进行操作,以确定系统200是否可以重回深度休眠模式等下。例如,话音活动检测模块207可以提供用于系统200的低功率常侦听能力。例如,在激活发起信号217时,可以关于关键短语检测连续地监控音频数据211,直到控制器206确定已经检测到关键短语,并且提供系统唤醒指示符216,或直到话音活动检测模块207确定重新进入休眠模式或低功率状态等。
如所讨论的那样,特征提取模块202可以接收音频数据211。例如,特征提取模块202可以从麦克风201、从所讨论的缓冲器、从系统200的其它存储器等接收音频数据211,并且特征提取模块202可以生成与音频输入111关联的特征矢量212。特征矢量212可以是表示音频输入111的任何合适的特征或特征矢量等。例如,特征矢量212可以是特征矢量(例如,均关于时间实例生成的特征矢量)的时间序列,其中,特征矢量212中的每一个包括均来自时间(例如,采样时间等)的实例的特征或特征矢量的栈。
图3示出根据本公开的至少一些实现方式所布置的与关键短语检测关联的示例数据结构300。如图3所示,在(例如,表示为采样时间t0、t1、……tN的)多个采样时间301中的每一个时,可以生成采样系数302(例如,Mel频率倒谱系数(MFCC)等)。采样时间301可以按任何合适的间隔(例如,每隔10ms等),并且在采样时间301中的每个采样时间所执行的采样可以对任何持续时间的输入话语或音频(例如,25ms的音频等)进行采样。采样系数302可以包括任何数量的采样系数(例如,13个系数),如在所示示例中那样。此外,采样系数302可以均称为特征、特征矢量、采样等。例如,采样系数302可以是表示接收到的音频的功率谱的系数。如所讨论的那样,在实施例中,采样系数302是表示接收到的音频的功率谱的Mel频率倒谱系数。例如,参照图2,可以通过以下操作基于音频输入111(例如,经由音频数据211)确定Mel频率倒谱系数:进行经由麦克风201接收到的音频输入111和/或音频的傅立叶变换,映射到Mel标度,确定每个Mel频率处的功率的对数,并且基于功率的对数的离散余弦变换(DCT)来确定Mel频率倒谱系数。
继续参照图3,采样系数302可以堆叠或串接或组合等,以生成特征矢量212。如所示,在实施例中,采样系数302的11个实例可以组合,以生成特征矢量212中的每个特征矢量。此外,在堆叠之前,采样系数302可以归一化等。例如,可以通过倒谱均值归一化等处理Mel频率倒谱系数,以生成采样系数302。如所示,在实施例中,采样系数302的11个实例可以组合,以生成每个特征矢量,使得每个特征矢量是143(例如,11x13)维矢量。然而,任何数量的采样系数302的实例可以组合或堆叠,以生成特征矢量212。如所示,特征矢量FV1可以包括与t0-t10关联的采样系数。此外,特征矢量FV2可以包括与时间t1-t11关联的采样系数,特征矢量FV3可以包括与时间t2-t12关联的采样系数,依此类推,使得相邻特征矢量关于其中所包括的采样系数302具有重叠。
如图2和图3所示,特征矢量212可以提供给声学评分模块203。声学评分模块203可以基于经由存储器接收到的声学模型208来对特征矢量212进行评分,并且基于特征矢量212来提供任何数量的输出得分214。输出得分214可以表征为得分、概率、子语音单元的得分等。例如,声学评分模块203可以生成关于特征矢量212中的每一个的这些输出得分或状态,以生成(例如,在图3中表示为得分S1、S2、……的)得分214的时间序列。例如,得分214可以是子语音单元的得分的时间序列。在实施例中,声学评分模块203接收并且实现本文所讨论的声学模型208。在实施例中,声学模型208可以是基于训练音频集合所预先训练的深度神经网络(DNN)。在实施例中,声学模型208可以是具有任何数量的输出(例如4,000个输出等)的深度神经网络。在另一实施例中,声学模型208是具有减少的或剪枝的数量的输出的剪枝深度神经网络,使得仅提供或激活可用输出的子集(例如,所确定的设置和/或训练)。这种剪枝可以在实现期间提供较小的存储器占地和/或较低的计算要求。可以由状态信号213提供这些所需的输出,或可以在实现之前预先设置或预先训练这些所需的输出。
例如,声学评分模块203的输出(例如,得分214)可以表示子语音单元(例如,连结式上下文依赖三音素状态)。这些连结式上下文依赖三音素状态可以表示连结到任一侧(例如,左边和右边)上的单音素以生成连结式上下文依赖三音素的的单音素。语言例如可以具有多个单音素(例如,30-50个单音素),并且子语音单元(例如,示例性连结式上下文依赖三音素状态)可以在各种上下文中包括这些单音素中的每一个,使得各种其它单音素处于这些单音素之前以及之后,以生成很多组合(例如,子语音单元)。声学评分模块203可以基于特征矢量212而在其输出处提供与这些子语音单元关联的概率或得分等(例如,已经说出的单元或音素所关于的概率或得分)以及与静默和/或背景噪声等关联的概率或得分。如图3所示,并且如本文进一步讨论的那样,对于得分214中的每一个或一些,关键短语检测解码器204可以生成(例如,表示为关键短语得分KPS1、KPS2……的)对应关键短语得分215。在图3的示例中,在每个时间实例生成与得分214关联的关键短语得分215。在其它示例中,可以按较不频繁的时间间隔生成关键短语得分215。
此外,如所讨论的那样,在一些实施例中,可以检测单个关键短语,并且可以(例如,经由系统唤醒指示符216)唤醒系统,并且可以基于检测到的关键短语来(例如,经由系统命令218)发放可选命令。在其它实施例中,可以实现第二或附加关键短语,并且关键短语检测解码器204可以估计所关联的关键短语模型。例如,可以估计这些关键短语模型,并且可以估计所关联的关键短语得分,以确定是否已经检测到多个关键短语中的特定关键短语。例如,如本文进一步讨论的那样,可以提供多个关键短语模型。在图3的上下文中,关键短语检测解码器204可以关于这些关键短语模型中的每一个(并且在多个时间实例)生成一个或多个关键短语得分,以用于由控制器206估计。
图4示出根据本公开的至少一些实现方式所布置的示例声学模型神经网络400。例如,在一些实施例中,神经网络400可以实现为声学评分模块203。神经网络400可以包括任何合适的神经网络(例如,人工神经网络、深度神经网络、卷积神经网络等)。如图4所示,神经网络400可以包括输入层401、隐藏层402-406以及输出层407。为了清楚呈现,神经网络400示出为具有三个输入节点、均具有四个节点的隐藏层以及六个输出节点,然而,神经网络400可以包括任何这些输入节点、隐藏节点和输出节点。输入层401可以包括任何合适的数量的节点(例如,等于特征矢量212中的每一个中的元素的数量的多个节点)。例如,输入层401可以具有与特征矢量212的143个维度中的每一个对应的143个节点。在其它示例中,特征矢量可以具有更少或更多的元素或维度,并且输入层401可以具有对应数量的节点。
此外,如所示示例中那样,神经网络400可以包括五个隐藏层402-406。然而,神经网络400可以包括任何数量的隐藏层。隐藏层402-406可以包括任何数量的节点。例如,隐藏层402-406可以包括1,500至2,000个节点、2,000至2,500个节点等。在一些示例中,隐藏层402-406具有相同数量的节点,而在其它示例中,一个或多个层可以具有不同数量的节点。输出层407可以包括任何合适的数量的节点,使得得分214包括与连结式上下文依赖三音素状态等对应的值。在一些示例中,神经网络400可以实现隐马尔科夫模型(HMM)。如所讨论的那样,在一些实施例中,输出层407可以被剪枝,使得仅提供预定输出节点(以及关联得分214),使得经由神经网络400实现可用状态或得分的子集。
返回图2,如所讨论的那样,来自声学评分模块203的得分214可以提供给关键短语检测解码器204。此外,如所示,关键短语检测解码器204也可以接收并且实现关键短语模型(或多个关键短语模型)和拒绝模型。例如,关键短语检测解码器204可以从存储器接收关键短语模型(或多个关键短语模型)和拒绝模型(例如,关键短语和拒绝模型205)。例如,关键短语检测解码器204可以接收并且实现如本文关于图5或图7所讨论的拒绝模型和关键短语模型等。
图5示出根据本公开的至少一些实现方式所布置的示例拒绝模型501以及包括后向转移541的示例关键短语模型502。例如,关于经由关键短语检测解码器204的实现方式,可以经由关键短语和拒绝模型205提供拒绝模型501和关键短语模型502。如图5所示,拒绝模型501可以包括拒绝状态511和多个自环512。例如,拒绝状态511可以与起始状态或单个状态对应,并且可以提供单个基于起始状态的拒绝模型。此外,自环512中的每一个可以与得分214之一(例如,来自声学评分模块203的输出)关联,使得自环512关于拒绝模型501的拒绝状态511提供自更新或求和等。例如,自环512中的每一个可以与对应于子语音单元的深度神经网络输出或输出节点关联。使用这些技术,例如,拒绝状态511可以提供实现拒绝模型的起始状态。自环512可以包括任何数量的自环。在一些实施例中,声学评分模块203并未被剪枝,并且在这些实施例中,自环512可以包括几千个自环。在其它实施例中,声学评分模块203可以被剪枝,并且在这些实施例中,自环512可以包括与可能的拒绝状态关联的几十个自环。例如,在来自声学评分模块203的输出的每个时间实例,可以更新拒绝模型501,以提供与之关联的拒绝似然率得分。例如,自环512可以示出在来自声学评分模块203的输出(例如,得分214)的每个时间实例更新为拒绝状态511。在实施例中,在每个时间实例,可以通过自环512当中的最高似然率得分来更新拒绝状态511。
还如图5所示,关键短语模型502可以随后于拒绝模型501,并且通过转移513连接。关键短语模型502可以包括多个状态521(例如,状态522、状态523、状态524、状态525以及通过转移531(例如,转移532和所示的其它转移)互连的所示其它状态)。在图5中,为了清楚呈现,并未标记每个状态和每个转移。此外,关键短语模型502可以包括从状态523转移到拒绝模型501的拒绝状态511的一个(或多个)后向转移541,如本文进一步讨论的那样。状态521中的每一个可以包括一个或多个自环(例如,自环551)或通过其得以更新,并且状态521中的每一个可以基于转移531或来自关键短语模型502中的先前状态的转移513中的转移得以更新。例如,每个自环551(或弧)可以与来自声学评分模块203的输出(例如,得分214中的得分)关联或对应。在所示示例中,状态521中的每一个具有单个自环551。然而,状态521中的一个或多个可以包括多个自环。在一些示例中,状态521中的一个或多个可以是具有表示静默的自环的静默状态,使得可以对包括静默的关键短语进行建模。关键短语模型502可以包括任何合适的模型。例如,可以基于经由系统200所实现的预定关键短语而选择关键短语模型502,并且可以基于词库查找而选择关键短语模型502。例如,可以基于词库中的三音素HMM状态序列来选择各状态521之间的转移531。
基于拒绝模型501和关键短语模型502,在每个或一些时间实例,可以确定拒绝似然率得分和关键短语似然率得分。例如,拒绝似然率得分可以是与拒绝模型501的拒绝状态511关联的得分,并且关键短语似然率得分可以与关键短语模型502的状态521中的最终状态525关联。例如,拒绝模型501和关键短语模型502可以通过其所有节点或状态处于空置或负无穷等得以初始化。参照图2和图5,基于第一特征矢量FV1,声学评分模块203可以生成得分S1,并且拒绝模型501的拒绝状态511和关键短语模型502的第一状态(例如,状态522)可以得以更新。在正处理第二特征矢量FV2时,声学评分模块203可以生成得分S2,并且拒绝模型501的拒绝状态511以及关键短语模型502的第一状态和第二状态可以得以更新。该处理可以继续,直到最终状态525从其初始化状态更新为有意义的评分。在该时间实例(以及随着更新继续的随后时间实例),拒绝状态511的得分或概率等以及最终状态525的得分或概率等可以用于确定是否已经检测到预定关键短语。例如,关键短语检测解码器204可以基于得分214、拒绝模型501以及关键短语模型502来生成关键短语得分215的时间序列。
例如,在当前时间实例,单个状态512或任何状态521的评分可以如下继续。对于该状态,可以关于当前时间实例(例如,t+1)确定与该状态对应的自环的最高概率得分或最大得分等。关于该状态的当前时间实例的最高概率得分可以然后与在先前时间实例(例如,t)关于该状态的得分和转移到该状态的任何得分中的最大者相加。例如,转移到状态的一个或多个得分可以与先前时间实例(例如,t)对应,并且可以是转移到正更新的状态的状态的得分。例如,参照状态522,状态522在当前时间实例(例如,t+1)的得分可以是(例如,声学评分模块203所提供的)在当前时间实例的状态522的一个自环的值(例如,得分)或状态522的多个自环(如果提供多于一个的自环)的最大值与状态522在先前时间实例(例如,t)的得分和由单个状态512转移到状态522的得分(例如,单个状态512在时间t的得分)中的最大者相加。
相似地,拒绝状态511在当前时间实例(例如,t+1)的得分可以是(例如,声学评分模块203所提供的)多个自环512在当前时间实例的最大值与拒绝状态511在先前时间实例(例如,t)的得分和经由转移541由状态523转移到单个状态512的得分(例如,单个状态523在时间t的得分)中的最大者相加。在实施例中,转移541可以提供状态523到拒绝状态511的得分的转移,使得如果得分大于在拒绝状态511的先前得分,则多个自环的最大者可以与之相加。在另一实施例中,转移541可以提供均包括状态523和自环512之一的得分的多个转移。此外,状态524在当前时间实例的得分可以是(例如,声学评分模块203所提供的)在当前时间实例的状态524的一个自环的值或状态524的多个自环(如果提供多于一个的自环)的最大值与状态524在先前时间实例(例如,t)的得分和由状态523转移到状态524的得分(例如,单个状态512在时间t的得分)中的最大者相加。如所讨论的那样,可以在每个时间实例以相似方式提供状态521中的每一个的评分。
可以在每个可用的时间实例执行拒绝模型501和关键短语模型502的该评分。此外,可以在每个可用的时间实例执行所讨论的关键短语似然率评分和拒绝似然率评分,直到检测到关键短语。
如所讨论的那样,关键短语模型502可以包括后向转移541。后向转移541可以提供(例如,经由后向转移541)在拒绝状态511的得分与(例如,经由转移532)在状态524的得分之间的差的减少或消除。后向转移541可以表征为拒绝环回、拒绝转移、对拒绝模型的环回等。例如,转移513、转移531和转移541可以提供发送状态到接收状态的得分的转移,使得如果接收到的得分大于接收状态的当前得分,则接收状态的得分可以更新为接收到的得分。在关键短语模型502的上下文中,相对高的在状态523的得分可以经由转移532提供给状态524,和/或经由转移541提供给拒绝模型501的拒绝状态511。在这些上下文中,在更新在拒绝模型501的拒绝状态511的得分和在状态524的得分时,可以基于来自状态523的转移后的得分和(例如,在拒绝状态511的)拒绝状态511的先前得分中的最大者以及来自状态523的转移后的得分和(例如,在状态524的)单个状态524的先前得分中的最大者而(如所讨论的那样)执行更新。当状态524和拒绝状态511都使用转移后的得分时,可以减少或消除状态的各得分之间的差。例如,如所讨论的那样,在这些上下文中,在状态524的当前得分可以是转移后的得分(例如,因为在所讨论的示例中其为最大得分)加上在状态524的单个自环或多个自环最大值,并且在拒绝状态511的当前得分可以是转移后的得分(例如,因为在所讨论的示例中其为最大得分)加上在拒绝状态511的多个自环512的最大值。随着拒绝模型501和关键短语模型502的随后更新或评分继续,(例如,由于拒绝状态511与状态524之间的差最小化或减少,因此)从状态524开始向前,可能需要得到在状态525(例如,关键短语模型502的最终状态)的得分超过在拒绝模型501的拒绝状态511的得分的任何增加。
这些技术可以提供表述关键短语的第一部分的要求以及还表述关键短语的第二部分的要求。在没有后向转移541的情况下,在一些示例中,关键短语模型502可以关于第一部分匹配关键短语的表述提供高概率或得分。当表述的第二部分是不正确的时,关于关键短语模型502的状态521上至评分状态525的连续的评分,拒绝模型501的拒绝状态511的评分不能恢复。例如,拒绝模型501不能评分得足够高或恢复,并且所表述的短语可能错误地被接受。当关键短语具有相等长度的部分(例如,“Hello Dragon”)时,或在关键短语的第一部分比第二部分更长(例如“Good-morning Dragon”,使得good-morning可能随着其不停顿地说出而被连字,并且可能看作用于检测目的的一个词语)的情况下,这些问题可能盛行。提供后向转移可以消除或减少这些错误接受。
在图5的示例中,关键短语模型502包括去往拒绝模型501的拒绝状态511的后向转移541(或多个后向转移,如所讨论的那样)。关键短语模型502可以包括从关键短语模型502的任何状态521到拒绝模型501的拒绝状态511的任何数量的附加后向转移。在实施例中,关键短语模型502包括关于与关键短语模型502对应的关键短语的每个音节的后向转移。在实施例中,可以提供去往拒绝模型501的拒绝状态511的后向转移541,其中,后向转移541处于与关键短语模型502对应的关键短语的第一词语之后(例如,紧接之后)。当关键短语具有两个词语时,该实施例可以是有利的。在实施例中,除了关键短语的最后词语之外,关键短语模型502可以包括与关键短语模型502对应的关键短语的每个词语之后的后向转移。在一些实施例中,可以在与关键短语模型502对应的关键短语的语音部分、音节或特定数量的音节之后(例如,紧接之后)提供后向转移。可以使用任何一种或多种合适的技术提供这些后向转移。在实施例中,可以使用与静默关联的子语音单元的得分或使用与拒绝模型501关联的子语音单元的所有得分等来提供后向转移。此外,在一些示例中,自环512可以与得分214关联,使得这些得分都不与状态521的任何自环551关联。例如,可以构造包括自环551以及得分214中的关联得分的选择的关键短语模型502,并且在拒绝模型502的构造期间,可以从拒绝模型502中的使用排除得分214中的这些得分。
参照图2,关键短语得分215可以包括将在拒绝状态511所生成的似然率与在关键短语模型502的任何状态(例如,最终状态525)所生成的似然率进行比较的任何合适的关键短语得分。例如,关键短语得分215可以是这些状态之间的差、这些状态的比率或状态自身。在实施例中,关键短语得分215的关键短语得分可以是对数似然率比率。例如,可以如公式(1)所示确定关键短语得分215中的关键短语得分:
KPS=log(p(X|KeyPhrase))-log(p(X|Reject)) (1)
其中,KPS可以是关键短语得分,X可以是正估计的特征矢量的当前累计,并且p提供概率,X是KeyPhrase或Reject的成员。
返回图2,如所示,控制器206可以接收关键短语得分215(例如,关键短语得分的时间序列),并且控制器206可以比较关键短语得分215与阈值等,以确定是否已经检测到预定关键短语。例如,如果关键短语得分215大于(或者大于或等于)阈值,则已经检测到预定关键短语,并且控制器206可以提供系统唤醒指示符216以唤醒系统200。如果关键短语得分215小于(或者小于或等于)阈值,则尚未检测到预定关键短语,并且控制器206可以不提供系统唤醒指示符216,并且控制器可以继续于监控关键短语得分215。
如本文所讨论的那样,并且如图5所示,在一些实施例中,可以(例如,关于单个关键短语)实现单个关键短语模型502。在其它实施例中,可以实现(例如,均与不同关键短语关联的)多个关键短语模型。例如,多个关键短语模型中的每一个可以随后于拒绝模型501,并且通过转移连接到拒绝模型501,类似于关键短语模型502通过转移513连接到拒绝模型501。此外,如关于一个关键短语模型502所讨论的那样,多个关键短语模型中的每一个可以包括通过转移而互连的多个状态,并且状态中的每一个可以包括一个或多个自环,或由其更新,使得可以基于来自关键短语模型中的先前状态的转移(或来自拒绝模型501的转移)来更新状态。如所讨论的那样,每个自环可以与来自声学评分模块203的输出(例如,得分)关联。此外,每个关键短语模型可以包括去往拒绝模型501的一个或多个后向转移,类似于后向转移541。
基于拒绝模型501以及多个关键短语模型中的每一个,在每个或一些时间实例,可以确定关于每个关键短语模型的拒绝似然率得分和关键短语似然率得分。例如,拒绝似然率得分可以是与拒绝模型501的拒绝状态511关联的得分,并且关键短语似然率得分可以与多个关键短语模型中的每一个的状态中的最终状态关联。基于多个关键短语模型中的每一个的拒绝似然率得分和关键短语似然率得分,可以生成关于多个关键短语模型中的每一个的关键短语得分,如本文所讨论的那样。
例如,返回图2,控制器206可以接收这些关键短语得分(例如,关键短语得分的时间序列),并且控制器206可以将这些关键短语得分与一个阈值或各个阈值进行比较,以确定是否已经检测到任何预定关键短语。例如,如果任何关键短语得分大于(或者大于或等于)阈值或其相应阈值,则已经检测到特定预定关键短语,并且控制器206可以提供系统唤醒指示符216以唤醒系统200,而且提供可选命令指示符(例如,系统命令218)以执行与特定预定关键短语关联的命令。如果所有关键短语得分小于(或者小于或等于)阈值或其相应阈值,则控制器206可以不提供系统唤醒指示符216,并且控制器可以继续关于预定关键短语进行监控。
图6示出根据本公开的至少一些实现方式所布置的用于提供包括从关键短语模型到拒绝模型的后向转移的关键短语检测的示例处理600。处理600可以包括如图6所示的一个或多个操作601-606。处理600或其部分可以由设备或系统(例如,系统200或本文所讨论的任何其它设备或系统)执行,以检测关键短语。可以关于任何量的接收到的音频、关于任何数量的休眠到唤醒转移等重复处理600或其部分。
处理600可以开始于操作601,其中,可以接收音频输入。可以使用任何一种或多种合适的技术接收音频输入。在实施例中,可以经由本文所讨论的系统200的麦克风201接收音频输入111。处理可以继续于操作602,其中,可以使用任何一种或多种合适的技术生成特征矢量。在实施例中,可以基于本文所讨论的音频数据211经由系统200的特征提取模块202生成特征矢量212。处理可以继续于操作603,其中,可以使用任何一种或多种合适的技术确定子语音单元的得分。例如,声学评分模块203可以实现声学模型208(例如,深度神经网络等),以基于特征矢量212来确定得分214。
处理可以继续于操作604,其中,可以基于子语音单元的得分来更新基于起始状态的拒绝模型和关键短语模型。例如,可以在子语音单元的得分的每个时间实例或按子语音单元的得分的规则间隔等更新拒绝模型的单个状态。相似地,可以均在子语音单元的得分的每个时间实例或按子语音单元的得分的规则间隔等更新关键短语模型的多个状态。如所讨论的那样,可以基于与单个状态的多个自环之一关联的最高概率得分来更新拒绝模型的单个状态,并且可以基于与该状态关联的一个自环(或多个自环中的最大者)以及在该状态的先前得分与来自关键短语模型中的先前状态的转移中的最大者来更新在拒绝模型的单个状态的先前得分和关键短语模型的后向转移和每个状态中的最大者。在实施例中,系统200的关键短语检测解码器204可以实现包括本文所讨论的一个或多个后向转移的拒绝模型501和关键短语模型502。
处理可以继续于判断操作605,其中,可以关于是否已经检测到关键短语(KP)进行确定。可以使用任何一种或多种合适的技术进行该确定。在实施例中,该确定可以基于来自在操作604所更新的拒绝模型的拒绝似然率得分和来自在操作604所更新的关键短语模型的关键短语似然率得分。在实施例中,可以基于(例如,关于公式(1)所讨论的)拒绝似然率得分和关键短语似然率得分来确定对数似然率得分,并且对数似然率得分可以与预定阈值进行比较。例如,如果对数似然率得分超过(或达到)阈值,则判断操作605可以确定已经检测到关键短语。在实施例中,系统200所实现的控制器206可以使用这些技术确定是否已经检测到关键短语。
如果已经检测到关键短语,则处理可以继续于操作606,其中,可以基于检测到的关键短语来提供系统唤醒和/或系统命令。系统唤醒和/或系统命令可以包括任何合适的命令,并且可以使用任何一种或多种合适的技术得以实现。在实施例中,系统200的控制器206可以响应于检测到关键短语而发放系统唤醒指示符和/或系统命令218。
如果尚未检测到关键短语,则处理可以继续于操作601,其中,可以接收附加音频,并且处理可以继续,如所讨论的那样。例如,处理600可以继续,直到检测到预定关键短语。虽然处理600为了清楚呈现而示出为离散的操作,但在一些示例中,可以并行执行至少部分的处理。
此外,在一些示例中,可以响应于可以指示已经接收到值得估计的音频输入的发起信号(例如发起信号217)而发起处理600。此外,在一些示例中,处理600可以容纳所有或一些可以包括后向转移的多个关键短语模型。例如,操作603可以生成这些多个关键短语模型所需的所有得分,操作604可以更新这些多个关键短语模型,并且判断操作605可以估计来自所有这些多个关键短语模型的关键短语似然率得分和拒绝似然率得分,以确定是否已经到任何这些关键短语。如果检测到,则操作606可以提供与所检测的关键短语关联的唤醒命令和/或特定命令。
参照图2,如所讨论的那样,关键短语检测解码器204可以接收并且实现提供一个或多个后向转移的拒绝模型501和关键短语模型502。附加地或替代地,关键短语检测解码器204可以接收并且实现提供中间评分的拒绝模型和关键短语模型。
图7示出根据本公开的至少一些实现方式所布置的包括中间评分的示例拒绝模型701和示例关键短语模型702。例如,关于经由关键短语检测解码器204的实现方式,可以经由关键短语和拒绝模型205提供拒绝模型701和关键短语模型702。如图7所示,拒绝模型701可以包括拒绝状态711和多个自环712。例如,拒绝状态711可以与起始状态或单个状态对应,并且可以提供单个基于起始状态的拒绝模型,并且每个自环712可以与得分214之一关联,使得自环712关于拒绝模型701的拒绝状态711提供自更新或求和。如关于图5所讨论的那样,自环712中的每一个可以与对应于子语音单元的深度神经网络输出或输出节点关联,并且拒绝状态711可以提供实现拒绝模型的起始状态。拒绝状态711和自环712可以包括如关于图5所讨论的任何特性,为了简明将不对此复述。
此外,如所示,关键短语模型702可以随后于拒绝模型701,并且通过转移713得以连接。关键短语模型702可以包括多个状态721(例如第一状态722、中间评分状态723、最终评分状态724以及通过转移731所互连的所示的其它状态)。在图7中,为了清楚呈现,并未标记每个状态和每个转移。如所示,关键短语模型702可以包括多个评分状态(例如中间评分状态723和最终评分状态724)。关键短语模型702可以包括任何数量的评分状态(例如,两个或更多个)。如本文以下进一步所讨论的那样,评分状态可以是关于对已经表述的关键短语的似然率进行评分所使用的关键短语模型702的那些状态。例如,评分状态可以是评分正发生的那些状态,并且这些状态可以表征为评分状态、估计状态、目标状态等。这些评分状态可以放置在关键短语模型702内的任何合适的位置中。在实施例中,评分状态可以与词语、语音部分或音节的结尾点对应。在关键短语模型702的示例中,中间评分状态723可以与对应于关键短语模型702的关键短语的第一词语的结尾点对应,并且最终评分状态724可以与关键短语的第二和最终词语对应。
如关于图5所讨论的那样,状态721中的每一个可以包括一个或多个自环741或通过其得以更新,并且状态721中的每一个可以基于转移731或来自关键短语模型702中的先前状态的转移713中的转移得以更新。例如,每个自环741(或弧)可以与来自声学评分模块203的输出关联或对应。状态721中的每一个可以具有单个自环551或多个自环。如关于图5所讨论的那样,状态721中的一个或多个可以是具有表示静默的自环的静默状态。关键短语模型702可以具有如关于图5的关键短语模型502所讨论的任何特性,并且为了简明将不复述这些特性。
基于拒绝模型701和关键短语模型702,在每个或一些时间实例,可以确定拒绝似然率得分和关键短语似然率得分。例如,拒绝似然率得分可以是与拒绝模型701的拒绝状态711关联的得分,并且关键短语似然率得分可以是关键短语模型702的中间评分状态723、最终评分状态724以及任何其它评分状态中的最小者。此外,关键短语模型702的中间评分状态723、最终评分状态724以及任何其它评分状态的得分可以是对于这些状态所保留的最大得分。例如,可以随着时间保留在每个状态的最大得分,以用于估计。例如,在用于当前时间实例的每个评分状态的最大得分可以并不处于当前时间实例,也不处于相同时间实例。如以下进一步讨论的那样,关于确定已经检测到关键短语的要求可以还包括:验证这些最大得分的顺序匹配关键短语的顺序。例如,并不期望在关键短语的第一词语之前所表述的关键短语的第二词语触发关键短语的检测。
用于关键短语模型702的关键短语似然率得分可以表征为总体关键短语似然率得分、最终关键短语似然率得分等,因为其可以包括所讨论的多个评分状态的估计。虽然本文关于关键短语模型702的中间评分状态723、最终评分状态724以及任何其它评分状态中的最小者进行讨论,但可以使用这些评分状态的任何合适的组合(例如平均值、中位数等)。在实施例中,可以如公式(2)所示确定用于关键短语模型702的总体关键短语似然率得分:
KPLS=min(maxframe(endstate_word1),maxframe(endstate_word2))
(2)
其中,KPLS可以是用于关键短语模型的关键短语似然率得分,endstate_word1可以是与关键短语的第一词语、语音部分或音节的结尾点的状态(例如,中间评分状态723)关联的得分,endstate_word2可以是与关键短语的第二词语、语音部分或音节的结尾点的状态(例如,最终评分状态724)关联的得分,maxframe可以提供用于endstate_word1或endstate_word2的最大所保留的得分,并且min可以提供maxframe值中的最小者。通过在min函数内提供附加maxframe(endstate_wordN)项,公式(2)可以扩展为包括任何数量的评分状态。
例如,公式(2)可以提供在预定时间段上的最大得分,使得一个评分状态的最大得分与第一时间实例或时间帧(例如,第一maxframe)关联,并且第二评分状态的最大得分与第二时间实例或时间帧(例如,第二maxframe)关联。如所示,这些最大所保留的得分中的最小者可以提供为用于关键短语模型702的关键短语似然率得分。
返回图2,关键短语得分215可以包括比较在拒绝状态711所生成的似然率与经由关键短语模型702所生成的关键短语似然率得分(例如,总体关键短语似然率得分)的任何合适的关键短语得分。在实施例中,关键短语得分215中的关键短语得分可以是如以上关于公式(1)所讨论的对数似然率比率。在实施例中,可以如公式(3)所示提供关键短语得分215中的关键短语得分:
KPS=min(maxframe(log(score_intermediate)-log(score_rejection)),maxframe(log(score_end)-log(score_rejection))) (3)
其中,KPS可以是用于关键短语模型的关键短语得分,score_intermediate可以是与关键短语的第一词语、语音部分或音节的结尾点的状态(例如,中间评分状态723)关联的得分,score_rejection可以是与拒绝状态关联的得分(例如,拒绝状态711的得分),score_end可以是与关键短语的第二词语、语音部分或音节关联的结尾点的状态(例如,最终评分状态724)关联的得分,maxframe可以提供在时间段上的最大所保留的得分,并且min可以提供所提供的值中的最小者。通过在min函数内提供附加maxframe(*)项,公式(3)可以扩展为包括任何数量的评分状态。
此外,如所示,控制器206可以接收关键短语得分215(例如,总体关键短语得分的时间序列),并且控制器206可以比较关键短语得分215与阈值等,以确定是否已经检测到预定关键短语。例如,如果关键短语得分215大于(或者大于或等于)阈值,则已经检测到预定关键短语,并且控制器206可以提供系统唤醒指示符216以唤醒系统200。如果关键短语得分215小于(或者小于或等于)阈值,则尚未检测到预定关键短语,并且控制器206可以不提供系统唤醒指示符216,并且控制器可以继续于监控关键短语得分215。
此外,当关键短语得分215超过(或达到)阈值时,控制器206可以估计与评分状态的最大得分关联的时间实例的顺序。例如,参照图7,与中间评分状态723的最大得分关联的时间实例可能需要处于最终评分状态724的最大得分之前。相似地,如果使用多于两个的评分状态,则可以验证与最大得分关联的时间实例(或时间帧)的顺序匹配评分状态的排序。例如,如果评分状态(SS)是按SS1、SS2、SS3、……、SSN的顺序(其中,1-N指示关键短语模型702中的状态的顺序),则可以验证最大所保留的得分的时间实例是按相同的顺序。例如,可以通过按时间的顺序放置时间实例,并且评分状态可以受验证为处于按TI1、TI2、TI3、……、TIN的顺序,其中,1-N指示与时间实例关联的评分状态。如果任何评分状态并非是按顺序的,则控制器206可以确定尚未匹配关键短语,并且监控可以继续。
如本文所讨论的那样,并且如图7所示,在一些实施例中,可以(例如,关于单个关键短语)实现单个关键短语模型702。在其它实施例中,可以如本文所讨论的那样实现(例如,均与不同关键短语关联的)多个关键短语模型,其中,多个关键短语模型中的每一个可以随后于拒绝模型701并且通过转移连接到拒绝模型701。本文关于图5和图2讨论这些技术,并且为了简明将不复述。
此外,关键短语模型702可以包括关于图5的关键短语模型502所讨论的一个或多个后向转移,或关键短语模型502可以包括关于图7的关键短语模型702所讨论的一个或多个中间评分状态。
图8示出根据本公开的至少一些实现方式所布置的示例用于提供包括关键短语模型的中间评分的关键短语检测的示例处理800。处理800可以包括如图8所示的一个或多个操作801-808。处理800或其部分可以由设备或系统(例如,系统200或本文所讨论的任何其它设备或系统)执行,以检测关键短语。可以关于任何量的接收到的音频、关于任何数量的休眠到唤醒转移等重复处理800或其部分。
处理800可以开始于操作801,其中,可以接收音频输入。可以使用任何一种或多种合适的技术接收音频输入。在实施例中,可以经由本文所讨论的系统200的麦克风201接收音频输入111。处理可以继续于操作802,其中,可以使用任何一种或多种合适的技术生成特征矢量。在实施例中,可以基于本文所讨论的音频数据211经由系统200的特征提取模块202生成特征矢量212。处理可以继续于操作803,其中,可以使用任何一种或多种合适的技术确定子语音单元的得分。例如,声学评分模块203可以实现声学模型208(例如深度神经网络等),以基于特征矢量212来确定得分214。
处理可以继续于操作804,其中,可以基于子语音单元的得分来更新基于起始状态的拒绝模型以及关键短语模型。例如,可以在子语音单元的得分的每个时间实例或按子语音单元的得分的规则间隔等更新拒绝模型的单个状态。相似地,可以均在子语音单元的得分的每个时间实例或按子语音单元的得分的规则间隔等更新关键短语模型的多个状态。如所讨论的那样,可以基于与单个状态的多个自环之一关联的最高概率得分来更新拒绝模型的单个状态,并且可以基于与该状态关联的自环和/或来自关键短语模型中的先前状态的转移而更新关键短语模型的每个状态。在实施例中,系统200的关键短语检测解码器204可以实现具有多个评分状态(例如,本文所讨论的中间评分状态723和最终评分状态724)的拒绝模型701和关键短语模型702。
处理可以继续于操作805,其中,可以保留用于关键短语模型的评分状态中的每一个的最大得分。例如,如果在当前时间实例或时间帧的任何评分状态具有超过先前所保留的用于评分状态的最大得分的得分,则可以通过当前时间实例的得分更新用于评分状态的最大得分。此外,可以对于评分状态保留与最大得分关联的时间戳等。
处理可以继续于操作806,其中,用于评分状态的最大所保留的得分中的最小者可以与拒绝得分比较,并且如果需要,则可以验证最大所保留的得分的顺序。例如,可以如关于公式(2)所讨论的那样确定最大所保留的得分中的最小者。最小者可以看作关键短语似然率得分、总体关键短语似然率得分、最终关键短语似然率得分等。总体关键短语似然率得分可以然后与来自拒绝模型的拒绝得分比较,并且基于该比较以及最大所保留的得分的顺序,可以确定是否已经检测到关键短语。例如,可以如关于公式(1)所讨论的那样确定基于拒绝似然率得分和总体关键短语似然率得分的对数似然率得分,并且如果对数似然率得分超过阈值而且最大所保留的得分的顺序匹配(例如,关键短语模型所提供的)预定顺序,则可以检测关键短语。
处理可以继续于操作807,其中,可以关于是否已经检测到关键短语而进行确定。例如,如果所讨论的总体关键短语似然率得分和拒绝似然率得分的比较以及最大得分的顺序指示已经检测到关键短语,则处理可以继续于操作808,其中,可以基于检测到的关键短语而提供系统唤醒和/或系统命令。系统唤醒和/或系统命令可以包括任何合适的命令,并且可以使用任何一种或多种合适的技术得以实现。在实施例中,系统200的控制器206可以响应于检测到关键短语而发出系统唤醒指示符和/或系统命令218。
如果尚未检测到关键短语,则处理可以继续于操作801,其中,可以接收附加音频,并且处理可以继续,如所讨论的那样。例如,处理800可以继续,直到检测到关键短语。如本文所讨论的那样,在一些示例中,可以响应于发起信号(例如,发起信号217)而发起处理800。此外,在一些示例中,处理800可以容纳所有或一些可以包括中间评分的多个关键短语模型。例如,操作803可以生成这些多个关键短语模型所需的所有得分,操作804可以更新所有这些多个关键短语模型,操作805可以保留这些多个关键短语模型的最大得分,操作806可以比较总体关键短语似然率得分和拒绝得分并且验证用于所有这些多个关键短语模型的最大得分顺序,并且判断操作607可以关于所有这些多个关键短语模型确定是否已经检测到关键短语。如果检测到,则操作808可以提供与所检测的关键短语关联的唤醒命令和/或特定命令。
图9是示出根据本公开的至少一些实现方式所布置的用于包括后向转移的关键短语检测的示例处理900的流程图。处理900可以包括如图9所示的一个或多个操作901-904。处理900可以形成例如系统200所执行的关键短语检测处理的至少部分。此外,本文将参照图11的系统1100描述处理900。
图10是示出根据本公开的至少一些实现方式所布置的用于包括中间评分的关键短语检测的示例处理1000的流程图。处理1000可以包括如图10所示的一个或多个操作1001-1004。处理1000可以形成例如系统200所执行的关键短语检测处理的至少部分。此外,本文将参照图11的系统1100描述处理1000。
图11是根据本公开的至少一些实现方式所布置的用于执行关键短语检测的示例系统1100的说明性示图。如图11所示,系统1100可以包括中央处理器1101、数字信号处理器1102、存储器1103以及麦克风201。此外,如所示,数字信号处理器1102可以包括或实现特征提取模块202、声学评分模块203、关键短语检测解码器204以及控制器206。在一些实施例中,数字信号处理器1102可以还包括话音活动检测模块207。此外,如所示,存储器1103可以存储关键短语和拒绝模型205以及声学模型208。存储器1103也可以存储音频数据、输入话语数据、话音活动检测参数或数据、系数数据、特征矢量、得分、输出得分、拒绝得分、关键短语得分、对数似然率得分、阈值或如本文所讨论的任何其它数据或数据结构。
中央处理器1101和数字信号处理器1102可以包括可以提供本文所讨论的操作的任何数量和类型的处理单元。可以经由软件或硬件或其组合来实现这些操作。例如,数字信号处理器1102可以包括专用于操控从存储器1103或专用存储器获得的数据的电路。此外,中央处理器1101可以包括可以提供用于系统1100的控制和其它高级功能以及本文所讨论的操作的任何数量和类型的处理单元或模块。在所示示例中,系统1100可以被配置为执行关键短语检测。
存储器1103可以是任何类型的存储器(例如,易失性存储器(例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等)或非易失性存储器(例如闪存等)等)。在非限定性示例中,可以通过缓存存储器实现存储器1103。如所示,在实施例中,可以经由数字信号处理器1102实现特征提取模块202、声学评分模块203、关键短语检测解码器204以及控制器206。在另一实施例中,可以经由中央处理器1101实现特征提取模块202、声学评分模块203、关键短语检测解码器204以及控制器206。在其它实施例中,可以经由执行单元(EU)实现特征提取模块202、声学评分模块203、关键短语检测解码器204和控制器206中的所有、一些或部分。EU可以包括例如可编程逻辑或电路(例如,可以提供可编程逻辑功能的宽阵列的一个或多个逻辑内核)。
返回图9的讨论,处理900可以开始于操作901,其中,可以基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型。例如,关键短语模型可以具有去往拒绝模型的单个状态的一个后向转移或多个后向转移。可以使用任何一种或多种合适的技术更新基于起始状态的拒绝模型和关键短语模型。在实施例中,经由数字信号处理器1102所提供的关键短语检测解码器204可以实现关键短语和拒绝模型205,以更新基于起始状态的拒绝模型和关键短语模型。例如,在处理900的上下文中,经由数字信号处理器1102所提供的关键短语检测解码器204可以实现拒绝模型501和关键短语模型502。在实施例中,基于起始状态的拒绝模型的单个状态可以包括与子语音单元的得分中的第一得分关联的自环,并且关键短语模型的多个状态可以与子语音单元的得分中的第二得分关联,其中,第二得分都不包括于第一得分中。例如,可以从拒绝模型排除对于关键短语模型所使用的子语音单元的所有得分。
如所示,操作901可以包括操作902,其中,更新可以包括:提供从关键短语模型的多个状态中的特定状态到关键短语模型的多个状态的下一状态并且到拒绝模型的单个状态的得分的转移。在实施例中,该特定状态可以与预定关键短语内的词语结尾关联。在实施例中,更新可以包括:从与基于起始状态的拒绝模型关联的多个子语音单元的得分(例如,与起始状态对应的得分的子集)确定最高概率得分,并且将最高概率得分与从该特定状态转移的得分和单个状态的先前得分中的最大者相加,以提供单个状态在当前时间实例的得分。在实施例中,更新可以包括:提供从关键短语模型的多个状态中的第二状态到拒绝模型的单个状态的第二得分的第二转移;以及从与基于起始状态的拒绝模型关联的子语音单元的得分(例如,与起始状态对应的得分的子集)确定最高概率得分,并且将最高概率得分与从该特定状态转移的得分、从第二状态转移的第二得分以及单个状态的先前得分中的最大者相加,以提供单个状态在当前时间实例的得分。在实施例中,更新可以包括:从与下一状态对应的子语音单元的得分确定得分,并且将得分与从该特定状态转移的得分和所述下一状态的先前得分中的最大者相加,以提供所述下一状态在当前时间实例的得分。
此外,操作901可以包括操作903,其中,更新可以包括:生成与基于起始状态的拒绝模型的单个状态对应的拒绝似然率得分以及与关键短语模型对应的关键短语似然率得分。例如,拒绝似然率得分可以是与基于起始状态的拒绝模型的单个状态对应的得分,并且关键短语似然率得分可以是与关键短语模型的评分状态对应的得分。在实施例中,关键短语似然率得分可以与关键短语模型的最终状态关联。在实施例中,关键短语似然率得分可以是与关键短语模型的第一状态关联的第一似然率得分和与关键短语模型的第二状态关联的第二似然率得分中的最小者。例如,第一状态可以处于关键短语的第一词语的结尾处,并且第二状态可以处于关键短语的第二词语的结尾或其自身的结尾处。
处理可以继续于操作904,其中,基于拒绝似然率得分和关键短语似然率得分来确定接收到的音频输入是否与预定关键短语关联。可以使用任何一种或多种合适的技术进行该确定。在实施例中,经由数字信号处理器1102所提供的控制器206可以确定接收到的音频输入是否与预定关键短语关联。在实施例中,确定接收到的音频输入是否与预定关键短语关联可以包括:基于拒绝似然率得分和关键短语似然率得分来确定对数似然率得分,并且将对数似然率得分与阈值进行比较。
现转向图10的讨论,处理1000可以开始于操作1001,其中,可以基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语。例如,基于起始状态的拒绝模型可以具有单个状态,并且关键短语模型可以具有多个状态,如本文所讨论的那样。可以使用任何一种或多种合适的技术更新基于起始状态的拒绝模型和关键短语模型。在实施例中,经由数字信号处理器1102所提供的以实现关键短语和拒绝模型205的关键短语检测解码器204可以更新基于起始状态的拒绝模型和关键短语模型。例如,在处理1000的上下文中,经由数字信号处理器1102所提供的关键短语检测解码器204可以实现拒绝模型701和关键短语模型702。在实施例中,基于起始状态的拒绝模型包括包含与声学模型的子语音单元的得分中的至少一些关联的自环的单个状态。在实施例中,基于起始状态的拒绝模型的单个状态可以包括与子语音单元的得分中的第一得分关联的自环,并且关键短语模型的多个状态可以与子语音单元的得分中的第二得分关联,其中,第二得分都不包括于第一得分中。例如,可以从拒绝模型排除对于关键短语模型所使用的子语音单元的所有得分。
处理可以继续于操作1002,其中,可以基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分。可以使用任何一种或多种合适的技术确定拒绝似然率得分。在实施例中,可以通过经由数字信号处理器1102所提供的关键短语检测解码器204来确定拒绝似然率得分。例如,拒绝似然率得分可以是拒绝模型的单个状态中的状态。
处理可以继续于操作1003,其中,可以基于更新后的关键短语模型来确定总体关键短语似然率得分。例如,总体关键短语似然率得分可以是与关键短语模型的第一状态关联的第一似然率得分和与关键短语模型的第二状态关联的第二似然率得分中的最小者。可以使用任何一种或多种合适的技术确定总体关键短语似然率得分。在实施例中,可以通过经由数字信号处理器1102所提供的关键短语检测解码器204来确定总体关键短语似然率得分。在实施例中,第一似然率得分可以是在特定时间间隔上在第一状态所实现的最大第一似然率得分,并且第二似然率得分可以是在特定时间间隔上在第二状态所实现的最大第二似然率得分。如所讨论的那样,在一些实施例中,这些中间评分技术可以包括:对关键短语模型的两个状态(例如,中间状态和最终状态)进行评分。在实施例中,第一状态可以与关键短语模型的第一词语的结尾点对应,并且第二状态可以与关键短语模型的第二词语(例如,最终词语)的结尾点对应。然而,可以对关键短语模型的任何数量的状态进行评分,并且在操作1003,可以确定与这些评分状态对应的最大所保留的得分中的最小者。
处理可以继续于操作1004,其中,基于拒绝似然率得分和总体关键短语似然率得分来确定接收到的音频输入是否与预定关键短语关联。可以使用任何一种或多种合适的技术进行该确定。在实施例中,经由数字信号处理器1102所提供的控制器206可以确定接收到的音频输入是否与预定关键短语关联。在实施例中,确定接收到的音频输入是否与预定关键短语关联可以包括:基于拒绝似然率得分和总体关键短语似然率得分来确定对数似然率得分,并且将对数似然率得分与阈值进行比较。如所讨论的那样,在一些实施例中,确定接收到的音频输入是否与预定关键短语关联可以包括:验证所保留的最大得分的顺序。在实施例中,第一似然率得分与第一时间实例对应,并且第二似然率得分与第二时间实例对应,并且确定接收到的音频输入是否与预定关键短语关联包括:验证第二时间实例随后于第一时间实例。例如,如果第二时间实例处于第一时间实例之前,则在操作1004可以不提供关键短语检测。
处理900和/或处理1000可以还包括:生成表示接收到的音频的子语音单元的得分,如本文所讨论的那样。例如,可以经由麦克风接收音频,并且与之对应的音频数据可以存储到存储器1103。此外,经由数字信号处理器1102所实现的特征提取模块202可以基于所存储的音频数据来生成表示接收到的音频输入的特征矢量的时间序列。经由数字信号处理器1102所实现的声学评分模块203可以基于特征矢量的时间序列和存储器1103中所存储的声学模型208来生成子语音单元的得分(例如,子语音单元的得分的时间序列)。在实施例中,声学评分模块203是深度神经网络,并且特征矢量的时间序列包括包含均与采样时间关联的系数的时间序列的栈的第一特征矢量。
虽然本文所讨论的示例处理的实现方式可以包括承担按所示的顺序示出的所有操作,但本公开不限于此,并且在各个示例中,本文的示例处理的实现方式可以仅包括所示的操作、按与所示的不同顺序执行的操作或附加操作的子集。
此外,可以响应于一个或多个计算机程序产品所提供的指令而承担本文所讨论的操作中的一个或多个。这些程序产品可以包括信号承载介质,其提供指令,所述指令当由例如处理器执行时可以提供本文所描述的功能。可以通过任何形式的一个或多个机器可读介质来提供计算机程序产品。因此,例如,包括一个或多个图形处理单元或处理器内核的处理器可以响应于由一个或多个机器可读介质传送到处理器的程序代码和/或指令或指令集而承担本文的示例处理的块中的一个或多个。通常,机器可读介质可以通过可以使得本文所描述的任何设备和/或系统实现本文所讨论的任何系统、操作、模块或组件的程序代码和/或指令或指令集的形式来传送软件。
如本文所描述的任何实现方式中所使用的那样,术语“模块”指代被配置为提供本文所描述的功能的软件逻辑、固件逻辑、硬件逻辑和/或电路的任何组合。软件可以实施为软件封装、代码和/或指令集或指令,并且本文所描述的任何实现方式中所使用的“硬件”可以单独地或以任何组合而包括例如硬布线电路、可编程电路、状态机电路、固定功能电路、执行单元电路和/或存储可编程电路所执行的指令的固件。模块可以共同地或单独地实施为形成更大的系统的部分的电路(例如,集成电路(IC)、片上系统(SoC)等)。
图12是根据本公开的至少一些实现方式所布置的示例系统1200的说明性示图。在各个实现方式中,系统1200可以是媒体系统,但系统1200不限于该上下文。例如,系统1200可以合并到个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触摸板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视、智能设备(例如智能电话、智能平板或智能电视)、移动互联网设备(MID)、传信设备、数据通信设备、相机(例如傻瓜相机、超级变焦相机、数字单透镜反射(DSLR)相机)等中。
在各个实现方式中,系统1200包括平台1202,其耦合到显示器1220。平台1202可以从内容设备(例如,内容服务设备1230或内容传送设备1240或其它相似内容源)接收内容。如所示,在一些示例中,系统1200可以包括经由平台1202实现的麦克风201。平台1202可以经由麦克风201接收输入话语,如本文所讨论的那样。包括一个或多个导航特征的导航控制器1250可以用于与例如平台1202和/或显示器1220进行交互。以下更详细地描述这些组件中的每一个。
在各个实现方式中,系统1200可以提供所描述的关键短语检测。例如,关键短语检测可以提供用于所描述的设备或环境的话音唤醒能力。在其它实现方式中,系统1200可以提供:生成关键短语检测模型(例如,包括声学模型、拒绝模型和关键短语模型)。例如,可以在关键短语检测之前离线地执行该训练。
在各个实现方式中,平台1202可以包括芯片组1205、处理器1210、存储器1212、天线1213、存储1214、图形子系统1215、应用1216和/或无线电装置1218的任何组合。芯片组1205可以提供处理器1210、存储器1212、存储1214、图形子系统1215、应用1216和/或无线电装置1218之间的相互通信。例如,芯片组1205可以包括能够提供与存储件的1214的交互通信的存储适配器(未描述)。
处理器1210可以实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核或任何其它微处理器或中央处理单元(CPU)。在各个实现方式中,处理器1210可以是双核处理器、双核移动处理器等。
存储器1212可以实现为易失性存储器设备(例如但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM))。
存储1214可以实现为非易失性存储设备(例如但不限于磁盘驱动器、光盘驱动器、带驱动器、内部存储设备、附连存储设备、闪存、电池备份SDRAM(同步DRAM)和/或网络可存取存储设备)。在各个实现方式中,例如,存储1214可以包括用于当包括多个硬驱动器时关于有价值的数字媒体增加存储性能增强保护的技术。
图形子系统1215可以执行图像(例如用于显示的静止图像或视频)的处理。例如,图形子系统1215可以是图形处理单元(GPU)或视觉处理单元(VPU)。模拟或数字接口可以用于以通信方式耦合图形子系统1215和显示器1220。例如,接口可以是任何高清晰度多媒体接口、显示端口、无线HDMI和/或无线HD顺应技术。图形子系统1215可以集成到处理器1210或芯片组1215中。在一些实现方式中,图形子系统1215可以是以通信方式耦合到芯片组1205的单机设备。
本文所描述的图形和/或视频处理技术可以实现于各种硬件架构中。例如,图形和/或视频功能可以集成在芯片组内。替代地,可以使用分立式图形和/或视频处理器。作为又一实现方式,可以通过包括多核处理器的通用处理器提供图形和/或视频功能。在其它实施例中,可以在消费者电子设备中实现功能。
无线电装置1218可以包括能够使用各种合适的无线通信技术来发送并且接收信号的一个或多个无线电装置。这些技术可以涉及跨越一个或多个无线网络的通信。示例无线网络包括(但不限于)无线局域网(WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络以及卫星网络。在跨越这些网络的通信中,无线电装置1218可以根据任何版本中的一个或多个适用标准进行操作。
在各个实现方式中,显示器1220可以包括任何电视类型监视器或显示器。显示器1220可以包括例如计算机显示屏幕、触摸屏显示器、视频监视器、类似电视的设备和/或电视。显示器1220可以是数字和/或模拟的。在各个实现方式中,显示器1220可以是全息显示器。此外,显示器1220可以是可以接收视觉投影的透明表面。这些投影可以传送各种形式的信息、图像和/或对象。例如,这些投影可以是用于移动增强现实(MAR)应用的视觉叠加。在一个或多个软件应用1216的控制下,平台1202可以在显示器1220上显示用户接口1222。
在各个实现方式中,例如,内容服务设备1230可以受任何国家、国际和/或独立服务掌控,并且因此可经由互联网对平台1202访问。内容服务设备1230可以耦合到平台1202和/或显示器1220。平台1202和/或内容服务设备1230可以耦合到网络1260,以将媒体信息传递(例如,发送和/或接收)出入网络1260。内容传送设备1240也可以耦合到平台1202和/或显示器1220。
在各个实现方式中,内容服务设备1230可以包括有线电视盒、个人计算机、网络、电话、互联网使能设备或能够传送数字信息和/或内容的电器以及能够经由网络1260或以直接方式在内容提供商与平台1202和/显示器1220之间单向地或双向地传递内容的任何另外相似设备。应理解,内容可以经由网络1260单向地和/或双向地传递出入系统1200中的组件中的任何一个以及内容提供商。内容的示例可以包括任何媒体信息,包括例如视频、音乐、医疗和游戏信息等。
内容服务设备1230可以接收内容(例如包括媒体信息、数字信息和/或其它内容的有线电视节目传送)。内容提供商的示例可以包括任何有线或卫星电视或无线电或互联网内容提供商。所提供的示例并非意图以任何方式来限制根据本公开的实现方式。
在各个实现方式中,平台1202可以从具有一个或多个导航特征的导航控制器1250接收控制信号。例如,控制器1250的导航特征可以用于与用户接口1222进行交互。在各个实施例中,导航控制器1250可以是指点设备,其可以是允许用户将空间(例如连续和多维)数据输入到计算机中的计算机硬件组件(具体地说,人机接口设备)。很多系统(例如图形用户接口(GUI)以及电视和监视器)允许用户使用物理手势控制数据并且将其提供给计算机或电视。
控制器1250的导航特征的移动可以通过显示器上所显示的指针、光标、聚焦环或其它视觉指示符的移动在显示器(例如显示器1220)上得以复制。例如,在软件应用1216的控制下,位于导航控制器1250上的导航特征可以映射为用户接口1222上所显示的虚拟导航特征。在各个实施例中,控制器1250可以不是分离的组件,而可以集成到平台1202和/或显示器1220中。然而,本公开不限于本文所示或所描述的要素或上下文。
在各个实现方式中,例如,驱动器(未示出)可以包括用于当启用时使得用户能够在初始引导之后通过触摸按钮即刻打开并且关闭平台1202(比如电视)的技术。甚至当平台“关闭”时,程序逻辑可以允许平台1202将内容流送到媒体适配器或其它内容服务设备1230或内容传送设备1240。此外,例如,芯片组1205可以包括关于5.1环绕声音音频和/或高清晰度7.1环绕声音音频的硬件和/或软件支持。驱动器可以包括用于集成图形平台的图形驱动器。在各个实施例中,图形驱动器可以包括外设组件互连(PCI)高速图形卡。
在各个实现方式中,系统1200中所示的组件中的任何一个或多个可以是集成的。例如,比如,平台1202和内容服务设备1230可以是集成的,或平台1202和内容传送设备1240可以是集成的,或平台1202、内容服务设备1230和内容传送设备1240可以是集成的。在各个实施例中,平台1202和显示器1220可以是集成单元。例如,显示器1220和内容服务设备1230可以是集成的,或显示器1220和内容传送设备1240可以是集成的。这些示例并非意味着限制本公开。
在各个实施例中,系统1200可以实现为无线系统、有线系统或二者的组合。当实现为无线系统时,系统1200可以包括适合于通过无线共享介质进行通信的组件和接口(例如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等)。无线共享介质的示例可以包括无线谱(例如RF谱等)的部分。当实现为有线系统时,系统1200可以包括适合于通过有线通信介质进行通信的组件和接口(例如输入/输出(I/O)适配器、用于将I/O适配器与对应有线通信介质连接的物理连接器、网络接口卡(NIC)、盘控制器、视频控制器、音频控制器等)。有线通信介质的示例可以包括导线、线缆、金属引线、印制电路板(PCB)、背板、开关构造、半导体材料、双绞线导线、同轴线缆、光纤等。
平台1202可以建立一个或多个逻辑或物理信道,以传递信息。信息可以包括媒体信息和控制信息。媒体信息可以指代表示意图用于用户的内容的任何数据。内容的示例可以包括例如来自语音转换、视频会议、流送视频、电子邮件(“电邮”)消息、语音邮件消息、文字数字符号、图形、图像、视频、文本等的数据。来自语音会话的数据可以是例如话音信息、静默时段、背景噪声、舒适噪声、音调等。控制信息可以指代表示意图用于自动化系统的命令、指令或控制字的任何数据。例如,控制信息可以用于将媒体信息路由通过系统,或指令节点以预定方式处理媒体信息。然而,实施例不限于图12中所示或所描述的要素或情形。
如上所述,可以通过变化的物理风格或形数实施系统1200。图13示出根据本公开的至少一些实现方式所布置的小形数设备的实现方式。在一些示例中,可以经由设备1300实现系统1200。在其它示例中,可以经由设备1300实现其它设备或系统或其部分。在各个实施例中,例如,设备1300可以实现为具有无线能力的移动计算设备。移动计算设备可以指代具有处理系统和移动功率源或电源(例如,比如,一个或多个电池)的任何设备。
如上所述,移动计算设备的示例可以包括个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触摸板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、智能设备(例如智能电话、智能平板或智能移动电视)、移动互联网设备(MID)、传信设备、数据通信设备、相机等。
移动计算设备的示例也可以包括被布置为人所穿戴的计算机(例如腕部计算机、手指计算机、耳环计算机、眼镜计算机、带夹计算机、臂带计算机、鞋计算机、衣物计算机以及其它可穿戴计算机)。在各个实施例中,例如,移动计算设备可以实现为能够执行计算机应用以及语音通信和/或数据通信的智能电话。虽然可以通过示例的方式以实现为智能电话的移动计算设备描述一些实施例,但应理解,同样可以使用其它无线移动计算设备实现其它实施例。在该上下文中,实施例并非受限。
如图13所示,设备1300可以包括具有前部1301和后部1302的外壳。设备1300包括显示器1304、输入/输出(I/O)设备1306以及集成式天线1308。设备1300也可以包括导航特征1312。I/O设备1306可以包括任何合适的I/O设备,以用于将信息录入移动计算设备中。用于I/O设备1306的示例可以包括字母数字键盘、数字键区、触摸板、输入键、按钮、开关、麦克风、扬声器、语音识别设备和软件等。信息也可以通过麦克风201的方式录入到设备1300中,或可以通过话音识别设备得以数字化。如所示,设备1300可以包括(例如,包括透镜、光圈和成像传感器的)相机1305以及集成到设备1300的后部1302(或其它地方)的闪光灯1310。
可以使用硬件元件、软件元件或二者的组合实现各个实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体设备、芯片、微芯片、芯片组等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码分段、计算机代码分段、字、值、符号或其任何组合。确定是否使用硬件元件和/或软件元件实现实施例可以根据任何数量的因素(例如期望的计算速率、功率等级、热量容限、处理周期预算、输入数据率、输出数据率、存储器资源、数据总线速度以及其它设计或性能约束)而变化。
可以通过当由机器读取时使得机器制造逻辑以执行本文所描述的技术的表示处理器内的各个逻辑的机器可读介质上所存储的代表性指令实现至少一个实施例的一个或多个方面。称为“IP核心”的这些表示可以存储在有形机器可读介质上并且提供给各个消费者或制造场所,以加载到实际上制作逻辑或处理器的制造机器中。
虽然已经参照各个实现方式描述本文所阐述的特定特征,但该描述并非意图理解为限制性的意义。因此,本文所描述的实现方式的各种修改以及对于本公开所属领域的技术人员显然的其它实现方式看作处于本公开的精神和范围内。
在一个或多个第一实施例中,一种计算机实现的用于关键短语检测的方法,包括:经由声学模型的声学评分基于表示接收到的音频输入的特征矢量的时间序列来生成子语音单元的得分的时间序列;基于所述子语音单元的得分的时间序列中的至少一些来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型,以生成拒绝似然率得分和关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
在一个或多个第一实施例中,一种计算机实现的用于关键短语检测的方法,包括:在当前时间实例基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第一实施例,所述更新包括:从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第一实施例,所述更新包括:提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第一实施例,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,所述第二得分都不包括于所述第一得分中。
进一步对于第一实施例,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
进一步对于第一实施例,所述关键短语模型的所述特定状态与所述预定关键短语内的词语结尾关联。
进一步对于第一实施例,所述更新包括:从与所述下一状态对应的所述子语音单元的得分确定得分,并且将所述得分与从所述特定状态转移的所述得分和所述下一状态的先前得分中的最大者相加,以提供所述下一状态在所述当前时间实例的得分。
进一步对于第一实施例,所述关键短语似然率得分与所述关键短语模型的最终状态关联。
进一步对于第一实施例,确定接收到的音频输入是否与所述预定关键短语关联包括:基于所述拒绝似然率得分和所述关键短语似然率得分来确定对数似然率得分;以及将所述对数似然率得分与阈值进行比较。
在一个或多个第二实施例中,用于执行关键短语检测的系统,包括:存储器,其被配置为存储声学模型、基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;以及数字信号处理器,其耦合到所述存储器,所述数字信号处理器:在当前时间实例基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的所述基于起始状态的拒绝模型以及具有多个状态的所述关键短语模型,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态以及到所述拒绝模型的所述单个状态的得分的转移,并且生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第二实施例,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第二实施例,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移,并且从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第二实施例,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且所述第二得分都不包括于所述第一得分中。
进一步对于第二实施例,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
进一步对于第二实施例,所述关键短语模型的所述特定状态与所述预定关键短语内的词语结尾关联。
进一步对于第二实施例,所述数字信号处理器更新所述基于起始状态的拒绝模型和所述关键短语模型包括:所述数字信号处理器从与所述下一状态对应的所述子语音单元的得分确定得分,并且将所述得分与从所述特定状态转移的所述得分和所述下一状态的先前得分中的最大者相加,以提供所述下一状态在所述当前时间实例的得分。
进一步对于第二实施例,所述关键短语似然率得分与所述关键短语模型的最终状态关联。
进一步对于第二实施例,所述数字信号处理器确定接收到的音频输入是否与所述预定关键短语关联包括:所述数字信号处理器基于所述拒绝似然率得分和所述关键短语似然率得分来确定对数似然率得分,并且将所述对数似然率得分与阈值进行比较。
在一个或多个第三实施例中,一种系统,包括:用于在当前时间实例基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型的模块,其中,所述用于更新的模块包括:用于提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移的模块;以及用于生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分的模块;以及用于基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联的模块。
进一步对于第三实施例,所述用于更新的模块包括:用于从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分的模块,以及用于将所述最高概率得分与从所述特定状态转移的所述得分和所述单个状态的先前得分中的最大者相加以提供所述单个状态在所述当前时间实例的得分的模块。
进一步对于第三实施例,所述用于更新的模块包括:用于提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移的模块;以及用于从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分的模块,以及用于将所述最高概率得分与从所述特定状态转移的所述得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加以提供所述单个状态在所述当前时间实例的得分的模块。
进一步对于第三实施例,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且所述第二得分都不包括于所述第一得分中。
进一步对于第三实施例,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
在一个或多个第四实施例中,至少一种机器可读介质,其包括多个指令,所述多个指令响应于在设备上被执行而使所述设备通过以下步骤提供关键短语检测:在当前时间实例基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第四实施例,所述更新包括:从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第四实施例,所述更新包括:提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的所述得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
进一步对于第四实施例,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且所述第二得分都不包括于所述第一得分中。
进一步对于第四实施例,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
在一个或多个第五实施例中,一种用于关键短语检测的计算机实现的方法,包括:基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分;确定包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者的总体关键短语似然率得分;以及基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第五实施例,所述第一似然率得分是在特定时间间隔上在所述第一状态所实现的最大第一似然率得分,并且所述第二似然率得分是在所述特定时间间隔上在所述第二状态所实现的最大第二似然率得分。
进一步对于第五实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应。
进一步对于第五实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应,并且确定接收到的音频输入是否与所述预定关键短语关联包括:验证所述第二时间实例随后于所述第一时间实例。
进一步对于第五实施例,所述第一状态与所述关键短语模型的第一词语的结尾点对应,并且所述第二状态与所述关键短语模型的第二词语的结尾点对应。
进一步对于第五实施例,确定接收到的音频输入是否与所述预定关键短语关联包括:基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定对数似然率得分;以及将所述对数似然率得分与阈值进行比较。
进一步对于第五实施例,所述基于起始状态的拒绝模型包括包含与所述声学模型的所述子语音单元的得分中的至少一些关联的自环的单个状态。
在一个或多个第六实施例中,一种用于执行关键短语检测的系统,包括:存储器,其被配置为存储声学模型、基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;以及数字信号处理器,其耦合到所述存储器,所述数字信号处理器:基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分;确定包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者的总体关键短语似然率得分;以及基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第六实施例,所述第一似然率得分是在特定时间间隔上在所述第一状态所实现的最大第一似然率得分,并且所述第二似然率得分是在所述特定时间间隔上在所述第二状态所实现的最大第二似然率得分。
进一步对于第六实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应。
进一步对于第六实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应,并且所述数字信号处理器确定接收到的音频输入是否与所述预定关键短语关联包括:所述数字信号处理器验证所述第二时间实例随后于所述第一时间实例。
进一步对于第六实施例,所述第一状态与所述关键短语模型的第一词语的结尾点对应,并且所述第二状态与所述关键短语模型的第二词语的结尾点对应。
进一步对于第六实施例,所述数字信号处理器确定接收到的音频输入是否与所述预定关键短语关联包括:所述数字信号处理器基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定对数似然率得分,并且将所述对数似然率得分与阈值进行比较。
进一步对于第六实施例,所述基于起始状态的拒绝模型包括包含与所述声学模型的所述子语音单元的得分中的至少一些关联的自环的单个状态。
在一个或多个第七实施例中,一种系统,包括:用于基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型的模块;用于基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分的模块;用于确定包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者的总体关键短语似然率得分的模块;以及用于基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联的模块。
进一步对于第七实施例,所述第一似然率得分是在特定时间间隔上在所述第一状态所实现的最大第一似然率得分,并且所述第二似然率得分是在所述特定时间间隔上在所述第二状态所实现的最大第二似然率得分。
进一步对于第七实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应。
进一步对于第七实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应,并且用于确定接收到的音频输入是否与所述预定关键短语关联的模块包括用于验证所述第二时间实例随后于所述第一时间实例的模块。
进一步对于第七实施例,所述第一状态与所述关键短语模型的第一词语的结尾点对应,并且所述第二状态与所述关键短语模型的第二词语的结尾点对应。
在一个或多个第八实施例中,至少一种机器可读介质,其包括多个指令,所述多个指令响应于在设备上被执行而使所述设备通过以下步骤提供关键短语检测:基于表示接收到的音频输入的子语音单元的得分来更新基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;基于更新后的基于起始状态的拒绝模型来确定拒绝似然率得分;确定包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者的总体关键短语似然率得分;以及基于所述拒绝似然率得分和所述总体关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
进一步对于第八实施例,所述第一似然率得分是在特定时间间隔上在所述第一状态所实现的最大第一似然率得分,并且所述第二似然率得分是在所述特定时间间隔上在所述第二状态所实现的最大第二似然率得分。
进一步对于第八实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应。
进一步对于第八实施例,所述第一似然率得分与第一时间实例对应,并且所述第二似然率得分与第二时间实例对应,并且确定接收到的音频输入是否与所述预定关键短语关联包括:验证所述第二时间实例随后于所述第一时间实例。
进一步对于第八实施例,所述第一状态与所述关键短语模型的第一词语的结尾点对应,并且所述第二状态与所述关键短语模型的第二词语的结尾点对应。
在一个或多个第九实施例中,至少一种机器可读介质可以括多个指令,其响应于在计算设备上执行而使所述计算设备执行以上实施例中的任一项所述的方法或任何功能。
在一个或多个第十实施例中,一种装置或系统,其可以包括用于执行如以上实施例中的任一项所述的方法或任何功能的模块。
应理解,实施例不限于如此所描述的实施例,而是可以在不脱离所附权利要求的范围的情况下通过修改和改动而得以实践。例如,以上示例可以包括特征的特定组合。然而,以上实施例不限于此,并且在各个实现方式中,以上实施例可以包括仅承担这些特征的子集,承担这些特征的不同顺序,承担这些特征的不同组合,和/或承担除了明确列出的这些特征之外的附加特征。因此,应参照附图连同这些权利要求所属的等同物的完全范围一起确定实施例的范围。

Claims (24)

1.一种计算机实现的用于关键短语检测的方法,包括:
在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:
提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及
生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及
基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
2.如权利要求1所述的方法,其中,所述更新包括:
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
3.如权利要求1所述的方法,其中,所述更新包括:
提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
4.如权利要求1所述的方法,其中,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,在所述第一得分中不包括所述第二得分。
5.如权利要求1所述的方法,其中,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
6.如权利要求1所述的方法,其中,所述关键短语模型的所述特定状态与所述预定关键短语内的词语结尾关联。
7.如权利要求1所述的方法,其中,所述更新包括:
从与所述下一状态对应的所述子语音单元的得分确定得分,并且将该得分与从所述特定状态转移的得分和所述下一状态的先前得分中的最大者相加,以提供所述下一状态在所述当前时间实例的得分。
8.如权利要求1所述的方法,其中,所述关键短语似然率得分与所述关键短语模型的最终状态关联。
9.如权利要求1所述的方法,其中,确定接收到的音频输入是否与所述预定关键短语关联包括:
基于所述拒绝似然率得分和所述关键短语似然率得分来确定对数似然率得分,并且将所述对数似然率得分与阈值进行比较。
10.一种用于执行关键短语检测的系统,包括:
存储器,被配置为:存储声学模型、基于起始状态的拒绝模型以及与预定关键短语关联的关键短语模型;和
数字信号处理器,耦合到所述存储器,所述数字信号处理器用于:
在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的所述基于起始状态的拒绝模型以及具有多个状态的所述关键短语模型,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:
提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态以及到所述拒绝模型的所述单个状态的得分的转移,并且生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及
基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
11.如权利要求10所述的系统,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
12.如权利要求10所述的系统,其中,为了更新所述基于起始状态的拒绝模型和所述关键短语模型,所述数字信号处理器:
提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
13.如权利要求10所述的系统,其中,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,在所述第一得分中不包括所述第二得分。
14.如权利要求10所述的系统,其中,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
15.一种系统,包括:
用于在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型的模块,其中,用于更新的模块包括:
用于提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移的模块;和
用于生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分的模块;和
用于基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联的模块。
16.如权利要求15所述的系统,其中,用于更新的模块包括:
用于从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分的模块,以及用于将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加以提供所述单个状态在所述当前时间实例的得分的模块。
17.如权利要求15所述的系统,其中,用于更新的模块包括:
用于提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移的模块;和
用于从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分的模块,以及用于将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加以提供所述单个状态在所述当前时间实例的得分的模块。
18.如权利要求15所述的系统,其中,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,在所述第一得分中不包括所述第二得分。
19.如权利要求15所述的系统,其中,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
20.至少一种机器可读介质,包括多个指令,所述多个指令响应于在设备上被执行而使所述设备通过以下步骤提供关键短语检测:
在当前时间实例,基于表示接收到的音频输入的子语音单元的得分来更新具有单个状态的基于起始状态的拒绝模型以及具有多个状态并且与预定关键短语关联的关键短语模型,其中,所述更新包括:
提供从所述关键短语模型的所述多个状态中的特定状态到所述关键短语模型的所述多个状态中的下一状态并且到所述拒绝模型的所述单个状态的得分的转移;以及
生成与所述基于起始状态的拒绝模型的所述单个状态对应的拒绝似然率得分以及与所述关键短语模型对应的关键短语似然率得分;以及
基于所述拒绝似然率得分和所述关键短语似然率得分来确定接收到的音频输入是否与所述预定关键短语关联。
21.如权利要求20所述的机器可读介质,其中,所述更新包括:
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分和所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
22.如权利要求20所述的机器可读介质,其中,所述更新包括:
提供从所述关键短语模型的所述多个状态中的第二状态到所述拒绝模型的所述单个状态的第二得分的第二转移;以及
从与所述基于起始状态的拒绝模型关联的多个所述子语音单元的得分确定最高概率得分,并且将所述最高概率得分与从所述特定状态转移的得分、从所述第二状态转移的所述第二得分以及所述单个状态的先前得分中的最大者相加,以提供所述单个状态在所述当前时间实例的得分。
23.如权利要求20所述的机器可读介质,其中,所述基于起始状态的拒绝模型的所述单个状态包括与所述子语音单元的得分中的第一得分关联的自环,并且所述关键短语模型的所述多个状态与所述子语音单元的得分中的第二得分关联,并且其中,在所述第一得分中不包括所述第二得分。
24.如权利要求20所述的机器可读介质,其中,所述关键短语似然率得分包括与所述关键短语模型的第一状态关联的第一似然率得分和与所述关键短语模型的第二状态关联的第二似然率得分中的最小者。
CN201780014305.XA 2016-03-01 2017-01-20 用于改进型关键短语检测的中间评分和拒绝环回 Active CN108780646B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/057,695 2016-03-01
US15/057,695 US9972313B2 (en) 2016-03-01 2016-03-01 Intermediate scoring and rejection loopback for improved key phrase detection
PCT/US2017/014435 WO2017151235A1 (en) 2016-03-01 2017-01-20 Intermediate scoring and rejection loopback for improved key phrase detection

Publications (2)

Publication Number Publication Date
CN108780646A true CN108780646A (zh) 2018-11-09
CN108780646B CN108780646B (zh) 2023-07-07

Family

ID=59724318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780014305.XA Active CN108780646B (zh) 2016-03-01 2017-01-20 用于改进型关键短语检测的中间评分和拒绝环回

Country Status (5)

Country Link
US (1) US9972313B2 (zh)
EP (1) EP3424047A1 (zh)
KR (1) KR20180113516A (zh)
CN (1) CN108780646B (zh)
WO (1) WO2017151235A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
JP6569926B2 (ja) * 2016-08-17 2019-09-04 パナソニックIpマネジメント株式会社 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
US10964315B1 (en) * 2017-06-30 2021-03-30 Amazon Technologies, Inc. Monophone-based background modeling for wakeword detection
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
CN109559759B (zh) * 2017-09-27 2021-10-08 华硕电脑股份有限公司 具备增量注册单元的电子设备及其方法
US10847137B1 (en) * 2017-12-12 2020-11-24 Amazon Technologies, Inc. Trigger word detection using neural network waveform processing
US20210055778A1 (en) * 2017-12-29 2021-02-25 Fluent.Ai Inc. A low-power keyword spotting system
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN110189750B (zh) * 2018-02-23 2022-11-15 株式会社东芝 词语检测系统、词语检测方法以及记录介质
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
JP2020047062A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器および制御方法
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US11127394B2 (en) * 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11302314B1 (en) * 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN103714813A (zh) * 2012-10-05 2014-04-09 阿瓦亚公司 短语辨认系统和方法
US20140129224A1 (en) * 2012-11-08 2014-05-08 Industrial Technology Research Institute Method and apparatus for utterance verification
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统
US20140278435A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
CN104811567A (zh) * 2014-01-23 2015-07-29 杭州乐哈思智能科技有限公司 一种对voip系统双向双工免提语音进行声学回声消除的系统和方法

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205424B1 (en) 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
US6138095A (en) 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
ATE297588T1 (de) 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US7487091B2 (en) * 2002-05-10 2009-02-03 Asahi Kasei Kabushiki Kaisha Speech recognition device for recognizing a word sequence using a switching speech model network
FR2846458B1 (fr) * 2002-10-25 2005-02-25 France Telecom Procede de traitement automatique d'un signal de parole.
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
NO326770B1 (no) 2006-05-26 2009-02-16 Tandberg Telecom As Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US8818802B2 (en) * 2008-10-10 2014-08-26 Spansion Llc Real-time data pattern analysis system and method of operation thereof
EP2216775B1 (en) 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US8321218B2 (en) * 2009-06-19 2012-11-27 L.N.T.S. Linguistech Solutions Ltd Searching in audio speech
JPWO2012063424A1 (ja) * 2010-11-08 2014-05-12 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
KR20120072145A (ko) * 2010-12-23 2012-07-03 한국전자통신연구원 음성 인식 방법 및 장치
US9202465B2 (en) 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9401140B1 (en) 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
NZ730641A (en) * 2012-08-24 2018-08-31 Interactive Intelligence Inc Method and system for selectively biased linear discriminant analysis in automatic speech recognition systems
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9601111B2 (en) 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US9633652B2 (en) 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
KR20140079092A (ko) * 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
PL403724A1 (pl) * 2013-05-01 2014-11-10 Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
US9305554B2 (en) 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9466288B2 (en) 2013-08-28 2016-10-11 Texas Instruments Incorporated Comparing differential ZC count to database to detect expected sound
US9443508B2 (en) 2013-09-11 2016-09-13 Texas Instruments Incorporated User programmable voice command recognition based on sparse features
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9202462B2 (en) 2013-09-30 2015-12-01 Google Inc. Key phrase detection
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9368105B1 (en) 2014-06-26 2016-06-14 Amazon Technologies, Inc. Preventing false wake word detections with a voice-controlled device
US9549273B2 (en) 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9898459B2 (en) * 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9595264B2 (en) * 2014-10-06 2017-03-14 Avaya Inc. Audio search using codec frames
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
KR102371188B1 (ko) 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1659624A (zh) * 2002-04-05 2005-08-24 英特尔公司 根据用于语音识别的呼叫语境动态地和自适应地选择词汇和声学模型
CN103714813A (zh) * 2012-10-05 2014-04-09 阿瓦亚公司 短语辨认系统和方法
US20140129224A1 (en) * 2012-11-08 2014-05-08 Industrial Technology Research Institute Method and apparatus for utterance verification
US9070367B1 (en) * 2012-11-26 2015-06-30 Amazon Technologies, Inc. Local speech recognition of frequent utterances
US20140278435A1 (en) * 2013-03-12 2014-09-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
CN104811567A (zh) * 2014-01-23 2015-07-29 杭州乐哈思智能科技有限公司 一种对voip系统双向双工免提语音进行声学回声消除的系统和方法
CN103810996A (zh) * 2014-02-21 2014-05-21 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统

Also Published As

Publication number Publication date
US20170256255A1 (en) 2017-09-07
WO2017151235A1 (en) 2017-09-08
US9972313B2 (en) 2018-05-15
KR20180113516A (ko) 2018-10-16
CN108780646B (zh) 2023-07-07
EP3424047A1 (en) 2019-01-09

Similar Documents

Publication Publication Date Title
CN108780646A (zh) 用于改进型关键短语检测的中间评分和拒绝环回
CN108352168B (zh) 用于语音唤醒的低资源关键短语检测
US20220165288A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
CN109923608B (zh) 利用神经网络对混合语音识别结果进行评级的系统和方法
US10043521B2 (en) User defined key phrase detection by user dependent sequence modeling
CN106575379B (zh) 用于神经网络的改进的定点整型实现方式
US9818431B2 (en) Multi-speaker speech separation
US9740678B2 (en) Method and system of automatic speech recognition with dynamic vocabularies
CN108885873A (zh) 使用自适应阈值的说话者识别
CN106663425A (zh) 用于自动语音识别的使用外推的跳帧和按需输出的神经网络
CN111819625A (zh) 用于语言模型个性化的系统和方法
US11468892B2 (en) Electronic apparatus and method for controlling electronic apparatus
CN111833866A (zh) 用于低资源设备的高准确度关键短语检测的方法和系统
CN114830139A (zh) 使用模型提供的候选动作训练模型
US20230128422A1 (en) Voice Command Integration into Augmented Reality Systems and Virtual Reality Systems
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN110084180A (zh) 关键点检测方法、装置、电子设备及可读存储介质
CN115132196A (zh) 语音指令识别的方法、装置、电子设备及存储介质
CN112749550B (zh) 数据存储方法、装置、计算机设备及存储介质
US11817097B2 (en) Electronic apparatus and assistant service providing method thereof
CN116343765A (zh) 自动语境绑定领域特定话音识别的方法和系统
CN115994201A (zh) 一种确定回复语句的方法及装置
CN117892766A (zh) 数据处理方法、装置和存储介质
CN117132686A (zh) 一种数据处理方法及其装置
CN113012718A (zh) 基于多条路径积分的语音情感识别方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant