CN110419078B - 用于自动语音识别的系统和方法 - Google Patents

用于自动语音识别的系统和方法 Download PDF

Info

Publication number
CN110419078B
CN110419078B CN201880017460.1A CN201880017460A CN110419078B CN 110419078 B CN110419078 B CN 110419078B CN 201880017460 A CN201880017460 A CN 201880017460A CN 110419078 B CN110419078 B CN 110419078B
Authority
CN
China
Prior art keywords
keyword
score
vowel
quality
subunit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880017460.1A
Other languages
English (en)
Other versions
CN110419078A (zh
Inventor
T·潘德
L·P·内奇
D·P·马吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of CN110419078A publication Critical patent/CN110419078A/zh
Application granted granted Critical
Publication of CN110419078B publication Critical patent/CN110419078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

在自动语音识别系统(50)中,麦克风(52)记录用户说出的关键字。前端(62)将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器(64)至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件(66)从分配给多个子单元的内容类计算表示关键字质量的分数。

Description

用于自动语音识别的系统和方法
技术领域
本发明一般涉及自动语音识别系统,并且更具体地涉及为自动语音识别系统提供关于用户记录的关键字的质量反馈。
背景技术
物联网(IOT)正处于起步阶段,并开始在家庭、建筑自动化和工业环境中发现更多应用。这主要是由拥有能够以低功耗和低成本运行复杂算法的芯片组的能力驱动的。关键的支持技术是通过语音命令进行的人机交互。这种情况的一个示例是设备进行识别和响应于短语音命令的能力。这些被称为关键字定位应用程序。
发明内容
在自动语音识别系统的一个示例中,麦克风记录用户说出的关键字。前端,其将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件从分配给多个子单元的内容类计算表示关键字质量的分数。
在方法的另一示例中,在自动语音识别系统处接收来自用户的输入,指示用户意图向系统提交新关键字,记录用户说出的关键字。将指示关键字质量的分数分配给关键字。关键字质量表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率中的至少一个。表示分配的分数的基本实时反馈被提供给用户。
在自动语音识别系统的又一示例中,麦克风记录用户说出的关键字,并且前端将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件从分配给多个子单元的内容类计算表示关键字质量的分数。输出设备,可向用户提供关键字质量的反馈。前端、解码器和质量评估组件中的每个被配置为使得输出设备基本上实时地提供反馈。
附图说明
图1示出了用于评估自动语音识别系统的关键字质量的系统的一个示例;
图2示出了用于评估自动语音识别系统的关键字质量的系统的另一示例;
图3是示出用于关键字评估系统的基于规则的评分方法的一个示例的流程图,其中内容类是音位(phoneme);
图4示出了用于向自动语音识别系统的用户提供表示用户记录的关键字的质量的反馈的方法;和
图5是示出了能够实施图1-图4中公开的系统和方法的示例的硬件组件的示例系统的示意性框图。
具体实施方式
在许多实际应用中,用户可能希望用他们选择的关键字训练语音识别器设备。在本说明书中,“关键字”是用户用来通过语音识别系统请求系统动作的单词或短语。在许多情况下,关键字用于激活系统以接收更复杂的命令。用户记录的关键字并不总是适合于给定的语音识别应用,导致过多的识别错误和对用户的相应挫败感。这里描述的系统和方法向用户提供与用于关键字定位目的的注册的(enrolled)命令的质量有关的直接反馈。该质量度量向用户指示注册的关键字是否可能表现良好。良好的质量分数/得分反映了注册的关键字很可能在大多数时间被正确识别,并且非关键字语音不太可能被误识别为关键字。劣质量度量反映了相反的情况。该分数可以在关键字的训练期间被直接反馈给用户,允许用户以更好的发音使用不同的关键字重新训练或者使用相同的关键字重新训练。
图1示出了用于评估自动语音识别系统20的关键字质量的系统10的一个示例。自动语音识别系统可以实施为存储在非暂时性计算机可读介质上并由相关联的处理器(作为专用硬件,或作为软件和专用硬件的混合)执行的机器可读指令。麦克风12记录用户说出的关键字。语音识别系统20包括解码器22和质量评估组件24。解码器22识别关键字的全部或一部分,并且质量评估组件24将表示关键字质量的分数分配给关键字。
在本说明书中,关键字的质量或表示质量的分数是数值或分类参数,其表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率之一或两者。在一个实施方式中,这两个值的加权线性组合被用作质量分数。表示质量分数的反馈可以在用户接口26处被提供给用户。用户接口26可以与关联于自动语音识别系统20的输出设备30(例如扬声器或显示器)交互,以向用户提供反馈。在一个实施方式中,基本上实时地提供反馈,使得用户可以在关键字的训练期间响应于所提供的反馈来调整关键字或其发音。
图2示出了用于评估自动语音识别系统的关键字质量的系统50的另一示例。为了评估关键字质量,系统50首先将用于训练关键字模型的每个特征帧分类为不同的内容类,例如言语语音类型(Phonetic Type),然后,基于所得到的内容类序列,分配质量分数。用于提供质量分数的评分规则将取决于解码器的类型、解码器中实现的算法的特征、所选择的内容类以及目标关键字定位应用。例如,在期望具有低误报率的应用中,得分加权可能更多地朝向具有更多元音和不同种类元音的关键字,因为元音在频谱上富含信息并且通常包含更高的声学信号能量。
系统50包括记录用户所说的关键字的麦克风52,该关键字被提供给存储可由相关联处理器54执行的机器可读指令的非暂时性计算机可读介质60,以提供自动语音识别系统60。语音识别系统的前端62将记录的关键字划分为多个子单元。识别器前端62还从表示每个子单元的音频内容的多个子单元中的每个中提取特征集。在所示的实施方式中,记录的关键字被分成相等持续时间的帧,例如10毫秒,以提供子单元。
识别器前端62在逐帧的基础上将语音信号转换为特征向量集。特征向量表示该语音帧的足够的统计信息集,并且可以包括各种不同表示中的任何一种,例如梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)和线性预测编码系数(LPC)。在另一实施方式中,可以利用所记录的语音的音高、音调和能量的一个或更多个度量作为特征。
然后,将提取的用于每个帧的特征集提供给解码器64,解码器64至少根据为每个子单元提取的特征集将多个内容类中的一个分配给多个子单元中的每个。在一个示例中,从训练期间生成的特征向量生成所选关键字的模型。然后在识别期间,将特征向量输入到解码器(例如,作为为隐马尔可夫模型、卷积神经网络或深度神经网络),并与一个或更多个模型进行比较以识别所说的关键字。根据示例实施例的一方面,内容类可以是在正常操作期间已经由解码器64提供的参数,或者在解码器处的模型,其可以经修改以提供除正常检测功能之外的内容类。
所选择的特定内容类将随应用而变化。在一个实施方式中,多个类可以简单地表示各自的质量分数,至少包括第一类,表示第一质量分数,和第二类,表示不同于第一质量分数的第二质量分数。在这种情况下,基于其提取的特征以及(在一些应用中)周围子单元的特征或分配的类来简单地为每个帧分配分数。在另一实施方式中,每个内容类表示在帧期间由用户说出的音位。在一些系统中,解码器64可以能够为每个帧提供音位作为现有识别任务的一部分。具体地,在利用关键字的模型和填充或垃圾模型来识别或拒绝关键字的系统中,可以使用填充模型中生成的参数来确定语音类型。
对于音位的检测,所使用的语音类型集可以取决于解码器64如此可靠地对它们进行分类的能力。在一个实施例中,该语音类型集可包括节首辅音/起始音(onset)、摩擦音、鼻音、元音、节尾辅音/结尾音(offset)和无声/静音(silence)。然而,这个音位集仅作为示例提供,并且可以使用其他音位集和相应的评分系统。可以有多种方法将特征帧在时间n映射到相应的语音类型。
在基于最小距离的方法中,每个语音类型首先与代表性的向量集相关联。这个想法是在所有语音类型中找到在一些距离测量方面最接近输入特征帧的向量。代表性语音向量的长度需要与前端62的输出处的特征帧表示的长度相同。语音向量集可以利用不同数量的特征向量表示每个语音类型,因此可以表示如:
{Onsets}=[On1,On2,K,Onk1]
{Fricatives}=[Fr1,Fr2,K,Fk2]
{Nasals}=[Na1,Na2,K,Nak3]
{Vowels}=[Vo1,Vo2,K,Vok4]
{Offsets}=[Off1,Off2,K,Offk5]
{Silence}=[Si1,Si2,K,Sik6]
在该表示中,语音向量的总数是:
N=k1+k2+k3+k4+k5+k6
如果Phi∈PhoneticSet i∈1,...,N表示语音集之中的向量,则基于最小距离的规则将输入特征帧向量FF(n)基于具有最小p范数误差的语音向量,分类为起始音、摩擦音、鼻音、元音、结尾音和静音之一:
为了简化计算,可以使用2范数,使得p=2。在使用隐马尔可夫模型的应用中,假设检验通常在关键字模型和填充或垃圾模型之间。在这种情况下,填充模型中使用的向量可以直接对应于语音集之中的向量。
在最小距离方法中,基于时刻n处的输入语音信号的特征帧选择时刻n处的语音类型。可替代地,存在将多个特征帧(在不同的时间实例)作为输入的方法,以便对时间n处的语音类型做出判决,使得:
PhoneticType(n)=Function(FF(nK),K,FF(n),K,FF(n+K)) 公式2
这些方法试图使用先前和未来帧的上下文以便对当前帧做出判决。一个这样的例子是神经网络实施方式,其将似然概率分配给所有语音类型。在神经网络的输出处的简单硬判决规则是在输出处选择具有最大似然概率的语音类型。
语音集的每个元素可以不是单个向量。在一些实施例中,该组的每个元素可以包含的参数描述了与语音元素对应的帧特征的概率分布。然后,当观察到一个或更多个特征帧时,使用语音集元素参数来计算观察到的特征帧对应于语音集的每个元素的概率似然性。可以使用与针对神经网络描述的类似的简单硬判决规则,其选择提供最大可能性的语音类型。还可以通过考虑一个或更多个输入特征帧的较高似然性的集来应用其他更复杂的判决规则。
质量评估组件66从分配给多个子单元的质量分数计算表示关键字质量的分数。在其中每个内容类表示质量分数或者可以与质量分数直接相关联的实施例中,质量评估组件可以简单地提供质量分数的加权线性组合。例如,在内容类代表音位的情况下,每个音位可以表示特定值,其中音节上的值相加以提供该音节的质量分数。在一个实施例中,尽管可以根据记录的单词内的帧的位置将权重应用于质量分数,但是可以对所有分数进行相等的加权。在其他实施例中,应用于每个质量分数的权重可以从其关联帧的内容类和周围帧的内容类导出。
在另一实施例中,质量评估组件66利用基于规则的评分系统,其中基于其关联的内容类以及一个或更多个其他参数为每个帧分配分数。这些参数可以在内容类确定的外部,例如帧的音调、能量或音高,或者可以从周围帧的内容类中提取。在一个实施例中,质量评估组件66通过基于规则的评分为每个帧分配质量分数,其中根据与帧相关联的音位以及与至少一个相邻的音位相关联的音位来确定每个帧的分数。
图3是示出用于关键字评估系统的基于规则的评分方法100的一个示例的流程图,其中内容类是音位。在这样的系统中,训练模型的特征向量到语音类型的映射得到一系列语音类型。对于由M个特征向量组成的训练模型,得到的语音向量模型可以给定为(phoneticModel=[Ph(1),K,Ph(M)])。然后,基于输入帧映射到的语音类-类型,将每个模型分成可能的多个片段。每个音节片段被给予分数,并且评分系统将随着期望的应用和解码器64的能力而变化。例如,在一些实施例中,评分规则偏向于更多地强调具有更多元音的声音以减少关键字识别中的误报。
在102处,检测到片段的开始。片段的开始可以由起始音、摩擦音、鼻音和元音表示。在104处,选择下一个特征向量。在106处,将片段的分数S初始化为零。其他计数器,例如下文描述的元音计数器,也可以在此时被初始化为它们的各种开始值。在108处,确定所选特征向量是否是元音、摩擦音、鼻音或起始音音位。如果特征向量不是这些音位中的任何一个(其他),则方法前进到109。在109处,确定该片段是否已经结束。片段的结束可以由结尾音、静音或模型的结束来指示,即最后的特征向量。如果片段已结束(是),则该方法终止。否则(否),该方法返回到104以选择下一个特征向量。
如果所选特征向量是元音(元音),则在110处确定所识别的元音是否是与先前特征向量相同的元音。如果是(是),则方法前进到112,其中计数器V递增1。如果不是(否),则方法前进到114,其中计数器被重置为值1。无论如何,该方法然后进行到116,其中确定计数器是否超过阈值。在该示例中,阈值是四,但是该阈值将随着期望的应用和解码器64的特性而变化。如果计数器具有高于四的值(是),则该方法前进到109。如果计数器具有的值小于或等于四(否),则分数在118处递增第一值X,并且该方法前进到109。例如,X可以设置为0.1。
返回108,如果所选特征向量是摩擦音、鼻音或起始音(非元音),则在120处确定所识别的音位是否是与先前特征向量相同的音位。这不仅仅涉及相同的一般类型,而是涉及特定的摩擦音、鼻音或起始音,如分类任务中使用的各种代表性语音向量所表示的。如果是(是),则方法前进到109。如果音位不同(否),则在122处将分数递增第二值Z,并且方法前进到109。例如,值Z可以被设为0.1。一旦方法终止,分数S表示片段的质量。可以添加多个片段以获得关键字的整体质量,从而通过将各个音节片段分数相加并相对于常数进行归一化在质量评估组件66处计算总质量分数,使得分数位于0到1之间的范围内。
可以将计算的分数提供给反馈生成组件68,以在诸如扬声器70的输出设备处提供给用户。在一个实施方式中,将分数分类为分类参数,例如“好”、“差”或“平均”,此分类参数作为反馈提供。相应地,关键字的质量可以在不知道特定评分系统的情况下以易于理解的方式传达给用户。在一个实施方式中,前端62、解码器64和质量评估组件66中的每个被设计为使得扬声器70基本上实时地提供反馈。该设计允许用户在收到负反馈时立即记录新关键字。
鉴于上文描述的结构和功能特征,参考图4描述了根据示例实施例的各个方面的方法。为了简化说明,图4的方法被示出并描述为串行执行,但是示例实施例不受所示顺序的限制,因为一些方面可以以与本文所示和所述的顺序不同的顺序发生和/或与其他方面同时发生。此外,实施根据示例实施例的方法可以不需要全部示出的特征。
图4示出了用于向自动语音识别系统的用户提供表示用户记录的关键字的质量的反馈的方法150。在152处,在自动语音识别系统处从用户接收指示用户意图向系统提交新关键字的输入。该程序可以作为现有关键字命令或通过与识别系统相关联的软件应用来完成。在154处,记录用户说出的关键字。
在156处,将表示关键字质量的分数分配给关键字,其中关键字的质量表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率之一或两者。在一个实施例中,将记录的关键字分成多个子单元,并从多个子单元中的每个子单元中提取特征集。至少根据为每个子单元提取的特征集,以及从分配给多个子单元的内容类中表示关键字的质量的分数,将多个内容类中的一个分配给多个子单元中的每个。
在一个实施例中,至少根据其分配的内容类将质量分数分配给多个子单元中的每个,并且跨多个子单元将质量分数组合以提供表示关键字质量的分数。例如,每个子单元可以与多个音位中的一个相关联,每个音位具有相关联的质量分数,使得第一音位具有第一质量分数而第二音位具有与第一质量分数不同的第二质量分数。可替代地,每个子单元可以与多个音位中的一个相关联,并且根据与子单元相关联的音位以及与至少一个相邻子单元相关联的音位将质量分数分配给每个子单元。在一个示例中,如果小于阈值数量的连续先前子单元表示相同元音,则将第一分数分配给表示元音的每个子单元,并且如果摩擦音、鼻音和起始音中的一个与紧接在前的子单元中分配的音位不同,则将第二分数分配给表示摩擦音、鼻音和起始音之一的每个子单元。可以从各个子单元的分数中分配总分,并且可以在158处向用户提供表示分配的分数的基本上实时的反馈。
图5是示出了能够实现图1-图4中公开的系统和方法的示例的硬件组件的示例系统200的示意性框图。系统200可包括各种系统和子系统。系统200可以是个人计算机、膝上型计算机、工作站、计算机系统、设备、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、服务器、服务器刀片中心、服务器场或其他计算设备。
系统200可包括系统总线202、处理单元204、系统存储器206、存储器设备208和210、通信接口212(例如,网络接口)、通信链路214,显示器216(例如,视频屏幕)和输入设备218(例如,键盘和/或鼠标)。系统总线202可以与处理单元204和系统存储器206通信。附加存储器设备208和210,例如硬盘驱动器、服务器、独立数据库或其他非易失性存储器,也可以与系统总线202通信。系统总线202互连了处理单元204、存储器设备206-210、通信接口212、显示器216和输入设备218。在一些示例中,系统总线202也互连了附加端口(未示出),例如通用串行总线(USB)端口。
处理单元204可以是计算设备,并且可以包括专用集成电路(ASIC)。处理单元204执行一组指令以实现本文公开的示例的操作。处理单元可包括至少一个处理核心。附加存储器设备206、208和210可以以文本或编译形式存储数据、程序、指令、数据库查询,以及操作计算机可能需要的任何其他信息。存储器206、208和210可以实现为计算机可读介质(集成或可移动),例如存储卡、磁盘驱动器、光盘(CD)或可通过网络访问的服务器。在一些示例中,存储器206、208和210可以包括文本、图像、视频和/或音频,其部分可以以人类可理解的格式提供。附加地或替代地,系统200可以通过通信接口212访问外部数据源或查询源,通信接口212可以与系统总线202和通信链路214通信。
在操作中,系统200可用于实现根据示例实施例的关键字评估系统的一个或更多个部分。根据某些示例,用于评估关键字质量的计算机可执行逻辑驻留在系统存储器206和存储器设备208、210中的一个或更多个上。处理单元204执行源自系统存储器206和存储器设备208和210的一个或更多个计算机可执行指令。这里使用的术语“计算机可读介质”是指参与向处理单元204提供用于执行的指令的一个或更多个非暂时性介质的集合。这些介质可以是进程的本地介质,也可以经由本地网络或因特网连接进行连接。
在权利要求的范围内,所描述的实施例中的修改是可能的,并且其他实施例也是可能的。

Claims (16)

1.一种自动语音识别系统,包括:
麦克风,其被配置为接收用户说出的关键字的音频;
前端,其被配置为将所述关键字划分为多个子单元,并从所述多个子单元中的每个子单元中提取特征集,其中每个子单元包含接收的音频的片段;
解码器,其被配置为至少根据为每个子单元提取的所述特征集,通过分配语音类型序列来将多个内容类中的一个分配给所述多个子单元中的每个子单元;和
质量评估组件,其被配置为:
从分配给所述多个子单元的所述内容类计算表示所述关键字的质量的总分数,所述关键字的所述质量表示所述自动语音识别系统的解码器处的所述关键字的识别率和所述自动语音识别系统的所述解码器处的所述关键字的误报率;
仅在小于阈值数量的连续先前子单元表示给定元音的情况下,将第一分数分配给表示所述给定元音的子单元;
仅在摩擦音、鼻音和起始音中的一个不同于分配给紧接在前的子单元的音位的情况下,将第二分数分配给表示摩擦音、鼻音和起始音中的所述一个的子单元;以及
通过累加全部所述多个子单元的所述第一分数和所述第二分数来分配所述总分数。
2.根据权利要求1所述的系统,还包括输出设备,其被配置为提供关于所述关键字的质量的反馈,所述前端、所述解码器和所述质量评估组件中的每个被配置为使得所述输出设备提供基本上是实时的所述反馈。
3.根据权利要求1所述的系统,其中用于每个子单元的所述多个特征包括所述音频的音高、能量、频谱表示中的至少一个,以及所述子单元内的所述音频的所述音高、所述能量和所述频谱表示之一的函数。
4.根据权利要求1所述的系统,其中所述前端将所述关键字划分为多个帧,每个帧具有相同的持续时间并提供所述多个子单元中的一个子单元。
5.根据权利要求4所述的系统,其中所述解码器将每个帧与多个音位中的一个相关联,其中每个音位具有相关联的质量分数,并且在所述多个帧的至少一个子集上组合所述质量分数以提供表示所述关键字的质量的分数。
6.根据权利要求4所述的系统,其中所述解码器将每个帧与多个音位中的一个相关联,所述质量评估组件根据与所述帧相关联的所述音位以及与至少一个相邻的帧相关联的音位为每个帧分配质量分数。
7.根据权利要求6所述的系统,其中所述非元音语音类型包括摩擦音、鼻音和起始音之一。
8.根据权利要求7所述的系统,其中所述质量评估组件被配置为针对表示不同元音音位的所述子单元的每个元音语音类型或针对表示相同元音音位的所述子单元的每个元音语音类型来计算递增所述分数直到阈值数量。
9.一种用于自动语音识别的方法,包括:
在自动语音识别系统处接收来自用户的输入,其指示所述用户意图向所述系统提交新关键字;
记录所述用户说出的所述关键字;
将所述关键字划分为多个子单元;
从所述多个子单元中的每个子单元提取特征集;
将指示所述关键字的质量的分数分配给所述关键字,包括用所述自动语音识别系统的解码器处的所述关键字的识别率和所述自动语音识别系统的所述解码器处的所述关键字的误报率来表示所述关键字的所述质量;
在质量评估组件中仅在所述关键字的小于阈值数量的连续先前子单元表示给定元音的情况下,将第一分数分配给所述关键字的表示所述给定元音的子单元,并且在所述质量评估组件中仅在摩擦音、鼻音和起始音中的一个不同于分配给紧接在前的子单元的音位的情况下,将第二分数分配给所述关键字的表示摩擦音、鼻音和起始音中的所述一个的子单元;
通过累加全部所述多个子单元的所述第一分数和所述第二分数来分配总分数;以及
向所述用户提供表示所述总分数的实时的反馈。
10.根据权利要求9所述的方法,其中每个子单元的所述多个特征包括所述音频的音高、能量、频谱表示中的至少一个,以及所述子单元内的所述音频的所述音高、所述能量和所述频谱表示之一的函数。
11.根据权利要求9所述的方法,其中所述非元音语音类型包括摩擦音、鼻音和起始音之一。
12.根据权利要求11所述的方法,其中针对表示不同元音音位的子单元的每个元音语音类型或针对表示相同元音音位的所述子单元的每个元音语音类型来递增所述子单元的所述分数直到阈值数量。
13.一种自动语音识别系统,包括:
麦克风,其被配置为接收用户说出的关键字的音频;
前端,其被配置为将所述关键字划分为多个子单元,每个子单元包含接收的音频的片段,并从所述多个子单元中的每个中提取特征集;
解码器,其被配置为至少根据为每个子单元提取的所述特征集,通过分配语音类型序列来将多个内容类中的一个分配给所述多个子单元中的每个;
质量评估组件,其被配置为:
从分配给所述多个子单元的所述内容类计算表示所述关键字的质量的总分数,所述关键字的所述质量表示所述自动语音识别系统的解码器处的所述关键字的识别率和所述自动语音识别系统的所述解码器处的所述关键字的误报率;
仅在小于阈值数量的连续先前子单元表示给定元音的情况下,将第一分数分配给表示所述给定元音的子单元;
仅在摩擦音、鼻音和起始音中的一个不同于分配给紧接在前的子单元的音位的情况下,将第二分数分配给表示摩擦音、鼻音和起始音中的所述一个的子单元;以及
通过累加全部所述多个子单元的所述第一分数和所述第二分数来分配所述总分数;和
输出设备,其被配置为向所述用户提供指示所述关键字的所述总分数的反馈;
其中,所述前端、所述解码器和所述质量评估组件中的每个被配置为使得所述输出设备实时地提供反馈。
14.根据权利要求13所述的系统,其中每个子单元的所述多个特征包括所述音频的音高、能量、频谱表示中的至少一个,以及所述子单元内的所述音频的所述音高、所述能量和所述频谱表示之一的函数。
15.根据权利要求13所述的系统,其中所述非元音语音类型包括摩擦音、鼻音和起始音之一。
16.根据权利要求13所述的系统,其中所述质量评估组件被配置为针对表示不同元音音位的所述子单元的每个元音语音类型或针对表示相同元音音位的所述子单元的每个元音语音类型来计算递增所述分数直到阈值数量。
CN201880017460.1A 2017-03-14 2018-03-09 用于自动语音识别的系统和方法 Active CN110419078B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762470910P 2017-03-14 2017-03-14
US62/470,910 2017-03-14
US15/706,128 US11024302B2 (en) 2017-03-14 2017-09-15 Quality feedback on user-recorded keywords for automatic speech recognition systems
US15/706,128 2017-09-15
PCT/US2018/021670 WO2018169772A2 (en) 2017-03-14 2018-03-09 Quality feedback on user-recorded keywords for automatic speech recognition systems

Publications (2)

Publication Number Publication Date
CN110419078A CN110419078A (zh) 2019-11-05
CN110419078B true CN110419078B (zh) 2024-01-23

Family

ID=63520181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880017460.1A Active CN110419078B (zh) 2017-03-14 2018-03-09 用于自动语音识别的系统和方法

Country Status (3)

Country Link
US (1) US11024302B2 (zh)
CN (1) CN110419078B (zh)
WO (1) WO2018169772A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11011155B2 (en) 2017-08-01 2021-05-18 Texas Instruments Incorporated Multi-phrase difference confidence scoring

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体
GB0112439D0 (en) * 2001-05-22 2001-07-11 Motorola Inc Speech quality indication
CN1685336A (zh) * 2002-07-26 2005-10-19 摩托罗拉公司 用于背景噪声快速动态估计的方法
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
CN103999517A (zh) * 2011-11-01 2014-08-20 高通股份有限公司 音频特征数据的提取及分析
CN104903954A (zh) * 2013-01-10 2015-09-09 感官公司 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN105874530A (zh) * 2013-10-30 2016-08-17 格林伊登美国控股有限责任公司 预测自动语音识别系统中的短语识别质量

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US20010014857A1 (en) 1998-08-14 2001-08-16 Zifei Peter Wang A voice activity detector for packet voice network
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
US7478043B1 (en) * 2002-06-05 2009-01-13 Verizon Corporate Services Group, Inc. Estimation of speech spectral parameters in the presence of noise
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US20070136054A1 (en) * 2005-12-08 2007-06-14 Hyun Woo Kim Apparatus and method of searching for fixed codebook in speech codecs based on CELP
US9245526B2 (en) 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
US7831427B2 (en) * 2007-06-20 2010-11-09 Microsoft Corporation Concept monitoring in spoken-word audio
JP5310563B2 (ja) * 2007-12-25 2013-10-09 日本電気株式会社 音声認識システム、音声認識方法、および音声認識用プログラム
CA2869530A1 (en) * 2012-04-27 2013-10-31 Aravind GANAPATHIRAJU Negative example (anti-word) based performance improvement for speech recognition
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9129602B1 (en) * 2012-12-14 2015-09-08 Amazon Technologies, Inc. Mimicking user speech patterns
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
CN107369454B (zh) * 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
EP3038106B1 (en) * 2014-12-24 2017-10-18 Nxp B.V. Audio signal enhancement
US10176219B2 (en) * 2015-03-13 2019-01-08 Microsoft Technology Licensing, Llc Interactive reformulation of speech queries
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US10074363B2 (en) * 2015-11-11 2018-09-11 Apptek, Inc. Method and apparatus for keyword speech recognition
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
GB2552722A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
JP6812843B2 (ja) * 2017-02-23 2021-01-13 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1195795A (ja) * 1997-09-16 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 音声品質評価方法および記録媒体
GB0112439D0 (en) * 2001-05-22 2001-07-11 Motorola Inc Speech quality indication
CN1685336A (zh) * 2002-07-26 2005-10-19 摩托罗拉公司 用于背景噪声快速动态估计的方法
CN101727903A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN101740024A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 基于广义流利的口语流利度自动评估方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
CN103038817A (zh) * 2010-05-26 2013-04-10 谷歌公司 使用地理信息的声学模型适配
CN103999517A (zh) * 2011-11-01 2014-08-20 高通股份有限公司 音频特征数据的提取及分析
CN104903954A (zh) * 2013-01-10 2015-09-09 感官公司 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN105874530A (zh) * 2013-10-30 2016-08-17 格林伊登美国控股有限责任公司 预测自动语音识别系统中的短语识别质量

Also Published As

Publication number Publication date
CN110419078A (zh) 2019-11-05
WO2018169772A3 (en) 2018-10-25
US20180268815A1 (en) 2018-09-20
WO2018169772A2 (en) 2018-09-20
US11024302B2 (en) 2021-06-01

Similar Documents

Publication Publication Date Title
US11270685B2 (en) Speech based user recognition
US20230027828A1 (en) Multiple classifications of audio data
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
US11996097B2 (en) Multilingual wakeword detection
US9600231B1 (en) Model shrinking for embedded keyword spotting
CN106463113B (zh) 在语音辨识中预测发音
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
US20060287856A1 (en) Speech models generated using competitive training, asymmetric training, and data boosting
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
US10224030B1 (en) Dynamic gazetteers for personalized entity recognition
CN105654940B (zh) 一种语音合成方法和装置
US11854538B1 (en) Sentiment detection in audio data
CN109036471B (zh) 语音端点检测方法及设备
WO2018192186A1 (zh) 语音识别方法及装置
JP2015049398A (ja) 音響認識装置、音響認識方法、及び音響認識プログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
CN110853669B (zh) 音频识别方法、装置及设备
CN117636872A (zh) 音频处理方法、装置、电子设备和可读存储介质
US11308939B1 (en) Wakeword detection using multi-word model
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
US11437043B1 (en) Presence data determination and utilization
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
CN110419078B (zh) 用于自动语音识别的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant