CN110419078A - 自动语音识别系统的用户记录关键字的质量反馈 - Google Patents
自动语音识别系统的用户记录关键字的质量反馈 Download PDFInfo
- Publication number
- CN110419078A CN110419078A CN201880017460.1A CN201880017460A CN110419078A CN 110419078 A CN110419078 A CN 110419078A CN 201880017460 A CN201880017460 A CN 201880017460A CN 110419078 A CN110419078 A CN 110419078A
- Authority
- CN
- China
- Prior art keywords
- subelement
- keyword
- score
- quality
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013441 quality evaluation Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 30
- 238000012545 processing Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
在自动语音识别系统(50)中,麦克风(52)记录用户说出的关键字。前端(62)将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器(64)至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件(66)从分配给多个子单元的内容类计算表示关键字质量的分数。
Description
技术领域
本发明一般涉及自动语音识别系统,并且更具体地涉及为自动语音识别系统提供关于用户记录的关键字的质量反馈。
背景技术
物联网(IOT)正处于起步阶段,并开始在家庭、建筑自动化和工业环境中发现更多应用。这主要是由拥有能够以低功耗和低成本运行复杂算法的芯片组的能力驱动的。关键的支持技术是通过语音命令进行的人机交互。这种情况的一个示例是设备进行识别和响应于短语音命令的能力。这些被称为关键字定位应用程序。
发明内容
在自动语音识别系统的一个示例中,麦克风记录用户说出的关键字。前端,其将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件从分配给多个子单元的内容类计算表示关键字质量的分数。
在方法的另一示例中,在自动语音识别系统处接收来自用户的输入,指示用户意图向系统提交新关键字,记录用户说出的关键字。将指示关键字质量的分数分配给关键字。关键字质量表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率中的至少一个。表示分配的分数的基本实时反馈被提供给用户。
在自动语音识别系统的又一示例中,麦克风记录用户说出的关键字,并且前端将记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从多个子单元中的每个中提取特征集。解码器至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给多个子单元中的每个。质量评估组件从分配给多个子单元的内容类计算表示关键字质量的分数。输出设备,可向用户提供关键字质量的反馈。前端、解码器和质量评估组件中的每个被配置为使得输出设备基本上实时地提供反馈。
附图说明
图1示出了用于评估自动语音识别系统的关键字质量的系统的一个示例;
图2示出了用于评估自动语音识别系统的关键字质量的系统的另一示例;
图3是示出用于关键字评估系统的基于规则的评分方法的一个示例的流程图,其中内容类是音位(phoneme);
图4示出了用于向自动语音识别系统的用户提供表示用户记录的关键字的质量的反馈的方法;和
图5是示出了能够实施图1-图4中公开的系统和方法的示例的硬件组件的示例系统的示意性框图。
具体实施方式
在许多实际应用中,用户可能希望用他们选择的关键字训练语音识别器设备。在本说明书中,“关键字”是用户用来通过语音识别系统请求系统动作的单词或短语。在许多情况下,关键字用于激活系统以接收更复杂的命令。用户记录的关键字并不总是适合于给定的语音识别应用,导致过多的识别错误和对用户的相应挫败感。这里描述的系统和方法向用户提供与用于关键字定位目的的注册的(enrolled)命令的质量有关的直接反馈。该质量度量向用户指示注册的关键字是否可能表现良好。良好的质量分数/得分反映了注册的关键字很可能在大多数时间被正确识别,并且非关键字语音不太可能被误识别为关键字。劣质量度量反映了相反的情况。该分数可以在关键字的训练期间被直接反馈给用户,允许用户以更好的发音使用不同的关键字重新训练或者使用相同的关键字重新训练。
图1示出了用于评估自动语音识别系统20的关键字质量的系统10的一个示例。自动语音识别系统可以实施为存储在非暂时性计算机可读介质上并由相关联的处理器(作为专用硬件,或作为软件和专用硬件的混合)执行的机器可读指令。麦克风12记录用户说出的关键字。语音识别系统20包括解码器22和质量评估组件24。解码器22识别关键字的全部或一部分,并且质量评估组件24将表示关键字质量的分数分配给关键字。
在本说明书中,关键字的质量或表示质量的分数是数值或分类参数,其表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率之一或两者。在一个实施方式中,这两个值的加权线性组合被用作质量分数。表示质量分数的反馈可以在用户接口26处被提供给用户。用户接口26可以与关联于自动语音识别系统20的输出设备30(例如扬声器或显示器)交互,以向用户提供反馈。在一个实施方式中,基本上实时地提供反馈,使得用户可以在关键字的训练期间响应于所提供的反馈来调整关键字或其发音。
图2示出了用于评估自动语音识别系统的关键字质量的系统50的另一示例。为了评估关键字质量,系统50首先将用于训练关键字模型的每个特征帧分类为不同的内容类,例如言语语音类型(Phonetic Type),然后,基于所得到的内容类序列,分配质量分数。用于提供质量分数的评分规则将取决于解码器的类型、解码器中实现的算法的特征、所选择的内容类以及目标关键字定位应用。例如,在期望具有低误报率的应用中,得分加权可能更多地朝向具有更多元音和不同种类元音的关键字,因为元音在频谱上富含信息并且通常包含更高的声学信号能量。
系统50包括记录用户所说的关键字的麦克风52,该关键字被提供给存储可由相关联处理器54执行的机器可读指令的非暂时性计算机可读介质60,以提供自动语音识别系统60。语音识别系统的前端62将记录的关键字划分为多个子单元。识别器前端62还从表示每个子单元的音频内容的多个子单元中的每个中提取特征集。在所示的实施方式中,记录的关键字被分成相等持续时间的帧,例如10毫秒,以提供子单元。
识别器前端62在逐帧的基础上将语音信号转换为特征向量集。特征向量表示该语音帧的足够的统计信息集,并且可以包括各种不同表示中的任何一种,例如梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)和线性预测编码系数(LPC)。在另一实施方式中,可以利用所记录的语音的音高、音调和能量的一个或更多个度量作为特征。
然后,将提取的用于每个帧的特征集提供给解码器64,解码器64至少根据为每个子单元提取的特征集将多个内容类中的一个分配给多个子单元中的每个。在一个示例中,从训练期间生成的特征向量生成所选关键字的模型。然后在识别期间,将特征向量输入到解码器(例如,作为为隐马尔可夫模型、卷积神经网络或深度神经网络),并与一个或更多个模型进行比较以识别所说的关键字。根据示例实施例的一方面,内容类可以是在正常操作期间已经由解码器64提供的参数,或者在解码器处的模型,其可以经修改以提供除正常检测功能之外的内容类。
所选择的特定内容类将随应用而变化。在一个实施方式中,多个类可以简单地表示各自的质量分数,至少包括第一类,表示第一质量分数,和第二类,表示不同于第一质量分数的第二质量分数。在这种情况下,基于其提取的特征以及(在一些应用中)周围子单元的特征或分配的类来简单地为每个帧分配分数。在另一实施方式中,每个内容类表示在帧期间由用户说出的音位。在一些系统中,检测器64可以能够为每个帧提供音位作为现有识别任务的一部分。具体地,在利用关键字的模型和填充或垃圾模型来识别或拒绝关键字的系统中,可以使用填充模型中生成的参数来确定语音类型。
对于音位的检测,所使用的语音类型集可以取决于解码器64如此可靠地对它们进行分类的能力。在一个实施例中,该语音类型集可包括节首辅音/起始音(onset)、摩擦音、鼻音、元音、节尾辅音/结尾音(offset)和无声/静音(silence)。然而,这个音位集仅作为示例提供,并且可以使用其他音位集和相应的评分系统。可以有多种方法将特征帧在时间n映射到相应的语音类型。
在基于最小距离的方法中,每个语音类型首先与代表性的向量集相关联。这个想法是在所有语音类型中找到在一些距离测量方面最接近输入特征帧的向量。代表性语音向量的长度需要与前端62的输出处的特征帧表示的长度相同。语音向量集可以利用不同数量的特征向量表示每个语音类型,因此可以表示如:
{Onsets}=[On1,On2,K,Onk1]
{Fricatives}=[Fr1,Fr2,K,Frk2]
{Nasals}=[Na1,Na2,K,Nak3]
{Vowels}=[Vo1,Vo2,K,Vok4]
{Offsets}=[Off1,Off2,K,Offk5]
{Silence}=[Si1,Si2,K,Sik6]
在该表示中,语音向量的总数是:
N=k1+k2++k3+k4+k5+k6
如果Phi∈PhoneticSet i∈1,...,N表示语音集之中的向量,则基于最小距离的规则将输入特征帧向量FF(n)基于具有最小p范数误差的语音向量,分类为起始音、摩擦音、鼻音、元音、结尾音和静音之一:
为了简化计算,可以使用2范数,使得p=2。在使用隐马尔可夫模型的应用中,假设检验通常在关键字模型和填充或垃圾模型之间。在这种情况下,填充模型中使用的向量可以直接对应于语音集之中的向量。
在最小距离方法中,基于时刻n处的输入语音信号的特征帧选择时刻n处的语音类型。可替代地,存在将多个特征帧(在不同的时间实例)作为输入的方法,以便对时间n处的语音类型做出判决,使得:
PhoneticType(n)=Function(FF(n-K),K,FF(n),K,FF(n+K))公式2
这些方法试图使用先前和未来帧的上下文以便对当前帧做出判决。一个这样的例子是神经网络实施方式,其将似然概率分配给所有语音类型。在神经网络的输出处的简单硬判决规则是在输出处选择具有最大似然概率的语音类型。
语音集的每个元素可以不是单个向量。在一些实施例中,该组的每个元素可以包含的参数描述了与语音元素对应的帧特征的概率分布。然后,当观察到一个或更多个特征帧时,使用语音集元素参数来计算观察到的特征帧对应于语音集的每个元素的概率似然性。可以使用与针对神经网络描述的类似的简单硬判决规则,其选择提供最大可能性的语音类型。还可以通过考虑一个或更多个输入特征帧的较高似然性的集来应用其他更复杂的判决规则。
质量评估组件66从分配给多个子单元的质量分数计算表示关键字质量的分数。在其中每个内容类表示质量分数或者可以与质量分数直接相关联的实施例中,质量评估组件可以简单地提供质量分数的加权线性组合。例如,在内容类代表音位的情况下,每个音位可以表示特定值,其中音节上的值相加以提供该音节的质量分数。在一个实施例中,尽管可以根据记录的单词内的帧的位置将权重应用于质量分数,但是可以对所有分数进行相等的加权。在其他实施例中,应用于每个质量分数的权重可以从其关联帧的内容类和周围帧的内容类导出。
在另一实施例中,质量评估组件66利用基于规则的评分系统,其中基于其关联的内容类以及一个或更多个其他参数为每个帧分配分数。这些参数可以在内容类确定的外部,例如帧的音调、能量或音高,或者可以从周围帧的内容类中提取。在一个实施例中,质量评估组件66通过基于规则的评分为每个帧分配质量分数,其中根据与帧相关联的音位以及与至少一个相邻的音位相关联的音位来确定每个帧的分数。
图3是示出用于关键字评估系统的基于规则的评分方法100的一个示例的流程图,其中内容类是音位。在这样的系统中,训练模型的特征向量到语音类型的映射得到一系列语音类型。对于由M个特征向量组成的训练模型,得到的语音向量模型可以给定为(phoneticModel=[Ph(1),K,Ph(M)])。然后,基于输入帧映射到的语音类-类型,将每个模型分成可能的多个片段。每个音节片段被给予分数,并且评分系统将随着期望的应用和解码器64的能力而变化。例如,在一些实施例中,评分规则偏向于更多地强调具有更多元音的声音以减少关键字识别中的误报。
在102处,检测到片段的开始。片段的开始可以由起始音、摩擦音、鼻音和元音表示。在104处,选择下一个特征向量。在106处,将片段的分数S初始化为零。其他计数器,例如下文描述的元音计数器,也可以在此时被初始化为它们的各种开始值。在108处,确定所选特征向量是否是元音、摩擦音、鼻音或起始音音位。如果特征向量不是这些音位中的任何一个(其他),则方法前进到109。在109处,确定该片段是否已经结束。片段的结束可以由结尾音、静音或模型的结束来指示,即最后的特征向量。如果片段已结束(是),则该方法终止。否则(否),该方法返回到104以选择下一个特征向量。
如果所选特征向量是元音(元音),则在110处确定所识别的元音是否是与先前特征向量相同的元音。如果是(是),则方法前进到112,其中计数器V递增1。如果不是(否),则方法前进到114,其中计数器被重置为值1。无论如何,该方法然后进行到116,其中确定计数器是否超过阈值。在该示例中,阈值是四,但是该阈值将随着期望的应用和解码器64的特性而变化。如果计数器具有高于四的值(是),则该方法前进到109。如果计数器具有的值小于或等于四(否),则分数在118处递增第一值X,并且该方法前进到109。例如,X可以设置为0.1。
返回108,如果所选特征向量是摩擦音、鼻音或起始音(非元音),则在120处确定所识别的音位是否是与先前特征向量相同的音位。这不仅仅涉及相同的一般类型,而是涉及特定的摩擦音、鼻音或起始音,如分类任务中使用的各种代表性语音向量所表示的。如果是(是),则方法前进到109。如果音位不同(否),则在122处将分数递增第二值Z,并且方法前进到109。例如,值Z可以被设为0.1。一旦方法终止,分数S表示片段的质量。可以添加多个片段以获得关键字的整体质量,从而通过将各个音节片段分数相加并相对于常数进行归一化在质量评估组件66处计算总质量分数,使得分数位于0到1之间的范围内。
可以将计算的分数提供给反馈生成组件68,以在诸如扬声器70的输出设备处提供给用户。在一个实施方式中,将分数分类为分类参数,例如“好”、“差”或“平均”,此分类参数作为反馈提供。相应地,关键字的质量可以在不知道特定评分系统的情况下以易于理解的方式传达给用户。在一个实施方式中,前端62、解码器64和质量评估组件66中的每个被设计为使得扬声器70基本上实时地提供反馈。该设计允许用户在收到负反馈时立即记录新关键字。
鉴于上文描述的结构和功能特征,参考图4描述了根据示例实施例的各个方面的方法。为了简化说明,图4的方法被示出并描述为串行执行,但是示例实施例不受所示顺序的限制,因为一些方面可以以与本文所示和所述的顺序不同的顺序发生和/或与其他方面同时发生。此外,实施根据示例实施例的方法可以不需要全部示出的特征。
图4示出了用于向自动语音识别系统的用户提供表示用户记录的关键字的质量的反馈的方法150。在152处,在自动语音识别系统处从用户接收指示用户意图向系统提交新关键字的输入。该程序可以作为现有关键字命令或通过与识别系统相关联的软件应用来完成。在154处,记录用户说出的关键字。
在156处,将表示关键字质量的分数分配给关键字,其中关键字的质量表示自动语音识别系统的解码器处的关键字的识别率和自动语音识别系统的解码器处的关键字的误报率之一或两者。在一个实施例中,将记录的关键字分成多个子单元,并从多个子单元中的每个子单元中提取特征集。至少根据为每个子单元提取的特征集,以及从分配给多个子单元的内容类中表示关键字的质量的分数,将多个内容类中的一个分配给多个子单元中的每个。
在一个实施例中,至少根据其分配的内容类将质量分数分配给多个子单元中的每个,并且跨多个子单元将质量分数组合以提供表示关键字质量的分数。例如,每个子单元可以与多个音位中的一个相关联,每个音位具有相关联的质量分数,使得第一音位具有第一质量分数而第二音位具有与第一质量分数不同的第二质量分数。可替代地,每个子单元可以与多个音位中的一个相关联,并且根据与子单元相关联的音位以及与至少一个相邻子单元相关联的音位将质量分数分配给每个子单元。在一个示例中,如果小于阈值数量的连续先前子单元表示相同元音,则将第一分数分配给表示元音的每个子单元,并且如果摩擦音、鼻音和起始音中的一个与紧接在前的子单元中分配的音位不同,则将第二分数分配给表示摩擦音、鼻音和起始音之一的每个子单元。可以从各个子单元的分数中分配总分,并且可以在158处向用户提供表示分配的分数的基本上实时的反馈。
图5是示出了能够实现图1-图4中公开的系统和方法的示例的硬件组件的示例系统200的示意性框图。系统200可包括各种系统和子系统。系统200可以是个人计算机、膝上型计算机、工作站、计算机系统、设备、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、服务器、服务器刀片中心、服务器场或其他计算设备。
系统200可包括系统总线202、处理单元204、系统存储器206、存储器设备208和210、通信接口212(例如,网络接口)、通信链路214,显示器216(例如,视频屏幕)和输入设备218(例如,键盘和/或鼠标)。系统总线202可以与处理单元204和系统存储器206通信。附加存储器设备208和210,例如硬盘驱动器、服务器、独立数据库或其他非易失性存储器,也可以与系统总线202通信。系统总线202互连了处理单元204、存储器设备206-210、通信接口212、显示器216和输入设备218。在一些示例中,系统总线202也互连了附加端口(未示出),例如通用串行总线(USB)端口。
处理单元204可以是计算设备,并且可以包括专用集成电路(ASIC)。处理单元204执行一组指令以实现本文公开的示例的操作。处理单元可包括至少一个处理核心。附加存储器设备206、208和210可以以文本或编译形式存储数据、程序、指令、数据库查询,以及操作计算机可能需要的任何其他信息。存储器206、208和210可以实现为计算机可读介质(集成或可移动),例如存储卡、磁盘驱动器、光盘(CD)或可通过网络访问的服务器。在一些示例中,存储器206、208和210可以包括文本、图像、视频和/或音频,其部分可以以人类可理解的格式提供。附加地或替代地,系统200可以通过通信接口212访问外部数据源或查询源,通信接口212可以与系统总线202和通信链路214通信。
在操作中,系统200可用于实现根据示例实施例的关键字评估系统的一个或更多个部分。根据某些示例,用于评估关键字质量的计算机可执行逻辑驻留在系统存储器206和存储器设备208、210中的一个或更多个上。处理单元204执行源自系统存储器206和存储器设备208和210的一个或更多个计算机可执行指令。这里使用的术语“计算机可读介质”是指参与向处理单元204提供用于执行的指令的一个或更多个非暂时性介质的集合。这些介质可以是进程的本地介质,也可以经由本地网络或因特网连接进行连接。
在权利要求的范围内,所描述的实施例中的修改是可能的,并且其他实施例也是可能的。
Claims (20)
1.一种自动语音识别系统,包括:
麦克风,其记录用户说出的关键字;
前端,其将所记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从所述多个子单元中的每个中提取特征集;
解码器,其至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给所述多个子单元中的每个;和
质量评估组件,其从分配给所述多个子单元的所述内容类计算表示所述关键字质量的分数。
2.根据权利要求1所述的系统,还包括输出设备,其向用户提供关于所述关键字质量的反馈,所述前端、所述解码器和所述质量评估组件中的每个被配置为使得所述输出设备提供基本上是实时的所述反馈。
3.根据权利要求1所述的系统,其中用于每个子单元的所述多个特征包括所述音频的音高、能量、频谱表示中的至少一个,以及所述子单元内的所述音频的所述音高、所述能量和所述频谱表示之一的函数。
4.根据权利要求1所述的系统,其中所述解码器将每个子单元与多个音位中的一个相关联,每个音位具有相关联的质量分数,并且在所述多个子单元的至少一个子集上组合所述质量分数以提供表示所述关键字质量的所述分数。
5.根据权利要求1所述的系统,其中所述前端将所述关键字划分为多个帧,每个帧具有相同的持续时间。
6.根据权利要求5所述的系统,其中所述解码器将每个帧与多个音位中的一个相关联,其中每个音位具有相关联的质量分数,并且在所述多个帧的至少一个子集上组合所述质量分数以提供表示所述关键字质量的所述分数。
7.根据权利要求5所述的系统,其中所述解码器将每个帧与多个音位中的一个相关联,所述质量评估组件根据与所述帧相关联的所述音位以及与至少一个相邻的帧相关联的音位为每个帧分配质量分数。
8.根据权利要求7所述的系统,其中所述质量评估组件为表示元音的每个帧分配第一分数,并为表示摩擦音、鼻音和起始音之一的每个帧分配第二分数。
9.根据权利要求8所述的系统,其中,仅当小于阈值数量的连续在前帧表示给定元音时,所述质量评估组件为表示所述给定元音的帧分配所述第一分数,并且仅当摩擦音、鼻音和起始音中的一个与分配到紧接在前帧的音位不同时,为表示摩擦音、鼻音和起始音中的一个的帧分配所述第二分数。
10.一种方法,包括:
在自动语音识别系统处接收来自用户的输入,其指示所述用户意图向所述系统提交新关键字;
记录所述用户说出的所述关键字;
为所述关键字分配指示所述关键字质量的分数,所述关键字质量表示所述自动语音识别系统的解码器处的所述关键字的识别率和所述自动语音识别系统的所述解码器处的所述关键字的误报率中的至少一个;和
向所述用户提供表示所分配的分数的基本上实时的反馈。
11.根据权利要求10所述的方法,还包括:
将记录的关键字划分为多个子单元;
从所述多个子单元中的每个子单元提取特征集;和
至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给所述多个子单元中的每个;
其中,将表示所述关键字质量的所述分数分配给所述关键字包括:从分配给所述多个子单元的所述内容类中确定表示所述关键字质量的所述分数。
12.根据权利要求11所述的方法,其中,从分配给所述多个子单元的所述内容类中确定表示所述关键字质量的所述分数包括:
至少根据其分配的内容类为所述多个子单元中的每个分配质量分数;和
跨所述多个子单元组合所述质量分数以提供表示所述关键字质量的所述分数。
13.根据权利要求11所述的方法,其中将所述多个内容类中的一个分配给所述多个子单元中的每个包括将每个子单元与多个音位中的一个相关联,其中每个音位具有相关联的质量分数,使得第一音位具有第一质量分数,第二音位具有与所述第一质量分数不同的第二质量分数。
14.根据权利要求11所述的方法,其中将所述多个内容类中的一个分配给所述多个子单元中的每个包括将每个子单元与多个音位中的一个相关联,并根据与所述子单元相关联的所述音位以及与至少一个相邻子单元相关联的音位将质量分数分配给每个子单元。
15.根据权利要求14所述的方法,其中,所述质量评估组件根据分配给至少一个先前子单元的所述音位和分配给所述给定子单元的所述音位,为给定帧分配所述质量分数。
16.一种自动语音识别系统,包括:
麦克风,其记录用户说出的关键字;
前端,其将所记录的关键字划分为多个子单元,每个子单元包含记录的音频的片段,并从所述多个子单元中的每个中提取特征集;
解码器,其至少根据为每个子单元提取的特征集,将多个内容类中的一个分配给所述多个子单元中的每个;
质量评估组件,其从分配给所述多个子单元的内容类计算表示所述关键字质量的分数;和
输出设备,其向所述用户提供所述关键字质量的反馈;
其中,所述前端、所述解码器和所述质量评估组件中的每个被配置为使得所述输出设备基本上实时地提供反馈。
17.根据权利要求16所述的系统,其中所述多个内容类中的第一内容类表示第一质量分数,并且所述多个内容类中的第二内容类表示与所述第一质量分数不同的第二质量分数,所述质量评估组件通过将分配给所述多个子单元中的每个子单元的所述质量分数进行组合来确定表示所述关键字质量的所述分数。
18.根据权利要求16所述的系统,其中所述解码器将每个子单元与多个音位中的一个相关联,其中每个音位具有相关联的质量分数,并且跨所述多个子单元的至少一个子集组合所述质量分数以提供表示所述关键字质量的所述分数。
19.根据权利要求18所述的系统,其中所述质量评估组件为表示元音的每个子单元分配第一分数,为表示非元音音位的每个子单元分配第二分数。
20.根据权利要求16所述的系统,其中所述解码器将每个子单元与多个音位中的一个相关联,所述质量评估组件根据与所述子单元相关联的所述音位以及与至少一个相邻的子单元相关联的音位为每个子单元分配质量分数。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762470910P | 2017-03-14 | 2017-03-14 | |
US62/470,910 | 2017-03-14 | ||
US15/706,128 | 2017-09-15 | ||
US15/706,128 US11024302B2 (en) | 2017-03-14 | 2017-09-15 | Quality feedback on user-recorded keywords for automatic speech recognition systems |
PCT/US2018/021670 WO2018169772A2 (en) | 2017-03-14 | 2018-03-09 | Quality feedback on user-recorded keywords for automatic speech recognition systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110419078A true CN110419078A (zh) | 2019-11-05 |
CN110419078B CN110419078B (zh) | 2024-01-23 |
Family
ID=63520181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880017460.1A Active CN110419078B (zh) | 2017-03-14 | 2018-03-09 | 用于自动语音识别的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11024302B2 (zh) |
CN (1) | CN110419078B (zh) |
WO (1) | WO2018169772A2 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11011155B2 (en) | 2017-08-01 | 2021-05-18 | Texas Instruments Incorporated | Multi-phrase difference confidence scoring |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195795A (ja) * | 1997-09-16 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声品質評価方法および記録媒体 |
GB0112439D0 (en) * | 2001-05-22 | 2001-07-11 | Motorola Inc | Speech quality indication |
US20020091511A1 (en) * | 2000-12-14 | 2002-07-11 | Karl Hellwig | Mobile terminal controllable by spoken utterances |
CN1685336A (zh) * | 2002-07-26 | 2005-10-19 | 摩托罗拉公司 | 用于背景噪声快速动态估计的方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
JP2010186126A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | 入力音声評価装置、入力音声の評価方法および評価プログラム |
CN103038817A (zh) * | 2010-05-26 | 2013-04-10 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN103999517A (zh) * | 2011-11-01 | 2014-08-20 | 高通股份有限公司 | 音频特征数据的提取及分析 |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
US20160180838A1 (en) * | 2014-12-22 | 2016-06-23 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
CN105874530A (zh) * | 2013-10-30 | 2016-08-17 | 格林伊登美国控股有限责任公司 | 预测自动语音识别系统中的短语识别质量 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4489435A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Method and apparatus for continuous word string recognition |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
US6125345A (en) * | 1997-09-19 | 2000-09-26 | At&T Corporation | Method and apparatus for discriminative utterance verification using multiple confidence measures |
US20010014857A1 (en) | 1998-08-14 | 2001-08-16 | Zifei Peter Wang | A voice activity detector for packet voice network |
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
US7478043B1 (en) * | 2002-06-05 | 2009-01-13 | Verizon Corporate Services Group, Inc. | Estimation of speech spectral parameters in the presence of noise |
US7930176B2 (en) * | 2005-05-20 | 2011-04-19 | Broadcom Corporation | Packet loss concealment for block-independent speech codecs |
US20070136054A1 (en) * | 2005-12-08 | 2007-06-14 | Hyun Woo Kim | Apparatus and method of searching for fixed codebook in speech codecs based on CELP |
US9245526B2 (en) | 2006-04-25 | 2016-01-26 | General Motors Llc | Dynamic clustering of nametags in an automated speech recognition system |
US8332218B2 (en) | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
WO2008004666A1 (fr) * | 2006-07-07 | 2008-01-10 | Nec Corporation | Dispositif, procédé et programme de reconnaissance vocale |
KR101415534B1 (ko) * | 2007-02-23 | 2014-07-07 | 삼성전자주식회사 | 다단계 음성인식장치 및 방법 |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
US7831427B2 (en) * | 2007-06-20 | 2010-11-09 | Microsoft Corporation | Concept monitoring in spoken-word audio |
US8639507B2 (en) * | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
NZ700273A (en) * | 2012-04-27 | 2016-10-28 | Interactive Intelligence Inc | Negative example (anti-word) based performance improvement for speech recognition |
US9646610B2 (en) * | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US9129602B1 (en) * | 2012-12-14 | 2015-09-08 | Amazon Technologies, Inc. | Mimicking user speech patterns |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
CN107369455B (zh) * | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
US9775113B2 (en) * | 2014-12-11 | 2017-09-26 | Mediatek Inc. | Voice wakeup detecting device with digital microphone and associated method |
EP3038106B1 (en) * | 2014-12-24 | 2017-10-18 | Nxp B.V. | Audio signal enhancement |
US10176219B2 (en) * | 2015-03-13 | 2019-01-08 | Microsoft Technology Licensing, Llc | Interactive reformulation of speech queries |
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US10074363B2 (en) * | 2015-11-11 | 2018-09-11 | Apptek, Inc. | Method and apparatus for keyword speech recognition |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
JP6812843B2 (ja) * | 2017-02-23 | 2021-01-13 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
-
2017
- 2017-09-15 US US15/706,128 patent/US11024302B2/en active Active
-
2018
- 2018-03-09 WO PCT/US2018/021670 patent/WO2018169772A2/en active Application Filing
- 2018-03-09 CN CN201880017460.1A patent/CN110419078B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195795A (ja) * | 1997-09-16 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声品質評価方法および記録媒体 |
US20020091511A1 (en) * | 2000-12-14 | 2002-07-11 | Karl Hellwig | Mobile terminal controllable by spoken utterances |
GB0112439D0 (en) * | 2001-05-22 | 2001-07-11 | Motorola Inc | Speech quality indication |
CN1685336A (zh) * | 2002-07-26 | 2005-10-19 | 摩托罗拉公司 | 用于背景噪声快速动态估计的方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101740024A (zh) * | 2008-11-19 | 2010-06-16 | 中国科学院自动化研究所 | 基于广义流利的口语流利度自动评估方法 |
JP2010186126A (ja) * | 2009-02-13 | 2010-08-26 | Nec Corp | 入力音声評価装置、入力音声の評価方法および評価プログラム |
CN103038817A (zh) * | 2010-05-26 | 2013-04-10 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN103999517A (zh) * | 2011-11-01 | 2014-08-20 | 高通股份有限公司 | 音频特征数据的提取及分析 |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
CN105874530A (zh) * | 2013-10-30 | 2016-08-17 | 格林伊登美国控股有限责任公司 | 预测自动语音识别系统中的短语识别质量 |
US20160180838A1 (en) * | 2014-12-22 | 2016-06-23 | Google Inc. | User specified keyword spotting using long short term memory neural network feature extractor |
Also Published As
Publication number | Publication date |
---|---|
WO2018169772A2 (en) | 2018-09-20 |
US11024302B2 (en) | 2021-06-01 |
CN110419078B (zh) | 2024-01-23 |
US20180268815A1 (en) | 2018-09-20 |
WO2018169772A3 (en) | 2018-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11790919B2 (en) | Multiple classifications of audio data | |
US11657832B2 (en) | User presence detection | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
Busso et al. | Iterative feature normalization scheme for automatic emotion detection from speech | |
CN114051639A (zh) | 使用说话者基线进行情绪检测 | |
Origlia et al. | Continuous emotion recognition with phonetic syllables | |
US11574637B1 (en) | Spoken language understanding models | |
JP2008175955A (ja) | インデキシング装置、方法及びプログラム | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
US10573311B1 (en) | Generating self-support metrics based on paralinguistic information | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Ryant et al. | Highly accurate mandarin tone classification in the absence of pitch information | |
US20240029739A1 (en) | Sensitive data control | |
WO2021118793A1 (en) | Speech processing | |
CN112017690B (zh) | 一种音频处理方法、装置、设备和介质 | |
US11437043B1 (en) | Presence data determination and utilization | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
US11335346B1 (en) | Natural language understanding processing | |
CN110419078A (zh) | 自动语音识别系统的用户记录关键字的质量反馈 | |
US12002451B1 (en) | Automatic speech recognition | |
Larcher et al. | Constrained temporal structure for text-dependent speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |