CN1783213B - 用于自动语音识别的方法和装置 - Google Patents

用于自动语音识别的方法和装置 Download PDF

Info

Publication number
CN1783213B
CN1783213B CN2005101149067A CN200510114906A CN1783213B CN 1783213 B CN1783213 B CN 1783213B CN 2005101149067 A CN2005101149067 A CN 2005101149067A CN 200510114906 A CN200510114906 A CN 200510114906A CN 1783213 B CN1783213 B CN 1783213B
Authority
CN
China
Prior art keywords
phoneme
input
score value
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005101149067A
Other languages
English (en)
Other versions
CN1783213A (zh
Inventor
B·J·皮克林
T·D·波尔特尼
B·T·斯塔尼福德
M·惠特伯恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN1783213A publication Critical patent/CN1783213A/zh
Application granted granted Critical
Publication of CN1783213B publication Critical patent/CN1783213B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Abstract

一种自动语音识别(ASR)系统,包括语音-响应应用程序和语音识别引擎。ASR系统生成用户提示以引出某些口语输入,当口语输入被识别时,语音-响应应用程序执行操作。识别引擎将输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素。对每个候选匹配音素计算识别置信度分值,置信度分值用于帮助辨识一个或者多个可能的匹配音素序列,该序列似乎匹配语音-响应应用程序的语法中的单词。根据预先定义的置信度分值标准(例如,低于“低置信度”阈值的辨识分值)评估每个音素的置信度分值,评估的结果用于影响随后的用户提示的选择。一种这样的系统使用置信度分值选择用于目标识别训练的提示-鼓励输入被识别为具有低置信度识别分值的音素。另一个系统选择提示以阻止输入不容易被识别的声音。

Description

用于自动语音识别的方法和装置
技术领域
本发明提供用于自动语音识别的方法和装置。
背景技术
自动语音识别(ASR)系统采用音频信号作为输入,并通常将输入信号与声学模型(AM)的已知声音(音素)和声音序列(轨迹)相比较,以辨识似乎匹配声音的口语序列的单词。在辨识了对应输入音频信号的一个或者多个单词后,所辨识的匹配单词的文本或者其它机器可读形式由ASR返回到诸如交互式语音应答(IVR)电话应用程序的应用程序。可随每个显然匹配的单词返回置信度分值,该置信度分值基于引入的语音片断与和ASR系统的声学模型中的音素相关联的平均概率分布的紧密度。可以返回多个可能的单词及其各自的置信度分值,用于选择或者进一步的分析。
典型的自动语音识别(ASR)系统需要单个用户(与说话者有关的)或者多个用户(与说话者无关的)的相当大的训练数据,以使ASR系统的识别引擎能够学习将声音输入与语言的相应的声音(音素标签)相关联。当在实际的应用中使用时,诸如自动电话服务,ASR系统辨识的声音序列也必须匹配特定应用语法,其预先定义了所期望的单词和短语。如果ASR系统训练了足够的数据,并且如果语法覆盖所有可能的单词和短语,那么识别精度会很高。然而,特定语言中的单个声音可能很容易混淆,诸如英语中的“F”和“S”。这样的声音经常出现在应用语法的单词中。在这种情况下,识别精度会降低。
在大多数自动服务中,通常的做法是使用ASR询问用户,以确认ASR结果是否正确。如果没有返回结果,则可要求呼叫者重复没有被识别的单词。例如,呼叫者可说出他们想要联系的人的名字“Stephen James”。如果合成语音响应包括不同的名字,诸如“您是说‘Peter Jones’吗?”,则呼叫者不可能注意。不得不重复他们的输入也可能使呼叫者厌烦。即使确认仅仅是“Yes”或“No”,ASR系统也可能混淆这两个单词,特别是因为诸如“您是说Stephen James吗?”的用户提示可用“yeah”、“OK”、“correct”或者“nope”、“nah”等回答。
发明内容
本发明的第一个方面提供一种用于控制自动语音识别(ASR)系统的操作的方法。在与用户对话期间,ASR系统生成用户提示,以从用户引出所需要的输入。将输入音频信号内的声音与声学模型内的音素进行比较,以辨识候选匹配音素。对各个候选匹配音素计算识别置信度分值,并评估识别置信度分值,以辨识一个或者多个具有预先定义的识别置信度特征的候选匹配音素(例如,识别具有高或者低可信度分值的候选音素)。该方法包括选择用于引出随后的用户输入的用户提示,其中所述选择取决于所辨识的一个或者多个音素的识别置信度特征。
在本说明书中的典型的ASR系统包括语音识别引擎和应用程序,并可以包括如下所述的其它组件。在本说明书中的用户提示是提供给用户以引出用户输入的提示。例如,通过播放音频提示(诸如存储的音频片断或者动态生成的模拟语音消息)或者在计算机屏幕上显示文本向用户提出问题。每个用户提示都鼓励用户说话,例如以从选项菜单中进行选择或者指定用户需要的人员或者服务。
在本发明的第一个实施例中,将被辨识为可能匹配输入声音信号的声音的音素序列与语音识别语法(诸如IVR应用的特定应用语法)中的单词进行比较,以辨识候选匹配单词。在似乎匹配应用语法中的单词的音素序列中,将各个音素的置信度分值相结合以形成用于评估最可能单词匹配的累积置信度分值。在一个实施例中,如果所匹配的单词内的任何一个音素的识别置信度分值都低于所定的阈值(低置信度),则修改随后生成的用户提示以设法解决该问题。
在另一个实施例中,具有预先定义的识别置信度特征的候选匹配音素的辨识包括辨识具有高于所定的阈值的识别置信度(高置信度)的音素,提示用户输入高置信度音素以避免或者克服语音识别问题。
因此,置信度分值能够用于确定ASR系统不能高置信度地识别语言的哪个领域。因为特定音素的置信度分值可与引出口语输入的提示相关联地评估和记录,所以置信度分值还可以显示哪个用户提示导致低识别置信度分值。其后,用于生成用户提示的过程考虑每个音素的置信度分值以及每个单词(即音素序列)的置信度分值,以改编其用户提示用于改进的语音识别。可以为了目标语音识别训练而选择用户提示-生成引起具有低识别置信度分值的音素的输入的提示。可选择地,可以选择用户提示以鼓励用户输入除了难于识别的单词之外的单词或者短语-试图通过引起用户输入可选择的单词避免具有低识别置信度的音素。
在呼叫者和ASR系统之间的多次交互中,对于第一应用操作要求第一个用户输入,对于第二应用操作要求随后的用户输入。根据本发明的一个方法评估与在第一个用户输入中的声音和在ASR系统的声学模型中的音素之间的显然的匹配相关联的置信度分值,然后,响应置信度分值而控制与随后要求的用户输入相关联的用户提示的应用生成。第一和第二应用操作可以是应用程序的任何两个不同的操作,诸如从分层菜单中连续选择的步骤,其中第一个和随后的用户输入用于指示从菜单中的选择。
如上所述,一个实施例选择期望鼓励输入之前被辨识为具有低识别置信度分值的音素的用户提示-对目标识别训练制作ASR系统生成的用户提示。在一般用户与ASR系统交互期间,用户提示的选择可动态地实现,无需专门的特定呼叫者的训练期间。对于在呼叫者和ASR系统之间的功能交互的每个连续的步骤,可以修改用户提示。因为允许呼叫者进行下一个连续的步骤,因此该方法可以比如果要求呼叫者重复先前的输入的情况更有效也更少地阻扰呼叫者。一种解决方案引起呼叫者输入,该输入将包括低置信度音素的单词与一个或者多个之前以高置信度识别的单词相结合。
上面还提到本发明的一个实施例,其中ASR系统选择期望鼓励输入具有高置信度匹配分值的单词或者阻止输入具有低置信度匹配分值的单词的用户提示。例如,ASR系统中的应用程序可以通过选择用户提示响应来自ASR系统的识别引擎的低置信度识别分值,其中该用户提示作为所要求的用户输入,指明之前以低置信度识别的单词的同义词或者其它可选择的单词。例如,如果呼叫者的“Yes/No”输入难于识别(低置信度匹配分值),那么可以提示呼叫者说“Correct”代替“Yes”,而保持该用户提示的其它部分不变。
可以实现用户提示的其它定制。在另一个例子中,低置信度分值可以引发用更明确的条件指令(诸如“如果<条件A>,则说‘Yes please’,如果<条件B>,则说‘No’”)代替用户提示(诸如“如果<条件A>,则说‘Yes’”或者“你需要哪种服务?”),以引起来自呼叫者的更明确的响应。上述用户提示的选择、修改和定制在这里都被称为用户提示的“选择”。
在另一个实施例中,识别语法可被重构或者识别引擎可被优化以响应所评估的识别性能。应用语法的这些变化可以基于在一段时期内对多个呼叫者所评估的音素置信度分值。因此,可以实现本发明以获取有关实际和潜在的声音混淆的信息,并可以使用该信息修改和改编ASR系统的性能。置信度分值模式可以用于生成用于改变声学模型(通过上述目标训练)或者使用同义词词典改变应用语法的建议。
本发明的第二个方面提供一种自动语音识别(ASR)系统,其包括应用程序和语音识别引擎,其中语音识别引擎包括用于评估与在输入声音和声学模型中的音素之间的显然的匹配相关联的识别置信度分值的程序代码。响应该置信度分值,ASR系统控制用户提示的生成,用于影响用户对应用程序的输入。优选地,应用程序是语音-响应应用程序,其基于识别引擎的识别置信度计算选择用户提示,但是语音识别引擎可以输出文本单词,其作为文本是到应用程序的输入。
在一个实施例中,ASR系统包括声音前端(AFE),用于接收来自输入装置的音频信号,消除噪音,辨识包含语音的部分音频信号,并确定所辨识的语音的部分的参数。语音识别引擎接收来自AFE的输入,并将所接收的输入与关于应用语法(主要单词的数据库)和基类池(baseform pool)(包括已知方式的口语单词或者单词序列的音素的数据库)的声学模型进行比较。识别引擎输出包括在声学模型的状态之间的候选匹配轨迹、来自对应每个候选轨迹的应用语法的一个或多个单词以及所计算的音素和轨迹的置信度分值的结果。
本发明的另一个方面包括一种用于计算在ASR系统的声学模型内的声音之间的混淆度的方法。在两个音素之间的混淆度基于在与声学模型中的声音相关联的各个概率分布之间的距离。较小的距离被解释成意味着两个声音比距离更大的声音更容易混淆。例如,考虑概率分布的变化,固有混淆度的计算可以基于在声学模型中的任何两个声音的平均概率分布之间的欧几里得距离。
诸如上述的所计算的固有混淆度可以结合动态计算的识别置信度分值(例如,基于引入的声音片断与声学模型中的声音的平均概率分布的紧密度)。当询问应用语法以确定在语法中是否有可混淆的单词时,可以使用上述结果,其中语法与一组候选匹配音素有关。固有混淆度与动态计算的置信度分值的结合可以提供改进的识别置信度的评估,并改进用户提示的选择以增强识别。
本发明的实施例可用于修改应用语法中的单词,以避免语法中的单词之间可能的混淆。在声学模型中的声音之间的固有混淆度的计算可乘以运行时间识别置信度分值,以辨识识别困难,然后,在语法中有疑问的单词(在应用环境中很容易混淆的单词)可以用不可能混淆的同义词替换。
上述方法可以使用诸如在ASR系统中的计算机程序代码实现。这样的程序代码可以作为一组包括记录在记录介质上的程序代码的一个或者多个计算机程序产品或者模块可用。
附图说明
作为例子,本发明的实施例在下面参照附图详细地说明,其中:
图1是诸如在本领域中已知的自动语音识别系统的示意性表示;
图2A和2B表示经过声学模型的状态和状态转换的轨迹;
图3是根据本发明的实施例的自动语音识别系统的示意性表示;
图4和5示出根据本发明的示例性实施例的两个方法的步骤;
图6示出来自在呼叫者和根据本发明的实施例的自动语音识别系统之间的示例性对话的摘录。
具体实施方式
自动语音识别的概述
如图1所示的自动语音识别(ASR)系统包括输入装置100,诸如传统的麦克风或者电话听筒,接收来自输入装置的输入的声音前端(AFE)101,接收来自AFE的输入的语音识别引擎102,和连接到语音识别引擎的语音-响应应用程序103。应用程序103定义一组将作为在用户和ASR系统之间的交互的一部分执行的逻辑步骤。应用程序103通常通过用户提示辨识用户需要什么输入。用户提示可以是显示在屏幕上的文本字符串或者是向用户播放的音频片断。语音-响应应用程序使用语音识别引擎的结果以基于输入执行动作。
作为简单的说明,下面的说明涉及可能的账户余额查询应用。用户必须输入其账号,并要求ASR系统从数据库中取回相关信息(账户余额)。在呼叫者和ASR系统之间的交互中的事件序列可以表示如下:
1.呼叫者访问ASR系统以请求服务;
2.ASR系统提示呼叫者输入账号(“请说出您的账号”);
3.呼叫者说出账号(“12345”);
4.ASR系统从上面的步骤中取出音频输入,并使用识别引擎转换成文本;
5.ASR系统回放所识别的账号,并请求确认(“您说的是12345。如果正确,请说Yes。如果不正确,请说No”);
6.呼叫者确认(在该情况下为“Yes”);
7.ASR系统使用账号12345访问数据库并取回账户余额;
8.ASR系统向呼叫者输出所取回的信息(“账号12345的账户余额为100英镑”)。
为了输出信息,如在步骤2、5和8,ASR系统可以具有预先录制的音频片断或者可以使用文本转换语音合成。对于在步骤3和6中的用户输入,机器使用识别引擎,具有包括可能的输入数字和yes/no确认单词的语法。这些语法包括所有可能的输入,这些输入被应用程序开发者认为是对提示的可能响应。因此在本例中,数字语法将包含所有从0到9的数字,以允许用户以任何顺序说出任何数字。yes/no确认语法通常不仅包括“yes”和“no”,还包括诸如“yep”、“yeah”、“ok”、“correct”、“right”、“nah”、“nop”等变形,以及诸如“please”和“thank you”的可选单词。在一些实施例中,可以手工地“加权”特定的术语。这意味着一个或者多个单词可以在语法中被标记为比其它单词更有可能,以便它们被首选为识别结果。
再次参照图1,输入装置100负责捕获音频信号,并把该信号转换为用于机器处理的数字信号。输入装置100可以远离ASR系统的其它组件。从输入装置100接收到的数字化信号被提供给ASR系统的声音前端(AFE)101。AFE负责:
1.预处理音频信号以消除噪音;
2.确定音频信号的哪一部分包含有效的语音;
3.确定由识别器匹配的信号的连续部分的参数。
对于确定参数,AFE提取信号的一部分(例如100毫秒的片段),应用海明窗(Hamming window),生成平滑的谱表示(定义该部分的多项式表示的个数的数组)。该个数的数组被传送到识别引擎的识别过程,该识别引擎根据声学模型(AM)处理该数组。接着,AFE返回从该信号中提取下一个部分,可能交迭,并重复上述步骤直到整个音频信号都被处理。
如已知的传统的ASR系统的识别引擎,识别引擎102从声音前端(AFE)101接收输入,并处理这些输入-应用关于应用语法105和相关的基类池104的声学模型(AM)。应用语法105通常是特定应用的“袖珍词典”和“短语集”,并包括应用程序开发者认为用户可作为输入用于语音启动应用的单词。理论上,应用语法可以是完整的语言词典,包括一般的变形,但是大多数应用要求实时响应,所以当前大小有限的应用语法是标准。基类池104包括采用已知的音素发音(声音的较小可辨识单位)的存储器形式的发音词典,其中音素可包括在应用语法内的输入单词或者短语中。
识别引擎试图将输入音频信号中的声音与声学模型中的音素进行匹配,以辨识在对应输入音频信号的声音的音素之间可能的“轨迹”(即在声学模型中的状态和状态转换的序列)。每个音素被映射到一组状态和在声学模型的状态之间的转换,每个轨迹包括一个或者多个音素。
声学模型通常是隐马尔可夫模型(HMM),尽管也已知其它技术。图2是在隐马尔可夫模式中的某些轨迹的简化表示。语言中的每个声音可表示为在模型的状态之间的轨迹,尽管可以有几个轨迹,其是代表同一个声音的每一个候选。每个状态是多维高斯概率分布,其中,维数是固定的,并与用于描述来自AFE处理的多项式的术语的个数有关。在状态之间的转换(包括到同一状态的“零转换”)也是高斯概率分布,它是指当前状态可从前一个状态到达的可能性。参考图2A和2B,下面更详细地说明识别处理。
在图2A中示出的简化轨迹代表单个声音的开始、中间和结尾,如在单词“yes”中说“Y”201。当在识别引擎102接收到来自AFE 101的连续部分时,将它们与每个状态202进行比较,以辨识最有可能匹配各个部分的状态。如果在当前状态发现好的匹配,那么查询零转换概率。如果不同的状态是好的匹配,那么查询在当前状态和下一个状态之间的转换概率。当依次处理音频输入的各部分时,“轨迹”204经过HMM。当轨迹逐渐经过状态202和转换203时,对该轨迹计算累积概率。实际上,几乎不会有单个轨迹。因此可以发现对于同一个音频信号有多个轨迹经过HMM。如果考虑多个候选轨迹,如果累积概率低于预置的阈值,则可以舍弃(删除)各个轨迹。在HMM或者HMM的一部分的最后一个状态,剩余的轨迹(那些还没有被“删除”的轨迹)作为最终的检验反过来验证。
图2B是通过两个可选择的轨迹从一个音素标签移动到下一个音素标签的简化表示。因为输入音频信号可以成功地匹配两者之中的任一个,所以与“yes”中的音素“Y”205有关的成功的轨迹和“jelly”中的音素“J”206的可选择的轨迹进行竞争。这两个可能性,“Y”和“J”,都被暂时保留。让我们假定,当信号继续被处理时,输入信号的下一部分似乎可能被辨识为“yes”或者“jelly”中的音素“EH”207。那么,检验来自轨迹的前一部分的被经过的转换208。在这一点,如果相关的转换概率低,那么可能只根据声音舍弃候选音素205或者206中的一个。
一旦到达信号的结尾,并且没有更多的来自AFE的音频部分,那么返回一个或多个最佳匹配轨迹以及在轨迹被经过时所计算的累积概率。轨迹代表潜在的音素序列。回到图1,识别引擎102使用两个额外的输入以处理音频信号:特定应用语法105和在这里被称为基类池104的发音词典104。
在典型的基于音素的识别器中,AM包含与特定自然语言的所有声音的各部分(诸如开始、中间和结尾)有关的状态和转换。高斯分布在覆盖尽可能多的说话者的所有可能的组合中的所有可能的声音的音频数据上“训练”。例如,该训练步骤可包括在所有参加训练组的说话者和在训练组中表示的所有上下文中比较和总结音素“Y”的观测变形。
因此,在理论上,识别引擎可以识别该语言的任何有效的声音序列。由于这会导致轨迹的扩散,因此定义特定应用语法和相关的基类池以加快和支持识别。语法中的条目用于辨识并因此限定将被识别的单词。使用域和特定应用语法是常见的,尽管对于自然语言可能有一般和复杂的语法。前面所定义的语法包括对于给定应用所有允许的单词和短语(即应用认为是有意义的输入的单词和短语)。对于银行应用(诸如前面所给出的例子),允许的单词和短语可限于数字和yes/no变形,因此,该应用语法不包括其它诸如正确的姓名或文学术语的单词。一旦对应用定义了语法,那么在代表语法中单词的所有可能的发音的编辑期间生成基类池。这些发音-基类-是可被匹配的有效声音序列组。如上所述,语法中的条目包括将被识别的单词组。例如,如果语法仅仅包括单词“Yes”、“No”和“Correct”,那么只有这些单词可以产生积极的结果。基类池中的条目定义了可在声学模型中潜在地经过的轨迹。对于语法中的每一个单词,从基类池中取回轨迹以限制将在匹配步骤中保留的轨迹的数量。因此,语法和基类池被协同用于限制AM内的整个搜索空间。在运行时间,它们被用于限制和/或“删除”经过AM的状态的轨迹。
一旦已从AM返回一个或多个候选轨迹,那么依照语法检验这些轨迹。如果序列由语法中的一个或者多个单词表示,那么返回音素序列和一个或多个匹配单词作为结果。在第一个例子中,当输入音频被识别为包括轨迹Y-EH-S,并具有从对该轨迹所计算的累积概率得到的置信度分值(例如0.60的概率,这里被称为60%的置信度分值)时,返回单个结果。该单个结果包括拼字正确的修正版本“Yes”、以及按顺序排列的基类Y、EH、S和置信度分值。可选择地,如果语法包括多个潜在匹配输入声音的单词,那么可以返回诸如下面例子的N个最好的列表(仅是示意性的):
Y-EH-S        60%        Yes
Y-EH-L-OW     20%        Yellow
Y-OH-TD       15%        Yacht
J-EH-L-I-Y    3%         Jelly
N-OW          2%         No
上面的列表包括1个最好的和N-1个最接近的匹配从输入音频信号中提取的语音的单词,它们是通过应用使用在基类池和语法中定义的声音和单词的AM发现的。通常,基类、各个匹配单词的拼字正确的修正版本和相关的置信度分值在每个结果中返回。
因此,识别引擎计算与每个所辨识的轨迹相关联的置信度分值-基于声音匹配紧密度以及也可能的语音上下文。识别引擎或者辨识在对应轨迹的应用语法中的单个单词,其中该轨迹在所辨识的轨迹中具有最高的置信度分值,或者记录一组轨迹的置信度分值。不管是否返回单个结果或者多个结果(所谓的“N个最好的列表”),应用可以使用置信度分值确定是否接受结果。例如,高置信度分值可被认为证明接受结果,无需单独的确认步骤,而低置信度分值可以通过回送和再次请求用户输入或者请求所辨识的匹配的确认响应。
具有自适应的提示生成的自动语音识别系统
下面参照图3说明ASR系统,其中对于第一个用户输入的候选匹配音素,由识别引擎102计算识别置信度分值。识别置信度分值用于控制选择随后的用户提示,随后的用户提示与用户和ASR系统的交互中的随后的步骤相关联。本发明也能够更新应用语法和声学模型,作为替换导致低置信度识别分值的用户提示的结果。例如,如果“Yes”与低置信度分值有关,那么单词“Yes”可替换为“Yes please”并相应地修改语法。所计算的识别置信度分值可以显示哪个输入声音不能高置信度地识别。如下所述,本发明不同的实施例以不同的方式使用该信息。
在本发明的第一个ASR程序实施例中,识别引擎使用特定音素识别置信度分值以辨识似乎需要额外识别训练的音素。当用语音-响应应用程序生成随后的用户交互步骤的用户提示时,ASR程序生成引起输入包含确定需要额外训练的音素的单词的提示。
在可选的实施例中,ASR程序生成期望通过鼓励输入除了被识别为低置信度匹配的单词以外的单词避免或者减少潜在的混淆的提示。
如下所述,应用语法可以动态地修改以响应用户提示的选择或者定制,尽管应用程序开发者可从一开始就在语法中包括潜在的替换单词。
图3示出根据本发明的实施例的自动语音识别(ASR)系统的组件。如图1的例子,图3的ASR系统包括声音前端(AFE)101和查阅应用语法105和基类池104的识别引擎(RE)102。图3的ASR系统还具有在图1的已知ASR系统中没有的额外组件,包括被修改的提示数据库106和下面所述的其它组件。已知的ASR系统存储用于向用户提供结果或者指示需要输入的音频文件或者文本。如下所述,提示数据库106还包括潜在的混淆度和它们应当如何被处理的指示器。提示数据库106被应用程序103访问以自动地选择用户提示(选择在用户提示中包含的全部提示或单词)。下面参照图4和5更详细地说明提示数据库106的使用。
在现有的复杂的自然语言系统中,对话管理者工作的一部分是选择适当的提示,而本发明可以实现为使识别引擎102选择用户提示。
当开发语音-响应应用程序时,开发者对语法105进行编码,基类池104从特定应用语法中获得。获得基类或者发音的过程取决于处理来自训练数据的结果。如下所述,还生成同音词表107(单词表,其中单词拼写彼此不同但是发音相同,因此容易混淆):
1.基于原始的AM,对每一个音素,通过与每一个其它音素进行比较来计算欧几里得距离量度。因此,对于Y,有包括多个条目的数据组,这些条目显示在声音术语中Y与其它每个音素有多相近。这就是原始混淆度指标:高分值(较大的距离)意味着两个音素不可能被混淆(例如“O”和“B”);低分值(较小的距离)意味着两个音素在声音上相似,从而潜在地可混淆(例如“P”和“B”,或者“S”和“F”)。
下面说明第一个示例性的用于计算两个不同的声音z和y的状态x之间的欧几里得距离的方法。令xaz1表示对于声音z状态a的第一个参数的平均值,xay1表示对于声音y状态a的第一个参数的平均值。它们之间的欧几里得距离被定义为:
Figure G2005101149067D00121
对于如在典型的识别引擎102的HMM网络中的多维高斯分布,对于x,该计算从1执行到M,其中M表示用于代表给定的声音的状态的数量。每个状态的欧几里得距离为:其中c从1到N,N表示所使用的状态的数量。
知道该平均值周围的变化和这两个平均值之间的向量的方向允许扩展和改进混淆指示器。如果扩展该方法,则最佳距离量度为:
&Sigma; ( ( x azc &PlusMinus; &sigma; zac ) - ( x ayc &PlusMinus; &sigma; ayc 2 ) ) 2 .
2.另外,对于每个音素计算“音素混淆度指标”,例如低于音素轨迹的每个音素的给定阈值的混淆度指标的平均值。在这里,该音素混淆度指标被称为音素的固有混淆度量度。
3.采用特定应用基类池(与应用语法有关的音素轨迹的数据库),原始混淆度指标用于计算应用语法的每个单词的累积混淆度指标,它表示两个或者多个单词可能被混淆的程度。每对单词的累积混淆度指标被存储在同音词表107中。
在该阶段,可以突出可能的混淆,并在配置之前改变应用语法和相关的应用提示,以使上述单词之间的累积混淆度指标被优化。然而,这里所述的ASR系统推迟突出可能的混淆的步骤,直到在运行时间分析语音,使得在应用语法中的单词之间的固有混淆度可与运行时间识别置信度分值相关。下面参照图3,4和5更详细地说明ASR系统的组件和运行时间操作。
由于自动语音识别系统的输入装置和声音前端的操作在本领域是众所周知的(AFE如上所述),因此图4所示的方法的步骤序列从由识别引擎102接收预处理的、参数化的音频数据的片断开始(步骤300)。识别引擎102把输入音频片断与声学模型进行比较,以辨识候选匹配音素(模型中的状态序列)和候选音素序列(称为声学模型中的轨迹),这些序列可能表示用户所说的声音(步骤301)。接着,识别引擎将候选轨迹与应用语法105进行比较,试图辨识语法中匹配用户所说的声音的单词(步骤302)。识别引擎102使用输入音频与平均概率分布的紧密度以计算每个候选匹配音素和单词的置信度分值,其中平均概率分布与每个候选轨迹的声学模型的各个音素有关(步骤303)。
当进行了识别尝试后,对于在一个或多个所匹配的轨迹中的每个单独的音素,将置信度分值收集在音素置信度表108中(步骤303)。音素置信度表108包含所识别的音素、相关的置信度分值、每个音素的固有混淆度量度和每个所识别的单词的累积混淆度指标。这些将用于评估结果,如下所述。另外,当在一个时期上重复测量时,各个音素的这些量度的趋势存储在置信度趋势数据库中,也将在下面说明,但没有在图中示出。
在如下所述的评估结果中,对特定应用和特定用户分别计算的混淆度指标和运行时间值都被保留-使得通用的混淆量度可动态地修改成实际的配置环境。
当单词识别结果变得可用时,来自音素置信度表的固有混淆度条目被应用于所计算的单词的识别置信度值,以提供额外的结果字段连同轨迹(基类)和每个音素置信度分值。该额外的结果字段在这里被称为运行时间混淆量度。在一个实施例中,在运行时间(此时识别引擎被启动)计算的识别置信度分值与预先计算的固有音素混淆度指标相乘。这样,如果后两者的值指示高级别的混淆度,那么置信度值将与固有(即通用语言)指标和累积(即特定应用)指标成比例地减小。
为了说明的目的,提供下面的例子:
·令(a)为特定识别尝试的置信度分值(例如70%);
·令(b)为结果中的所有声音与声学模型中的其它声音比较的固有混淆度(例如25%,如果结果中的语音很容易混淆)。
·另外,令(c)为结果中的一个或多个特定单词与语法中的其它所有单词比较的累积混淆度(例如值80%,如果我们预测这个单词或这些单词不容易与语法中的其它单词混淆,即使各个声音可能混淆)。
·已经离线计算值(b)和(c)。把它们相乘,我们得到20%。
·将置信度分值(a)乘以这个20%的结果,得到14%的运行时间置信度量度。
如果固有混淆度较高(如0.75),那么运行时间混淆量度也会比较高(在本例中是0.42)。可选择地,如果累积混淆度指标较低(如0.50),那么运行时间混淆量度也会变得更低(在本例中是0.0875)。因此,可能值的范围不需要线性地相关。然而,低运行时间混淆量度不过意味着结果会导致潜在的混淆和不能识别。
如上所述,当评估识别置信度和可能的混淆时,计算和使用三个值:每个说话者、特定环境运行时间识别置信度;固有的每个音素混淆度;单词的累积混淆度指标。这三个值中的每一个值都表示对识别的不同影响。置信度分值表示识别引擎如何在当前条件下对当前说话者执行。固有的每个音素混淆度指标表示正被发音的一个或多个声音是如何清楚(在特定语言中)。累积混淆度指标表示固有混淆度对于该特定的应用是如何重要。如果其它的都相等,而累积混淆度指标尽可能高,那么系统被优化。
结合了固有混淆度值和运行时间置信度的运行时间混淆量度由语音-响应应用程序以下述的一种方式使用。
低置信度音素的目标训练
在第一个实施例中,改编用户输入提示,以试图引出包括之前以低识别置信度识别的音素的用户输入。许多可选的用户提示存储在提示数据库106中,并与应用程序相关联。这些可选的提示每一个都基于所接收的用户输入和所计算的识别置信度值由提示选择器110选择,在该示意性实施例中,提示选择器110在识别引擎中实现。连同至少某些用户提示一起存储的是指向基类池104中的音素的指针,这些音素被期望包括在由用户响应各个提示而说出的单词中。当音素被识别为具有低运行时间混淆量度时,由提示选择器进行的随后的用户提示的选择(在ASR系统和当前呼叫者之间的交互期间)倾向于与指向基类池中的音素的指针一起存储的提示。这鼓励用户再次输入音素,在呼叫者和ASR系统之间产生的会话中启动目标识别训练。
让我们假定会话在用户和ASR系统之间进行,应用程序正在执行操作以响应用户的输入语音。代替总是独立地生成用户提示的应用程序103(如在许多已知系统中的),应用程序通过响应由识别引擎102输出的结果而调用提示选择器程序110(或者提示选择器可在识别引擎102中实现)以响应某些用户输入(步骤310)。提示选择器查阅提示数据库106以辨识一组可选的用户提示,从这些提示中选择下一个用户提示(步骤311)。提示选择器还查阅音素置信度表108以辨识之前以低置信度识别的音素,这些音素与那组可选的用户提示有关,并查阅同音词表以辨识可造成混淆问题的所有单词。接着,提示选择器选择期望鼓励输入一个或者多个之前以低置信度识别的音素的用户提示(步骤312)。接着,所选择的用户提示被返回到应用程序。现在可以用下面两种方式之一使用输入:或者直接用在支持改编的识别引擎中以提供实时训练数据,或者与相关的识别结果分开地记录用于离线处理。在任何一种情况下,都期望随着时间过去额外的训练数据能帮助提高识别成功性,从而提高运行时间置信度量度。
如果提示用户输入包括至少一个高识别置信度音素和一个或多个需要训练的低识别置信度音素的单词或者短语,那么目标识别训练最有效。任何额外的提示输入(诸如提示输入“Yes please”代替“Yes”)都将有助于识别训练,因为有更多的数据分析。从一组可选的用户提示中选择可以包括选择引起用户说话以响应问题的单词或者短语,所选择的单词或者短语用于生成特定用户的定制对话。例如,由ASR系统问的标准问题可以是“如果您希望知道开放时间,说<短语>”,在提示数据库中保存的可选的用户提示可以是诸如“Yes”、“Yes please”、“Correct”、“开放时间”等的短语。提示选择器可选择“Yes please”响应之前具有低识别分值的识别“Yes”,因为这允许对单词“Yes”中的音素的目标识别训练。因为已知两个之前以高识别置信度产生的声音,所以识别引擎更可能向当前的应用程序返回成功的结果。其次,因为已知这些声音和产生低分值的声音,所以更容易辨识音频输入的哪一部分需要进行训练。
低置信度音素的替换
在第二个实施例中,如图5所示,包含固有混淆的音素并因此具有低运行时间混淆量度的单词被替换。辨识了低运行时间混淆量度后,对混淆的单词或者短语查询同音词词典109以查找可能的同音词(步骤320)。同音词词典包含用于替换包含低置信度音素的单词的单词,如果还没有被包括该替换单词,那么将其加入语法105,并且可被加权以比原始的单词更有可能。当生成随后的用户提示时,该替换单词与相关的提示文本或者音频文件相结合,以生成期望鼓励输入替换单词的用户提示(步骤330)。因此,替换同音词被加入提示文本或者音频文件,以生成修改的用户提示。如果需要,可以更新提示数据库106。
作为例子,以下说明涉及上文的yes/no确认例子。原始的应用提示包括单词:
“...如果您希望听到我们的开放时间,请说‘Yes’。否则,请说‘No’”。
如果单词Yes以低运行时间混淆量度返回,那么从同义词词典109中取回诸如“Correct”的可选单词,并用于修改该提示,使得修改后的提示包括单词“...请说‘Correct’...”。如果需要,单词Correct也可以加入语法105,并被加权高于原始单词Yes;新的提示单词可存储在提示数据库106中。
在上例中,在呼叫者和ASR程序之间的未来交互中,当应用程序到达yes/no确认步骤时,用“...说Correct...”提示该用户,该用户更可能用这个提示的单词响应而不是“Yes”,从而减小了不能识别的可能性。
也可以定期地更新上述置信度趋势数据库。该置信度趋势数据库可周期地进行查询,以突出在无论哪种上下文中都导致低识别成功率的音素。结果,在AM中可以引发动态改编。如在现有技术中已知的,改编包括获取运行时间声音数据,不仅进行正常的处理(参见图1和上面的说明),还使用运行时间声音数据额外地加权高斯分布(重新训练)。这可以随着时间实现改进的匹配,但是在不管问题出现在HMM的哪个部分就使用处理方面,处理是“盲目的”。在这里所述的系统中,获取实际的性能信息,这可以采用更有目标的方式引发改编。在一个实施例中,除了用户提示的动态改编外,性能信息可以用于根据需要为系统管理员生成单独的重新训练报告,以进行检查和处理。
图6示出在呼叫者和ASR系统之间的交互。ASR系统包括提示选择器和存储替换的用户提示的用户提示数据库。在图6的左边示出时间线。交互从呼叫者呼叫ASR系统的电话号码以确定有关正在电影院放映的电影的信息开始。在这里所述的例子中,ASR系统通过询问“请问哪个电影院?”响应呼叫者。呼叫者通过确认电影院响应,例如“南安普敦的剧场”。接着,ASR系统分析口语输入以辨识可能匹配的音素和单词,并根据所匹配的轨迹的累积概率确定识别置信度分值。当识别置信度分值低于预置阈值时,通过从提示数据库中选择可选的单词或者短语响应这个识别困难。
在第一个ASR系统中,如果输入单词或者短语以低置信度识别,则随后的用户提示的生成包括从一组可选的用户提示中选择用户提示,该选择基于哪些用户提示与被识别为具有低置信度识别的音素相关联。为了使用语音识别训练的任何额外的机会,ASR系统选择与低置信度相关联的用户提示。
在实现本发明的可选的ASR系统中,如果输入单词或者短语以低置信度识别,那么不使用可能用同样的输入单词或者短语响应的随后的用户提示,而代之以不会引起同样的响应的用户提示。选择替换的用户提示,以期望对该替换的用户提示的口语响应比有问题的输入语音以更高的置信度识别。这样,使用替换的提示可以对特定呼叫者在特定时间和特定环境中动态地生成定制的对话。在一个例子中,替换的提示引起用户非常明确的响应(诸如“谢谢。为了听有关<X>的信息,说‘YES PLEASE’”)。随后的呼叫者的响应也可以被分析,所计算的置信度分值和如果需要的置信度分值可用于影响随后的用户提示的生成。调整随后的用户提示以响应与用户输入的识别有关的置信度分值的步骤可以根据需要重复多次,诸如直到语音识别程序达到充分的识别置信度以允许更自由形态的输入,或者直到会话结束。
工业应用性和优点
自动语音识别系统日益用于许多行业中以提高工作者的效率或生产力,诸如使工作者从普通的呼叫处理中解脱出来,并在某些情况下减少呼叫者的等待时间。例如,ASR系统可以实现另外需要大量的人员处理呼入的呼叫的功能,包括回答可以很容易自动化的琐细问题。ASR系统可以实现菜单选择操作以指导呼叫者到所记录的信息或者到组织中适当的人员或者部门。
如上所述,置信度分值可以显示自动语音识别系统很难识别语言的哪些领域。识别问题和识别置信度分值的评估可以是特定呼叫者的,因为某些用户提示可仅对某些特定的呼叫者导致低置信度识别,或者可以是特定环境的,例如在背景噪音下某些用户输入更容易失真。评估了识别置信度分值后,可以调整用户提示以鼓励呼叫者使用期望以较高置信度分值识别的单词,或者在呼叫者和语音识别系统之间的功能性对话的上下文中提供训练机会。然后,识别置信度可以用对呼叫者最小的不便提高,因为用户提示的调整和任何重新训练可无需专门的识别训练期间和潜在地无需呼叫者重复其输入实现。呼叫者通常要求其电话呼叫很快获得所希望的结果,特别是当向自动语音识别系统说话时。
为了响应所评估的识别性能,用户提示的选择或定制可以动态地进行。识别语法可以根据性能进行修改,识别引擎的声学模型可以被优化以提高未来的性能。
考虑已知的同音词可以提供额外的检验用于与基类池一起使用,以确定哪些声音固有地易混淆。这与实际所测量的音素置信度分值相结合以辨识需要修改的提示。
在上述示例性实施例中,提示选择器被描述为识别引擎的组件,具有连接到识别引擎的应用程序以调用提示选择器的功能。在另一个实施例中,提示选择器在语音-响应应用程序中实现,但是查阅由识别引擎填充的识别置信度表。在其它实施例中,识别引擎和提示数据库可以连接到传统的语音识别应用程序,并且从该应用程序来看,用户提示选择操作可透明地执行。

Claims (13)

1.一种用于控制自动语音识别(ASR)系统的操作的方法,包括以下步骤:
将输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素;
对各个候选匹配音素计算识别置信度分值;
评估所述识别置信度分值,以辨识至少一个具有预定识别置信度特征的候选匹配音素;以及
定制用于引出随后的用户输入的用户提示,其中所述定制取决于所辨识的至少一个音素和所辨识的至少一个音素的识别置信度特征。
2.如权利要求1所述的方法,用在ASR系统中,其中对于所述ASR系统的第一操作要求第一个用户输入,对于所述ASR系统的第二操作要求随后的用户输入,所述方法包括以下步骤:
评估作为所述第一个用户输入中的声音的候选匹配音素的音素的识别置信度分值;以及
定制所述ASR系统的第二操作所要求的随后的用户输入的用户提示,其中所述定制取决于对所述第一个用户输入中的声音的候选匹配音素评估的识别置信度分值。
3.如权利要求2所述的方法,其中,所述定制步骤包括选择至少一个用户提示以鼓励输入被识别为具有低置信度识别分值的音素。
4.如权利要求3所述的方法,还包括以下步骤:
将随后的输入音频信号中的声音与声学模型中的音素进行比较,以辨识候选匹配音素;
对所述候选匹配音素计算识别置信度分值;以及
更新识别置信度分值,其联系所述第一个用户输入的识别置信度分值和随后的用户输入的识别置信度分值。
5.如权利要求3所述的方法,其中,所述定制步骤包括将被识别为具有低识别置信度分值的具有可选的用户提示列表的音素与所期望的与所述可选的用户提示相关联的输入音素进行比较,以选择与所期望的输入音素相关联的输入提示,其中所期望的输入音素被识别为具有相对高的与其它音素混淆的可能性。
6.如权利要求1所述的方法,其中,所述定制步骤包括选择至少一个用户提示以阻止输入被识别为具有低置信度识别分值的音素。
7.如权利要求6所述的方法,其中,所述定制步骤包括选择引起输入被识别为具有低置信度识别分值的音素的同义词的用户提示。
8.如权利要求1所述的方法,还包括以下步骤:在音素和其它音素之间计算固有的混淆可能性;其中,评估置信度分值的步骤包括将所计算的识别置信度分值与所计算的固有的混淆可能性相结合,然后将结合的结果与预先定义的识别置信度特征进行比较。
9.如权利要求8所述的方法,其中,计算固有的混淆可能性的步骤包括计算在声学模型的第一状态和所述模型的其它状态之间的距离,所述第一状态对应第一个声音,所述其它状态对应一组最接近所述第一状态的状态。
10.如权利要求1所述的方法,其中,修改应用语法以响应所计算的识别置信度分值。
11.如权利要求10所述的方法,其中,所述修改应用语法包括以下步骤:
辨识在与低于预先定义的阈值分值的置信度识别分值相关联的应用语法中的单词;以及
用同义词替换所述应用语法中所辨识的单词。
12.如权利要求11所述的方法,在执行所述替换步骤之前,还包括以下步骤:
检验在所述同义词与所述语法中的其它单词之间的固有混淆度是否低于阈值。
13.一种自动语音识别系统,包括语音-响应应用程序和语音识别引擎,所述语音识别系统包括:
用于将输入音频信号与声学模型中的音素进行比较以辨识候选匹配音素的装置;
用于对每个所述候选匹配音素计算识别置信度分值的装置;
用于评估所述候选匹配音素的识别置信度分值以辨识至少一个具有预先定义的识别置信度特征的音素的装置;以及
用于响应所辨识的至少一个音素和响应所辨识的至少一个音素的识别置信度特征,定制用户提示以引出随后的用户输入的装置。
CN2005101149067A 2004-12-01 2005-11-11 用于自动语音识别的方法和装置 Expired - Fee Related CN1783213B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0426347.1A GB0426347D0 (en) 2004-12-01 2004-12-01 Methods, apparatus and computer programs for automatic speech recognition
GB0426347.1 2004-12-01

Publications (2)

Publication Number Publication Date
CN1783213A CN1783213A (zh) 2006-06-07
CN1783213B true CN1783213B (zh) 2010-06-09

Family

ID=34043856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005101149067A Expired - Fee Related CN1783213B (zh) 2004-12-01 2005-11-11 用于自动语音识别的方法和装置

Country Status (3)

Country Link
US (2) US8694316B2 (zh)
CN (1) CN1783213B (zh)
GB (1) GB0426347D0 (zh)

Families Citing this family (232)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
DE112006000225B4 (de) * 2005-02-28 2020-03-26 Honda Motor Co., Ltd. Dialogsystem und Dialogsoftware
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US8548799B2 (en) * 2005-08-10 2013-10-01 Microsoft Corporation Methods and apparatus to help users of a natural language system formulate queries
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US8811369B2 (en) 2006-01-11 2014-08-19 Qualcomm Incorporated Methods and apparatus for supporting multiple communications modes of operation
EP2214433B1 (en) 2006-01-11 2012-11-21 Qualcomm Incorporated Communications method and apparatus for transmitting priority information via beacon signals
WO2007143537A2 (en) * 2006-06-01 2007-12-13 William Page Gaming smart card
CN101118745B (zh) * 2006-08-04 2011-01-19 中国科学院声学研究所 语音识别系统中的置信度快速求取方法
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8595501B2 (en) 2008-05-09 2013-11-26 Qualcomm Incorporated Network helper for authentication between a token and verifiers
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100070932A1 (en) * 2008-09-18 2010-03-18 Nissan Technical Center North America, Inc. Vehicle on-board device
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US9959870B2 (en) * 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9653066B2 (en) * 2009-10-23 2017-05-16 Nuance Communications, Inc. System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237087B (zh) 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US9031844B2 (en) 2010-09-21 2015-05-12 Microsoft Technology Licensing, Llc Full-sequence training of deep structures for speech recognition
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
WO2013033119A1 (en) * 2011-08-29 2013-03-07 Accumente, Llc Utilizing multiple processing units for rapid training of hidden markov models
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9002703B1 (en) * 2011-09-28 2015-04-07 Amazon Technologies, Inc. Community audio narration generation
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8594281B2 (en) * 2012-01-10 2013-11-26 Bank Of America Corporation Dynamic menu framework
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
CN102760433A (zh) * 2012-07-06 2012-10-31 广东美的制冷设备有限公司 联网家电用声控遥控器及其控制方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9646604B2 (en) * 2012-09-15 2017-05-09 Avaya Inc. System and method for dynamic ASR based on social media
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
KR20230137475A (ko) 2013-02-07 2023-10-04 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
TWI508033B (zh) * 2013-04-26 2015-11-11 Wistron Corp 語言學習方法與裝置以及電腦可讀記錄媒體
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
CN104238379B (zh) * 2013-06-07 2017-07-28 艾默生过程控制流量技术有限公司 变送器、现场仪表以及用于控制变送器的方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9280970B1 (en) * 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9721570B1 (en) 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US9817813B2 (en) * 2014-01-08 2017-11-14 Genesys Telecommunications Laboratories, Inc. Generalized phrases in automatic speech recognition systems
CN103903615B (zh) * 2014-03-10 2018-11-09 联想(北京)有限公司 一种信息处理方法及电子设备
CN104978965B (zh) * 2014-04-07 2019-04-26 三星电子株式会社 电子装置及利用电子装置和服务器的语音识别执行方法
TW201543361A (zh) * 2014-05-07 2015-11-16 Giga Byte Tech Co Ltd 觸發開啟巨集的輸入系統
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
TWI590240B (zh) * 2014-12-30 2017-07-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
CN104572009B (zh) * 2015-01-28 2018-01-09 合肥联宝信息技术有限公司 一种自适应外界环境的音频控制方法及装置
CN110895929B (zh) * 2015-01-30 2022-08-12 展讯通信(上海)有限公司 语音识别方法及装置
US10121466B2 (en) * 2015-02-11 2018-11-06 Hand Held Products, Inc. Methods for training a speech recognition system
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN107112005A (zh) * 2015-04-17 2017-08-29 微软技术许可有限责任公司 深度神经支持向量机
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10515150B2 (en) * 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105549948A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种应用于网络社区的语音操作方法
CN105653595A (zh) * 2015-12-18 2016-06-08 合肥寰景信息技术有限公司 一种智能语音帮助式网络社区
CN105549949A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种网络社区的语音帮助提示方法
CN105551489A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种网络社区的语音控制平台
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6696803B2 (ja) * 2016-03-15 2020-05-20 本田技研工業株式会社 音声処理装置および音声処理方法
US10152507B2 (en) 2016-03-22 2018-12-11 International Business Machines Corporation Finding of a target document in a spoken language processing
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
CN105957535A (zh) * 2016-04-15 2016-09-21 青岛克路德机器人有限公司 机器人语音信号探测识别系统
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR20180076830A (ko) * 2016-12-28 2018-07-06 엘지전자 주식회사 오디오 장치 및 그 제어방법
US10229685B2 (en) * 2017-01-18 2019-03-12 International Business Machines Corporation Symbol sequence estimation in speech
EP3561643B1 (en) * 2017-01-20 2023-07-19 Huawei Technologies Co., Ltd. Method and terminal for implementing voice control
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US10650802B2 (en) * 2017-07-05 2020-05-12 Panasonic Intellectual Property Management Co., Ltd. Voice recognition method, recording medium, voice recognition device, and robot
US10657327B2 (en) * 2017-08-01 2020-05-19 International Business Machines Corporation Dynamic homophone/synonym identification and replacement for natural language processing
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10600419B1 (en) 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10943606B2 (en) 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10635462B2 (en) * 2018-05-23 2020-04-28 Microsoft Technology Licensing, Llc Skill discovery for computerized personal assistant
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10832675B2 (en) * 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110085261B (zh) * 2019-05-16 2021-08-24 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及计算机可读存储介质
CN110111775B (zh) * 2019-05-17 2021-06-22 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
US11232786B2 (en) * 2019-11-27 2022-01-25 Disney Enterprises, Inc. System and method to improve performance of a speech recognition system by measuring amount of confusion between words
CN110930988B (zh) * 2019-12-13 2020-10-20 广州三人行壹佰教育科技有限公司 一种音素评分的确定方法及系统
CN111341305B (zh) * 2020-03-05 2023-09-26 苏宁云计算有限公司 一种音频数据标注方法、装置及系统
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11908450B2 (en) * 2020-05-26 2024-02-20 Servicenow, Inc. Dynamic translation for a conversation
US20210375270A1 (en) * 2020-06-02 2021-12-02 Knowles Electronics, Llc Methods and systems for confusion reduction for compressed acoustic models
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220215056A1 (en) * 2021-01-04 2022-07-07 Oracle International Corporation Drill back to original audio clip in virtual assistant initiated lists and reminders
KR20230013826A (ko) * 2021-07-20 2023-01-27 울산과학기술원 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
CN113793604B (zh) * 2021-09-14 2024-01-05 思必驰科技股份有限公司 语音识别系统优化方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1115902A (zh) * 1993-10-27 1996-01-31 美国电报电话公司 利用置信度测度的自动语音识别(asr)处理
CN1217808A (zh) * 1996-05-03 1999-05-26 英国电讯有限公司 自动语音识别
EP1011094A1 (en) * 1998-12-17 2000-06-21 Sony International (Europe) GmbH Semi-supervised speaker adaption
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
CN1299127A (zh) * 1999-11-24 2001-06-13 松下电器产业株式会社 用于自动语音识别的优化的局部特征提取
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本系统

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5911485A (en) * 1995-12-11 1999-06-15 Unwired Planet, Inc. Predictive data entry method for a keypad
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6405170B1 (en) 1998-09-22 2002-06-11 Speechworks International, Inc. Method and system of reviewing the behavior of an interactive speech recognition application
GB9929284D0 (en) * 1999-12-11 2000-02-02 Ibm Voice processing apparatus
DE10046359A1 (de) * 2000-09-20 2002-03-28 Philips Corp Intellectual Pty Dialogsystem
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
EP1209106A1 (en) * 2000-11-23 2002-05-29 Mars B.V. Conveyor and method for conveying products
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US6985862B2 (en) 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7640190B1 (en) * 2003-06-24 2009-12-29 Evercom Systems, Inc. Systems and methods for transaction and information management
AU2002326879A1 (en) * 2002-06-05 2003-12-22 Vas International, Inc. Biometric identification system
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7146383B2 (en) * 2002-10-31 2006-12-05 Sbc Properties, L.P. Method and system for an automated disambiguation
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US20050080628A1 (en) * 2003-10-10 2005-04-14 Metaphor Solutions, Inc. System, method, and programming language for developing and running dialogs between a user and a virtual agent
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7412393B1 (en) * 2004-03-01 2008-08-12 At&T Corp. Method for developing a dialog manager using modular spoken-dialog components
US7356168B2 (en) * 2004-04-23 2008-04-08 Hitachi, Ltd. Biometric verification system and method utilizing a data classifier and fusion model
US7228278B2 (en) * 2004-07-06 2007-06-05 Voxify, Inc. Multi-slot dialog systems and methods
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7373516B2 (en) * 2004-08-19 2008-05-13 International Business Machines Corporation Systems and methods of securing resources through passwords
US7043435B2 (en) 2004-09-16 2006-05-09 Sbc Knowledgfe Ventures, L.P. System and method for optimizing prompts for speech-enabled applications
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
GB0426347D0 (en) 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US20060200350A1 (en) * 2004-12-22 2006-09-07 David Attwater Multi dimensional confidence
US7545961B2 (en) * 2005-12-22 2009-06-09 Daon Holdings Limited Biometric authentication system
US7864987B2 (en) * 2006-04-18 2011-01-04 Infosys Technologies Ltd. Methods and systems for secured access to devices and systems
US20080208586A1 (en) 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1115902A (zh) * 1993-10-27 1996-01-31 美国电报电话公司 利用置信度测度的自动语音识别(asr)处理
CN1217808A (zh) * 1996-05-03 1999-05-26 英国电讯有限公司 自动语音识别
EP1011094A1 (en) * 1998-12-17 2000-06-21 Sony International (Europe) GmbH Semi-supervised speaker adaption
CN1299127A (zh) * 1999-11-24 2001-06-13 松下电器产业株式会社 用于自动语音识别的优化的局部特征提取
CN1293428A (zh) * 2000-11-10 2001-05-02 清华大学 基于语音识别的信息校核方法
CN1509107A (zh) * 2002-12-19 2004-06-30 ƽ 移动终端语音电话本系统

Also Published As

Publication number Publication date
CN1783213A (zh) 2006-06-07
US20060116877A1 (en) 2006-06-01
US9502024B2 (en) 2016-11-22
US20140249816A1 (en) 2014-09-04
GB0426347D0 (en) 2005-01-05
US8694316B2 (en) 2014-04-08

Similar Documents

Publication Publication Date Title
CN1783213B (zh) 用于自动语音识别的方法和装置
US11935540B2 (en) Switching between speech recognition systems
US11594221B2 (en) Transcription generation from multiple speech recognition systems
US10672383B1 (en) Training speech recognition systems using word sequences
US8914294B2 (en) System and method of providing an automated data-collection in spoken dialog systems
Cox et al. Speech and language processing for next-millennium communications services
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
EP0789901B1 (en) Speech recognition
US8812314B2 (en) Method of and system for improving accuracy in a speech recognition system
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
US20060217978A1 (en) System and method for handling information in a voice recognition automated conversation
JPH07210190A (ja) 音声認識方法及びシステム
US8488750B2 (en) Method and system of providing interactive speech recognition based on call routing
US20080243504A1 (en) System and method of speech recognition training based on confirmed speaker utterances
Shahnawazuddin et al. Assamese spoken query system to access the price of agricultural commodities
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
US20010056345A1 (en) Method and system for speech recognition of the alphabet
US20080243499A1 (en) System and method of speech recognition training based on confirmed speaker utterances
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
Georgila et al. A speech-based human-computer interaction system for automating directory assistance services
Juang et al. Deployable automatic speech recognition systems: Advances and challenges
Wilpon Applications of voice-processing technology in telecommunications
Sharman Speech interfaces for computer systems: Problems and potential
Vysotsky VoiceDialingSM—The first speech recognition based service delivered to customer's home from the telephone network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090925

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090925

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100609

Termination date: 20211111

CF01 Termination of patent right due to non-payment of annual fee