CN105719647A - 使用说话者检验的背景语音辨识助理 - Google Patents

使用说话者检验的背景语音辨识助理 Download PDF

Info

Publication number
CN105719647A
CN105719647A CN201610086211.0A CN201610086211A CN105719647A CN 105719647 A CN105719647 A CN 105719647A CN 201610086211 A CN201610086211 A CN 201610086211A CN 105719647 A CN105719647 A CN 105719647A
Authority
CN
China
Prior art keywords
response
user
speaker
identifier
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610086211.0A
Other languages
English (en)
Other versions
CN105719647B (zh
Inventor
托德·F·莫泽尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensory Inc
Original Assignee
Sensory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/246,666 external-priority patent/US8996381B2/en
Application filed by Sensory Inc filed Critical Sensory Inc
Publication of CN105719647A publication Critical patent/CN105719647A/zh
Application granted granted Critical
Publication of CN105719647B publication Critical patent/CN105719647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及使用说话者检验的背景语音辨识助理的方法和系统。在一个实施例中,一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着,所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应,且如果确定应输出所述响应,那么输出所述响应。

Description

使用说话者检验的背景语音辨识助理
分案申请的相关信息
本申请是分案申请。该分案申请的母案是申请日为2012年9月20日、申请号为201280047262.2、发明名称为“使用说话者检验的背景语音辨识助理”的发明专利申请案。
相关申请案的交叉参考
本申请案主张2011年12月16日提出申请的针对“使用说话者检验的背景语音辨识助理(BackgroundSpeechRecognitionAssistantUsingSpeakerVerification)”的第13/329,017号美国专利申请案的优先权,所述美国专利申请案主张2011年9月27日提出申请的针对“背景语音辨识助理(BackgroundSpeechRecognitionAssistant)”的第13/246,666号美国专利申请案的优先权,所述美国专利申请案的内容以全文引用的方式并入本文中。
背景技术
特定实施例一般来说涉及语音辨识。
语音辨识试图经由口头查询及命令而使信息存取较容易且较简单。这些查询历史上通过装置(例如智能电话)上的按钮按下而激活。使用口头查询允许用户在不键入查询的情况下做出查询。此在用户忙碌时(例如在用户开车或仅不想键入查询时)使信息存取较容易。在接收到按钮按下之后,语音辨识器倾听查询并试图适当地作出响应。即使使用按钮按下较容易,但有时对于用户来说,使用户按下按钮来激活语音辨识器是不方便的。举例来说,用户可能忙于其它活动,在此情况下,使用其手来执行按钮按下可是不可能的,例如用户可能正在开车。
其它方法用使用激活词来激活语音辨识器的免提方法来代替按钮按下。举例来说,使用触发短语来激活语音辨识器,所述语音辨识器可在接收到触发短语之后接着解读查询并提供适当响应。然而,用户必须总是触发语音辨识器。另外,从用户触发辨识器起,用户通常不容许辨识或响应中的错误。
在所有这些方法中,用户决定何时发出查询或命令。肯定地激活语音辨识器且接着用户预期响应。由于用户预期响应,因此可能不容许语音辨识中的错误。此外,由于语音辨识器在激活之后仅倾听内容,因此语音辨识器将忽略对话中的特定语境及重点。
另外,即使在向用户输出响应时,所述响应也是通用响应。举例来说,语音辨识器可使用所辨识的关键字来执行网络搜索。此关键字搜索将被输出到正在说话的任何用户。
发明内容
在一个实施例中,一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着,所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应,且如果确定应输出所述响应,那么输出所述响应。
在一个实施例中,一种方法包含:基于使用第一语音辨识算法辨识声输入信号及将所述声输入信号的部分分类到多个类别中的一类别中而从第一级辨识器接收信号,所述第一级辨识器经配置而以始终接通模式辨识所述声输入信号;由计算装置在接收到所述信号后即刻激活第二级辨识器以辨识所述声输入信号,所述第二级辨识器经配置以使用第二语音辨识算法;基于所述声输入信号而识别正在说话的用户;确定针对所述用户先前所存储的说话者特定信息;基于所述说话者特定信息而确定对所述所辨识声输入信号的响应;基于所述响应的排序而确定是否应输出所述响应;及如果确定应输出所述响应,那么输出所述响应。
在一个实施例中,一种系统包含:第一级辨识器,其经配置而以始终接通模式使用第一语音辨识算法来辨识声输入信号,所述第一级辨识器经配置以:接收声输入信号;基于所述声输入信号而识别正在说话的用户;确定针对所述用户先前所存储的说话者特定信息;使用第一语音辨识算法将所述声输入信号的部分分类到不同类别中;基于对类别的选择而确定应触发第二级辨识器,所述选择是基于正以所述选定类别分类的经分类部分及所述说话者特定信息;及第二级辨识器,其经配置以:从所述第一级辨识器接收用以激活所述第二级辨识器的信号;在接收到所述信号后即刻激活所述第二级辨识器以辨识所述声输入信号,所述第二级辨识器经配置以使用不同于所述第一语音辨识算法的第二语音辨识算法来辨识所述声输入信号;使用所述说话者特定信息来确定对所述所辨识声输入信号的响应;基于所述响应的排序而确定是否应输出所述响应;及如果确定应输出所述响应,那么输出所述响应。
以下详细说明及附图提供对本发明的性质及优点的较好理解。
附图说明
图1A描绘根据一个实施例的语音辨识系统的实例系统。
图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统。
图2描绘根据一个实施例的级1辨识器的较详细实例。
图3描绘根据一个实施例的级2辨识器的较详细实例。
图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图。
图5描绘根据一个实施例的用于在级2辨识器处处理声输入信号的方法的简化流程图。
图6描绘根据一个实施例的用于在单个装置中操作级1辨识器及级2辨识器的方法的简化流程图。
图7展示根据一个实施例的包含级1辨识器及级2辨识器两者的装置的实例。
图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统。
具体实施方式
本文中描述背景语音辨识器的技术。出于阐释的目的,在以下说明中,陈述众多实例及特定细节以便提供对本发明的实施例的彻底理解。如由权利要求书所定义,特定实施例可单独地或连同下文所描述的其它特征一起包含这些实例中的特征中的一些或全部特征,且可进一步包含本文中所描述的特征及概念的修改形式及等效物。
图1A描绘根据一个实施例的语音辨识系统的实例系统100。系统100包含“始终接通”且倾听所接收到的声输入信号的语音辨识器101。因此,语音辨识器101在后台中工作。语音辨识器101不倾听用以接通的触发短语。而是,语音辨识器101从日常对话收集真实含义及意图。由于语音辨识器101始终接通及倾听,因此可依据在语音辨识器101必须基于触发而激活的情况下通常不可辨识的短语而确定含义及意图。在另一实施例中,语音辨识器101通过触发短语而接通。倾听将在语音辨识器101被接通时开始。
说话者检验管理器106检验哪一用户正在说话。举例来说,各个用户可能在不同时间说话,例如在家庭中,父亲、母亲、儿子及女儿可一起说话或在不同时间说话。说话者检验管理器106包含用以识别哪一说话者当前正在说话的算法。举例来说,说话者检验管理器106可使用用于确定说话者的文本无关算法。在此算法中,用户可在允许说话者检验管理器106了解每一用户的语音的签名的训练过程中训练说话者检验管理器106。所属领域的技术人员将了解如何训练说话者检验管理器106来辨识用户的语音。在训练之后,当语音辨识器101处于始终接通模式中时,说话者检验管理器106确定谁正在说话。使用文本无关算法允许说话者检验管理器106在以始终接通模式操作时识别谁正在说话,此不需要用户触发语音辨识器101。
另外,文本相关方法可用于检验说话者。举例来说,语音辨识器101并非始终接通,而是由接通语音辨识器101的触发词触发,且语音辨识器101开始倾听。接着可执行检验用户的文本相关方法。举例来说,用户可能已训练语音辨识器101辨识触发词。接着,语音辨识器101可基于针对触发词的先前训练而检验用户。此外,用户可在说出触发短语之后说出额外词,且所述词用于识别说话者。
在另一实施例中,在初始检验之后,可随着发生可为文本无关或文本相关的额外检验。举例来说,随着用户继续说话,说话者检验可正在运行以证实同一用户正在说话。举例来说,接收触发短语且接着周期性地执行说话者检验。当认为必须有较高安全性时(例如在登录网站、账户、资金转移、购物或其它安全情形时),可执行第二说话者检验。此外,由于代替登录而执行了第二说话者检验,因此在安全情形中可不需要手动登录。
存储装置108包含针对不同用户的说话者特定信息110。举例来说,说话者特定信息110-1与用户#1相关联且说话者特定信息110-n与用户#n相关联。说话者特定信息110可针对任何数目个用户而存储于存储装置108中。每一说话者特定信息110可包含所述用户所特有的信息。在一个实例中,说话者特定信息110基于针对所述用户先前所辨识的语音,例如针对所述用户之前可能已辨识词“英式足球”或“度假”。此外,在另一实例中,信息可包含用户偏好,例如一个用户喜欢滑板运动且另一用户喜欢英式足球。此信息可在确定对所辨识语音的响应时使用。举例来说,如果用户更有可能喜欢英式足球,那么可在辨识语音时输出与英式足球有关的广告。在一个实例中,如果正讨论度假,那么在识别用户且确定用户喜欢英式足球的情况下,可作为对将执行的活动的建议而输出在进行度假时发生的英式足球比赛。然而,如果说话的用户喜欢滑板运动,那么可作为响应输出滑板运动赛事。因此,语音辨识器101可使用说话者特定信息110而提供较个人化响应。
语音辨识器101可在后台中确定可能响应,但可能直到确定适合输出响应才输出所述响应。响应可基于声输入信号的类别及解释而使用各种方法来确定。举例来说,可执行搜索以确定响应,可针对适当响应而搜索数据库等。语音辨识器101可对依据短语的所辨识含义而确定的响应进行排序。响应的排序及类型(例如屏幕上的短暂显示、屏幕上的持久显示、口头响应等)可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则。与英式足球相关联的响应可排序较高。当响应接收指示可输出响应的值的排序时,此时语音辨识器101可输出响应。由于用户并没有特定地调用语音辨识器101来寻求响应,因此语音辨识中的错误可不被视为是重大的。举例来说,语音辨识器101可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的,那么可不输出所述响应。由于用户并没有寻求响应,因此用户将不知道其中具有错误的响应未被提供。然而,如果用户已寻求特定响应,那么将出现于响应中的错误将是不可接受的。在此情形中,用户并没有寻求响应。
在另一实施例中,可在不具有任何说话者检验的情况下执行分类。在此情形中,确定一般响应。然而,当接收到触发短语时,使用说话者特定信息110来调整响应。在另一实例中,直到接收到触发短语才执行分类。
输出响应的不同方法可基于所确定的排序。举例来说,具有较高排序得分的响应可使用较多侵入性输出方法。举例来说,如果在排序中存在高级紧迫性,那么可使用口头输出。然而,如果紧迫性较低,那么可使用较少侵入性方法,例如在屏幕的拐角中显示图片或广告。显示图片或广告的时间长度可通过重要性而确定。语音辨识器101是助理,其在未被请求的情况下始终接通以提供帮助及解决方案,但足够智能以仅在因紧迫性等而确定为适当时侵入。
输出响应的方法可基于说话者特定信息110而改变。举例来说,一些用户可倾向于在个人计算机上输出响应。其它用户可倾向于发送文本消息。这些偏好在确定输出响应的方法时被纳入考虑。
在一个实例中,第一用户可能正与第二用户讨论是否购置微波炉。所述对话可能正讨论将购置什么瓦数或样式(例如,不锈钢)。语音辨识器101可位于移动装置(例如蜂窝式电话或平板计算机)中且未被第一用户或第二用户触发。语音辨识器101可不立即输出响应。而是,语音辨识器101倾听对话以导出额外含义。当语音辨识器101将所述讨论分类为“购物”讨论时,其可辨识出正期待购买微波炉,语音辨识器101可确定响应是适当的。说话者特定信息110可用于确定用户先前正关于厨房中的其它电器而讨论不锈钢。在此情形中,接着确定用户期待购置期待购买的某一瓦数的不锈钢微波炉。不锈钢微波炉将匹配厨房中的其它电器。可对一些响应进行排序。举例来说,商店的促销可为一个响应。此响应因相关性(促销是针对微波炉的)以及紧迫性(促销是限时优惠及/或语音辨识器101听出讨论中的紧迫感,因为其识别出了现有微波炉已坏掉)而被赋予高得分。因此,可获得商店的促销的侵入性口头输出响应可被输出且提示用户正查找的物项仅促销24小时。
图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统100。两级语音辨识器可执行语音辨识器101的功能。此外,尽管描述两个级,但两个级的功能可组合到一个级或任何数目个级中。系统100包含级1辨识器102及级2辨识器104。级1辨识器102及级2辨识器104可位于相同装置中或位于不同装置中。举例来说,级1辨识器102及级2辨识器104可位于移动装置中,例如智能电话、平板计算机、膝上型计算机、手持式游戏装置、玩具、车内装置或其它消费型电子器件。另外,级1辨识器102可位于第一装置(例如客户端装置)上,且级2辨识器104可位于第二装置(例如服务器)上。在此实例中,级1辨识器102可经由网络与级2辨识器104通信。
级1辨识器102可为“始终接通”且倾听所接收到的声输入信号的语音辨识装置。始终接通可意指级1辨识器不需要被触发(例如,通过按钮按下或触发短语)以开始语音辨识。始终接通语音辨识器的实例包含于2010年7月6日提出申请的标题为“用于免提语音控制及语音搜索的系统及方法(SystemsandMethodsforHands-freeVoiceControlandVoiceSearch)”的第12/831,051号美国专利申请案(其主张2009年7月6日提出申请的第61/223,172号美国专利申请案的优先权的权益)中,且包含于2011年8月24日提出申请的标题为“减少语音辨识系统中的主动错误信息(ReducingFalsePositivesinSpeechRecognitionSystems)”的第12/831,051号美国专利申请案中,出于所有目的,所有美国专利申请案以全文引用的方式并入。举例来说,可分析级1辨识器102接收到的任何声输入信号。在一个实施例中,级1辨识器102不同于级2辨识器104。举例来说,级1辨识器102可为使用比级2辨识器104少的功率的低功率辨识器。由于级1辨识器102所使用的语音辨识算法可使用较小存储器及较少计算机处理器单元(CPU)循环,因此可使用较低功率。举例来说,级1辨识器102可能够在音频前端(例如,麦克风)接通而CPU处理器正以较低时钟速度运行或接通达短期突发而主要处于休眠的情况下运行。
级1辨识器102的语音辨识算法可将所辨识的关键字分类到预定义类别中。预定义类别可为描述不同所感兴趣领域的主题,例如旅行、购物、娱乐、研究、饮食或电子器件。每一类别可与一组有限关键字相关联。在一个实施例中,级1辨识器102可查找关键字的有限词汇量。如果检测到针对特定类别的一定数目个关键字,那么可确定与正讨论的类别相关联的主题。除若干个关键字之外,还可使用关键字彼此之间的关系,即,搜索文法及/或语言模型。级1辨识器102将所辨识关键字分类到多个类别中,且在一个类别具有以其分类的足够关键字时,此时级1辨识器102可触发级2辨识器104。还可使用下文将描述的其它准则。
级1辨识器102可耦合到说话者检验管理器106及存储装置108以确定说话者特定信息110。说话者特定信息可用于将所辨识的关键字分类到预定义类别中。举例来说,预定义类别可基于用户的偏好针对每一用户而不同。举例来说,一些用户可能喜欢旅行且其它用户可能喜欢电子器件。
此外,可基于说话者特定信息110-1而执行类别的确定。举例来说,类别可与用户相关联。因此,如果类别与说话者特定信息110-1相关联,那么触发接通更有可能较适当。举例来说,如果用户正谈论英式足球,且说话者特定信息110指示用户喜欢英式足球,那么更有可能应触发语音辨识器101以确定响应。然而,如果用户正谈论滑板运动且对滑板运动不感兴趣,那么语音辨识器101可不被触发接通。
与级1辨识器102相比,级2辨识器104可为较准确语音辨识系统。举例来说,级2辨识器104可使用比级1辨识器102多的功率。此外,级2辨识器104使用较准确语音辨识算法。举例来说,级2辨识器104可需要大存储器及CPU循环占用面积以执行语音辨识。在一个实例中,级2辨识器104可使用大词汇量连续语音辨识(LVCSR)技术来描述特定主题(语言模型)的语言且将声输入信号转换成可能词格子,所述可能词格子接着被使用统计剖析器准确地剖析以提取含义。级1辨识器102或级2辨识器104可决定保存来自先前讨论的信息以较好地分类、解决问题及提供帮助。
在一个实施例中,语音辨识算法之间可能存在一些差异。举例来说,级1辨识器102是基于关键字的辨识器,而级2辨识器104可辨识所有词。级1辨识器102可具有不如级2辨识器104复杂的搜索文法,例如较低混乱及较低数目个词。级1辨识器102可具有不如级2辨识器104复杂的语言模型(例如,词的数目,双字母组对三字母组)。级1辨识器102可在搜索中删除比级2辨识器104多的作用状态。级1辨识器102剖析可为较简单的或不存在的,而级2辨识器104具有稳健统计剖析器。级1辨识器102可需要用以存储表示的较少只读存储器(ROM)及用以对照其给输入声评分的较少随机存取存储器(RAM)/每秒百万指令(mips)。级1辨识器102可为不如级2辨识器104准确的辨识器且可使用比级2辨识器104简单的语音特征。级1辨识器102可使用比级2辨识器104小/简单的声模型。
级2辨识器104可输出对所检测含义的响应。举例来说,当依据声输入信号确定含义时,级2辨识器104可确定适当响应。所述响应可包含多种感官互动,包含音频、视觉、触觉或嗅觉响应。在一个实例中,输出可为对用户进行的讨论提供所建议答案的音频响应。还可提供增强用户活动的其它响应,例如在用户正于计算机或电视指南上执行搜索时,可基于依据背景对话的所存储信息或在正进行搜索时当下所说出信息而提供较集中搜索结果。举例来说,在依据文本输入(例如“坏小子电影”)而进行电影的搜索时,用户可能说出像“我认为它是一部翻拍电影,可能是海角什么的或其它…”这样的话。另一实例,如果检测到用户正在讨论旅行,那么可在指南的顶部处显示电视指南上的关于旅行的一些电视节目。
级2辨识器104还可耦合到说话者检验管理器106及存储装置108,其中响应是基于说话者特定信息110而确定。用于确定响应的算法可基于用户而不同。此外,考虑说话者特定信息110而确定的响应将提供较集中搜索结果。
响应的排序及类型还可基于说话者特定信息110。举例来说,排序可基于说话者特定信息110中的用户的偏好而受影响。举例来说,基于用户较喜欢英式足球的偏好,关于英式足球的响应的排序可高于关于滑板运动的响应。
图2描绘根据一个实施例的级1辨识器102的较详细实例。语音辨识器202接收声输入信号。举例来说,声输入信号可为由装置的音频前端检测到的对话。语音辨识器202辨识一些关键字。语音辨识器202所使用的文法可是有限的且少于级2辨识器104所使用的文法。
类别管理器204可将所辨识关键字分类到类别206中。每一类别206可与一个类目或主题相关联。类别206可以是预定义的且可在若干个所辨识关键字满足特定准则时选择类别206。举例来说,语音辨识器202可识别高频率短语。这些短语可唯一地且稳健地识别主题。除时间次序及距离之外,短语的频率也可用于确定是否选择类别206。这些准则可以用用于确定是否触发类别206的类别特定文法而定义。一旦检测到彼此具有预期关系的充分数目个短语,便可确定存在正讨论特定主题的必然性的高可能性并且选择类别206。
类别206可基于说话者特定信息110而确定。举例来说,一旦识别用户,便可从说话者特定信息110检索类别206。每一用户可与不同类别206相关联。在其它实施例中,类别206可基于说话者特定信息110而增强。举例来说,可基于所识别的用户而使用不同类别206或类别206中的关键字。
当选择类别206时,使用级2通知管理器208触发级2辨识器104。图3描绘根据一个实施例的级2辨识器104的较详细实例。在触发级2辨识器104时,语音辨识器302接收声输入信号。用于辨识声输入信号中的术语的语音辨识算法可比级1辨识器102所使用的语音辨识算法准确。
所接收到的类别206也可用于执行语音辨识。举例来说,可选择词的词汇的子集来执行辨识。
可以多种方式确定响应。举例来说,所辨识句子的含义可用于搜索可能响应。还可使用其它较多地基于所感知意图而非实际上所说的内容的方法。还可基于所述类别而缩窄可能响应。举例来说,当类别为旅行时,将所确定的响应缩窄到仅与旅行相关联的响应。对于多级辨识过程,与较多地集中于含义的级2辨识器104相反,分类技术准许级1辨识器102集中于较简单且较容易的分类任务。举例来说,级1处的“分类”可使用嵌入式较低功率始终接通系统,因此较高功率辨识器仅需要在必要时被调用。
响应排序管理器304基于排序算法306而对可能响应进行排序。所述排序可用于确定如何作出响应。举例来说,较高排序可指示响应应为较明显且较具侵入性的,例如输出音频响应。然而,较低排序可指示较微妙响应,例如在接口上的显示器上显示消息。
响应排序管理器304可使用说话者特定信息110来确定响应。举例来说,排序算法306可基于用户的偏好而不同地加权。在一个实例中,包含用户所偏好的内容的一些响应可排序较高。
在一个实施例中,排序算法306可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则而对响应进行排序。相关性可为所述响应与所检测含义的相关程度如何。紧迫性为例如在用户确实希望做某事时所需的响应的紧迫程度如何,或为可在响应期满时提供的优惠。重要性可定义所述响应对于用户可是多么重要;举例来说,如果用户之间的对话较长或已依据早期所说的某事而重复请求,那么可确定重要性。还可使用其它准则,例如依据对话所推断出的信息。举例来说,信息的重要性可影响显示大小及时序。
可对多个响应进行排序。在一个实例中,响应管理器308可输出最高排序的响应。在其它实施例中,可同时或按次序输出多个响应。此外,响应可不基于排序而输出,例如在没有响应经确定具有足以被输出的高得分的情况下。由于用户可能尚未触发级1辨识器102或级2辨识器104,因此用户不预期响应,且因此,可仅在确定适当排序时输出响应。
图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图400。在402处,起始级1辨识器102。级1辨识器102可为始终接通的。
在404处,说话者检验管理器106识别说话者。举例来说,说话者检验管理器106可为始终接通的且倾听语音。在用户说话时,识别不同用户。在一个实例中,可识别多个用户。
在406处,接着查找针对所识别说话者的说话者特定信息110。举例来说,如果识别用户,那么接着使用针对所述用户的说话者特定信息110来对语音进行分类。
在408处,级1辨识器102使用说话者特定信息110来对声输入信号进行分类。举例来说,可对声输入信号中所辨识的不同关键字进行分类。在410处,级1辨识器102确定是否选择类别206。举例来说,如果将若干个关键字分类于类别206中,那么可确定应触发级2辨识器104。如果否,那么过程继续进行以执行408中的分类。在412处,级1辨识器102联系级2辨识器104以接通级2辨识器104。
图5描绘根据一个实施例的用于在级2辨识器104处处理声输入信号的方法的简化流程图500。在502处,级2辨识器104在接收到来自级1辨识器102的触发后即刻接通。级2辨识器104不是始终接通的且仅在由级1辨识器102触发时接通。
在504处,级2辨识器104接收声输入信号。举例来说,如果级2辨识器104与级1辨识器102位于一处,那么在级2辨识器104处可接收声输入信号。然而,如果级2辨识器104位于远处(例如在服务器处),那么级1辨识器102可将声输入信号发送到级2辨识器104。
在505处,级2辨识器104确定说话者特定信息110。举例来说,级2辨识器104可接收说话者是谁的识别。接着,确定针对所述用户的说话者特定信息110。
在506处,级2辨识器104对响应进行排序。举例来说,使用如上文所描述的准则(例如说话者特定信息110)来对各种响应进行排序。在508处,级2辨识器104确定是否应输出响应。所述确定可基于所述排序。举例来说,当响应接收足够高得分时,此时输出所述响应。如果未确定将输出的响应,那么过程在506处继续,其中响应继续基于所接收声输入信号而排序。
如果确定将输出的响应,那么在510处,级2辨识器104确定响应的方法。举例来说,可基于排序而确定不同响应。当响应具有高排序时,可认为其较重要且因此提供较具侵入性响应,例如音频输出。然而,当响应排序较低时,此时所述响应可为较少侵入性的,例如接口上所显示的消息。在512处,级2辨识器104使用所确定方法来输出响应。
在一个实施例中,级1辨识器102及级2辨识器104可在单个装置中操作。所述装置可由电池供电,其中电池寿命可是重要的。在此类型的装置中,可期望使用级1辨识器102,其使用较少功率但始终接通且触发使用较多功率的较强大级2辨识器104。图6描绘根据一个实施例的用于在单个装置中操作级1辨识器102及级2辨识器104的方法的简化流程图600。在602处,在装置上使级1辨识器102以低功率模式操作。举例来说,装置可处于其中级1辨识器102在后台中操作的待机模式中。由于级1辨识器102可需要较少CPU循环,因此级1辨识器102可在装置待机时操作。待机不同于其中装置可被完全供电的作用模式。举例来说,在待机模式中,将关断屏幕灯且除麦克风前置放大器电路及轻量级处理器(例如较低时钟循环实施方案等)之外,将不启用任何功能。尽管辨识保持继续,但将所有其它功能断电以使功率消耗最小化。可自动确定这些辨识模式及级以节约功率。举例来说,插入式装置可始终接通充当单个辨识器,而电池供电的装置可使用较低功率级1方法。此外,级1辨识器102可在装置不处于待机模式中时操作,但作为后台过程而操作。因此,虽然使用所述装置,但其不使用可使装置的性能降级的显著CPU处理能力。
在604处,级1辨识器102确定何时激活级2辨识器104。举例来说,可选择类别206。在606处,级1辨识器102发送信号以唤醒装置。举例来说,可将装置从待机模式唤醒到作用模式中。
在608处,使级2辨识器104以较高功率模式操作。举例来说,级2辨识器104可需要较多CPU循环来执行语音辨识。另外,可必须在装置处于作用模式中时操作级2辨识器104。
图7展示根据一个实施例的包含级1辨识器102及级2辨识器104两者的装置700的实例。音频输入702接收声输入信号。处理器704及存储器706由级1辨识器102及级2辨识器104使用。如上文所描述,与级2辨识器104相比,级1辨识器102可使用处理器704的较少CPU循环。此外,存储器706可为随机存取存储器(RAM),其中与级2辨识器104相比,级1辨识器102使用较小量的RAM。
在不同实例中,图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统800。如所展示,第一装置802-1包含级1辨识器102且第二装置802-2包含级2辨识器104。第一装置802-1可为与用户位于一处的移动装置以在音频输入702处接收声输入信号。第一装置802-1可经由网络804与第二装置802-2通信。举例来说,网络804可为广域网络(WAN)或局域网络(LAN)。此外,第二装置802-2可为服务器。
级1辨识器102可使用装置802-1的处理器804-1及存储器806-1,且级2辨识器104可使用第二装置802-2的处理器804-2及存储器806-2。在一个实施例中,第二装置802-2可为较强大计算装置,因此允许将处理卸载到在第一装置802-1上可使用较少功率及电池寿命的较强大装置。
现在将描述各种实例。装置可为在用户的家中所使用的平板计算机。所述平板计算机可处于待机模式中。第一用户可正与第二用户关于这个夏天其想要去哪度假进行对话。级1辨识器102始终接通且识别第一用户及第二用户。级1辨识器102检索说话者特定信息110并确定分别与第一用户及第二用户相关联的英式足球及滑板运动的类别中的关键字。当级1辨识器102辨识关键字时,可选择类别206。举例来说,关键字可辨识为“度假”且接着可辨识确认应确定“旅行”类别的其它关键字,例如“航班”及“旅行”。确定应选择旅行类别及应激活级2辨识器104。
级2辨识器104接收用以激活的触发且还可接收正进行关于“旅行”的类别的对话且其似乎是度假的信息。此时,级2辨识器104可接手倾听对话。级2辨识器104可能够解读整个句子且可能听到句子“也许我们应该在爱尔兰进行一项活动”。“旅行”的类别可用于确定响应的内容。举例来说,针对第一用户在英式足球领域内且针对第二用户在滑板运动领域内搜索旅行度假内容。此时,可确定以下响应:应输出爱尔兰的图片以及在爱尔兰的英式足球比赛的优惠券(或可发现的无论什么地方的高排序交易或特价)及滑板运动事件的通知。可将爱尔兰的图片输出到接口,例如平板计算机屏幕。此外,可在屏幕的拐角中显示可点击的优惠券以提供在爱尔兰的英式足球比赛的特殊一揽子交易。
如果响应具有较高排序,那么输出方法可是不同的。举例来说,可提供将通知用户图片或优惠券的口头输出,或可提供爱尔兰甚至在夏天也有猛烈的暴风雨且或许在荷兰具有较好天气及卓越的自行车道的情况下可以考虑例如荷兰的另一国家的一些其它信息。如果24小时内可获得在爱尔兰的英式足球比赛的特别票,那么装置可确定其是足够相关及紧迫的以口头地打断讨论,并且说“打扰一下,这里有24小时内可获得的在爱尔兰的英式足球比赛的特别优惠,请看屏幕以点击查看详情”。
在另一实例中,用户可正使用计算装置来经由因特网执行搜索。举例来说,用户可正使用旅行网站搜索度假。虽然提供搜索结果,但可使用级2辨识器104的输出来缩窄所述结果。举例来说,可基于说话者特定信息110而缩窄来自搜索查询的结果集合。在一个实例中,可将所返回的网站限制于爱尔兰的英式足球网站或可提供关于荷兰的英式足球的额外网站。在用户搜索期间还可提供其它最优化。
在另一实例中,当查找电影以下载时,级2辨识器104可回忆说话者特定信息110中的不同概念,例如运动、演员名字或情景喜剧。接着,这些节目为移动到指南的顶部的节目。接着,用户可通过针对已展示的特定短语提供较多输入而使选择更加精细化。另外,接着,可执行语音命令。
因此,特定实施例提供使用低功率的始终接通辨识器。所述语音辨识算法可比级2辨识器算法更轻量级。不需要触发来接通级1辨识器102。然而,级1辨识器102执行与类别206相关联的特定关键字的一般语音辨识。
级2辨识器104在不具有来自用户的触发的情况下被激活。而是,触发是来自级1辨识器102。由于用户并没有特定地调用级2辨识器104来寻求响应,因此级2辨识器104中的错误可不被视为是重大的。举例来说,级2辨识器104可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的,那么可不输出所述响应。因此,可容许语音辨识中的错误。由于用户并没有寻求响应,因此用户将不知道其中具有错误的响应未被提供。然而,如果用户已寻求特定响应,那么将出现于响应中的错误将是不可接受的。此外,使用用以仅在需要时接通的级2辨识器104使用较少功率且可节省装置的电池寿命。
此外,使用说话者特定信息110的特定实施例可提供所定制且较适当响应,例如广告。安全特征还可允许自动登录到应用,例如社交应用。由于执行说话者检验,因此还提供针对交易的所添加安全性。另外,在始终接通环境中提供特定且非一般性信息。
特定实施例可实施于非暂时性计算机可读存储媒体中以供由指令执行系统、设备、系统或机器使用或连同指令执行系统、设备、系统或机器一起使用。计算机可读存储媒体含有用于控制计算机系统的指令以执行特定实施例所描述的方法。在由一个或一个以上计算机处理器执行时,所述指令可操作以执行特定实施例中所描述的操作。
除非上下文另外明确指出,否则如本文中的说明中及所附权利要求书通篇中所使用,“一(a)”、“一(an)”及“所述(the)”包含复数参考。此外,除非上下文另外明确指出,否则如本文中的说明中及所附权利要求书通篇中所使用,“在…中”的含义包含“在…中”及“在…上”。
以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是唯一的实施例,且经呈现以图解说明如由所附权利要求书定义的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书,可在不背离如由权利要求书定义的本发明的范围的情况下采取其它布置、实施例、实施方案及等效物。

Claims (21)

1.一种方法,其包括:
由计算装置在语音辨识器处接收声输入信号;
由所述计算装置基于所述声输入信号而识别正在说话的用户;
由所述计算装置通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音;
由所述计算装置确定针对所述用户先前所存储的说话者特定信息;
由所述计算装置基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应;
由所述计算装置基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序;
由所述计算装置基于所述响应的排序,针对所述一组潜在的响应中的每一响应,确定是应输出还是不应输出所述响应;及
如果应输出所述响应,则:
由所述计算装置从多个预配置输出方法中选择一个用于向所述用户输出所述响应的输出方法,所述选择基于所述响应的排序;以及
由所述计算装置使用所选择的输出方法向所述用户输出所述响应。
2.根据权利要求1所述的方法,其中所述语音辨识器经配置而以始终接通模式辨识所述声输入信号,且其中在不接触计算装置或说出用以激活所述语音辨识器的触发短语的情况下输出所述响应。
3.根据权利要求1所述的方法,其中在用户说出用以激活所述语音辨识器的触发短语之后输出所述响应。
4.根据权利要求1所述的方法,其中所述语音辨识器以始终接通模式操作,且其中所述语音辨识器在接收到触发短语之后即刻识别所述用户。
5.根据权利要求1所述的方法,其中所述说话者特定信息与来自所述用户的语音的先前语音辨识相关联。
6.根据权利要求1所述的方法,进一步包括:
基于所述说话者特定信息确定一组类别;
将所述声输入信号的部分分类到所述一组类别中的不同类别中;
基于与类别相关联的准则从所述一组类别中选择所述类别;以及
使用所述类别确定所述一组潜在的响应。
7.根据权利要求6所述的方法,其中使用所述说话者特定信息以基于所述用户在所述说话者特定信息中的偏好而修改所述一组类别中的类别。
8.根据权利要求7所述的方法,其中在所述类别中使用与所述说话者特定信息相关联的一组关键字。
9.根据权利要求6所述的方法,其中以始终接通模式执行对所述声输入信号的部分进行分类,且其中在接收到用以激活所述语音辨识器的触发短语之后执行识别正在说话的所述用户。
10.根据权利要求6所述的方法,其中直到接收到用以激活所述语音辨识器的触发短语才执行对所述声输入信号的部分进行分类。
11.根据权利要求1所述的方法,其进一步包括训练所述语音辨识器来辨识不同用户的语音签名。
12.根据权利要求1所述的方法,其进一步包括基于所述响应而存储针对所述用户的说话者特定信息以供在确定额外响应中使用。
13.根据权利要求1所述的方法,其中确定所述一组潜在的响应包括:
确定所述说话者特定信息中的用户偏好;及
使用所述用户偏好及所辨识的所述声输入信号来执行搜索。
14.根据权利要求13所述的方法,其中
基于所述用户偏好而对所述一组潜在的响应进行排序。
15.根据权利要求1所述的方法,其进一步包括如果确定不应输出所述一组潜在的响应中的响应,则:
避免向所述用户的任何输出。
16.根据权利要求9所述的方法,其进一步包括在接收到所述触发短语之后检验谁正在说话以确定正在说话的所述所识别用户是否仍在说话。
17.根据权利要求16所述的方法,其中周期性地执行所述检验。
18.根据权利要求16所述的方法,其中在认为需要较高安全性时执行谁正在说话的第二检验。
19.根据权利要求18所述的方法,其中,如果执行了所述第二检验,则不需要手动登录。
20.一种具有存储于其上的可由处理器执行的程序代码的非易失性计算机可读媒体,所述程序代码包括:
引起所述处理器在语音辨识器处接收声输入信号的代码;
引起所述处理器基于所述声输入信号而识别正在说话的用户的代码;
引起所述处理器通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音的代码;
引起所述处理器确定针对所述用户先前所存储的说话者特定信息的代码;
引起所述处理器基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应的代码;
引起所述处理器基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序的代码;
引起所述处理器基于所述响应的排序,针对所述一组潜在的响应中的每一响应,确定是应输出还是不应输出所述响应的代码;及
如果应输出所述响应,则:
引起所述处理器从多个预配置输出方法中选择一个用于向所述用户输出所述响应的代码,所述选择基于所述响应的排序;以及
引起所述处理器使用所选择的输出方法向所述用户输出所述响应的代码。
21.一种系统,其包括:
处理器;以及
具有存储于其上的程序代码的非易失性计算机可读媒体,当所述处理器执行所述程序代码的时候,引起所述处理器:
在语音辨识器处接收声输入信号;
基于所述声输入信号而识别正在说话的用户;
通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音;
确定针对所述用户先前所存储的说话者特定信息;
基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应;
基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序;
基于所述响应的排序,针对所述一组潜在的响应中每一响应,确定是应输出还是不应输出所述响应;及
如果应输出所述响应,则:
从多个预配置输出方法中选择一个用于向所述用户输出所述响应,所述选择基于所述响应的排序;以及
使用所选择的输出方法向所述用户输出所述响应的代码。
CN201610086211.0A 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理 Active CN105719647B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US13/246,666 US8996381B2 (en) 2011-09-27 2011-09-27 Background speech recognition assistant
US13/246,666 2011-09-27
US13/329,017 US8768707B2 (en) 2011-09-27 2011-12-16 Background speech recognition assistant using speaker verification
US13/329,017 2011-12-16
CN201280047262.2A CN103827963B (zh) 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201280047262.2A Division CN103827963B (zh) 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理

Publications (2)

Publication Number Publication Date
CN105719647A true CN105719647A (zh) 2016-06-29
CN105719647B CN105719647B (zh) 2019-09-13

Family

ID=47912244

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201280047262.2A Active CN103827963B (zh) 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理
CN201610086211.0A Active CN105719647B (zh) 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201280047262.2A Active CN103827963B (zh) 2011-09-27 2012-09-20 使用说话者检验的背景语音辨识助理

Country Status (3)

Country Link
US (2) US8768707B2 (zh)
CN (2) CN103827963B (zh)
WO (1) WO2013048876A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110832444A (zh) * 2017-07-13 2020-02-21 国际商业机器公司 用户界面声音发出活动分类

Families Citing this family (318)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9652452B2 (en) 2012-01-06 2017-05-16 Yactraq Online Inc. Method and system for constructing a language model
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20130339030A1 (en) * 2012-06-13 2013-12-19 Fluential, Llc Interactive spoken dialogue interface for collection of structured data
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9424840B1 (en) * 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US10438591B1 (en) 2012-10-30 2019-10-08 Google Llc Hotword-based speaker recognition
US9959865B2 (en) * 2012-11-13 2018-05-01 Beijing Lenovo Software Ltd. Information processing method with voice recognition
US8645138B1 (en) * 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests
US9144028B2 (en) 2012-12-31 2015-09-22 Motorola Solutions, Inc. Method and apparatus for uplink power control in a wireless communication system
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) * 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140303982A1 (en) * 2013-04-09 2014-10-09 Yally Inc. Phonetic conversation method and device using wired and wiress communication
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9558749B1 (en) 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10079019B2 (en) 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
GB2524222B (en) 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
CN105723451B (zh) * 2013-12-20 2020-02-28 英特尔公司 从低功率始终侦听模式到高功率语音识别模式的转换
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9460735B2 (en) 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US10031000B2 (en) 2014-05-29 2018-07-24 Apple Inc. System on a chip with always-on processor
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9753916B2 (en) * 2014-06-19 2017-09-05 International Business Machines Corporation Automatic generation of a speech by processing raw claims to a set of arguments
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP2999199B1 (en) * 2014-09-16 2018-03-07 Nxp B.V. Mobile device
CN105529025B (zh) * 2014-09-28 2019-12-24 联想(北京)有限公司 一种语音操作输入方法及电子设备
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9659564B2 (en) * 2014-10-24 2017-05-23 Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi Speaker verification based on acoustic behavioral characteristics of the speaker
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9653079B2 (en) 2015-02-12 2017-05-16 Apple Inc. Clock switching in always-on component
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP2016192121A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
US10158734B2 (en) 2015-04-01 2018-12-18 Google Llc Trigger associated notification delivery in an enterprise system
CN106463112B (zh) * 2015-04-10 2020-12-08 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
EP3125244B1 (en) * 2015-07-28 2019-11-27 Nxp B.V. Audio classifier
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106653010B (zh) 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DE102016205925A1 (de) * 2016-04-08 2017-10-12 Audi Ag Verfahren und System zum Steuern einer Anwendungseinheit
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
GB2583988B (en) * 2016-06-06 2021-03-31 Cirrus Logic Int Semiconductor Ltd Voice user interface
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
GB2552082A (en) * 2016-06-06 2018-01-10 Cirrus Logic Int Semiconductor Ltd Voice user interface
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
ES2806204T3 (es) 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
KR102474729B1 (ko) * 2016-06-28 2022-12-05 한화테크윈 주식회사 모니터링 장치
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US20180061408A1 (en) * 2016-08-24 2018-03-01 Semantic Machines, Inc. Using paraphrase in accepting utterances in an automated assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217453B2 (en) 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018085760A1 (en) 2016-11-04 2018-05-11 Semantic Machines, Inc. Data collection for a new conversational dialogue system
EP3535751A4 (en) 2016-11-10 2020-05-20 Nuance Communications, Inc. METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102668438B1 (ko) * 2016-12-26 2024-05-24 현대자동차주식회사 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018148441A1 (en) 2017-02-08 2018-08-16 Semantic Machines, Inc. Natural language content generator
US10586530B2 (en) 2017-02-23 2020-03-10 Semantic Machines, Inc. Expandable dialogue system
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
KR102515023B1 (ko) * 2018-02-23 2023-03-29 삼성전자주식회사 전자 장치 및 그 제어 방법
US10726829B2 (en) 2018-02-28 2020-07-28 Cirrus Logic, Inc. Performing speaker change detection and speaker recognition on a trigger phrase
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
CN108768977A (zh) * 2018-05-17 2018-11-06 东莞市华睿电子科技有限公司 一种基于语音验证的终端系统登录方法
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
WO2020040745A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
KR102523982B1 (ko) 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7017643B2 (ja) * 2018-12-03 2022-02-08 グーグル エルエルシー テキスト非依存話者認識
CN111258528B (zh) * 2018-12-03 2021-08-13 华为技术有限公司 语音用户界面的显示方法和会议终端
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11017157B2 (en) 2019-05-15 2021-05-25 International Business Machines Corporation Group pattern based electronic dictionary modification and presentation
US10929596B2 (en) 2019-05-15 2021-02-23 International Business Machines Corporation Pattern based electronic dictionary modification and presentation
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
EP3776175B1 (en) * 2019-06-05 2023-10-18 Google LLC Action validation for digital assistant-based applications
US20200388280A1 (en) 2019-06-05 2020-12-10 Google Llc Action validation for digital assistant-based applications
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
CN111640426A (zh) * 2020-06-10 2020-09-08 北京百度网讯科技有限公司 用于输出信息的方法和装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11749267B2 (en) * 2020-11-20 2023-09-05 Google Llc Adapting hotword recognition based on personalized negatives
KR20220136750A (ko) 2021-04-01 2022-10-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002465A1 (en) * 1996-02-02 2002-01-03 Maes Stephane Herman Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US20040236569A1 (en) * 2003-05-19 2004-11-25 Nec Corporation Voice response system
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和系统
CN1729507A (zh) * 2002-12-20 2006-02-01 皇家飞利浦电子股份有限公司 对音频信号进行排序
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别系统和语音识别方法
US20090327263A1 (en) * 2008-06-25 2009-12-31 Yahoo! Inc. Background contextual conversational search
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
US20110166855A1 (en) * 2009-07-06 2011-07-07 Sensory, Incorporated Systems and Methods for Hands-free Voice Control and Voice Search

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US6965863B1 (en) 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US20020116196A1 (en) 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US20050261907A1 (en) 1999-04-12 2005-11-24 Ben Franklin Patent Holding Llc Voice integration platform
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
IL146597A0 (en) 2001-11-20 2002-08-14 Gordon Goren Method and system for creating meaningful summaries from interrelated sets of information
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
EP1473708B1 (en) * 2003-04-29 2007-10-17 Sony Deutschland GmbH Method for recognizing speech
US7418392B1 (en) * 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
US8589156B2 (en) 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US8014496B2 (en) * 2004-07-28 2011-09-06 Verizon Business Global Llc Systems and methods for providing network-based voice authentication
EP1794746A2 (en) 2004-09-23 2007-06-13 Koninklijke Philips Electronics N.V. Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
US20060074658A1 (en) 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US20060085199A1 (en) 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
WO2006055607A2 (en) 2004-11-19 2006-05-26 Definitive Business Solutions, Llc Method and system for communication prioritization
US7424431B2 (en) 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
GB0515708D0 (en) * 2005-07-29 2005-09-07 British Telecomm Authentication apparatus
US20070047719A1 (en) * 2005-09-01 2007-03-01 Vishal Dhawan Voice application network platform
US7822318B2 (en) 2006-04-26 2010-10-26 Sony Ericsson Mobile Communications Ab Smart random media object playback
WO2008014554A1 (en) * 2006-08-01 2008-02-07 Qpay Holdings Limited Transaction authorisation system & method
US7769593B2 (en) * 2006-09-28 2010-08-03 Sri International Method and apparatus for active noise cancellation
KR20080052304A (ko) 2006-12-06 2008-06-11 한국전자통신연구원 응답 문장 생성 장치 및 방법
US8140325B2 (en) 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US20110054900A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US7881933B2 (en) * 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
EP2216775B1 (en) 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US9049503B2 (en) * 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8886542B2 (en) * 2009-08-26 2014-11-11 Roger Lagadec Voice interactive service system and method for providing different speech-based services
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
US8395503B2 (en) 2010-09-23 2013-03-12 Altorr Corporation Automatic door
US8781825B2 (en) 2011-08-24 2014-07-15 Sensory, Incorporated Reducing false positives in speech recognition systems
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002465A1 (en) * 1996-02-02 2002-01-03 Maes Stephane Herman Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
CN1703923A (zh) * 2002-10-18 2005-11-30 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和系统
CN1729507A (zh) * 2002-12-20 2006-02-01 皇家飞利浦电子股份有限公司 对音频信号进行排序
US20040236569A1 (en) * 2003-05-19 2004-11-25 Nec Corporation Voice response system
US20080040114A1 (en) * 2006-08-11 2008-02-14 Microsoft Corporation Reranking QA answers using language modeling
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别系统和语音识别方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
US20090327263A1 (en) * 2008-06-25 2009-12-31 Yahoo! Inc. Background contextual conversational search
US20110166855A1 (en) * 2009-07-06 2011-07-07 Sensory, Incorporated Systems and Methods for Hands-free Voice Control and Voice Search

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110832444A (zh) * 2017-07-13 2020-02-21 国际商业机器公司 用户界面声音发出活动分类
CN110832444B (zh) * 2017-07-13 2024-05-28 勤达睿公司 用户界面声音发出活动分类

Also Published As

Publication number Publication date
US8768707B2 (en) 2014-07-01
WO2013048876A1 (en) 2013-04-04
CN103827963A (zh) 2014-05-28
CN105719647B (zh) 2019-09-13
US20130080167A1 (en) 2013-03-28
US9142219B2 (en) 2015-09-22
CN103827963B (zh) 2016-03-16
US20140257812A1 (en) 2014-09-11

Similar Documents

Publication Publication Date Title
CN103827963B (zh) 使用说话者检验的背景语音辨识助理
US8996381B2 (en) Background speech recognition assistant
US20210183366A1 (en) Speech recognition through disambiguation feedback
US10685669B1 (en) Device selection from audio data
US10176810B2 (en) Using voice information to influence importance of search result categories
US10360265B1 (en) Using a voice communications device to answer unstructured questions
JP6667504B2 (ja) オーファン発話検出システム及び方法
US7797305B2 (en) Method for intelligent consumer earcons
CN104620314B (zh) 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
CN110136727A (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN106406806A (zh) 一种用于智能设备的控制方法及装置
CN112466302B (zh) 语音交互的方法、装置、电子设备和存储介质
US10504512B1 (en) Natural language speech processing application selection
US11195522B1 (en) False invocation rejection for speech processing systems
US11315552B1 (en) Responding with unresponsive content
US12032611B1 (en) Responding with unresponsive content
US11694682B1 (en) Triggering voice control disambiguation
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
JP2019124952A (ja) 情報処理装置、情報処理方法、およびプログラム
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
US11854040B1 (en) Responding with unresponsive content
CN114999496A (zh) 音频传输方法、控制设备及终端设备
US11580974B2 (en) Method for exiting a voice skill, apparatus, device and storage medium
CN113555016A (zh) 语音交互方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant