CN105719647A - 使用说话者检验的背景语音辨识助理 - Google Patents
使用说话者检验的背景语音辨识助理 Download PDFInfo
- Publication number
- CN105719647A CN105719647A CN201610086211.0A CN201610086211A CN105719647A CN 105719647 A CN105719647 A CN 105719647A CN 201610086211 A CN201610086211 A CN 201610086211A CN 105719647 A CN105719647 A CN 105719647A
- Authority
- CN
- China
- Prior art keywords
- response
- user
- speaker
- identifier
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012795 verification Methods 0.000 title 1
- 230000004044 response Effects 0.000 claims abstract description 165
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000007689 inspection Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 229910001220 stainless steel Inorganic materials 0.000 description 2
- 239000010935 stainless steel Substances 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及使用说话者检验的背景语音辨识助理的方法和系统。在一个实施例中,一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着,所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应,且如果确定应输出所述响应,那么输出所述响应。
Description
分案申请的相关信息
本申请是分案申请。该分案申请的母案是申请日为2012年9月20日、申请号为201280047262.2、发明名称为“使用说话者检验的背景语音辨识助理”的发明专利申请案。
相关申请案的交叉参考
本申请案主张2011年12月16日提出申请的针对“使用说话者检验的背景语音辨识助理(BackgroundSpeechRecognitionAssistantUsingSpeakerVerification)”的第13/329,017号美国专利申请案的优先权,所述美国专利申请案主张2011年9月27日提出申请的针对“背景语音辨识助理(BackgroundSpeechRecognitionAssistant)”的第13/246,666号美国专利申请案的优先权,所述美国专利申请案的内容以全文引用的方式并入本文中。
背景技术
特定实施例一般来说涉及语音辨识。
语音辨识试图经由口头查询及命令而使信息存取较容易且较简单。这些查询历史上通过装置(例如智能电话)上的按钮按下而激活。使用口头查询允许用户在不键入查询的情况下做出查询。此在用户忙碌时(例如在用户开车或仅不想键入查询时)使信息存取较容易。在接收到按钮按下之后,语音辨识器倾听查询并试图适当地作出响应。即使使用按钮按下较容易,但有时对于用户来说,使用户按下按钮来激活语音辨识器是不方便的。举例来说,用户可能忙于其它活动,在此情况下,使用其手来执行按钮按下可是不可能的,例如用户可能正在开车。
其它方法用使用激活词来激活语音辨识器的免提方法来代替按钮按下。举例来说,使用触发短语来激活语音辨识器,所述语音辨识器可在接收到触发短语之后接着解读查询并提供适当响应。然而,用户必须总是触发语音辨识器。另外,从用户触发辨识器起,用户通常不容许辨识或响应中的错误。
在所有这些方法中,用户决定何时发出查询或命令。肯定地激活语音辨识器且接着用户预期响应。由于用户预期响应,因此可能不容许语音辨识中的错误。此外,由于语音辨识器在激活之后仅倾听内容,因此语音辨识器将忽略对话中的特定语境及重点。
另外,即使在向用户输出响应时,所述响应也是通用响应。举例来说,语音辨识器可使用所辨识的关键字来执行网络搜索。此关键字搜索将被输出到正在说话的任何用户。
发明内容
在一个实施例中,一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着,所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应,且如果确定应输出所述响应,那么输出所述响应。
在一个实施例中,一种方法包含:基于使用第一语音辨识算法辨识声输入信号及将所述声输入信号的部分分类到多个类别中的一类别中而从第一级辨识器接收信号,所述第一级辨识器经配置而以始终接通模式辨识所述声输入信号;由计算装置在接收到所述信号后即刻激活第二级辨识器以辨识所述声输入信号,所述第二级辨识器经配置以使用第二语音辨识算法;基于所述声输入信号而识别正在说话的用户;确定针对所述用户先前所存储的说话者特定信息;基于所述说话者特定信息而确定对所述所辨识声输入信号的响应;基于所述响应的排序而确定是否应输出所述响应;及如果确定应输出所述响应,那么输出所述响应。
在一个实施例中,一种系统包含:第一级辨识器,其经配置而以始终接通模式使用第一语音辨识算法来辨识声输入信号,所述第一级辨识器经配置以:接收声输入信号;基于所述声输入信号而识别正在说话的用户;确定针对所述用户先前所存储的说话者特定信息;使用第一语音辨识算法将所述声输入信号的部分分类到不同类别中;基于对类别的选择而确定应触发第二级辨识器,所述选择是基于正以所述选定类别分类的经分类部分及所述说话者特定信息;及第二级辨识器,其经配置以:从所述第一级辨识器接收用以激活所述第二级辨识器的信号;在接收到所述信号后即刻激活所述第二级辨识器以辨识所述声输入信号,所述第二级辨识器经配置以使用不同于所述第一语音辨识算法的第二语音辨识算法来辨识所述声输入信号;使用所述说话者特定信息来确定对所述所辨识声输入信号的响应;基于所述响应的排序而确定是否应输出所述响应;及如果确定应输出所述响应,那么输出所述响应。
以下详细说明及附图提供对本发明的性质及优点的较好理解。
附图说明
图1A描绘根据一个实施例的语音辨识系统的实例系统。
图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统。
图2描绘根据一个实施例的级1辨识器的较详细实例。
图3描绘根据一个实施例的级2辨识器的较详细实例。
图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图。
图5描绘根据一个实施例的用于在级2辨识器处处理声输入信号的方法的简化流程图。
图6描绘根据一个实施例的用于在单个装置中操作级1辨识器及级2辨识器的方法的简化流程图。
图7展示根据一个实施例的包含级1辨识器及级2辨识器两者的装置的实例。
图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统。
具体实施方式
本文中描述背景语音辨识器的技术。出于阐释的目的,在以下说明中,陈述众多实例及特定细节以便提供对本发明的实施例的彻底理解。如由权利要求书所定义,特定实施例可单独地或连同下文所描述的其它特征一起包含这些实例中的特征中的一些或全部特征,且可进一步包含本文中所描述的特征及概念的修改形式及等效物。
图1A描绘根据一个实施例的语音辨识系统的实例系统100。系统100包含“始终接通”且倾听所接收到的声输入信号的语音辨识器101。因此,语音辨识器101在后台中工作。语音辨识器101不倾听用以接通的触发短语。而是,语音辨识器101从日常对话收集真实含义及意图。由于语音辨识器101始终接通及倾听,因此可依据在语音辨识器101必须基于触发而激活的情况下通常不可辨识的短语而确定含义及意图。在另一实施例中,语音辨识器101通过触发短语而接通。倾听将在语音辨识器101被接通时开始。
说话者检验管理器106检验哪一用户正在说话。举例来说,各个用户可能在不同时间说话,例如在家庭中,父亲、母亲、儿子及女儿可一起说话或在不同时间说话。说话者检验管理器106包含用以识别哪一说话者当前正在说话的算法。举例来说,说话者检验管理器106可使用用于确定说话者的文本无关算法。在此算法中,用户可在允许说话者检验管理器106了解每一用户的语音的签名的训练过程中训练说话者检验管理器106。所属领域的技术人员将了解如何训练说话者检验管理器106来辨识用户的语音。在训练之后,当语音辨识器101处于始终接通模式中时,说话者检验管理器106确定谁正在说话。使用文本无关算法允许说话者检验管理器106在以始终接通模式操作时识别谁正在说话,此不需要用户触发语音辨识器101。
另外,文本相关方法可用于检验说话者。举例来说,语音辨识器101并非始终接通,而是由接通语音辨识器101的触发词触发,且语音辨识器101开始倾听。接着可执行检验用户的文本相关方法。举例来说,用户可能已训练语音辨识器101辨识触发词。接着,语音辨识器101可基于针对触发词的先前训练而检验用户。此外,用户可在说出触发短语之后说出额外词,且所述词用于识别说话者。
在另一实施例中,在初始检验之后,可随着发生可为文本无关或文本相关的额外检验。举例来说,随着用户继续说话,说话者检验可正在运行以证实同一用户正在说话。举例来说,接收触发短语且接着周期性地执行说话者检验。当认为必须有较高安全性时(例如在登录网站、账户、资金转移、购物或其它安全情形时),可执行第二说话者检验。此外,由于代替登录而执行了第二说话者检验,因此在安全情形中可不需要手动登录。
存储装置108包含针对不同用户的说话者特定信息110。举例来说,说话者特定信息110-1与用户#1相关联且说话者特定信息110-n与用户#n相关联。说话者特定信息110可针对任何数目个用户而存储于存储装置108中。每一说话者特定信息110可包含所述用户所特有的信息。在一个实例中,说话者特定信息110基于针对所述用户先前所辨识的语音,例如针对所述用户之前可能已辨识词“英式足球”或“度假”。此外,在另一实例中,信息可包含用户偏好,例如一个用户喜欢滑板运动且另一用户喜欢英式足球。此信息可在确定对所辨识语音的响应时使用。举例来说,如果用户更有可能喜欢英式足球,那么可在辨识语音时输出与英式足球有关的广告。在一个实例中,如果正讨论度假,那么在识别用户且确定用户喜欢英式足球的情况下,可作为对将执行的活动的建议而输出在进行度假时发生的英式足球比赛。然而,如果说话的用户喜欢滑板运动,那么可作为响应输出滑板运动赛事。因此,语音辨识器101可使用说话者特定信息110而提供较个人化响应。
语音辨识器101可在后台中确定可能响应,但可能直到确定适合输出响应才输出所述响应。响应可基于声输入信号的类别及解释而使用各种方法来确定。举例来说,可执行搜索以确定响应,可针对适当响应而搜索数据库等。语音辨识器101可对依据短语的所辨识含义而确定的响应进行排序。响应的排序及类型(例如屏幕上的短暂显示、屏幕上的持久显示、口头响应等)可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则。与英式足球相关联的响应可排序较高。当响应接收指示可输出响应的值的排序时,此时语音辨识器101可输出响应。由于用户并没有特定地调用语音辨识器101来寻求响应,因此语音辨识中的错误可不被视为是重大的。举例来说,语音辨识器101可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的,那么可不输出所述响应。由于用户并没有寻求响应,因此用户将不知道其中具有错误的响应未被提供。然而,如果用户已寻求特定响应,那么将出现于响应中的错误将是不可接受的。在此情形中,用户并没有寻求响应。
在另一实施例中,可在不具有任何说话者检验的情况下执行分类。在此情形中,确定一般响应。然而,当接收到触发短语时,使用说话者特定信息110来调整响应。在另一实例中,直到接收到触发短语才执行分类。
输出响应的不同方法可基于所确定的排序。举例来说,具有较高排序得分的响应可使用较多侵入性输出方法。举例来说,如果在排序中存在高级紧迫性,那么可使用口头输出。然而,如果紧迫性较低,那么可使用较少侵入性方法,例如在屏幕的拐角中显示图片或广告。显示图片或广告的时间长度可通过重要性而确定。语音辨识器101是助理,其在未被请求的情况下始终接通以提供帮助及解决方案,但足够智能以仅在因紧迫性等而确定为适当时侵入。
输出响应的方法可基于说话者特定信息110而改变。举例来说,一些用户可倾向于在个人计算机上输出响应。其它用户可倾向于发送文本消息。这些偏好在确定输出响应的方法时被纳入考虑。
在一个实例中,第一用户可能正与第二用户讨论是否购置微波炉。所述对话可能正讨论将购置什么瓦数或样式(例如,不锈钢)。语音辨识器101可位于移动装置(例如蜂窝式电话或平板计算机)中且未被第一用户或第二用户触发。语音辨识器101可不立即输出响应。而是,语音辨识器101倾听对话以导出额外含义。当语音辨识器101将所述讨论分类为“购物”讨论时,其可辨识出正期待购买微波炉,语音辨识器101可确定响应是适当的。说话者特定信息110可用于确定用户先前正关于厨房中的其它电器而讨论不锈钢。在此情形中,接着确定用户期待购置期待购买的某一瓦数的不锈钢微波炉。不锈钢微波炉将匹配厨房中的其它电器。可对一些响应进行排序。举例来说,商店的促销可为一个响应。此响应因相关性(促销是针对微波炉的)以及紧迫性(促销是限时优惠及/或语音辨识器101听出讨论中的紧迫感,因为其识别出了现有微波炉已坏掉)而被赋予高得分。因此,可获得商店的促销的侵入性口头输出响应可被输出且提示用户正查找的物项仅促销24小时。
图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统100。两级语音辨识器可执行语音辨识器101的功能。此外,尽管描述两个级,但两个级的功能可组合到一个级或任何数目个级中。系统100包含级1辨识器102及级2辨识器104。级1辨识器102及级2辨识器104可位于相同装置中或位于不同装置中。举例来说,级1辨识器102及级2辨识器104可位于移动装置中,例如智能电话、平板计算机、膝上型计算机、手持式游戏装置、玩具、车内装置或其它消费型电子器件。另外,级1辨识器102可位于第一装置(例如客户端装置)上,且级2辨识器104可位于第二装置(例如服务器)上。在此实例中,级1辨识器102可经由网络与级2辨识器104通信。
级1辨识器102可为“始终接通”且倾听所接收到的声输入信号的语音辨识装置。始终接通可意指级1辨识器不需要被触发(例如,通过按钮按下或触发短语)以开始语音辨识。始终接通语音辨识器的实例包含于2010年7月6日提出申请的标题为“用于免提语音控制及语音搜索的系统及方法(SystemsandMethodsforHands-freeVoiceControlandVoiceSearch)”的第12/831,051号美国专利申请案(其主张2009年7月6日提出申请的第61/223,172号美国专利申请案的优先权的权益)中,且包含于2011年8月24日提出申请的标题为“减少语音辨识系统中的主动错误信息(ReducingFalsePositivesinSpeechRecognitionSystems)”的第12/831,051号美国专利申请案中,出于所有目的,所有美国专利申请案以全文引用的方式并入。举例来说,可分析级1辨识器102接收到的任何声输入信号。在一个实施例中,级1辨识器102不同于级2辨识器104。举例来说,级1辨识器102可为使用比级2辨识器104少的功率的低功率辨识器。由于级1辨识器102所使用的语音辨识算法可使用较小存储器及较少计算机处理器单元(CPU)循环,因此可使用较低功率。举例来说,级1辨识器102可能够在音频前端(例如,麦克风)接通而CPU处理器正以较低时钟速度运行或接通达短期突发而主要处于休眠的情况下运行。
级1辨识器102的语音辨识算法可将所辨识的关键字分类到预定义类别中。预定义类别可为描述不同所感兴趣领域的主题,例如旅行、购物、娱乐、研究、饮食或电子器件。每一类别可与一组有限关键字相关联。在一个实施例中,级1辨识器102可查找关键字的有限词汇量。如果检测到针对特定类别的一定数目个关键字,那么可确定与正讨论的类别相关联的主题。除若干个关键字之外,还可使用关键字彼此之间的关系,即,搜索文法及/或语言模型。级1辨识器102将所辨识关键字分类到多个类别中,且在一个类别具有以其分类的足够关键字时,此时级1辨识器102可触发级2辨识器104。还可使用下文将描述的其它准则。
级1辨识器102可耦合到说话者检验管理器106及存储装置108以确定说话者特定信息110。说话者特定信息可用于将所辨识的关键字分类到预定义类别中。举例来说,预定义类别可基于用户的偏好针对每一用户而不同。举例来说,一些用户可能喜欢旅行且其它用户可能喜欢电子器件。
此外,可基于说话者特定信息110-1而执行类别的确定。举例来说,类别可与用户相关联。因此,如果类别与说话者特定信息110-1相关联,那么触发接通更有可能较适当。举例来说,如果用户正谈论英式足球,且说话者特定信息110指示用户喜欢英式足球,那么更有可能应触发语音辨识器101以确定响应。然而,如果用户正谈论滑板运动且对滑板运动不感兴趣,那么语音辨识器101可不被触发接通。
与级1辨识器102相比,级2辨识器104可为较准确语音辨识系统。举例来说,级2辨识器104可使用比级1辨识器102多的功率。此外,级2辨识器104使用较准确语音辨识算法。举例来说,级2辨识器104可需要大存储器及CPU循环占用面积以执行语音辨识。在一个实例中,级2辨识器104可使用大词汇量连续语音辨识(LVCSR)技术来描述特定主题(语言模型)的语言且将声输入信号转换成可能词格子,所述可能词格子接着被使用统计剖析器准确地剖析以提取含义。级1辨识器102或级2辨识器104可决定保存来自先前讨论的信息以较好地分类、解决问题及提供帮助。
在一个实施例中,语音辨识算法之间可能存在一些差异。举例来说,级1辨识器102是基于关键字的辨识器,而级2辨识器104可辨识所有词。级1辨识器102可具有不如级2辨识器104复杂的搜索文法,例如较低混乱及较低数目个词。级1辨识器102可具有不如级2辨识器104复杂的语言模型(例如,词的数目,双字母组对三字母组)。级1辨识器102可在搜索中删除比级2辨识器104多的作用状态。级1辨识器102剖析可为较简单的或不存在的,而级2辨识器104具有稳健统计剖析器。级1辨识器102可需要用以存储表示的较少只读存储器(ROM)及用以对照其给输入声评分的较少随机存取存储器(RAM)/每秒百万指令(mips)。级1辨识器102可为不如级2辨识器104准确的辨识器且可使用比级2辨识器104简单的语音特征。级1辨识器102可使用比级2辨识器104小/简单的声模型。
级2辨识器104可输出对所检测含义的响应。举例来说,当依据声输入信号确定含义时,级2辨识器104可确定适当响应。所述响应可包含多种感官互动,包含音频、视觉、触觉或嗅觉响应。在一个实例中,输出可为对用户进行的讨论提供所建议答案的音频响应。还可提供增强用户活动的其它响应,例如在用户正于计算机或电视指南上执行搜索时,可基于依据背景对话的所存储信息或在正进行搜索时当下所说出信息而提供较集中搜索结果。举例来说,在依据文本输入(例如“坏小子电影”)而进行电影的搜索时,用户可能说出像“我认为它是一部翻拍电影,可能是海角什么的或其它…”这样的话。另一实例,如果检测到用户正在讨论旅行,那么可在指南的顶部处显示电视指南上的关于旅行的一些电视节目。
级2辨识器104还可耦合到说话者检验管理器106及存储装置108,其中响应是基于说话者特定信息110而确定。用于确定响应的算法可基于用户而不同。此外,考虑说话者特定信息110而确定的响应将提供较集中搜索结果。
响应的排序及类型还可基于说话者特定信息110。举例来说,排序可基于说话者特定信息110中的用户的偏好而受影响。举例来说,基于用户较喜欢英式足球的偏好,关于英式足球的响应的排序可高于关于滑板运动的响应。
图2描绘根据一个实施例的级1辨识器102的较详细实例。语音辨识器202接收声输入信号。举例来说,声输入信号可为由装置的音频前端检测到的对话。语音辨识器202辨识一些关键字。语音辨识器202所使用的文法可是有限的且少于级2辨识器104所使用的文法。
类别管理器204可将所辨识关键字分类到类别206中。每一类别206可与一个类目或主题相关联。类别206可以是预定义的且可在若干个所辨识关键字满足特定准则时选择类别206。举例来说,语音辨识器202可识别高频率短语。这些短语可唯一地且稳健地识别主题。除时间次序及距离之外,短语的频率也可用于确定是否选择类别206。这些准则可以用用于确定是否触发类别206的类别特定文法而定义。一旦检测到彼此具有预期关系的充分数目个短语,便可确定存在正讨论特定主题的必然性的高可能性并且选择类别206。
类别206可基于说话者特定信息110而确定。举例来说,一旦识别用户,便可从说话者特定信息110检索类别206。每一用户可与不同类别206相关联。在其它实施例中,类别206可基于说话者特定信息110而增强。举例来说,可基于所识别的用户而使用不同类别206或类别206中的关键字。
当选择类别206时,使用级2通知管理器208触发级2辨识器104。图3描绘根据一个实施例的级2辨识器104的较详细实例。在触发级2辨识器104时,语音辨识器302接收声输入信号。用于辨识声输入信号中的术语的语音辨识算法可比级1辨识器102所使用的语音辨识算法准确。
所接收到的类别206也可用于执行语音辨识。举例来说,可选择词的词汇的子集来执行辨识。
可以多种方式确定响应。举例来说,所辨识句子的含义可用于搜索可能响应。还可使用其它较多地基于所感知意图而非实际上所说的内容的方法。还可基于所述类别而缩窄可能响应。举例来说,当类别为旅行时,将所确定的响应缩窄到仅与旅行相关联的响应。对于多级辨识过程,与较多地集中于含义的级2辨识器104相反,分类技术准许级1辨识器102集中于较简单且较容易的分类任务。举例来说,级1处的“分类”可使用嵌入式较低功率始终接通系统,因此较高功率辨识器仅需要在必要时被调用。
响应排序管理器304基于排序算法306而对可能响应进行排序。所述排序可用于确定如何作出响应。举例来说,较高排序可指示响应应为较明显且较具侵入性的,例如输出音频响应。然而,较低排序可指示较微妙响应,例如在接口上的显示器上显示消息。
响应排序管理器304可使用说话者特定信息110来确定响应。举例来说,排序算法306可基于用户的偏好而不同地加权。在一个实例中,包含用户所偏好的内容的一些响应可排序较高。
在一个实施例中,排序算法306可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则而对响应进行排序。相关性可为所述响应与所检测含义的相关程度如何。紧迫性为例如在用户确实希望做某事时所需的响应的紧迫程度如何,或为可在响应期满时提供的优惠。重要性可定义所述响应对于用户可是多么重要;举例来说,如果用户之间的对话较长或已依据早期所说的某事而重复请求,那么可确定重要性。还可使用其它准则,例如依据对话所推断出的信息。举例来说,信息的重要性可影响显示大小及时序。
可对多个响应进行排序。在一个实例中,响应管理器308可输出最高排序的响应。在其它实施例中,可同时或按次序输出多个响应。此外,响应可不基于排序而输出,例如在没有响应经确定具有足以被输出的高得分的情况下。由于用户可能尚未触发级1辨识器102或级2辨识器104,因此用户不预期响应,且因此,可仅在确定适当排序时输出响应。
图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图400。在402处,起始级1辨识器102。级1辨识器102可为始终接通的。
在404处,说话者检验管理器106识别说话者。举例来说,说话者检验管理器106可为始终接通的且倾听语音。在用户说话时,识别不同用户。在一个实例中,可识别多个用户。
在406处,接着查找针对所识别说话者的说话者特定信息110。举例来说,如果识别用户,那么接着使用针对所述用户的说话者特定信息110来对语音进行分类。
在408处,级1辨识器102使用说话者特定信息110来对声输入信号进行分类。举例来说,可对声输入信号中所辨识的不同关键字进行分类。在410处,级1辨识器102确定是否选择类别206。举例来说,如果将若干个关键字分类于类别206中,那么可确定应触发级2辨识器104。如果否,那么过程继续进行以执行408中的分类。在412处,级1辨识器102联系级2辨识器104以接通级2辨识器104。
图5描绘根据一个实施例的用于在级2辨识器104处处理声输入信号的方法的简化流程图500。在502处,级2辨识器104在接收到来自级1辨识器102的触发后即刻接通。级2辨识器104不是始终接通的且仅在由级1辨识器102触发时接通。
在504处,级2辨识器104接收声输入信号。举例来说,如果级2辨识器104与级1辨识器102位于一处,那么在级2辨识器104处可接收声输入信号。然而,如果级2辨识器104位于远处(例如在服务器处),那么级1辨识器102可将声输入信号发送到级2辨识器104。
在505处,级2辨识器104确定说话者特定信息110。举例来说,级2辨识器104可接收说话者是谁的识别。接着,确定针对所述用户的说话者特定信息110。
在506处,级2辨识器104对响应进行排序。举例来说,使用如上文所描述的准则(例如说话者特定信息110)来对各种响应进行排序。在508处,级2辨识器104确定是否应输出响应。所述确定可基于所述排序。举例来说,当响应接收足够高得分时,此时输出所述响应。如果未确定将输出的响应,那么过程在506处继续,其中响应继续基于所接收声输入信号而排序。
如果确定将输出的响应,那么在510处,级2辨识器104确定响应的方法。举例来说,可基于排序而确定不同响应。当响应具有高排序时,可认为其较重要且因此提供较具侵入性响应,例如音频输出。然而,当响应排序较低时,此时所述响应可为较少侵入性的,例如接口上所显示的消息。在512处,级2辨识器104使用所确定方法来输出响应。
在一个实施例中,级1辨识器102及级2辨识器104可在单个装置中操作。所述装置可由电池供电,其中电池寿命可是重要的。在此类型的装置中,可期望使用级1辨识器102,其使用较少功率但始终接通且触发使用较多功率的较强大级2辨识器104。图6描绘根据一个实施例的用于在单个装置中操作级1辨识器102及级2辨识器104的方法的简化流程图600。在602处,在装置上使级1辨识器102以低功率模式操作。举例来说,装置可处于其中级1辨识器102在后台中操作的待机模式中。由于级1辨识器102可需要较少CPU循环,因此级1辨识器102可在装置待机时操作。待机不同于其中装置可被完全供电的作用模式。举例来说,在待机模式中,将关断屏幕灯且除麦克风前置放大器电路及轻量级处理器(例如较低时钟循环实施方案等)之外,将不启用任何功能。尽管辨识保持继续,但将所有其它功能断电以使功率消耗最小化。可自动确定这些辨识模式及级以节约功率。举例来说,插入式装置可始终接通充当单个辨识器,而电池供电的装置可使用较低功率级1方法。此外,级1辨识器102可在装置不处于待机模式中时操作,但作为后台过程而操作。因此,虽然使用所述装置,但其不使用可使装置的性能降级的显著CPU处理能力。
在604处,级1辨识器102确定何时激活级2辨识器104。举例来说,可选择类别206。在606处,级1辨识器102发送信号以唤醒装置。举例来说,可将装置从待机模式唤醒到作用模式中。
在608处,使级2辨识器104以较高功率模式操作。举例来说,级2辨识器104可需要较多CPU循环来执行语音辨识。另外,可必须在装置处于作用模式中时操作级2辨识器104。
图7展示根据一个实施例的包含级1辨识器102及级2辨识器104两者的装置700的实例。音频输入702接收声输入信号。处理器704及存储器706由级1辨识器102及级2辨识器104使用。如上文所描述,与级2辨识器104相比,级1辨识器102可使用处理器704的较少CPU循环。此外,存储器706可为随机存取存储器(RAM),其中与级2辨识器104相比,级1辨识器102使用较小量的RAM。
在不同实例中,图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统800。如所展示,第一装置802-1包含级1辨识器102且第二装置802-2包含级2辨识器104。第一装置802-1可为与用户位于一处的移动装置以在音频输入702处接收声输入信号。第一装置802-1可经由网络804与第二装置802-2通信。举例来说,网络804可为广域网络(WAN)或局域网络(LAN)。此外,第二装置802-2可为服务器。
级1辨识器102可使用装置802-1的处理器804-1及存储器806-1,且级2辨识器104可使用第二装置802-2的处理器804-2及存储器806-2。在一个实施例中,第二装置802-2可为较强大计算装置,因此允许将处理卸载到在第一装置802-1上可使用较少功率及电池寿命的较强大装置。
现在将描述各种实例。装置可为在用户的家中所使用的平板计算机。所述平板计算机可处于待机模式中。第一用户可正与第二用户关于这个夏天其想要去哪度假进行对话。级1辨识器102始终接通且识别第一用户及第二用户。级1辨识器102检索说话者特定信息110并确定分别与第一用户及第二用户相关联的英式足球及滑板运动的类别中的关键字。当级1辨识器102辨识关键字时,可选择类别206。举例来说,关键字可辨识为“度假”且接着可辨识确认应确定“旅行”类别的其它关键字,例如“航班”及“旅行”。确定应选择旅行类别及应激活级2辨识器104。
级2辨识器104接收用以激活的触发且还可接收正进行关于“旅行”的类别的对话且其似乎是度假的信息。此时,级2辨识器104可接手倾听对话。级2辨识器104可能够解读整个句子且可能听到句子“也许我们应该在爱尔兰进行一项活动”。“旅行”的类别可用于确定响应的内容。举例来说,针对第一用户在英式足球领域内且针对第二用户在滑板运动领域内搜索旅行度假内容。此时,可确定以下响应:应输出爱尔兰的图片以及在爱尔兰的英式足球比赛的优惠券(或可发现的无论什么地方的高排序交易或特价)及滑板运动事件的通知。可将爱尔兰的图片输出到接口,例如平板计算机屏幕。此外,可在屏幕的拐角中显示可点击的优惠券以提供在爱尔兰的英式足球比赛的特殊一揽子交易。
如果响应具有较高排序,那么输出方法可是不同的。举例来说,可提供将通知用户图片或优惠券的口头输出,或可提供爱尔兰甚至在夏天也有猛烈的暴风雨且或许在荷兰具有较好天气及卓越的自行车道的情况下可以考虑例如荷兰的另一国家的一些其它信息。如果24小时内可获得在爱尔兰的英式足球比赛的特别票,那么装置可确定其是足够相关及紧迫的以口头地打断讨论,并且说“打扰一下,这里有24小时内可获得的在爱尔兰的英式足球比赛的特别优惠,请看屏幕以点击查看详情”。
在另一实例中,用户可正使用计算装置来经由因特网执行搜索。举例来说,用户可正使用旅行网站搜索度假。虽然提供搜索结果,但可使用级2辨识器104的输出来缩窄所述结果。举例来说,可基于说话者特定信息110而缩窄来自搜索查询的结果集合。在一个实例中,可将所返回的网站限制于爱尔兰的英式足球网站或可提供关于荷兰的英式足球的额外网站。在用户搜索期间还可提供其它最优化。
在另一实例中,当查找电影以下载时,级2辨识器104可回忆说话者特定信息110中的不同概念,例如运动、演员名字或情景喜剧。接着,这些节目为移动到指南的顶部的节目。接着,用户可通过针对已展示的特定短语提供较多输入而使选择更加精细化。另外,接着,可执行语音命令。
因此,特定实施例提供使用低功率的始终接通辨识器。所述语音辨识算法可比级2辨识器算法更轻量级。不需要触发来接通级1辨识器102。然而,级1辨识器102执行与类别206相关联的特定关键字的一般语音辨识。
级2辨识器104在不具有来自用户的触发的情况下被激活。而是,触发是来自级1辨识器102。由于用户并没有特定地调用级2辨识器104来寻求响应,因此级2辨识器104中的错误可不被视为是重大的。举例来说,级2辨识器104可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的,那么可不输出所述响应。因此,可容许语音辨识中的错误。由于用户并没有寻求响应,因此用户将不知道其中具有错误的响应未被提供。然而,如果用户已寻求特定响应,那么将出现于响应中的错误将是不可接受的。此外,使用用以仅在需要时接通的级2辨识器104使用较少功率且可节省装置的电池寿命。
此外,使用说话者特定信息110的特定实施例可提供所定制且较适当响应,例如广告。安全特征还可允许自动登录到应用,例如社交应用。由于执行说话者检验,因此还提供针对交易的所添加安全性。另外,在始终接通环境中提供特定且非一般性信息。
特定实施例可实施于非暂时性计算机可读存储媒体中以供由指令执行系统、设备、系统或机器使用或连同指令执行系统、设备、系统或机器一起使用。计算机可读存储媒体含有用于控制计算机系统的指令以执行特定实施例所描述的方法。在由一个或一个以上计算机处理器执行时,所述指令可操作以执行特定实施例中所描述的操作。
除非上下文另外明确指出,否则如本文中的说明中及所附权利要求书通篇中所使用,“一(a)”、“一(an)”及“所述(the)”包含复数参考。此外,除非上下文另外明确指出,否则如本文中的说明中及所附权利要求书通篇中所使用,“在…中”的含义包含“在…中”及“在…上”。
以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是唯一的实施例,且经呈现以图解说明如由所附权利要求书定义的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书,可在不背离如由权利要求书定义的本发明的范围的情况下采取其它布置、实施例、实施方案及等效物。
Claims (21)
1.一种方法,其包括:
由计算装置在语音辨识器处接收声输入信号;
由所述计算装置基于所述声输入信号而识别正在说话的用户;
由所述计算装置通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音;
由所述计算装置确定针对所述用户先前所存储的说话者特定信息;
由所述计算装置基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应;
由所述计算装置基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序;
由所述计算装置基于所述响应的排序,针对所述一组潜在的响应中的每一响应,确定是应输出还是不应输出所述响应;及
如果应输出所述响应,则:
由所述计算装置从多个预配置输出方法中选择一个用于向所述用户输出所述响应的输出方法,所述选择基于所述响应的排序;以及
由所述计算装置使用所选择的输出方法向所述用户输出所述响应。
2.根据权利要求1所述的方法,其中所述语音辨识器经配置而以始终接通模式辨识所述声输入信号,且其中在不接触计算装置或说出用以激活所述语音辨识器的触发短语的情况下输出所述响应。
3.根据权利要求1所述的方法,其中在用户说出用以激活所述语音辨识器的触发短语之后输出所述响应。
4.根据权利要求1所述的方法,其中所述语音辨识器以始终接通模式操作,且其中所述语音辨识器在接收到触发短语之后即刻识别所述用户。
5.根据权利要求1所述的方法,其中所述说话者特定信息与来自所述用户的语音的先前语音辨识相关联。
6.根据权利要求1所述的方法,进一步包括:
基于所述说话者特定信息确定一组类别;
将所述声输入信号的部分分类到所述一组类别中的不同类别中;
基于与类别相关联的准则从所述一组类别中选择所述类别;以及
使用所述类别确定所述一组潜在的响应。
7.根据权利要求6所述的方法,其中使用所述说话者特定信息以基于所述用户在所述说话者特定信息中的偏好而修改所述一组类别中的类别。
8.根据权利要求7所述的方法,其中在所述类别中使用与所述说话者特定信息相关联的一组关键字。
9.根据权利要求6所述的方法,其中以始终接通模式执行对所述声输入信号的部分进行分类,且其中在接收到用以激活所述语音辨识器的触发短语之后执行识别正在说话的所述用户。
10.根据权利要求6所述的方法,其中直到接收到用以激活所述语音辨识器的触发短语才执行对所述声输入信号的部分进行分类。
11.根据权利要求1所述的方法,其进一步包括训练所述语音辨识器来辨识不同用户的语音签名。
12.根据权利要求1所述的方法,其进一步包括基于所述响应而存储针对所述用户的说话者特定信息以供在确定额外响应中使用。
13.根据权利要求1所述的方法,其中确定所述一组潜在的响应包括:
确定所述说话者特定信息中的用户偏好;及
使用所述用户偏好及所辨识的所述声输入信号来执行搜索。
14.根据权利要求13所述的方法,其中
基于所述用户偏好而对所述一组潜在的响应进行排序。
15.根据权利要求1所述的方法,其进一步包括如果确定不应输出所述一组潜在的响应中的响应,则:
避免向所述用户的任何输出。
16.根据权利要求9所述的方法,其进一步包括在接收到所述触发短语之后检验谁正在说话以确定正在说话的所述所识别用户是否仍在说话。
17.根据权利要求16所述的方法,其中周期性地执行所述检验。
18.根据权利要求16所述的方法,其中在认为需要较高安全性时执行谁正在说话的第二检验。
19.根据权利要求18所述的方法,其中,如果执行了所述第二检验,则不需要手动登录。
20.一种具有存储于其上的可由处理器执行的程序代码的非易失性计算机可读媒体,所述程序代码包括:
引起所述处理器在语音辨识器处接收声输入信号的代码;
引起所述处理器基于所述声输入信号而识别正在说话的用户的代码;
引起所述处理器通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音的代码;
引起所述处理器确定针对所述用户先前所存储的说话者特定信息的代码;
引起所述处理器基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应的代码;
引起所述处理器基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序的代码;
引起所述处理器基于所述响应的排序,针对所述一组潜在的响应中的每一响应,确定是应输出还是不应输出所述响应的代码;及
如果应输出所述响应,则:
引起所述处理器从多个预配置输出方法中选择一个用于向所述用户输出所述响应的代码,所述选择基于所述响应的排序;以及
引起所述处理器使用所选择的输出方法向所述用户输出所述响应的代码。
21.一种系统,其包括:
处理器;以及
具有存储于其上的程序代码的非易失性计算机可读媒体,当所述处理器执行所述程序代码的时候,引起所述处理器:
在语音辨识器处接收声输入信号;
基于所述声输入信号而识别正在说话的用户;
通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音;
确定针对所述用户先前所存储的说话者特定信息;
基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应;
基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序;
基于所述响应的排序,针对所述一组潜在的响应中每一响应,确定是应输出还是不应输出所述响应;及
如果应输出所述响应,则:
从多个预配置输出方法中选择一个用于向所述用户输出所述响应,所述选择基于所述响应的排序;以及
使用所选择的输出方法向所述用户输出所述响应的代码。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/246,666 US8996381B2 (en) | 2011-09-27 | 2011-09-27 | Background speech recognition assistant |
US13/246,666 | 2011-09-27 | ||
US13/329,017 US8768707B2 (en) | 2011-09-27 | 2011-12-16 | Background speech recognition assistant using speaker verification |
US13/329,017 | 2011-12-16 | ||
CN201280047262.2A CN103827963B (zh) | 2011-09-27 | 2012-09-20 | 使用说话者检验的背景语音辨识助理 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280047262.2A Division CN103827963B (zh) | 2011-09-27 | 2012-09-20 | 使用说话者检验的背景语音辨识助理 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105719647A true CN105719647A (zh) | 2016-06-29 |
CN105719647B CN105719647B (zh) | 2019-09-13 |
Family
ID=47912244
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280047262.2A Active CN103827963B (zh) | 2011-09-27 | 2012-09-20 | 使用说话者检验的背景语音辨识助理 |
CN201610086211.0A Active CN105719647B (zh) | 2011-09-27 | 2012-09-20 | 使用说话者检验的背景语音辨识助理 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280047262.2A Active CN103827963B (zh) | 2011-09-27 | 2012-09-20 | 使用说话者检验的背景语音辨识助理 |
Country Status (3)
Country | Link |
---|---|
US (2) | US8768707B2 (zh) |
CN (2) | CN103827963B (zh) |
WO (1) | WO2013048876A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832444A (zh) * | 2017-07-13 | 2020-02-21 | 国际商业机器公司 | 用户界面声音发出活动分类 |
Families Citing this family (318)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US9652452B2 (en) | 2012-01-06 | 2017-05-16 | Yactraq Online Inc. | Method and system for constructing a language model |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US20130339030A1 (en) * | 2012-06-13 | 2013-12-19 | Fluential, Llc | Interactive spoken dialogue interface for collection of structured data |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9424840B1 (en) * | 2012-08-31 | 2016-08-23 | Amazon Technologies, Inc. | Speech recognition platforms |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9646610B2 (en) | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US10438591B1 (en) | 2012-10-30 | 2019-10-08 | Google Llc | Hotword-based speaker recognition |
US9959865B2 (en) * | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
US8645138B1 (en) * | 2012-12-20 | 2014-02-04 | Google Inc. | Two-pass decoding for speech recognition of search and action requests |
US9144028B2 (en) | 2012-12-31 | 2015-09-22 | Motorola Solutions, Inc. | Method and apparatus for uplink power control in a wireless communication system |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9112984B2 (en) | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US20140303982A1 (en) * | 2013-04-09 | 2014-10-09 | Yally Inc. | Phonetic conversation method and device using wired and wiress communication |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9711148B1 (en) | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
US9558749B1 (en) | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US10079019B2 (en) | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
GB2524222B (en) | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
CN105723451B (zh) * | 2013-12-20 | 2020-02-28 | 英特尔公司 | 从低功率始终侦听模式到高功率语音识别模式的转换 |
WO2015100430A1 (en) | 2013-12-24 | 2015-07-02 | Digimarc Corporation | Methods and system for cue detection from audio input, low-power data processing and related arrangements |
US9620116B2 (en) * | 2013-12-24 | 2017-04-11 | Intel Corporation | Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions |
US9460735B2 (en) | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
US20150302856A1 (en) * | 2014-04-17 | 2015-10-22 | Qualcomm Incorporated | Method and apparatus for performing function by speech input |
US9564123B1 (en) * | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US10031000B2 (en) | 2014-05-29 | 2018-07-24 | Apple Inc. | System on a chip with always-on processor |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9753916B2 (en) * | 2014-06-19 | 2017-09-05 | International Business Machines Corporation | Automatic generation of a speech by processing raw claims to a set of arguments |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
EP2999199B1 (en) * | 2014-09-16 | 2018-03-07 | Nxp B.V. | Mobile device |
CN105529025B (zh) * | 2014-09-28 | 2019-12-24 | 联想(北京)有限公司 | 一种语音操作输入方法及电子设备 |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9659564B2 (en) * | 2014-10-24 | 2017-05-23 | Sestek Ses Ve Iletisim Bilgisayar Teknolojileri Sanayi Ticaret Anonim Sirketi | Speaker verification based on acoustic behavioral characteristics of the speaker |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10609475B2 (en) | 2014-12-05 | 2020-03-31 | Stages Llc | Active noise control and customized audio system |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9653079B2 (en) | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP2016192121A (ja) * | 2015-03-31 | 2016-11-10 | ソニー株式会社 | 制御装置、制御方法及びコンピュータプログラム |
US10158734B2 (en) | 2015-04-01 | 2018-12-18 | Google Llc | Trigger associated notification delivery in an enterprise system |
CN106463112B (zh) * | 2015-04-10 | 2020-12-08 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
EP3125244B1 (en) * | 2015-07-28 | 2019-11-27 | Nxp B.V. | Audio classifier |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106653010B (zh) | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
DE102016205925A1 (de) * | 2016-04-08 | 2017-10-12 | Audi Ag | Verfahren und System zum Steuern einer Anwendungseinheit |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
GB2583988B (en) * | 2016-06-06 | 2021-03-31 | Cirrus Logic Int Semiconductor Ltd | Voice user interface |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
GB2552082A (en) * | 2016-06-06 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Voice user interface |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
ES2806204T3 (es) | 2016-06-15 | 2021-02-16 | Cerence Operating Co | Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados |
KR102474729B1 (ko) * | 2016-06-28 | 2022-12-05 | 한화테크윈 주식회사 | 모니터링 장치 |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US20180061408A1 (en) * | 2016-08-24 | 2018-03-01 | Semantic Machines, Inc. | Using paraphrase in accepting utterances in an automated assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10217453B2 (en) | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
WO2018085760A1 (en) | 2016-11-04 | 2018-05-11 | Semantic Machines, Inc. | Data collection for a new conversational dialogue system |
EP3535751A4 (en) | 2016-11-10 | 2020-05-20 | Nuance Communications, Inc. | METHOD FOR LANGUAGE-INDEPENDENT WAY RECOGNITION |
US10945080B2 (en) | 2016-11-18 | 2021-03-09 | Stages Llc | Audio analysis and processing system |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102668438B1 (ko) * | 2016-12-26 | 2024-05-24 | 현대자동차주식회사 | 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
WO2018148441A1 (en) | 2017-02-08 | 2018-08-16 | Semantic Machines, Inc. | Natural language content generator |
US10586530B2 (en) | 2017-02-23 | 2020-03-10 | Semantic Machines, Inc. | Expandable dialogue system |
US11069340B2 (en) | 2017-02-23 | 2021-07-20 | Microsoft Technology Licensing, Llc | Flexible and expandable dialogue system |
US10762892B2 (en) | 2017-02-23 | 2020-09-01 | Semantic Machines, Inc. | Rapid deployment of dialogue system |
CN107122179A (zh) | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US11132499B2 (en) | 2017-08-28 | 2021-09-28 | Microsoft Technology Licensing, Llc | Robust expandable dialogue system |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
KR102515023B1 (ko) * | 2018-02-23 | 2023-03-29 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10726829B2 (en) | 2018-02-28 | 2020-07-28 | Cirrus Logic, Inc. | Performing speaker change detection and speaker recognition on a trigger phrase |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
CN108768977A (zh) * | 2018-05-17 | 2018-11-06 | 东莞市华睿电子科技有限公司 | 一种基于语音验证的终端系统登录方法 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP7017643B2 (ja) * | 2018-12-03 | 2022-02-08 | グーグル エルエルシー | テキスト非依存話者認識 |
CN111258528B (zh) * | 2018-12-03 | 2021-08-13 | 华为技术有限公司 | 语音用户界面的显示方法和会议终端 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11017157B2 (en) | 2019-05-15 | 2021-05-25 | International Business Machines Corporation | Group pattern based electronic dictionary modification and presentation |
US10929596B2 (en) | 2019-05-15 | 2021-02-23 | International Business Machines Corporation | Pattern based electronic dictionary modification and presentation |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
EP3776175B1 (en) * | 2019-06-05 | 2023-10-18 | Google LLC | Action validation for digital assistant-based applications |
US20200388280A1 (en) | 2019-06-05 | 2020-12-10 | Google Llc | Action validation for digital assistant-based applications |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11355108B2 (en) | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
CN111640426A (zh) * | 2020-06-10 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11749267B2 (en) * | 2020-11-20 | 2023-09-05 | Google Llc | Adapting hotword recognition based on personalized negatives |
KR20220136750A (ko) | 2021-04-01 | 2022-10-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020002465A1 (en) * | 1996-02-02 | 2002-01-03 | Maes Stephane Herman | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US20040236569A1 (en) * | 2003-05-19 | 2004-11-25 | Nec Corporation | Voice response system |
CN1703923A (zh) * | 2002-10-18 | 2005-11-30 | 中国科学院声学研究所 | 一种便携式数字移动通讯设备及其语音控制方法和系统 |
CN1729507A (zh) * | 2002-12-20 | 2006-02-01 | 皇家飞利浦电子股份有限公司 | 对音频信号进行排序 |
US20080040114A1 (en) * | 2006-08-11 | 2008-02-14 | Microsoft Corporation | Reranking QA answers using language modeling |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别系统和语音识别方法 |
US20090327263A1 (en) * | 2008-06-25 | 2009-12-31 | Yahoo! Inc. | Background contextual conversational search |
CN101939740A (zh) * | 2007-12-11 | 2011-01-05 | 声钰科技 | 在集成语言导航服务环境中提供自然语言语音用户界面 |
US20110166855A1 (en) * | 2009-07-06 | 2011-07-07 | Sensory, Incorporated | Systems and Methods for Hands-free Voice Control and Voice Search |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US6965863B1 (en) | 1998-11-12 | 2005-11-15 | Microsoft Corporation | Speech recognition user interface |
US20020116196A1 (en) | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US20050261907A1 (en) | 1999-04-12 | 2005-11-24 | Ben Franklin Patent Holding Llc | Voice integration platform |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
IL146597A0 (en) | 2001-11-20 | 2002-08-14 | Gordon Goren | Method and system for creating meaningful summaries from interrelated sets of information |
US20030236663A1 (en) * | 2002-06-19 | 2003-12-25 | Koninklijke Philips Electronics N.V. | Mega speaker identification (ID) system and corresponding methods therefor |
US20040148170A1 (en) * | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US8335683B2 (en) * | 2003-01-23 | 2012-12-18 | Microsoft Corporation | System for using statistical classifiers for spoken language understanding |
EP1473708B1 (en) * | 2003-04-29 | 2007-10-17 | Sony Deutschland GmbH | Method for recognizing speech |
US7418392B1 (en) * | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
GB2409560B (en) | 2003-12-23 | 2007-07-25 | Ibm | Interactive speech recognition model |
US8589156B2 (en) | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US8014496B2 (en) * | 2004-07-28 | 2011-09-06 | Verizon Business Global Llc | Systems and methods for providing network-based voice authentication |
EP1794746A2 (en) | 2004-09-23 | 2007-06-13 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
US20060074658A1 (en) | 2004-10-01 | 2006-04-06 | Siemens Information And Communication Mobile, Llc | Systems and methods for hands-free voice-activated devices |
KR100695127B1 (ko) | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060085199A1 (en) | 2004-10-19 | 2006-04-20 | Yogendra Jain | System and method for controlling the behavior of a device capable of speech recognition |
WO2006055607A2 (en) | 2004-11-19 | 2006-05-26 | Definitive Business Solutions, Llc | Method and system for communication prioritization |
US7424431B2 (en) | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
GB0515708D0 (en) * | 2005-07-29 | 2005-09-07 | British Telecomm | Authentication apparatus |
US20070047719A1 (en) * | 2005-09-01 | 2007-03-01 | Vishal Dhawan | Voice application network platform |
US7822318B2 (en) | 2006-04-26 | 2010-10-26 | Sony Ericsson Mobile Communications Ab | Smart random media object playback |
WO2008014554A1 (en) * | 2006-08-01 | 2008-02-07 | Qpay Holdings Limited | Transaction authorisation system & method |
US7769593B2 (en) * | 2006-09-28 | 2010-08-03 | Sri International | Method and apparatus for active noise cancellation |
KR20080052304A (ko) | 2006-12-06 | 2008-06-11 | 한국전자통신연구원 | 응답 문장 생성 장치 및 방법 |
US8140325B2 (en) | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
US20110054900A1 (en) | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US7881933B2 (en) * | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
EP2216775B1 (en) | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
US9049503B2 (en) * | 2009-03-17 | 2015-06-02 | The Hong Kong Polytechnic University | Method and system for beamforming using a microphone array |
US8886542B2 (en) * | 2009-08-26 | 2014-11-11 | Roger Lagadec | Voice interactive service system and method for providing different speech-based services |
US20120052907A1 (en) * | 2010-08-30 | 2012-03-01 | Sensory, Incorporated | Hands-Free, Eyes-Free Mobile Device for In-Car Use |
US8395503B2 (en) | 2010-09-23 | 2013-03-12 | Altorr Corporation | Automatic door |
US8781825B2 (en) | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US8996381B2 (en) | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8452597B2 (en) * | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
-
2011
- 2011-12-16 US US13/329,017 patent/US8768707B2/en active Active
-
2012
- 2012-09-20 WO PCT/US2012/056351 patent/WO2013048876A1/en active Application Filing
- 2012-09-20 CN CN201280047262.2A patent/CN103827963B/zh active Active
- 2012-09-20 CN CN201610086211.0A patent/CN105719647B/zh active Active
-
2014
- 2014-05-16 US US14/280,261 patent/US9142219B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020002465A1 (en) * | 1996-02-02 | 2002-01-03 | Maes Stephane Herman | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
CN1703923A (zh) * | 2002-10-18 | 2005-11-30 | 中国科学院声学研究所 | 一种便携式数字移动通讯设备及其语音控制方法和系统 |
CN1729507A (zh) * | 2002-12-20 | 2006-02-01 | 皇家飞利浦电子股份有限公司 | 对音频信号进行排序 |
US20040236569A1 (en) * | 2003-05-19 | 2004-11-25 | Nec Corporation | Voice response system |
US20080040114A1 (en) * | 2006-08-11 | 2008-02-14 | Microsoft Corporation | Reranking QA answers using language modeling |
CN101266792A (zh) * | 2007-03-16 | 2008-09-17 | 富士通株式会社 | 语音识别系统和语音识别方法 |
CN101939740A (zh) * | 2007-12-11 | 2011-01-05 | 声钰科技 | 在集成语言导航服务环境中提供自然语言语音用户界面 |
US20090327263A1 (en) * | 2008-06-25 | 2009-12-31 | Yahoo! Inc. | Background contextual conversational search |
US20110166855A1 (en) * | 2009-07-06 | 2011-07-07 | Sensory, Incorporated | Systems and Methods for Hands-free Voice Control and Voice Search |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832444A (zh) * | 2017-07-13 | 2020-02-21 | 国际商业机器公司 | 用户界面声音发出活动分类 |
CN110832444B (zh) * | 2017-07-13 | 2024-05-28 | 勤达睿公司 | 用户界面声音发出活动分类 |
Also Published As
Publication number | Publication date |
---|---|
US8768707B2 (en) | 2014-07-01 |
WO2013048876A1 (en) | 2013-04-04 |
CN103827963A (zh) | 2014-05-28 |
CN105719647B (zh) | 2019-09-13 |
US20130080167A1 (en) | 2013-03-28 |
US9142219B2 (en) | 2015-09-22 |
CN103827963B (zh) | 2016-03-16 |
US20140257812A1 (en) | 2014-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103827963B (zh) | 使用说话者检验的背景语音辨识助理 | |
US8996381B2 (en) | Background speech recognition assistant | |
US20210183366A1 (en) | Speech recognition through disambiguation feedback | |
US10685669B1 (en) | Device selection from audio data | |
US10176810B2 (en) | Using voice information to influence importance of search result categories | |
US10360265B1 (en) | Using a voice communications device to answer unstructured questions | |
JP6667504B2 (ja) | オーファン発話検出システム及び方法 | |
US7797305B2 (en) | Method for intelligent consumer earcons | |
CN104620314B (zh) | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 | |
WO2017071182A1 (zh) | 一种语音唤醒方法、装置及系统 | |
CN110136727A (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN106406806A (zh) | 一种用于智能设备的控制方法及装置 | |
CN112466302B (zh) | 语音交互的方法、装置、电子设备和存储介质 | |
US10504512B1 (en) | Natural language speech processing application selection | |
US11195522B1 (en) | False invocation rejection for speech processing systems | |
US11315552B1 (en) | Responding with unresponsive content | |
US12032611B1 (en) | Responding with unresponsive content | |
US11694682B1 (en) | Triggering voice control disambiguation | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
JP2019124952A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
US11854040B1 (en) | Responding with unresponsive content | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
US11580974B2 (en) | Method for exiting a voice skill, apparatus, device and storage medium | |
CN113555016A (zh) | 语音交互方法、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |