CN104282305B - 语音对话系统中用于结果仲裁的系统和方法 - Google Patents

语音对话系统中用于结果仲裁的系统和方法 Download PDF

Info

Publication number
CN104282305B
CN104282305B CN201410329815.4A CN201410329815A CN104282305B CN 104282305 B CN104282305 B CN 104282305B CN 201410329815 A CN201410329815 A CN 201410329815A CN 104282305 B CN104282305 B CN 104282305B
Authority
CN
China
Prior art keywords
recognition result
result
module
confidence level
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410329815.4A
Other languages
English (en)
Other versions
CN104282305A (zh
Inventor
R.D.辛斯三世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/311,750 external-priority patent/US9715878B2/en
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN104282305A publication Critical patent/CN104282305A/zh
Application granted granted Critical
Publication of CN104282305B publication Critical patent/CN104282305B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

本发明涉及一种用于仲裁语音对话结果的方法,包括:从环境内的用户接收语音发音;从第一源接收与语音发音相关联的第一识别结果和第一置信水平;从第二源接收与语音发音相关联的第二识别结果和第二置信水平;接收与用户相关联的人机界面(HMI)信息;基于第一置信水平、第二置信水平和HMI信息中的至少一个,在第一识别结果和第二识别结果之间进行选择。

Description

语音对话系统中用于结果仲裁的系统和方法
相关申请的交叉引用
本申请要求享有2013年7月12日提交的美国临时专利申请61/845798的优先权,该临时申请的全部内容在此通过引用并入本申请中。
技术领域
本发明技术领域总体涉及语音系统,并且更具体而言涉及在可用的语音识别结果之间进行选择的方法和系统。
背景技术
车辆语音对话系统(或“语音系统”)基于由车辆的乘客所发出的语音来执行语音识别及其它。语音发音通常包括命令,这些命令与车辆的一个或多个特征以及车辆可访问的其它系统进行通信或者对它们进行控制。语音系统响应于语音发音生成语音命令,并且在一些情况下,响应于语音识别而生成语音命令,其需要进一步的信息以便执行语音识别。
越来越多地,可以通过用户环境内的多个装置以及外部可用服务器来提供语音识别功能。在车辆语音对话系统的情境中,例如,由用户的移动装置(通过驻留在移动装置上的一个或多个应用)、车辆的车载语音系统、以及外部第三方服务器(其通过网络联接到车载通信网络)同时获得语音识别结果并非罕见。此外,系统产生语音识别结果所需要的时间以及与这些结果相关联的置信水平可能差别很大。
因此,期望提供在语音系统中用于选择或“仲裁”语音识别结果的改善的方法和系统。另外,本发明的其它所期望的特征和特性将从结合附图以及前述技术领域和背景技术的下述详细说明和权利要求变得清楚。
发明内容
根据一个实施例的用于仲裁语音对话结果的方法包括:从环境内的用户接收语音发音;从第一源接收与语音发音相关联的第一识别结果和第一置信水平;从第二源接收与语音发音相关联的第二识别结果和第二置信水平;接收与用户相关联的人机界面(HMI)信息;基于第一置信水平、第二置信水平和HMI信息中的至少一个,在第一识别结果和第二识别结果之间进行选择。
根据一个实施例的车辆中的用于仲裁语音对话结果的系统包括:语义解释模块、快捷模块和结果选择模块。语义解释模块构造成从环境内的用户接收语音发音,从第一源接收与语音发音相关联的第一识别结果和第一置信水平,以及从第二源接收与语音发音相关联的第二识别结果和第二置信水平。快捷模块构造成当第一置信水平高于阈值时选择第一识别结果。结果选择模块构造成当第一置信水平大于第二置信水平并且第一置信水平不高于阈值时选择第一识别结果。
此外,本发明还涉及以下技术方案。
1. 一种用于仲裁语音对话结果的方法,所述方法包括:
从环境内的用户接收语音发音;
从第一源接收与所述语音发音相关联的第一识别结果和第一置信水平;
从第二源接收与所述语音发音相关联的第二识别结果和第二置信水平;
接收与所述用户相关联的人机界面(HMI)信息;
基于所述第一置信水平、所述第二置信水平和所述HMI信息中的至少一个,在所述第一识别结果和所述第二识别结果之间进行选择。
2. 如技术方案1所述的方法,其中,在所述第一识别结果和所述第二识别结果之间进行选择包括如果所述第一置信水平高于阈值则选择所述第一识别结果。
3. 如技术方案2所述的方法,进一步包括,如果所述第一置信水平不高于所述阈值并且所述第一置信水平大于所述第二置信水平,则选择所述第一识别结果。
4. 如技术方案1所述的方法,其中,所述第一识别结果的至少一部分是预定的识别结果。
5. 如技术方案1所述的方法,其中,所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。
6. 如技术方案5所述的方法,其中,所述语言槽类型包括人名和地址中的至少一个。
7. 如技术方案1所述的方法,其中,在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。
8. 一种车辆中用于仲裁语音对话结果的系统,所述系统包括:
语义解释模块,所述语义解释模块构造成从环境内的用户接收语音发音,从第一源接收与所述语音发音相关联的第一识别结果和第一置信水平,以及从第二源接收与所述语音发音相关联的第二识别结果和第二置信水平;
快捷模块,所述快捷模块构造成当所述第一置信水平高于阈值时选择所述第一识别结果;以及
结果选择模块,所述结果选择模块构造成当所述第一置信水平大于所述第二置信水平并且所述第一置信水平不高于所述阈值时选择所述第一识别结果。
9. 如技术方案4所述的系统,其中,所述结果选择模块构造成接收HMI状态信息,并且还构造成部分地基于所述HMI状态信息选择所述第一识别结果。
10. 如技术方案8所述的系统,其中,所述第一识别结果的至少一部分是预定的识别结果。
11. 如技术方案8所述的系统,其中,所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。
12. 如技术方案11所述的系统,其中,所述语言槽类型包括人名和地址中的至少一个。
13. 如技术方案11所述的系统,其中,在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。
14. 如技术方案10所述的系统,还包括事件计时器模块,所述事件计时器模块构造成确定当所述第一识别结果被接收时相关联的第一时间,确定当所述第二识别结果被接收时相关联的第二时间,并且,所述结果选择模块构造成部分地基于所述第一时间和所述第二时间来选择所述第一识别结果。
15. 如技术方案14所述的系统,还包括输出模块,所述输出模块构造成为用户提供所选择的第一识别结果,并且为所述事件计时器模块提供重置信号。
16. 一种非暂时性计算机可读介质,所述计算机可读介质承载软件指令,所述软件指令构造成使得处理器通过执行以下步骤来仲裁语音对话结果:
从环境内的用户接收语音发音;
从第一源接收与所述语音发音相关联的第一识别结果和第一置信水平;
从第二源接收与所述语音发音相关联的第二识别结果和第二置信水平;
接收与所述用户相关联的人机界面(HMI)信息;
基于所述第一置信水平、所述第二置信水平和所述HMI信息中的至少一个,在所述第一识别结果和所述第二识别结果之间进行选择。
17. 如技术方案16所述的计算机可读介质,其中,所述软件指令还使得所述处理器:如果所述第一置信水平高于阈值则选择所述第一识别结果,从而在所述第一识别结果和所述第二识别结果之间进行选择。
18. 如技术方案16所述的计算机可读介质,其中,所述软件指令还使得所述处理器:如果所述第一置信水平不高于所述阈值并且所述第一置信水平大于所述第二置信水平,则选择所述第一识别结果。
19. 如技术方案16所述的计算机可读介质,其中,所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。
20. 如技术方案16所述的计算机可读介质,其中,所述语言槽类型包括人名和地址中的至少一个。
附图说明
以下将结合所附的附图描述示例性实施例,其中相同的附图标记表示相同的元件,并且其中:
图1是根据各个示例性实施例的包括语音系统的车辆的功能性框图;
图2是描述根据一个实施例的方法的流程图;以及
图3是示出根据示例性实施例的语音识别仲裁系统的功能性框图。
具体实施方式
以下的详细描述本质上仅是示例性的且并不意在限制其应用和用途。另外,不应被在前述技术领域、背景技术、发明内容或以下的详细描述中所给出的任何明示或暗示的理论所束缚。如本文中所用,术语“模块”是指专用集成电路(ASIC)、电子电路、处理器(共享,专用或成组的)以及执行一种或多种软件或固件程序的存储器、组合逻辑电路和/或提供所述功能的其它适合的构件。
现在参考图1,根据本文描述的主题的示例性实施例,在车辆12内设有语音对话系统(或简称“语音系统”)10。总体而言,语音系统10通过人机界面模块(HMI)14为一个或多个车辆系统提供语音识别、对话管理以及语音生成,人机界面模块14构造成由一个或多个用户40(例如,驾驶员、乘客等)来操作(或与其交互)。这样的车辆系统可包括例如电话系统16、导航系统18、媒体系统20、远程信息系统22、网络系统24以及可包括依赖语音的应用的任何其它车辆系统。在一些实施例中,一个或多个车辆系统通信地联接到网络(例如,专属网络、4G网络等),提供与一个或多个后端服务器26的数据通信。
在车辆12内还可以存在一个或多个移动装置50,包括各种智能电话、平板电脑、功能型电话等。移动装置50还可以通过适当的无线连接(例如,蓝牙或WiFi)通信地联接到HMI14,使得移动装置50上驻留的一个或多个应用能够通过HMI14被用户40访问。因此,用户40将通常能够访问在三个不同平台上运行的应用:在车辆系统自身内执行的应用,在移动装置50上配置的应用,以及在后端服务器26上驻留的应用。此外,这些应用中的一个或多个可以根据它们各自语音对话系统操作,并且因此多个装置能够在不同程度上响应于用户40所说出的请求。
语音系统10通过通信总线和/或其它数据通信网络29(例如,有线的、短距离无线或长距离无线)与车辆系统14、16、18、20、22、24和26通信。通信总线可以是例如控制器局域网络(CAN)总线、本地互联网络(LIN)总线等。将认识到的是,语音系统10可以用于包括一个或多个依赖语音的应用的基于车辆的环境和非基于车辆的环境,并且本文提供的基于车辆的示例被阐述而不失一般性。
如图所示,语音系统10包括语音理解模块32、对话管理器模块34和语音生成模块35。这些功能模块可以实现为分开的系统或组合的、集成的系统。总体而言,HMI模块14从用户40接收声学信号(或称“语音发音”)41,该声学信号41被提供给语音理解模块32。
语音理解模块32包括构造成使用合适的语音识别技术处理来自HMI模块14(通过一个或多个麦克风52接收)的语音发音的硬件和/或软件的任意组合,合适的语音识别技术包括例如自动语音识别和语义解码(或口语理解(SLU))。使用这些技术,语音理解模块32由语音发音生成可能结果的结果列表(或多个列表)33。在一个实施例中,结果列表33包括一个或多个句子假设,句子假设代表了可能由用户40说出的发音集合(例如,发音41)上的可能性分布。列表33可以采用例如N最佳列表的形式。在各个实施例中,语音理解模块32使用存储在数据库中的预定可能(predefined possibilities)生成结果列表(“语音识别结果”或简称“结果”)33。例如,预定可能可以是存储在电话簿中的名字或号码、存储在地址簿中的名字或地址、存储在音乐目录中的歌曲名、专辑或艺术家,等等。在一个实施例中,语音理解模块32采用前端特征提取,接着是隐马尔科夫模型(HMM)以及评分机制。如以下更加详细所述,语音理解模块32可以在从多个装置和/或系统接收到的多个语音识别结果之间仲裁,以产生最终的结果列表33。
对话管理器模块34包括构造成基于列表33来管理交互序列以及选择将要说给用户的语音提示42的硬件和/或软件的任意组合。当列表包含多于一个可能的结果时,对话管理器模块34使用消除歧义策略,以便管理与用户的提示对话,使得能够确定所识别的结果。根据示例性实施例,对话管理器模块34能够管理对话上下文,如以下更加详细所述。
语音生成模块35包括构造成基于由对话管理器34所确定的对话来生成给用户40的语音提示42的硬件和/或软件的任意组合。在此方面,语音生成模块35将通常提供自然语言生成(NLG)和语音合成,或文本至语音转换(TTS)。
结果列表33包括代表可能结果的一个或多个要素。在各实施例中,列表的各要素包括一个或多个“槽”,根据应用,每个槽与语言槽类型相关联。例如,如果应用支持打电话给电话簿联系人(例如,“呼叫John Doe”),则每个要素可以包括带有名字、中间名、和/或姓氏的槽类型的槽。在另一示例中,如果应用支持导航(例如,“去1111阳光大道”),则每个要素可以包括带有房子号码和大街名称等的槽类型的槽。在各实施例中,槽和槽类型可以存储在数据库中,并且可以由任何一个所示系统访问。列表33的每个要素或槽与置信分数相关联。
除了语音对话之外,用户40还可以通过各种按钮、开关、触摸屏用户界面元件、姿态(例如,由车辆12内所设置的一个或多个摄像机所识别的手势)等与HMI14交互。在一个实施例中,按钮54(例如,“按下讲话”按钮或简称为“讲话按钮”)设置在一个或多个用户40容易够到的范围内。例如,按钮54可以嵌入在方向盘56中。
现在参考图3,现在将结合图2中描述的示例性仲裁方法200来描述根据一个实施例的语音识别仲裁系统300。在一些实施例中,系统300被实现为图1所描述的语音理解模块32的一部分。在其它实施例中,系统300驻留在图1中所描述的一个或多个其它模块中。
在所示的实施例中,系统300包括事件计时器模块308、语义解释模块310、快捷模块312、结果选择模块314、当前HMI状态信息306、以及输出模块318。事件计时器模块308构造成接受多个语音识别结果(或简称“结果”)301-305(步骤202,图2)。语音识别结果301-305可以由多个源获得和/或可以对应于通过多个语音识别技术所产生的结果。例如,结果301可能对应于通过统计语言模型(SLM)的应用产生的结果,而结果302可能对应于通过有限状态语法(FSG)应用于同一语音发音而产生的结果。类似地,结果303可以由车载(或“嵌入的”)语音识别系统产生,诸如导航系统,而结果305可能由外部服务器(例如,图1中的服务器26)产生。
事件计时器模块308构造成接收各个结果301-305,并且确定接收到每个结果的时间(步骤204,图2)。即,例如,结果301可能在特定时间(例如,发音被提交用于解释的时间)之后的200毫秒(ms)被接收,而结果305(来自外部服务器)可能在该特定时间之后的3.0秒被接收。
语义解释模块310构造成接收结果301-305以及来自事件计时器模块308的计时信息,并且构造成应用适当的方法以便确定可应用于所接收结果的对话上下文和/或各种“槽”,如上所述(步骤206,图2)。即,语义解释模块310构造成确定所接收结果的语义含义,并且还确定每个解释的置信水平。语义解释模块310还可以从一个或多个源接收之前解释的结果,例如来自外部服务器的结果305。
快捷模块312构造成从各个源接收解释的结果,并且确定(步骤208)是否被解释的结果之一具有充分高的置信度(即,高于预先确定的阈值)。如果是,则解释的结果被直接传递给输出模块318(步骤210),从而避免可能由接下来的处理所带来的任何延迟。如同可由本领域技术人员理解的,预先确定的阈值可以根据结果301-305以及语义解释模块310的性质而变化。
在步骤208,如果确定没有解释的结果的置信度水平高于预先确定的阈值,则结果选择模块314基于与每个结果相关联的置信度水平以及HMI状态信息306在解释的结果之间进行选择(步骤211,图2)。在此方面,HMI状态信息306包括与图1的HMI14的当前操作模式相关的任何信息。这种信息可能包括例如,触摸屏上的当前屏幕,环境内的任何按钮(例如,讲话按钮)的状态,用户是否正在与特定互联网主机(例如,Google Maps、Pandora等)交互,用户是否正在与媒体交互,当前对话状态,正显示给用户的内容,与车辆的状态相关的信息(例如,静止或移动),等等。使用HMI状态信息306允许结果选择模块314做出更智能的选择。例如,如果用户正在与外部服务器上的Google Maps交互,则结果选择模块314将典型地等待外部结果305被接收,即使这些结果可能比来自其它源的结果更晚地被接收到(因为显然用户希望使用特定地来自该服务器的结果)。
输出模块318构造成提供所选择的解释结果330作为输出(即,来自快捷模块312的快捷结果或者来自结果选择模块314的所选择结果)。在此方面,结果330可能对应于图1中所示出的结果列表33。输出模块318还构造成重置事件计时器模块308(即,将等待计时器设置回零)。
根据一个实施例,与系统300的操作有关的历史数据被用于训练系统300的各个构件,例如,更新语义解释模块310和结果选择模块314所用的模型。
尽管已经在前述详细说明中给出了至少一个示例性实施例,但应该懂得存在很多变化。还应当意识到,一个或多个示例性实施例仅是示例,并不意在以任何方式限制本发明的范围、应用或构造。相反,前述详细说明为本领域技术人员提供了一种简便的方法来实施一个或多个示例性实施例。应当理解,在不偏离由权利要求书及其法律等同物阐明的本发明范围的情况下,可对元件的功能和布置作出各种改变。

Claims (6)

1.一种车辆中用于仲裁语音对话结果的系统,所述系统包括:
事件计时器模块,其包括处理器,所述事件计时器模块构造成:
从第一源接收与语音发音相关联的第一识别结果;
从第二源接收与所述语音发音相关联的第二识别结果;
确定当所述第一识别结果被接收时相关联的第一时间;以及
确定当所述第二识别结果被接收时相关联的第二时间;
语义解释模块,其包括处理器,所述语义解释模块构造成接收第一识别结果并且确定与第一识别结果相关联的第一置信水平,以及接收第二识别结果并且确定与第二识别结果相关联的第二置信水平;
快捷模块,其包括处理器,所述快捷模块构造成确定第一置信水平是否高于阈值并且如果第一置信水平高于阈值则提供第一识别结果给输出模块;
结果选择模块,其包括处理器,所述结果选择模块构造成当第一置信水平不高于阈值且第一置信水平大于第二置信水平时,选择第一识别结果并提供第一识别结果给输出模块,其中所述结果选择模块还构造成部分地基于第一时间和第二时间选择第一识别结果。
2.如权利要求1所述的系统,其中,所述输出模块构造成为用户提供所选择的第一识别结果,并且为所述事件计时器模块提供重置信号。
3.如权利要求1所述的系统,其中,所述第一识别结果的至少一部分是预定的识别结果。
4.如权利要求1所述的系统,其中,所述第一识别结果中的每一个包括与对应的槽类型相关联的一个或多个语言槽。
5.如权利要求4所述的系统,其中,所述语言槽类型包括人名和地址中的至少一个。
6.如权利要求1所述的系统,其中,通过结果选择模块在所述第一识别结果和所述第二识别结果之间进行选择包括基于隐马尔科夫模型进行选择。
CN201410329815.4A 2013-07-12 2014-07-11 语音对话系统中用于结果仲裁的系统和方法 Expired - Fee Related CN104282305B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201361845798P 2013-07-12 2013-07-12
US61/845,798 2013-07-12
US61/845798 2013-07-12
US14/311750 2014-06-23
US14/311,750 2014-06-23
US14/311,750 US9715878B2 (en) 2013-07-12 2014-06-23 Systems and methods for result arbitration in spoken dialog systems

Publications (2)

Publication Number Publication Date
CN104282305A CN104282305A (zh) 2015-01-14
CN104282305B true CN104282305B (zh) 2018-04-24

Family

ID=52107469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410329815.4A Expired - Fee Related CN104282305B (zh) 2013-07-12 2014-07-11 语音对话系统中用于结果仲裁的系统和方法

Country Status (2)

Country Link
CN (1) CN104282305B (zh)
DE (1) DE102014109122A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN110737420B (zh) * 2018-07-19 2023-04-28 博泰车联网科技(上海)股份有限公司 语音冲突管理方法、系统、计算机可读存储介质及设备
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN109949817B (zh) * 2019-02-19 2020-10-23 一汽-大众汽车有限公司 基于双操作系统双语音识别引擎的语音仲裁方法及装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
JP7338493B2 (ja) * 2020-01-29 2023-09-05 トヨタ自動車株式会社 エージェント装置、エージェントシステム及びプログラム
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1115902A (zh) * 1993-10-27 1996-01-31 美国电报电话公司 利用置信度测度的自动语音识别(asr)处理
US6697782B1 (en) * 1999-01-18 2004-02-24 Nokia Mobile Phones, Ltd. Method in the recognition of speech and a wireless communication device to be controlled by speech
CN1909063A (zh) * 2005-08-04 2007-02-07 哈曼贝克自动系统股份有限公司 集成语音对话系统
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN102074230A (zh) * 2009-11-20 2011-05-25 索尼公司 语音识别装置、语音识别方法和程序
CN102138175A (zh) * 2008-07-02 2011-07-27 谷歌公司 具有并行识别任务的语音识别
CN102292765A (zh) * 2009-01-22 2011-12-21 微软公司 用于发言处理的识别器的基于标记语言的选择和利用
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN103177721A (zh) * 2011-12-26 2013-06-26 中国电信股份有限公司 语音识别方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1115902A (zh) * 1993-10-27 1996-01-31 美国电报电话公司 利用置信度测度的自动语音识别(asr)处理
US6697782B1 (en) * 1999-01-18 2004-02-24 Nokia Mobile Phones, Ltd. Method in the recognition of speech and a wireless communication device to be controlled by speech
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
CN1909063A (zh) * 2005-08-04 2007-02-07 哈曼贝克自动系统股份有限公司 集成语音对话系统
CN102138175A (zh) * 2008-07-02 2011-07-27 谷歌公司 具有并行识别任务的语音识别
CN102292765A (zh) * 2009-01-22 2011-12-21 微软公司 用于发言处理的识别器的基于标记语言的选择和利用
CN102074230A (zh) * 2009-11-20 2011-05-25 索尼公司 语音识别装置、语音识别方法和程序
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102543071A (zh) * 2011-12-16 2012-07-04 安徽科大讯飞信息科技股份有限公司 用于移动设备的语音识别系统和方法
CN103177721A (zh) * 2011-12-26 2013-06-26 中国电信股份有限公司 语音识别方法和系统

Also Published As

Publication number Publication date
CN104282305A (zh) 2015-01-14
DE102014109122A1 (de) 2015-01-15

Similar Documents

Publication Publication Date Title
CN104282305B (zh) 语音对话系统中用于结果仲裁的系统和方法
CN104284257B (zh) 用于口头对话服务仲裁的系统和方法
US9396727B2 (en) Systems and methods for spoken dialog service arbitration
JP7044415B2 (ja) ホームアシスタント装置を制御するための方法及びシステム
US20150039316A1 (en) Systems and methods for managing dialog context in speech systems
US11669300B1 (en) Wake word detection configuration
US11763808B2 (en) Temporary account association with voice-enabled devices
AU2012227294B2 (en) Speech recognition repair using contextual information
US9202459B2 (en) Methods and systems for managing dialog of speech systems
US9123341B2 (en) System and method for multi-modal input synchronization and disambiguation
CN109710727B (zh) 用于自然语言处理的系统和方法
US20190378500A1 (en) Temporary account association with voice-enabled devices
US20090299745A1 (en) System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9715877B2 (en) Systems and methods for a navigation system utilizing dictation and partial match search
CN109741735B (zh) 一种建模方法、声学模型的获取方法和装置
CN105047196A (zh) 语音识别系统中的语音假象补偿系统和方法
KR20220143683A (ko) 전자 개인 비서 조정
US20150019225A1 (en) Systems and methods for result arbitration in spoken dialog systems
CN107808662B (zh) 更新语音识别用的语法规则库的方法及装置
EP3776300A1 (en) Temporary account association with voice-enabled devices
WO2020033187A1 (en) Systems and devices for controlling network applications
US9858918B2 (en) Root cause analysis and recovery systems and methods
JP2020101778A (ja) 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
KR20180075009A (ko) 음성 처리 장치, 이를 포함하는 차량 및 음성 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180424

Termination date: 20210711