CN102693725A - 依赖于文本信息语境的语音识别 - Google Patents

依赖于文本信息语境的语音识别 Download PDF

Info

Publication number
CN102693725A
CN102693725A CN201210081427XA CN201210081427A CN102693725A CN 102693725 A CN102693725 A CN 102693725A CN 201210081427X A CN201210081427X A CN 201210081427XA CN 201210081427 A CN201210081427 A CN 201210081427A CN 102693725 A CN102693725 A CN 102693725A
Authority
CN
China
Prior art keywords
text message
identification
hypothesis
linguistic context
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210081427XA
Other languages
English (en)
Inventor
G.塔尔瓦
X.赵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
General Motors Co
Original Assignee
General Motors Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Motors Co filed Critical General Motors Co
Publication of CN102693725A publication Critical patent/CN102693725A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及依赖于文本信息语境的语音识别,提供了一种自动语音识别方法。通过麦克风从用户接收对文本信息的回复话语,所述麦克风将所述回复话语转换为语音信号。使用至少一个处理器处理所述语音信号,以从所述语音信号提取声音数据。使用与所述文本信息相关的会话语境从多个声音模型中识别一个声音模型,以解码所述声音数据。使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设。

Description

依赖于文本信息语境的语音识别
技术领域
本发明总地涉及语音信号处理。
背景技术
通常,语音信号处理包括处理电气和/或电子信号,用于识别或合成语音。语音合成是通过人工方式从文本到语音的产物,文本到语音(TTS)系统给传统的计算机到人的视觉输出装置(例如计算机监视器或显示器)提供了替代方案。相反,自动语音识别(ASR)技术使配备了麦克风的计算装置能够转译语音,从而为传统的人到计算机的触觉输入装置(例如键盘或键区)提供了替代方案。
在某些环境下,TTS和ASR技术被组合以为用户提供与系统交互的免提音频。例如,车辆中的远程信息处理系统可接收文本信息、使用TTS技术将信息以音频形式展现给驾驶员、接收驾驶员的回复话语、并将回复转至服务器,该服务器识别所述回复并产生和发送相应的文本信息响应。语音识别通常是困难的任务,特别是在处理现代文本信息的陌生缩略语和其它口语特色时。
发明内容
根据本发明的一个实施例,提供了一种自动语音识别方法,包括下列步骤:
a) 通过麦克风从用户接收对文本信息的回复话语,所述麦克风将所述回复话语转换为语音信号;
b) 使用至少一个处理器预处理所述语音信号,以从所述语音信号提取声音数据;
c) 使用与所述文本信息相关的会话语境识别多个声音模型中的一个声音模型,以解码所述声音数据;以及
d) 使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设。
根据本发明的另一实施例,提供了一种自动语音识别方法,包括下列步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的特定会话语境语言模型处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器发送所述合成的语音至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器预处理所述语音信号,以从接收的所述语音信号提取声音数据;
g) 将提取的声音数据和识别的会话语境发送至语音识别服务器;
h) 使用识别的会话语境识别存储在所述服务器上的多个声音模型中的一个声音模型,以解码所述声音数据;
i) 使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;以及
j) 后处理所述多个假设,以将所述假设之一识别为所述回复话语。
根据本发明的另一实施例,提供了一种自动语音识别方法,包括下列步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的特定会话语境语言模型处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器发送所述合成的语音至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器预处理所述语音信号,以从接收的所述语音信号提取声音数据;
g) 使用与所述文本信息相关的识别的会话语境,识别所述多个声音模型中的一个声音模型,以解码所述声音数据;
h) 使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;以及
i) 确定与所述回复话语的多个假设的至少一个相关的信任值是否大于或小于信任阈值;
j) 如果所述信任值被确定为小于所述信任阈值,那么将提取的声音数据和会话语境发送至语音识别服务器,否则后处理所述多个假设,以将所述假设之一识别为所述回复话语,并从所述客户端装置输出所述识别的假设作为回复的文本信息的至少一部分;
h) 使用识别的会话语境在所述服务器识别存储在所述服务器的多个声音模型中的一个声音模型,以解码所述声音数据;
i) 使用在所述服务器识别的所述声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;
j) 后处理所述多个假设,以将所述假设之一识别为所述回复话语;以及
k) 从所述服务器输出所述识别的假设作为回复的文本信息的至少一部分。
本发明提供下列技术方案。
技术方案1:一种自动语音识别方法,包括下列步骤:
a) 通过麦克风从用户接收对文本信息的回复话语,所述麦克风将所述回复话语转换为语音信号;
b) 使用至少一个处理器来预处理所述语音信号,以从所述语音信号提取声音数据;
c) 使用与所述文本信息相关的会话语境来识别多个声音模型中的一个声音模型,以解码所述声音数据;以及
d) 使用识别的声音模型来解码所述声音数据,以产生用于所述回复话语的多个假设。
技术方案2:如技术方案1的方法,还包括如下步骤:
e) 后处理所述多个假设,以将所述假设中的一个识别为所述回复话语。
技术方案3:如技术方案2的方法,还包括如下步骤:
f) 将所述识别的假设展现给用户;
g) 从用户寻求所述识别的假设为正确的确认;以及
h) 如果用户确定所述识别的假设是正确的,那么输出所述识别的假设作为回复文本信息的至少一部分。
技术方案4:如技术方案3的方法,还包括如下步骤:
i) 处理所述文本信息,利用会话语境特定的语言模型识别对应于所述文本信息的会话语境,以及利用情感语境特定的语言模型识别对应于所述文本信息的情感语境,其中所述语言模型存储在客户端装置上;以及
j) 使用所述情感语境来完善所述声音模型的识别。
技术方案5:如技术方案2的方法,还包括如下步骤:
f) 利用识别的假设来改编所述多个声音模型,用以随时间完善语音识别性能。
技术方案6:如技术方案5的方法,其中步骤a)和b)在语音识别客户端装置上执行,步骤c)至f)在语音识别服务器上执行。
技术方案7:如技术方案6的方法,其中改编步骤f)还包括使用所述识别的假设改编存储在所述服务器上的多个语境特定的语言模型,和将所述多个语境特定的语言模型从所述服务器发送至所述客户端装置,以更新存储在所述客户端装置上的语言模型,用以随时间改善文本信息语境分类。
技术方案8:如技术方案6的方法,还包括如下步骤:
在所述语音识别客户端装置接收文本信息;
处理所述文本信息,利用会话语境特定的语言模型来识别对应于所述文本信息的会话语境,和利用情感语境特定的语言模型来识别对应于所述文本信息的情感语境,其中所述语言模型存储在客户端装置上;以及
发送所述识别的会话和情感语境至所述语音识别服务器。
技术方案9:如技术方案1的方法,所述识别和解码步骤c)和d)起初使用语音识别客户端来执行。
技术方案10:如技术方案1的方法,还包括如下步骤:
确定与用于所述回复话语的多个假设中的至少一个相关的信任值是否大于信任阈值;以及
如果所述信任值被确定为小于所述信任阈值,那么将所述提取的声音数据和所述会话语境发送至语音识别服务器;否则
后处理所述多个假设,以将所述假设中的一个识别为所述回复话语;以及
从所述客户端装置输出所述识别的假设作为回复文本信息的至少一部分。
技术方案11:一种自动语音识别方法,包括如下步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的会话语境特定的语言模型来处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器将所述合成的语音发送至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器来预处理所述语音信号,以从所述接收的语音信号提取声音数据;
g) 将所述提取的声音数据和识别的会话语境发送至语音识别服务器;
h) 使用识别的会话语境来识别存储在所述服务器上的多个声音模型中的一个声音模型,以解码所述声音数据;
i) 使用识别的声音模型来解码所述声音数据,以产生用于所述回复话语的多个假设;以及
j) 后处理所述多个假设,以将所述假设之一识别为所述回复话语。
技术方案12:如技术方案11的方法,还包括如下步骤:
k) 使用识别的假设来改编所述多个声音模型,用于随时间完善语音识别性能。
技术方案13:如技术方案12的方法,其中所述改编步骤还包括使用识别的假设来改编存储在所述服务器上的多个语境特定的语言模型,并将所述多个语境特定的语言模型从所述服务器传送至所述客户端装置,以更新存储在所述客户端装置上的语言模型,用于随时间完善文本信息语境分类。
技术方案14:如技术方案12的方法,还包括如下步骤:
l) 使用所述客户端装置的至少一个服务器通过存储在所述客户端装置上的情感语境特定的语言模型来处理所述文本信息,以识别对应于所述文本信息的情感语境;以及
m) 将识别的情感语境发送至所述语音识别服务器。
技术方案15:如技术方案14的方法,其中所述识别步骤还使用识别的情感语境来执行,以完善所述声音模型的识别。
技术方案16:如技术方案14的方法,还包括如下步骤:
n) 将识别的假设展现给用户;
o) 从用户寻求所述识别的假设为正确的确认;
p) 如果用户确认所述识别的假设为正确,那么输出该识别的假设作为回复文本信息的至少一部分;否则
q) 使用所述情感语境来完善所述声音模型的识别,并重复步骤e)至p)。
技术方案17:一种自动语音识别方法,包括如下步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的会话语境特定的语言模型来处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器发送所述合成的语音至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器预处理所述语音信号,以从接收的语音信号提取声音数据;
g) 使用识别的与所述文本信息相关的会话语境,识别所述多个声音模型中的一个声音模型,以解码所述声音数据;
h) 使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;
i) 确定与所述回复话语的多个假设的至少一个相关的信任值是否大于或小于信任阈值;
j) 如果所述信任值被确定为小于所述信任阈值,那么将提取的声音数据和会话语境发送至语音识别服务器,否则后处理所述多个假设,以将所述假设之一识别为所述回复话语,并从所述客户端装置输出所述识别的假设作为回复的文本信息的至少一部分;
k) 使用识别的会话语境在所述服务器识别存储在所述服务器的多个声音模型中的一个声音模型,以解码所述声音数据;
l) 使用在所述服务器识别的所述声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;
m) 后处理所述多个假设,以将所述假设之一识别为所述回复话语;以及
n) 从所述服务器输出所述识别的假设作为回复的文本信息的至少一部分。
附图说明
下面结合附图描述本发明的一个或多个优选实施例,其中相同的标记表示相同的元件:
图1为示出能够利用本文所公开的方法的通信系统的示例性实施例的框图;
图2为示出可与图1的系统一起使用、用于实施示例性语音合成方法和/或改进语音辨别的文本到语音(TTS)系统的示例性实施例的框图;
图3为示出可与图1的通信系统和图2的TTS系统一起使用、用于实施示例性语音辨别方法和/或改进语音假设的自动语音辨别(ASR)系统的示例性实施例的框图;以及
图4为示出可由图1的通信系统、图2和图3的TTS和ASR系统执行的自动语音辨别方法的示例性实施例的流程图。
具体实施方式
下面的内容描述了实例通信系统、可与该通信系统一起使用的实例TTS和ASR系统、以及可与前述系统一起使用的一个或多个实例方法。下面描述的方法可被车辆远程信息处理单元(VTU)使用,作为辨别VTU用户发出的语音的一部分。尽管下述方法是它们可执行用于VTU,但是应当清楚,它们可用在任意类型的车辆语音辨别系统和其它类语音辨别系统。例如,该方法可执行在ASR启用的移动计算装置或系统、个人电脑等中。
通信系统–
参考图1,示出了包括移动车辆通信系统10的示例性操作环境,其可用于执行本文所公开的方法。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18和呼叫中心20。应当理解,所公开的方法可与任意数量的不同系统一起使用,且不具体限于这里所示的操作环境。并且,系统10的架构、结构、设置和操作及其各个部件通常是本领域内公知的。因此,下面的段落简单地提供了一个这种示例性系统10的简要概述;然而,这里未示出的其它系统也可利用所公开的方法。
车辆12在所示实施例中被描述为轿车,但是应当清楚,包括摩托车、卡车、运动型旅行车(SUV)、旅游汽车(RV)、海洋舰船、飞行器等的任意其它交通运输工具也可使用。图1中总地示出了一些车辆电气28,包括远程信息处理单元30、麦克风32、一个或多个按钮或其它控制输入34、音响系统36、可视显示器38、和GPS模块40以及多个车辆系统模块(VSM)42。这些装置中的一些可直接连接至远程信息处理单元,例如麦克风32和按钮34,而其它使用一种或多种网络连接间接地连接,例如通信总线44或以及娱乐总线46。适当的网络连接的例子包括控制器局域网(CAN)、多媒体导向系统传输(MOST)、局域互联网络(LIN)和其它适当的连接,例如以太网或与已知ISO、SAE和IEEE标准和规定等相符的其它连接,仅举几个例子。
远程信息处理单元30可为能够经无线载波系统14通过无线网络进行无线语音和/或数据通信的安装了(嵌入了)OEM的装置或零件市场装置,使得车辆可与呼叫中心20、其它能够进行远程通信的车辆、或某些其它实体或装置通信。远程信息处理单元优选使用无线电传输来与无线载波系统14建立通信通道(声音通道和/或数据通道),使得可通过该通道收发声音和/或数据传输。通过提供声音和数据通信,远程信息处理单元30使车辆能够提供许多不同服务,包括与导航、电话、紧急援助、诊断、娱乐等相关的那些服务。数据可使用本领域已知的技术通过数据连接(例如通过经数据通道的数据包传输)或通过声音通道发送。对于包括声音通信(例如,与呼叫中心20处的人工顾问或语音响应单元)和数据通信(例如,给呼叫中心20提供GPS定位数据或车辆诊断数据)的组合服务,该系统可利用经由声音通道的一个呼叫,若需要还有声音通道上的声音与数据传输之间的开关,并且这可使用本领域技术人员已知的技术来进行。
根据一个实施例,远程信息处理单元30利用根据GSM或CDMA标准的蜂窝通信,因此包括用于声音通信(例如,非手持式呼叫)的标准蜂窝芯片50、用于数据传输的无线调制解调器、电子处理装置52、一个或多个数字存储装置54、和双天线56。应当清楚,调制解调器可通过存储在远程信息处理单元并由处理器52执行的软件来实施,或者可以是位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可使用任意多种不同标准或协议来操作,例如EVDO、CDMA、GPRS和EDGE。车辆与其它联网装置之间的无线网络也可使用远程信息处理单元30来实施。为此目的,远程信息处理单元30可构造成根据一种或多种无线协议而无线地通信,例如IEEE 802.11 协议、WiMAX或蓝牙中的任意一种。当用于分组交换数据通信(例如TCP/IP)时,远程信息处理单元可构造有静态IP地址,或者可设置成从网络上的另一装置(例如路由器)或从网址服务器自动接收分配的IP地址。
处理器52可为能够处理电子指令的任意类型的装置,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。其可为仅用于远程信息处理单元30的专用处理器,或者可与其它车辆系统共享。处理器52执行各种类型的数字存储指令,例如存储在存储器54中使远程信息处理单元能够提供大量服务的软件或固件程序。例如,处理器52可执行程序或处理数据,以执行本文所述方法的至少一部分。
远程信息处理单元30可用于提供不同范围的车辆服务,包括至车辆和/或来自车辆的无线通信。这种服务包括:联合基于GPS的车辆导航模块40提供的建议线路规划指示及其它与导航相关的服务;联合一个或多个碰撞传感器接口模块如车身控制模块(未示出)提供的气囊展开通知及其它紧急或与路侧援助相关的服务;使用一个或多个诊断模块的诊断汇报;以及与娱乐相关的服务,其中音乐、网页、电影、电视节目、视频游戏和/或其它信息通过娱乐模块(未示出)下载并被存储,用于当前或后期回放。上述服务并不是远程信息处理单元30全部能力的详尽列表,而是远程信息处理单元能够提供的一些服务的简单列举。另外,应当理解,上述模块至少一部分能够以存储在远程信息处理单元30内部或外部的软件指令的形式来实施,它们可为位于远程信息处理单元30内部或外部的硬件部件,或者它们可彼此或与位于车辆上的其它系统集成和/或共享,等等。在模块被实施为位于远程信息处理单元30外部的VSM 42的情形下,它们可利用车辆总线44与远程信息处理单元交换数据和指令。
GPS模块40从GPS卫星星群60接收无线电信号。从这些信号,模块40可确定用于向车辆驾驶员提供导航和其它与位置相关的服务的车辆位置。导航信息可展现在显示器38上(或车辆内的其它显示器),或可以声音的方式展现,例如当提供建议线路规划指示时这样做。导航服务可使用车内的专用导航模块(可为GPS模块40的一部分)提供,或者一部分或全部导航服务可通过远程信息处理单元30来进行,其中位置信息被发送至远程位置,用于给车辆提供导航地图、地图注解(关注点、饭店等)、路线计算等等。位置信息可被提供给呼叫中心20或其它远程计算机系统,例如计算机18,用于其它目的,例如车队管理。并且,新的或更新的地图数据可通过远程信息处理单元30从呼叫中心20下载至GPS模块40。
除音响系统36和GPS模块40之外,车辆12可包括为电子硬件部件形式的其它车辆系统模块(VSM)42,其位于车辆上,并通常从一个或多个传感器接收输入,且使用感测的输入执行诊断、监测、控制、报告和/或其它功能。VSM 42中每个都优选通过通信总线44连接至其它VSM以及远程信息处理单元30,并可编程为运行车辆系统和子系统诊断测试。例如,一个VSM 42可为控制发动机操作各方面(例如燃料点火和点火正时)的发动机控制模块(ECM),另一VSM 42可为调节车辆动力系的一个或多个部件的操作的动力系控制模块,另一VSM 42可为管理位于车辆上的各种电子部件(例如车辆动力门锁和车灯)的车身控制模块。根据一个实施例,发动机控制模块配备有车载诊断(OBD)特征,其提供无数实时数据,例如从包括车辆排放传感器的各种传感器接收的数据,并提供允许技术人员快速识别和修正车辆内的故障的一系列标准化诊断故障代码(DTC)。如本领域的技术人员所清楚的,上述VSM只是可在车辆12中使用的一些模块的例子,还可使用许多其它模块。
车辆电气28还包括给车辆乘客提供用来提供和/或接收信息的许多车辆用户接口,包括麦克风32、按钮34、音响系统36和可视显示器38。如这里所使用的,术语“车辆用户接口”广义地包括任何适当形式的电气装置,包括位于车辆上并使车辆用户能够与车辆部件通信或通过其通信的硬件和软件部件。麦克风32向远程信息处理单元提供音频输入,使驾驶员或其它乘客能够通过无线载波系统14提供声音指令和实施免提呼叫。为此目的,可利用本领域内已知的人机交互(HMI)技术将麦克风连接至车载自动声音处理单元。按钮34允许人工用户输入进远程信息处理单元30,以开始无线电话呼叫并提供其它数据、响应或控制输入。相对于到呼叫中心20的常规服务援助呼叫,可使用单独的按钮来启动紧急呼叫。音响系统36给车辆乘客提供音频输出,并可以是专用的独立系统或为主车辆音响系统的一部分。根据这里示出的特定实施例,音响系统36可操作地联接至车辆总线44和娱乐总线46,并可提供AM、FM和卫星无线电、CD、DVD及其它多媒体功能。该功能可联合上述娱乐模块或独立于该模块来提供。可视显示器38优选为图形显示器,例如仪表板上的触摸屏或挡风玻璃上反射的头顶显示器,并可用于提供许多输入和输出功能。还可使用各种其它车辆用户接口,例如图1的接口仅仅是一种特定实施方案的例子。
无线载波系统14优选为蜂窝电话系统,包括多个单元塔70(仅示出了一个)、一个或多个移动交换中心(MSC)72、以及将无线载波系统14与陆地网络16连接所需的任何其它网络部件。每个单元塔70都包括收发天线和基站,不同单元塔的基站或者直接或者通过中间设备(例如基站控制器)连接至MSC 72。蜂窝系统14可采用任何适当的通信技术,例如包括,模拟技术(例如AMP)或新型数字技术(例如CDMA(如CDMA2000)或GSM/GPRS)。如本领域技术人员所清楚的,各种单元塔/基站/MSC布置都是可能的,可与无线系统14一起使用。例如,基站和单元塔可共同位于同一地点,或者它们可彼此远离,每个基站都可负责一个单元塔,或者一个基站可服务多个单元塔,并且多个基站可联接至一个MSC,等等。
除使用无线载波系统14之外,可使用卫星通信形式的不同无线载波系统来提供与车辆的单向或双向通信。这可使用一个或多个通信卫星62和上行发射站64来进行。单向通信可为例如卫星无线电服务,其中节目内容(新闻、音乐等)由发射站64接收、被打包上载、然后发送至卫星62,卫星62将节目广播给订阅者。双向通信可为例如使用卫星62来中转车辆12与站64之间的电话通信的卫星电话服务。如果使用,该卫星电话可被附加使用或替代无线载波系统14。
陆地网络16可为传统的陆基远程通信网络,其连接至一个或多个地面通信线电路,并将无线载波系统14连接至呼叫中心20。例如,陆地网络16可包括例如用于提供硬连线电话的公共交换电话网络(PSTN)、封包交换数据通信、和互联网基础设施。一段或多段陆地网络16可通过标准有线网络、光纤或其它光学网络、电缆网、电线、其它无线网络(例如无线局域网(WLAN)或提供宽带无线访问(BWA)的网络)或它们的任意组合来实施。另外,呼叫中心20不需要通过陆地网络16连接,但是可包括无线电话设备,使得它可与无线网络(例如无线载波系统14)直接通信。
计算机18可为可通过私人或公共网络(例如互联网)访问的多个计算机中的一个。每个这种计算机都可用于一个或多个目的,例如可由车辆通过远程信息处理单元30和无线载波系统14访问的网络服务器。其它这类可访问计算机18可为例如:可通过远程信息处理单元30从车辆上载诊断信息和其它车辆数据的服务中心计算机;为访存取或接收车辆数据的目的或者为了建立或配置订阅者喜好或控制车辆功能,由车辆所有者或其它订阅者使用的客户端计算机;或者第三方库,向该库或从该库提供车辆数据或其它信息,无论是通过与车辆12或呼叫中心20或两者通信。计算机18还可用于提供互联网连接,例如DNS服务,或作为使用DHCP或其它适当协议以给车辆12分配IP地址的网址服务器。
呼叫中心20被设计成给车辆电气28提供许多不同系统后端功能,根据这里所示的示例性实施例,呼叫中心20通常包括一个或多个交换机80、服务器82、数据库84、人工顾问86以及自动语音响应系统(VRS)88,所有这些都是本领域已知的。这些各种呼叫中心部件优选通过有线或无线局域网络90彼此联接。可为专用带宽交换(PBX)交换机的交换机80传送输入的信号,使得声音输送通常由常规电话发送至人工顾问86或使用VoIP发送至自动语音响应系统88。人工顾问电话也可使用VoIP,如图1中虚线所示。经由交换机80的VoIP及其它数据通信通过连接在交换机80与网络90之间的调制解调器(未示出)实施。数据传输通过调制解调器送至服务器82和/或数据库84。数据库84可存储帐户信息,例如订阅者认证信息、车辆标识、外形记录、行为类型及其它相关订阅者信息。数据传输还可由无线系统(例如802.11x、GPRS等)进行。尽管所示实施例已经描述成使用人工顾问86联合人工呼叫中心20一起使用,但是应清楚,呼叫中心还可利用VRS 88作为自动顾问,或者可使用VRS 88与人工顾问86的组合。
语音合成系统–
现在参考图2,示出了用于文本到语音(TTS)系统210的示例性架构,其可用于执行目前公开的方法。通常,用户或车辆乘客可与TTS系统交互,以从应用程序(例如,车辆导航应用程序、免提操作呼叫应用程序等)的菜单提示接收指令或听从提示。通常,TTS系统从文本源提取输出词语或标志、将该输出转换为适当的语言单位、选择与该语言单位最佳对应的存储的语音单位、将选择的语音单位转换为语音信号、并输出语音信号为用来与用户交互的可听语音。
TTS系统通常对本领域的技术人员是已知的,如背景技术部分所描述的。但是图2示出了根据本公开的改进TTS系统的例子。根据一个实施例,系统210的一部分或全部可常驻在图1的远程信息处理单元30上并利用其进行处理。根据另一示例性实施例,TTS系统210的一部分或全部可常驻在处于车辆12远程位置的计算设备(例如呼叫中心20)上并利用其进行处理。例如,语言模型、声音模型等可存储在呼叫中心20的服务器82和/或数据库84之一的存储器中,并被发送至车辆远程信息处理单元30,用于车内TTS处理。类似地,TTS软件可使用呼叫中心20中的一个服务器82的处理器来处理。换句话说,TTS系统210可常驻在远程信息处理单元30中或以任意期望方式分布在呼叫中心20和车辆12中。
系统210可包括一个或多个文本源212和存储器,例如远程信息处理存储器54,用于存储来自文本源212的文本及存储TTS软件和数据。系统210还可包括处理器,例如远程信息处理器52,以便与存储器并联合下面的系统模块来处理文本和功能。预处理器214从文本源212接收文本,并将该文本转换为适当的词语等。合成引擎216将来自预处理器214的输出转换为适当的语言单位,例如短语、子句和/或句子。一个或多个语音数据库218存储记录的语音。单位选择器220从数据库218选择最佳对应于合成引擎216的输出的存储语音的单位。后处理器222修改或改编一个或多个选择的存储语音单位。一个或多个语言模型224被用作合成引擎216的输入,一个或多个声音模型226被用作单位选择器220的输入。系统210还可包括将所选的语音单位转换为音频信号的声音接口228、和将音频信号转换为可听语音的例如远程信息音响系统的扬声器239。系统210还可包括麦克风(例如远程信息处理麦克风32)和声音接口232,以将语音数字化为声音数据,用作后处理器222的反馈。
文本源212可为任意适当的介质,可包括任何适当的内容。例如,文本源212可为一个或多个扫描文档、文本文件或应用程序数据文件、或任何其它适当的计算机文件等。文本源212可包括要被合成进语音并输出至文本转换器214的词语、数字、符号和/或标点。可使用任意适量和类型的文本源。
预处理器214将来自文本源212的文本转换为词语、标志等。例如,在文本为数值形式的情形下,预处理器214可将数值转换为对应的词语。在另一实例中,当文本为标点时,通过大写字母或其它特殊字符(例如指示适当重要性的元音变化和声调、下划线或黑体)来强调,预处理器214可将该文本转换为适于被合成引擎216和/或单位选择器220使用的输出。
合成引擎216从文本转换器214接收输出,并可将该输出布置成语言单位,可包括一个或多个句子、分句、短语、词语、子词等。引擎216可使用语言模型224来辅助语言单位的最可能布置的协调。语言模型224提供将来自文本转换器214的输出布置成语言单位的规则、语法和/或语义。模型224还可定义系统210在任意给定时间以任意给定TTS模式预计的语言单位领域、和/或可提供管理语言单位的类型的规则等、和/或可逻辑地遵循其它类语言单位的韵律学和/或形成自然发声语音的韵律学。所述语言单位可包括语音对应物,例如音素字符串等,并可为音素HMM的形式。
语音数据库218包括从一人或多人预先记录的语音。语音可包括预先存储的句子、分句、短语、词语、预存词语的子词等。语音数据库218还可包括与预先记录的语音相关联的数据,例如识别用来供单位选择器220使用的记录语音段的元数据。可使用任何适当类型和数量的语音数据库。
单位选择器220将合成引擎216的输出与存储的语音数据作比较,并选择与合成引擎输出最佳对应的存储语音。单位选择器220选择的语音可包括预先记录的句子、分句、短语、词语、预先记录词语的子词等。选择器220可使用声音模型226来辅助存储语音的最可能或最佳对应备选的比较和选择。声音模型226可联合选择器220使用来比较和对比合成引擎输出的数据与存储的语音数据,评估其间的差别或相似性,最终使用确定的逻辑来识别最匹配的存储的语音数据并输出对应的存储的语音。
通常,最佳匹配的语音数据为与合成引擎216的输出的不相似性程度最小或有最有可能为合成引擎216的输出的数据,如本领域技术人员所知各种技术任意一种所确定的。这类技术可包括动态时间规整分类器、人工智能技术、神经网络、自由音素识别器、和/或概率图形匹配器如隐马尔可夫模型(HMM)引擎。HMM引擎对于制造多个TTS模型备选或假设的领域内的技术人员是公知的。在通过语音的声音特征分析来最终识别和选择表示合成引擎输出的最可能正确诠释的存储语音数据时考虑所述假设。更具体地,HMM引擎产生语言单位假设“N最佳”列表形式的统计模型,所述模型根据例如通过应用贝叶斯定理给出一个或其它语言单位的声音数据的观察次序的HMM计算信任值或可能性分级。
在一个实施例中,单位选择器220的输出可直接传送给声音接口228,或通过后处理器222,没有后处理。在另一实施例中,后处理器222可从单位选择器220接收输出,用于进一步处理。
在任一种情形下,声音接口228都将数字音频数据转换为模拟音频信号。接口228可为数模转换装置、电路和/或软件等。扬声器230为电子声音变换器,其将模拟音频信号转换为用户可听见的并可被麦克风32接收的语音。
自动语音识别系统–
现在参考图3,示出了可用于执行当前所公开方法的ASR系统310的示例性架构。通常,车辆乘客与自动语音识别系统(ASR)口头地交互,用于下列基本目的中的一个或多个:训练系统理解车辆乘客的特定声音;存储不相关的语音,例如口语标志或口语控制词,如数字或关键词;或识别用于任意适当的目的(例如语音拨号、菜单导航、抄写、服务请求、车辆装置或装置功能控制等)的车辆乘客的语音。通常,ASR从人语音提取声音数据、并将声音数据与存储的子词数据作比较和对比、选择与其它所选子词相关联的适当子词、并输出相关子词或词语,用于后处理,例如听写或抄写、地址薄拨号、存储至存储器、训练ASR模型或适应参数等。
ASR系统通常是本领域技术人员已知的,图3只示出了一个具体的示例性ASR系统310。尽管图示和描述了嵌在车辆远程信息处理单元30中,但是本领域的技术人员会认识到,可在呼叫中心部署或在车辆与呼叫中心之间分布类似的系统。系统310包括接收语音的装置(例如远程信息麦克风32)和具有将语音数字化为声音数据的模数转换器的声音接口33(例如远程信息处理单元30的声卡)。系统310还包括用于存储声音数据并存储语音识别软件和数据库的存储器(例如远程信息存储器54)、以及处理声音数据的处理器(例如远程信息处理器52)。处理器通过存储器并联合下列模块来运行:一个或多个前端处理器、预处理器或预处理器软件模块312,用于将语音的声音数据流分析为参数表示,例如声音特征;一个或多个解码器或解码软件模块314,用于将声音特征解码以获得对应于输入语音话语的数字子词或词语输出数据;和一个或多个后端处理器、后处理器或后处理器软件模块316,用于为任意适当目的使用解码器模块314的输出数据。
系统310还可从任何其它的适当音源31接收语音,该音源31可与预处理器软件模块312直接通信,如实线所示,或者可通过声音接口33与其间接通信。音源31可包括例如电话音源(例如语音邮件系统)或其它类电话服务。
可使用一个或多个模块或模型作为解码器模块314的输入。首先,语法和/或辞典模型318可提供管理哪些词能逻辑地跟随其它词以形成有效句子的规则。从广义来说,辞典或语法可定义系统310在任何给定时间在任意给定ASR模式中期望的词语范畴。例如,如果系统310为用来训练指令的训练模式,那么辞典或语法模型318可包括系统310所知和所用的全部指令。在另一实例中,如果系统310为主菜单模式,那么有效的辞典或语法模型可包括系统310所预期的所有主菜单指令,例如呼叫、拨号、退出、删除、号码薄等。第二,声音模型320辅助与来自预处理器模块312的输入相对应的最可能的子词或词语的选择。第三,词语模型322和句子/语言模型324提供将所选子词或词语放入词语或句子上下文中的规则、句法和/或语义。并且,句子/语言模型324可定义系统310在任意给定时间在任意给定ASR模式下预期的句子范畴,和/或可提供管理哪些句子能够逻辑地跟随其它句子以形成有效扩展语音的规则等。
根据另一示例性实施例,ASR系统310的一部分或全部可常驻在位于车辆12远程位置的计算设备(例如呼叫中心20)上并被其处理。例如,语法模型、声音模型等可存储在呼叫中心20中的服务器82和/或数据库84之一的存储器内,并被发送至车辆远程信息处理单元30,用于车内语音处理。类似地,语音识别软件可使用呼叫中心20中的其中一个服务器82的处理器来处理。换句话说,ASR系统310可常驻在远程信息处理单元30中,或以任意期望的方式分布在呼叫中心20和车辆12中。
首先,声音数据从人的语音中提取,其中车辆乘客对麦克风32说话,麦克风32将话语转换成电信号,并将该信号发送至声音接口33。由于空气压力的变化,麦克风32中的声音响应元件捕获乘客的语音话语,并将该话语转换为模拟电信号的相应变化,例如直流或电压。声音接口33接收模拟电信号,该电信号先被取样,使得模拟信号的值在离散的时刻被捕获,然后被量化,使得模拟信号的幅度在每个取样时刻被转换为连续的数字语音数据流。换句话说,声音接口33将模拟电信号转换为数字电信号。数字数据为二进制位,其缓存在远程信息存储器54中,然后被远程信息处理器52处理,或可在它们被处理器52开始接收时被实时处理。
第二,预处理器模块312将连续的数字语音数据流转换为离散的声音参数序列。更具体地,处理器52执行预处理器模块312,以将数字语音数据分段成具有例如10-30毫秒持续时间的重叠的语音或声音帧。所述帧对应于声音子词,例如音节、半音节、音素、双音、音位等。预处理器模块312还执行语音分析,以从每帧内的乘客语音提取声音参数,例如变时特征向量。乘客语音内的话语可表现为这些特征向量的序列。例如,如本领域技术人员所知的,特征向量可被提取且可包括例如音调、能线图、频谱属性和/或倒谱系数,它们可通过执行帧的傅里叶变换并使用余弦变换解相关声谱来获得。声帧和覆盖语音特定持续时间的相应参数被连接成要被解码的语音的未知测试图形。
第三,处理器执行解码器模块314,以处理各测试图形的输入特征向量。解码器模块314也称为识别引擎或分类器,并使用存储的已知语音基准图形。类似测试图形,基准图形被定义为相关声帧和相应参数的连接。解码器模块314将要被识别的子词测试图形的声音特征向量与存储的子词基准图形作比较和对比,评估其间的区别或相似性的量,最终使用判定逻辑来选择最佳匹配的子词作为识别的子词。通常,最佳匹配的子词为对应于所存储的已知基准图形的子词,该已知基准图形与本领域内技术人员所知各种技术之一所确定的用于分析和识别子词的测试图形具有最小不相似性或者最有可能为该测试图形。这类技术可包括动态时间规整分类器、人工智能技术、神经网络、自由音素识别器、和/或概率图形匹配器如隐马尔可夫模型(HMM)引擎。
HMM引擎对于制造声音输入的多个语音识别模型假设领域内的技术人员是已知的。在最终识别和选择识别输出中考虑所述假设,该识别输出表示通过语音的特征分析的声音输入的最可能正确解码。更具体地,HMM引擎产生子词模型假设“N最佳”列表形式的统计模型,所述模型根据例如通过应用贝叶斯定理给出一个或另一个子词的声音数据的观察次序的HMM计算信任值或可能性分级。
贝叶斯HMM过程识别与声音特征向量的给定观察次序的最可能的发音或子词次序相对应的最佳假设,并且其信任值依赖于许多因素,包括与输入声音数据相关的声音信号相对于噪声的比率。HMM还可包括称为对角高斯混合的统计分布,其获得每个子词的每个观察特征向量的可能性得分,该得分可用于记录假设的N最佳列表。HMM引擎还可识别和选择其模型的可能性得分是最高的子词。
通过类似的方式,可连接一连串子词的各自HMM,以建立一个或多个词语HMM。其后,可产生并进一步评估一个或多个词语基准图形和相关参数值的N最佳列表。
在一个例子中,语音识别解码器314使用适当的声音模型、语法和算法来处理特征向量,以产生基准图形的N最佳列表。如本文所使用的,术语“基准图形”可与模型、波形、模板、富信号模型、样本、假定或其它类基准互相交换。基准图形可包括表示一个或多个词语或子词的一系列特征向量,其可基于特定的说话者、说话类型和声音环境条件。本领域的技术人员会认识到,可通过ASR系统的适当基准图形训练来产生基准图形,并且该基准图形存储在存储器中。本领域的技术人员还会认识到,可控制存储的基准图形,其中基准图形的参数值基于ASR系统的基准图形训练与实际使用之间的语音输入信号的差别而被改编。例如,基于来自不同车辆乘客或不同声音条件的有限训练数据量,针对一个车辆乘客或特定声音条件训练的一组基准图形可被改编并存储为用于不同车辆乘客或不同声音条件的另一组基准图形。换句话说,所述基准图形可不必是固定的,且可在语音识别期间进行调节。
使用词汇语法及任意适当的解码算法和声音模型,处理器从存储器中存取解释测试图形的几个基准图形。例如,处理器可产生N最佳词汇结果或基准图形连同相应参数值的列表,并将其存储到存储器中。示例性参数值可包括词汇的N最佳列表中各基准图形的信任分数及相应段持续时间、可能性分数、信噪比(SNR)值等。词汇的N最佳列表可按照参数值的降序排列。例如,具有最高信任分数的词汇基准图形为第一最佳基准图形,等等。一旦建立了一串识别的子词,它们就可用于与来自词语模型322的输入来构造词语,和与来自语言模型324的输入来构造句子。
最后,后处理器软件模块316从解码器模块314接收输出数据,用于任意适当目的。在一个例子中,后处理器软件模块316可从一个或多个词语基准图形的N最佳列表识别或选择其中一个基准图形作为识别的语音。在另一例子中,后处理器模块316可用于将声音数据转换为文本或数字,以便与ASR系统或其它车辆系统的其它方面一起使用。在另一例子中,后处理器模块316可用于提供解码器314或预处理器312的训练反馈。更具体地,后处理器316可用于训练解码器模块314的声音模型,或训练预处理器模块312的自适应参数。
方法–
现在参考图4,示出了自动语音识别方法400,其在车辆远程信息处理单元30的操作环境内可使用图2的TTS系统210和/或图3的ASR系统310的适当编程以及使用图1中所示其它部件的适当硬件和编程来执行。例如,语音识别硬件、固件和软件可常驻在计算机18和/或呼叫中心20的其中一个服务器82上。换句话说,ASR系统310可常驻在远程信息处理单元30中或以任意期望方式分布在车辆12和计算机18和/或呼叫中心20上。
基于上面的系统描述以及下面结合其余附图描述的方法,上述这种编程和硬件的使用对本领域的技术人员是清楚的。本领域的技术人员还会认识到,该方法在其它操作环境下可使用其它ASR系统来执行。该方法的步骤可以连续地处理也可以不连续地处理,本发明可包含这类步骤的任意次序、重叠或并行处理。
通常,根据下列步骤,语音信号处理方法400改进了自动语音识别:通过麦克风从用户接收对文本信息的回复话语,所述麦克风将所述回复话语转换为语音信号;使用至少一个处理器预处理所述语音信号,以从所接收的语音信号提取声音数据;使用与所述文本信息相关的会话语境识别多个声音模型中的一个声音模型,以解码所述声音数据;以及使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设。
更具体地,参考图4并间或参考图1-3,方法400以任意适当的方式开始于步骤402。例如,车辆用户优选地通过下述开始与远程信息处理单元30的用户接口交互,按下用户接口按钮34来开始用户输入语音指令的对话,当操作于语音识别模式时,该语音指令由远程信息处理单元30翻译。使用音响系统36,远程信息处理单元30可通过针对用户或乘客的指令播放声音或提供口头请求来确认按钮激活。
在步骤404,接收文本信息。例如,可通过通信系统在远程信息处理单元30接收文本信息。文本信息可为短信服务(SMS)类信息、扩展信息服务、移动瞬时信息和/或任意其它适当类型的信息服务,并使用标准邮件协议、例如通过TCP/EP的SMTP、会话启动协议、专有协议和/或任何其它适当协议。
在步骤406,文本信息由会话语境特定的语言模型407来处理,以确认与文本信息相对应的会话语境。例如,来自步骤404的文本信息可使用存储在客户端装置(例如远程信息处理单元30)上的语言模型并使用客户端装置的至少一个处理器(例如处理器52)来处理。并且,会话语境可包括幽默会话的“幽默”、或用于有关用餐计划的会话的“用餐”、或用于情爱会话的“浪漫”、或用于闲话聊天的“闲聊”、或用于邀请或相关回复的“邀请”、或用于介绍类会话的“问候”。会话语境可包括上述所有例子中的一种或多种,和/或任意其它适当类型的会话语境。在一个实施例中,每个语言模型407都对应于一种会话语境,并且在语音识别运转之前可以任何适当的方式通过多个扬声器来展开和训练。在另一实施例中,如果统计语言模型未遇到起初训练资料中的文本,那么可使用任意新的文本输入来以任何适当方式来更新该统计语言模型。
在步骤408,文本信息还可使用特定情感语境语言模型409来识别对应于文本信息的情感语境。例如,来自步骤406的文本信息可使用存储在客户端装置(例如远程信息处理单元30)上的语言模型并使用客户端装置的至少一个处理器(例如处理器52)来处理。并且,情感语境可包括用于不友善对话的“生气”、或用于高兴对话的“快乐”、或用于不高兴会话的“悲伤”、或“困惑”等。情感语境可包括前述所有例子的任意一个或多个和/或任意其它适当类型的情感语境。在一个实施例中,每个语言模型409都对应于一种情感语境,并且在语音识别运转之前可以任意适当的方式通过多个扬声器来展开和训练。另外,情况语境可用于产生恰当的TTS翻译,例如,以向用户/听众可听地表达情感语境。
在步骤410,语音由文本信息合成。例如,来自步骤406和/或408的文本信息被预处理,以将文本转换为适于语音合成的输出。更具体地,TTS预处理器214可将文本信息转换为词语、标志等,以便被TTS合成引擎216使用。然后,该输出可配置成语言单位。例如,TTS合成引擎216可从文本转换器214接收输出,并可通过语言模型224将输出配置成语言单位,该语言单位可包括一个或多个句子、分句、短语、词语、子词等。语言单位可包括语音对应物,例如音素字符串等。其后,语言单位可与存储的语音数据作比较,选择与语言单位最佳对应的语音作为表示文本信息的语音。例如,单位选择器220可使用TTS声音模型228将从合成引擎216输出的语言单位与存储在第一语音数据库218中的语音数据作比较,并选择具有与合成引擎输出最佳对应的相关数据的存储语音。
在步骤412,合成的语音被发送给用户。例如,由选择器220从数据库218选择的预先记录的语音可通过远程信息处理单元30的接口228和扬声器230输出。
在步骤414,从用户接收语音回复。例如,可通过麦克风从用户接收话语,麦克风将话语转换成语音信号。更具体地,远程信息麦克风32可用于将用户语音话语转换为电信号用于发送给声音接口33,声音接口33可将该语音数字化成声音数据。
在步骤416,语音信号被预处理,从该语音信号提取声音数据。例如,语音信号可使用ASR处理器312或任何其它适当的远程通信预处理器或任意类型的处理装置来预处理。该语音信号通过预处理器从语法上分析成参数表示流,例如声音特征或声音特征向量等。例如,来自声音接口33的声音数据可通过上述ASR系统310的预处理器模块312预处理。
在步骤417,对于声音数据的下游解码,使用识别的会话语境来识别存储在客户端装置的多个声音模型中的一个声音模型。在第一实施例中,仅使用所述会话语境。在第二实施例中,还可使用情感语境。在第一实施例中,每个声音模型都可特定于其中一种会话语境。在第二实施例中,多个模型可包括会话/情感模型的置换矩阵。例如,模型可包括“用餐”/“快乐”声音模型、“用餐”/“生气”声音模型、“闲聊”/“困惑”声音模型等。
还是在步骤417,产生的声音特征向量由识别的模型来解码,以为接收的语音产生多个假设。例如,所述多个假设可为假设的N最佳列表,ASR系统310的解码器模块314可用于解码声音特征向量。会话和/或情感语境特定的统计语言模型407、409可用于以任意适当的方式辅助解码。
在步骤418,确定与回复话语的多个假设中的至少一个相关的信任值是否大于信任阈值。信任值和计算对于本领域的技术人员是公知的,可以任意适当的方式来计算,包括使用监督学习技术、神经网络等。对于任意给定应用,特定阈值可凭经验来确定,因此可为适于给定环境和情形的任意值。例如,信任阈值的示例可为75%的信任水平。更具体地,可设定可接受的信任阈值,且如果与一个或多个假设相关的信任分数小于该阈值,那么从步骤416提取的声音数据及从步骤406和/或408提取的会话语境可被发送至语音识别服务器并因而在步骤420接收。否则,该方法可进行至步骤419。
在步骤419,所述多个假设可被后处理成将其中一个假设识别为回复话语,且识别的假设可使用任何适当的文本信息技术和协议从客户端装置直接输出作为回复文本信息的至少一部分。例如,ASR后处理器216可包括任意适当的装置或模块来构成文本信息。并且,后处理器可通过与远程信息处理单元30的配合,直接通过蜂窝通信输出文本信息,或者可通过例如蓝牙连接间接输出文本信息至用户电话等,进而可通过蜂窝通信输出文本信息。
在另一实施例中,可省略步骤417-419,其中来自步骤316的语音信号的声音数据及在步骤406和/或408中识别的语境可直接发送至语音识别服务器。这些数据可以任意适当的方式打包,并通过数据连接发送,例如,通过经数据通道(例如私人或公共分组交换网络(PSN))的分组数据传输,或使用车辆12内车载的和在呼叫中心20和/或计算机中的调制解调器经蜂窝声音通道的数据、或以任何其它的适当方式。在使用经由声音通道的调制解调器通信的情形下,数据可使用任何适当的声码器从车辆12发送,该声码器可包含在蜂窝芯片50中。
在步骤420,发送的声音数据在服务器18和/或82接收。例如,数据可经由分组数据传输、经由通过声音协议的数据、和/或经由任意其它适当的方式来接收。所述数据可保存在任何适当的位置。
在步骤422,确定是否在识别相应声音模型的下游步骤中使用情感语境。在所示实施例中,例如,如果声音数据第一次在服务器18和/或82被处理,那么可省略情感语境。在另一实施例中,然而,情感语境可用于从一开始补充会话语境。
在步骤424,对于声音数据的下游解码,使用会话语境识别存储在服务器18和/或82的多个声音模型425中的一个声音模型。在第一实施例中,只使用会话语境。在第二实施例中,还可使用情感语境。在第一实施例中,每个声音模型425可特定于其中一种会话语境。在第二实施例中,多个模型425可包括会话/情感模型的置换矩阵。例如,模型可包括“用餐”/“快乐”声音模型、“用餐”/“生气”声音模型、“闲聊”/“困惑”声音模型等。
在步骤426,产生的声音特征向量由识别的模型来解码,以为接收的语音产生多个假设。例如,所述多个假设可为假设的N最佳列表,ASR系统310的解码器模块314可用于解码声音特征向量。会话和/或情感语境特定的统计语言模型427、429可用于以任意适当的方式辅助解码。
在步骤428,所述多个假设可被后处理,以将其中一个假设识别为回复话语。例如,ASR系统310的后处理器316可使用信任阈值等对步骤426的假设进行后处理,以将多个假设中的一个识别为接收的语音。可使用会话和/或情感语境特定的统计语言模型427、429来以任意适当方式来辅助解码。后处理器316还可用于产生对应于识别的语音的文本数据。
在步骤430,可响应于步骤428的识别的语音来改编一个或多个模型。例如,可改编或训练声音模型425和/或统计语言模型427、429,使得该模型反映最新或新近接收的文本信息缩略语和图形,从而可更加精确地识别出文本信息回复。声音模型改编和训练是本领域的技术人员公知的,可使用任何适当的技术。该步骤还可包括将多个语境特定的语言模型427、429从服务器发送至客户端装置,以更新存储在客户端装置上的语言模型407、409,用于随着时间改进文本信息语境分类。
在一个实施例中,该处理方法可直接进行至步骤440,以输出或发送对应于识别的语音的文本数据。在另一实施例中,该处理方法进行至步骤432,以便用户确认和/或重新输入。
在步骤432和434,步骤428的假设可发送至车辆12并由其接收。例如,用于假设或与其相关的数据可通过分组数据连接、经由蜂窝语音通道的数据或以任意其它适当的方式发送,并由远程信息处理单元30接收且在其上存储于任意适当的存储器内。在一个实施例中,所述假设为文本数据格式。在另一实施例中,所述假设为可为声音文件格式的声音数据。
在步骤436,用户对文本信息的答复的假设可以任意适当的方式展现给用户。例如,所述假设可通过远程信息处理单元用户接口的显示屏以可视文本的方式展现,和/或通过远程信息处理单元用户接口的扬声器以可听的方式展现。
在步骤438,确定用户是否将该假设确认为用户意欲对文本信息的回复。如果用户确认,那么所述方法进行至步骤440,而如果用户拒绝该假设,那么该方法进行至步骤442。
在步骤440,使用任意适当的文本信息技术和协议,对应于识别的语音的文本数据被输出或发送为回复文本信息。该步骤可由车辆12的发送来触发,并由以任意适当方式通信的任意适当指令的服务器18和/或82接收。
在步骤442,确定用户在步骤438的拒绝对于当前分析的回复是否是第一次。如果是,那么该方法可循环回步骤422,然后可使用情感语境,特别是如果之前未使用情感语境来分析当前的回复。该步骤可由车辆12的发送来触发,并由以任意适当方式通信的任意适当指令的服务器18和/或82接收。然而,如果不是,那么该方法可进行至步骤444。
在步骤444,可请求用户重复或重述对在步骤404接收的文本信息的回复。例如,可以任意适当的方式使用远程信息处理单元30,以可视地或可听地发送信息,例如“请重复或重述您对文本信息的回复”。其后,该方法循环回步骤414,以接收用户重复或重述的对文本信息回复。
在步骤446,方法400可以任意适当的方式结束。
该方法或其一部分可在计算机程序产品中执行,包括承载在计算机可读介质上以便被一个或多个计算机的一个或多个处理器使用从而执行一个或多个方法步骤的指令。计算机程序产品可包括:一个或多个软件程序,该软件程序包括为源代码、目标代码、可执行代码或其它格式的程序指令;一个或多个固件程序;或硬件描述语言(HDL)文件;以及任何与程序相关的数据。所述数据可包括数据结构、查寻表或任意其它适当格式的数据。程序指令可包括程序模块、例行程序、程序、对象、组件等。计算机程序可在一个计算机或彼此通信的多个计算机上执行。
程序可嵌在计算机可读介质上,该介质可包括一个或多个存储装置、制品等。示例性计算机可读介质包括计算机系统存储器(例如RAM(随机存取存储器)、ROM(只读存储器))、半导体存储器(例如,EPROM(可擦写可编程ROM)、EEPROM(电可擦写可编程ROM))、闪存)、磁盘或光盘或磁带或光带等等。计算机可读介质还可包括计算机到计算机的连接,例如,当数据通过网络或其它通信连接(有线或者无线或者它们的组合)传输或提供时。上述例子的任意组合也包含在计算机可读介质的范围内。因此应当理解,该方法可被能够执行对应于所公开方法的一个或多个步骤的指令的任意电子制品和/或装置至少部分地执行。
应当理解,前面的内容是本发明一个或多个优选实施例的描述。本发明不限于本文所公开的特定实施方式,而是仅由所附权利要求限定。另外,前面描述中所含的内容涉及特定实施例,并不构成对本发明范围或权利要求中所用术语定义的限制,除非上面明确定义了的术语或短语。各种其它实施方式以及对所公开实施例的各种改变和修改对本领域的技术人员是清楚的。例如,本发明可应用于语音信号处理的其它领域,例如移动远程通信、通过互联网协议应用的话音等。所有这些其它实施方式、改变和修改都落在所附权利要求的范围内。
如在本说明书和权利要求书中所使用的,当结合一个或多个部件或其它项目的列表使用时,术语“例如”、“譬如”、“诸如”和“如同”、动词“包含”、“具有”和“包括”及它们的其他动词形式均构造为开放式的,意味着所述列表并不认为排除其它、另外的部件或项目。其它术语使用它们最广义的合理含义来解释,除非它们被用在需要不同诠释的上下文中。

Claims (10)

1.一种自动语音识别方法,包括下列步骤:
a) 通过麦克风从用户接收对文本信息的回复话语,所述麦克风将所述回复话语转换为语音信号;
b) 使用至少一个处理器来预处理所述语音信号,以从所述语音信号提取声音数据;
c) 使用与所述文本信息相关的会话语境来识别多个声音模型中的一个声音模型,以解码所述声音数据;以及
d) 使用识别的声音模型来解码所述声音数据,以产生用于所述回复话语的多个假设。
2.如权利要求1的方法,还包括如下步骤:
e) 后处理所述多个假设,以将所述假设中的一个识别为所述回复话语。
3.如权利要求2的方法,还包括如下步骤:
f) 将所述识别的假设展现给用户;
g) 从用户寻求所述识别的假设为正确的确认;以及
h) 如果用户确定所述识别的假设是正确的,那么输出所述识别的假设作为回复文本信息的至少一部分。
4.如权利要求3的方法,还包括如下步骤:
i) 处理所述文本信息,利用会话语境特定的语言模型识别对应于所述文本信息的会话语境,以及利用情感语境特定的语言模型识别对应于所述文本信息的情感语境,其中所述语言模型存储在客户端装置上;以及
j) 使用所述情感语境来完善所述声音模型的识别。
5.如权利要求2的方法,还包括如下步骤:
f) 利用识别的假设来改编所述多个声音模型,用以随时间完善语音识别性能。
6.如权利要求5的方法,其中步骤a)和b)在语音识别客户端装置上执行,步骤c)至f)在语音识别服务器上执行。
7.如权利要求6的方法,其中改编步骤f)还包括使用所述识别的假设改编存储在所述服务器上的多个语境特定的语言模型,和将所述多个语境特定的语言模型从所述服务器发送至所述客户端装置,以更新存储在所述客户端装置上的语言模型,用以随时间改善文本信息语境分类。
8.如权利要求6的方法,还包括如下步骤:
在所述语音识别客户端装置接收文本信息;
处理所述文本信息,利用会话语境特定的语言模型来识别对应于所述文本信息的会话语境,和利用情感语境特定的语言模型来识别对应于所述文本信息的情感语境,其中所述语言模型存储在客户端装置上;以及
发送所述识别的会话和情感语境至所述语音识别服务器。
9.一种自动语音识别方法,包括如下步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的会话语境特定的语言模型来处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器将所述合成的语音发送至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器来预处理所述语音信号,以从所述接收的语音信号提取声音数据;
g) 将所述提取的声音数据和识别的会话语境发送至语音识别服务器;
h) 使用识别的会话语境来识别存储在所述服务器上的多个声音模型中的一个声音模型,以解码所述声音数据;
i) 使用识别的声音模型来解码所述声音数据,以产生用于所述回复话语的多个假设;以及
j) 后处理所述多个假设,以将所述假设之一识别为所述回复话语。
10.一种自动语音识别方法,包括如下步骤:
a) 在语音识别客户端装置接收文本信息; 
b) 使用所述客户端装置的至少一个处理器通过存储在所述客户端装置上的会话语境特定的语言模型来处理所述文本信息,以识别对应于所述文本信息的会话语境;
c) 从所述文本信息合成语音;
d) 通过所述客户端装置的扬声器发送所述合成的语音至所述客户端装置的用户;
e) 通过所述客户端装置的麦克风从用户接收回复话语,所述麦克风将所述回复话语转换为语音信号;
f) 使用至少一个处理器预处理所述语音信号,以从接收的语音信号提取声音数据;
g) 使用识别的与所述文本信息相关的会话语境,识别所述多个声音模型中的一个声音模型,以解码所述声音数据;
h) 使用识别的声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;
i) 确定与所述回复话语的多个假设的至少一个相关的信任值是否大于或小于信任阈值;
j) 如果所述信任值被确定为小于所述信任阈值,那么将提取的声音数据和会话语境发送至语音识别服务器,否则后处理所述多个假设,以将所述假设之一识别为所述回复话语,并从所述客户端装置输出所述识别的假设作为回复的文本信息的至少一部分;
k) 使用识别的会话语境在所述服务器识别存储在所述服务器的多个声音模型中的一个声音模型,以解码所述声音数据;
l) 使用在所述服务器识别的所述声音模型解码所述声音数据,以产生用于所述回复话语的多个假设;
m) 后处理所述多个假设,以将所述假设之一识别为所述回复话语;以及
n) 从所述服务器输出所述识别的假设作为回复的文本信息的至少一部分。
CN201210081427XA 2011-03-25 2012-03-26 依赖于文本信息语境的语音识别 Pending CN102693725A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/072,003 US9202465B2 (en) 2011-03-25 2011-03-25 Speech recognition dependent on text message content
US13/072003 2011-03-25

Publications (1)

Publication Number Publication Date
CN102693725A true CN102693725A (zh) 2012-09-26

Family

ID=46859109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210081427XA Pending CN102693725A (zh) 2011-03-25 2012-03-26 依赖于文本信息语境的语音识别

Country Status (2)

Country Link
US (1) US9202465B2 (zh)
CN (1) CN102693725A (zh)

Cited By (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN105284099A (zh) * 2013-06-08 2016-01-27 苹果公司 针对免提交互来自动调整用户界面
CN105340011A (zh) * 2013-06-28 2016-02-17 哈曼国际工业有限公司 链接设备的无线控制
CN106796787A (zh) * 2014-05-20 2017-05-31 亚马逊技术有限公司 在自然语言处理中使用先前对话行为进行的语境解释
CN107209019A (zh) * 2015-01-30 2017-09-26 索尼公司 信息处理系统和控制方法
CN107437413A (zh) * 2017-07-05 2017-12-05 百度在线网络技术(北京)有限公司 语音播报方法及装置
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107949823A (zh) * 2015-09-08 2018-04-20 苹果公司 零延迟数字助理
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
CN109074803A (zh) * 2017-03-21 2018-12-21 北京嘀嘀无限科技发展有限公司 语音信息处理系统和方法
CN109313667A (zh) * 2016-06-17 2019-02-05 微软技术许可有限责任公司 构建特定于状态的多轮上下文语言理解系统的系统和方法
CN109427331A (zh) * 2017-08-16 2019-03-05 三星电子株式会社 语音识别方法及装置
CN109712615A (zh) * 2017-10-23 2019-05-03 通用汽车环球科技运作有限责任公司 用于检测对话语音中的提示的系统和方法
CN109785828A (zh) * 2017-11-13 2019-05-21 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
CN110310622A (zh) * 2018-03-20 2019-10-08 阔利达软件有限公司 语音传输系统
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN110998720A (zh) * 2017-08-22 2020-04-10 三星电子株式会社 话音数据处理方法及支持该方法的电子设备
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
CN111587419A (zh) * 2018-02-23 2020-08-25 三星电子株式会社 电子装置及其控制方法
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN111919248A (zh) * 2018-03-08 2020-11-10 三星电子株式会社 用于处理用户发声的系统及其控制方法
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN112673424A (zh) * 2018-11-16 2021-04-16 谷歌有限责任公司 用于自动语音识别的场境去规范化
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
CN113016029A (zh) * 2018-11-02 2021-06-22 株式会社赛斯特安国际 提供基于上下文的语音识别服务的方法及装置
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
CN113228162A (zh) * 2018-12-27 2021-08-06 微软技术许可有限责任公司 基于上下文的语音合成
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN113470619A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
CN113678133A (zh) * 2019-04-05 2021-11-19 三星电子株式会社 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
CN115512698A (zh) * 2022-06-13 2022-12-23 南方电网数字电网研究院有限公司 一种语音语义分析方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
CN118335081A (zh) * 2024-06-11 2024-07-12 名商科技有限公司 基于交叉语义识别的车辆座舱语音交互方法及系统
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification
US12080287B2 (en) 2021-03-17 2024-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8903714B2 (en) * 2011-12-21 2014-12-02 Nuance Communications, Inc. Concept search and semantic annotation for mobile messaging
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9594744B2 (en) * 2012-11-28 2017-03-14 Google Inc. Speech transcription including written text
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9378733B1 (en) * 2012-12-19 2016-06-28 Google Inc. Keyword detection without decoding
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
DE102014109121B4 (de) * 2013-07-10 2023-05-04 Gm Global Technology Operations, Llc Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9202462B2 (en) * 2013-09-30 2015-12-01 Google Inc. Key phrase detection
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9792911B2 (en) * 2014-03-25 2017-10-17 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Background voice recognition trainer
US9881609B2 (en) * 2014-04-18 2018-01-30 General Motors Llc Gesture-based cues for an automatic speech recognition system
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US9412394B1 (en) * 2015-03-09 2016-08-09 Jigen Labs, LLC Interactive audio communication system
US9460713B1 (en) * 2015-03-30 2016-10-04 Google Inc. Language model biasing modulation
JP6596891B2 (ja) * 2015-04-08 2019-10-30 ソニー株式会社 送信装置、送信方法、受信装置、及び、受信方法
CN104794203B (zh) * 2015-04-24 2018-12-14 中国科学院南京地理与湖泊研究所 一种藻类计数数据语音快速录入及报表生成系统和方法
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
JP6608199B2 (ja) * 2015-07-07 2019-11-20 クラリオン株式会社 情報システムおよびコンテンツ開始方法
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US9978367B2 (en) * 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
DE102016212137A1 (de) * 2016-07-04 2018-01-04 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zum Verarbeiten von Signalen aus Nachrichten auf wenigstens zwei Datenbussen, insbesondere CAN-Bussen; vorzugsweise in einem Fahrzeug; sowie System
US10451430B2 (en) * 2016-07-26 2019-10-22 International Business Machines Corporation Navigation alerting using conversation analysis
CN106356063A (zh) * 2016-08-28 2017-01-25 桂林市晶准测控技术有限公司 一种对管控语音进行文字识别的方法和系统
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
KR20180071029A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
US10339927B2 (en) * 2017-02-16 2019-07-02 GM Global Technology Operations LLC Vehicle control systems and methods for multi-intent queries input by voice
US10535342B2 (en) * 2017-04-10 2020-01-14 Microsoft Technology Licensing, Llc Automatic learning of language models
US10580406B2 (en) * 2017-08-18 2020-03-03 2236008 Ontario Inc. Unified N-best ASR results
US10497370B2 (en) * 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
US10304454B2 (en) 2017-09-18 2019-05-28 GM Global Technology Operations LLC Persistent training and pronunciation improvements through radio broadcast
EP3712563A4 (en) * 2017-09-29 2021-08-25 Pioneer Corporation INFORMATION PROVISION SYSTEM, INFORMATION PROVISION PROCESS AND PROGRAM
US10192554B1 (en) 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
KR102352472B1 (ko) * 2019-11-12 2022-01-17 임용섭 층간소음 분쟁을 예방하기 위한 인공지능 기반의 이웃간 데이터 처리 장치 및 이를 이용한 데이터 처리 방법
CN112837688B (zh) * 2019-11-22 2024-04-02 阿里巴巴集团控股有限公司 语音转写方法、装置、相关系统及设备
US20210182696A1 (en) * 2019-12-11 2021-06-17 International Business Machines Corporation Prediction of objective variable using models based on relevance of each model
CN113593543B (zh) * 2020-04-30 2024-06-11 浙江未来精灵人工智能科技有限公司 智能音箱语音服务系统、方法、装置及设备
US20210397793A1 (en) * 2020-06-17 2021-12-23 Microsoft Technology Licensing, Llc Intelligent Tone Detection and Rewrite
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN112786045B (zh) * 2021-01-04 2024-03-12 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
CN113724709A (zh) * 2021-08-31 2021-11-30 北京字跳网络技术有限公司 文本内容匹配方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US20050182628A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Domain-based dialog speech recognition method and apparatus
EP1791114A1 (en) * 2005-11-25 2007-05-30 Swisscom Mobile Ag A method for personalization of a service
US20100036660A1 (en) * 2004-12-03 2010-02-11 Phoenix Solutions, Inc. Emotion Detection Device and Method for Use in Distributed Systems

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5349636A (en) * 1991-10-28 1994-09-20 Centigram Communications Corporation Interface system and method for interconnecting a voice message system and an interactive voice response system
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US5406618A (en) * 1992-10-05 1995-04-11 Phonemate, Inc. Voice activated, handsfree telephone answering device
US6101468A (en) * 1992-11-13 2000-08-08 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
EP1163576A4 (en) * 1998-10-02 2005-11-30 Ibm CONVERTIVE CALCULATION VIA CONVERSIONAL VIRTUAL MACHINE
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US6430531B1 (en) * 1999-02-04 2002-08-06 Soliloquy, Inc. Bilateral speech system
US6308151B1 (en) 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7216079B1 (en) * 1999-11-02 2007-05-08 Speechworks International, Inc. Method and apparatus for discriminative training of acoustic models of a speech recognition system
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US6813341B1 (en) * 2000-08-31 2004-11-02 Ivoice, Inc. Voice activated/voice responsive item locator
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US6901364B2 (en) * 2001-09-13 2005-05-31 Matsushita Electric Industrial Co., Ltd. Focused language models for improved speech input of structured documents
US6996519B2 (en) * 2001-09-28 2006-02-07 Sri International Method and apparatus for performing relational speech recognition
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US20030191639A1 (en) * 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7831433B1 (en) * 2005-02-03 2010-11-09 Hrl Laboratories, Llc System and method for using context in navigation dialog
US8126712B2 (en) * 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
JP5320064B2 (ja) * 2005-08-09 2013-10-23 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20070112630A1 (en) * 2005-11-07 2007-05-17 Scanscout, Inc. Techniques for rendering advertisments with rich media
EP1796080B1 (en) * 2005-12-12 2009-11-18 Gregory John Gadbois Multi-voice speech recognition
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US20080004880A1 (en) * 2006-06-15 2008-01-03 Microsoft Corporation Personalized speech services across a network
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8175248B2 (en) * 2007-01-29 2012-05-08 Nuance Communications, Inc. Method and an apparatus to disambiguate requests
JP4466665B2 (ja) * 2007-03-13 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
GB2493875A (en) * 2010-04-26 2013-02-20 Trustees Of Stevens Inst Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US20120016671A1 (en) * 2010-07-15 2012-01-19 Pawan Jaggi Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8762151B2 (en) * 2011-06-16 2014-06-24 General Motors Llc Speech recognition for premature enunciation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US20050182628A1 (en) * 2004-02-18 2005-08-18 Samsung Electronics Co., Ltd. Domain-based dialog speech recognition method and apparatus
US20100036660A1 (en) * 2004-12-03 2010-02-11 Phoenix Solutions, Inc. Emotion Detection Device and Method for Use in Distributed Systems
EP1791114A1 (en) * 2005-11-25 2007-05-30 Swisscom Mobile Ag A method for personalization of a service
US20070124134A1 (en) * 2005-11-25 2007-05-31 Swisscom Mobile Ag Method for personalization of a service

Cited By (234)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN104123936B (zh) * 2013-04-25 2017-10-20 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN105284099B (zh) * 2013-06-08 2019-05-17 苹果公司 针对免提交互来自动调整用户界面
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105284099A (zh) * 2013-06-08 2016-01-27 苹果公司 针对免提交互来自动调整用户界面
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US12073147B2 (en) 2013-06-09 2024-08-27 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105340011A (zh) * 2013-06-28 2016-02-17 哈曼国际工业有限公司 链接设备的无线控制
US12010262B2 (en) 2013-08-06 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
CN106796787A (zh) * 2014-05-20 2017-05-31 亚马逊技术有限公司 在自然语言处理中使用先前对话行为进行的语境解释
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
CN107209019A (zh) * 2015-01-30 2017-09-26 索尼公司 信息处理系统和控制方法
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
CN107949823A (zh) * 2015-09-08 2018-04-20 苹果公司 零延迟数字助理
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
CN107949823B (zh) * 2015-09-08 2021-06-11 苹果公司 零延迟数字助理
US12051413B2 (en) 2015-09-30 2024-07-30 Apple Inc. Intelligent device identification
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
CN109313667A (zh) * 2016-06-17 2019-02-05 微软技术许可有限责任公司 构建特定于状态的多轮上下文语言理解系统的系统和方法
CN109313667B (zh) * 2016-06-17 2023-06-06 微软技术许可有限责任公司 构建特定于状态的多轮上下文语言理解系统的系统和方法
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN109074803A (zh) * 2017-03-21 2018-12-21 北京嘀嘀无限科技发展有限公司 语音信息处理系统和方法
CN109074803B (zh) * 2017-03-21 2022-10-18 北京嘀嘀无限科技发展有限公司 语音信息处理系统和方法
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107437413A (zh) * 2017-07-05 2017-12-05 百度在线网络技术(北京)有限公司 语音播报方法及装置
WO2019007308A1 (zh) * 2017-07-05 2019-01-10 百度在线网络技术(北京)有限公司 语音播报方法及装置
CN109427331B (zh) * 2017-08-16 2024-02-27 三星电子株式会社 语音识别方法及装置
CN109427331A (zh) * 2017-08-16 2019-03-05 三星电子株式会社 语音识别方法及装置
CN110998720A (zh) * 2017-08-22 2020-04-10 三星电子株式会社 话音数据处理方法及支持该方法的电子设备
CN110998720B (zh) * 2017-08-22 2024-01-09 三星电子株式会社 话音数据处理方法及支持该方法的电子设备
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109712615A (zh) * 2017-10-23 2019-05-03 通用汽车环球科技运作有限责任公司 用于检测对话语音中的提示的系统和方法
CN109785828B (zh) * 2017-11-13 2023-05-23 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
CN109785828A (zh) * 2017-11-13 2019-05-21 通用汽车环球科技运作有限责任公司 基于用户语音风格的自然语言生成
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN111587419A (zh) * 2018-02-23 2020-08-25 三星电子株式会社 电子装置及其控制方法
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
CN111919248A (zh) * 2018-03-08 2020-11-10 三星电子株式会社 用于处理用户发声的系统及其控制方法
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN110310622A (zh) * 2018-03-20 2019-10-08 阔利达软件有限公司 语音传输系统
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108597541B (zh) * 2018-04-28 2020-10-02 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US12067985B2 (en) 2018-06-01 2024-08-20 Apple Inc. Virtual assistant operations in multi-device environments
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN113016029A (zh) * 2018-11-02 2021-06-22 株式会社赛斯特安国际 提供基于上下文的语音识别服务的方法及装置
CN112673424A (zh) * 2018-11-16 2021-04-16 谷歌有限责任公司 用于自动语音识别的场境去规范化
CN113228162A (zh) * 2018-12-27 2021-08-06 微软技术许可有限责任公司 基于上下文的语音合成
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
CN113678133A (zh) * 2019-04-05 2021-11-19 三星电子株式会社 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的系统和方法
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US12087308B2 (en) 2020-06-25 2024-09-10 Apple Inc. Intelligent automated assistant
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US12080287B2 (en) 2021-03-17 2024-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN113470619A (zh) * 2021-06-30 2021-10-01 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备
CN113470619B (zh) * 2021-06-30 2023-08-18 北京有竹居网络技术有限公司 语音识别方法、装置、介质及设备
CN115512698A (zh) * 2022-06-13 2022-12-23 南方电网数字电网研究院有限公司 一种语音语义分析方法
CN118335081A (zh) * 2024-06-11 2024-07-12 名商科技有限公司 基于交叉语义识别的车辆座舱语音交互方法及系统
CN118335081B (zh) * 2024-06-11 2024-09-06 名商科技有限公司 基于交叉语义识别的车辆座舱语音交互方法及系统

Also Published As

Publication number Publication date
US20120245934A1 (en) 2012-09-27
US9202465B2 (en) 2015-12-01

Similar Documents

Publication Publication Date Title
CN102693725A (zh) 依赖于文本信息语境的语音识别
CN101071564B (zh) 把词表外语音与词表内语音区别开的方法
US8639508B2 (en) User-specific confidence thresholds for speech recognition
CN101354887B (zh) 用在语音识别中的环境噪声注入方法
US9570066B2 (en) Sender-responsive text-to-speech processing
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
CN107819929A (zh) 优选表情符号的识别和生成
US10255913B2 (en) Automatic speech recognition for disfluent speech
CN102543077B (zh) 基于语言独立女性语音数据的男性声学模型适应方法
US9082414B2 (en) Correcting unintelligible synthesized speech
US8438028B2 (en) Nametag confusability determination
CN103124318B (zh) 开始免提会议呼叫的方法
US9997155B2 (en) Adapting a speech system to user pronunciation
US8762151B2 (en) Speech recognition for premature enunciation
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
US20120109649A1 (en) Speech dialect classification for automatic speech recognition
US9865249B2 (en) Realtime assessment of TTS quality using single ended audio quality measurement
US9911408B2 (en) Dynamic speech system tuning
US20100076764A1 (en) Method of dialing phone numbers using an in-vehicle speech recognition system
CN105609109A (zh) 混合式自动语音识别
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
CN104426998A (zh) 交通工具远程信息处理单元及其操作方法
CN108447488A (zh) 增强语音识别任务完成
US9473094B2 (en) Automatically controlling the loudness of voice prompts
CN107818788A (zh) 车辆上的远程语音识别

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120926