CN109785827A - 在语音识别仲裁中使用的神经网络 - Google Patents

在语音识别仲裁中使用的神经网络 Download PDF

Info

Publication number
CN109785827A
CN109785827A CN201811293355.9A CN201811293355A CN109785827A CN 109785827 A CN109785827 A CN 109785827A CN 201811293355 A CN201811293355 A CN 201811293355A CN 109785827 A CN109785827 A CN 109785827A
Authority
CN
China
Prior art keywords
voice
neural network
arbitration
client device
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811293355.9A
Other languages
English (en)
Inventor
X·F·赵
G·塔瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN109785827A publication Critical patent/CN109785827A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Navigation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种在客户端设备处执行语音仲裁的系统和方法,该客户端设备包括神经网络语音仲裁应用,其中该神经网络语音仲裁应用被配置为实现神经网络语音仲裁过程,并且其中该方法包括:在客户端设备处接收语音信号;生成和/或获得要在语音仲裁神经网络过程中使用的成组的输入,其中语音仲裁神经网络过程使用适合于语音仲裁并且可以用于确定是否和/或在何种程度上应该在客户端设备处进行所接收到的语音信号的语音识别处理的神经网络模型;接收语音仲裁输出,该语音仲裁输出指示在客户端设备或远程服务器处是否和/或在何种程度上执行所接收到的语音信号的语音识别处理。

Description

在语音识别仲裁中使用的神经网络
引言
本发明涉及语音仲裁,并且更具体地涉及使用神经网络模型来确定是否和/或在何种程度上在客户端处使用第一自动语音识别(ASR)系统以及在服务器端处使用第二ASR系统来实现语音仲裁过程。
可以使用自动语音识别(ASR)在车辆或其他客户端语音识别设备处控制或获得各种车辆功能。例如,车辆包括能够从车辆乘员接收语音、处理该语音以理解语音内容,然后基于语音内容执行某些动作的硬件和软件。车辆或其他客户端设备可以使用硬件和软件仅在车辆处处理所接收到的语音。或者,车辆可以将接收到的语音作为分组数据发送到发生语音识别处理的远程设施。然后,远程设施可以通过语音识别分析来响应车辆。在每个位置处执行语音识别具有其优点,并且当将语音发送到远程设施而不是在车辆处执行语音识别更有利时识别条件将是有帮助的。
发明内容
根据本发明的一个方面,提供了一种在客户端设备处执行语音仲裁的方法,该客户端设备包括神经网络语音仲裁应用,其中该神经网络语音仲裁应用被配置为实现神经网络语音仲裁过程,并且其中该方法包括:在客户端设备处接收语音信号;生成和/或获得要在语音仲裁神经网络过程中使用的成组的输入,其中语音仲裁神经网络过程使用适合于语音仲裁并且可以用于确定是否和/或在何种程度上应该在客户端设备或远程服务器上进行所接收到的语音信号的语音识别处理的神经网络模型;以及接收语音仲裁输出,该语音仲裁输出指示在客户端设备或远程服务器处是否和/或在何种程度上执行所接收到的语音信号的语音识别处理。
根据各种实施例,该方法还可包括以下特征中或这些特征的任何技术上可行的组合中的任何一个:
·该组输入包括基于接收来自语音仲裁神经网络过程的一个或多个先前迭代的反馈而生成的条件输入;
·该组输入还包括连接质量度量,该连接质量度量指示客户端设备与远程服务器之间的服务质量和/或连接质量;
·该组输入还包括基于所接收到的语音信号生成并指示与客户端设备成功识别在所接收到的语音信号中传送的口头语言的能力有关的置信度水平的置信度分数;
·该组输入还包括发动机偏置度量,该发动机偏置度量用于偏置语音仲裁神经网络过程,使得客户端设备或远程服务器更可能用于所接收到的语音信号的语音识别处理;
·语音仲裁神经网络过程基于深度神经网络模型,该模型包括多个用于将该组输入映射到语音仲裁输出的隐藏的神经网络层;
·语音仲裁神经网络过程最初使用语音识别输出进行训练,该语音识别输出作为基于规则的语音仲裁过程的结果而获得;和/或
·语音仲裁神经网络过程使用语音仲裁输出来训练语音仲裁神经网络过程,以便改进神经网络语音仲裁过程以用于将来的迭代。
根据本发明的另一方面,提供了一种在客户端设备处执行语音仲裁的方法,该客户端设备包括神经网络语音仲裁应用,该方法包括:使用作为基于规则的语音仲裁过程的结果而获得的训练数据来训练神经网络语音仲裁应用;在客户端设备处执行神经网络语音仲裁应用的迭代,以便执行语音仲裁,其中神经网络语音仲裁应用使用人工神经网络模型来解析对语音仲裁输出的成组的输入,并且其中语音仲裁输出指示在包括自动语音识别(ASR)系统的远程服务器处是否和/或在何种程度上对接收到的语音进行语音识别处理;并且基于神经网络语音仲裁应用的先前迭代,调整神经网络语音仲裁应用。
根据各种实施例,该方法还可包括以下特征中或这些特征的任何技术上可行的组合中的任何一个:
·该组输入包括置信度分数、连接质量度量、发动机偏置度量和条件输入,并且其中条件输入基于神经网络语音仲裁应用的先前迭代;
·条件输入至少部分地基于作为神经网络语音仲裁应用的先前迭代的一部分使用或获得的语音仲裁输入和输出;
·调整步骤还包括基于成组的输入、语音仲裁输出和神经网络语音仲裁应用的测量成功来调整神经网络语音仲裁应用;
·客户端设备基于一个或多个性能指标来自动确定神经网络语音仲裁过程的测量成功;
·训练步骤还包括使用作为基于规则的语音仲裁处理的结果而获得的训练数据来对神经网络语音仲裁应用执行监督训练;
·在安装神经网络语音仲裁应用并将其配置为在客户端设备中使用之前执行训练步骤;和/或
·通过从位于远程的服务器在客户端设备接收信息来偶尔更新网络语音仲裁应用。
根据本发明的又一方面,提供了一种在客户端设备处执行语音仲裁的方法,该客户端设备包括神经网络语音仲裁应用,其中该方法由包括第一自动语音识别(ASR)系统的车辆执行,并且其中该方法包括:使用训练数据来训练神经网络语音仲裁应用;在客户端设备处执行神经网络语音仲裁应用的多次迭代,以便执行语音仲裁,其中多次迭代的每次迭代包括:(i)在车辆处接收语音信号;(ii)生成和/或获得用于语音仲裁神经网络过程的成组的输入;以及(iii)接收语音仲裁输出,该语音仲裁输出指示在车辆上或在包括第二ASR系统的远程服务器上是否和/或在何种程度上执行所接收到的语音信号的语音识别处理;并且基于神经网络语音仲裁应用的多次迭代来调整神经网络语音仲裁应用。
根据各种实施例,该方法还可包括以下特征中或这些特征的任何技术上可行的组合中的任何一个:
·该组输入包括置信度分数、连接质量度量、发动机偏置度量和条件输入,其中条件输入基于神经网络语音仲裁应用的先前迭代;
·训练数据作为基于规则的语音仲裁过程的结果而获得;和/或
训练步骤还包括使用作为基于规则的语音仲裁过程的结果而获得的训练数据对神经网络语音仲裁应用执行监督训练,并且其中训练步骤在神经网络语音仲裁应用安装好并配置为在客户端设备中使用之前执行。
附图说明
在下文中将结合附图来描述本发明的一个或多个实施例,其中相同的标号表示相同的元件,并且其中:
图1是描绘能够利用本文公开的方法的通信系统的实施例的框图;
图2是描绘自动语音识别(ASR)系统的实施例的框图;
图3是在客户端设备处执行语音仲裁的方法的实施例的流程图,该客户端设备包括神经网络语音仲裁应用;以及
图4是描绘可以在神经网络语音仲裁过程或应用中使用的神经网络模型的实施例的框图。
具体实施方式
下面描述的系统和方法涉及在客户端设备处接收语音并根据神经网络模型执行语音仲裁以确定是否在客户端设备或远程语音处理服务器处执行语音识别。例如,包括在客户端设备中或位于客户端设备处的设备可以被配置为根据特定的神经网络模型进行操作,该特定的神经网络模型被定制为执行语音仲裁,以便确定所接收到的语音的语音处理是否和/或在何种程度上应该使用“车载”或“客户端”语音处理系统在客户端设备处执行,或者是否和/或在何种程度上应该在远程语音处理服务器上执行所接收语音的语音处理,比如,可以通过互连网络(例如,互联网)访问的那些。
如本文所使用的,“语音仲裁”是指确定是否和/或在何种程度上在客户端设备处还是在远程语音处理设施处执行语音处理。如本文所使用的,“神经网络模型”指的是人工神经网络,该人工神经网络包括使用至少一个隐藏层将包括各种因素(或输入)的输入映射到输出,该隐藏层将变化的输入值和/或条件互连或映射到输出。下面的方法和系统实现用于语音仲裁的神经网络模型。在许多实施例中,可以获得各种因素并将其输入到专门定制的语音仲裁神经网络模型中,以便确定是否和/或在何种程度上应该在客户端设备处或在远程语音处理服务器处执行所接收到的语音的语音处理。
在一个实施例中,客户端设备可以使用麦克风来接收语音。此后,客户端设备可以获得成组的输入,包括置信度分数、连接质量度量、发动机偏置度量和条件输入,并且随后可以使用神经网络语音仲裁应用来确定是否和/或在何种程度上应该在客户端设备处或远程语音处理服务器处执行所接收到的语音的语音处理。可以使用根据基于规则的语音仲裁过程收集的语音仲裁信息(或训练信息)来初始配置神经网络语音仲裁应用,并且一旦在操作中,神经网络语音仲裁应用可以基于反馈信息进行调整,该反馈信息在语音仲裁迭代期间或之后(即,使用神经网络语音仲裁应用的操作循环)收集。反馈信息可以包括或基于在给定语音仲裁迭代期间使用的某些输入、语音仲裁迭代的输出,和/或表示语音仲裁迭代的输出的质量和/或成功的一个或多个质量或性能指标。
如本领域技术人员将理解的,基于神经网络的语音仲裁过程或应用可以被实现为各种不同的客户端设备,包括手持移动设备(例如,智能电话)、家庭自动化设备(例如,比如,AmazonTMAlexaTM和GoogleTMHome之类的智能个人助理、车辆和/或可以接收语音、连接到远程计算机网络并且被配置为实现这里讨论的基于神经网络的语音仲裁过程或应用的任何设备。在特定实施例中,车辆可以用作接收和执行语音仲裁的客户端设备,并且比如,包括在车辆后端服务设施中的远程语音处理服务器可以用于语音处理,达到作为基于神经网络的语音仲裁过程或应用的结果,车辆确定将语音信号发送到车辆后端服务设施的程度。存在其他实施例,比如,存在多个远程ASR系统的情况,并且在这种情况下,神经网络语音仲裁模型可用于确定语音信号是否和/或在何种程度上应发送给一个或多个ASR系统。
取决于与所接收到的语音的内容或车辆处可用的无线通信的质量有关的许多因素,在车辆或远程设施处处理语音可能是有利的。例如,向远程设施发送语音的缺点涉及无线载波系统用于从车辆向远程设施发送语音的使用费。每当车辆发送要由远程设施分析的语音时,车辆或远程信息处理服务提供商就会收取费用。该费用可以基于发送语音所需的时间长度、语音包括的数据量或两者。另一方面,从车辆接收语音的远程设施可以利用比车辆上可用的语言模型更复杂的语言模型来维持更强大的计算机处理能力。基于车辆的语音处理可能有其自身的缺点。虽然识别车辆处所接收到的语音可以最小化无线载波系统收取的费用,但是车辆的计算机处理能力可能不如远程设施处可用的那些功能强,并且车辆可以使用更简单的语言模型,该语言模型可能包括比可能在远程设施处可用的更少的内容,这可能意味着较不准确的结果。下面讨论的神经网络语音仲裁过程可以基于多种因素执行语音仲裁,比如,与车辆(或客户端设备)和远程语音处理服务器的任何一个或多个缺点或优点相关联的因素,如以上所讨论的。并且,至少在一些实施例中,神经网络语音仲裁过程可以基于神经网络语音仲裁过程的先前迭代进行调整,以便改进语音识别处理。
在某些情况下,影响给定语音识别过程如何成功并且因此提供成组的用于语音仲裁的规则的因素可能是不充分或不理想的。例如,并非车辆乘员在车辆处所接收到的所有语音都是统一的,此外,用于发送语音内容的无线载波系统提供的服务质量可以基于当前的蜂窝连接和/或服务器负载或流量而变化。语音内容可以取决于车辆乘员给出的命令的内容,并且内容或长度可以变化。而且,无线载波系统提供的服务质量可以使得从车辆到远程设施的语音或多或少具有吸引力。可以分析在车辆处所接收到的语音以评估与语音内容、服务质量或两者相关的因素;并且,基于评估这些因素,可以就是否应该将语音发送到远程设施以进行识别、车辆是否应该在车辆处执行语音识别处理、或者是否应该使用两个ASR系统做出确定。所有这些各种因素都可以输入到神经网络语音仲裁过程或应用中,其使用神经网络技术,包括至少一个隐藏的神经网络层,将输入的因素解析为可用于指示是否和/或在何种程度上应该在车辆或远程语音处理服务器(比如,位于车辆后端服务设施处的那些服务器)处执行所接收语音的语音处理的语音仲裁输出。
参考图1,示出了包括通信系统10并且可以用于实现本文公开的方法的操作环境。通信系统10通常包括具有车身控制模块(BCM)26和无线通信设备30的车辆12、一群全球导航卫星系统(GNSS)卫星60、一个或多个无线载波系统70、陆地通信网络76、计算机78、远程设施80和个人移动设备90。应当理解,所公开的方法可以与任何数量的不同系统一起使用,并且不具体限于这里示出的操作环境。而且,系统10及其各个组件的架构、构造、设置和一般操作在本领域中通常是已知的。因此,以下段落仅简要概述了一个这样的通信系统10;然而,这里未示出的其他系统也可以采用所公开的方法。
无线载波系统70可以是任何合适的蜂窝电话系统。载波系统70显示为包括蜂窝塔72;然而,载波系统70可以包括以下组件中的一个或多个(例如,取决于蜂窝技术):蜂窝塔、基站收发信台、移动交换中心、基站控制器、演进节点(例如,eNodeB)、移动性管理实体(MME)、服务和PGN网关等,以及将无线载波系统70与陆地网络76连接或将无线载波系统与用户设备(例如,可包括车辆12中的远程信息处理设备的UE)连接所需的任何其他网络组件。载波系统70可以实现任何合适的通信技术,包括GSM/GPRS技术、CDMA或CDMA2000技术、LTE技术等。通常,无线载波系统70、它们的组件、它们的组件的布置、组件之间的交互等等在本领域中通常已知。
除了使用无线载波系统70之外,可以使用卫星通信形式的不同无线载波系统来提供与车辆的单向或双向通信。这可以使用一个或多个通信卫星(未示出)和上行链路发送站(未示出)来完成。单向通信可以是例如卫星无线电服务,其中节目内容(新闻、音乐等)由上行链路发送站接收、打包以便上载,然后发送到卫星,卫星再向订户广播节目。双向通信可以是,例如,使用一个或多个通信卫星的卫星电话服务,以中继车辆12和上行链路发送站之间的电话通信。如果使用的话,除了无线载波系统70之外或代替无线载波系统70,可以使用该卫星电话。
陆地网络76可以是传统的陆基电信网络,其连接到一个或多个陆线电话并且将无线载波系统70连接到远程设施80。例如,陆地网络76可以包括公共交换电话网(PSTN),比如,用于提供硬连线电话、分组交换数据通信和因特网基础设施的公共交换电话网络。陆地网络76的一个或多个段可以通过使用标准有线网络、光纤或其他光网络、有线网络、电力线,比如,无线局域网(WLAN)的其他无线网络或提供宽带无线接入(BWA)或其任何组合的网络来实现。
计算机78(仅示出一个)可以是可通过比如,因特网的私人或公共网络访问的多个计算机中的一些。每个这样的计算机78可以是可以执行语音处理和/或语音仲裁的客户端设备,或者可以用于一个或多个目的的客户端设备,比如,车辆12可访问的远程服务器(例如,远程语音处理服务器)。其他这样的可访问计算机78可以是,例如:可用于提供位置服务的第三方服务器;其中可以从车辆上载诊断信息和其他车辆数据的服务中心计算机;车辆所有者或其他用户用于访问或接收车辆数据或建立或配置订户偏好或控制车辆功能等目的的客户计算机;协调来自请求使用车辆作为汽车共享服务的一部分的多个用户的登记的汽车共享服务器;或者通过与车辆12、远程设施80或两者通信来向其或从其提供车辆数据或其他信息的第三方存储库。计算机78还可以用于提供比如,DNS服务之类的因特网连接,或者用作使用DHCP或其他合适的协议来为车辆12分配IP地址的网络地址服务器。
远程设施80可以被设计为通过使用一个或多个电子服务器向车辆电子设备20和移动设备90提供许多不同的系统后端功能。例如,远程设施80可以部分地用于促进或协调在车辆12与一个或多个客户端设备(比如,移动设备90或计算机78)之间发送的信息。在一个实施例中,远程设施80可以提供语音识别服务,其可以包括从客户端设备接收语音信号并使用语音识别系统处理所接收到的语音信号。另外或替代地,远程设施80可以包括一个或多个交换机、服务器、数据库、现场顾问,以及自动语音响应系统(VRS),所有这些都是本领域已知的。远程设施80可以包括这些各种组件中的任何一个或全部,并且优选地,各种组件中的每一个通过有线或无线局域网彼此耦合。远程设施80可以通过连接到陆地网络76的调制解调器接收和发送数据。
远程设施80还可以包括一个或多个数据库,其可以存储帐户信息,比如,订户认证信息、车辆标识符、简档记录、行为模式、语音识别和/或仲裁信息,以及其他相关订户信息。如本文所使用的,语音识别和/或仲裁信息包括可用于训练语音识别或语音仲裁系统的信息,比如,下面详细讨论的神经网络语音仲裁过程。数据传输也可以由无线系统,比如,IEEE802.11x、GPRS等进行。本领域技术人员将理解,尽管在所示实施例中仅描绘了一个远程设施80和一个计算机78,但是可以使用许多远程设施80和/或计算机78。
个人移动设备90是移动设备,并且可以包括:支持蜂窝电信和SRWC以及其他移动设备应用的硬件、软件和/或固件。如本文所使用的,个人移动设备是能够进行SRWC的移动设备,其可由用户携带,并且其中设备的可移植性至少部分地取决于用户,比如,可穿戴设备(例如,智能手表)、可植入设备或手持设备(例如,智能手机、平板电脑、笔记本电脑)。如本文所使用的,短程无线通信(SRWC)设备是能够进行SRWC的设备。个人移动设备90可以是客户端设备,并且可以包括用于存储软件、固件等的处理器和存储器(例如,被配置为与处理器一起操作的非暂时性计算机可读介质)。个人移动设备的处理器和存储器可以启用各种软件应用92,其可以由用户(或制造商)预先安装或安装(例如,具有软件应用或图形用户界面(GUI))。
移动设备应用92的一种实现方式可以使用语音识别技术来接收语音和处理所接收到的语音,其中一些技术可以包括根据本文所讨论的方法的各种实施例的语音仲裁。例如,移动设备可以包括麦克风,该麦克风使得能够接收由一个或多个用户生成的语音波。可以根据下面讨论的神经网络语音仲裁过程在移动设备上执行语音仲裁。在一些实施例中,应用92或另一移动设备应用可包括图形用户界面,该图形用户界面允许用户输入凭证、提交用于授权和/或认证的凭证、连接到车辆12、查看车辆状态信息、请求要实行的车辆功能和/或配置一个或多个车辆设置。移动设备90可以根据一种或多种SRWC技术或有线连接,比如,使用通用串行总线(USB)电缆的连接与无线通信设备30通信。尽管示出了单个移动设备90,但是通信10可以包括多个移动设备90。
在所示实施例中,车辆12被描绘为乘用车,但是应该理解的是,也可以使用包括摩托车、卡车、运动型多用途车(SUV)、娱乐车辆(RV)、船舶、飞机等的任何其他车辆。一些车辆电子设备20总体上在图1中示出并且包括全球导航卫星系统(GNSS)模块22、发动机控制单元(ECU)24、车身控制模块(BCM)26、可被配置为执行神经网络语音仲裁和/或语音识别处理的无线通信设备30、其他车辆系统模块(VSM)42以及许多其他组件和设备。可以连接一些或所有不同的车辆电子设备以通过一个或多个通信总线(比如,总线44)彼此通信。通信总线44使用一个或多个网络协议为车辆电子设备提供网络连接。合适的网络连接的示例包括控制器区域网络(CAN)、面向媒体的系统传输(MOST)、本地互连网络(LIN)、局域网(LAN)以及其他适当的连接,比如,以太网或其他符合已知的ISO、SAE和IEEE标准和规范的连接,仅举几例。
车辆12可以包括作为车辆电子设备20的一部分的多个车辆系统模块(VSM),比如,GNSS模块22、ECU24、BCM26、无线通信设备30和车辆用户界面52-58,如将在下面详细描述的。车辆12还可以包括位于整个车辆中的电子硬件组件形式的其他VSM42,其可以从一个或多个传感器接收输入并使用所感测到的输入来执行诊断、监视、控制、报告和/或其他功能。每个VSM42可以通过通信总线44连接到其他VSM,并且可以被编程为运行车辆系统和子系统诊断测试。一个或多个VSM42可以周期性地或偶尔地更新其软件或固件,并且在一些实施例中,这种车辆更新可以是通过陆地网络76和通信设备30从计算机78或远程设施80所接收到的空中(OTA)更新。如本领域技术人员所理解的,上述VSM仅是可以在车辆12中使用的一些模块的示例,因为许多其他模块也是可能的。
全球导航卫星系统(GNSS)模块22从一群GNSS卫星接收无线电信号。在一个实施例中,GNSS模块22可以是全球定位系统(GPS)模块,其可以从成组的GPS卫星60接收GPS信号。根据这些信号,模块22可以确定车辆位置,该车辆位置可以使车辆确定其是否处于已知位置,比如,家庭或工作场所。此外,GNSS模块22可以将该位置数据(例如,地理坐标)提供给无线通信设备30,该无线通信设备30然后可以使用该数据来识别已知位置,比如,车辆操作者的家或工作场所。另外,GNSS模块22可用于向车辆操作者提供导航和其他位置相关的服务。导航信息可以在显示器58(或车辆内的其他显示器)上呈现,或者可以口头呈现,比如,在提供逐向导航时完成。可以使用专用车载导航模块(其可以是GNSS模块22的一部分)来提供导航服务,或者可以通过安装在车辆中的远程信息处理单元来完成一些或所有导航服务,其中将位置信息发送到远程位置,用于向车辆提供导航地图、地图注释(兴趣点、餐馆等)、路线计算等。位置信息可以提供给远程设施80或其他远程计算机系统,比如,计算机78,用于其他目的,比如,车队管理和/或用于汽车共享服务。而且,新的或更新的地图数据可以通过车辆远程信息处理单元从远程设施80下载到GNSS模块22。
车辆电子设备20还包括多个车辆用户界面,其为车辆乘员提供提供和/或接收信息的装置,包括按钮52、音频系统54、麦克风56和视觉显示器58。如本文所使用的,术语“车辆用户界面”广泛地包括任何合适形式的电子设备,包括位于车辆上并且使车辆用户能够与车辆的组件通信或通过车辆的组件进行通信的硬件和软件组件两者。按钮52允许到通信设备30的手动用户输入以提供其他数据、响应或控制输入。音频系统54向车辆乘员提供音频输出,并且可以是专用的独立系统或主要车辆音频系统的一部分。根据这里所示的特定实施例,音频系统54可操作地耦合到车辆总线44和娱乐总线(未示出),并且可以提供AM、FM和卫星无线电、CD、DVD和其他多媒体功能。该功能可以与信息娱乐模块一起提供或独立于信息娱乐模块提供。麦克风56向无线通信设备30提供音频输入,以使驾驶员或其他乘员能够通过无线载波系统70提供语音命令和/或进行免提呼叫,并且可以使用语音仲裁和识别技术来处理,正如下文所述。麦克风56可以利用本领域已知的人机界面(HMI)技术连接到车载自动语音处理单元。视觉显示器或触摸屏58优选地是图形显示器,比如,仪表板上的触摸屏或从挡风玻璃反射的平视显示器,并且可用于提供多种输入和输出功能。还可以使用各种其他车辆用户界面,因为图1的界面仅是一个特定实现方式的示例。
在图1的示例性实施例中示出了电连接到通信总线44的车身控制模块(BCM)26。在一些实施例中,BCM26可以与中央堆栈模块(CSM)集成或者是其一部分和/或与无线通信设备30集成。或者,BCM和CSM可以是通过总线44彼此连接的独立设备。BCM26可以包括处理器和/或存储器,其可以类似于无线通信设备30的处理器36和存储器38,如下所述。BCM26可以与无线通信设备30和/或一个或多个车辆系统模块(比如,GNSS22、音频系统54或其他VSM42)通信。BCM36的处理器和存储器可用于指导或执行一个或多个车辆操作,包括例如控制中央锁定、空调、动力镜、控制车辆点火或主动力(例如,发动机、主推进系统),和/或控制各种其他车辆模块。BCM26可以从无线通信设备30接收数据,并且随后将数据发送到一个或多个车辆模块。
另外,BCM26可以提供与车辆状态或某些车辆部件或系统相对应的信息。例如,BCM可以向无线通信设备30提供指示车辆点火装置是否打开的信息,车辆当前所处的档位(即档位状态),和/或关于车辆的其他信息。BCM26可用于确定一个或多个车辆状态,比如,车辆是否通电、车辆电池的电池电量和/或其他车辆状态。这些各种车辆状态可以被获得无线通信设备30并且用作神经网络语音仲裁过程中的输入。
无线通信设备30能够通过短距离无线通信(SRWC)传送数据,并且在一些实施例中,能够通过蜂窝网络通信传送数据。如图1的示例性实施例中所示,无线通信设备30包括SRWC电路32、蜂窝芯片组34、处理器36、存储器38和天线40和50。在一些实施例中,无线通信设备30可以被具体配置为执行本文公开的方法的至少一部分。在一个实施例中,无线通信设备30可以是独立模块,或者在其他实施例中,设备30可以作为一个或多个其他车辆系统模块,比如,中央堆栈模块(CSM)、BCM26、信息娱乐模块、远程信息处理单元、主机单元和/或网关模块的一部分并入或包括在内。在一些实施例中,设备30可以实现为安装在车辆中的OEM安装(嵌入式)或售后市场设备。
无线通信设备30可以被配置为根据一个或多个无线协议进行无线通信,包括短距离无线通信(SRWC),比如,IEEE 802.11协议、Wi-Fi TM、WiMAXTM、ZigBeeTM、Wi-Fi directTM、BluetoothTM、BluetoothTM低功耗(BLE)或近场通信(NFC)中的任何一种。如本文所使用的,蓝牙TM指的是任何蓝牙TM技术,比如,蓝牙低功耗TM(BLE)、蓝牙TM4.1、蓝牙TM4.2、蓝牙TM5.0和可以开发的其他蓝牙TM技术。如本文所使用的,Wi-FiTM或Wi-FiTM技术指的是任何Wi-FiTM技术,比如,IEEE 802.11b/g/n/ac或任何其他IEEE 802.11技术。短距离无线通信电路32使无线通信设备30能够发送和接收SRWC信号,比如,BLE信号。SRWC电路可以允许设备30连接到另一个SRWC设备。另外,在一些实施例中,无线通信设备可以包含蜂窝芯片组34,从而允许设备通过一个或多个蜂窝协议,比如,蜂窝载波系统70所使用的协议进行通信。
无线通信设备30可以使车辆12能够通过分组交换数据通信与一个或多个远程网络通信。可以通过使用通过路由器或调制解调器连接到陆地网络的非车辆无线接入点来执行该分组交换数据通信。当用于比如,TCP/IP的分组交换数据通信时,通信设备30可以配置有静态IP地址,或者可以被设置为从网络上的另一设备(比如,路由器)或从网络地址服务器自动接收分配的IP地址。
还可以通过使用可以由设备30访问的蜂窝网络来执行分组交换数据通信。通信设备30可以通过蜂窝芯片组34通过无线载波系统70传送数据。在这样的实施例中,无线电传输可以用于与无线载波系统70建立通信信道,比如,语音信道和/或数据信道,以便可以通过信道发送和接收语音和/或数据传输。数据可以通过数据连接发送,比如,通过数据信道上的分组数据传输,或者使用本领域已知的技术通过语音信道发送。对于涉及语音通信和数据通信的组合服务,系统可以通过语音信道利用单个呼叫,并根据需要在语音信道上的语音和数据传输之间进行切换,这可以使用本领域技术人员已知的技术来完成。应当理解,移动设备90可以包括蜂窝芯片组和/或可以用于分组交换数据通信的其他通信装置。
处理器36可以是能够处理电子指令的任何类型的设备,包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路(ASIC)。它可以是仅用于通信设备30或者可以与其他车辆系统共享的专用处理器。处理器36执行各种类型的数字存储指令,比如,存储在存储器38中的软件或固件程序,这使得设备30能够提供各种各样的服务。例如,至少在一个实施例中,处理器36可以执行程序或处理数据以执行本文所讨论的方法的至少一部分,其可以包括使用神经网络模型执行语音仲裁。存储器38可以包括RAM、其他临时供电存储器、任何非暂时性计算机可读介质(例如,EEPROM),或存储执行本文所讨论的各种外部设备功能所需的一些或全部软件的任何其他电子计算机介质。
在一个实施例中,无线通信设备30可以在车辆处于通电状态时和车辆处于断电状态时操作。如本文所使用的,“通电状态”是其中车辆的点火或主推进系统通电的车辆的状态,并且如本文所使用的,“断电状态”是其中车辆的点火或主推进系统未通电的车辆的状态。无线通信设备30的操作或状态可以由另一车辆系统模块控制,比如,由BCM26或信息娱乐模块控制。在通电状态下,无线通信设备30可以始终保持“接通”或从车辆电池或其他电源供电。在断电状态下,无线通信设备30可以保持在低功率模式或者可以周期性地供电,使得设备30可以唤醒并执行操作。
现在转向图2,示出了ASR系统210的说明性架构,其可用于实现当前公开的方法。尽管针对关于车辆12的无线通信设备30讨论ASR系统210,但是ASR系统210可以合并到任何客户端设备中,比如,上面讨论的那些包括移动设备90和计算机78的客户端设备。与ASR系统210类似或相同的ASR系统可以合并到一个或多个远程语音处理服务器中,包括位于远程设施80的一个或多个服务器。通常,车辆乘员与自动语音识别(ASR)系统进行声音交互以用于以下一个或多个基本目的:训练系统以理解车辆乘员的特定语音;存储离散语音,比如,口头名称标签或口头控制字,如数字或关键字;或者为任何合适的目的识别车辆乘员的语音,比如,语音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等。通常,ASR从人类语音中提取声学数据、将声学数据与存储的子词数据进行比较和对比、选择可以与其他所选子词级联的适当子词,并输出级联的子词或词以用于后处理,比如,听写或转录、地址簿拨号、存储到存储器、训练ASR模型或适配参数等。
ASR系统通常是本领域技术人员已知的,并且图2仅示出了一个特定说明性ASR系统210。系统210包括用于接收语音的设备,比如,车辆麦克风56,以及声学界面33,比如,具有模数转换器以将语音数字化为声学数据的无线通信设备30的声卡。系统210还包括用于存储声学数据并存储语音识别软件和数据库的比如,车辆存储器38的存储器,以及用于处理声学数据的比如,车辆处理器36的处理器。处理器与存储器以及以下模块一起工作:用于将语音的声学数据流解析为比如,声学特征的参数表示的一个或多个前端处理器或预处理器软件模块212;用于解码声学特征以产生对应于输入语音发声的数字子词或字输出数据的一个或多个解码器软件模块214;用于任何合适的目的的用于使用来自解码器模块214的输出数据的一个或多个后处理器软件模块276。
系统210还可以从任何其他合适的音频源31接收语音,该语音可以直接与如实线所示的预处理器软件模块212通信或者通过声学界面33通信与其间接通信。音频源31可以包括例如电话音频源,比如,语音邮件系统,或任何类型的其他电话服务。
一个或多个模块或模型可以用作解码器模块214的输入。首先,语法和/或词典模型278可以提供管理哪些单词可以在逻辑上遵循其他单词以形成有效句子的规则。从广义上讲,语法可以定义系统210在任何给定ASR模式中的任何给定时间所期望的词汇量。例如,如果系统210处于用于训练命令的训练模式,则语法模型278可以包括系统210已知和使用的所有命令。在另一示例中,如果系统210处于主菜单模式,则活动语法模型278可以包括系统210期望的所有主菜单命令,比如,呼叫、拨号、退出、删除、目录等。其次,声学模型280帮助选择对应于来自预处理器模块212的输入的最可能的子词或单词。第三,单词模型222和句子/语言模型224在将所选择的子词或单词放入单词或句子上下文中时提供规则、语法和/或语义。而且,句子/语言模型224可以定义系统210在任何给定时间在任何给定ASR模式下期望的句子范围,和/或可以提供规则等,从而控制哪些句子可以在逻辑上遵循其他句子,以形成有效的扩展语音。
根据替代的说明性实施例,ASR系统210中的一些或全部可以驻留在远离车辆12的位置(比如,计算机78或远程设施80)中的计算设备上并使用计算设备进行处理。例如,语法模型、声学模型等可以存储在远程设施80中的服务器和/或数据库之一的存储器中,并且被传送到车辆无线通信设备30以用于车载语音处理。类似地,可以使用远程设施80中的远程服务器之一的处理器来处理语音识别软件。换句话说,ASR系统210可以驻留在无线通信设备30中、以任何期望的方式分布在计算机78/远程设施80和车辆12上,和/或驻留在计算机78或远程设施80处。
首先,从人类语音中提取声学数据,其中车辆乘员对着麦克风56说话,该麦克风56将话语转换成电信号并将这些信号传送到声学界面33。麦克风56中的声音响应元件将乘员的语音话语捕获为气压的变化,并将话语转换成模拟电信号(比如,直流或电压)的相应变化。声学界面33接收模拟电信号,该模拟电信号首先被采样,使得模拟信号的值在离散的时刻被捕获,然后被量化,使得模拟信号的幅度在每个采样时刻被转换成连续的数字语音数据流。换句话说,声学界面33将模拟电信号转换为数字电信号。数字数据是二进制位,其被缓冲在无线通信设备30的存储器38中,然后由无线通信设备30的处理器36处理,或者可以在它们最初由处理器36实时接收时进行处理。
第二,预处理器模块212将连续的数字语音数据流变换为离散的声学参数序列。更具体地,处理器36执行预处理器模块212以将数字语音数据分段成例如10-30毫秒(ms)的持续时间的重叠的语音或声学帧。这些帧对应于声学子词,比如,音节、半音节、电话、双音素、音素等。预处理器模块212还执行语音分析以从每个帧内从乘员的语音中提取声学参数,比如,时变特征向量。乘员语音中的话语可以表示为这些特征向量的序列。例如,并且如本领域技术人员所知,可以提取特征向量,并且可以包括例如可以通过执行帧的傅里叶变换获得的声音音调、能量分布、频谱属性和/或倒谱系数和使用余弦变换去相关的声谱。将覆盖特定语音持续时间的声学帧和相应参数级联成要解码的未知语音测试图案。
第三,处理器执行解码器模块214以处理每个测试图案的传入特征向量。解码器模块214也称为识别发动机或分类器,并使用存储的已知语音参考图案。与测试图案一样,参考图案被定义为相关声学帧和相应参数的级联。解码器模块214将要识别的子词测试图案的声学特征向量与存储的子词参考图案进行比较和对比、评估其间的差异或相似性的大小,并最终使用决策逻辑来选择最佳匹配子词作为识别的子词。通常,最佳匹配子词是对应于存储的已知参考图案的子词,该存储的已知参考图案具有与由本领域技术人员用以分析和识别子词的任何已知的各种技术确定的测试图案的最小不相似性或最高概率。这些技术可以包括动态时间扭曲分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器,比如,隐马尔可夫模型(HMM)发动机。
本领域技术人员已知HMM发动机用于产生声学输入的多个语音识别模型假设。在最终识别和选择识别输出时考虑假设,该识别输出表示通过语音的特征分析对声学输入的最可能的正确解码。更具体地,HMM发动机以“N个最佳”子词模型假设列表的形式生成统计模型,所述子词模型假设列表根据HMM计算的置信度值或比如,通过贝叶斯定理的应用给定的一个或另一个子词的观察到的声学数据的概率排序。
对于给定的声学特征向量的观察序列,贝叶斯HMM过程识别对应于最可能的话语或子词序列的最佳假设,并且其置信度值可取决于包括与传入声学数据相关联的声学信噪比的各种因素。HMM还可以包括称为对角高斯混合的统计分布,其产生每个子词的每个观察到的特征向量的似然分数,该分数可以用于对N个最佳假设列表重新排序。HMM发动机还可以识别和选择模型似然分数最高的子词。
以类似的方式,可以级联用于子词序列的各个HMM以建立单个或多个单词HMM。此后,可以生成并进一步评估单个或多个单词参考图案和相关参数值的N个最佳列表。
在一个示例中,语音识别解码器214使用适当的声学模型、语法和算法来处理特征向量,以生成N个最佳参考图案列表。如本文所使用的,术语参考图案可与模型、波形、模板、富信号模型、范例、假设或其他类型的参考互换。参考图案可以包括表示一个或多个单词或子词的一系列特征向量,并且可以基于特定的说话者、说话风格和听觉环境条件。本领域技术人员将认识到,参考图案可以通过ASR系统的适当参考图案训练生成并存储在存储器中。本领域技术人员还将认识到,可以操纵存储的参考图案,其中参考图案的参数值基于参考图案训练和ASR系统的实际使用之间的语音输入信号的差异进行调整。例如,基于来自不同车辆乘员或不同声学条件的有限量的训练数据,可以调整针对一个车辆乘员或某些声学条件训练的成组的参考图案并将其保存为用于不同车辆乘员或不同声学条件的另成组的参考图案。换句话说,参考图案不一定是固定的,并且可以在语音识别期间进行调整。
使用词汇表语法和任何合适的解码器算法和声学模型,处理器从存储器访问解释测试图案的若干参考图案。例如,处理器可以生成N个最佳词汇表结果或参考图案的列表以及相应的参数值,并将其存储到存储器。说明性参数值可以包括N个最佳词汇表和相关联的片段持续时间、似然分数、信噪比(SNR)值等中的每个参考图案的置信度分数。可以通过参数值的下降量来排序N个最佳词汇表。例如,具有最高置信度分数的词汇参考图案是第一个最佳参考图案,依此类推。一旦建立了一串识别的子词,它们就可用于使用来自单词模型222的输入构造单词并用来自语言模型224的输入构造句子。
最后,出于任何合适的目的,后处理器软件模块276从解码器模块214接收输出数据。在一个示例中,后处理器软件模块276可以从单个或多个单词参考图案的N个最佳列表中识别或选择参考图案之一作为识别的语音。在另一示例中,后处理器模块276可用于将声学数据转换成文本或数字,以与ASR系统或其他车辆系统的其他方面一起使用。在另一示例中,后处理器模块276可用于向解码器214或预处理器212提供训练反馈。更具体地,后处理器276可用于训练解码器模块214的声学模型,或训练预处理器模块212的适配参数。
并且,从下面的讨论中可以明显看出,ASR系统可以包括在比如,车辆12或移动设备90的客户端设备中,和/或包括在比如,位于远程设施80的服务器的服务器设备中。至少根据一些实施例,位于远程服务器处的ASR系统可以包括更多处理能力,以及可以用于提供比位于客户端设备处的ASR系统更强大的ASR系统的更多语音识别信息;然而,如本领域技术人员将理解的,存在其他实施例。
ASR系统或其部分可以在计算机可读介质中体现的计算机程序产品中实现,并且包括可由一个或多个系统的一个或多个计算机的一个或多个处理器使用的指令,以使系统能够实现神经网络语音仲裁过程。该计算机程序产品可以包括一个或多个软件程序,该软件程序包括源代码、目标代码、可执行代码或其他格式的程序指令;一个或多个固件程序;或硬件描述语言(HDL)文件;和任何程序相关的数据。数据可以包括数据结构、查找表或任何其他合适格式的数据。程序指令可以包括程序模块、例程、程序、对象、组件等。计算机程序可以在一台计算机上或在彼此通信的多台计算机上执行。
程序可以体现在计算机可读介质上,该计算机可读介质可以是非暂时性的并且可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统存存储器,例如RAM(随机存取存储器)、ROM(只读存储器);半导体存储器,例如EEPROM(可擦除、可编程ROM)、EEPROM(可擦除、可编程ROM)、闪存;磁盘或光盘或磁带;等。计算机可读介质还可以包括计算机到计算机的连接,例如,当通过网络或另一通信连接(有线、无线或其组合)传输或提供数据时。上述示例的任何组合也包括在计算机可读介质的范围内。因此,应该理解,该方法可以至少部分地由能够执行与所公开方法的一个或多个步骤相对应的指令的任何电子物品和/或设备来执行。
现在转到图3,示出了使用神经网络语音仲裁过程来执行语音仲裁的方法(300)的实施例。如本文所使用的,“神经网络语音仲裁过程”指的是执行语音仲裁并且基于人工神经网络计算过程或模型的过程。神经网络语音仲裁过程可以在车辆12中的无线通信设备30的处理器36上实现和/或可以在车辆12的另一个VSM上实现。通过用神经网络语音仲裁应用配置设备30,可以在无线通信设备30(或其他VSM)上实现神经网络语音仲裁过程,该应用可以是软件和/或固件指令的形式或者是计算机程序产品的一部分。神经网络语音仲裁应用可以在远程设施(比如,远程设施80)初始配置和/或编译,并且可以通过使用供应过程或初始制造过程安装在无线设备30(或其他客户端设备)上,该过程可以在车辆12(或其他客户设备)的销售之前、期间或之后进行。
至少在一个实施例中,神经网络语音仲裁应用最初可以包括成组的计算机指令和成组的在神经网络语音仲裁过程期间使用的初始语音仲裁信息。该组计算机指令可以使用该组初始语音仲裁信息来执行神经网络语音仲裁过程。可以使用各种训练信息生成和/或初始训练神经网络语音仲裁应用,包括从语音仲裁过程的先前迭代收集的信息,包括基于规则的语音仲裁过程。可以周期性地更新和/或训练神经网络语音仲裁应用,以便改进语音仲裁过程。这可以包括使用先前神经网络语音仲裁过程迭代的输入和输出(以及性能指标)作为用于神经网络语音仲裁应用的训练信息。另外,其他训练信息(例如,输入组及其对应或期望的输出)以及更新的软件/固件指令可以从远程服务器(比如,远程设施80)发送到客户端设备。
可以在神经网络语音仲裁应用安装在客户端设备上之前和/或在神经网络语音仲裁应用被配置为在客户端设备中使用之前执行神经网络语音仲裁过程或应用的训练。此外,初始训练可以监督使用从先前语音仲裁模型(包括基于规则的语音仲裁应用)获得的训练信息(输入、输出和输出的准确性)的训练。在其他实施例中,初始训练可以是无监督训练。初始训练可以在远程设施(比如,远程设施80)处执行,并且当初始训练完成并且客户端设备准备好配置使用时,可以安装神经网络语音仲裁应用。神经网络语音仲裁应用可以作为语音识别应用的一部分或模块包括在内,并且可以以与上述ASR系统类似的方式执行和/或集成。
另外,在神经网络语音仲裁过程或应用中使用的神经网络模型可以是浅神经网络或深神经网络。如本文所使用的,浅层神经网络包括单个隐藏层,而深度神经网络包括多个隐藏层。神经网络的每个层可以包括一个或多个节点,每个节点可以映射到同一隐藏层内的一个或多个其他节点、映射到另一个隐藏层内的一个或多个其他节点、或映射到一个或多个输出节点。
例如,图4描绘了可以在神经网络语音仲裁过程中使用的示例神经网络模型。神经网络模型100包括成组的输入节点102-108、语音仲裁输出节点122-124,以及包括节点110-118的隐藏层。该组输入节点102-108中的每个可以对应于不同的输入,包括置信度分数、连接质量度量、发动机偏置度量和条件输入。隐藏层(包括节点110-118)可用于将输入映射到适当的输出。语音仲裁输出节点122-124可以对应于ASR系统,在其中执行所接收到的语音信号的语音处理,比如客户端设备(例如,车辆12)处的第一ASR系统或者在远程服务器处的第二ASR系统。在一个实施例中,节点108可以表示可以在神经网络语音仲裁过程的成组的输入中使用的条件输入,如图4所示,条件输入可以包括来自语音仲裁输出的反馈,其可以包括用于每个ASR系统的输出节点(例如,节点122和124)。
方法300开始于步骤310,其中在客户端设备处接收语音信号。如上所述,客户端设备可以是各种设备之一,包括车辆12、移动设备90和/或计算机78;然而,使用车辆12作为客户端设备来讨论方法300。车辆12可以使用无线通信设备30处的麦克风56接收语音信号。可以对语音信号进行采样,以便可以由处理器36获得并使用语音信号的数字表示。采样可以在麦克风56、无线通信设备30或车辆12的另一个VSM处执行。一旦接收并采样了语音信号,方法300就继续到步骤320。
在步骤320中,获得可以在神经网络语音仲裁过程中使用的成组的输入。在神经网络语音仲裁过程中可以使用各种输入,包括在包括基于规则的语音仲裁过程的传统语音仲裁过程中用作输入的任何或所有输入。根据一个实施例,该组输入包括置信度分数度量、连接质量度量、发动机偏置度量和条件输入。这些度量中的任何一个或多个可以在到达步骤320时确定-即,在接收到语音信号之后-或者可以在先前时间确定并且保存在位于客户端设备处的存储器中,比如无线通信设备30的存储器38。根据后一种情况,在到达步骤320时,可以从存储器设备调用将在语音仲裁过程的成组的输入中使用的一个或多个度量。
在一些实施例中,神经网络语音仲裁过程可以将置信度分数(或置信度值)作为输入。置信度分数可以表示客户端设备的ASR系统能够识别在所接收到的语音信号中传达的语音的可能性。置信度分数可以通过使用上面讨论的任何方法来确定,包括贝叶斯HMM过程。
此外,神经网络语音仲裁过程可以将连接质量度量作为输入。连接质量度量可以表示客户端设备到网络的当前网络连接,包括因特网或远程网络,比如远程设施80处的远程网络。在一些实施例中,连接质量度量可以表示关于远程语音处理设施的服务质量。例如,当服务质量低或差时,至少在一些实施例中,在客户端设备(或第二远程语音处理设施)处执行语音识别比在远程语音处理设施处执行语音识别可能更有益。因此,当存在低质量的服务或连接质量度量时,神经网络语音仲裁应用可能更有可能在客户端设备处执行语音处理而不是在远程设备处执行语音处理。在一个实施例中,车辆可以通过从车辆向远程服务器(比如,包括在远程设施80处的远程服务器)发送连接测试信号来确定当前连接质量。
另外,可以在用于神经网络语音仲裁过程的成组的输入中使用其他度量和/或值,包括发动机偏置度量和条件输入。发动机偏置度量可以是用于偏置语音仲裁神经网络过程的度量,使得客户端设备或远程服务器更可能用于所接收到的语音信号的语音识别处理。可以设置发动机偏差以将不同的权重分配给可以用于语音识别处理的各种ASR系统或发动机。例如,如果特定ASR系统能够比另一个更准确地进行语音识别,则可以基于各种语音识别系统的能力来设置发动机偏差。
在另一示例中,客户端设备的ASR系统可以识别在口头语音信号中传达的一个或多个初始词,并且基于初始词,系统可以改变发动机偏置度量输入。例如,客户端设备的ASR系统可以基于识别术语“播放”来确定用户正在请求歌曲。车辆可以确定后续语音信号最可能对应于存储在用户的音频库中的歌曲。因此,客户端设备的ASR系统处于更有利的位置(相对于远程服务器),用于识别包含在语音信号中的语音。因此,客户端设备的发动机偏置度量可以高于通常(或高于默认值),或者可以设置为高于远程服务器的ASR系统的对应发动机偏置度量。另外,车辆状态(或客户端设备状态)可以用作设置发动机偏置度量的基础。例如,在一种情况下,当车辆处于断电状态时,可能只有车辆将响应的几个命令。因此,使用车辆的ASR来执行语音识别处理可能是有益的,因为可能只有少数可能的有效语音输入,因此,将语音信号发送到远程服务器以进行语音识别处理可以证明使用不必要的更多的资源,以便客户端设备实现成功的响应。
可以包括在将由神经网络语音仲裁过程使用的成组的输入中的条件输入可以基于神经网络语音仲裁过程的先前迭代的输出。一些实施例可以使用递归神经网络(RNN)模型,并且在这样的实施例中,一个语音仲裁过程的输出(例如,对于语音信号的第一个子词、单词或短语)可以用于影响后续的语音仲裁迭代,比如语音信号的第二子词、单词或短语的迭代。一旦生成和/或获得了该组输入,方法300就继续到步骤330。
在步骤330中,接收语音仲裁输出,该语音仲裁输出指示在客户端设备或远程服务器处是否和/或在何种程度上执行所接收到的语音信号的语音识别处理。语音仲裁输出可以包括哪个ASR系统将用于所接收到的语音信号的语音识别处理。可替代地或另外地,语音仲裁输出可以包括指示符,该指示符指示哪个语音信号将由哪个ASR系统处理和/或哪个ASR处理将由某个ASR系统执行。例如,ASR系统可以确定可以使用客户端设备的ASR系统来处理某些语音信号,该ASR系统可以包括在无线设备30中,如上所述。
在确定是否和/或在何种程度上在客户端设备处或在远程服务器处执行所接收到的语音信号的语音识别处理,然后可以将语音信号发送到基于该确定的这样的ASR系统。例如,当确定远程服务器将用于语音信号的语音识别处理时,语音信号可以被打包成一个或多个消息,并通过蜂窝载波系统70和陆地网络76发送到远程服务器。然后,车辆12可以从远程服务器接收响应,该响应指示用户在语音信号中传达的一个或多个动作、请求、单词或命令。
至少在一些实施例中,神经网络语音仲裁过程和/或应用可以基于先前迭代进行调整。在一个实施例中,神经网络语音仲裁过程可以通过保留给定迭代的成组的输入和给定迭代的语音仲裁输出来进行调整。另外,客户端设备可以基于一个或多个性能指标来确定给定迭代的测量成功。性能指标可以包括执行语音识别所花费的时间、语音识别的准确性(可以由用户的响应指示)和/或语音仲裁和识别的准确性和/或效率的其他指示。在一些实施例中,该组输入中的任何一个或多个可以用作性能指标。然后方法300结束。
应理解,前述内容是对本发明的一个或多个实施方案的描述。本发明不限于这里公开的特定实施例,而是仅由下面的权利要求限定。此外,前面描述中包含的陈述涉及特定实施例,并且不应被解释为对本发明范围的限制或权利要求中使用的术语的定义,除非以上明确定义术语或短语。对本领域技术人员而言,各种其它的实施例和对上述公开的实施例的各种变形和变化都是显而易见的。所有这些其他实施例、改变和修改旨在落入所附权利要求的范围内。
如在本说明书和权利要求书中所使用的,术语“例如”、“如”、“举例来说”、“比如”和“像”以及动词“包含”、“具有”、“包括”以及其他动词形式,当与一个或多个组件或其他项列表一起使用时,每个都被解释为开放式的,这意味着该列表不应被视为排除其他附加组件或项。其他术语采用其最广泛的合理含义来解释,除非其用于要求有不同解释的上下文中。另外,术语“和/或”应被解释为包含性的或作为示例,短语“A、B和/或C”包括:“A”;“B”;“C”;“A和B“;”A和C“;”B和C“;以及”A、B和C“。

Claims (10)

1.一种在客户端设备处执行语音仲裁的方法,所述客户端设备包括神经网络语音仲裁应用,其中所述神经网络语音仲裁应用被配置为实现神经网络语音仲裁过程,并且其中所述方法包括:
在客户端设备处接收语音信号;
生成和/或获得要在语音仲裁神经网络过程中使用的成组的输入,其中所述语音仲裁神经网络过程使用适合于语音仲裁并且可以用于确定是否和/或在何种程度上应该在所述客户端设备或远程服务器上进行所接收到的语音信号的语音识别处理的神经网络模型;以及
接收语音仲裁输出,所述语音仲裁输出指示在所述客户端设备或所述远程服务器处是否和/或在何种程度上执行所述所接收到的语音信号的所述语音识别处理。
2.如权利要求1所述的方法,其中所述成组的输入包括基于接收来自所述语音仲裁神经网络过程的一个或多个先前迭代的反馈而生成的条件输入。
3.如权利要求2所述的方法,其中所述成组的输入还包括连接质量度量,所述连接质量度量指示所述客户端设备与所述远程服务器之间的服务质量和/或连接质量。
4.如权利要求3所述的方法,其中所述成组的输入还包括基于所述所接收到的语音信号生成并指示与所述客户端设备的成功识别在所述所接收到的语音信号中传送的口头语言的能力有关的置信度水平的置信度分数。
5.如权利要求4所述的方法,其中所述成组的输入还包括发动机偏置度量,所述发动机偏置度量用于偏置所述语音仲裁神经网络过程,使得所述客户端设备或所述远程服务器更可能用于所述所接收到的语音信号的所述语音识别处理。
6.如权利要求1所述的方法,其中所述语音仲裁神经网络过程基于深度神经网络模型,所述深度神经网络模型包括多个用于将所述成组的输入映射到所述语音仲裁输出的隐藏神经网络层。
7.如权利要求1所述的方法,其中所述语音仲裁神经网络过程最初使用语音识别输出进行训练,所述语音识别输出作为基于规则的语音仲裁过程的结果而获得。
8.如权利要求7所述的方法,其中所述语音仲裁神经网络过程使用所述语音仲裁输出来训练所述语音仲裁神经网络过程,以便改进所述神经网络语音仲裁过程以用于将来的迭代。
9.一种在客户端设备处执行语音仲裁的方法,所述客户端设备包括神经网络语音仲裁应用,所述方法包括:
使用作为基于规则的语音仲裁处理的结果而获得的训练数据来对神经网络语音仲裁应用进行训练;
在所述客户端设备处执行所述神经网络语音仲裁应用的迭代,以便执行语音仲裁,其中所述神经网络语音仲裁应用使用人工神经网络模型来解析对语音仲裁输出的成组的输入,并且其中所述语音仲裁输出指示在包括自动语音识别(ASR)系统的远程服务器处是否和/或在何种程度上对接收到的语音进行语音识别处理;以及
基于所述神经网络语音仲裁应用的先前迭代来调整所述神经网络语音仲裁应用。
10.一种在客户端设备处执行语音仲裁的方法,所述客户端设备包括神经网络语音仲裁应用,其中所述方法由包括第一自动语音识别(ASR)系统的车辆执行,并且其中所述方法包括:
使用训练数据来训练所述神经网络语音仲裁应用;
在所述客户端设备处执行所述神经网络语音仲裁应用的多次迭代,以便执行语音仲裁,其中所述多次迭代的每次迭代包括:
在所述车辆处接收语音信号;
生成和/或获得用于语音仲裁神经网络过程的成组的输入;以及
接收语音仲裁输出,所述语音仲裁输出指示在所述车辆处或在包括第二ASR系统的远程服务器上是否和/或在何种程度上执行所述所接收到的语音信号的所述语音识别处理;以及
基于所述神经网络语音仲裁应用的所述多次迭代来调整所述神经网络语音仲裁应用。
CN201811293355.9A 2017-11-13 2018-11-01 在语音识别仲裁中使用的神经网络 Pending CN109785827A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/811,022 US20190147855A1 (en) 2017-11-13 2017-11-13 Neural network for use in speech recognition arbitration
US15/811022 2017-11-13

Publications (1)

Publication Number Publication Date
CN109785827A true CN109785827A (zh) 2019-05-21

Family

ID=66335375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811293355.9A Pending CN109785827A (zh) 2017-11-13 2018-11-01 在语音识别仲裁中使用的神经网络

Country Status (3)

Country Link
US (1) US20190147855A1 (zh)
CN (1) CN109785827A (zh)
DE (1) DE102018128003A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257840A (zh) * 2019-07-22 2021-01-22 华为技术有限公司 一种神经网络处理方法以及相关设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11037556B2 (en) * 2018-07-17 2021-06-15 Ford Global Technologies, Llc Speech recognition for vehicle voice commands
CN113366508A (zh) * 2019-01-04 2021-09-07 蒂普爱可斯有限公司 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和系统
CN111883115B (zh) * 2020-06-17 2022-01-28 马上消费金融股份有限公司 语音流程质检的方法及装置
JP7040589B1 (ja) 2020-12-01 2022-03-23 トヨタ自動車株式会社 機械学習方法及び機械学習システム
US20220207372A1 (en) * 2020-12-24 2022-06-30 Cypress Semiconductor Corporation Pattern-based neural network pruning
CN117378005A (zh) * 2021-03-26 2024-01-09 谷歌有限责任公司 用于自动语音识别的多语言重新评分模型

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017094A (zh) * 2005-12-20 2007-08-15 通用汽车公司 用于在多个车辆导航系统之间进行仲裁的方法
US20090234651A1 (en) * 2008-03-12 2009-09-17 Basir Otman A Speech understanding method and system
US20090319267A1 (en) * 2006-04-27 2009-12-24 Museokatu 8 A 6 Method, a system and a device for converting speech
US20160155443A1 (en) * 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US20170032244A1 (en) * 2015-07-31 2017-02-02 International Business Machines Corporation Learning a model for recognition processing
US20170169812A1 (en) * 2015-12-15 2017-06-15 Facebook, Inc. Providing intelligent transcriptions of sound messages in a messaging application

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209184B1 (en) * 1997-04-14 2012-06-26 At&T Intellectual Property Ii, L.P. System and method of providing generated speech via a network
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6658377B1 (en) * 2000-06-13 2003-12-02 Perspectus, Inc. Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
US7813928B2 (en) * 2004-06-10 2010-10-12 Panasonic Corporation Speech recognition device, speech recognition method, and program
US7454174B2 (en) * 2004-08-03 2008-11-18 Qualcomm, Incorporated Estimation of received signal strength
WO2011163538A1 (en) * 2010-06-24 2011-12-29 Honda Motor Co., Ltd. Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102505347B1 (ko) * 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
KR102195627B1 (ko) * 2015-11-17 2020-12-28 삼성전자주식회사 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置
US10019438B2 (en) * 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
KR20180071029A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US20180330714A1 (en) * 2017-05-12 2018-11-15 Apple Inc. Machine learned systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017094A (zh) * 2005-12-20 2007-08-15 通用汽车公司 用于在多个车辆导航系统之间进行仲裁的方法
US20090319267A1 (en) * 2006-04-27 2009-12-24 Museokatu 8 A 6 Method, a system and a device for converting speech
US20090234651A1 (en) * 2008-03-12 2009-09-17 Basir Otman A Speech understanding method and system
US20160155443A1 (en) * 2014-11-28 2016-06-02 Microsoft Technology Licensing, Llc Device arbitration for listening devices
CN107004412A (zh) * 2014-11-28 2017-08-01 微软技术许可有限责任公司 用于监听设备的设备仲裁
US20170032244A1 (en) * 2015-07-31 2017-02-02 International Business Machines Corporation Learning a model for recognition processing
US20170169812A1 (en) * 2015-12-15 2017-06-15 Facebook, Inc. Providing intelligent transcriptions of sound messages in a messaging application

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257840A (zh) * 2019-07-22 2021-01-22 华为技术有限公司 一种神经网络处理方法以及相关设备

Also Published As

Publication number Publication date
DE102018128003A1 (de) 2019-05-16
US20190147855A1 (en) 2019-05-16

Similar Documents

Publication Publication Date Title
CN109785828B (zh) 基于用户语音风格的自然语言生成
CN110232912B (zh) 语音识别仲裁逻辑
CN110491414B (zh) 使用动态可调监听超时的自动语音识别
CN109785827A (zh) 在语音识别仲裁中使用的神经网络
US10083685B2 (en) Dynamically adding or removing functionality to speech recognition systems
US9202465B2 (en) Speech recognition dependent on text message content
CN106816149A (zh) 车辆自动语音识别系统的优先化内容加载
US10255913B2 (en) Automatic speech recognition for disfluent speech
US9082414B2 (en) Correcting unintelligible synthesized speech
US8880402B2 (en) Automatically adapting user guidance in automated speech recognition
CN102543077B (zh) 基于语言独立女性语音数据的男性声学模型适应方法
US20190122661A1 (en) System and method to detect cues in conversational speech
CN110660397A (zh) 对话系统、车辆和用于控制车辆的方法
US20160039356A1 (en) Establishing microphone zones in a vehicle
CN109671424B (zh) 车辆特征的响应激活
CN105609109A (zh) 混合式自动语音识别
US20180075842A1 (en) Remote speech recognition at a vehicle
US10008205B2 (en) In-vehicle nametag choice using speech recognition
CN102243870A (zh) 语音合成中的语音调节
CN102623006A (zh) 阻塞音语音能量到较低频率的映射
US20170018273A1 (en) Real-time adaptation of in-vehicle speech recognition systems
CN110430484B (zh) 通过远程信息处理单元选择和操作移动装置的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190521

WD01 Invention patent application deemed withdrawn after publication