CN117672226A - 本地化语音辨识助理 - Google Patents
本地化语音辨识助理 Download PDFInfo
- Publication number
- CN117672226A CN117672226A CN202311133409.6A CN202311133409A CN117672226A CN 117672226 A CN117672226 A CN 117672226A CN 202311133409 A CN202311133409 A CN 202311133409A CN 117672226 A CN117672226 A CN 117672226A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- text segment
- intent
- actions
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000006399 behavior Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 77
- 230000000875 corresponding effect Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 230000001755 vocal effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- PSFDQSOCUJVVGF-UHFFFAOYSA-N harman Chemical compound C12=CC=CC=C2NC2=C1C=CN=C2C PSFDQSOCUJVVGF-UHFFFAOYSA-N 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- HCDMJFOHIXMBOV-UHFFFAOYSA-N 3-(2,6-difluoro-3,5-dimethoxyphenyl)-1-ethyl-8-(morpholin-4-ylmethyl)-4,7-dihydropyrrolo[4,5]pyrido[1,2-d]pyrimidin-2-one Chemical compound C=1C2=C3N(CC)C(=O)N(C=4C(=C(OC)C=C(OC)C=4F)F)CC3=CN=C2NC=1CN1CCOCC1 HCDMJFOHIXMBOV-UHFFFAOYSA-N 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
- B60W50/10—Interpretation of driver requests or demands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及本地化语音辨识助理。各种实施方案公开了一种计算机实施的方法,所述计算机实施的方法包括:接收由用户生成的听觉言语信号;将听觉言语信号转换为文本段;将文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及在确定文本段对应于所述一组存储的意图中的第一意图时,检索与第一意图相关联的一个或多个动作,并且使车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
Description
技术领域
本文公开的实施方案涉及数字助理,并且具体地涉及本地化语音辨识助理。
背景技术
各种数字系统包括辅助用户执行任务的数字助理。例如,各种车辆包括数字助理,所述数字助理与诸如高级驾驶员辅助系统(ADAS)、信息娱乐系统、导航系统等子系统通信,以辅助车辆的用户。在一些车辆中,数字助理响应各种类型的用户输入以确定用户正在发起的特定命令。数字语音助理(DVA)包括支持数字言语辨识和数字言语生成的工具,从而提供语音接口,所述语音接口使用户能够向数字语音助理提供会话输入作为用于命令采取特定动作的输入。所述接口使数字语音助理能够“侦听”来自用户的听觉言语输入,并以对应的动作做出响应。
然而,在车辆中使用数字语音助理的一个缺点是,此类数字语音助理需要连接到外部服务才能发挥作用。数字语音助理通过处理言语并将言语或言语的文本表示传输到后端数字助理服务来处理输入并确定对应的动作(例如,映射到特定意图的指示)来响应听觉言语输入。因此,当车辆未连接到数字后端服务时,数字语音助理无法响应用户的言语输入。其他常规的数字助理(诸如基于触摸的数字助理)具有有限的能力,因为常规的数字助理仅响应有限类型的用户输入,并且不响应由用户提供的言语输入。
如前所述,本领域需要用于与车辆操作相关联的数字语音助理的更有效的技术。
发明内容
各种实施方案公开了一种计算机实施的方法,所述计算机实施的方法包括:接收由用户生成的听觉言语信号;将听觉言语信号转换为文本段;将文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及在确定文本段对应于所述一组存储的意图中的第一意图时,检索与第一意图相关联的一个或多个动作,并且使车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
所公开的技术相对于现有技术的至少一个技术优点在于,通过所公开的技术,用户可以有效地提供言语输入来使车辆部件执行命令,而无需外部服务处理言语输入,从而极大地提高了车辆用户的车载体验。具体地,通过处理用户的言语并执行一组车载命令,数字助理应用程序在车辆无法使用外部数字助理服务的情况下响应用户命令。此外,处理言语输入并执行车辆动作的子集使得车辆能够比将言语输入传输到外部服务进行处理更快地执行多个车载动作。此外,通过对数字助理应用程序无法在车内处理或执行的言语输入的表示进行排队,数字助理应用程序减轻了车辆用户的与必须重复言语输入一次或多次直到外部言语处理服务变得可用相关联的身体和精神压力。这些技术优点提供了优于现有技术方法的一个或多个技术进步。
附图说明
为了可以详细地理解各种实施方案的上述特征所用方式,可通过参考各种实施方案来获得对以上简要概述的本发明概念的更具体的描述,其中一些实施方案在附图中示出。然而,应当注意,附图仅示出本发明概念的典型实施方案,因此不应被视为以任何方式限制范围,并且存在其他等效实施方案。
图1示出了根据一个或多个实施方案的数字助理系统;
图2示出了根据各种实施方案的用于处理言语输入并响应本地意图或不同类型意图的技术;
图3阐述了根据各种实施方案的用于基于由用户提供的言语来执行动作的方法步骤的流程图;以及
图4阐述了根据各种实施方案的用于响应从远程服务接收到的命令的方法步骤的流程图。
具体实施方式
在以下描述中,阐述了许多具体细节以提供对各种实施方案的更透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节中的一个或多个的情况下实践本发明概念。
综述
本文公开的实施方案包括数字助理系统,所述数字助理系统包括数字助理应用程序。数字助理系统中包括的处理单元操作包括本地语音辨识应用程序的数字助理应用程序。本地语音辨识应用程序接收与用户说出的短语相对应的听觉言语信号。本地语音辨识应用程序将听觉言语信号转换为文本输入。本地语音辨识应用程序将文本输入与一组本地意图进行比较,其中每个本地意图标识要执行的一个或多个动作。在将文本输入与本地意图匹配后,本地语音辨识应用程序基于意图中指定的动作,使一个或多个车辆部件执行一组车载动作。当本地语音辨识应用程序确定文本输入与任何本地意图都不匹配时,本地辨识应用程序尝试连接到远程服务并传输文本输入。当本地辨识应用程序确定车辆未连接到远程服务时,本地语音辨识应用程序对文本输入进行排队以便稍后传输到远程服务。当本地语音辨识应用程序确定车辆已经建立到远程服务的网络连接时,本地语音辨识应用程序将存储在队列中的文本输入传输到远程服务。文本输入可由远程服务操作以标识文本输入的意图并生成与所述意图相关联的一组对应命令。远程服务将命令传输到要执行动作的装置。所述装置包括车辆外部的一个或多个装置和/或车辆内的一个或多个装置。当装置位于车辆内时,本地语音辨识应用程序接收来自远程服务的命令并将命令转发到车辆内的装置。
系统综述
图1示出了根据一个或多个实施方案的数字助理系统100。如图所示,数字助理系统100包括但不限于计算装置110、网络150、一个或多个外部装置162、云计算资源164、输入装置174、输出装置176和车辆部件180。计算装置110包括但不限于存储器120、处理单元140、网络接口142和输入/输出(I/O)装置接口144。存储器120包括但不限于用户接口122、数据存储区124和数字助理应用程序130。数字助理应用程序130包括但不限于本地语音辨识应用程序132和车辆部件控制应用程序136。数据存储区124包括但不限于本地意图126(例如,126(1)、126(2)等)和命令队列128。
出于解释的目的,相似对象的多个实例用标识对象的参考数字和在需要时标识实例的括号中附加数字来表示。此外,即使未示出,数字助理系统100也包括元件的多个实例。例如,数字助理系统100可以包括多个本地意图126(例如,126(1)、126(2)、126(3)等)、外部装置162(例如,162(1)、162(2)、162(3)等)、输入装置174(例如174(1)、174(2)、174(3)等)、和/或输出装置176(例如,176(1)、176(2)、176(3)等),并且仍然在所公开的实施方案的范围内。
在操作中,计算装置110执行数字助理应用程序130以便响应于用户输入生成一个或多个命令。在各种实施方案中,本地语音辨识应用程序132接收由用户提供的听觉言语信号并将听觉言语信号转换成文本段。数字助理应用程序130确定文本段与意图相关联,其中所述意图标识要执行一组一个或多个动作(例如,车辆行为182、应用程序参数184等)的一个或多个装置(例如,一个或多个车辆部件180、一个或多个外部装置162等)。本地语音辨识应用程序132将文本段与一个或多个本地意图126进行比较,其中每个本地意图126将上下文映射到要执行的一组车载动作。当本地语音辨识应用程序132标识匹配的本地意图126时,本地语音辨识应用程序132检索对应的动作并基于动作和文本段的内容生成一个或多个命令。然后,本地语音辨识应用程序132将一个或多个命令传输到车辆部件控制应用程序136,其中车辆部件控制应用程序136将一个或多个命令传输到适用的车辆部件180。适用的车辆部件180操作特定的电子和/或机械部件(未示出)和/或本地应用程序(未示出)以进行执行。
当本地语音辨识应用程序132没有标识与文本段匹配的本地意图126时,本地语音辨识应用程序132确定云计算资源164是否可用于经由网络150接收文本段。当本地语音辨识应用程序132确定与可用的云计算资源164建立网络连接时,本地语音辨识应用程序132将文本段传输到云计算资源164以供进一步处理。当本地语音辨识应用程序132确定无法与云计算资源164建立网络连接时,本地语音辨识应用程序132将文本段添加到命令队列128中。替代地,在一些实施方案中,本地语音辨识应用程序132提示用户确认将文本段添加到命令队列128中。当计算装置110稍后建立到云计算资源164的网络连接时,本地语音辨识应用程序132将存储在命令队列128中的文本段中的一个或多个传输到云计算资源164。云计算资源164处理接收到的文本段中的每一个并生成用于一个或多个装置(例如,一个或多个车辆部件180、一个或多个外部装置162等)的命令,然后将命令传输到适用的装置以进行执行。
在各种实施方案中,计算装置110是包括一个或多个处理单元140(诸如片上系统(SoC))的装置。在各种实施方案中,计算装置110是无线连接到车辆中的其他装置的移动计算装置,诸如平板计算机、移动电话、媒体播放器等。在一些实施方案中,计算装置110是包括在车辆系统中的主机单元或主机单元的一部分。在一些实施方案中,计算装置110被划分在一个或多个位置的多个物理装置中。例如,所述接口可以包括在移动装置中,并且一个或多个其他装置可以执行所公开的技术的一个或多个方面,诸如言语分析、意图确定、命令生成等等。另外或替代地,计算装置110是作为单独控制台的一部分而安装在车辆的一部分中的可拆卸装置。通常,计算装置110被配置为协调数字助理系统100的整体操作。本文公开的实施方案设想了被配置为经由计算装置110实施数字助理系统100的功能的任何技术上可行的系统。数字助理系统100的功能和技术也适用于其他类型的交通工具,包括消费车辆、商用卡车、飞机、直升机、宇宙飞船、小船、潜艇等。
处理单元140可以包括一个或多个中央处理单元(CPU)、数字信号处理单元(DSP)、微处理器、专用集成电路(ASIC)、神经处理单元(NPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)等。处理单元140通常包括可编程处理器,所述可编程处理器执行程序指令以操纵输入数据并生成输出。在一些实施方案中,处理单元140包括任意数量的处理核心、存储器和用于促进程序执行的其他模块。例如,处理单元140可以经由输入装置174接收来自用户的输入,并且生成用于在输出装置176(例如,显示装置)上显示的像素。在一些实施方案中,处理单元140被配置为执行数字助理应用程序130,以便处理由用户经由输入装置174(例如,传声器)提供的听觉言语信号以确定意图,基于意图生成一个或多个命令,和/或将意图存储在命令队列128中。另外或替代地,处理单元140被配置为执行数字助理应用程序130,以便监测一组车辆状况并使一个或多个车辆部件基于生成的一个或多个命令执行一组动作(例如,车辆行为、应用程序参数的改变等)。
存储器120包括存储器模块或存储器模块的集合。存储器120通常包括诸如随机存取存储器(RAM)芯片等存储芯片,所述存储芯片存储应用程序和数据以供处理单元140处理。在各种实施方案中,存储器120包括非易失性存储器,诸如光驱、磁驱动器、闪存驱动器或其他存储装置。在一些实施方案中,数字助理应用程序130使用单独的数据存储区(诸如直接连接到计算装置110和/或经由网络150连接的外部数据存储区(“云存储”))来存储信息。用户接口122和/或存储器120内的数字助理应用程序130由处理单元140执行,以便实施计算装置110的整体功能,并且因此协调数字助理系统100的操作。
在各种实施方案中,数字助理应用程序130实施本地语音辨识应用程序132和/或车辆部件控制应用程序136中的一者或多者以处理经由输入装置174的用户输入并且使一个或多个装置基于输入来执行动作。在各种实施方案中,数字助理应用程序130使用本地语音辨识应用程序132和/或车辆部件控制应用程序136来基于计算装置110是否连接到云计算资源164来响应不同类型的用户输入和/或不同类型的装置动作。
在各种实施方案中,数字助理应用程序130使用一个或多个通信信道和/或连接来将数据传输到其他装置。例如,数字助理应用程序130可以通过控制器局域网(CAN)总线、桌面总线(“D-Bus”)、串行总线和/或连接车辆部件180中的一个或多个的其他连接装置将命令传输到车辆部件180。在一些实施方案中,数字助理应用程序130可以使用一种或多种消息类型(例如,车载诊断(OBD)-II、增强型OBD、直接存储器读取(DMR)、汽车工程师协会(SAE)J1939消息等)来向车辆部件180传输消息。另外或替代地,在一些实施方案中,数字助理应用程序130使用安全连接经由网络150传输包括文本段和/或命令的消息。例如,数字助理应用程序130可以在传输和/或接收消息之前与云计算资源164建立WebSocket连接。
本地语音辨识应用程序132处理听觉言语信号并确定与听觉言语信号相对应的动作。在各种实施方案中,本地语音辨识应用程序132确定听觉言语信号的文本段表示是否与本地存储在数据存储区124中的本地意图126匹配。
一个或多个本地意图126表示数字助理应用程序130能够在没有来自云计算资源164的辅助的情况下根据言语输入进行处理的动作的“轻量级”子集。每个本地意图126是指定车辆部件180要执行的一个或多个动作的车载意图。在一些实施方案中,本地意图126将特定上下文(例如,触发短语和/或具有特定语义含意的短语)映射到由车辆部件180执行的一组一个或多个动作。例如,本地意图126(1)可以将短语“播放下一曲目”映射到指定操作媒体应用程序的娱乐子系统转变到播放列表中的下一曲目的动作。
当本地语音辨识应用程序132确定文本段与本地意图126匹配时,本地语音辨识应用程序132从本地意图126检索对应的动作。在一些实施方案中,本地语音辨识应用程序132使用文本段中包括的信息来更新动作以填充检索到的动作的各部分。当用来自文本段的信息更新动作时,本地语音辨识应用程序132使适用的车辆部件180执行指定的动作。
在各种实施方案中,当本地语音辨识应用程序132确定文本段与本地意图126中的任一者都不匹配时,本地语音辨识应用程序132确定计算装置110是否连接到云计算资源164。当本地语音辨识应用程序132确定计算装置110连接到云计算资源164时,本地语音辨识应用程序132将文本段传输到云计算资源164以供进一步处理。否则,本地语音辨识应用程序132通过将文本段添加到命令队列128来对文本段进行排队。在一些实施方案中,本地语音辨识应用程序132响应于确定(i)文本段与本地意图126中的任一者都不匹配以及(ii)计算装置110未连接到云计算资源164,而自动地将文本段添加到命令队列128中。替代地,本地语音辨识应用程序132在将意图添加到命令队列128之前提示用户进行确认,并且当用户指示不应对意图进行排队时丢弃意图。当随后恢复与云计算资源164的网络连接时,本地语音辨识应用程序132将命令队列128中的意图转发到云计算资源164以进行处理。
车辆部件控制应用程序136接收各种输入并传输用于各种车辆部件180和/或装置的命令。在各种实施方案中,车辆部件控制应用程序136接收输入,诸如非听觉用户输入、遥测数据和/或由其他装置生成的其他命令(例如,由本地语音辨识应用程序132生成的命令),并且将命令传输到适用装置以执行命令。在各种实施方案中,车辆部件控制应用程序136可以基于接收到的输入来生成命令。例如,车辆部件控制应用程序136可以接收非听觉输入并且生成用于特定车辆部件180的命令。例如,在接收到升起所有车窗的输入时,车辆部件控制应用程序136生成呈适用的格式的一个或多个命令以使车窗控制系统关闭任何打开的车窗。另外或替代地,车辆部件控制应用程序136使用一个或多个通信接口(例如,装置API和/或SDK、装置固件和/或固件接口)进行通信,以将消息传输到特定车辆装置。在这种情况下,车辆部件控制应用程序136可以将命令转换为接收车辆部件180可辨识的特定格式。
在一些实施方案中,车辆部件控制应用程序136是连接到特定云计算资源164的客户端。例如,车辆部件控制应用程序136可以是连接到一组远程微服务和云应用程序的连接车辆服务平台(例如,Harman IgniteTM)的客户端。例如,车辆部件控制应用程序136可以通过生成用于家中智能恒温器的温度控制命令来改变温度而响应一组触发条件(例如,在一天中的特定时间接近用户的家)。车辆部件控制应用程序136将温度控制命令传输到云计算资源164,所述云计算资源将温度控制命令转发到适用的外部装置162(例如,恒温器)以执行与温度控制命令相对应的动作。
用户接口122包括一个或多个音频接口、视觉接口和/或其他接口,所述其他接口使用户能够提供诸如听觉言语信号、排队请求的批准等输入并接收由计算装置110提供的输出。在一些实施方案中,用户接口122接收指示远程存储的意图(例如,存储在外部数据存储区中)的输入以下载并存储为本地意图126。另外或替代地,用户接口122提供音频输出,所述音频输出提供关于所提供的输入的状态的通知。例如,用户接口122可以提供指示特定动作已经被执行的输出音频。在另一示例中,用户接口122可以提供模仿人类语音的音频信号,从而提供计算装置110无法建立到云计算资源164的网络连接的通知并提示用户确认对表示用户提供的输入的文本段进行排队。在一些实施方案中,用户接口122显示对应于本地意图126的文本、存储在命令队列128中的一个或多个文本段、和/或错误通知。在一些实施方案中,用户接口122采用任何可行的形式来提供本文描述的功能,诸如一个或多个按钮、切换开关、滑块、拨号盘、旋钮等,或者作为图形用户接口(GUI)。在各种实施方案中,用户接口122通过数字助理系统100的任何一个或多个部件来提供。在一个实施方案中,用户接口122由与计算装置110通信地耦合的单独的计算装置提供,诸如通过在用户的移动或可穿戴计算装置上运行的应用程序。另外或替代地,在一些实施方案中,用户接口122包括在不同的车辆部件180中并且通过CAN总线连接到数字助理应用程序130。例如,信息娱乐系统(例 如,包括在车辆主机单元的娱乐子系统中)经由显示器和/或语音代理提供用户接口122。
数据存储区124存储由处理单元140检索的值和/或其他数据以协调数字助理系统100的操作。在各种实施方案中,处理单元140被配置为将值存储在数据存储区124中和/或检索存储在数据存储区124中的值。例如,数据存储区124可以存储音频内容(例如,音频剪辑、听觉言语信号等)、一个或多个本地意图126、和/或命令队列128。
在一些实施方案中,计算装置110使用输入/输出(I/O)装置接口144与诸如输入装置174、输出装置176和/或车辆部件180的其他装置通信。在这种情况下,I/O装置接口144可以包括用于提供本文描述的功能的任何数量的不同I/O适配器或接口。例如,I/O装置接口144可以包括有线和/或无线连接,并且可以使用各种格式或协议。在另一示例中,计算装置110通过I/O装置接口144可以从输入装置174接收听觉信号并向输出装置176提供输出信号以产生各种类型的输出(例如,视觉指示、声波、触觉等)。
在一些实施方案中,计算装置110使用网络接口142和网络150与其他装置(诸如外部装置162和/或云计算资源164)通信。在一些实施方案中,其他类型的联网计算装置(未示出)经由网络接口142连接到计算装置110。联网计算装置的示例包括服务器、台式计算机、移动计算装置(诸如智能手机或平板计算机)和/或佩戴装置(诸如手表或耳机或头戴式显示装置)。在一些实施方案中,联网计算装置被用作输入装置174和/或输出装置176。
输入装置174是能够接收一个或多个输入的装置。在各种实施方案中,输入装置174包括一个或多个音频输入装置,诸如传声器、一组传声器和/或传声器阵列。在各种实施方案中,传声器是定向的(例如,面向用户的传声器、波束成形传声器阵列等)并且从特定人员(诸如驾驶员)获取听觉数据。声音数据由数字助理系统100和/或另一音频处理装置使用各种音频处理技术来处理。在一些实施方案中,输入装置174包括能够接收输入的其他装置,诸如键盘、鼠标、触敏屏幕和/或用于向计算装置110提供输入数据的其他输入装置。这些输入可以包括手势,诸如经由相机接收到的手、手臂、眼睛或身体的其他部位的各种运动或取向。另外或替代地,输入装置174包括多种类型的传感器,包括车辆传感器(例如,面向外部的相机、加速度计等)、面向乘员的传感器(例如,相机、传声器、运动传感器等),和/或面向非乘员的车厢传感器(例如,压力传感器、温度传感器等)。在各种实施方案中,输入装置174提供描述车辆和存在于车辆内的乘员的上下文的传感器数据的组合。例如,传感器可以提供与车辆的用户相关联的一组值(例如,乘员的位置、噪声水平等)。
输出装置176包括能够提供输出的装置,诸如显示屏、扩音器、触觉输出装置等。例如,输出装置176可以是耳机、耳塞、扬声器系统(例如,一个或多个扩音器、放大器等)、或生成声场的任何其他装置。在另一示例中,输出装置176可以包括触觉输出装置,诸如超声换能器、空气涡流发生器、气囊和/或被配置为生成触觉输出的任何类型的装置。在各种实施方案中,各种输入装置174和/或输出装置176被并入计算装置110中或者在计算装置110外部。
在各种实施方案中,输出装置176使用任意数量的不同常规外形规格来实施,诸如分立扩音器装置、覆耳式(全罩式)耳机、贴耳式(耳罩式)耳机或入耳式耳机、助听器、有线或无线头戴式耳机和/或个人扬声器、体戴式(头、肩、臂等)扬声器装置、体戴式近距离定向扬声器或扬声器阵列、体戴式超声波扬声器阵列等。在一些实施方案中,输出装置176包括其他形式的输出,诸如提供视觉输出的显示装置。在一些实施方案中,输出装置176由用户佩戴,或单独设置在固定位置,或可移动。
车辆部件180包括用于控制车辆的操作的各种部件。例如,车辆部件可以包括用于操作一个或多个车窗、挡风玻璃刮水器、锁等的控制器。在一些实施方案中,车辆部件包括由各种电子、电气和/或机械车辆子系统操作的各种车辆子系统和/或应用程序,诸如ADAS和动态驾驶员辅助程序、空调子系统、导航子系统、娱乐子系统和媒体应用程序、车载信息娱乐系统、装置控制系统(例如,车窗、座椅、镜子等的控件)等。车辆部件180中的每一个被配置为接收命令并生成信号以致使执行特定动作(例如,打开驾驶员侧车窗)。在一些实施方案中,车辆部件180包括一个或多个输出装置176。例如,娱乐子系统可以包括一个或多个扩音器。在这种情况下,车辆部件180响应于接收到的命令来驱动特定输出装置176。
在各种实施方案中,给定车辆部件180通过执行一个或多个车辆行为182和/或改变一个或多个应用程序参数184来响应接收到的命令。例如,导航子系统可以通过生成显示通知消息和/或警报的应用程序参数来响应命令。在另一个示例中,气候控制系统可以通过修改目标温度来响应命令。在各种实施方案中,本地意图126中的每一个可以指定给定车辆部件180执行的车辆行为182和/或给定车辆部件180改变的应用程序参数184中的一者或多者。
网络150包括多个网络通信系统,诸如路由器和交换机,所述网络通信系统被配置为促进计算装置110与外部装置(例如,外部装置162和/或云计算资源164)之间的数据通信。本领域技术人员将认识到,存在用于构建网络150的许多技术上可行的技术,包括在部署互联网通信网络时实践的技术。例如,网络150可以包括广域网(WAN)、局域网(LAN)、无线(Wi-Fi)网络和/或蜂窝网络等。
外部装置162是包含计算装置110的车辆外部的一个或多个装置,其响应由车辆生成的命令。在各种实施方案中,外部装置162是一个或多个物联网(IoT)装置、“智能”装置、传感器装置和其他类型的装置(例如,移动装置、可穿戴装置、桌面装置等),其可以接收并响应远程命令。在各种实施方案中,外部装置162中的一个或多个接收由计算装置110和/或云计算资源164生成的命令。
云计算资源164包括与计算装置110通信并处理数据的一个或多个远程装置、资源和/或服务。例如,云计算资源164可以包括事件驱动的架构(例如,Amazon Web ServiceLambdaTM)、连接车辆服务平台(例如,Harman IgniteTM),和/或与计算装置110、外部装置162和/或云计算资源164通信的其他服务。
在各种实施方案中,云计算资源164包括数字助理后端,所述数字助理后端包括与计算装置110通信以处理与数字助理应用程序130相关联的数据的一个或多个远程装置、资源和/或服务。例如,云计算资源164可以包括语音助理技能套件,所述语音助理技能套件将特定输入(例如,包括语音命令的文本段)辨识和/或处理为事件并生成命令(例如,针对与适用的外部装置162和/或适用的车辆部件180的能力相对应的动作的指示)。在一些实施方案中,云计算资源164接收由数字助理应用程序130生成的文本输入并生成一个或多个对应的命令。例如,当用户提供输入“告诉我老虎队与红袜队比赛的当前得分”时,数字助理应用程序130提供请求包括文本段的信息的消息。包括在云计算资源164中的数字助理后端处理消息,并且基于文本段的内容来生成使信息检索服务从新闻资源检索特定团队和特定时间的信息的命令。
车载命令的本地化语音辨识
图2示出了根据各种实施方案的用于处理言语输入204并响应本地意图126或不同类型的意图的技术;如图所示,数字助理系统200包括但不限于用户接口122、本地语音辨识应用程序132、车辆部件控制应用程序136、数据存储区124、输出装置176、车辆部件180、云计算资源164和外部装置162。本地语音辨识应用程序132包括但不限于文本输入206、言语处理模块212、意图处理模块214、编排模块216、通信接口218和语音代理220。
在操作中,本地语音辨识应用程序132通过指定用于生成命令208的动作来响应由用户202提供的言语输入204,所述命令驱动车辆部件180执行特定动作,诸如特定车辆行为182或应用程序参数184的改变。当本地语音辨识应用程序132标识匹配的本地意图126时,本地语音辨识应用程序132生成包括来自言语输入204的信息的适用动作,并将所述信息转发到车辆部件控制应用程序136。车辆部件控制应用程序136生成与所述动作相对应的命令208并将所述命令传输到适用的车辆部件。当本地语音辨识应用程序132没有标识匹配的本地意图126时,本地语音辨识应用程序132确定是否可以与云计算资源164建立网络连接。当可以与云计算资源164建立网络连接时,本地语音辨识应用程序132将文本输入206传输到云计算资源164。当无法建立网络连接时,本地语音辨识应用程序132将文本输入206存储在命令队列中,直到稍后可以建立网络连接。在一些实施方案中,本地语音辨识应用程序132接收多个言语输入204(例如,言语输入204(1)、言语输入204(2)等)。在这种情况下,本地语音辨识应用程序132处理每个言语输入204并且按照接收言语输入204的顺序响应每个言语输入204。
在各种实施方案中,言语处理模块212将言语输入204转换为文本输入206。在一些实施方案中,言语处理模块212接收由用户202经由用户接口122提供的言语输入204。在这种情况下,言语处理模块212解析言语输入204并执行各种言语到文本技术并生成文本输入206。在各种实施方案中,文本输入206包括指定用户202生成使装置执行动作的命令的意图的一个或多个元素。例如,文本输入206可以包括:上下文部分,所述上下文部分包括言语输入204的一部分,其触发将言语输入204处理为与动作的执行相关联(例如,关键词或短语、一组条件等);以及动作部分,所述动作部分包括与要执行的动作相关联的信息。
在各种实施方案中,言语处理模块212执行各种自然语言处理(NLP)和自然语言理解(NLU)技术、情感分析和/或言语分析,以便标识用户202说出的短语。在一些实施方案中,言语处理模块212经由用户接口122接收来自用户202的言语输入204。替代地,在一些实施方案中,车辆的另一部件(例如,信息娱乐系统、娱乐子系统等)或另一装置(例如,连接的言语处理器)处理言语输入204。另外或替代地,言语处理模块212对言语输入204执行各种言语到文本技术,以标识言语输入204的各部分和/或将其分类到文本输入206的适用字段。在一些实施方案中,言语处理模块212是处理与本地意图126相关的有限数量的言语输入的轻量级系统的一部分。例如,言语处理模块212可以被编程为标识一小组关键词或短语,其中每个关键词或短语与本地意图126中的至少一个相关联。
在各种实施方案中,意图处理模块214确定文本输入206中包括的信息的语义含意。在一些实施方案中,意图处理模块214使用语义含意和/或其他信息来将文本输入206映射到本地意图126。在一些实施方案中,意图处理模块214执行情感分析以确定文本输入206中包括的短语的意图和/或短语的含意。在一些实施方案中,意图处理模块214采用各种统计方法、机器学习(ML)方法、状态机和/或各种其他数据结构,以便标识短语与预定义关键词或短语的偏差,和/或与车辆相关联的动作。在一些实施方案中,意图处理模块214基于所确定的语义含意来替换文本输入206中的特定值。例如,意图处理模块214可以使用NLU处理来确定“调高低音”对应于特定动作,诸如娱乐子系统从当前水平增加低音水平或将低音水平设置为特定水平。
在各种实施方案中,意图处理模块214将文本输入206与存储在数据存储区124中的一个或多个本地意图126进行比较。一个或多个本地意图126中的每一个对应于可以由一个或多个车辆部件180执行的特定条件和动作,而无需连接到云计算资源164。例如,数据存储区124可以存储对应于由车辆部件180执行的最常请求的车载动作(例如,免提操作动作、本地信息检索等)的五十个本地意图126。在这种情况下,意图处理模块214将文本输入206与本地意图126的各部分进行比较,以确定文本输入206是否匹配或以其他方式对应于本地意图126。例如,用户202可以提供言语“告诉我现在谁在唱歌”。编排模块216可以接收文本输入206并标识具有匹配形式的本地意图126,其中给定的本地意图126(1)具有上下文的解析表示与动作之间的映射的形式:
{IF“告诉我”或“谁是”或“什么是”以及“唱歌”或“演奏”}
{THEN检索<曲目>的<艺术家名字>}
作为响应,意图处理模块214检索本地意图126(1)中指定的一个或多个动作。在一些实施方案中,意图处理模块214用来自文本输入206的信息更新检索到的动作,并且经由通信接口218将更新后的动作传输到车辆部件控制应用程序136。
在各种实施方案中,意图处理模块214确定文本输入206不具有对应的本地意图126。在这种情况下,意图处理模块214将文本输入206与对文本输入206不与本地意图126匹配的指示传输到编排模块216。在一些实施方案中,编排模块216将文本输入206存储在命令队列128中,并且稍后一旦建立网络连接就将文本输入206传输到云计算资源164以用于进一步处理。在一些实施方案中,当本地语音辨识应用程序132确定没有与云计算资源164建立网络连接时,编排模块216自动地将文本输入206存储在命令队列128中。替代地,在一些实施方案中,编排模块216可以生成言语输出210,诸如通知,并且可以经由语音代理220提供言语输出210,从而通知用户202所请求的动作由于未能与云计算资源164建立连接而无法发生。在这种情况下,编排模块216提示用户确认将文本输入206存储在命令队列128中,或者拒绝存储文本输入206,其中编排模块216通过丢弃文本输入206来响应。
在各种实施方案中,编排模块216可以生成用于要执行与本地意图126相关联的动作的特定服务的一个或多个动作和/或一个或多个命令。例如,当使一个或多个车辆部件180执行一个或多个动作时,编排模块216从本地意图126检索一个或多个预定义动作。在这种情况下,编排模块216用文本输入206中包括的信息来更新预定义动作。例如,当文本输入206包括由用户202提供的特定信息(“将温度设置为72度”)时,编排模块216通过将<x>替换为用户202指定的温度来更新预定义动作(例如{THEN将<目标温度>设置为<x>}。编排模块216将更新后的动作转发到车辆部件控制应用程序136,其中车辆部件控制应用程序136标识适用的车辆部件180以执行更新后的动作并且生成适用格式的命令208以使适用的车辆部件180以指定的方式进行操作。
在一些实施方案中,编排模块216从意图处理模块214接收命令。在这种情况下,编排模块216将接收到的命令转发到适用的应用程序(例如,车辆部件控制应用程序136)以传输到适用的车辆部件180或远程装置。替代地,在一些实施方案中,编排模块216将特定车辆部件180(例如,娱乐子系统)标识为执行动作的适用装置,并生成使车辆部件180执行动作的命令。在这种情况下,本地语音辨识应用程序132使用通信接口218来将命令包括在到车辆部件控制应用程序136的传输中。
在各种实施方案中,通信接口218包括本地语音辨识应用程序132用来生成其他装置可以辨识的格式的消息的一个或多个应用程序编程接口(API),诸如装置特定的API。例如,通信接口218可以包括一个或多个数字助理API和/或软件开发套件(SDK)工具。在这种情况下,本地语音辨识应用程序132可以使用适用的API或SDK工具来包括由编排模块216以适用的格式提供的信息。例如,本地语音辨识应用程序132可以使用Google AssistantTM和/或AlexaTMAPI来将文本输入206包括在被格式化为由对应平台的后端服务辨识的消息中。在各种实施方案中,本地语音辨识应用程序132使用通信接口218来处理从其他装置接收的消息。例如,本地语音辨识应用程序132可以使用Amazon AlexaTMSDK工具来从来自云计算资源164的传入消息中提取信息(例如,所请求的信息、车辆命令等),然后将提取的信息传输到编排模块216以用于在车辆内转发。
本地语音辨识应用程序对命令的响应
图3阐述了根据各种实施方案的用于基于由用户提供的言语来执行动作的方法步骤的流程图。尽管参考图1至图2的系统和实施方案描述了方法步骤,但是本领域技术人员将理解,被配置为以任何顺序实施方法步骤的任何系统都落在本公开的范围内。
如图3所示,方法300开始于步骤302,其中本地语音辨识应用程序132接收言语输入。在各种实施方案中,包括在本地语音辨识应用程序132中的言语处理模块212接收由用户202经由用户接口122提供的言语输入204。
在步骤304处,本地语音辨识应用程序132将言语输入204转换为文本输入206。在各种实施方案中,言语处理模块212解析言语输入204并执行各种言语到文本技术以生成表示由用户202提供的言语输入204的文本输入206。在一些实施方案中,言语处理模块212是处理与本地意图126相关联的有限短语库的轻量级言语处理器。在这种情况下,言语处理模块212处理言语输入204以标识与将由一个或多个车辆部件180执行的动作相关联的一组有限的关键词或短语。
在步骤306处,本地语音辨识应用程序132确定文本输入是否与本地意图匹配。在各种实施方案中,包括在本地语音辨识应用程序132中的意图处理模块214将由言语处理模块212提供的文本输入206与存储在数据存储区124中的该组本地意图126进行比较。该组本地意图126中的每一个指定可以由一个或多个车辆部件180执行的一个或多个特定动作,而无需连接到车辆外部的装置或服务(例如,外部装置162和/或云计算资源164)。当意图处理模块214确定文本输入206与本地意图126匹配时,本地语音辨识应用程序132进行到步骤308。否则,本地语音辨识应用程序132确定文本输入206与本地意图126中的任一个意图都不匹配,并且进行到步骤312。
在步骤308处,本地语音辨识应用程序132确定针对匹配的本地意图126的动作。在各种实施方案中,编排模块216接收文本输入206和匹配的本地意图126的至少一部分。在这种情况下,编排模块216生成对应于文本输入206中包括的信息的动作。例如,意图处理模块214标识对应于文本输入206的特定本地意图126。意图处理模块214检索包括在本地意图126中的一个或多个预定义动作,并将所述一个或多个预定义动作和文本输入206传输到编排模块216。在这种情况下,编排模块216用文本输入206中包括的信息来更新一个或多个预定义动作以生成一个或多个更新后的动作。
在步骤310处,本地语音辨识应用程序132致使用于一个或多个动作的命令被传输到车辆部件。在各种实施方案中,编排模块216将一个或多个更新后的动作传输到车辆部件控制应用程序136。车辆部件控制应用程序136生成用于一个或多个更新后的动作的一个或多个对应命令,并将所述一个或多个对应的命令传输到适用的车辆部件180。替代地,在一些实施方案中,编排模块216基于一个或多个更新后的动作生成一个或多个命令。在这种情况下,编排模块216经由车辆部件控制应用程序136将一个或多个命令转发到适用的车辆部件180。一旦一个或多个命令被传输到车辆部件180,本地语音辨识应用程序132就返回到步骤302以接收随后的语音输入。
在步骤312处,本地语音辨识应用程序132确定车辆是否连接到远程服务。在各种实施方案中,当意图处理模块214确定没有本地意图126对应于文本输入206时,编排模块216可以从意图处理模块214接收文本输入206。当接收到文本输入206时,编排模块216确定车辆是否连接到远程服务,诸如包括在云计算资源164中的数字助理后端。当编排模块216确定车辆连接到远程服务时,编排模块216进行到步骤320。否则,编排模块216确定车辆未连接到远程服务并且进行到步骤314。
在步骤314处,本地语音辨识应用程序132确定是否对文本输入进行排队。在各种实施方案中,编排模块216通过确定是否将文本输入206添加到命令队列128来响应确定车辆未连接到远程服务。在一些实施方案中,编排模块216自动地对文本输入206进行排队。在这种情况下,编排模块216自动地进行到步骤316。替代地,在一些实施方案中,编排模块216提示用户202确认是否将文本输入206存储在命令队列128中。例如,编排模块216可以通知用户202当前无法执行文本输入206,并提示用户202确认存储文本输入206以供稍后处理。当用户202确认对文本输入206进行排队时,编排模块216进行到步骤316。否则,编排模块216从用户202接收拒绝存储文本输入206的指示。在这种情况下,编排模块216进行到步骤318,其中编排模块216丢弃文本输入206。
在步骤316处,本地语音辨识应用程序132将文本输入添加到命令队列中。在一些实施方案中,编排模块216将文本输入206添加到命令队列128中;当文本输入206被添加到命令队列128中时,编排模块216稍后从命令队列128检索文本输入206,并且在确定车辆已经建立了到远程服务的网络连接时将文本输入206转发到远程服务。在一些实施方案中,编排模块216将文本输入206存储在命令队列128中达指定的时间段(例如,1小时、关机前重置等)。替代地,编排模块216可以存储命令队列128直到连接到远程服务。一旦文本输入206被存储在命令队列128中,本地语音辨识应用程序132就返回到步骤302以接收后续言语输入。
在步骤320处,本地语音辨识应用程序132将文本输入206传输到远程服务。在一些实施方案中,本地语音辨识应用程序132在传输文本输入206时执行各种安全措施。例如,本地语音辨识应用程序132可以使用通信接口218来将文本输入206包括在加密消息中并通过网络150传输加密消息。另外或替代地,本地语音辨识应用程序132使用通信接口218来建立到远程服务的安全连接。在这种情况下,编排模块216可以使文本输入206经由安全连接被传输到远程服务。在各种实施方案中,文本输入206可由远程服务操作以进行进一步处理和传输。例如,数字助理后端可以基于文本输入206生成一个或多个命令,并且可以将所生成的命令传输回编排模块216(例如,针对车辆部件180的命令208和/或要作为言语输出210输出的信息)以在车辆内使用。替代地,数字助理后端将命令传输到一个或多个外部装置162以供执行。一旦文本输入被传输到远程服务,本地语音辨识应用程序132就返回到步骤302以接收后续言语输入。
图4阐述了根据各种实施方案的用于响应从远程服务接收到的命令的方法步骤的流程图。尽管参考图1至图2的系统和实施方案描述了方法步骤,但是本领域技术人员将理解,被配置为以任何顺序实施方法步骤的任何系统都落在本公开的范围内。
如图4所示,方法400开始于步骤402,其中本地语音辨识应用程序132从远程服务接收命令。在各种实施方案中,本地语音辨识应用程序132从远程服务接收命令,诸如包括在云计算资源164中的数字助理后端。在一些实施方案中,通信接口218从数字助理后端接收消息并从所述消息提取一个或多个命令。编排模块216从通信接口218接收一个或多个命令。
在步骤404处,本地语音辨识应用程序132确定针对接收到的命令的适用的车辆部件180。在各种实施方案中,编排模块216确定要执行接收到的命令的车辆部件180。在一些实施方案中,命令是使车辆部件180执行动作(诸如远程起动车辆)的命令。替代地,在一些实施方案中,所述命令是向用户202提供信息的命令。
在步骤406处,本地语音辨识应用程序132使命令被传输到适用的车辆部件。在各种实施方案中,编排模块216经由通信接口218和/或语音代理来将接收到的命令传输到适用的车辆部件。例如,当命令是使车辆部件180执行动作的命令时,编排模块216经由通信接口218将所述命令传输到车辆部件控制应用程序136。车辆部件控制应用程序136然后将接收到的命令转发到适用的车辆部件180。替代地,在一些实施方案中,当所述命令是向用户提供信息的命令时。在这种情况下,编排模块216将信息转换为语音输出210并且经由语音代理220将语音输出210提供给用户202。
总之,数字助理应用程序将由用户提供的输入信号转换为文本段。在各种实施方案中,包括在数字助理应用程序中的本地语音辨识应用程序使用一个或多个车辆部件来基于文本输入执行预定义车载动作的子集。否则,数字助理应用程序连接到远程服务以执行由文本段中的信息指定的动作。当数字助理应用程序确定车辆未连接到远程服务时,数字助理应用程序对文本段进行排队以供稍后在与远程服务连接时进行处理和执行。
当使一个或多个车辆部件执行预定义车载动作时,本地语音辨识应用程序将文本输入与一组存储的本地意图进行比较,这些本地意图存储可以由一个或多个车辆部件执行的一个或多个动作,而无需连接到远程服务。当本地意图与文本输入匹配时,本地语音辨识应用程序检索与本地意图相关联的一个或多个动作。本地语音辨识应用程序用来自文本输入的信息更新检索到的一个或多个动作,并且将更新后的一个或多个动作转发到车辆命令控制器。车辆命令控制器生成与一个或多个更新后的动作相对应的命令并将命令传输到适用的车辆部件。
所公开的技术相对于现有技术的至少一个技术优点在于,通过所公开的技术,用户可以有效地提供言语输入来使车辆部件执行命令,而无需外部服务处理言语输入或文本输入,从而极大地提高了车辆的用户的车载体验。具体地,通过处理用户的言语并执行一组车载命令,数字助理应用程序在车辆无法使用外部数字助理服务的情况下响应用户命令。此外,处理言语输入并执行车辆动作的子集使得车辆能够比将言语输入传输到外部服务进行处理更快地执行多个车载动作。此外,通过对数字助理应用程序无法在车内处理或执行的言语输入的表示进行排队,数字助理应用程序减轻了车辆用户的与基于外部言语处理服务是否可用来多次提供言语输入相关联的身体和精神压力。这些技术优点提供了优于现有技术方法的一个或多个技术进步。
1.在各种实施方案中,一种计算机实施的方法包括:接收由用户生成的听觉言语信号;将所述听觉言语信号转换为文本段;将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及在确定所述文本段对应于所述一组存储的意图中的第一意图时,检索与所述第一意图相关联的一个或多个动作,并且使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
2.根据条款1所述的计算机实施的方法,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
3.根据条款1或2所述的计算机实施的方法,其还包括:在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
4.根据条款1至3中任一项所述的计算机实施的方法,其还包括:在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
5.根据条款1至4中任一项所述的计算机实施的方法,其中所述远程服务包括后端数字助理服务、事件驱动的架构或车辆服务平台中的至少一者。
6.根据条款1至5中任一项所述的计算机实施的方法,其还包括:在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时:提示所述用户将所述文本段添加到队列中;以及在从所述用户接收到确认时,将所述文本段存储在所述队列中,或者在从所述用户接收到拒绝时,丢弃所述文本段。
7.根据条款1至6中任一项所述的计算机实施的方法,其中使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作包括基于所述一个或多个动作生成一个或多个命令,以及将所述一个或多个命令传输到所述一个或多个对应部件,其中所述一个或多个对应部件通过执行所述一个或多个命令来执行所述动作。
8.根据条款1至7中任一项所述的计算机实施的方法,其还包括接收第二组意图,以及将所述第二组意图添加到所述一组存储的意图以生成一组更新后的存储的意图。
9.根据条款1至8中任一项所述的计算机实施的方法,其中所述一个或多个动作中的每个动作标识由所述车辆的部件执行的车辆行为或对由所述车辆的部件执行的应用程序参数的改变中的至少一者。
10.在各种实施方案中,一种或多种非暂时性计算机可读介质存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤:接收由用户生成的听觉言语信号;将所述听觉言语信号转换为文本段;将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及在确定所述文本段对应于所述一组存储的意图中的第一意图时,检索与所述第一意图相关联的一个或多个动作,并且使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
11.根据条款10所述的一种或多种非暂时性计算机可读介质,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
12.根据条款10或11所述的一种或多种非暂时性计算机可读介质,所述步骤还包括:在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
13.根据条款10至12中任一项所述的一种或多种非暂时性计算机可读介质,所述步骤还包括:在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
14.在各种实施方案中,一种系统包括:存储本地语音辨识应用程序的存储器;以及耦合到所述存储器的处理器,所述处理器在执行所述本地语音辨识应用程序时执行以下步骤:接收由用户生成的听觉言语信号;将所述听觉言语信号转换为文本段;将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及在确定所述文本段对应于所述一组存储的意图中的第一意图时,检索与所述第一意图相关联的一个或多个动作,并且使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
15.根据条款14所述的系统,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
16.根据条款14或15所述的系统,其中所述车辆外部的所述装置包括可穿戴装置、传感器装置、物联网(IoT)装置或远程计算装置中的一者。
17.根据条款14至16中任一项所述的系统,所述步骤还包括:在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
18.根据条款14至17中任一项所述的系统,所述步骤还包括:在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
19.根据条款14至18中任一项所述的系统,其中所述一个或多个对应部件包括娱乐子系统、导航子系统、高级驾驶员辅助系统(ADAS)或气候控制子系统中的至少一者。
20.根据条款14至19中任一项所述的系统,其中使所述一个或多个对应部件执行由所述一个或多个动作指定的动作包括向部件控制器应用程序发送指令,其中所述部件控制器应用程序基于所述一个或多个动作生成一个或多个命令并经由控制器局域网(CAN)总线将所述一个或多个命令传输到所述一个或多个对应部件。
在任何权利要求中引用的任何权利要求要素和/或在本申请中描述的任何要素的任何和所有组合以任何方式落入本发明和保护的预期范围内。
已呈现各种实施方案的描述以用于说明目的,但并非意在详列或限于公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说是显而易见的。
本实施方案的各方面可实施为系统、方法或计算机程序产品。因此,本公开的各方面可采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施方案的形式,所述实施方案在本文中可被统称为“模块”、“系统”或“计算机”。此外,本公开中所述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可实施为电路或电路集。此外,本公开的各方面可采取在其上体现有计算机可读程序代码的一个或多个计算机可读介质中体现的计算机程序产品的形式。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下各项:具有一个或多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述各项的任何合适组合。在本文档的上下文中,计算机可读存储介质可以是可含有或存储供指令执行系统、设备或装置使用或与其联用的程序的任何有形介质。
上文参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实施。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器,以产生机器。指令在经由计算机或其他可编程数据处理设备的处理器执行时使得能够实施在流程图和/或框图的一个或多个框中指定的功能/动作。这种处理器可以是但不限于通用处理器、专用处理器、特定应用处理器或现场可编程门阵列。
附图中的流程图和框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。就这一点而言,流程图或框图中的每个框可以表示代码的模块、段或部分,所述代码的模块、段或部分包括用于实施指定的逻辑功能的一个或多个可执行指令。还应注意,在一些替代实施方式中,框内标注的功能可能不以图中标注的顺序出现。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还应当指出的是,框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定的功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实施。
尽管前述内容针对本公开的实施方案,但是可在不脱离其基本范围的情况下设计出本公开的其他和更多实施方案,且其范围由所附权利要求确定。
Claims (20)
1.一种计算机实施的方法,其包括:
接收由用户生成的听觉言语信号;
将所述听觉言语信号转换为文本段;
将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及
在确定所述文本段对应于所述一组存储的意图中的第一意图时:
检索与所述第一意图相关联的一个或多个动作;并且
使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
2.根据权利要求1所述的计算机实施的方法,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
3.根据权利要求2所述的计算机实施的方法,其还包括:
在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
4.根据权利要求3所述的计算机实施的方法,其还包括:
在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
5.根据权利要求3所述的计算机实施的方法,其中所述远程服务包括后端数字助理服务、事件驱动的架构或车辆服务平台中的至少一者。
6.根据权利要求2所述的计算机实施的方法,其还包括:
在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时:提示所述用户将所述文本段添加到队列中;以及
在从所述用户接收到确认时,将所述文本段存储在所述队列中,或者
在从所述用户接收到拒绝时,丢弃所述文本段。
7.根据权利要求1所述的计算机实施的方法,其中使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作包括:
基于所述一个或多个动作生成一个或多个命令;以及
将所述一个或多个命令传输到所述一个或多个对应部件,其中所述一个或多个对应部件通过执行所述一个或多个命令来执行所述动作。
8.根据权利要求1所述的计算机实施的方法,其还包括:
接收第二组意图;以及
将所述第二组意图添加到所述一组存储的意图以生成一组更新后的存储的意图。
9.根据权利要求1所述的计算机实施的方法,其中所述一个或多个动作中的每个动作标识以下各者中的至少一者:
由所述车辆的部件执行的车辆行为,或
对由所述车辆的部件执行的应用程序参数的改变。
10.一种或多种非暂时性计算机可读介质,其存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下步骤:
接收由用户生成的听觉言语信号;
将所述听觉言语信号转换为文本段;
将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及
在确定所述文本段对应于所述一组存储的意图中的第一意图时:
检索与所述第一意图相关联的一个或多个动作;并且
使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
11.根据权利要求10所述的一种或多种非暂时性计算机可读介质,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
12.根据权利要求10所述的一种或多种非暂时性计算机可读介质,所述步骤还包括:
在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
13.根据权利要求12所述的一种或多种非暂时性计算机可读介质,所述步骤还包括:
在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
14.一种系统,其包括:
存储器,其存储本地语音辨识应用程序;以及
处理器,其耦合到所述存储器,所述处理器在执行所述本地语音辨识应用程序时执行以下步骤:
接收由用户生成的听觉言语信号;
将所述听觉言语信号转换为文本段;
将所述文本段与一组存储的意图进行比较,其中每个存储的意图指定车辆的部件要执行的一个或多个动作;以及
在确定所述文本段对应于所述一组存储的意图中的第一意图时:
检索与所述第一意图相关联的一个或多个动作;并且
使所述车辆的一个或多个对应部件执行由所述一个或多个动作指定的动作。
15.根据权利要求14所述的系统,其中所述文本段指定所述车辆外部的装置要执行的至少一个动作。
16.根据权利要求15所述的系统,其中所述车辆外部的所述装置包括可穿戴装置、传感器装置、物联网(IoT)装置或远程计算装置中的一者。
17.根据权利要求14所述的系统,所述步骤还包括:
在确定所述文本段不对应于所述一组存储的意图中的至少一个存储的意图并且所述车辆不具有与远程服务的网络连接时,自动地将所述文本段添加到队列中。
18.根据权利要求17所述的系统,所述步骤还包括:
在确定所述车辆已经与所述远程服务建立所述网络连接时,将所述文本段从所述队列传输到所述远程服务。
19.根据权利要求14所述的系统,其中所述一个或多个对应部件包括娱乐子系统、导航子系统、高级驾驶员辅助系统(ADAS)或气候控制子系统中的至少一者。
20.根据权利要求14所述的系统,其中使所述一个或多个对应部件执行由所述一个或多个动作指定的动作包括向部件控制器应用程序发送指令,其中所述部件控制器应用程序:
基于所述一个或多个动作生成一个或多个命令,并且
经由控制器局域网(CAN)总线将所述一个或多个命令传输到所述一个或多个对应部件。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202241051079 | 2022-09-07 | ||
IN202241051079 | 2022-09-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117672226A true CN117672226A (zh) | 2024-03-08 |
Family
ID=87971910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311133409.6A Pending CN117672226A (zh) | 2022-09-07 | 2023-09-05 | 本地化语音辨识助理 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240075944A1 (zh) |
EP (1) | EP4336492A1 (zh) |
CN (1) | CN117672226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118522284A (zh) * | 2024-07-19 | 2024-08-20 | 深圳市西昊智能家具有限公司 | 基于大语言模型的智能座椅控制方法、智能座椅及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220382994A1 (en) * | 2021-06-01 | 2022-12-01 | Apple Inc. | Reform input in flow execution |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11170762B2 (en) * | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
JP7114722B2 (ja) * | 2019-10-15 | 2022-08-08 | グーグル エルエルシー | スマートデバイスの、効率的で低レイテンシである自動アシスタント制御 |
-
2023
- 2023-09-05 CN CN202311133409.6A patent/CN117672226A/zh active Pending
- 2023-09-06 US US18/462,184 patent/US20240075944A1/en active Pending
- 2023-09-07 EP EP23195870.3A patent/EP4336492A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118522284A (zh) * | 2024-07-19 | 2024-08-20 | 深圳市西昊智能家具有限公司 | 基于大语言模型的智能座椅控制方法、智能座椅及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP4336492A1 (en) | 2024-03-13 |
US20240075944A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102309540B1 (ko) | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 | |
EP3734596B1 (en) | Determining target device based on speech input of user and controlling target device | |
CN110770772B (zh) | 被配置为自动定制动作组的虚拟助手 | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
JP6585154B2 (ja) | 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 | |
US10984799B2 (en) | Hybrid speech interface device | |
CN110858481B (zh) | 用于处理用户语音话语的系统和用于操作该系统的方法 | |
CN105793923A (zh) | 本地和远程语音处理 | |
EP2963644A1 (en) | Audio command intent determination system and method | |
US10950229B2 (en) | Configurable speech interface for vehicle infotainment systems | |
JP2022095768A (ja) | インテリジェントキャビン用の対話方法、装置、機器および媒体 | |
CN111640429B (zh) | 提供语音识别服务的方法和用于该方法的电子装置 | |
EP4336492A1 (en) | Localized voice recognition assistant | |
JP7178630B2 (ja) | 音声操作方法、プログラム、音声操作システム、及び、移動体 | |
JP2022101663A (ja) | ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
KR20210044475A (ko) | 대명사가 가리키는 객체 판단 방법 및 장치 | |
KR102419374B1 (ko) | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 | |
CN111587413A (zh) | 信息处理装置、信息处理系统、信息处理方法和程序 | |
CN109979445A (zh) | 一种用于理解标准语言和方言的系统和方法 | |
CN110737422B (zh) | 一种声音信号采集方法及装置 | |
US20230317072A1 (en) | Method of processing dialogue, user terminal, and dialogue system | |
JP7383761B2 (ja) | 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
KR20190074344A (ko) | 대화 시스템 및 대화 처리 방법 | |
CN115132193A (zh) | 基于语音助手的控制方法、介质、电子设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |