CN116030805A - 用于话音助理的智能文本和话音反馈 - Google Patents

用于话音助理的智能文本和话音反馈 Download PDF

Info

Publication number
CN116030805A
CN116030805A CN202211207051.2A CN202211207051A CN116030805A CN 116030805 A CN116030805 A CN 116030805A CN 202211207051 A CN202211207051 A CN 202211207051A CN 116030805 A CN116030805 A CN 116030805A
Authority
CN
China
Prior art keywords
speech recognition
controller
text
recognition results
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211207051.2A
Other languages
English (en)
Inventor
X·F·赵
G·塔尔瓦
A·M·哈米斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN116030805A publication Critical patent/CN116030805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)

Abstract

一种用于文本反馈的方法包括:由控制器接收来自用户的话语;由控制器的自动语音识别引擎基于来自用户的话语来确定多个语音识别结果,其中,这些语音识别结果包括可能的命令;由控制器的自动语音识别引擎确定用于所述多个语音识别结果中的每一者的多个置信度得分;由控制器根据用于所述多个语音识别结果中的每一者的置信度得分来确定多个可能的命令中的每一者的文本特性;以及由控制器命令显示器示出对应于具有由控制器确定的文本特性的多个可能的命令中的每一者的文本。

Description

用于话音助理的智能文本和话音反馈
技术领域
引言
本公开涉及车辆,且更特别地涉及用于车辆话音助理(voice assistant)的智能文本和话音反馈系统和方法。
背景技术
一些车辆可包括语音识别系统(speech recognition system),这些语音识别系统能够将从用户接收到的音频语音解释为文本域和意图。在接收到语音时,语音识别系统可以根据从用户接收到的语音来执行命令。
发明内容
本公开描述了一种用于在车辆的拥挤的中央堆叠显示器中向用户提供强调的视觉提示的方法。在一些情况下,诸如在兴趣点(POI)导航、地址搜索、联系人姓名电话呼叫、假设列表(即,语音识别结果)期间,用户从视觉显示中选择最合适的选项是有挑战性的和耗时的。例如,当用户在驾驶时,他们的眼睛需要专注于道路,因此从视觉显示中选择最合适的选项是有挑战性的和耗时的。
在本公开中,通过结合先验信息来合并最终的假设列表,该先验信息反映电话呼叫/文本的最频繁的接收者或者最先前访问的POI和附近的POI或者最频繁使用的控制命令。在生成最终的假设列表之后,通过更可能项目的字体大小的校准增加来强调更可能的结果。这在人体工程学上更方便用户选择期望的选项。
在本公开的方面中,一种用于文本反馈的方法包括:由控制器接收来自用户的话语(utterance);由控制器的自动语音识别引擎基于来自用户的话语来确定多个语音识别结果,其中,这些语音识别结果是可能的(probable)命令;由控制器确定用于由自动语音识别引擎确定的所述多个语音识别结果中的每一者的多个置信度得分(confidence score);以及由控制器根据用于所述多个语音识别结果中的每一者的置信度得分来确定多个可能的命令中的每一者的文本特性;以及由控制器命令显示器示出对应于具有由控制器确定的文本特性的多个可能的命令中的每一者的文本。
在本公开的方面中,控制器基于置信度得分根据显示器的屏幕大小来确定多个可能的命令中的每一者的大小。
在本公开的方面中,控制器基于置信度得分根据由控制器的自动语音识别引擎确定的语音识别结果的数量来确定多个可能的命令中的每一者的大小。
在本公开的方面中,控制器基于置信度得分根据所述多个语音识别结果的置信度得分之和来确定多个可能的命令中的每一者的大小。假设的字体大小取决于相应结果的相对概率。例如,第一假设的置信度得分可为8000,且第二假设的得分可为6400。因此,第二假设的字体大小应为第一假设的80%。
在本公开的方面中,文本特性是文本大小、文本颜色和/或相对于显示器的屏幕的背景颜色的颜色对比度。字体大小还取决于显示区域的纵横比。例如,对于群集(Cluster)、中央堆叠模块显示(Center Stack Module Display)以及HUD而言,其将是不同的。除了屏幕的背景颜色之外,这一点也应考虑在内。
在本公开的方面中,该方法进一步包括响应于确定所述多个语音识别结果而命令扬声器提供关于所述多个语音识别结果的话音反馈。
在本公开的方面中,该方法进一步包括根据由自动语音识别引擎确定的用于所述多个语音识别结果中的每一者的所述多个置信度得分来确定所述多个语音识别结果中的每一者的话音反馈的音频音量。
在本公开的方面中,所述多个语音识别结果中的每一者的话音反馈的音频音量是根据扬声器的最大音量和最大置信度得分来确定的。
本公开还描述了一种用于车辆的控制系统。在本公开的方面中,控制系统包括:用户界面,其包括显示器和麦克风;以及控制器,其与用户界面通信。控制器包括自动识别引擎并且被编程为执行上文所描述的方法。
本发明还公开了以下技术方案:
1. 一种用于文本反馈的方法,其包括:
由控制器接收来自用户的话语;
由所述控制器的自动语音识别引擎基于来自所述用户的所述话语来确定多个语音识别结果,其中,所述语音识别结果包括多个可能的命令;以及
由所述控制器的所述自动语音识别引擎确定用于所述多个语音识别结果中的每一者的多个置信度得分;
由所述控制器根据用于所述多个语音识别结果中的每一者的置信度得分来确定多个可能的命令中的每一者的文本特性;以及
由所述控制器命令显示器示出对应于具有由所述控制器确定的所述文本特性的多个可能的命令中的每一者的文本。
2. 根据技术方案1所述的方法,其中,所述控制器基于所述置信度得分根据所述显示器的屏幕大小来确定多个可能的命令中的每一者的大小。
3. 根据技术方案2所述的方法,其中,所述控制器基于所述置信度得分根据由所述控制器的所述自动语音识别引擎确定的语音识别结果的数量来确定多个可能的命令中的每一者的所述大小。
4. 根据技术方案3所述的方法,其中,所述控制器基于所述置信度得分根据所述多个语音识别结果的所述置信度得分之和来确定多个可能的命令中的每一者的所述大小。
5. 根据技术方案1所述的方法,其中,所述文本特性是文本大小。
6. 根据技术方案1所述的方法,其中,所述文本特性是文本颜色。
7. 根据技术方案1所述的方法,其中,所述文本特性是相对于所述显示器的屏幕的背景颜色的颜色对比度。
8. 根据技术方案1所述的方法,其进一步包括响应于确定所述多个语音识别结果而命令扬声器提供关于所述多个语音识别结果的话音反馈。
9. 根据技术方案8所述的方法,其进一步包括根据由所述自动语音识别引擎确定的用于所述多个语音识别结果中的每一者的所述多个置信度得分来确定所述多个语音识别结果中的每一者的所述话音反馈的音频音量。
10. 根据技术方案9所述的方法,其中,所述多个语音识别结果中的每一者的所述话音反馈的所述音频音量是根据所述扬声器的最大音量和最大置信度得分来确定的。
11. 一种用于车辆的控制系统,所述控制系统包括:
用户界面,其包括显示器和麦克风;
控制器,其与所述用户界面通信,其中,所述控制器包括自动识别引擎并且被编程为:
接收来自用户的话语;
基于来自所述用户的所述话语来确定多个语音识别结果,其中,所述语音识别结果包括多个可能的命令;以及
确定用于由所述控制器的自动语音识别引擎确定的所述多个语音识别结果中的每一者的多个置信度得分;以及
根据用于所述多个语音识别结果中的每一者的所述置信度得分来确定多个可能的命令中的每一者的文本特性;
命令所述显示器示出对应于具有由所述控制器确定的所述文本特性的多个可能的命令中的每一者的文本。
12. 根据技术方案11所述的控制系统,其中,所述控制器被编程为基于所述置信度得分根据所述显示器的屏幕大小来确定多个可能的命令中的每一者的大小。
13. 根据技术方案12所述的控制系统,其中,所述控制器被编程为基于所述置信度得分根据由所述控制器的所述自动语音识别引擎确定的语音识别结果的数量来确定多个可能的命令中的每一者的所述大小。
14. 根据技术方案13所述的控制系统,其中,所述控制器被编程为基于所述置信度得分根据所述多个语音识别结果的所述置信度得分之和来确定多个可能的命令中的每一者的所述大小。
15. 根据技术方案11所述的控制系统,其中,所述文本特性是文本大小。
16. 根据技术方案11所述的控制系统,其中,所述文本特性是文本颜色。
17. 根据技术方案11所述的控制系统,其中,所述文本特性是相对于所述显示器的屏幕的背景颜色的颜色对比度。
18. 根据技术方案11所述的控制系统,其中,所述控制器进一步被编程为响应于确定所述多个语音识别结果而命令扬声器提供关于所述多个语音识别结果的话音反馈。
19. 根据技术方案18所述的控制系统,其中,所述控制器进一步被编程为根据由所述自动语音识别引擎确定的用于所述多个语音识别结果中的每一者的所述多个置信度得分来确定所述多个语音识别结果中的每一者的所述话音反馈的音频音量。
20. 根据技术方案19所述的控制系统,其中,所述多个语音识别结果中的每一者的所述话音反馈的所述音频音量是根据所述扬声器的最大音量和最大置信度得分来确定的。
当结合附图理解时,本教导的以上特征和优点以及其他特征和优点容易从用于实施如所附权利要求中限定的本教导的最佳模式和其他实施例中的一些的以下详细描述显而易见。
附图说明
将结合以下附图来描述本公开,其中,相同的附图标记表示相同的元件。
图1是车辆的示意性框图。
图2是车辆的显示器的示意图。
图3是用于文本反馈的方法的流程图。
图4是用于文本反馈的方法的流程图。
具体实施方式
以下详细描述本质上仅仅是示例性的,并且不旨在限制应用和用途。此外,不意图受前面技术领域、背景技术、发明内容或以下详细描述中呈现的明示或暗示的理论的束缚。如本文中所使用的,术语“模块”指代单独地或呈其组合的硬件、软件、固件、电子控制部件、处理逻辑、和/或处理器装置,包括但不限于:专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和存储器、组合逻辑电路、和/或提供所描述的功能的其他合适的部件。
本文中可在功能和/或逻辑块部件和各种处理步骤方面来描述本公开的实施例。应了解,此类块部件可由被构造成执行指定功能的若干硬件、软件和/或固件部件实现。例如,本公开的实施例可采用各种集成电路部件,例如存储器元件、数字信号处理元件、逻辑元件、查找表等,这些集成电路部件可在一个或多个微处理器或其他控制装置的控制下实施各种功能。另外,本领域技术人员将了解,可结合若干系统来实践本公开的实施例,并且本文中所描述的系统仅仅是本公开的示例性实施例。
为了简洁起见,与信号处理、数据融合、信令、控制和系统(以及系统的各个操作部件)的其他功能方面相关的技术在本文中可能不进行详细描述。此外,本文中包含的各种附图中所示的连接线旨在表示各种元件之间的示例功能关系和/或物理性联接。应注意,在本公开的实施例中可存在替代性或附加的功能关系或物理性连接。
如图1中所描绘,车辆10通常包括底盘12、车身14、前车轮和后车轮17,并且可被称为车辆系统。在所描绘的实施例中,车辆10包括两个前车轮17a和两个后车轮17b。车身14布置在底盘12上并且基本上围住车辆10的各部件。车身14和底盘12可共同地形成构架(frame)。车轮17各自在主体14的相应拐角附近旋转地联接到底盘12。车辆10包括联接到前车轮17a的前轮轴19和联接到后车轮17b的后轮轴25。
在各种实施例中,车辆10可以是自主车辆,并且控制系统98结合到车辆10中。控制系统98可被简称为系统。车辆10是例如被自动控制以将乘客从一个位置运送到另一个位置的车辆。在所图示的实施例中,车辆10被描绘为乘用车,但是应了解,也可以使用其他车辆,包括摩托车、卡车、运动型多用途车(SUV)、休闲车(RV)、海洋船只、飞机等。在示例性实施例中,车辆10是所谓的四级或五级自动化系统。四级系统指示“高度自动化”,指的是由自动驾驶系统以特定于驾驶模式来执行动态驾驶任务的各方面,即使在人类驾驶员没有适当地响应介入请求时。五级系统指示“完全自动化”,指的是在可以由人类驾驶员管理的若干道路和环境条件下由自动驾驶系统全时执行动态驾驶任务的各方面。
如图所示,车辆10通常包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储装置32、至少一个控制器34、以及通信系统36。在各种实施例中,推进系统20可包括电机,诸如牵引马达和/或燃料电池推进系统。车辆10进一步包括电连接到推进系统20的电池(或电池组)21。因此,电池21被构造成存储电能并向推进系统20提供电能。附加地,推进系统20可包括内燃发动机。变速器系统22被构造成根据可选择的速度比将动力从推进系统20传输到车辆车轮17。根据各种实施例,变速器系统22可包括阶比(step-ratio)自动变速器、无级变速器或其他适当的变速器。制动系统26被构造成向车辆车轮17提供制动扭矩。在各种实施例中,制动系统26可包括摩擦制动、线控制动、再生制动系统(诸如,电机)和/或其他适当的制动系统。转向系统24影响车辆车轮17的位置。虽然为了图示性目的而被描绘为包括方向盘,但在本公开范围内设想的一些实施例中,转向系统24可不包括方向盘。
传感器系统28包括一个或多个传感器40(即,感测装置),所述一个或多个传感器感测车辆10的外部环境和/或内部环境的可观察条件。传感器40与控制器34通信,并且可包括但不限于一个或多个雷达、一个或多个光检测和测距(激光雷达)传感器、一个或多个探地雷达(GPR)传感器、一个或多个全球定位系统(GPS)装置、一个或多个相机(例如,光学相机和/或热相机,诸如后置相机和/或前置相机)、速度传感器、转向角传感器、超声波传感器、一个或多个惯性测量单元(IMU)和/或其他传感器。
致动器系统30包括一个或多个致动器装置42,所述一个或多个致动器装置控制一个或多个车辆特征,诸如但不限于推进系统20、变速器系统22、转向系统24和制动系统26。在各种实施例中,车辆特征可以进一步包括内部和/或外部车辆特征,诸如但不限于车门、后备箱和舱特征,诸如,通风、音乐、照明等(未编号)。
传感器系统28包括被构造成检测和监控路线数据(即,路线信息)的一个或多个全球定位系统(GPS)收发器。GPS装置被构造成与GPS通信以定位车辆10在地球上的位置。GPS装置与控制器34进行电子通信。因为传感器系统28向控制器34提供数据,所以传感器系统28及其传感器40被认为是信息源(或简称为源)。
数据存储装置32存储数据以用于自动控制车辆10。在各种实施例中,数据存储装置32存储可导航环境的定义的地图。在各种实施例中,定义的地图可由远程系统预定义并从远程系统获得。例如,定义的地图可由远程系统组装并(无线地和/或以有线方式)传送到车辆10,并且存储在数据存储装置32中。数据存储装置32可为控制器34的一部分,与控制器34分离,或为控制器34的一部分和单独系统的一部分。
控制器34包括至少一个处理器44和非暂时性计算机可读存储装置或介质46。处理器44可以是定制的或市售的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关联的几个处理器当中的辅助处理器、基于半导体的微处理器(呈微芯片或芯片组的形式)、宏处理器、其组合、或通常是用于执行指令的装置。例如,计算机可读存储装置或介质46可包括呈只读存储器(ROM)、随机存取存储器(RAM)和不失效存储器(KAM)的易失性和非易失性存储装置。KAM是可用于在处理器44掉电时存储各种操作变量的持续性或非易失性存储器。计算机可读存储装置或介质46可使用若干存储器装置来实施,诸如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、快闪存储器、或能够存储数据的另一种电、磁性、光学或组合存储器装置来实施,所述数据中的一些表示由控制器34用于控制车辆10的可执行指令。控制器34用自动语音识别(ASR)引擎进行编程。
指令可包括一个或多个单独的程序,所述一个或多个单独的程序中的每一者包括用于实施逻辑功能的可执行指令的有序列表。当由处理器44执行时,指令接收并处理来自传感器系统28的信号,执行逻辑、计算、方法和/或算法以用于自动控制车辆10的部件,并且基于逻辑、计算、方法和/或算法来向致动器系统30生成控制信号以自动控制车辆10的部件。尽管在图1中示出了单个控制器34,但是车辆10的实施例可包括若干控制器34,这些控制器通过合适的通信介质或通信介质的组合进行通信,并且协作以处理传感器信号、执行逻辑、计算、方法和/或算法、以及生成控制信号以自动控制车辆10的特征。
在各种实施例中,控制器34的一个或多个指令被体现在控制系统98中。车辆10包括用户界面23,该用户界面可以是仪表板中的触摸屏。用户界面23可包括但不限于警报器,诸如用以提供声音的扬声器27、车辆座椅或其他物体中的触觉反馈、显示器29、麦克风31和/或适合向车辆10的车辆操作员提供通知的其他装置。用户界面23与控制器34进行电子通信,并且被构造成接收用户(例如,车辆操作员)的输入。因此,控制器34被构造成经由用户界面23接收来自用户的输入。用户界面23包括被构造成向用户(例如,车辆操作员或乘客)显示信息的显示器29,并且可包括一个或多个扬声器以向车辆操作员提供可审核的通知。用户界面23可以是能够向车辆10的车辆操作员提供信息的驾驶员信息中心(DIC)。
通信系统36与控制器34通信,并且被构造成将信息无线传送到其他实体48和从其他实体48无线地传送信息,其他实体为诸如但不限于其他车辆(“V2V”通信)、基础设施(“V2I”通信)、远程系统和/或个人装置。在示例性实施例中,通信系统36是被构造成经由使用IEEE 802.11标准的无线局域网(WLAN)或通过使用蜂窝数据通信进行通信的无线通信系统。然而,在本公开的范围内还考虑了附加或替代的通信方法,诸如专用短程通信(DSRC)信道。DSRC信道指的是专为汽车用途而设计的单向或双向短程到中程无线通信信道以及对应的一组协议和标准。因此,通信系统36可包括一个或多个天线和/或收发器以用于接收和/或发射信号,诸如协作感测消息(CSM)。通信系统36被构造成在车辆10和另一车辆之间无线地传送信息。进一步地,通信系统36被构造成在车辆10和基础设施或其他车辆之间无线地传送信息。
参考图2,显示器29包括屏幕33,该屏幕被构造成显示包括不同特性的文本35,这些特性为诸如文本颜色、文本大小和/或相对于显示器29的屏幕33的背景颜色的颜色对比度。在本公开中,将屏幕33的大小称为屏幕大小。
参考图3,控制器34(图1)被具体地编程为执行用于文本反馈的方法100。方法100在框102处开始。在框102处,车辆10的用户说出命令或询问(即,话语)。换言之,车辆10的用户向用户界面提供口头询问和/或声音话语(acoustic utterance)。然后,用户界面23的麦克风31接收口头询问和/或声音话语并将口头询问和/或声音话语传输到控制器34。然后,方法100进行到框104。
在框104处,控制器34的ASR引擎接收并处理来自用户的口头询问和/或声音话语。随后,控制器34的ASR引擎基于由用户提供的话语来确定多个语音识别结果。这些语音识别结果可以是可能的命令和/或可能的询问,并且可被称为假设。而且,在框104处,控制器34的ASR引擎确定所述多个语音识别结果中的每一者的置信度得分。然后,方法100进行到框106。
在框106处,控制器34确定ASR引擎是已确定了多个可能的语音识别结果(即,假设)还是已确定了单个可能的语音识别结果(即,单个假设)。换言之,如果控制器34已确定仅存在单个可能的语音识别结果,则方法100进行到框108。
在框108处,控制器34命令用户界面23向用户提供口头反馈(如果适用)。该口头反馈可由用户界面23的扬声器27提供,并且可口头地询问车辆10的用户该单个可能的语音识别结果是否正确。然后,方法100进行到框110和框112。
在框110处,控制器34命令文本转语音(TTS)引擎使用默认TTS设定。这些TTS设定可包括但不限于短语语速、音调音量等等。在框112处,控制器34通过用户界面23从用户接收到该单个可能的语音识别结果是正确的确认。例如,用户可口头地确认该单个可能的语音识别结果是正确的,并且用户界面23使用麦克风31来接收该口头确认。如果控制器34通过用户界面23从用户接收到该单个可能的语音识别结果是正确的确认,则方法100进行到框114。在框114处,控制器34确定已完成用户请求。然而,如果用户没有通过用户界面23确认该单个可能的语音识别结果是正确的,则方法100返回到框104。
返回到框106,如果控制器34确定ASR引擎已确定了多个可能的语音识别结果(即,假设),则方法100进行到框116。在框116处,控制器34确定多个可能的语音识别结果中的每一者的合并置信度得分。为这样做,在框118处,控制器34访问存储先验信息的数据库。先验信息可包括但不限于导航信息(例如,频繁的兴趣点(POI)或附近的POI);电话信息(例如,频繁的呼叫和/或文本接收者)和/或控制信息(诸如气候、举升门、屏幕亮度等的频繁控制)。使用先验信息,控制器34确定由ASR引擎确定的多个可能的语音识别结果中的每一者的置信度得分。然后,方法100进行到框120和122。使用历史和先验信息可以用于标准化初始的一组假设,且因此,在对结果重新排序之后,将适当地调节字体大小和颜色。例如,对于咖啡店,相比于其他连锁店,用户可能更常常请求星巴克。因此,相对于其他假设,星巴克将是具有更大的字体和更明显的字体色调的首位假设。
在框120处,控制器34基于多个可能的语音识别结果中的每一者的置信度得分来确定文本特性,诸如文本颜色、文本大小(即,字体大小)和/或相对于屏幕33的背景颜色的颜色对比度。例如,在框120处,控制器34调适要由显示器29显示的文本35的字体大小和文本颜色。而且,在框120处,控制器34命令显示器29示出对应于具有由控制器34确定的文本特性的多个可能的语音识别结果(例如,可能的命令)中的每一者的文本。例如,如图2中所示,语音识别结果的置信度得分越大,对于该特定语音识别结果的对应的文本的字体大小就将越大。而且,语音识别结果的置信度得分越大,相对于显示器的屏幕的背景颜色的颜色对比度就将越大。作为非限制性示例,控制器34可使用以下方程式来确定每个语音识别结果的文本大小:
Figure 355520DEST_PATH_IMAGE001
其中:
Figure 356974DEST_PATH_IMAGE002
是最终调整后的文本大小;
Figure 290295DEST_PATH_IMAGE003
是屏幕大小;
N是语音识别结果的数量;
Figure 818228DEST_PATH_IMAGE004
是所有语音识别结果的置信度得分之和;并且
Figure 546013DEST_PATH_IMAGE005
是目标结果的置信度得分。
置信度得分中的差异越大,文本大小中的差异在屏幕上就越大。置信度得分是每个语音识别结果的相关联的似然概率。首位结果将是鲜艳的颜色和字体,例如绿色和粗体。如果可能的话,首位结果可具有稍微高的对比度。这些假设之间的差异是依据Delta置信度来测量的。它始终是相对于首位(TOP)假设而言的。然后,这将指导假设的相对字体大小和色调。
在框122处,控制器34调适口头反馈(如果适用)。口头反馈是通过用户界面23的扬声器27提供的话音反馈。因此,在框122处,控制器34命令扬声器27关于语音识别结果作出话音反馈。话音反馈也可基于置信度得分进行加权或调适,该置信度得分基于跨越多个假设的标准化。以下方程式可用于基于置信度得分和环境噪声来确定话音反馈的音频音量。当信息被口头地发声回给用户时,较大的字体假设在语音提示中具有更多的强调。因此除了字体大小和颜色对比度之外,话音反馈也应进行调适。
Figure 97080DEST_PATH_IMAGE006
其中:
Vaudio是最终调整后的音频音量;
Figure 568513DEST_PATH_IMAGE007
是目标结果的置信度得分;
Figure 950952DEST_PATH_IMAGE008
是所返回的置信度得分的最大值;
Figure 115218DEST_PATH_IMAGE009
是信息娱乐收音机的最大音频音量;并且
Figure 825685DEST_PATH_IMAGE010
是用以补偿环境噪声的系数。
话音反馈的提示短语可以基于置信度得分而从真的确定变化到确定或不确定。
然后,方法100向TTS引擎提供经调适的TTS设定(例如,短语语速、音调和音量)。除了语速和对最高得分项目的强调之外,语音对话的超时时间也应进行调节。使得用户可以及时响应话音反馈建议。假设对话现在可容纳1200 ms的超时周期,而不是1000 ms。
参考图4,控制器34被具体地编程为执行用于文本反馈的方法200。方法200在框202处开始。在框202处,车辆10的用户说出命令或询问(即,声音话语)。换言之,车辆10的用户向用户界面23提供声音话语。然后,用户界面23的麦克风31接收声音话语并将声音话语传输到控制器34。然后,方法200进行到框204。
在框204处,控制器34的ASR引擎接收并处理来自用户的声音话语。随后,控制器34的ASR引擎基于声音话语来确定所识别的测试。然后,方法200进行到框206。
在框206处,控制器34理解声音话语的语言以识别请求(即,所识别的请求)。然后,方法200进行到框208。在框208处,控制器34基于所识别的请求来确定用户是否正试图进行呼叫。如果用户正试图进行呼叫,则方法200进行到框210。
在框210处,控制器34基于所识别的请求来确定谁是呼叫的可能接收者(即,呼叫接收者)。为这样做,在框212处,控制器34访问存储先验信息的数据库。先验信息包括频繁呼叫和文本接收者。如果呼叫接收者是频繁呼叫接收者,则方法200进行到框214。
在框214处,控制器34增加该特定所识别的测试的置信度得分。然后,方法200进行到框216。在框216处,控制器34存储在框214中所确定的置信度得分以获得合并置信度得分。然后,方法200进行到框218。在框218处,控制器34将合并置信度得分传输到TTS引擎以进行TTS调适,并且合并置信度得分用于文本调适,如上文关于图3所描述的。
如果在框210处确定呼叫接收者是新的接收者(即,不是频繁呼叫接收者),则方法200进行到框220。在框220处,控制器34降低该特定所识别的测试的置信度得分。然后,方法200进行到框216。
如果控制器43确定用户没有正试图进行呼叫,则方法200进行到框222。在框222处,控制器34确定所识别的请求是否与导航控制命令相关。如果所识别的请求与导航控制无关,则方法200进行到框224。在框224处,控制器34确定所识别的请求所引用的是哪个控制。为这样做,在框226处,控制器34访问存储先验信息的数据库。
如果在框222处所识别的请求与导航控制命令相关,则方法200进行到框228。在框228处,控制器34确定兴趣点(POI)。特别地,控制器34确定用户想要到达特定的POI(即,所请求的POI)。为这样做,在框230处,控制器34访问存储先验信息的数据库。先验信息包括频繁的POI或附近的POI。如果控制器34确定所请求的POI是频繁的或附近的POI,则方法200进行到框232。除了在最频繁的POI方面的使用历史之外,也应结合主动情境感知。可以在字体、颜色和话音反馈方面强调最近的POI。除了在最频繁的POI方面的使用历史之外,也将结合主动情境感知。可以在字体、颜色和话音反馈方面强调最近的POI。
在框232处,控制器34增加该特定所识别的请求的置信度得分。然而,如果控制器34在框228处确定所请求的POI是新的POI,则方法200进行到框234。在框234处,控制器34降低该特定所识别的请求的置信度得分。然后,方法200进行到框216。显示器29可基于到POI的预计到达时间(ETA)和/或距离来调适文本大小和颜色。
详细描述和附图或图是对本教导的支持性描述,但是本教导的范围仅由权利要求书限定。虽然已详细描述了用于实施本教导的最佳模式和其他实施例中的一些,但是存在用于实践所附权利要求书中定义的本教导的各种替代性设计和实施例。

Claims (10)

1.一种用于文本反馈的方法,其包括:
由控制器接收来自用户的话语;
由所述控制器的自动语音识别引擎基于来自所述用户的所述话语来确定多个语音识别结果,其中,所述语音识别结果包括多个可能的命令;以及
由所述控制器的所述自动语音识别引擎确定用于所述多个语音识别结果中的每一者的多个置信度得分;
由所述控制器根据用于所述多个语音识别结果中的每一者的置信度得分来确定多个可能的命令中的每一者的文本特性;以及
由所述控制器命令显示器示出对应于具有由所述控制器确定的所述文本特性的多个可能的命令中的每一者的文本。
2.根据权利要求1所述的方法,其中,所述控制器基于所述置信度得分根据所述显示器的屏幕大小来确定多个可能的命令中的每一者的大小。
3.根据权利要求2所述的方法,其中,所述控制器基于所述置信度得分根据由所述控制器的所述自动语音识别引擎确定的语音识别结果的数量来确定多个可能的命令中的每一者的所述大小。
4.根据权利要求3所述的方法,其中,所述控制器基于所述置信度得分根据所述多个语音识别结果的所述置信度得分之和来确定多个可能的命令中的每一者的所述大小。
5.根据权利要求1所述的方法,其中,所述文本特性是文本大小。
6.根据权利要求1所述的方法,其中,所述文本特性是文本颜色。
7.根据权利要求1所述的方法,其中,所述文本特性是相对于所述显示器的屏幕的背景颜色的颜色对比度。
8.根据权利要求1所述的方法,其进一步包括响应于确定所述多个语音识别结果而命令扬声器提供关于所述多个语音识别结果的话音反馈。
9.根据权利要求8所述的方法,其进一步包括根据由所述自动语音识别引擎确定的用于所述多个语音识别结果中的每一者的所述多个置信度得分来确定所述多个语音识别结果中的每一者的所述话音反馈的音频音量。
10.根据权利要求9所述的方法,其中,所述多个语音识别结果中的每一者的所述话音反馈的所述音频音量是根据所述扬声器的最大音量和最大置信度得分来确定的。
CN202211207051.2A 2021-10-25 2022-09-30 用于话音助理的智能文本和话音反馈 Pending CN116030805A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/509,306 US11507346B1 (en) 2021-10-25 2021-10-25 Intelligent text and voice feedback for voice assistant
US17/509306 2021-10-25

Publications (1)

Publication Number Publication Date
CN116030805A true CN116030805A (zh) 2023-04-28

Family

ID=84104692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211207051.2A Pending CN116030805A (zh) 2021-10-25 2022-09-30 用于话音助理的智能文本和话音反馈

Country Status (3)

Country Link
US (1) US11507346B1 (zh)
CN (1) CN116030805A (zh)
DE (1) DE102022123185A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US20130241918A1 (en) * 2012-03-13 2013-09-19 Samsung Electronics Co. Ltd. Apparatus and method for centralized application notifications
US9652109B2 (en) * 2013-01-11 2017-05-16 Microsoft Technology Licensing, Llc Predictive contextual toolbar for productivity applications
US9787273B2 (en) * 2013-06-13 2017-10-10 Google Technology Holdings LLC Smart volume control of device audio output based on received audio input

Also Published As

Publication number Publication date
US11507346B1 (en) 2022-11-22
DE102022123185A1 (de) 2023-04-27

Similar Documents

Publication Publication Date Title
US10170111B2 (en) Adaptive infotainment system based on vehicle surrounding and driver mood and/or behavior
CN109086287B (zh) 用于选择自主车辆中的音景选择的系统和方法
EP2586026B1 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
CN108016383B (zh) 自主车辆进出的系统及方法
US11190155B2 (en) Learning auxiliary feature preferences and controlling the auxiliary devices based thereon
US20190219413A1 (en) Personalized roadway congestion notification
US20200257282A1 (en) Vehicle control arbitration
CN110857068A (zh) 车辆用户体验增强
US20230067615A1 (en) Systems and methods for communicating with vision and hearing impaired vehicle occupants
US20230121366A1 (en) Ai based system for warning and managing operations of vehicles at higher speeds
CN112061024A (zh) 车辆外部扬声器系统
US9925867B2 (en) Fuel control regulator system with acoustic pliability
CN115716446A (zh) 用于与视力和听力受损的车辆乘员通信的系统和方法
CN112534499B (zh) 声音对话装置、声音对话系统以及声音对话装置的控制方法
US20230282210A1 (en) System and method for integrating auditory and non-auditory inputs for adaptable speech recognition
US11507346B1 (en) Intelligent text and voice feedback for voice assistant
US20230317072A1 (en) Method of processing dialogue, user terminal, and dialogue system
US11798240B2 (en) System and method for social networking using an augmented reality display
US20230343210A1 (en) Method and system for validating autonomous vehicle performance using nearby traffic patterns
US20230298277A1 (en) System and method for displaying infrastructure information on an augmented reality display
US20230316914A1 (en) System and method for providing platooning information using an augmented reality display
US20210064032A1 (en) Methods and systems for maneuver based driving
US20240217317A1 (en) Active dynamic sun visor and method of operation thereof
US20230360446A1 (en) Vehicle assistance device
US20220201083A1 (en) Platform for integrating disparate ecosystems within a vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination