CN116682424A - 车载语音交互方法、装置、电子设备及存储介质 - Google Patents

车载语音交互方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116682424A
CN116682424A CN202310573507.5A CN202310573507A CN116682424A CN 116682424 A CN116682424 A CN 116682424A CN 202310573507 A CN202310573507 A CN 202310573507A CN 116682424 A CN116682424 A CN 116682424A
Authority
CN
China
Prior art keywords
vehicle
voice
control terminal
interaction
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310573507.5A
Other languages
English (en)
Inventor
周毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority to CN202310573507.5A priority Critical patent/CN116682424A/zh
Publication of CN116682424A publication Critical patent/CN116682424A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本公开提供了一种车载语音交互方法,涉及语音控制技术领域,尤其涉及车载语音交互方法、装置、电子设备及存储介质。具体实现方案为:对车载主机检测到的语音音频进行语音优化处理;根据处理后的语音音频确定目标唤醒对象对应的车载语音控制终端;将处理后的语音音频解析为交互指令,并将交互指令发送给车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令;其中,目标执行端为车载语音控制终端和车载主机中的一个。

Description

车载语音交互方法、装置、电子设备及存储介质
技术领域
本公开涉及语音控制技术领域,尤其涉及车载语音交互方法、装置、电子设备及存储介质。
背景技术
现有安装有车载语音控制软件的车载语音控制终端通过有线或无线的方式连接汽车的车载主机后,能够与汽车进行智能交互,理想情况下,当用户说出包含唤醒词和交互指令的语音,车载语音控制终端能够被唤醒并执行相应的交互指令。但实际的驾车过程中,车载语音控制终端接收到的音频通常包含驾车环境中存在的环境噪音(例如:空调声、音乐声、路面噪音)等,而车载语音控制终端处理语音音频的能力有限,因此导致用户常常无法正常唤醒车载语音控制终端,需要用户手动操作车载语音控制终端,造成行车安全隐患;并且,车载语音控制终端的针对各类型的交互指令的执行能力各不一致,可能不具有执行一些交互指令的能力,因此导致用户的交互指令难以被正确执行。
发明内容
本公开提供了一种用于解决上述技术问题中的至少一项的车载语音交互方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种车载语音交互方法,应用于智能语音系统,所述智能语音系统与车载主机通信连接,所述车载主机还与车载语音控制终端通信连接,所述方法包括:
对所述车载主机检测到的语音音频进行语音优化处理;
根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
根据本公开的另一方面,提供了一种车载语音交互方法,应用于车载主机,所述方法包括:
响应于检测到语音音频,将所述语音音频发送至智能语音系统,所述智能语音系统被配置为对所述车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端,将所述处理后的语音音频解析为交互指令,并将所述交互指令返回;
根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;
其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
根据本公开的另一方面,提供了一种应用在车载语音交互系统的车载语音交互方法,所述车载语音交互系统包括:车载主机、与所述车载主机通信连接的智能语音系统,与所述车载主机通信连接的车载语音控制终端,所述方法包括:
所述车载主机响应于检测到语音音频,将所述语音音频发送至所述智能语音系统;
所述智能语音系统对所述车载主机检测到的语音音频进行语音优化处理;
根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机;
所述车载主机根据预设的交互指令执行能力信息确定所述交互指令的目标执行端;
所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
根据本公开的另一方面,提供了一种车载语音交互装置,所述装置包括:
音频处理模块,用于对所述车载主机检测到的语音音频进行语音优化处理;
唤醒对象确定模块,用于根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
交互指令生成模块,用于将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
根据本公开的另一方面,提供了一种车载语音交互装置,所述装置包括:
音频发送模块,用于响应于检测到语音音频,将所述语音音频发送至智能语音系统,所述智能语音系统被配置为对所述车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端,将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机;
执行能力确定模块,用于根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;
其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执上述方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开一种示例性的应用场景图;
图2是本公开第一实施例提供的车载语音交互方法的流程示意图;
图3是本公开第二实施例提供的车载语音交互方法的流程示意图;
图4是本公开第三实施例提供的车载语音交互方法的流程示意图;
图5是本公开第四实施例提供的应用在车载语音交互系统的车载语音交互方法的流程示意图;
图6是本公开第五实施例提供的车载语音交互装置的结构示意图;
图7是本公开第六实施例提供的车载语音交互装置的结构示意图;
图8是用来实现本公开实施例的车载语音交互方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
相关技术中,安装有车载语音控制软件的车载语音控制终端通过有线或无线的方式连接汽车的车载主机后,能够与汽车进行智能交互,理想情况下,当用户说出包含唤醒词和交互指令的语音,车载语音控制终端能够被唤醒并执行相应的交互指令。但实际的驾车过程中,车载语音控制终端接收到的音频通常包含驾车环境中存在的环境噪音(例如:空调声、音乐声、路面噪音)等,而车载语音控制终端处理语音音频的能力有限,因此导致用户常常无法正常唤醒车载语音控制终端,需要用户手动操作车载语音控制终端,造成行车安全隐患;并且,车载语音控制终端的针对各类型的交互指令的执行能力各不一致,可能不具有执行一些交互指令的能力,因此导致用户的交互指令难以被正确执行。
为了解决相关技术问题,发明人想到在用户使用车载语音控制终端接入车载主机时,将车载语音控制终端通过车载主机接入智能语音系统,采用智能语音系统作为语音音频处理及语义解析的核心,有效增强车载语音控制终端的语音处理能力和交互指令的执行能力,且在该应用场景中,针对各个不同的车载语音控制终端的接入,均能采用本公开提供的方法对车载语音控制终端的语音处理能力和指令执行能力进行补足,使得用户的语音交互指令能够被准确解析并执行,提高了车载语音交互的可靠性。
参见图1,图1示出本公开的一种应用场景,该应用场景内包含车载主机1,与车载主机1通信连接的智能语音系统2,与车载主机1通信连接的车载语音控制终端3,还包括与车载主机1连接的收音设备4。其中,车载主机1为汽车自身配置的核心控制系统,车载主机1连接汽车内的各个可交互设备、导航设备、影音设备等,具有多个接口可以与外部服务器或装置连接;智能语音系统2为具有语音交互功能的人工智能(Artificial Intelligence,AI)系统,其能够采用神经网络对输入的语音音频进行语音优化(例如:降噪、增强等)和语义识别等,智能语音系统2可以预装在车载主机1内,也可以通过外部设备连接,在此不做限定;车载语音控制终端3为安装了车载语音控制软件的终端设备,车载语音控制终端3能够通过有线或无线的方式接入车载主机,用户能够通过指定的唤醒词唤醒车载语音控制终端3并说出交互指令,使车载语音控制终端3执行交互指令与车内部分交互对象进行交互。收音设备4可以为车内收音设备(例如:车内麦克风),也可以为车载语音控制终端3的收音设备(例如:终端话筒),在此不做限定。
本公开提供的车载语音交互方法、装置、电子设备及存储介质,旨在解决现有技术的如上技术问题中的至少一个。
根据本公开的车载语音交互方法可以由终端设备或服务器等电子设备执行,终端设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行本公开提供的车载语音交互方法。
在公开第一实施例中,参见图2,图2示出本公开第一实施例提供的一种车载语音交互方法的流程图。该方法应用在车载语音交互场景(例如图1所示的交互场景)中包含的智能语音系统一侧,车载语音交互场景中还包括与智能语音系统通信连接的车载主机、与车载主机通信连接的车载语音控制终端,该方法包括:
S101、对车载主机检测到的语音音频进行语音优化处理。
在车载主机检测到车载语音控制终端接入车载主机的情况下,将车载语音控制终端的收音通道切换为车载主机的收音通道,换言之,将输入车载语音控制终端的语音音频切换为输入车载主机,车载主机再将接收到的语音音频发送给智能语音系统。基于此,车载主机持续对车内声音进行采集检测,在车载主机检测到车内用户说出语音音频时(也即车载主机连接的收音设备接收到语音音频时),将语音音频发送给智能语音系统,语音智能系统采用自身的语音处理模块对语音音频进行语音优化处理,语音优化处理的目的为让采集到的语音音频的人声更清晰,即提高音频质量,其中,语音智能系统的语音处理模块可以是传统降噪模块也可以为AI降噪模型,在此不做限制;语音优化处理包括以下至少一项:降噪处理、压缩处理、增强处理等。
S102、根据处理后的语音音频确定语音音频的目标唤醒对象对应的车载语音控制终端。
车载主机会接收到各个类型的语音音频,且车载主机会将各个语音音频都发送给智能语音系统进行语音优化处理,以识别语音内容,在这其中,可以识别语音音频中包含的唤醒词,再根据唤醒词是窦唯车载语音控制终端的唤醒词,来确定目标唤醒对象是否为车载语音控制终端,采用这种方式能够筛选出针对车载语音控制终端的语音音频。
S103、将处理后的语音音频解析为交互指令,并将交互指令发送给车载主机,车载主机被配置为根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令。
其中,目标执行端为车载语音控制终端和车载主机中的一个。
智能语音系统通过将语音音频优化处理后,得到清晰低噪的语音音频,再对语音音频进行识别,将语音音频转换为识别文本,再对识别文本进行语义解析,确定目标唤醒对象,针对目标唤醒对像为车载语音控制终端的语音音频,进一步解析出交互指令的部分,根据交互指令部分确定目标交互对象(即要交互的车内设备)和与目标交互对象对应的交互操作(即要对车内设备执行的操作),以解析处的结果生成交互指令,将交互指令发送给车载主机,车载主机再对交互指令进行分配,确定交互指令的目标执行端(车载语音控制终端或车载主机)。
在一些示例中,若目标唤醒对象非车载语音控制终端,则智能语音系统将处理后的语音音频转换为识别文本,对识别文本进行语义解析,根据语义解析结果确定语音音频是否为交互语音信息;若为交互语音信息,则确定交互语音信息对应的交互指令,将交互指令发送给相应的指令执行端(例如:车载主机)去执行交互指令;若非交互语音信息,则确定本次接收的语音音频为无效语音音频。
采用这种方式,在用户使用车载语音控制终端接入车载主机时,将车载语音控制终端通过车载主机接入智能语音系统,采用智能语音系统作为语音音频处理及语义解析的核心,有效增强车载语音控制终端的语音处理能力和交互指令的执行能力,且在该应用场景中,针对各个不同的车载语音控制终端的接入,均能采用本公开提供的方法对车载语音控制终端的语音处理能力和指令执行能力进行补足,使得用户的语音交互指令能够被准确解析并执行,提高了车载语音交互的可靠性。
在公开第二实施例中,参见图3,图3示出本公开第二实施例提供的一种车载语音交互方法的流程图。该方法应用在智能语音系统一侧,该方法包括:
S201、接收车载主机响应于检测到车载语音控制终端接入所发送的控制终端接入通知信息。
在车载主机检测到车载语音控制终端连接车载主机时,车载主机会给智能语音系统发送控制终端接入通知信息,以通知智能语音系统车载语音控制终端已连接车载主机。
S202、根据控制终端接入通知信息中包含的车载语音控制终端标识,在自身的唤醒词列表中启用预设的与车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
智能语音系统自身具有语音唤醒功能,因此只能语音系统配置有唤醒词列表,其中包含一个或多个用于唤醒自身或其他设备的唤醒词,针对车载语音控制终端,智能语音系统中预先配置了一组或多组呈映射关系的车载语音控制终端标识和车载语音控制终端唤醒词(即不同的车载语音控制终端具有不同的车载语音控制终端唤醒词),当车载语音控制终端接入车载主机后,智能语音系统根据车载主机告知的车载语音控制终端标识,从预先配置的一组或多组呈映射关系的上述标识和上述唤醒词中,确定与当前的车载语音控制终端标识相匹配的车载语音控制终端唤醒词,并在自身设置的唤醒词列表中启用与当前的车载语音控制终端标识相匹配的车载语音控制终端唤醒词,后续能够通过该车载语音控制终端唤醒词被唤醒并确定与车载语音控制终端唤醒词相匹配的目标唤醒对象(即车载语音控制终端)。
相应的,在一些实现方式中,本公开提供的方法还包括:
步骤一、接收车载主机响应于检测到车载语音控制终端断开连接所发送的控制终端断开通知信息;
步骤二、响应于控制终端断开通知信息,在自身的唤醒词列表中禁用车载语音控制终端唤醒词。
同理,当车载语音控制终端从车载主机上断开后,车载主机会给智能语音系统发送控制终端断开通知信息,以通知智能语音系统车载语音控制终端从车载主机断开,从而可以禁用该车载语音控制终端的车载语音控制终端唤醒词,以避免智能语音系统被频繁唤醒。
采用上述方式,能够灵活调整对应智能语音系统的唤醒词,使智能语音系统能够识别不同的车载语音控制终端的唤醒词,以适应各个不同的车载语音控制终端的语音唤醒功能。
需要说明的是,步骤一和步骤二为可省略步骤,在一些方法中可以不执行步骤一和步骤二,将车载语音控制终端唤醒词始终保持激活状态。
S203、接收车载主机检测到并发送的语音音频,对语音音频进行语音优化处理。
语音优化处理包括以下至少一项:降噪处理、压缩处理、增强处理等。以语音优化处理为降噪处理为例,S203具体包括如下步骤:
子步骤一:对语音音频和参考信号进行回声消除(AEC)处理;
子步骤二:将经过回声消除处理后的语音音频和参考信号经过混响,生成混响信号,并对混响信号进行声源定位和语音增强处理;
子步骤三:对混响信号进行解混响,得到初步优化后的语音音频;
子步骤四:对初步优化后的语音音频进行噪声抑制处理,并通过语音活动性检测(VAD)确定初步优化后的语音音频中人声的起点和尾点,得到人声部分音频;
子步骤五:对人声部分音频进行信号增益处理,得到处理后的语音音频。
S204、确定处理后的语音音频中包含的车载语音控制终端唤醒词。
S205、根据车载语音控制终端唤醒词确定目标唤醒对象为车载语音控制终端。
基于上述S201和S202,智能语音系统能够启用并识别车载语音控制终端对应的车载语音控制终端唤醒词,从而对语音音频转换的识别文本进行识别以确定本次接收的语音音频是否包含车载语音控制终端唤醒词,若包含,则确定本次接收到语音音频是针对车载语音控制终端的语音音频,后续进一步进行交互指令部分的识别。
需要说明的是,S204和S205为公开实施例一中的S102的一种实现方式,S102还具有其他实现方式,在此不做限定。
S206、对处理后的语音音频进行语音识别,得到识别文本。
S207、对识别文本进行语义解析,确定识别文本中的唤醒词部分和交互指令部分。
S208、根据唤醒词部分确定目标唤醒对象,根据交互指令部分确定目标交互对象和与目标交互对象对应的交互操作。
S209、根据目标唤醒对象、目标交互对象和交互操作生成交互指令,并将交互指令发送给车载主机,车载主机被配置为根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令。
智能语音系统通过语音识别引擎将语音音频转换为文字(即识别文本),再通过语义解析模型,对识别文本进行特征提取和语义理解,提取出唤醒词部分和交互指令部分,唤醒词部分包括针对目标对象的唤醒词(例如:车载语音控制终端唤醒词),通过车载语音控制终端唤醒词能够确定目标唤醒对象(例如:车载语音控制终端);交互指令部分包括:目标交互对象标识和与目标交互对象标识相对应的交互操作信息,通过目标交互对象标识能够确定要执行交互操作的目标交互对象,根据交互操作信息能够确定具体地针对目标交互对象的交互操作;获取并理解上部分信息后,智能语音系统生成包含目标唤醒对象、目标交互对象和交互操作的交互指令,并将交互指令发送给车载主机,车载主机通过目标唤醒对象确定当前接收的交互指令是针对车载语音控制终端的交互指令,基于此,车载主机进一步根据目标交互对应和交互操作,与预先获取的车载语音控制终端的交互指令执行能力信息进行比较,确定车载语音控制终端是否具有与交互指令相匹配的执行能力,若具有,则将当前接收的交互指令发送给车载语音控制终端去执行,若不具,则车载主机进一步判断自身是否具有执行当前的交互指令的执行能力,若车载主机具有执行能力,则使自身执行当前的交互指令。采用这种方式,车载主机与智能语音系统联动,采用车载主机的执行调研能力补足车载语音控制终端的执行能力,以有效提高用户的交互指令的执行成功率。
其中,交互对象(包括目标交互对象)包括车载主机连接的车内的各个可交互对象,例如:空调设备、影音设备、座椅设备、导航设备等;交互操作包括可针对各个可交互对象执行的操作,例如:开关空调操作、调节音量操作、播放视频操作、调节座椅操作、导航执行操作等。
其中,智能语音系统需要获知车载主机对应的汽车所具备的交互对象和交互操作,以便在后续识别并生成包含交互对象和交互操作的交互指令,具体地,智能语音系统通过如下方式获得:
步骤一、向车载主机发送车型请求信息。
步骤二、接收车载主机响应于车型请求信息反馈的、与车载主机相匹配的车型信息,并根据车型信息确定车载主机包含的各个交互对象和每个交互对象对应的交互操作。
需要说明的是,步骤一和步骤二可以在S203之前的任意步骤执行,在此不做限定。换言之,在进行语音识别之前,先向车载主机请求车载主机对应的汽车的车型信息,根据车型信息,可以通过在线搜索匹配的方式确定车载主机包含的各个交互对象和每个交互对象对应的交互操作;智能语音系统也可以在本地预先配置各个车型信息的交互对象和相应的交互操作的交互信息,在步骤二中通过查找交互信息的方式获取车载主机包含的各个交互对象和每个交互对象对应的交互操作。
需要说明的是,S206-S209为公开实施例一中S103的一种实现方式,S103还具有其他实现方式,在此不做限定。
S2010、接收目标执行端反馈的执行完成消息,并生成对应的执行完成播报语音,将执行完成播报语音发送给车载语音控制终端进行语音播报。
在一些实例中,S2010包括以下子步骤:
子步骤一、接收车载主机发送的、目标执行端执行交互指令后反馈的执行完成消息。
子步骤二、根据执行完成消息生成与之对应的执行完成播报文本。
子步骤三、将执行完成播报文本转换为执行完成播报语音,并将执行完成播报语音发送给车载主机,以使车载主机将执行完成播报语音发送给车载语音控制终端进行语音播报。
目标执行端(以车载语音控制终端为例)在完成交互指令后,向车载主机反馈执行完成消息,车载系统将执行完成消息转发给智能语音系统,执行完成消息中包含目标交互对象标识和交互操作信息,智能语音系统根据目标交互对象标识和交互操作信息生成与本次交互指令相匹配的执行完成播报文本,再将执行完成播报文本转换成执行完成播报语音,换言之,智能语音系统根据执行完成消息将文本转换成语音,生成文本转换语音(TextTo Speech,TTS)信息,TTS信息即执行完成播报语音,智能语音系统并、将TTS信息发送给车载主机,车载主机再将执行完成播报语音转发给车载语音控制终端进行播报,通过调用智能语言系统的TTS功能,生成执行完成播报语音进行播报,以增加车载语音交互的交互性。
在公开第三实施例中,参见图4,图4示出本公开第三实施例提供的一种车载语音交互方法的流程图。该方法应用在车载主机一侧,该方法包括:
S301、响应于检测到语音音频,将语音音频发送至智能语音系统,智能语音系统被配置为对车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定语音音频的目标唤醒对象对应的车载语音控制终端,将处理后的语音音频解析为交互指令,并将交互指令发送给车载主机。
车载主机检测到车载语音控制终端接入车载主机的情况下,将车载语音控制终端的收音通道切换为车载主机的收音通道,换言之,将输入车载语音控制终端的语音音频切换为输入车载主机,车载主机再将接收到的语音音频发送给智能语音系统。基于此,车载主机持续对车内声音进行采集检测,在车载主机检测到车内用户说出语音音频时(也即车载主机连接的收音设备接收到语音音频时),将语音音频发送给智能语音系统,语音智能系统采用自身的语音处理模块对语音音频进行语音优化处理,别语音音频中包含的唤醒词,再根据唤醒词是窦唯车载语音控制终端的唤醒词,来确定目标唤醒对象是否为车载语音控制终端,采用这种方式能够筛选出针对车载语音控制终端的语音音频。
进一步地,智能语音系统通过将语音音频优化处理后,得到清晰低噪的语音音频,再对语音音频进行识别,将语音音频转换为识别文本,再对识别文本进行语义解析,确定目标唤醒对象,针对目标唤醒对像为车载语音控制终端的语音音频,进一步解析出交互指令的部分,根据交互指令部分确定目标交互对象(即要交互的车内设备)和与目标交互对象对应的交互操作(即要对车内设备执行的操作),以解析处的结果生成交互指令,将交互指令发送给车载主机,车载主机再对交互指令进行分配。
进一步地,智能语音系统需要获知车载主机对应的汽车所具备的交互对象和交互操作,以便在上述步骤中识别并生成包含交互对象和交互操作的交互指令,具体地,通过如下方式使智能语音系统获得上述信息:
响应于智能语音系统发送的车型请求信息,向智能语音系统发送自身的车型信息,以使智能语音系统接收车型信息,并根据车型信息确定车载主机包含的各个交互对象和每个交互对象对应的交互操作。
也就是说,在进行语音识别之前,先向车载主机请求车载主机对应的汽车的车型信息,根据车型信息,可以通过在线搜索匹配的方式确定车载主机包含的各个交互对象和每个交互对象对应的交互操作;智能语音系统也可以在本地预先配置各个车型信息的交互对象和相应的交互操作的交互信息,在步骤二中通过查找交互信息的方式获取车载主机包含的各个交互对象和每个交互对象对应的交互操作。
需要说明的是,该步骤可在S301之前的任一步骤执行,在此不做限定。
其中,智能语音系统根据处理后的语音音频确定语音音频的目标唤醒对象是否为车载语音控制终端,包括:确定处理后的语音音频中包含的车载语音控制终端唤醒词;根据车载语音控制终端唤醒词确定目标唤醒对象为车载语音控制终端。
在车载语音控制终端接入车载主机后,智能语音系统启用车载语音控制终端的车载语音控制终端唤醒词,具体地,在S301之前,本方法还包括:
步骤一、响应于检测到车载语音控制终端接入,获取车载语音控制终端的车载语音控制终端标识。
步骤一、向智能语音系统发送包含车载语音控制终端标识的控制终端接入通知信息,以使智能语音系统根据控制终端接入通知信息中包含的车载语音控制终端标识,在智能语音系统的唤醒词列表中启用预设的与车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
在车载主机检测到车载语音控制终端连接车载主机时,车载主机会获取车载语音控制终端的标识,并根据标识生成控制终端接入通知信息,再向智能语音系统发送控制终端接入通知信息,以通知智能语音系统车载语音控制终端已连接车载主机。
智能语音系统自身具有语音唤醒功能,因此只能语音系统配置有唤醒词列表,其中包含一个或多个用于唤醒自身或其他设备的唤醒词,针对车载语音控制终端,智能语音系统中预先配置了一组或多组呈映射关系的车载语音控制终端标识和车载语音控制终端唤醒词(即不同的车载语音控制终端具有不同的车载语音控制终端唤醒词),当车载语音控制终端接入车载主机后,智能语音系统根据车载主机告知的车载语音控制终端标识,从预先配置的一组或多组呈映射关系的上述标识和上述唤醒词中,确定与当前的车载语音控制终端标识相匹配的车载语音控制终端唤醒词,并在自身设置的唤醒词列表中启用与当前的车载语音控制终端标识相匹配的车载语音控制终端唤醒词,后续能够通过该车载语音控制终端唤醒词被唤醒并确定与车载语音控制终端唤醒词相匹配的目标唤醒对象(即车载语音控制终端)。
相应的,在一些实现方式中,本公开提供的方法还包括:
步骤一、响应于检测到车载语音控制终端断开连接,向智能语音系统发送控制终端断开通知信息,使智能语音系统响应于控制终端断开通知信息,在智能语音系统的唤醒词列表中禁用车载语音控制终端唤醒词。
同理,当车载语音控制终端从车载主机上断开后,车载主机会给智能语音系统发送控制终端断开通知信息,以通知智能语音系统车载语音控制终端从车载主机断开,从而可以禁用该车载语音控制终端的车载语音控制终端唤醒词,以避免智能语音系统被频繁唤醒。
需要说明的是,步骤一为可省略步骤,在一些方法中可以不执行步骤一,将车载语音控制终端唤醒词始终保持激活状态。
S302、根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令。
其中,目标执行端为车载语音控制终端和车载主机中的一个。
在S301之前,车载主机需要获取车载语音控制终端的交互指令执行能力信息,以便后续判断车载语音控制终端是否具有执行交互指令的执行能力,其中,交互指令执行能力信息可以通过以下方式获得:
步骤A、响应于检测到车载语音控制终端接入,向车载语音控制终端发送执行能力请求消息,使车载语音控制终端响应于执行能力请求消息向车载主机发送车载语音控制终端的交互指令执行能力信息。
步骤B、接收车载语音控制终端的交互指令执行能力信息。
其中,交互指令执行能力信息包括车载语音控制终端能够控制的可控交互对象(例如:导航设备、影音设备)和与可控交互对象对应的可控交互操作(例如:导航操作和调节音量操作)。车载主机保存车载语音控制终端的交互指令执行能力信息。
需要说明的是,步骤A和步骤B可以在S301之前的任一步骤执行,在此不做限定。
其中,S302具体包括:
S3021、根据预设的交互指令执行能力信息确定车载语音控制终端是否具有与交互指令相匹配的执行能力;
具体地,交互指令包括:目标唤醒对象、目标交互对象和与目标交互对象对应的交互操作,S3021包括以下子步骤:
子步骤一、根据交互指令执行能力信息,验证目标交互对象是否为车载语音控制终端的可控交互对象。
子步骤二、若目标交互对象为车载语音控制终端的可控交互对象,则根据交互指令执行能力信息,验证与目标交互对象对应的交互操作是否为与可控交互对象对应的可控交互操作。
子步骤三、根据验证结果确定车载语音控制终端是否具有与交互指令相匹配的执行能力。
首先通过交互指令包含的目标唤醒对象,确定目标唤醒对象为车载语音控制终端,再调用根据上述步骤A和步骤B获取的车载语音控制终端的交互指令执行能力信息,根据交互指令执行能力信息包含的可控交互对象确定当前接收的交互指令包含的目标交互对象是否为车载语音控制终端的可控交互对象,再根据交互指令执行能力信息包含的可控交互操作确定当前接收的交互指令包含的交互操作是否为车载语音控制终端的可控交互操作,若确定当前的目标交互对象为可控交互对象且当前的交互操作为可控交互操作,则能够确定车载语音控制终端具有与交互指令相匹配的执行能力,若其中一项不满足,则车载语音控制终端不具有与交互指令相匹配的执行能力。
S3022A1、若车载语音控制终端具有与交互指令相匹配的执行能力,则确定车载语音控制终端为目标执行端。
S3022B1、若车载语音控制终端不具有与交互指令相匹配的执行能力,则车载主机确定自身是否具有与交互指令相匹配的执行能力。
S3022B2、若车载主机确定自身具有与交互指令相匹配的执行能力,则确定自身为目标执行端。
基于S3022A1的情况下,S302后,该方法还包括:
S303A、将交互指令发送给车载语音控制终端,使车载语音控制终端执行交互执行。
基于S3022B1的情况下,S302后,该方法还包括:
S303B、执行交互指令。
在确定车载语音控制终端具备执行能力的情况下,将交互指令转发至车载语音控制终端,使车载语音控制终端根据交互指令中的目标交互对象确定要交互的交互对象,再根据交互指令中包含的交互操作与交互对象交互。若确定车载语音控制终端不具备执行交互指令的执行能力,则调用车载主机的执行能力,车载主机确定自身的可控交互对象中是否包含当前交互指令中的目标交互对象,并进一步确定自身的可控交互操作是否包含当前交互指令中的交互操作,若二者的满足,则执行交互指令。通过这种方式,采用车载主机的执行能力补足车载语音控制终端的执行能力的不足,以增加车载语音互动的执行成功率。
在S3031后,本方法还包括:
步骤一、将目标执行端执行交互指令后反馈的执行完成消息发送给智能语音系统,以使智能语音系统接收执行完成消息,根据执行完成消息生成与之对应的执行完成播报文本,将执行完成播报文本转换为执行完成播报语音,并将执行完成播报语音发送给车载主机;
步骤二、将执行完成播报语音发送给车载语音控制终端,以使车载语音控制终端根据执行完成播报语音进行语音播报。
需要说明的是,步骤一和步骤二为可省略步骤,在一些示例中可不进行语音播报,在此不做限定。
若目标执行端为车载语音控制终端,车载语音控制终端在完成交互指令后,向车载主机反馈执行完成消息,车载系统将执行完成消息转发给智能语音系统;若目标执行端为车载主机,车载主机在完成交互指令后生成执行完成消息并发送给智能语音系统,执行完成消息中包含目标交互对象标识和交互操作信息,智能语音系统根据目标交互对象标识和交互操作信息生成与本次交互指令相匹配的执行完成播报文本,再将执行完成播报文本转换成执行完成播报语音,换言之,智能语音系统根据执行完成消息将文本转换成语音,生成文本转换语音(Text To Speech,TTS)信息,TTS信息即执行完成播报语音,智能语音系统并、将TTS信息发送给车载主机,车载主机再将执行完成播报语音转发给车载语音控制终端进行播报,通过调用智能语言系统的TTS功能,生成执行完成播报语音进行播报,以增加车载语音交互的交互性。
在公开第四实施例中,以下以一个三端交互的具体实施例说明本公开提供的车载语音交互方法的流程,参见图5,图5示出本公开第四实施例提供的一种应用在车载语音交互系统的车载语音交互方法的流程图。该方法包括:
S401、车载主机响应于检测到语音音频,将语音音频发送至智能语音系统。
在S401之前,本方法还包括:
车载主机响应于检测到车载语音控制终端接入,向智能语音系统发送控制终端接入通知信息;
智能语音系统根据控制终端接入通知信息中包含的车载语音控制终端标识,在自身的唤醒词列表中启用预设的与车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
S402、智能语音系统对车载主机检测到的语音音频进行语音优化处理;
S403、根据处理后的语音音频确定语音音频的目标唤醒对象对应的车载语音控制终端。
S403具体包括:
确定处理后的语音音频包含的车载语音控制终端唤醒词。
根据车载语音控制终端唤醒词确定目标唤醒对象为车载语音控制终端。
S404、将处理后的语音音频解析为交互指令,并将交互指令发送给车载主机。
S404具体包括:
对处理后的语音音频进行语音识别,得到识别文本。
对识别文本进行语义解析,确定识别文本中的唤醒词部分和交互指令部分。
根据唤醒词部分确定目标唤醒对象,根据交互指令部分确定目标交互对象和与目标交互对象对应的交互操作。
根据目标唤醒对象、目标交互对象和交互操作生成交互指令,并将交互指令发送给车载主机。
S405、车载主机根据预设的交互指令执行能力信息确定交互指令的目标执行端。
S406、目标执行端执行交互指令。
S406之后,本方法还包括:
目标执行端向车载主机反馈执行完成消息;
车载主机将执行完成消息发送给智能语音系统,智能语音系统根据执行完成消息生成与之对应的执行完成播报文本,并将执行完成播报文本转换为执行完成播报语音,并将执行完成播报语音发送给车载主机;
车载主机将执行完成播报语音转发给车载语音控制终端;
车载语音控制终端根据执行完成播报语音进行语音播报。
在公开第五实施例中,基于与图2中所示的方法相同的原理,图6示出了本公开实施例提供的一种车载语音交互装置的结构示意图,如图6所示,该装置60可以包括:
音频处理模块601,用于对车载主机检测到的语音音频进行语音优化处理;
唤醒对象确定模块602,用于根据处理后的语音音频确定语音音频的目标唤醒对象是否为车载语音控制终端;
交互指令生成模块603,用于将处理后的语音音频解析为交互指令,并将交互指令发送给车载主机,车载主机被配置为根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令;其中,目标执行端为车载语音控制终端和车载主机中的一个。
在一些实例中,该装置还包括:
接入通知接收模块,用于接收车载主机响应于检测到车载语音控制终端接入所发送的控制终端接入通知信息;
唤醒词启用模块,用于根据控制终端接入通知信息中包含的车载语音控制终端标识,在自身的唤醒词列表中启用预设的与车载语音控制终端标识相匹配的车载语音控制终端唤醒词;
唤醒对象确定模块602具体用于:
确定处理后的语音音频中是否包含车载语音控制终端唤醒词;
若是,则确定目标唤醒对象为车载语音控制终端。
在一些示例中,该装置还包括:
断开通知接收模块,用于接收车载主机响应于检测到车载语音控制终端断开连接所发送的控制终端断开通知信息;
唤醒词禁用模块,用于响应于控制终端断开通知信息,在自身的唤醒词列表中禁用车载语音控制终端唤醒词。
在一些示例中,交互指令生成模块603具体用于:
对处理后的语音音频进行语音识别,得到识别文本;
对识别文本进行语义解析,确定识别文本中的唤醒词部分和交互指令部分;
根据唤醒词部分确定目标唤醒对象,根据交互指令部分确定目标交互对象和与目标交互对象对应的交互操作;
根据目标唤醒对象、目标交互对象和交互操作生成交互指令,并将交互指令发送给车载主机。
在一些示例中,该装置还包括:
请求发送模块,用于向车载主机发送车型请求信息;
车型信息模块,用于接收车载主机响应于车型请求信息反馈的、与车载主机相匹配的车型信息,并根据车型信息确定车载主机包含的各个交互对象和每个交互对象对应的交互操作。
在一些示例中,该装置还包括:
执行接收模块,用于接收车载主机发送的、目标执行端执行交互指令后反馈的执行完成消息;
文本生成模块,用于根据执行完成消息生成与之对应的执行完成播报文本;
语音生成模块,用于将执行完成播报文本转换为执行完成播报语音,并将执行完成播报语音发送给车载主机,以使车载主机将执行完成播报语音发送给车载语音控制终端进行语音播报。
在一些示例中,其中,语音优化处理包括:降噪处理。音频处理模块601具体用于:
对语音音频和参考信号进行回声消除处理;
将经过回声消除处理后的语音音频和参考信号经过混响,生成混响信号,并对混响信号进行声源定位和语音增强处理;
对混响信号进行解混响,得到初步优化后的语音音频;
对初步优化后的语音音频进行噪声抑制处理,并通过语音活动性检测确定初步优化后的语音音频中人声的起点和尾点,得到人声部分音频;
对人声部分音频进行信号增益处理,得到处理后的语音音频。
在公开第六实施例中,基于与图4中所示的方法相同的原理,图7示出了本公开实施例提供的一种车载语音交互装置的结构示意图,如图7所示,该测试装置70可以包括:
音频发送模块701,用于响应于检测到语音音频,将语音音频发送至智能语音系统,使智能语音系统接对车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定语音音频的目标唤醒对象是否为车载语音控制终端,在确定是的情况下,将处理后的语音音频解析为交互指令,并将交互指令返回;
执行能力确定模块702,用于根据预设的交互指令执行能力信息确定交互指令的目标执行端,以使目标执行端执行交互指令;
其中,目标执行端为车载语音控制终端和车载主机中的一个。
在一些示例中,该装置还包括:
标识获取模块,用于响应于检测到车载语音控制终端接入,获取车载语音控制终端的车载语音控制终端标识;
通知发送模块,用于向智能语音系统发送包含车载语音控制终端标识的控制终端接入通知信息,以使智能语音系统根据控制终端接入通知信息中包含的车载语音控制终端标识,在智能语音系统的唤醒词列表中启用预设的与车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
在一些示例中,该装置还包括:
断开通知发送模块,用于响应于检测到车载语音控制终端断开连接,向智能语音系统发送控制终端断开通知信息,使智能语音系统响应于控制终端断开通知信息,在智能语音系统的唤醒词列表中禁用车载语音控制终端唤醒词。
在一些示例中,执行能力确定模块702具体包括:
能力确定子模块,用于根据预设的交互指令执行能力信息确定车载语音控制终端是否具有与交互指令相匹配的执行能力;
第一执行端确定子模块,用于若是,则确定车载语音控制终端为目标执行端。
在一些示例中,执行能力确定模块702还包括:
第二执行端确定子模块,用于若否,则确定自身是否具有与交互指令相匹配的执行能力;
若是,则确定自身为目标执行端。
在一些示例中,该装置还包括:
执行能力请求模块,用于响应于检测到车载语音控制终端接入,向车载语音控制终端发送执行能力请求消息,使车载语音控制终端响应于执行能力请求消息向车载主机发送车载语音控制终端的交互指令执行能力信息;
执行能力信息接收模块,用于接收车载语音控制终端的交互指令执行能力信息,其中,交互指令执行能力信息包括车载语音控制终端能够控制的可控交互对象和与可控交互对象对应的可控交互操作。
在一些示例中,交互指令包括:目标唤醒对象、目标交互对象和与目标交互对象对应的交互操作;能力确定子模块具体用于:
在确定目标唤醒对象为车载语音控制终端的情况下,根据交互指令执行能力信息,验证目标交互对象是否为车载语音控制终端的可控交互对象;
若是,则根据交互指令执行能力信息,验证与目标交互对象对应的交互操作是否为与可控交互对象对应的可控交互操作;
根据验证结果确定车载语音控制终端是否具有与交互指令相匹配的执行能力。
在一些示例中,该装置还包括:
车型请求信息发送模块,用于响应于智能语音系统发送的车型请求信息,向智能语音系统发送自身的车型信息,以使智能语音系统接收车型信息,并根据车型信息确定车载主机包含的各个交互对象和每个交互对象对应的交互操作。
在一些示例中,该装置还包括:
执行完成消息接收模块,用于接收目标执行端执行交互指令后反馈的执行完成消息,并将执行完成消息发送给智能语音系统,以使智能语音系统接收执行完成消息,根据执行完成消息生成与之对应的执行完成播报文本,将执行完成播报文本转换为执行完成播报语音,并将执行完成播报语音发送给车载主机;
语音转发模块,用于将执行完成播报语音发送给车载语音控制终端,以使车载语音控制终端根据执行完成播报语音进行语音播报。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如车载语音交互方法。例如,在一些实施例中,车载语音交互方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的车载语音交互方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行车载语音交互方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种车载语音交互方法,应用于智能语音系统,所述智能语音系统与车载主机通信连接,所述车载主机还与车载语音控制终端通信连接,所述方法包括:
对所述车载主机检测到的语音音频进行语音优化处理;
根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
2.根据权利要求1所述的方法,其中,所述对所述车载主机检测到的语音音频进行语音优化处理之前,所述方法还包括:
接收所述车载主机响应于检测到所述车载语音控制终端接入所发送的控制终端接入通知信息;
根据所述控制终端接入通知信息中包含的车载语音控制终端标识,在自身的唤醒词列表中启用预设的与所述车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
3.根据权利要求2所述的方法,其中,所述根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端,包括:
确定所述处理后的语音音频中包含的所述车载语音控制终端唤醒词;
根据所述车载语音控制终端唤醒词确定所述目标唤醒对象对应的所述车载语音控制终端。
4.根据权利要求2或3所述的方法,其中,所述方法还包括:
接收所述车载主机响应于检测到所述车载语音控制终端断开连接所发送的控制终端断开通知信息;
响应于所述控制终端断开通知信息,在自身的唤醒词列表中禁用所述车载语音控制终端唤醒词。
5.根据权利要求1-4任一所述的方法,其中,将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,包括:
对所述处理后的语音音频进行语音识别,得到识别文本;
对所述识别文本进行语义解析,确定所述识别文本中的唤醒词部分和交互指令部分;
根据所述唤醒词部分确定所述目标唤醒对象,根据所述交互指令部分确定目标交互对象和与所述目标交互对象对应的交互操作;
根据所述目标唤醒对象、所述目标交互对象和所述交互操作生成所述交互指令,并将所述交互指令发送给所述车载主机。
6.根据权利要求5所述的方法,其中,所述对所述车载主机检测到的语音音频进行语音优化处理之前,所述方法还包括:
向所述车载主机发送车型请求信息;
接收所述车载主机响应于所述车型请求信息反馈的、与所述车载主机相匹配的车型信息,并根据所述车型信息确定所述车载主机包含的各个交互对象和每个所述交互对象对应的交互操作。
7.根据权利要求1-6任一所述的方法,其中,所述将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令之后,所述方法还包括:
接收所述车载主机发送的、所述目标执行端执行所述交互指令后反馈给的执行完成消息;
根据所述执行完成消息生成与之对应的执行完成播报文本;
将所述执行完成播报文本转换为执行完成播报语音,并将所述执行完成播报语音发送给所述车载主机,以使所述车载主机将所述执行完成播报语音发送给所述车载语音控制终端进行语音播报。
8.根据权利要求1-7任一所述的方法,其中,所述语音优化处理包括:降噪处理;所述对所述车载主机检测到的语音音频进行语音优化处理,包括:
对所述语音音频和参考信号进行回声消除处理;
将经过回声消除处理后的所述语音音频和所述参考信号经过混响,生成混响信号,并对所述混响信号进行声源定位和语音增强处理;
对混响信号进行解混响,得到初步优化后的语音音频;
对所述初步优化后的语音音频进行噪声抑制处理,并通过语音活动性检测确定所述初步优化后的语音音频中人声的起点和尾点,得到人声部分音频;
对所述人声部分音频进行信号增益处理,得到所述处理后的语音音频。
9.一种车载语音交互方法,应用于车载主机,所述方法包括:
响应于检测到语音音频,将所述语音音频发送至智能语音系统,所述智能语音系统被配置为对所述车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端,将所述处理后的语音音频解析为交互指令,并将所述交互指令返回;
根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;
其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
10.根据权利要求9所述的方法,其中,所述响应于检测到语音音频,将所述语音音频发送至所述智能语音系统之前,所述方法还包括:
响应于检测到所述车载语音控制终端接入,获取所述车载语音控制终端的车载语音控制终端标识;
向所述智能语音系统发送包含车载语音控制终端标识的控制终端接入通知信息,以使所述智能语音系统根据所述控制终端接入通知信息中包含的车载语音控制终端标识,在所述智能语音系统的唤醒词列表中启用预设的与所述车载语音控制终端标识相匹配的车载语音控制终端唤醒词。
11.根据权利要求10所述的方法,其中,所述方法还包括:
响应于检测到所述车载语音控制终端断开连接,向所述智能语音系统发送控制终端断开通知信息,使所述智能语音系统响应于所述控制终端断开通知信息,在所述智能语音系统的唤醒词列表中禁用所述车载语音控制终端唤醒词。
12.根据权利要求9-11任一所述的方法,其中,所述根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,包括:
根据所述预设的交互指令执行能力信息确定所述车载语音控制终端是否具有与所述交互指令相匹配的执行能力;
若是,则确定所述车载语音控制终端为所述目标执行端。
13.根据权利要求12所述的方法,其中,所述若是,则确定所述车载语音控制终端为所述目标执行端之后,还包括:
若否,则确定自身是否具有与所述交互指令相匹配的执行能力;
若是,则确定自身为所述目标执行端。
14.根据权利要求12或13所述的方法,其中,所述交互指令包括:目标唤醒对象、目标交互对象和与所述目标交互对象对应的交互操作;
所述根据所述预设的交互指令执行能力信息确定所述车载语音控制终端是否具有与所述交互指令相匹配的执行能力,包括:
根据所述预设的交互指令执行能力信息,验证所述目标交互对象是否为所述车载语音控制终端的可控交互对象;
若是,则根据所述交互指令执行能力信息,验证与所述目标交互对象对应的交互操作是否为与所述可控交互对象对应的所述可控交互操作;
根据验证结果确定所述车载语音控制终端是否具有与所述交互指令相匹配的执行能力。
15.根据权利要求9-14任一所述的方法,其中,所述响应于检测到语音音频,将所述语音音频发送至所述智能语音系统之前,所述方法还包括:
响应于检测到所述车载语音控制终端接入,向所述车载语音控制终端发送执行能力请求消息,使所述车载语音控制终端响应于所述执行能力请求消息向所述车载主机发送所述车载语音控制终端的所述交互指令执行能力信息;
接收所述车载语音控制终端的交互指令执行能力信息,其中,所述交互指令执行能力信息包括所述车载语音控制终端能够控制的可控交互对象和与所述可控交互对象对应的可控交互操作。
16.根据权利要求9-15任一所述的方法,其中,所述响应于检测到语音音频,将所述语音音频发送至所述智能语音系统之前,所述方法还包括:
响应于所述智能语音系统发送的车型请求信息,向所述智能语音系统发送自身的车型信息,以使所述智能语音系统接收所述车型信息,并根据所述车型信息确定所述车载主机包含的各个交互对象和每个所述交互对象对应的交互操作。
17.根据权利要求7-13任一所述的方法,其中,所述根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令之后,所述方法还包括:
将所述目标执行端执行所述交互指令后反馈的执行完成消息发送给所述智能语音系统,以使所述智能语音系统接收所述执行完成消息,根据所述执行完成消息生成与之对应的执行完成播报文本,将所述执行完成播报文本转换为执行完成播报语音,并将所述执行完成播报语音发送给所述车载主机;
将所述执行完成播报语音发送给所述车载语音控制终端,以使所述车载语音控制终端根据所述执行完成播报语音进行语音播报。
18.一种应用在车载语音交互系统的车载语音交互方法,所述车载语音交互系统包括:车载主机、与所述车载主机通信连接的智能语音系统,与所述车载主机通信连接的车载语音控制终端,所述方法包括:
所述车载主机响应于检测到语音音频,将所述语音音频发送至所述智能语音系统;
所述智能语音系统对所述车载主机检测到的语音音频进行语音优化处理;
根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机;
所述车载主机根据预设的交互指令执行能力信息确定所述交互指令的目标执行端;
所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
19.一种车载语音交互装置,所述装置包括:
音频处理模块,用于对车载主机检测到的语音音频进行语音优化处理;
唤醒对象确定模块,用于根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端;
交互指令生成模块,用于将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机,所述车载主机被配置为根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
20.一种车载语音交互装置,所述装置包括:
音频发送模块,用于响应于检测到语音音频,将所述语音音频发送至智能语音系统,所述智能语音系统被配置为对车载主机检测到的语音音频进行语音优化处理,根据处理后的语音音频确定所述语音音频的目标唤醒对象对应的所述车载语音控制终端,将所述处理后的语音音频解析为交互指令,并将所述交互指令发送给所述车载主机;
执行能力确定模块,用于根据预设的交互指令执行能力信息确定所述交互指令的目标执行端,以使所述目标执行端执行所述交互指令;
其中,所述目标执行端为所述车载语音控制终端和所述车载主机中的一个。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法,或能够执行权利要求9-17中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法,或根据权利要求9-17中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法,或根据权利要求9-17中任一项所述的方法。
CN202310573507.5A 2023-05-19 2023-05-19 车载语音交互方法、装置、电子设备及存储介质 Pending CN116682424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310573507.5A CN116682424A (zh) 2023-05-19 2023-05-19 车载语音交互方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310573507.5A CN116682424A (zh) 2023-05-19 2023-05-19 车载语音交互方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116682424A true CN116682424A (zh) 2023-09-01

Family

ID=87780118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310573507.5A Pending CN116682424A (zh) 2023-05-19 2023-05-19 车载语音交互方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116682424A (zh)

Similar Documents

Publication Publication Date Title
US9934781B2 (en) Method of providing voice command and electronic device supporting the same
US9224404B2 (en) Dynamic audio processing parameters with automatic speech recognition
US20180211668A1 (en) Reduced latency speech recognition system using multiple recognizers
WO2015041892A1 (en) Local and remote speech processing
CN105793921A (zh) 基于部分热词发起动作
CN111402877B (zh) 基于车载多音区的降噪方法、装置、设备和介质
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
CN110956955B (zh) 一种语音交互的方法和装置
CN110875045A (zh) 一种语音识别方法、智能设备和智能电视
US20200211560A1 (en) Data Processing Device and Method for Performing Speech-Based Human Machine Interaction
US20220284888A1 (en) Method and apparatus for in-vehicle call, device, medium and product
CN104575509A (zh) 语音增强处理方法及装置
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN113362845A (zh) 声音数据降噪方法、装置、设备、存储介质及程序产品
CN116682424A (zh) 车载语音交互方法、装置、电子设备及存储介质
CN112669839B (zh) 语音交互方法、装置、设备及存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN114333017A (zh) 一种动态拾音方法、装置、电子设备及存储介质
CN113744726A (zh) 语音识别方法、装置、电子设备和存储介质
CN114564265B (zh) 有屏智能设备的交互方法、装置以及电子设备
CN113593619B (zh) 用于录制音频的方法、装置、设备和介质
CN114446300B (zh) 多音区识别方法、装置、设备以及存储介质
EP2760019B1 (en) Dynamic audio processing parameters with automatic speech recognition
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质
CN117133285A (zh) 车载环境下的人机语音交互方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination