CN114049896A - 一种车载云端智能语音交互系统、方法、设备及终端 - Google Patents
一种车载云端智能语音交互系统、方法、设备及终端 Download PDFInfo
- Publication number
- CN114049896A CN114049896A CN202111315059.6A CN202111315059A CN114049896A CN 114049896 A CN114049896 A CN 114049896A CN 202111315059 A CN202111315059 A CN 202111315059A CN 114049896 A CN114049896 A CN 114049896A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- cloud
- voice
- information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 claims abstract description 21
- 230000010365 information processing Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101100016034 Nicotiana tabacum APIC gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于车载语音交互技术领域,公开了一种车载云端智能语音交互系统、方法、设备及终端,所述车载云端智能语音交互方法包括:车载语音助手的唤醒模块监听;声音采集模块持续收音;通过RTOS的HTTP库发送音频信息到云端;持续语音活动检测;发送结束语音输入指令;云端处理;解析HTTP回包;播放云端返回的音频数据;执行云端返回的车载指令;关闭车载语音助手系统。本发明通过将用户的语音信息利用HTTP协议发送到云端进行处理,尽量少占用车载计算资源,同时利用RTOS中成熟的HTTP框架,降低工程的复杂度,提升工程代码的可复用性和可维护性,有效地降低了车载智能语音交互系统占用的计算资源,降低了工程的复杂度。
Description
技术领域
本发明属于车载语音交互技术领域,尤其涉及一种车载云端智能语音交互系统、方法、设备及终端。
背景技术
目前,随着经济、技术的发展,人们的生活质量逐渐提高,私家车的数量越来越多,在车机上搭载车载语音交互系统成为车机系统的标配。车载语音交互系统可以实现根据车内人员的语音指令完成相应的交互操作,国际巨头如亚马逊、Nuance、Google等,以及国内的知名厂商科大讯飞、百度、思必驰及云知声,都通过与全球各大巨头车企合作的方式,共同推动车载语音交互从传统的“命令式”“自然式”向“主动对话式”全面升级。
张寅,刘晓鹏等作者在申请的专利《一种车载语音控制系统》(授权专利号为CN11233119A)中提出了一种车载语音控制系统,通过语音接收模块、语音处理模块、语音识别模块、控制输出模块、车载控制等模块,在用户使用中,通过录入用户发出的命令短语,保存后对其进行一系列的计算,并输入到车载单元进行控制,提升用户体验。但是该方法将所有的语音识别、自然语言处理都是计算密集型操作,这些非常消耗算力的模块都放在了本地进行,势必会消耗很多车载的计算资源。
曹俞等作者在其发表的论文《车载语音控制系统设计》中设计了一套车载语音控制系统。该系统通过语音模块接收指令,利用CAN通信系统对车辆执行系统进行控制,使车辆能根据语音指令做出相应的动作,完成一些非驾驶行为类的操作,减少驾驶人在车辆行驶过程中的非驾驶操作,从而达到提高车辆行驶安全性的目的。但是该语音控制系统将所有的逻辑都通过裸机代码的方式放在单片机上,同时在裸机程序中进行语音的一系列处理,转换,这些工程的复用性,扩展性较低,同时阻碍了车联网技术的发展。因此,亟需一种新的车载云端智能语音交互系统,以弥补现有车载语音控制系统的缺陷。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有车载语音控制系统中,所有语音识别、自然语言处理都是计算密集型操作,即非常消耗算力的模块都放在本地进行,会消耗很多车载计算资源。
(2)现有车载语音控制系统是将所有的逻辑都通过裸机代码的方式放在单片机上,工程代码复杂度高;同时在裸机程序中进行语音的一系列处理,转换,这些工程的复用性、扩展性较低,同时阻碍了车联网技术的发展。
解决以上问题及缺陷的难度为:车载语音系统中涉及较多的硬件模块,比如音频传感器,音频数据信号处理,发声模块,网络信号传输模块,逻辑总控制模块等,需要较复杂逻辑控制,同时可能会导致对现有车载系统的网络带宽、能源带来极大的消耗,必须要保证系统的轻量化运行,否则会对车载系统的其他模块产生干扰。
解决以上问题及缺陷的意义为:针对车载系统,语音控制系统是一个非常重要的模块。因为现在的路上交通情况非常复杂,驾驶员在开车的过程中,基本无法手动操控车载系统,如果驾驶员分散注意力去操控车载屏幕,则会带来很大风险。因此开发一套适用于车辆的语音控制系统,会降低驾驶员的操控难度,提高驾驶的安全性。
发明内容
针对现有技术存在的问题,本发明提供了一种车载云端智能语音交互系统、方法、设备及终端,尤其涉及一种基于RTOS的车载云端智能语音交互系统、方法、设备及终端,旨在解决现有智能语音交互系统占用车载计算资源过多、工程代码复杂度高、可复用性低的问题。
本发明是这样实现的,一种车载云端智能语音交互方法,所述车载云端智能语音交互方法包括以下步骤:
步骤一,车载语音交互系统的唤醒模块监听;
启动系统,开启车内的环境参数获取工作,做为必要条件,便于后续的工作进展;
步骤二,在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
在唤醒车载语音系统之后,再对音频进行采集,可以节省音频采集模块消耗的能源,同时为后续音频传输做准备;
步骤三,将采集到的音频信息发送到云端;
为步骤五在云端处理音频信息做准备;
步骤四,持续进行语音活动检测VAD;
由于人们在会话过程中时常会产生间歇性的沉默,如果在停止发声后立刻停止收音,会导致语音识别结果的中断,所以持续进行语音活动检测直到结束;
步骤五,在云端对用户的语音输入进行处理;
处理音频信息需要耗能较大的数字信号处理模块,但是将信号直接传输到云端耗能较少,所以本发明选择在云端处理音频数据,可以轻量化车载系统的运行;
步骤六,完成云端的语音信息处理后,将步骤五得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对步骤三中发出的流式HTTP请求进行回报;
为了加速语音处理的时效性,减少网络时间延迟,本步骤将车载指令和音频数据合并为一个HTTP回包进行处理;
步骤七,处理云端的回包信息,并播放云端返回的音频数据;
对云端返回的数据进行解析,并由本发明的RTOS系统将音频数据发送到语音播报模块进行处理;
步骤八,执行云端返回的车载指令;如果步骤七中得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
由车载系统解析云端下发的信息,将云端信息转换为硬件控制指令,并由车载系统进行控制,降低车载系统的处理负担;
步骤九,将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入步骤一中,等待下一次的语音唤醒。
进一步,步骤一中,所述车载语音交互系统的唤醒模块监听,包括:
语音唤醒用于将设备从休眠状态激活至运行状态,唤醒词说出后,能立刻被检测出来;如果没有监听到唤醒词,则阻塞在当前步骤。
(1)传统模式,等待用户发出预设好的语音信息,进行相应的提示;其中,所述提示包括亮灯或者语音回复“请讲”引导用户说出工作命令;
(2)one-shot模式,等待用户直接将唤醒词和工作命令一同说出。
进一步,步骤二中,所述开启声音采集模块,持续采集收音,包括:
通过基于RTOS的逻辑控制程序,在收到车载语音交互系统被唤醒的信号时,开启麦克风,对车内的声音持续收集。
步骤三中,所述将采集到的音频信息发送到云端,包括:
在收到音频信息后,等当保存的音频信息大小为50KB时或者距离上一次发送已经超过200ms,则将音频信息通过RTOS的HTTP SDK以流式请求的方式发送到云端。
进一步,步骤四中,所述持续进行语音活动检测VAD,包括:
(1)当用户几秒内没有继续说出工作命令,则认为用户结束当前的语音命令输入,并向云端系统发送结束语音输入指令;
(2)当用户还在进行语音输入,则认为用户还未结束当前的语音指令输入,需要跳转到步骤三,持续对用户的语音输入进行收音;
其中,所述VAD又称语音端点检测、语音边界检测。
进一步,步骤五中,所述在云端对用户的语音输入进行处理,包括:
(1)在云端服务器中对用户输入的语音片段进行拼接整合,将拼接后的音频文件送到自动语音识别系统ASR中,通过该系统得到用户输入的文本信息;
(2)在云端服务器中对语音转换得到的文本信息输入到自然语音处理系统NLP中,通过该系统处理识别到用户真实的指令信息,同时获取需要回馈给用户的回复语以及车载指令信息;
(3)在云端服务器中对NLP系统中得到的回复语信息,输入到TTS系统中,合成用户指定的发声人的数字音频数据。
进一步,步骤七中,所述处理云端的回包信息,包括:
在RTOS车载语音系统的HTTP模块在收到步骤三的回包后,检测回包中的所有Part是否有音频数据;如果有音频数据,则播放云端返回的音频数据;否则直接执行步骤八;
其中,所述播放云端返回的音频数据,包括:
在RTOS车载系统的HTTP模块解析到云端返回的音频数据时,将所有的音频数据输入到音频播放模块,作为步骤三中用户语音输入指令的回复语。
本发明的另一目的在于提供一种应用所述的车载云端智能语音交互方法的车载云端智能语音交互系统,所述车载云端智能语音交互系统包括:
模块监听唤醒模块,用于进行车载语音交互系统的唤醒模块监听;
声音采集模块,用于在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
音频信息发送模块,用于将采集到的音频信息发送到云端;
语音活动检测模块,用于持续进行语音活动检测VAD;
语音输入处理模块,用于在云端对用户的语音输入进行处理;
请求回报模块,用于完成云端的语音信息处理后,将语音输入处理模块得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对音频信息发送模块发出的流式HTTP请求进行回报;
回包信息处理模块,用于处理云端的回包信息,播放云端返回的音频数据;
车载指令执行模块,用于执行云端返回的车载指令;如果回包信息处理模块得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
系统关闭模块,用于将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入模块监听唤醒模块等待下一次的语音唤醒。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
车载语音交互系统的唤醒模块监听;在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;将采集到的音频信息发送到云端;持续进行语音活动检测VAD;在云端对用户的语音输入进行处理;完成云端的语音信息处理后,将得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对发出的流式HTTP请求进行回报;处理云端的回包信息,并播放云端返回的音频数据;执行云端返回的车载指令;如果得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入车载语音交互系统的唤醒模块监听步骤中,等待下一次的语音唤醒。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
车载语音交互系统的唤醒模块监听;在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;将采集到的音频信息发送到云端;持续进行语音活动检测VAD;在云端对用户的语音输入进行处理;完成云端的语音信息处理后,将得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对发出的流式HTTP请求进行回报;处理云端的回包信息,并播放云端返回的音频数据;执行云端返回的车载指令;如果得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入车载语音交互系统的唤醒模块监听步骤中,等待下一次的语音唤醒。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的车载云端智能语音交互系统。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的车载云端智能语音交互方法,通过将用户的语音信息利用HTTP协议发送到云端进行处理,尽量少占用车载计算资源,同时利用RTOS中成熟的HTTP框架,降低工程的复杂度,提升工程代码的可复用性,可维护性。同时,本发明有效降低了车载智能语音交互系统占用的计算资源,降低工程的复杂度,提升工程代码的可复用性,可用于智能车载系统中的语音交互部分。
与现有的车载语音交互系统相比,本发明方法具有以下特点:
(1)本发明利用RTOS实现整个车载语音交互系统,模块简单,结构清晰。本发明首先整个语音交互系统项目是在RTOS上开发,将系统模块化,避免以裸机程序的方式进行语音等一系列处理,转换,同时也利用RTOS的事件处理机制,将语音交互系统的主逻辑放在语音唤醒事件之后。相较于传统的方法,本发明避免了通过持续轮询等待语音交互系统唤醒触发的机制,针对单片机来说提高了资源利用率,针对工程项目来说提高了整个语音交互系统的可扩展性,可维护性,再面对更加丰富的车载情形时也能快速的迭代使用。
(2)本发明将对用户的语音命令输入的一系列处理放在云端进行。本发明利用了RTOS开源的HTTP框架,将用户的语音信息发送到了云端进行处理,再由播放器播放云端返回的音频数据播放,由车载系统执行指令信息。相较于传统方法,本发明避免了在本地进行语音识别、自然语言等计算密集型操作,节省了车载资源的消耗,同时云端的算力较高可以进行更加丰富的语音处理,提升了用户的体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的车载云端智能语音交互方法流程图。
图2是本发明实施例提供的车载云端智能语音交互方法原理图。
图3是本发明实施例提供的车载云端智能语音交互系统结构框图;
图中:1、模块监听唤醒模块;2、声音采集模块;3、音频信息发送模块;4、语音活动检测模块;5、语音输入处理模块;6、请求回报模块;7、回包信息处理模块;8、车载指令执行模块;9、系统关闭模块。
图4是本发明实施例提供的云端处理语音信息的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种车载云端智能语音交互系统、方法、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的车载云端智能语音交互方法包括以下步骤:
S101,车载语音交互系统的唤醒模块监听;
S102,在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
S103,将采集到的音频信息发送到云端;
S104,持续进行语音活动检测VAD;
S105,在云端对用户的语音输入进行处理;
S106,完成云端的语音信息处理后,将S105得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对S103中发出的流式HTTP请求进行回报;
S107,处理云端的回包信息,并播放云端返回的音频数据;
S108,执行云端返回的车载指令;如果S107中得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
S109,将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入S101中,等待下一次的语音唤醒。
本发明实施例提供的车载云端智能语音交互方法原理图如图2所示。
如图3所示,本发明实施例提供的车载云端智能语音交互系统包括:
模块监听唤醒模块1,用于进行车载语音交互系统的唤醒模块监听;
声音采集模块2,用于在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
音频信息发送模块3,用于将采集到的音频信息发送到云端;
语音活动检测模块4,用于持续进行语音活动检测VAD;
语音输入处理模块5,用于在云端对用户的语音输入进行处理;
请求回报模块6,用于完成云端的语音信息处理后,将语音输入处理模块得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对音频信息发送模块发出的流式HTTP请求进行回报;
回包信息处理模块7,用于处理云端的回包信息,播放云端返回的音频数据;
车载指令执行模块8,用于执行云端返回的车载指令;如果回包信息处理模块得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
系统关闭模块9,用于将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入模块监听唤醒模块等待下一次的语音唤醒。
下面结合具体实施例对本发明的技术方案作进一步描述。
本发明的目的在于克服上述现有技术存在的不足,提供一种基于RTOS的车载云端智能语音交互系统,通过将用户的语音信息利用HTTP协议发送到云端进行处理,尽量少占用车载计算资源,同时利用RTOS中成熟的HTTP框架,降低工程的复杂度,提升工程代码的可复用性,可维护性。
参照附图1-4,本发明具体步骤如下:
步骤1,车载语音交互系统的唤醒模块监听;
语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来。如果没有监听到唤醒词,则阻塞在当前步骤。
(1a)传统模式,等待用户发出预设好的语音信息,进行相应的提示,比如亮灯或者语音回复“请讲”等引导用户说出工作命令;
(1b)one-shot模式,等待用户直接将唤醒词和工作命令一同说出,如“ABAB,北京天气怎么样”。
本实施例的主体是搭载了RTOS的硬件系统,以及部署在RTOS中的软件系统,车载终端选用基于S3C2440微处理器的ARM9高性能的开发平台。
车载音频播放模块选用了VS1053音频解码板,板载3.3V,最大800mA电流,接收器选择2.7V—5.5V的MAX9814音频AGC模块。
步骤2,在车载语音交互系统唤醒之后,开启声音采集模块,持续采集收音;
通过基于RTOS的逻辑控制程序,在收到车载语音交互系统被唤醒的信号时,开启麦克风,对车内的声音持续收集。
本实施例中的车载语音交互系统在唤醒之后,需要开启采集模块即MAX9814音频AGC模块,将音频转化为信息输入到RTOS系统中的音频数据存储模块。
步骤3,将采集到的音频信息,发送到云端;
在收到音频信息后,等当保存的音频信息大小为50KB时或者距离上一次发送已经超过了200ms,则将音频信息通过RTOS的HTTP SDK以流式请求的方式发送到云端;
本实施例中需要利用RTOS的核心HTTP库,CoreHTTP,由于RTOS是轻量级的系统,所以利用该协议进行互联网通信并不会消耗太多的资源,在将当前音频信息传递到云端。
步骤4,持续进行VAD(Voice Activity Detection),VAD是语音活动检测,又称语音端点检测,语音边界检测;
本实施例中的语音前端声学处理技术VAD,可以采用MCU+Audio DSP的处理基础,目前讯飞,思必池子等公司的产品均有该类型的芯片可以使用。
(4a)当用户几秒内没有继续说出工作命令,则认为用户结束了当前的语音命令输入,需要向云端系统发送结束语音输入指令;
(4b)当用户还在进行语音输入,则认为用户还未结束当前的语音指令输入,需要跳转到步骤3,持续对用户的语音输入进行收音;
步骤5,在云端对用户的语音输入进行处理;
本实施例中的语音信号处理,需要结合云端服务进行,可以将这部分逻辑代码部署在云服务器上,实时的处理多个语音信号处理,保证了一个云可以为多个端服务的情景,节约了计算资源,提高了车载系统的运行速度。
(5a)在云端服务器中对用户输入的语音片段进行拼接整合,将拼接后的音频文件送到ASR(Automatic Speech Recognition,自动语音识别)系统中,通过该系统得到用户输入的文本信息;
(5b)在云端服务器中对语音转换得到的文本信息输入到NLP(Natural LanguageProcessing,自然语音处理)系统中,通过该系统处理识别到用户真实的指令信息,同时获取需要回馈给用户的回复语以及车载指令信息;
(5c)在云端服务器中对NLP系统中得到的回复语信息,输入到TTS(Text toSpeech)系统中,合成用户指定的发声人的数字音频数据;
步骤6,完成云端的语音信息处理之后,将步骤(5b)中得到的车载指令信息和步骤(5c)中得到的数字音频数据合并为一个HTTP回包,以Mulipart协议格式对步骤3中发出的流式HTTP请求进行回报。
步骤7,处理云端的回包信息;
在RTOS车载语音系统的HTTP模块在收到步骤3的回包之后,检测回包中的所有Part是否有音频数据。如果有音频数据则执行步骤8,否则直接执行步骤9;
步骤8,播放云端返回的音频数据;
在RTOS车载系统的HTTP模块解析到云端返回的音频数据时,将所有的音频数据输入到音频播放模块,作为步骤3中用户语音输入指令的回复语;
步骤9,执行云端返回的车载指令;
本实施例中执行的车载指令为步骤5中云端在对语音信号分析之后,得出的适用于车载系统的指令,具体包括但不限于:打开/关闭音响,打开/关闭空调,调节温度,打开/关闭车窗等。这些指令由本发明的RTOS系统直接传送给车载系统终端即可。
如果步骤7中得到了云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息。
将执行完云端下发的车载指令信息之后,将关闭车载语音交互系统,同时进入步骤1等待下一次的语音唤醒。
基于上述介绍可以看出,应用本实施例所述方案,可以实现一种轻量级的车载语音智能交互系统,如果该系统直接搭载在原生系统会导致车载系统负载较大,消耗资源较多的问题。而且利用Free RTOS轻量级操作系统进行逻辑处理,保证了本发明的功能模块处于低能耗的处理状态,避免了对车载能源的过度消耗,以及对车载系统的阻碍。
下面利用对利用RTOS的HTTP网络库发送语音信号功能进行性能测试,主要测试的参数是在RTOS在进行语音信号实时传递的过程中,第一次语音信号发送到第一次接收到语音信号的耗时。本实验主要测试了在进行简单的对话,“请打开空调。”,过程中,检测耗时。设置任务次数为100,统计100次的平均耗时,结果为:最大值5s;平均值为3.6s。
下面利用对RTOS进行性能测试,首先要选取最能体现其实时性能的指标。本文采用中断响应延迟(Interrupt Service Latency)和周期任务调度抖动误差(PeriodicalTask Scheduling Jitter)作为性能指标。
中断响应延迟测试过程采用定时器周期产生外部中断的方式,每隔1ms进行一次测试。在每次测试开始时刻读取TSC时间(t1),设置APIC中的定时器在1ms后(t2)产生定时中断。由于中断延迟,在进入中断服务程序(ISR)后,马上读取TSC时间(t3)。考虑到对定时器进行设置的时间为纳秒级,中断延迟一般在微秒级,因此不会对精度造成影响。测试结果统计为:最大值为4.69us;平均值为1.31us。
在实时系统应用中,周期任务是实时系统中最常见的实时系统中最常见的应用形式。在任何实时操作系统下,由于中断延迟、任务切换、内存缓冲机制等问题的存在,实时任务的调度误差是不可避免的,一般称为时间抖动误差(Jitter)。所谓周期任务调度时间误差是指从定时器周期地产生中断起,到操作系统调度器选定实时任务,进行上下文切断(Context Switch),最后到实时任务得到CPU为止这段时间。本试验分别在轻负载和重负载下测得的周期任务调度误差值。设置任务周期为1ms,测试点数为900,000,测试时间为900秒。测试结果统计为:最大值为8.11us;平均值为2.87us。
可以看出当前系统的性能满足本发明的使用场景。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种车载云端智能语音交互方法,其特征在于,所述车载云端智能语音交互方法包括以下步骤:
步骤一,车载语音交互系统的唤醒模块监听;
步骤二,在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
步骤三,将采集到的音频信息发送到云端;
步骤四,持续进行语音活动检测VAD;
步骤五,在云端对用户的语音输入进行处理;
步骤六,完成云端的语音信息处理后,将步骤五得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对步骤三中发出的流式HTTP请求进行回报;
步骤七,处理云端的回包信息,并播放云端返回的音频数据;
步骤八,执行云端返回的车载指令;如果步骤七中得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
步骤九,将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入步骤一中,等待下一次的语音唤醒。
2.如权利要求1所述车载云端智能语音交互方法,其特征在于,步骤一中,所述车载语音交互系统的唤醒模块监听,包括:语音唤醒用于将设备从休眠状态激活至运行状态,唤醒词说出后,能立刻被检测出来;如果没有监听到唤醒词,则阻塞在当前步骤;
(1)传统模式,等待用户发出预设好的语音信息,进行相应的提示;其中,所述提示包括亮灯或者语音回复“请讲”引导用户说出工作命令;
(2)one-shot模式,等待用户直接将唤醒词和工作命令一同说出。
3.如权利要求1所述车载云端智能语音交互方法,其特征在于,步骤二中,所述开启声音采集模块,持续采集收音,包括:通过基于RTOS的逻辑控制程序,在收到车载语音交互系统被唤醒的信号时,开启麦克风,对车内的声音持续收集;
步骤三中,所述将采集到的音频信息发送到云端,包括:在收到音频信息后,等当保存的音频信息大小为50KB时或者距离上一次发送已经超过200ms,则将音频信息通过RTOS的HTTP SDK以流式请求的方式发送到云端。
4.如权利要求1所述车载云端智能语音交互方法,其特征在于,步骤四中,所述持续进行语音活动检测VAD,包括:
(1)当用户几秒内没有继续说出工作命令,则认为用户结束当前的语音命令输入,并向云端系统发送结束语音输入指令;
(2)当用户还在进行语音输入,则认为用户还未结束当前的语音指令输入,需要跳转到步骤三,持续对用户的语音输入进行收音;
其中,所述VAD又称语音端点检测、语音边界检测。
5.如权利要求1所述车载云端智能语音交互方法,其特征在于,步骤五中,所述在云端对用户的语音输入进行处理,包括:
(1)在云端服务器中对用户输入的语音片段进行拼接整合,将拼接后的音频文件送到自动语音识别系统ASR中,通过该系统得到用户输入的文本信息;
(2)在云端服务器中对语音转换得到的文本信息输入到自然语音处理系统NLP中,通过该系统处理识别到用户真实的指令信息,同时获取需要回馈给用户的回复语以及车载指令信息;
(3)在云端服务器中对NLP系统中得到的回复语信息,输入到TTS系统中,合成用户指定的发声人的数字音频数据。
6.如权利要求1所述车载云端智能语音交互方法,其特征在于,步骤七中,所述处理云端的回包信息,包括:在RTOS车载语音系统的HTTP模块在收到步骤三的回包后,检测回包中的所有Part是否有音频数据;如果有音频数据,则播放云端返回的音频数据;否则直接执行步骤八;
其中,所述播放云端返回的音频数据,包括:在RTOS车载系统的HTTP模块解析到云端返回的音频数据时,将所有的音频数据输入到音频播放模块,作为步骤三中用户语音输入指令的回复语。
7.一种实施权利要求1~6任意一项所述车载云端智能语音交互方法的车载云端智能语音交互系统,其特征在于,所述车载云端智能语音交互系统包括:
模块监听唤醒模块,用于进行车载语音交互系统的唤醒模块监听;
声音采集模块,用于在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;
音频信息发送模块,用于将采集到的音频信息发送到云端;
语音活动检测模块,用于持续进行语音活动检测VAD;
语音输入处理模块,用于在云端对用户的语音输入进行处理;
请求回报模块,用于完成云端的语音信息处理后,将语音输入处理模块得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对音频信息发送模块发出的流式HTTP请求进行回报;
回包信息处理模块,用于处理云端的回包信息,播放云端返回的音频数据;
车载指令执行模块,用于执行云端返回的车载指令;如果回包信息处理模块得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;
系统关闭模块,用于将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入模块监听唤醒模块等待下一次的语音唤醒。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
车载语音交互系统的唤醒模块监听;在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;将采集到的音频信息发送到云端;持续进行语音活动检测VAD;在云端对用户的语音输入进行处理;完成云端的语音信息处理后,将得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对发出的流式HTTP请求进行回报;处理云端的回包信息,并播放云端返回的音频数据;执行云端返回的车载指令;如果得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入车载语音交互系统的唤醒模块监听步骤中,等待下一次的语音唤醒。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
车载语音交互系统的唤醒模块监听;在车载语音交互系统唤醒后,开启声音采集模块,持续采集收音;将采集到的音频信息发送到云端;持续进行语音活动检测VAD;在云端对用户的语音输入进行处理;完成云端的语音信息处理后,将得到的车载指令信息和数字音频数据合并为一个HTTP回包,以Mulipart协议格式对发出的流式HTTP请求进行回报;处理云端的回包信息,并播放云端返回的音频数据;执行云端返回的车载指令;如果得到云端返回的指令信息,则将指令信息传递到车载系统中,由车载系统执行具体的指令信息;将执行完云端下发的车载指令信息后,将关闭车载语音交互系统,同时进入车载语音交互系统的唤醒模块监听步骤中,等待下一次的语音唤醒。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述车载云端智能语音交互系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111315059.6A CN114049896A (zh) | 2021-11-08 | 2021-11-08 | 一种车载云端智能语音交互系统、方法、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111315059.6A CN114049896A (zh) | 2021-11-08 | 2021-11-08 | 一种车载云端智能语音交互系统、方法、设备及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049896A true CN114049896A (zh) | 2022-02-15 |
Family
ID=80207513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111315059.6A Pending CN114049896A (zh) | 2021-11-08 | 2021-11-08 | 一种车载云端智能语音交互系统、方法、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049896A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108337362A (zh) * | 2017-12-26 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备和存储介质 |
CN108899023A (zh) * | 2018-06-28 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 控制方法和装置 |
CN111128201A (zh) * | 2019-12-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 交互方法、装置、系统、电子设备及存储介质 |
CN111128166A (zh) * | 2019-12-27 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 连续唤醒识别功能的优化方法和装置 |
CN111261161A (zh) * | 2020-02-24 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及存储介质 |
CN112802468A (zh) * | 2020-12-24 | 2021-05-14 | 广汽蔚来新能源汽车科技有限公司 | 汽车智能终端的交互方法、装置、计算机设备和存储介质 |
CN113223527A (zh) * | 2021-05-08 | 2021-08-06 | 雅迪科技集团有限公司 | 一种用于电动车智能仪表的语音控制方法及电动车 |
CN113393838A (zh) * | 2021-06-30 | 2021-09-14 | 北京探境科技有限公司 | 语音处理方法、装置、计算机可读存储介质及计算机设备 |
CN113421564A (zh) * | 2021-06-22 | 2021-09-21 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互系统、服务器和存储介质 |
-
2021
- 2021-11-08 CN CN202111315059.6A patent/CN114049896A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108337362A (zh) * | 2017-12-26 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备和存储介质 |
CN108899023A (zh) * | 2018-06-28 | 2018-11-27 | 百度在线网络技术(北京)有限公司 | 控制方法和装置 |
CN111128166A (zh) * | 2019-12-27 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 连续唤醒识别功能的优化方法和装置 |
CN111128201A (zh) * | 2019-12-31 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 交互方法、装置、系统、电子设备及存储介质 |
CN111261161A (zh) * | 2020-02-24 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及存储介质 |
CN112802468A (zh) * | 2020-12-24 | 2021-05-14 | 广汽蔚来新能源汽车科技有限公司 | 汽车智能终端的交互方法、装置、计算机设备和存储介质 |
CN113223527A (zh) * | 2021-05-08 | 2021-08-06 | 雅迪科技集团有限公司 | 一种用于电动车智能仪表的语音控制方法及电动车 |
CN113421564A (zh) * | 2021-06-22 | 2021-09-21 | 广州小鹏汽车科技有限公司 | 语音交互方法、语音交互系统、服务器和存储介质 |
CN113393838A (zh) * | 2021-06-30 | 2021-09-14 | 北京探境科技有限公司 | 语音处理方法、装置、计算机可读存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019246868B2 (en) | Method and system for voice activation | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
CN105869655B (zh) | 音频装置以及语音检测方法 | |
CN111566730B (zh) | 低功率设备中的语音命令处理 | |
CN103871408B (zh) | 一种语音识别方法及装置、电子设备 | |
CN107277272A (zh) | 一种基于软件app的蓝牙设备语音交互方法及系统 | |
CN110111789B (zh) | 语音交互方法、装置、计算设备和计算机可读介质 | |
CN110018735A (zh) | 智能个人助理接口系统 | |
CN111833875B (zh) | 一种嵌入式语音交互系统 | |
CN111599371A (zh) | 语音增加方法、系统、装置及存储介质 | |
CN109992239A (zh) | 语音出行方法、装置、终端及存储介质 | |
CN111402877A (zh) | 基于车载多音区的降噪方法、装置、设备和介质 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
CN111816190A (zh) | 用于上位机与下位机的语音交互方法和装置 | |
CN111833870A (zh) | 车载语音系统的唤醒方法、装置、车辆和介质 | |
CN111654782B (zh) | 一种智能音箱及信号处理方法 | |
CN114049896A (zh) | 一种车载云端智能语音交互系统、方法、设备及终端 | |
CN111883145A (zh) | 唤醒识别处理方法和装置 | |
Meng et al. | Application Research and Implementation of Voice Control System Based on Android Speech Recognition | |
CN116665661A (zh) | 一种基于云端的语音交互方法及系统 | |
CN109524010A (zh) | 一种语音控制方法、装置、设备及存储介质 | |
CN111464644B (zh) | 一种数据传输方法及电子设备 | |
CN114999496A (zh) | 音频传输方法、控制设备及终端设备 | |
CN113571042A (zh) | 一种用于车载式语音识别系统 | |
CN114446300B (zh) | 多音区识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |