CN113345433B - 一种车外语音交互系统 - Google Patents
一种车外语音交互系统 Download PDFInfo
- Publication number
- CN113345433B CN113345433B CN202110596296.8A CN202110596296A CN113345433B CN 113345433 B CN113345433 B CN 113345433B CN 202110596296 A CN202110596296 A CN 202110596296A CN 113345433 B CN113345433 B CN 113345433B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- voice
- recognition module
- audio signal
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 230000005236 sound signal Effects 0.000 claims description 71
- 238000012545 processing Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 16
- 241000282414 Homo sapiens Species 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- RQKYYWBMXHYBAP-UHFFFAOYSA-N 4-(chloromethyl)-2,2-dimethyl-1,3,2-dioxasilolane Chemical compound C[Si]1(C)OCC(CCl)O1 RQKYYWBMXHYBAP-UHFFFAOYSA-N 0.000 claims 10
- MKGHDZIEKZPBCZ-ULQPCXBYSA-N methyl (2s,3s,4r,5r,6r)-4,5,6-trihydroxy-3-methoxyoxane-2-carboxylate Chemical compound CO[C@H]1[C@H](O)[C@@H](O)[C@H](O)O[C@@H]1C(=O)OC MKGHDZIEKZPBCZ-ULQPCXBYSA-N 0.000 claims 9
- 238000013459 approach Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 101100453651 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) URA6 gene Proteins 0.000 description 8
- 230000004927 fusion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000005534 acoustic noise Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明提供了一种车外语音交互系统,该方案实现了车外语音的整车唤醒、回声消除、引擎声降噪、快速交互、语音播放装置播报及自然语义理解。该方案是为了让用户可以不依赖于传统钥匙也无需打开车门进入车内,在其靠近车辆时,便可以使用语音在车外唤醒车辆并交互。该系统,包括:布置在车外的语音拾取装置和语音播放装置;与所述语音拾取装置连接的车外语音识别模组;与所述车外语音识别模组相连接的车机控制器MCU和数字信号处理器DSP;以及与所述车机控制器MCU和所述数字信号处理器DSP连接的系统集成芯片SOC;所述语音播放装置与所述数字信号处理器DSP连接;所述语音拾取装置和所述车外语音识别模组处于常电状态。
Description
技术领域
本发明涉及车载智能语音系统,具体涉及通过汽车车外麦克风录入音频及语音播放装置播报回复语音实现人在车外与汽车进行智能语音交互。
背景技术
语音交互是当前人机交互的重要方式之一,告别传统手动操作交互方式,语音交互从某种意义上解放了人类双手,并实现了人机之间的远距离交互,为人们生活提供了便捷。
车载语音交互在智能座舱中更显得极为重要,然而当前车载智能语音系统仅仅只能满足用户在车内的场景,就算是用户在离车很近的距离,也享受不到这份智能产物带来的便捷。所以,我们有必要开发一款车外语音交互系统。这一设计在行业有不少畅想,却并没有任何一个投入市场、服务大众的案例,其中主要原因便在于没有工程化的系统方案。在汽车相关期刊中已公开的车外语音畅想均存在许多设计缺陷,如使用传统钥匙作为唤醒整车电器功能的媒介、使用车内扬声器输出语音反馈、使用语音控制器本地识别等,导致用户在车外可使用语音的时间太短几近于无、用户很难清晰得获知语音反馈甚至很难听见、用户和语音对话的指令仅十数条难以命中。以上缺陷使得车外语音一直停留在畅想阶段,没有工程化的系统方案。
发明内容
本发明提供了一种车外语音交互系统,该方案实现了车外语音的整车唤醒、回声消除、引擎声降噪、快速交互、语音播放装置播报及自然语义理解。该方案是为了让用户可以不依赖于传统钥匙也无需打开车门进入车内,在其靠近车辆时,便可以使用语音在车外唤醒车辆并交互。
本发明的技术方案为:
本发明实施例提供了一种车外语音交互系统,包括:
布置在车外的语音拾取装置和语音播放装置;与所述语音拾取装置连接的车外语音识别模组;与所述车外语音识别模组相连接的车机控制器MCU和数字信号处理器DSP;以及与所述车机控制器MCU和所述数字信号处理器DSP连接的系统集成芯片SOC;
所述语音播放装置与所述数字信号处理器DSP连接;所述语音拾取装置和所述车外语音识别模组处于常电状态。
优选地,所述车外语音识别模组在比对出所述语音拾取装置拾取的车外音频信号中包含有预设的唤醒词时,利用预设的离线指令解析功能对所述车外音频信号进行解析得到控制指令;同时,被唤醒的所述系统集成芯片SOC通过被唤醒的所述数字信号处理器DSP从所述车外语音识别模组处获取所述车外音频信号,再利用预设的在线指令解析功能对所述车外音频信号进行解析得到控制指令;
被唤醒的所述车机控制器MCU基于所述车外语音识别模组发送的控制指令和/或所述系统集成芯片SOC发送的控制指令,控制整车上对应的执行元件执行对应的指令;同时,所述系统集成芯片SOC基于所述车外语音识别模组发送的控制指令和/或所述系统集成芯片SOC自身所确定的控制指令进行指令执行;
所述车机控制器MCU在确定对应的执行元件完成指令执行和/或所述系统集成芯片SOC完成指令执行之后,通过所述数字信号处理器DSP控制被唤醒的所述车外语音播放装置进行语音反馈。
优选地,所述车外语音识别模组在执行对所述车外音频信号进行解析和将所述车外音频信号通过所述数字信号处理器DSP发送至所述系统集成芯片SOC进行解析之前,先对所述车外音频信号进行回音消除和发动机噪声降噪处理。
优选地,所述车机控制器MCU在确定对应执行元件完成指令执行和/或系统集成芯片SOC完成指令执行之后,还通过所述数字信号处理器DSP向所述车外语音识别模组反馈参考信号,使所述车外语音识别模组基于所述参考信号对新拾取到的车外音频信号进行回音消除处理。
优选地,所述车外语音识别模组基于所述参考信号对新拾取到的车外音频信号进行回音消除处理的步骤包括:
所述车外语音识别模组判断接收到所述参考信号和新拾取到的车外音频信号之间的间隔时间差是否小于预设时间差;
若小于,则判断所述参考信号和新拾取到的车外音频信号之间的信号幅值比是否位于预设幅值比范围内;
若位于,则基于所述参考信号对新拾取到的车外音频信号进行回音消除处理。
优选地,所述车外音频模组通过将所述车外音频信号输入预先实验获得的降噪算法中进行发动机噪声降噪处理;
其中,预先实验获得的降噪算法的获取步骤包括:
步骤1,通过将预先录入的有发动机噪声环境下的车外人声音频信号和有发动机噪声环境下的车辆前机舱内部音频信号输入到试验算法中,使试验算法参照所述车辆前机舱内部音频信号对所述车外人声音频信号进行发动机噪声过滤,得到过滤后的车外人声音频信号;
步骤2,再将过滤后的车外人声音频信号和预先录入的无发动机噪声环境下的车外人声音频信号进行相似性比对,得到相似性比对结果;
若相似性比对结果不满足设置要求,则将调节试验算法中的相关自变量参数,并重复步骤1和步骤2,直至相似性比对结果满足设置要求时,将当前的试验算法确定为所需的降噪算法。
优选地,所述车外语音识别模组对所述车外音频信号进行回音消除和发动机噪声降噪处理的同时,唤醒整车上所有处于休眠状态的电器件。
优选地,所述车外语音识别模组通过从所拾取到的车外音频信号中提取声学特征,再将所提取的声学特征与预设的唤醒词进行比对,以确定所述车外音频信号中是否存在预设的唤醒词。
优选地,被唤醒的所述车机控制器MCU基于所述车外语音识别模组发送的控制指令和/或所述系统集成芯片SOC发送的控制指令,控制整车上对应的执行元件执行对应的指令的步骤中:
若所述车机控制器MCU同时接收到所述车外语音识别模组和所述系统集成芯片SOC各自发出的相同控制指令,则所述车机控制器MCU以所述车外语音识别模组发送的控制指令为准控制整车上对应的执行元件执行对应的指令;或
若所述车外语音识别模组和所述系统集成芯片SOC各自发出的控制指令相同,则所述车机控制器MCU以先接收到的控制指令为准控制整车上对应的执行元件执行对应的指令。
本发明的有益效果为:
在车辆复杂且严苛的使用环境下,本方案既能不影响整车电器系统休眠,又实现车外语音识别模组在低功耗状态下条件满足时唤醒整车电器系统并快速与用户交互。同时,本方案的离在线融合既保证了在车库等封闭环境下车外语音交互系统可以快速响应用户指令,又使得在有网络连接时,能提供丰富而详尽的自然语义处理能力。本方案的硬件布置提供的回声消除及引擎声降噪确保了在嘈杂的车辆使用环境下,语音唤醒及识别功能仍然正常。
附图说明
图1是本申请的一个实施例原理框图;
图2为根据本申请的用于车外语音唤醒整车电器系统的一个实施例流程图;
图3为根据本申请的用于车外语音音频处理的一个实施例流程图;
图4为根据本申请的用户车外语音用户指令识别处理的一个实施例流程图;
图中: 2、语音拾取装置,3、车外语音识别模组,4、车机控制器MCU,5、执行元件,6、数字信号处理单元,7、语音播放装置,8、系统集成芯片SOC。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,本发明实施例提供了一种车外语音交互系统,包括:语音拾取装置2、车外语音识别模组3、车机控制器MCU4、数字信号处理器DSP6、系统集成芯片SOC8以及语音播放装置7。其中,语音拾取装置2为按照在车外部的车外麦克风,语音播放装置7为安装在车外部的车外扬声器。
车外语音识别模组3同车机控制器MCU4、数字信号处理器DSP6连接,数字信号处理器DSP6同系统集成芯片SOC8、语音播放装置7和车机控制器MCU4连接,车机控制器MCU4同整车上的执行元件5连接。
当用户未靠近车辆时,车辆闭锁且整车电器系统(本实施例中的整车电器系统由车外语音交互系统和执行元件5构成)绝大部电器部件处于休眠状态,绝大部电器部件已断开芯片供电电路,此时车外语音交互系统处于低功耗状态,等待满足特定条件时激活进入工作状态。整车电器系统的休眠状态是一种切断绝大部分电器部件的电源供电,仅保留极少部分电器部件连通电源,且该部分电器部件需保证极低耗电功率以确保车载电源可以供给该部分电器部件在低功耗状态下运行近一个月时间。
本实施例中,参照图2,车外语音交互系统在工作时,执行如下流程:
步骤101,通过车外麦克风持续录入或拾取外界声音1形成车外音频信号。
其中,车外麦克风布置方案有多种可选,以下仅做部分示例。例如:采用四个双麦阵列微机电麦克风,分别布置于车辆前进气格栅旁、左右侧外后视镜内、背门装饰件内,通过调整四个双麦阵列微机电麦克风的拾音朝向,使得麦克风可唤醒距离包含以车辆为同心圆的5米半径内。
步骤102,进行声学特征比对。
在拾音范围内录入的音频会经微机电麦克风中的放大器做自动增益调节,由此可更清晰地录入人声,经预处理后的音频进入车外语音识别模组3,在低功耗状态下比对声学特征是否符合其内部预设的唤醒词。
步骤103,唤醒整车电器系统。
当该车外音频信号的声学特征命中车外语音识别模组3内预设的唤醒词时,车外语音识别模组3唤醒整车电器系统(具体来说,对整车上处于休眠状态的电器件进行换向)。
步骤104,车外语音识别模组3进入指令识别状态。
当该车外音频信号的声学特征命中车外语音识别模组3内预设的唤醒词时,车外语音识别模组3即进入指令识别状态。
车外语音识别模组3在进入指令识别状态后,需要先对拾取到的车外音频信号进行解析,以获得具体的指令信息。考虑到车外麦克风所采集到的车外音频存在噪声干扰,本实施例中,在对车外音频信号解析之前,需要先对拾取到的车外音频信号进行干扰处理。
本实施例中,对拾取到的车外音频信号进行干扰处理的过程包括回音消除(图3中的步骤201)和发动机噪声降噪(图3中的步骤202)处理两个处理过程。
其中,对车外音频信号进行回音消除的过程是通过利用数字信号处理器DSP反馈给车外语音交互模组的参考信号进行回音消除的。具体来说,在数字信号处理器DSP收到来自车机控制器MCU及系统集成芯片SOC各自反馈的表示指令执行成功的音频流时,会在将两路音频流输出至语音播放装置的同时送入两路参考信号至车外语音识别模组进行回声消除。其中,车外语音识别模组对车外音频信号进行回声消除的具体条件为时延和信号相近,即先有参考信号输入再有车外音频信号输入且需要满足:两类信号的间隔大于10毫秒(预设时间差)且参考信号与车外音频信号幅值比为0.8至1.2(预设幅值比范围)之间。在车外语音交互模组所收集到的两类信号不满足上述这些条件时,则无法对所收集到的车外音频信号进行回声消除。
进一步地,对车外音频信号进行发动机降噪处理的过程具体包括:将所述车外音频信号输入预先实验获得的降噪算法中进行发动机噪声降噪处理。其中,预先实验获得的降噪算法的获取步骤包括:
步骤1,通过将预先录入的有发动机噪声环境下的车外人声音频信号A和有发动机噪声环境下的车辆前机舱内部音频信号C输入到试验算法中,使试验算法参照所述车辆前机舱内部音频信号对所述车外人声音频信号A进行发动机噪声过滤,得到过滤后的车外人声音频信号A’;步骤2,再将过滤后的车外人声音频信号A’和预先录入的无发动机噪声环境下的车外人声音频信号B进行相似性比对,得到相似性比对结果;若相似性比对结果不满足设置要求,则将调节试验算法中的相关自变量参数,并重复步骤1和步骤2,直至相似性比对结果满足设置要求时,将当前的试验算法确定为所需的降噪算法。
进而,需要对车外音频信号进行指令解析(即进入步骤203)。本实施例中,车外语音交互系统的进行指令识别的流程可以大致分为离线指令识别和在线指令识别。通过在实施例中融合了离线指令识别与在线指令识别,以使得能兼得离线及在线识别的优点,并互补彼此的缺点。
具体来说,在车外语音交互模组3利用离线指令解析功能进行离线指令识别时,车外语音识别模组3将语音拾取装置2拾取的外界声音1持续解析为指令。当解析后的指令有效时,车外语音识别模组3会将解析出的指令经由车机控制器MCU4通过车身CAN总线将对应的控制指令发送给整车的执行元件5(执行元件包括但不限于车身控制器BCM、APA控制器、电源等),进而达到控制全车的效果。
在利用在线指令解析功能进行在线指令识别时,车外语音识别模组3将车外麦克风2拾取的外界声音1进行发动机引擎声降噪处理后将拾取到的音频传输给数字信号处理器DSP6,数字信号处理器DSP6直通,通过I2S协议将该拾取到的车外音频信号传输给系统集成芯片SOC8,系统集成芯片SOC8将收到的车外音频信号进行语音识别及自然语言处理后执行对应的指令。
具体来说,在车外语音识别模组3和系统集成芯片8分别解析出对应的指令后,车外语音识别模组和系统集成芯片SOC会根据指令类型将相应解析后的指令发送给车机控制器MCU或数字信号处理器SOC自身处理,车机控制器MCU可完成的指令包括但不限于:控制执行元件5中的车窗打开及关闭、天窗打开及关闭、座椅位置调节、发动机启动及停止等,系统集成芯片SOC可完成的指令包括但不限于:发起导航地址搜索、播放音乐及检索、播放电台及检索等。
考虑到信号传递存在一定的延时,针对同一指令,车外语音识别模组3和系统集成芯片8会分别解析出一个指令。若所述车机控制器MCU4同时接收到所述车外语音识别模组3和所述系统集成芯片SOC8各自发出的相同控制指令,则所述车机控制器MCU4以所述车外语音识别模组3发送的控制指令为准控制整车上对应的执行元件5执行对应的指令;或若所述车外语音识别模组3和所述系统集成芯片SOC8各自发出的控制指令相同,则所述车机控制器MCU3以先接收到的控制指令为准控制整车上对应的执行元件5执行对应的指令。
当相应的执行元件5执行完指令后会会将成功的信息反馈给车机控制器MCU4,车机控制器MCU4收到指令执行成功信息后同步给车外语音识别模组3,车外语音识别模组3再驱动内部外挂Flash播放跟执行元件5执行结果相对应的音频文件,该音频文件通过数字信号处理器DSP6时将会传给车外语音识别模组3作为参考信号,供车外语音识别模组3进行回音消除,同时也会通过外置功放将放大后的音频信号直接传输给语音播放装置7,语音播放装置7播放出对应的声音,实现对用户的答复。
针对执行在线语音当通过车身控制器MCU4接收到执行元件5执行相应操作的结果后,系统集成芯片SOC8会通过TTS合成对应的音频文件(表示执行结果对应的音频流),通过I2S协议将合成的音频文件(音频流)传输给数字信号处理器DSP6后,数字信号处理器DSP6接收到该合成的音频信号后会反馈参考信号给系统集成芯片SOC8进行回音消除,并同时将该音频信号通过音频放大器传输给语音播放装置7,语音播放装置7播报出用户所发出指令的执行情况。
步骤101中,音频录入时车外语音识别模组低功耗工作状态是通过关闭识别功能,仅保留唤醒词声学特征比对实现的,此时车外语音模块的主要供电消耗来自车外四周布置的麦克风供电。在本实施例的一些可选实现方式中,步骤102为车外语音识别模组将预处理后的音频做分帧截取,逐帧提取声学特征,并将连续的声学特征作为判断的依据在唤醒程序模块中与预设的声学特征比对。预设唤醒词的声学特征为提高唤醒率,需要进行大样本采集并训练优化。声学特征的比对是持续性的,为降低该步骤的供电消耗,需要进行软件设计优化,关闭识别功能,同时充分利用硬件解算特性,降低不必要的算力开销。在成功匹配后,车外语音识别模组将通过启动系统集成芯片SOC并唤醒整车电器系统,步骤103需要车外语音识别模组通过将成功匹配的信号发送给车机控制器MCU,由车机控制器MCU控制供电电路为系统集成芯片SOC供电并通过车内通讯总线发送网络管理信号唤醒整车电器系统。步骤104为整车电器系统唤醒后,车外语音模块进入识别状态,处于识别状态下的音频处理逻辑可参考图3。
进一步参考图3,该流程为识别过程中车外语音交互系统的音频处理流程。步骤201为经由增益放大后的预处理音频进入车外语音识别模组,步骤202需要数字处理器DSP将给语音播放装置播放语音或音乐的内容作为参考信号输出给车外语音识别模组,车外语音识别模组将拾取的车外音频与参考信号结合做回声消除,在确定所拾取的音频中有与参考信号构成回声关系时,会直接将该回声从拾取音频中剔除。步骤203为应对发动机启动后车外语音识别音频经回声消除后仍有较大噪声导致严重影响车外语音交互体验而做的引擎声降噪,引擎声降噪是针对特定噪声环境进行优化,通过大量的训练完成了降噪算法的优化。步骤204为开启离在线融合识别模式,离线时车外语音交互系统可以快速识别用户指令,不受任何外部条件限制,但指令内容较少且固定;车辆与互联网连接通畅时,在线的自然语义理解能力使得用户可以随意地发出指令,不必拘泥于需要发出固定且死板的指令,车外语音交互系统均可准确理解。详细的离在线融合策略可参考图4。
进一步参考图4,该流程为开启离在线融合识别模式后,车外语音交互系统内部的融合策略。步骤301为经由图3中所述音频处理流程完成回声消除即引擎声降噪后的音频,该音频将作为离线识别及在线识别的输入。步骤302为车外语音识别模组对收到经处理后的音频进行有效音频检测,通过算法甄别人声及非人声,从而过滤在交互过程中用户开关车门及敲击车内物体的碰撞声,在检测到人声开始的前端点后,将通过算法区分本次对话的结束点。获取到对话结束点后,则截取本次对话开启步骤303进行离在线识别。离线识别为车外语音识别模组本地完成用户指令识别,识别速度快,但因本地算力及资源有限,无法支持众多的用户指令。在线识别为借用云端服务器的算力完成用户指令识别,需要车辆连接互联网且网络通畅。步骤304为收到离线识别结果后,车外语音交互系统根据识别时间和返回结果判断是否采用。在本实施例的一些可选实现方式中,识别结果融合方案有多种可选,以下仅做部分示例。例如:当用户指令较为简单,仅为打开车窗或启动发动机等简单操作,用户下达指令的音频在进行离在线识别时,离线由于部署在本地,反应快速,最先返回了正确的用户指令,此时车外语音交互系统确定该返回结果为第一优先级,根据该指令执行步骤305。当用户指令较为复杂,包含多个意图,如开启天窗并启动空调通风或启动发动机并发起导航,由于指令复杂本地识别无法返回正确结果,被确定为次等优先级,随后云端服务器在算力支撑下返回了正确指令,车外语音交互系统确定在线识别结果优于离线识别结果为第一优先级并根据该指令执行步骤305。步骤305为根据不同指令内容,进行相应控制,并根据控制反馈,播报对应回复,以告知用户执行结果。
在本发明另一实施方式中,车外语音交互系统还可以将手机蓝牙钥匙、智能钥匙、声纹钥匙及人脸识别作为唤醒整车电器系统的媒介。例如,在用户未靠近车辆时,车辆闭锁且整车电器系统处于休眠状态,车外语音识别模组处于低功耗状态,用户使用手机蓝牙钥匙时,靠近车辆,车载蓝牙钥匙模块会在检测到手机蓝牙钥匙时主动唤醒整车电器进入工作状态,车外语音识别模组进入识别状态并开启车外语音离线识别功能和在线识别功能。相似地,智能钥匙靠近时射频信号会通过车内射频接收器唤醒整车电器系统,用户进行人脸识别时点击主副驾门把手PE键会通过车身控制器唤醒整车电器系统,此时整车电器系统进入工作状态,车外语音识别模组进入识别状态。此时,车外语音识别模组进入识别时间极短,仅500毫秒左右便可快速和用户交互,用户从使用感知上并不会察觉到这一极短的等待时长。
Claims (6)
1.一种车外语音交互系统,其特征在于,包括:
布置在车外的语音拾取装置(2)和语音播放装置(7);与所述语音拾取装置(2)连接的车外语音识别模组(3);与所述车外语音识别模组(3)相连接的车机控制器MCU(4)和数字信号处理器DSP(6);以及与所述车机控制器MCU(4)和所述数字信号处理器DSP(6)连接的系统集成芯片SOC(8);
所述语音播放装置(7)与所述数字信号处理器DSP(6)连接;所述语音拾取装置(2)和所述车外语音识别模组(3)处于常电状态;
所述车外语音识别模组(3)在比对出所述语音拾取装置(2)拾取的车外音频信号中包含有预设的唤醒词时,利用预设的离线指令解析功能对所述车外音频信号进行解析得到控制指令;同时,被唤醒的所述系统集成芯片SOC(8)通过被唤醒的所述数字信号处理器DSP(6)从所述车外语音识别模组(3)处获取所述车外音频信号,再利用预设的在线指令解析功能对所述车外音频信号进行解析得到控制指令;
被唤醒的所述车机控制器MCU(4)基于所述车外语音识别模组(3)发送的控制指令和/或所述系统集成芯片SOC(8)发送的控制指令,控制整车上对应的执行元件(5)执行对应的指令;同时,所述系统集成芯片SOC(8)基于所述车外语音识别模组(3)发送的控制指令和/或所述系统集成芯片SOC(8)自身所确定的控制指令进行指令执行;
所述车机控制器MCU(4)在确定对应的执行元件(5)完成指令执行和/或所述系统集成芯片SOC(8)完成指令执行之后,通过所述数字信号处理器DSP(6)控制被唤醒的所述语音播放装置(7)进行语音反馈;
所述车外语音识别模组(3)在执行对所述车外音频信号进行解析和将所述车外音频信号通过所述数字信号处理器DSP(6)发送至所述系统集成芯片SOC(8)进行解析之前,先对所述车外音频信号进行回音消除和发动机噪声降噪处理;
所述车外语音识别模组(3)通过将所述车外音频信号输入预先实验获得的降噪算法中进行发动机噪声降噪处理;
其中,预先实验获得的降噪算法的获取步骤包括:
步骤1,通过将预先录入的有发动机噪声环境下的车外人声音频信号和有发动机噪声环境下的车辆前机舱内部音频信号输入到试验算法中,使试验算法参照所述车辆前机舱内部音频信号对所述车外人声音频信号进行发动机噪声过滤,得到过滤后的车外人声音频信号;
步骤2,再将过滤后的车外人声音频信号和预先录入的无发动机噪声环境下的车外人声音频信号进行相似性比对,得到相似性比对结果;
若相似性比对结果不满足设置要求,则将调节试验算法中的相关自变量参数,并重复步骤1和步骤2,直至相似性比对结果满足设置要求时,将当前的试验算法确定为所需的降噪算法。
2.根据权利要求1所述的系统,其特征在于,所述车机控制器MCU(4)在确定对应执行元件完成指令执行和/或系统集成芯片SOC(8)完成指令执行之后,还通过所述数字信号处理器DSP(6)向所述车外语音识别模组(3)反馈参考信号,使所述车外语音识别模组(3)基于所述参考信号对新拾取到的车外音频信号进行回音消除处理。
3.根据权利要求2所述的系统,其特征在于,所述车外语音识别模组(3)基于所述参考信号对新拾取到的车外音频信号进行回音消除处理的步骤包括:
所述车外语音识别模组(3)判断接收到所述参考信号和新拾取到的车外音频信号之间的间隔时间差是否小于预设时间差;
若小于,则判断所述参考信号和新拾取到的车外音频信号之间的信号幅值比是否位于预设幅值比范围内;
若位于,则基于所述参考信号对新拾取到的车外音频信号进行回音消除处理。
4.根据权利要求1所述的系统,其特征在于,所述车外语音识别模组(3)对所述车外音频信号进行回音消除和发动机噪声降噪处理的同时,唤醒整车上所有处于休眠状态的电器件。
5.根据权利要求1所述的系统,其特征在于,所述车外语音识别模组(3)通过从所拾取到的车外音频信号中提取声学特征,再将所提取的声学特征与预设的唤醒词进行比对,以确定所述车外音频信号中是否存在预设的唤醒词。
6.根据权利要求1所述的系统,其特征在于,被唤醒的所述车机控制器MCU(4)基于所述车外语音识别模组(3)发送的控制指令和/或所述系统集成芯片SOC(8)发送的控制指令,控制整车上对应的执行元件(5)执行对应的指令的步骤中:
若所述车机控制器MCU(4)同时接收到所述车外语音识别模组(3)和所述系统集成芯片SOC(8)各自发出的相同控制指令,则所述车机控制器MCU(4)以所述车外语音识别模组(3)发送的控制指令为准控制整车上对应的执行元件(5)执行对应的指令;或
若所述车外语音识别模组(3)和所述系统集成芯片SOC(8)各自发出的控制指令相同,则所述车机控制器MCU(4)以先接收到的控制指令为准控制整车上对应的执行元件(5)执行对应的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596296.8A CN113345433B (zh) | 2021-05-30 | 2021-05-30 | 一种车外语音交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110596296.8A CN113345433B (zh) | 2021-05-30 | 2021-05-30 | 一种车外语音交互系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113345433A CN113345433A (zh) | 2021-09-03 |
CN113345433B true CN113345433B (zh) | 2023-03-14 |
Family
ID=77472097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110596296.8A Active CN113345433B (zh) | 2021-05-30 | 2021-05-30 | 一种车外语音交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345433B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273447A (zh) * | 2021-09-30 | 2022-11-01 | 上海仙途智能科技有限公司 | 一种车辆调度方法和装置 |
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
CN115118816B (zh) * | 2021-10-22 | 2023-11-17 | 博泰车联网科技(上海)股份有限公司 | 一种基于位置的语音交互方法及系统 |
CN114758654B (zh) * | 2022-03-14 | 2024-04-12 | 重庆长安汽车股份有限公司 | 一种基于场景的汽车语音控制系统及控制方法 |
CN115346527A (zh) * | 2022-08-08 | 2022-11-15 | 科大讯飞股份有限公司 | 语音控制方法、装置、系统、车辆和存储介质 |
CN115294986B (zh) * | 2022-10-09 | 2023-01-10 | 深圳市鑫易网络科技有限公司 | 一种降低智能语音交互误唤醒的方法 |
CN115711077A (zh) * | 2022-11-29 | 2023-02-24 | 重庆长安汽车股份有限公司 | 一种车辆电动门无接触式控制方法、系统及汽车 |
CN116052668B (zh) * | 2023-03-28 | 2023-06-02 | 北京集度科技有限公司 | 一种语音识别处理方法、装置、车辆及计算机程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159096A (zh) * | 2006-10-02 | 2008-04-09 | 哈曼贝克自动系统股份有限公司 | 从车辆的驾驶室外部对车辆元件的声音控制 |
CN104810024A (zh) * | 2014-01-28 | 2015-07-29 | 上海力声特医学科技有限公司 | 一种双路麦克风语音降噪处理方法及系统 |
CN107103904A (zh) * | 2017-04-12 | 2017-08-29 | 奇瑞汽车股份有限公司 | 一种应用于车载语音识别的双麦克风降噪系统及降噪方法 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110111791A (zh) * | 2019-05-21 | 2019-08-09 | 扬州航盛科技有限公司 | 一种基于车载智能网联的语音识别系统 |
CN111312238A (zh) * | 2019-07-30 | 2020-06-19 | 中国第一汽车股份有限公司 | 一种车辆动作的控制方法及汽车 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131541B2 (en) * | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
CN106128449B (zh) * | 2016-08-16 | 2023-09-01 | 青岛歌尔声学科技有限公司 | 一种汽车主动降噪方法 |
US20200047687A1 (en) * | 2018-08-10 | 2020-02-13 | SF Motors Inc. | Exterior speech interface for vehicle |
CN110265052B (zh) * | 2019-06-24 | 2022-06-10 | 秒针信息技术有限公司 | 收音设备的信噪比确定方法、装置、存储介质及电子装置 |
CN110459234B (zh) * | 2019-08-15 | 2022-03-22 | 思必驰科技股份有限公司 | 用于车载的语音识别方法及系统 |
CN110660406A (zh) * | 2019-09-30 | 2020-01-07 | 大象声科(深圳)科技有限公司 | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 |
EP3809410A1 (en) * | 2019-10-17 | 2021-04-21 | Tata Consultancy Services Limited | System and method for reducing noise components in a live audio stream |
-
2021
- 2021-05-30 CN CN202110596296.8A patent/CN113345433B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101159096A (zh) * | 2006-10-02 | 2008-04-09 | 哈曼贝克自动系统股份有限公司 | 从车辆的驾驶室外部对车辆元件的声音控制 |
CN104810024A (zh) * | 2014-01-28 | 2015-07-29 | 上海力声特医学科技有限公司 | 一种双路麦克风语音降噪处理方法及系统 |
CN107103904A (zh) * | 2017-04-12 | 2017-08-29 | 奇瑞汽车股份有限公司 | 一种应用于车载语音识别的双麦克风降噪系统及降噪方法 |
CN108346433A (zh) * | 2017-12-28 | 2018-07-31 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
CN110111791A (zh) * | 2019-05-21 | 2019-08-09 | 扬州航盛科技有限公司 | 一种基于车载智能网联的语音识别系统 |
CN111312238A (zh) * | 2019-07-30 | 2020-06-19 | 中国第一汽车股份有限公司 | 一种车辆动作的控制方法及汽车 |
Also Published As
Publication number | Publication date |
---|---|
CN113345433A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113345433B (zh) | 一种车外语音交互系统 | |
EP3678135B1 (en) | Voice control in a multi-talker and multimedia environment | |
CN110070868B (zh) | 车载系统的语音交互方法、装置、汽车和机器可读介质 | |
CN102999161B (zh) | 一种语音唤醒模块的实现方法及应用 | |
US8738368B2 (en) | Speech processing responsive to a determined active communication zone in a vehicle | |
CN209183264U (zh) | 语音处理系统 | |
CN109754803A (zh) | 车载多音区语音交互系统及方法 | |
CN111660773B (zh) | 一种应用汽车上的声控车窗方法和系统 | |
CN205354646U (zh) | 一种应用于车载设备的智能语音识别系统 | |
CN111145757A (zh) | 车载语音智能蓝牙集成装置和方法 | |
CN103079145A (zh) | 新型车载多媒体播放器及其实现方法 | |
CN112309395A (zh) | 人机对话方法、装置、机器人、计算机设备和存储介质 | |
CN203722800U (zh) | 一种基于环境噪音检测的车载音响的音量自动调节器 | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
CN112820290A (zh) | 家电设备及其语音控制方法、语音装置、计算机存储介质 | |
CN112093602B (zh) | 一种电梯语音控制方法及装置 | |
CN115346527A (zh) | 语音控制方法、装置、系统、车辆和存储介质 | |
WO2022198365A1 (zh) | 一种语音控制方法及装置 | |
CN212010364U (zh) | 车载语音智能蓝牙集成装置 | |
CN109618266A (zh) | 双向实时通话音频处理方法及双向实时通话对讲系统 | |
CN112003666B (zh) | 车载收音机控制方法、装置、设备及存储介质 | |
CN114758654A (zh) | 一种基于场景的汽车语音控制系统及控制方法 | |
CN114537304A (zh) | 一种整车声音智能调节方法及系统 | |
CN202957962U (zh) | 新型车载多媒体播放器 | |
CN114187906A (zh) | 一种车辆控制器及语音唤醒方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |