CN109087631A - 一种适于复杂环境的车辆智能语音控制系统及其构建方法 - Google Patents

一种适于复杂环境的车辆智能语音控制系统及其构建方法 Download PDF

Info

Publication number
CN109087631A
CN109087631A CN201810896505.9A CN201810896505A CN109087631A CN 109087631 A CN109087631 A CN 109087631A CN 201810896505 A CN201810896505 A CN 201810896505A CN 109087631 A CN109087631 A CN 109087631A
Authority
CN
China
Prior art keywords
signal
unit
voice
denoising
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810896505.9A
Other languages
English (en)
Inventor
雷鹏
陈美玲
王俊
关振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810896505.9A priority Critical patent/CN109087631A/zh
Publication of CN109087631A publication Critical patent/CN109087631A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种适于复杂环境的车辆智能语音控制系统及其构建方法,该控制系统包括音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元,它们之间彼此相互连接。本发明的优点:1)采用小波阈值去噪去除复杂的噪声,能够自适应的选择最优小波基,能够根据噪声的变化选择阈值的大小;2)引入欠定盲源分离方法,可将语音指令从包含众多干扰的混合音频中分离出来,提高了对语音指令的识别率;3)系统仅使用二元麦克风作为音频输入端,节约了成本;4)所有接口均采用通用接口标准,兼容性强,便于应用于各种车辆平台。

Description

一种适于复杂环境的车辆智能语音控制系统及其构建方法
技术领域
本发明为一种适于复杂环境的车辆智能语音控制系统及其构建方法,它采用基于小波阈 值去噪和盲源分离的语音增强技术,并结合自动语音关键词识别技术,实现复杂车载环境中 语音指令的准确识别,提高车辆智能化和行车安全性,属于数字信号处理领域。
背景技术
智能驾驶是通过人工智能辅助或者代替人进行汽车驾驶的行为,它可以弥补人类驾驶员 存在的缺陷,使驾驶操作更加便捷和安全。随着传感器与人工智能技术的迅速发展,智能驾 驶已在汽车工业、信息技术和互联网等领域引起了广泛关注,与之相关的技术和产业如雨后 春笋般涌现。
作为人车交互的重要途径之一,车辆智能语音控制系统是该复杂智能交通平台的重要组 成部分,其通过接收、处理和识别驾驶者的语音指令,实现对车辆行驶状态或其他车载系统 的控制,并将必要信息进行实时反馈。基于语音控制的智能驾驶辅助系统可以解放驾驶人的 双手、实现非接触条件下的驾驶操作、导航及娱乐设备控制等功能。同时,与基于视频图像 的控制系统相比,语音交互方式可以减轻驾驶员的认知负荷,更有利于保持其视觉注意力的 集中,降低安全风险。
自动语音识别技术在过去几十年里蓬勃发展,并随着深度学习技术的应用取得了更加显 著的成就。关键词识别技术是语音识别技术的重要分支,其通过从语音流中准确识别包含的 关键词,来实现如机器人交互、特殊语言筛选和车内语音命令识别等功能。近年来现有的语 音识别技术仅在较低环境噪声的情况下能够取得较好的识别效果,但是真实的车载环境极其 复杂,除了胎噪、风噪和发动机噪声等之外,还包含外界干扰如汽车行驶时道路周边的干扰 以及车内干扰如车内多媒体的播放、除驾驶员之外的人员的交谈声等,这些噪声和干扰均会 降低车载语音控制系统的语音输出质量和语音识别率,从而降低设备的性能,干扰驾驶员的 驾驶。
传统的基于麦克风阵列的解决方法在声源数量较少和声源的到达方向(Directions of Arrivals,DOA)确定的情况下可以取得较好的效果,但是随着声源数量的增加,麦克风的 数量也随之增加,这样既增加了系统和信号处理的复杂性也提高了系统的成本,并且在车载 环境中并不是每次都确知声源的DOA,这样就使得系统缺乏灵活性。
盲源分离是一种从混合信号中恢复出源信号的方法,其不需要提前知道源信号的方向和 混合信道等先验知识,只根据对源信号的统计性假设取得混合信号的分离。然而该算法只适 用于无噪声的理想情况,噪声的存在会使信号分离效果不佳。小波去噪利用小波分析的多分 辨率特性,结合阈值去噪方法,在较大程度去噪的同时,减少对信号的损失,可以达到较好 的去噪效果,适用于复杂车载环境中语音信号的去噪问题。
针对上面提到的情况以及实际应用需求,本发明提出了一种基于盲源分离、小波去噪和 自动关键词识别技术的车辆智能语音控制系统,可以实现复杂车载环境中的语音信号去噪、 分离和关键词识别。该系统首先应用小波阈值去噪方法,去除音频收发设备接收到的混合信 号中的胎噪、风噪和发动机噪声等,实现初步的信号去噪处理。然后采用盲源分离相关的方 法,将初步去噪后的混合信号进行分离,得到驾驶员的语音命令、其他人员的交谈声和车载 多媒体播放的声音等信号,再将以上分离后的信号进行分类,获取驾驶员的语音命令。最后 通过语音关键词识别技术对该语音命令进行识别,根据识别的内容启用相应的功能模块,使 汽车系统依据驾驶员的命令做出反应。该系统综合运用了小波去噪、盲源分离和语音关键词 识别三种方法,在对含噪声的混合信号进行去噪、分离和识别的同时,使用较少数量的麦克 风,降低系统的成本,还能提高系统的语音识别率,减少因噪声和干扰对语音控制系统性能 的影响,降低安全风险。
发明内容
本发明目的在于提供一种适于复杂环境的车辆智能语音控制系统及其构建方法,它是一 种结合小波去噪、盲源分离和语音关键词识别技术的车载智能语音控制系统的设计方法。其 采用小波去噪和盲源分离方法对复杂环境下的车载语音设备接收的混合信号进行去噪和分 离,一方面可以减少接收麦克风的数量,降低系统成本,另一方面,在进行信号去噪的同时, 还能够将有用信号和干扰信号进行分离,提高后续系统的语音识别率。该系统还结合语音分 类和关键词识别技术,准确获取驾驶员的语音命令进行识别,进而执行相应的功能,提高了 该语音控制系统的性能,有效辅助驾驶员的驾驶行为,降低安全风险。
本发明一种适于复杂环境的车辆智能语音控制系统,它包括音频输入输出单元、信号预 处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据 分析单元和功能执行单元,它们之间彼此相互连接。
所述音频输入输出单元,它与信号预处理单元和功能执行单元相连接,通过二元车载麦 克风阵列将语音流输入系统,并将功能执行单元分析处理后的反馈语音输出,完成与驾驶员 之间的交互。
所述信号预处理单元,它与音频输入输出单元和信号去噪单元相连接,负责对从音频接 口输入的混合音频信号进行语音活动检测预处理,定位语音信号的起始位置和结束位置,存 储经语音活动检测后获得的混合语音信号片段,并将混合音频信号的非语音片段噪声进行单 独存储,为后续的语音信号处理做好相应的信息准备。
所述信号去噪单元,它与信号预处理单元和信号盲源分离单元相连接,完成预处理后的 混合语音信号的去噪。该单元采用自适应小波阈值去噪方法,结合存储的非语音片段噪声不 断调整阈值的大小,对混合语音信号片段进行初步去噪,去除信号中包含的胎噪、风噪和发 动机噪声等,为后续的干扰信号分离提供较为纯净的混合语音信号。
所述信号盲源分离单元,它与信号去噪单元和信号分类单元相连接,负责对信号去噪单 元处理后的较为纯净的混合语音信号进行盲源分离,即将混合信号中的语音指令、多媒体播 放的声音和道路周围的干扰等信号进行分离,并将分离后的信号输送到后续处理单元进行处 理。
所述信号分类单元,它与信号盲源分离单元和语音关键词识别单元相连接,负责对信号 盲源分离单元输出的信号进行分类,辨别其为语音信号或非语音信号,并去除除语音指令信 号之外的其他信号。该单元采用基于最小距离的音频分类方法,获取驾驶员的语音指令信号, 为后续的语音识别和分析做准备。
所述语音关键词识别单元,它与信号分类单元和数据分析单元相连接,负责对信号分类 单元得到的语音指令信号进行关键词识别。该语音关键词识别单元采用经训练好的卷积神经 网络(Convolution Neural Network,CNN)语音关键词识别模型,对语音指令信号中的关键 词进行识别,并将识别的结果传输到数据分析单元进行相关处理。
所述数据分析单元,它与语音关键词识别单元、功能执行单元和音频输入输出单元相连 接。该单元对语音信号识别的关键词进行分析,并和预先设定在该单元的功能指令关键词进 行相关性计算,若与预先设置的功能指令相关,则将信息传输到功能执行单元,若未发现相 关的功能指令,则将反馈信息传输到音频输入输出单元,提醒驾驶员重新输入语音指令信号。
所述功能执行单元,它与数据分析单元相连接,通过对从数据分析单元获得的功能指令 信息按照通信协议进行编码,将编码后的数据通过汽车总线传输至相应的功能区,从而执行 相关的功能,实现语音命令对汽车的智能化控制。
本发明所提一种适于复杂环境的车辆智能语音控制系统,其工况概述如下:
车辆启动后,车载麦克风接收车厢内的音频信号,然后系统对输入的混合音频进行语音 活动检测处理,判断有无语音输入。若检测到语音信号的输入,则定位语音信号的起始端和 结束端,然后将该段信号进行储存,并记录非语音片段的噪声。接着对存储的信号进行小波 阈值去噪,初步去除混合语音信号中的噪声,之后对混合信号进行盲源分离处理,将语音指 令和其他干扰信号进行分离。分离后的信号经过分类得到驾驶员的语音指令,后续的单元将 对语音指令进行关键词识别,并分析识别后的结果,将信息反馈给功能执行单元或音频输入 输出端,实现与语音指令相关的操作或者与驾驶员进行交互。系统流程图如图2所示。
本发明一种适于复杂环境的车辆智能语音控制系统的构建方法,包括下述几个步骤:
步骤一:接收混合音频信号并进行A/D转换
通过车载麦克风阵列接收混合音频,麦克风内嵌A/D转换器将接收的音频信号转换为 数字信号,即混合音频信号。
步骤二:判断有无语音信号并构成通信数据帧
对步骤一输出的混合音频信号进行语音活动检测,检测语音信号的有无,若有语音信号 输入则定位信号的起点和终点,之后将包含语音的混合音频信号片段及其之间的非语音噪声 片段存储到数据缓存区,每隔80~120ms从数据缓存中读取数据,若有数据存入缓存区则按 照数据协议封装成通信数据帧。
步骤三:最优小波基的选择和混合音频信号的自适应小波阈值去噪
读取步骤二封装的通信数据帧中的混合音频数据,针对其中包含的胎噪、风噪、发动机 噪声、汽车行驶噪声和汽车鸣笛声,进行小波阈值去噪,通过计算小波基与混合音频信号片 段的相关系数选择最优小波基,并通过非语音噪声片段的变化自适应的调整阈值的大小,完 成信号的初步去噪过程。
步骤四:混合音频信号的盲源分离
步骤三去噪后的信号传输至信号盲源分离单元,采用基于稀疏分量分析的欠定盲源分离 算法,估计出混合矩阵,再根据混合矩阵恢复出车内的各个声源信号。
步骤五:音频信号分类
采用基于最小距离的音频分类方法,对步骤四得到的各个声源信号进行分类,获得其中 的语音指令信号,并将语音指令信号传输至语音关键词识别单元。
步骤六:语音指令识别
采用基于CNN的关键词识别方法,对从步骤五接收的语音流进行关键词识别,将识别 的结果传输至数据分析单元。
步骤七:语音指令识别
将步骤六得到的关键词识别的结果与预先设定在数据分析单元的功能指令进行相关性 计算,并与设定的阈值进行比较,若超过某一指令的阈值,则将该功能指令信息传输至功能 执行单元,若未发现相关的功能,则将反馈信息传输至音频输入输出单元,经D/A转换后 输出系统,提醒驾驶员重新输入语音指令。
步骤八:语音指令功能实现
对接收到的数据分析单元信号,按照通信协议进行编码,通过汽车总线传输至功能区, 执行相应功能,并将结果反馈到音频输入输出单元。
优点及功效:本发明一种适于复杂环境的车辆智能语音控制系统及其构建方法,实现了 复杂车载环境中语音指令的准确识别,主要具有以下优点:
1)采用小波阈值去噪去除复杂的噪声,能够自适应的选择最优小波基,能够根据噪声 的变化选择阈值的大小;
2)引入欠定盲源分离方法,可将语音指令从包含众多干扰的混合音频中分离出来,提 高了对语音指令的识别率;
3)系统仅使用二元麦克风作为音频输入端,节约了成本;
4)所有接口均采用通用接口标准,兼容性强,便于应用于各种车辆平台。
可见,结合小波阈值去噪和盲源分离方法的车辆智能语音控制系统,一方面能够提高语 音识别率和行车安全,另一方面在系统结构上采用通用化设计,可与各种车辆平台相兼容。 因此该系统在智能驾驶汽车中具有较高的应用价值。
附图说明
图1是系统结构图。
图2是系统流程图。
图3是接收混合音频信号并进行A/D转换原理图。
图4是判断有无语音信号并构成通信数据帧原理图。
图5是最优小波基的选择和混合音频的自适应小波阈值去噪原理图。
图6是混合音频的盲源分离原理图。
图7是音频信号分类原理图。
图8是语音指令识别原理图。
图9是语音识别结果分析原理图。
图10是语音指令功能实现原理图。
图中符号说明如下:
A/D 模/数转换; D/A 数/模转换; CNN 卷积神经网络; CAN 控制器局域 网络。
具体实施方式
见图1—图10,本发明提出一种适于复杂环境的车辆智能语音控制系统,包括:音频输 入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关 键词识别单元、数据分析单元和功能执行单元。它们之间彼此相互连接。
所述音频输入输出单元,通过音频输入传感器——二元麦克风阵列将声音流输入系统, 并通过麦克风内嵌的A/D转换器将音频信号转换为数字信号。
所述信号预处理单元,通过语音活动检测方法检测输入音频中是否包含语音信号,并定 位语音信号的起始位置和结束位置,然后将包含语音的混合音频信号片段按照协议封装成通 信数据帧。
所述信号去噪单元,负责对预处理后的混合音频信号进行小波阈值去噪,即根据信号的 特性和噪声的变化自适应得到选择最优小波基和调整阈值的大小,然后使用这些小波基和阈 值对混合信号进去噪。
所示信号盲源分离单元,负责对去噪后的混合音频信号进行盲源分离,即采用基于稀疏 分量分析的欠定盲源分离方法估计出混合矩阵,然后对混合音频信号进行分离。
所述信号分类单元,负责对盲源分离得到的信号进行分类,以获取驾驶员的语音指令信 号,即采用基于最小距离的音频分类方法,分类得到语音指令信号,并将其传输至语音关键 词识别单元。
所述语音关键词识别单元,将信号分类单元传输至的语音指令信号流的关键词识别,即 采用基于CNN的关键词识别方法,对语音指令信号进行关键词识别,并将识别的语音指令 结果传输至数据分析单元。
所述数据分析单元,负责对关键词识别的结果进行分析,匹配其所对应的功能或者反馈 错误信息,即将关键词识别结果与系统预设的功能关键词进行相关性计算,并与各功能设定 的阈值进行比较,若超过设定的阈值则将该功能指令信息传输至功能执行单元,否则反馈错 误信息。
所述功能执行单元,负责执行与语音指令相关的功能,即通过将接收的数据分析单元的 指令进行编码,然后经汽车总线传输至相应的功能单元执行该功能,实现语音指令对汽车的 智能化控制。
本发明提出一种适于复杂环境的车辆智能语音控制系统,如图1所示,工况概述如下: 首先音频输入输出单元接收混合音频信号;经过信号预处理单元进行语音活动检测,将包含 语音信号的混合音频按照数据协议封装成通信数据帧,传输至信号去噪单元;然后经过自适 应小波阈值去噪,去除混合音频信号中的噪声;再经过盲源分离单元,对混合音频信号进行 分离,得到语音指令信号及其他干扰信号;之后信号分类单元对分离后的信号进行处理,分 类出语音指令信号;将语音指令信号传输至语音关键词识别单元进行关键词识别;然后数据 分析单元对识别结果进行分析,若语音指令信号中包含系统预设的功能,则将信号传输至功 能执行单元,否则将反馈信息传输至音频输入输出单元,提醒驾驶员重新输入指令;最后功 能执行单元执行与语音指令信号相关的功能,辅助驾驶员驾驶。
本发明一种适于复杂环境的车辆智能语音控制系统的构建方法,它包括下述几个步骤:
步骤一:接收混合音频信号并进行A/D转换
车内的混合音频信号是车载智能语音控制系统的信号源,它包括驾驶员的语音指令;胎 噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声;街道周围的声音干扰、其他汽车的行 车干扰、车内的音乐广播声和其他乘客的交谈声等干扰声音,这些都将通过音频输入输出设 备接收进入系统。其中,音频接收传感器为二元麦克风阵列,麦克风内嵌的A/D转换器可 将获取的音频信号转化为可用于后续处理的数字信号。接收混合音频信号并进行A/D转换 原理图如图3所示。
接收混合音频信号并进行A/D转换的方法是:通过车载麦克风阵列接收混合音频,麦 克风内嵌A/D转换器将接收的音频信号转换为数字信号,即混合音频信号。
步骤二:判断有无语音信号并构成通信数据帧
由于本系统在复杂环境中使用,为提升系统的处理效率,判断有无语音信号尤为关键。 语音活动检测的目的是检测输入信号是否为语音信号,并定位语音信号的起始位置和结束位 置,避免系统对无语音区间(包括静音区间和背景噪声区间)进行处理。因此对输入的音频 信号进行基于门限比较法的语音活动检测,提取混合语音信号的短时能量、短时过零率和短 时自相关的特征参数,与设定的特定门限值进行比较,判断有无语音信号的输入,若有语音 信号输入则检测语音信号的起点和终点,之后将包含语音的混合音频信号片段及其之间包含 的非语音噪声片段存储到数据缓存区,记录语音及当时的环境噪声,为后续的处理准备数据。 信号预处理单元通过标准数据接口与系统相连,对于一般人的语速而言,语句间的时间间隔 在100ms左右,故为增强系统的适应性,每隔80~120ms从数据缓存区读取数据,若有数据 存入缓存区,则将其封装成通信数据帧,在CAN总线中传输。判断有无语音信号并构成通 信数据帧的原理图如图4所示。
判断有无语音信号并构成通信数据帧的方法是:对步骤一输出的混合音频信号进行语音 活动检测,检测语音信号的有无,若有语音信号输入则定位信号的起点和终点,之后将包含 语音的混合音频信号片段及其之间包含的非语音噪声片段存储到数据缓存区,每隔 80~120ms从数据缓存中读取数据,若有数据存入缓存区则按照数据协议封装成通信数据帧。
步骤三:最优小波基的选择和混合音频信号的自适应小波阈值去噪
混合音频信号中的噪声会影响语音关键词识别的识别率,因此去噪对于提升本系统的性 能有着重要的作用。该步骤主要针对混合音频信号中包含的胎噪、风噪、发动机噪声、汽车 行驶噪声和汽车鸣笛声这些不规则噪声进行处理。小波阈值去噪首先对信号进行小波分解, 然后对分解的系数进行阈值处理,最后对处理后的系数重构得到去噪后的信号。小波变换对 混合信号进行分解后,能够使信号的能量在小波域集中于一些较大的小波系数中,而噪声系 数较小且分布在整个小波域内,因此可以利用这一特性,对分解后的系数进行阈值处理,使 得大部分的噪声系数减小为零,又能较大程度的保留信号系数,达到去噪效果。其中,小波 阈值去噪的过程如下:
1)选择合适的小波基,对信号进行小波分解,得到分解后的小波系数;
2)选择合适的阈值和阈值函数,对分解得到的小波系数进行阈值处理;
3)对阈值处理后的小波系数进行重构,得到去噪后的信号。
小波基的选择对于去噪效果有重要的影响,对于给定的信号,最优小波基能够使声音信 号的小波系数最大化,此外还能够更好地表征其特征频率分量,使小波去噪性能最优。通常 与信号或其属性类似的小波基能产生更好的信号和噪声的分离效果,因此,通过计算信号与 小波基的相关系数,选择最优小波基进行去噪,公式如下
r=correlation(x,wavelet) (1)
其中,x为某一路混合音频信号,wavelet为小波基,使得r值最大的小波基即为最优小波基。
自适应小波阈值去噪根据噪声的变化自适应的改变阈值的大小,近似认为噪声在短时间 内不变,则将记录的非语音片段处的信号作为该段时间的噪声,进行自适应阈值去噪。最优 小波基的选择和混合音频的自适应小波阈值去噪如图5所示。
最优小波基的选择和混合音频的自适应小波阈值去噪过程为:读取步骤二封装的通信数 据帧中的混合音频数据,针对其中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣 笛声,进行小波阈值去噪,通过计算小波基与混合音频信号片段的相关系数选择最优小波基, 并通过非语音噪声片段的变化自适应的调整阈值的大小,完成信号的初步去噪过程。
步骤四:混合音频信号的盲源分离
由于汽车内存在着诸多干扰,如车内多媒体设备播放的音乐声、其他人的交谈声和道路 周边的声音,仅通过信号去噪的方法很难将这些干扰和驾驶员的语音指令信号分开,因此盲 源分离可以作为一种很好的解决方法。其是指在没有源信号和混合信道等先验知识的前提 下,仅通过对源信号的一些统计性假设,从混合信号(观测信号)中恢复出源信号的过程,
具体过程如下。
假设有N个源信号,表示为s=[s1 s2L sN]T,接收传感器(麦克风)的数目为M,则混合信号可表示为x=[x1 x2L xM]T,则有
其中,A为源信号到接收传感器之间的冲激相应,为构建混合信号的混合矩阵。
盲源分离的目的是寻找分离矩阵W,使分离得到的信号为
y=Wx=WAs=Ps (3)
其中,P为一置换矩阵,即每行每列中只有一个元素值等于1,其余均为0。该过程可以将 混合信号分离开,便于后续的语音识别过程。
按照源信号和接收传感器的数目可以分为:欠定盲源分离、正定盲源分离和超定盲源分 离,依次指的是源信号数目大于、等于和小于接收传感器的数目。
在真实的环境中,声源和接收传感器之间存在一定的距离,因此混合信号不再为源信号 的线性混合方式,而是卷积混合,则此时第m路混合信号为
其中,amnd表示源n到接收传感器m的冲激响应,d为离散时间延迟。
为降低成本,本系统使用二元麦克风阵,故为欠定情形。本系统采用基于稀疏分量分析 的欠定盲源分离算法,估计出混合矩阵,再由混合矩阵恢复出源信号,最终分别得到语音指 令和其它各干扰信号。混合音频信号的盲源分离的原理图如图6所示。
混合音频信号的盲源分离方法过程为:步骤三去噪后的信号传输至信号盲源分离单元, 采用基于稀疏分量分析的欠定盲源分离算法,估计出混合矩阵,再根据混合矩阵恢复出车内 的各个声源信号。
步骤五:音频信号分类
经过盲源分离之后,各个信号都被分离开,包括驾驶员的语音指令信号、其他人的交谈 声、车载多媒体播放的声音和道路周边的干扰声音。由于盲源分离存在排序不确定性,所以 无法确定分离后的声音片段顺序。因此,为提高处理效率,本系统仅将语音指令信号输送到 语音关键词识别单元去识别,所以需要对音频进行分类。
考虑计算复杂度与实时处理性能要求,本系统采用基于最小距离的音频分类方法,辨别 语音指令,并将语音指令传输到下一处理单元。音频信号分类的原理图如图7所示。
音频信号分类方法过程为:采用基于最小距离的音频分类方法,对步骤四得到的各个声 源信号进行分类,获得其中的语音指令信号,并将其传输至语音关键词识别单元。
步骤六:语音指令识别
关键词识别技术是语音识别中的一个重要研究领域,其可在连续的语音流中检测出给定 的关键词。在语音识别中,声学模型的建立至关重要,影响着最终语音识别性能。当前建立 声学模型的方法主要包括基于GMM-HMM(Gaussian Mixture Model-Hidden MarkovModel) 方法和基于神经网络的方法,其中GMM-HMM方法着眼于声学特征的提取,且其利用高斯 混合模型拟合状态观测符号的概率分布,拟合的结果取决于混合高斯函数的个数,具有一定 的局限性;随着人工智能的兴起,语音识别技术也进入了一个新的阶段,近年来基于深度学 习的端到端语音识别技术蓬勃发展,取得了显著的成就。其中,基于CNN的语音识别技术 广受欢迎,其由多个卷积层、池化层交替出现构成整个网络的前端用于特征提取,在后端由 多个全连接层用于对提取到的局部特征进行全局上的整合与变换。相比于传统方法,CNN 能够从大量的训练数据中提取有效且泛化能力强的特征,从而提高识别率。因此,本系统采 用基于CNN的关键词识别方法,利用事先训练好的模型,对语音指令进行关键词识别。语 音指令识别的原理图如图8所示。
语音指令识别方法过程为:采用基于CNN的关键词识别方法,对接收的语音流进行关 键词识别,将识别的结果传输至数据分析单元。
步骤七:语音识别结果分析
对语音指令信号进行关键词识别之后,需要对识别的结果进行分析,随后启动与指令相 关的功能,例如拨打电话、导航和开启多媒体等。该分析采用相关性计算方法,在系统内部 预先设定需要实现的功能,并依据统计方法确定各自的阈值,然后将关键词识别的结果分别 与各功能指令进行相关性计算,若超过某一指令的阈值,则将结果传输到功能执行单元,若 未发现较强相关性的功能,则将反馈信息传输至音频输入输出单元,提醒驾驶员重新输入语 音指令信号。语音识别结果分析的原理图如图9所示。
语音识别结果分析方法过程为:将步骤六得到的关键词识别结果与预先设定在数据分析 单元的功能指令进行相关性计算,并与相应阈值进行比较,若超过某一指令的阈值,则将该 功能指令信息传输至功能执行单元,若未发现相关的功能,则将反馈信息传输至音频输入输 出单元,经D/A转换后输出系统,提醒驾驶员重新输入语音指令。
步骤八:语音指令功能实现
在功能执行单元,将与功能相关的指令按照通信协议进行编码,将编码后的数据通过汽 车总线传输至功能区,从而执行相应功能,实现语音命令对汽车的智能化控制,并将结果反 馈到音频输入输出单元。语音指令功能实现的原理图如图10所示。
语音指令功能实现方法过程为:对接收到的数据分析单元信号,按照通信协议进行编码, 通过汽车总线传输至相应得到功能区,执行相关的功能,并将结果反馈到音频输入输出单元。

Claims (2)

1.一种适于复杂环境的车辆智能语音控制系统,其特征在于:该系统包括音频输入输出单元、信号预处理单元、信号去噪单元、信号盲源分离单元、信号分类单元、语音关键词识别单元、数据分析单元和功能执行单元,它们之间彼此相互连接;
所述音频输入输出单元,它与信号预处理单元和功能执行单元相连接,通过二元车载麦克风阵列将语音流输入系统,并将功能执行单元分析处理后的反馈语音输出,完成与驾驶员之间的交互;
所述信号预处理单元,它与音频输入输出单元和信号去噪单元相连接,负责对从音频接口输入的混合音频信号进行语音活动检测预处理,定位语音信号的起始位置和结束位置,存储经语音活动检测后获得的混合语音信号片段,并将混合音频信号的非语音片段噪声进行单独存储,为后续的语音信号处理做好相应的信息准备;
所述信号去噪单元,它与信号预处理单元和信号盲源分离单元相连接,完成预处理后的混合语音信号的去噪;该单元采用自适应小波阈值去噪方法,结合存储的非语音片段噪声不断调整阈值的大小,对混合语音信号片段进行初步去噪,去除信号中包含的胎噪、风噪和发动机噪声,为后续的干扰信号分离提供较为纯净的混合语音信号;
所述信号盲源分离单元,它与信号去噪单元和信号分类单元相连接,负责对信号去噪单元处理后的较为纯净的混合语音信号进行盲源分离,即将混合信号中的语音指令、多媒体播放的声音和道路周围的干扰信号进行分离,并将分离后的信号输送到后续处理单元进行处理;
所述信号分类单元,它与信号盲源分离单元和语音关键词识别单元相连接,负责对信号盲源分离单元输出的信号进行分类,辨别其为语音信号或非语音信号,并去除除语音指令信号之外的其他信号;该单元采用基于最小距离的音频分类方法,获取驾驶员的语音指令信号,为后续的语音识别和分析做准备;
所述语音关键词识别单元,它与信号分类单元和数据分析单元相连接,负责对信号分类单元得到的语音指令信号进行关键词识别;该语音关键词识别单元采用经训练好的卷积神经网络语音关键词识别模型,对语音指令信号中的关键词进行识别,并将识别的结果传输到数据分析单元进行相关处理;
所述数据分析单元,它与语音关键词识别单元、功能执行单元和音频输入输出单元相连接;该单元对语音信号识别的关键词进行分析,并和预先设定在该单元的功能指令关键词进行相关性计算,若与预先设置的功能指令相关,则将信息传输到功能执行单元,若未发现相关的功能指令,则将反馈信息传输到音频输入输出单元,提醒驾驶员重新输入语音指令信号;
所述功能执行单元,它与数据分析单元相连接,通过对从数据分析单元获得的功能指令信息按照通信协议进行编码,将编码后的数据通过汽车总线传输至相应的功能区,从而执行相关的功能,实现语音命令对汽车的智能化控制。
2.一种适于复杂环境的车辆智能语音控制系统的构建方法,其特征在于:该方法包括下述几个步骤:
步骤一:接收混合音频信号并进行A/D转换
通过车载麦克风阵列接收混合音频,麦克风内嵌A/D转换器将接收的音频信号转换为数字信号,即混合音频信号;
步骤二:判断有无语音信号并构成通信数据帧
对步骤一输出的混合音频信号进行语音活动检测,检测语音信号的有无,若有语音信号输入则定位信号的起点和终点,之后将包含语音的混合音频信号片段及其之间的非语音噪声片段存储到数据缓存区,每隔80~120ms从数据缓存中读取数据,若有数据存入缓存区则按照数据协议封装成通信数据帧;
步骤三:最优小波基的选择和混合音频信号的自适应小波阈值去噪
读取步骤二封装的通信数据帧中的混合音频数据,针对其中包含的胎噪、风噪、发动机噪声、汽车行驶噪声和汽车鸣笛声,进行小波阈值去噪,通过计算小波基与混合音频信号片段的相关系数选择最优小波基,并通过非语音噪声片段的变化自适应的调整阈值的大小,完成信号的初步去噪过程;
步骤四:混合音频信号的盲源分离
步骤三去噪后的信号传输至信号盲源分离单元,采用基于稀疏分量分析的欠定盲源分离算法,估计出混合矩阵,再根据混合矩阵恢复出车内的各个声源信号;
步骤五:音频信号分类
采用基于最小距离的音频分类方法,对步骤四得到的各个声源信号进行分类,获得其中的语音指令信号,并将语音指令信号传输至语音关键词识别单元;
步骤六:语音指令识别
采用基于CNN的关键词识别方法,对从步骤五接收的语音流进行关键词识别,将识别的结果传输至数据分析单元;
步骤七:语音指令识别
将步骤六得到的关键词识别的结果与预先设定在数据分析单元的功能指令进行相关性计算,并与设定的阈值进行比较,若超过某一指令的阈值,则将该功能指令信息传输至功能执行单元,若未发现相关的功能,则将反馈信息传输至音频输入输出单元,经D/A转换后输出系统,提醒驾驶员重新输入语音指令;
步骤八:语音指令功能实现
对接收到的数据分析单元信号,按照通信协议进行编码,通过汽车总线传输至功能区,执行相应功能,并将结果反馈到音频输入输出单元。
CN201810896505.9A 2018-08-08 2018-08-08 一种适于复杂环境的车辆智能语音控制系统及其构建方法 Pending CN109087631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810896505.9A CN109087631A (zh) 2018-08-08 2018-08-08 一种适于复杂环境的车辆智能语音控制系统及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810896505.9A CN109087631A (zh) 2018-08-08 2018-08-08 一种适于复杂环境的车辆智能语音控制系统及其构建方法

Publications (1)

Publication Number Publication Date
CN109087631A true CN109087631A (zh) 2018-12-25

Family

ID=64833945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810896505.9A Pending CN109087631A (zh) 2018-08-08 2018-08-08 一种适于复杂环境的车辆智能语音控制系统及其构建方法

Country Status (1)

Country Link
CN (1) CN109087631A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669663A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN109920434A (zh) * 2019-03-11 2019-06-21 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN110136714A (zh) * 2019-05-14 2019-08-16 北京探境科技有限公司 自然交互语音控制方法及装置
CN110426569A (zh) * 2019-07-12 2019-11-08 国网上海市电力公司 一种变压器声信号降噪处理方法
CN110428833A (zh) * 2019-07-26 2019-11-08 阿尔法巴人工智能(深圳)有限公司 一种用于无人驾驶的智能语音交互系统
CN110767215A (zh) * 2019-08-01 2020-02-07 北京嘀嘀无限科技发展有限公司 一种训练语音识别模型、识别语音的方法及装置
CN111341342A (zh) * 2020-02-11 2020-06-26 上海应用技术大学 基于环境声分离的车载语音提取方法及系统
CN112259113A (zh) * 2020-09-30 2021-01-22 清华大学苏州汽车研究院(相城) 一种提高车内语音识别准确率的前处理系统及其控制方法
WO2021031811A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种语音增强方法和装置
CN112954122A (zh) * 2021-01-22 2021-06-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法
CN113099353A (zh) * 2021-04-21 2021-07-09 浙江吉利控股集团有限公司 一种用于车辆的集成麦克风、安全带、方向盘及车辆
CN113211467A (zh) * 2021-07-07 2021-08-06 江西丹巴赫机器人股份有限公司 基于5g音频传输的智能远程搬运机器人
CN114132736A (zh) * 2021-12-03 2022-03-04 四川东泉机械设备制造有限公司 板状底模运输用系统
CN114189725A (zh) * 2021-12-10 2022-03-15 国微集团(深圳)有限公司 一种条件接收卡
CN114265373A (zh) * 2021-11-22 2022-04-01 煤炭科学研究总院 综采面一体式操控台控制系统
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030010432A (ko) * 2001-07-28 2003-02-05 주식회사 엑스텔테크놀러지 잡음환경에서의 음성인식장치
CN103198829A (zh) * 2013-02-25 2013-07-10 惠州市车仆电子科技有限公司 一种降低车内噪音提高语音识别率的方法、装置和设备

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669663A (zh) * 2018-12-28 2019-04-23 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN113986187A (zh) * 2018-12-28 2022-01-28 阿波罗智联(北京)科技有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN113986187B (zh) * 2018-12-28 2024-05-17 阿波罗智联(北京)科技有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN109669663B (zh) * 2018-12-28 2021-10-12 百度在线网络技术(北京)有限公司 音区幅值获取方法、装置、电子设备及存储介质
CN109920434A (zh) * 2019-03-11 2019-06-21 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN109920434B (zh) * 2019-03-11 2020-12-15 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN110136714A (zh) * 2019-05-14 2019-08-16 北京探境科技有限公司 自然交互语音控制方法及装置
CN110426569A (zh) * 2019-07-12 2019-11-08 国网上海市电力公司 一种变压器声信号降噪处理方法
CN110426569B (zh) * 2019-07-12 2021-09-21 国网上海市电力公司 一种变压器声信号降噪处理方法
CN110428833A (zh) * 2019-07-26 2019-11-08 阿尔法巴人工智能(深圳)有限公司 一种用于无人驾驶的智能语音交互系统
CN110767215A (zh) * 2019-08-01 2020-02-07 北京嘀嘀无限科技发展有限公司 一种训练语音识别模型、识别语音的方法及装置
WO2021031811A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种语音增强方法和装置
CN111341342A (zh) * 2020-02-11 2020-06-26 上海应用技术大学 基于环境声分离的车载语音提取方法及系统
CN112259113A (zh) * 2020-09-30 2021-01-22 清华大学苏州汽车研究院(相城) 一种提高车内语音识别准确率的前处理系统及其控制方法
CN112954122A (zh) * 2021-01-22 2021-06-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法
CN112954122B (zh) * 2021-01-22 2022-10-11 成都天奥信息科技有限公司 甚高频话音通信系统话音比选方法
CN113099353A (zh) * 2021-04-21 2021-07-09 浙江吉利控股集团有限公司 一种用于车辆的集成麦克风、安全带、方向盘及车辆
CN113211467A (zh) * 2021-07-07 2021-08-06 江西丹巴赫机器人股份有限公司 基于5g音频传输的智能远程搬运机器人
CN113211467B (zh) * 2021-07-07 2021-12-07 云鼎科技股份有限公司 基于5g音频传输的智能远程搬运机器人
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
CN114265373A (zh) * 2021-11-22 2022-04-01 煤炭科学研究总院 综采面一体式操控台控制系统
CN114132736A (zh) * 2021-12-03 2022-03-04 四川东泉机械设备制造有限公司 板状底模运输用系统
CN114132736B (zh) * 2021-12-03 2023-08-08 四川东泉机械设备制造有限公司 板状底模运输用系统
CN114189725A (zh) * 2021-12-10 2022-03-15 国微集团(深圳)有限公司 一种条件接收卡

Similar Documents

Publication Publication Date Title
CN109087631A (zh) 一种适于复杂环境的车辆智能语音控制系统及其构建方法
CN101354887B (zh) 用在语音识别中的环境噪声注入方法
US8560313B2 (en) Transient noise rejection for speech recognition
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
CN104332159B (zh) 一种车载语音操作系统人机互动方法及装置
CN106297785B (zh) 一种基于车联网的智能服务系统
CN110600054B (zh) 基于网络模型融合的声场景分类方法
CN111341349B (zh) 情绪推断装置、情绪推断方法、及存储介质
US20190311713A1 (en) System and method to fulfill a speech request
CN108630221A (zh) 基于量化snr分析和自适应维纳滤波的音频信号质量增强
CN103824557A (zh) 一种具有自定义功能的音频检测分类方法
US20130211828A1 (en) Speech processing responsive to active noise control microphones
CN102097096A (zh) 在语音识别后处理过程中使用音调来改进识别精度
CN106828102A (zh) 汽车仪表盘及控制方法
Del Campo et al. A real-time driver identification system based on artificial neural networks and cepstral analysis
US8386125B2 (en) Adaptive communication between a vehicle telematics unit and a call center based on acoustic conditions
US20130211832A1 (en) Speech signal processing responsive to low noise levels
CN112259113A (zh) 一种提高车内语音识别准确率的前处理系统及其控制方法
CN106931989A (zh) 一种智能调节导航音量的方法及其导航装置
CN105551484A (zh) 自动语音识别期间的选择性噪声抑制
CN206426859U (zh) 汽车仪表盘及汽车
CN115195637A (zh) 一种基于多模交互和虚拟现实技术的智能座舱系统
CN112927688B (zh) 用于车辆的语音交互方法及系统
CN110767215A (zh) 一种训练语音识别模型、识别语音的方法及装置
CN117476005A (zh) 基于语音识别车顶帐篷控制方法、系统、车辆及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination