CN110880321B

CN110880321B - 基于语音的智能刹车方法、装置、设备及存储介质

Info

Publication number: CN110880321B
Application number: CN201910990724.8A
Authority: CN
Inventors: 王健宗; 李江; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2024-05-10
Anticipated expiration: 2039-10-18
Also published as: CN110880321A

Abstract

本发明公开了一种基于语音的智能刹车方法，包括：实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容；基于所述语音内容，判断所述语音是否包含语音刹车指令；若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量；计算所述语音的声纹特征向量与预置声纹数据库中各注册用户的声纹特征向量之间的相似度值；根据计算得到的相似度值，判断发出所述语音的用户是否为注册用户；若发出所述语音的用户为注册用户，则启动刹车制动。本发明还公开了一种基于语音的智能刹车装置、设备及计算机可读存储介质。本发明减少或避免了用户误刹车的发生几率，提升了车辆行车安全。

Description

基于语音的智能刹车方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音的智能刹车方法、装置、设备及存储介质。

背景技术

目前，经常有新闻报道，司机错把油门当刹车而造成不可挽回的交通事故。油门和刹车在汽车构造中处于相邻位置，而且是用脚控制，当危急时刻来临时，如果司机不冷静，则极有可能出现错将油门当成刹车的误操作，容易引发交通事故。

随着科学技术的发展，汽车也升级了各种智能设备用以提升行车安全，比如通过摄像头、雷达等方式检测前方是否存在障碍物或行人，若检测到前方存在障碍物或行人，并且司机未及时进行规避，则自动触发主动安全刹车系统执行刹车操作，进而避免发生碰撞。然而现有的主动安全刹车系统的触发条件比较单一，不能覆盖现实生活中各种复杂的行车环境，因而适用范围较窄，车辆行车安全性有待提升。

发明内容

本发明的主要目的在于提供一种基于语音的智能刹车方法、装置、设备及存储介质，旨在解决现有车辆主动安全刹车适用的行车环境单一而不能提供更优的假设安全保护的技术问题。

为实现上述目的，本发明提供一种基于语音的智能刹车方法，所述基于语音的智能刹车方法包括以下步骤：

实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容；

基于所述语音内容，判断所述语音是否包含语音刹车指令；

若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量；

计算所述语音的声纹特征向量与预置声纹数据库中各注册用户的声纹特征向量之间的相似度值；

根据计算得到的相似度值，判断发出所述语音的用户是否为注册用户；

若发出所述语音的用户为注册用户，则启动刹车制动。

可选地，所述基于所述语音内容，判断所述语音是否包含语音刹车指令包括：

判断所述语音内容是否为预置语音刹车指令且所述语音的语音能量超过预置阈值；

若所述语音内容为预置语音刹车指令且所述语音的语音能量超过预置阈值，则确定所述语音包含语音刹车指令；

若所述语音内容为非预置语音刹车指令或所述语音的语音能量未超过预置阈值，则判断所述语音内容中是否存在预置关键词；

若存在预置关键词，则对所述语音内容进行语义识别，以判断所述语音是否包含语音刹车指令。

可选地，所述若存在预置关键词，则对所述语音内容进行语义识别，以判断所述语音是否包含语音刹车指令包括：

若所述语音内容中存在预置关键词，则基于深度语义匹配模型，计算所述语音内容与预置刹车语音用语之间的语义相似度；

基于所述语义相似度，判断所述语音是否包含语音刹车指令。

可选地，所述实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容包括：

对所述语音进行分帧，得到多个带时序的语音帧；

按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；

基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；

按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；

将输出的最大概率的字或词拼接为文字格式的语音内容并输出。

可选地，在所述实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容的步骤之前，还包括：

获取注册用户的注册语音；

采用GMM-UBM模型提取所述注册语音的第一声纹特征，采用神经网络模型提取所述注册语音的第二声纹特征；

将所述注册语音的第一声纹特征与第二声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

将所述注册语音的融合声纹特征向量保存到所述声纹数据库中，以作为注册用户的声纹特征向量。

可选地，所述若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量包括：

若所述语音包含语音刹车指令，则对所述语音进行预加重、分帧以及加窗预处理；

通过GMM-UBM模型从预处理后的所述语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分以及能量、能量的一阶差分，得到所述语音的第三声纹特征；

将所述语音排列成预定纬数的语谱图；

通过神经网络模型对所述预定纬数的语谱图进行识别，得到所述语音的第四声纹特征；

根据预设的融合声纹特征向量的总特征数，采用直接抽样法确定第三声纹特征的子特征的和第四声纹特征的子特征之间的特征融合比例；

根据所述特征融合比例，使用马尔可夫链的蒙特卡罗随机采样算法，模拟联合正态分布的采样过程，分别确定从所述第三声纹特征中选取的第一声纹子特征和从所述第四声纹特征中选取的第二声纹子特征，并将所述第一声纹子特征与所述第二声纹子特征组成所述语音的融合声纹特征向量。

可选地，所述基于语音的智能刹车方法还包括：

通过摄像头或雷达实时采集车辆行进方向的路况信息；

根据所述路况信息，判断当前车辆行进路方向是否存在障碍物或行人；

若当前车辆行进路方向存在障碍物或行人，则判断当前是否满足预置语音刹车条件；

若满足，则启动刹车制动；

若不满足，则当车辆未减速且达到预置自动刹车触发条件时，启动刹车制动。

进一步地，为实现上述目的，本发明提供一种基于语音的智能刹车装置，其特征在于，所述基于语音的智能刹车装置包括：

识别模块，用于实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容；

第一判断模块，用于基于所述语音内容，判断所述语音是否包含语音刹车指令；

提取模块，用于若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量；

计算模块，用于计算所述语音的声纹特征向量与预置声纹数据库中各注册用户的声纹特征向量之间的相似度值；

第二判断模块，用于根据计算得到的相似度值，判断发出所述语音的用户是否为注册用户；

语音刹车模块，用于若发出所述语音的用户为注册用户，则启动刹车制动。

可选地，所述第一判断模块包括：

语音能量判断单元，用于判断所述语音内容是否为预置语音刹车指令且所述语音的语音能量超过预置阈值；若所述语音内容为预置语音刹车指令且所述语音的语音能量超过预置阈值，则确定所述语音包含语音刹车指令；

关键词判断单元，用于若所述语音内容为非预置语音刹车指令或所述语音的语音能量未超过预置阈值，则判断所述语音内容中是否存在预置关键词；

语义判断单元，用于若存在预置关键词，则对所述语音内容进行语义识别，以判断所述语音是否包含语音刹车指令。

可选地，所述语义判断单元具体用于：

可选地，所述识别模块包括：

分帧单元，用于实时采集车内人员的语音并对所述语音进行分帧，得到多个带时序的语音帧；

提取单元，用于按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

识别单元，用于将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；将输出的最大概率的字或词拼接为文字格式的语音内容并输出。

可选地，所述基于语音的智能刹车装置还包括：

语音注册模块，用于获取注册用户的注册语音；采用GMM-UBM模型提取所述注册语音的第一声纹特征，采用神经网络模型提取所述注册语音的第二声纹特征；将所述注册语音的第一声纹特征与第二声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；将所述注册语音的融合声纹特征向量保存到所述声纹数据库中，以作为注册用户的声纹特征向量。

可选地，所述提取模块包括：

预处理单元，用于若所述语音包含语音刹车指令，则对所述语音进行预加重、分帧以及加窗预处理；

第一模型处理单元，用于通过GMM-UBM模型从预处理后的所述语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分以及能量、能量的一阶差分，得到所述语音的第三声纹特征；

第二模型处理单元，用于将所述语音排列成预定纬数的语谱图；通过神经网络模型对所述预定纬数的语谱图进行识别，得到所述语音的第四声纹特征；

比例确定单元，用于根据预设的融合声纹特征向量的总特征数，采用直接抽样法确定第三声纹特征的子特征的和第四声纹特征的子特征之间的特征融合比例；

特征融合单元，用于根据所述特征融合比例，使用马尔可夫链的蒙特卡罗随机采样算法，模拟联合正态分布的采样过程，分别确定从所述第三声纹特征中选取的第一声纹子特征和从所述第四声纹特征中选取的第二声纹子特征，并将所述第一声纹子特征与所述第二声纹子特征组成所述语音的融合声纹特征向量。

可选地，所述基于语音的智能刹车装置还包括：

信息采集模块，用于通过摄像头或雷达实时采集车辆行进方向的路况信息；根据所述路况信息，判断当前车辆行进路方向是否存在障碍物或行人；

刹车控制模块，用于若当前车辆行进路方向存在障碍物或行人，则判断当前是否满足预置语音刹车条件；若满足，则启动刹车制动；若不满足，则当车辆未减速且达到预置自动刹车触发条件时，启动刹车制动。

进一步地，为实现上述目的，本发明还提供一种基于语音的智能刹车设备，所述基于语音的智能刹车设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于语音的智能刹车程序，所述基于语音的智能刹车程序被所述处理器执行时实现如上述任一项基于语音的智能刹车方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于语音的智能刹车程序，所述基于语音的智能刹车程序被处理器执行时实现如上述任一项基于语音的智能刹车方法的步骤。

本发明在用户保持脚踩刹车的刹车操作的基础上，进一步引入了基于用户语音指令的方式参与车辆的主动安全刹车操作，这不仅减少或避免了用户误刹车的发生几率，提升车辆行车安全，同时由于用户还能够感知各种危险环境，因而弥补了现有车辆主动安全刹车适用的行车环境单一的问题。此外，本发明将语音刹车指令与用户身份识别相结合，避免非相关人员无意或恶意触发而导致非正常刹车事件的发生，提升了基于用户语音指令刹车的使用安全性。

附图说明

图1为本发明实施例方案涉及的基于语音的智能刹车设备运行环境的结构示意图；

图2为本发明基于语音的智能刹车方法第一实施例的流程示意图；

图3为图2中步骤S120一实施例的细化流程示意图；

图4为图3中步骤S1204一实施例的细化流程示意图；

图5为图2中步骤S110一实施例的细化流程示意图；

图6为本发明基于语音的智能刹车方法第二实施例的流程示意图；

图7为图2中步骤S130一实施例的细化流程示意图；

图8为本发明基于语音的智能刹车方法第三实施例的流程示意图；

图9为本发明基于语音的智能刹车装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于语音的智能刹车设备。

参照图1，图1为本发明实施例方案涉及的基于语音的智能刹车设备运行环境的结构示意图。

如图1所示，该基于语音的智能刹车设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的基于语音的智能刹车设备的硬件结构并不构成对基于语音的智能刹车设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于语音的智能刹车程序。其中，操作系统是管理和控制基于语音的智能刹车设备和软件资源的程序，支持基于语音的智能刹车程序以及其它软件和/或程序的运行。

在图1所示的基于语音的智能刹车设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等，而处理器1001可以用于调用存储器1005中存储的基于语音的智能刹车程序，并执行以下基于语音的智能刹车方法的各实施例的操作。

基于上述基于语音的智能刹车设备硬件结构，提出本发明基于语音的智能刹车方法的各个实施例。

参照图2，图2为本发明基于语音的智能刹车方法第一实施例的流程示意图。本实施例中，所述基于语音的智能刹车方法包括以下步骤：

步骤S110，实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容；

本实施例中，通过车内安装的语音采集设备(比如麦克风)实时采集车内人员的语音。需要说明的是，车内可以是只有司机一人，也可以是司机和乘客，因此，采集到的语音既有可能是司机一个人的，也有可能是乘客的，还有可能是司机和乘客之间的对话。

本实施例中，为判断当前采集的语音中是否包含有语音指令，则需先进行语音识别，以获得语音内容。

步骤S120，基于所述语音内容，判断所述语音是否包含语音刹车指令；

本实施例中，在获得语音内容后，需要进一步基于语音内容，判断语音中是否包含刹车指令。本实施例对于判断语音中是否包含语音刹车指令的方式不限，具体根据实际需要进行设置。

例如，预先设置触发自动刹车的规则，当用户按照该规则发出语音指令时，自动触发刹车。又例如，采用人工智能方式自动识别语音内是否包含语音刹车指令。

步骤S130，若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量；

本实施例中，为提升自动刹车控制的安全性，不仅需要确定用户的语音内是否包含语音刹车指令，还需进一步确定发出该语音刹车指令的用户身份是否合法。具体为在确定采集到的语音内包含语音刹车指令时，通过提取语音的声纹特征向量来确定发出该语音的用户身份是否合法。

步骤S140，计算所述语音的声纹特征向量与预置声纹数据库中各注册用户的声纹特征向量之间的相似度值；

本实施例中，声纹数据库中预先注册有一个或多个注册用户的声纹特征向量，比如车主本人的声纹特征向量，车主家人或朋友的声纹特征向量。通过计算声纹特征向量之间的相似度，判断发出语音刹车指令的用户是否为注册的合法用户。本实施例对于计算声纹特征向量之间的相似度值的方式不限。

步骤S150，根据计算得到的相似度值，判断发出所述语音的用户是否为注册用户；

本实施例中，若计算得到的两声纹特征向量之间的相似度超过预设阈值，比如相似度值超过90％，则确定发出语音的用户与数据库中某个注册用户为同一个人，也即确定发出语音的用户为注册用户。

步骤S160，若发出所述语音的用户为注册用户，则启动刹车制动。

本实施例中，若发出包含有语音刹车指令的用户为注册用户，则启动刹车制动，从而提升车辆行车安全，避免发生误操作。

本实施例中，在保持脚踩刹车的刹车操作的基础上，进一步引入了基于用户语音指令的方式参与车辆的主动安全刹车操作，这不仅减少或避免了用户误刹车的发生几率，提升车辆行车安全，同时由于用户还能够感知各种危险环境，因而弥补了现有车辆主动安全刹车适用的行车环境单一的问题。此外，本实施例将语音刹车指令与用户身份识别相结合，避免非相关人员无意或恶意触发而导致非正常刹车事件的发生，提升了基于用户语音指令刹车的使用安全性。

参照图3，图3为图2中步骤S120一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S120进一步包括：

步骤S1201，判断所述语音内容是否为预置语音刹车指令且所述语音的语音能量超过预置阈值；

步骤S1202，若所述语音内容为预置语音刹车指令且所述语音的语音能量超过预置阈值，则确定所述语音包含语音刹车指令；

本实施例中采用预先设置的语音刹车指令并配以高音量方式发出该指令，则自动触发语音刹车操作。例如，用户在遇到危险情况时，高声大喊“刹车”，则可自动触发语音刹车操作。

本实施例对于计算语音能量的方式不限，优选采用短时语音能量来计算语音能量，计算公式如下：

其中，M(i)表示第i帧语音帧的短时语音能量；x(n)表示语音波形时域信号；w(n)表示窗函数；y_i(n)表示经过w(n)分帧处理后得到的第i帧语音信号；b表示帧移长度；n＝1,2,…L；i＝1,2,…fn；L表示帧长，f_n表示分帧后的总帧数。

步骤S1203，若所述语音内容为非预置语音刹车指令或所述语音的语音能量未超过预置阈值，则判断所述语音内容中是否存在预置关键词；

步骤S1204，若存在预置关键词，则对所述语音内容进行语义识别，以判断所述语音是否包含语音刹车指令。

本实施例中，考虑到某些现实场景中，用户想通过语音指令方式控制刹车，但可能并未使用预先规定的语音刹车触发方式，因此，为完善各种应用场景下能够读懂用户意图而实现语音自动刹车，因此，本实施例中，在获得车内人员语音的语音内容后，进一步判断该语音内容中是否存在与控制车辆刹车有关的关键词。本实施例中的关键词为预先设置，例如，“刹车”、“减速”、“停车”等。本实施例通过字符匹配方式判断语音内容中是否存在预置关键词，若存在预置关键词，则说明当前语音内容可能与语音刹车指令有关。

本实施例中，若检测到车内人员说话内容中存在预置关键词，则说明当前语音内容可能与语音刹车指令有关。车内人员的说话内容既有可能是语音刹车指令，也有可能是与刹车有关的聊天内容，因此，为进一步确定是否包含有语音刹车指令，还需进一步对语音内容进行语义识别。

本实施例中，用户既有可能单独发出语音刹车指令，比如用户喊“刹车”，则可直接识别该语音内容为语音刹车指令，也有可能是在聊天过程中突然插入语音刹车指令，此类情形下可能并不能完全准确识别用户的意图而不能启动自动刹车。此外，用户的说话内容可能仅仅只是与刹车有关的聊天内容，比如，用户说“我这车带有语音控制刹车功能”，如果从该语音内容中识别出语音刹车指令，则会产生误操作。因此需要对语音内容进行语义识别，从而确定当前语音内容中是否真的存在语音刹车指令。

进一步地，参照图4，图4为图3中步骤S1204一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S1204进一步包括：

步骤S12041，若所述语音内容中存在预置关键词，则基于深度语义匹配模型，计算所述语音内容与预置刹车语音用语之间的语义相似度；

步骤S12042，基于所述语义相似度，判断所述语音是否包含语音刹车指令。

实施例中，具体采用深度语义匹配模型来进行语义识别，以识别用户发出的语音内容与预置刹车语音用语之间的语义相似度，进而根据语义相似度，判断用户发出的语音是否为语音刹车指令。

深度语义匹配模型DSSM(Deep Structured Semantic Models)通过搜索引擎里Query和Title的海量点击曝光日志，用深度神经网络将Query和Title分别表达为低维语义向量，并通过余弦距离来计算两个语义向量的距离，最终训练出语义相似度模型，该模型用来预测两个句子的语义相似度。

本实施例中，通过以上方式来计算两个不同语句之间的语义相似度，比如，用户说“我这车带有语音控制刹车功能”，将该句话与语音刹车指令“刹车”进行语义相似度计算，得出的语义相似度远远小于预置阈值(比如80％)，则确定该语句中不包含语音刹车指令。又例如，用户所“前方有人，快刹车”，将该句话与语音刹车指令“刹车”进行语义相似度计算，得出的语义相似度超过了预置阈值(比如80％)，则确定该语句中包含有语音刹车指令，因而触发启动刹车操作。通过对语音内容进行语义识别，从而确定当前语音内容中是否真的存在语音刹车指令。

参照图5，图5为图2中步骤S110一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S110进一步包括：

步骤S1101，实时采集车内人员的语音并对所述语音进行分帧，得到多个带时序的语音帧；

为了更有效地提取声音特征，因此还需要对语音进行分帧处理，本实施例的分帧处理就是把声音划分成一小段一小段，每小段称为一帧语音帧，使用移动窗函数来实现分帧处理，得到多个带时序的语音帧。

步骤S1102，按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特向量；

特征提取是将声音信号从时域转换到频域，从而为声学模型提供合适的输入特征向量。本实施例主要采用线性预测倒谱系数(LPCC)和梅尔倒谱系数(MFCC)算法提取声音特征，进而将每一波形语音帧转变成一个包含声音信息的多维向量。

步骤S1103，将所述多维声音特征向量输入预置声学模型进行处理，输出语音帧对应的音素信息；

声学模型是对声学、语音学、环境变量、说话人性别、口音等差异的知识表示。声学模型通过对语音数据进行训练而得到，声学模型能够根据声学特性计算每一个特征向量在声学特征上的概率得分，也即建立语音的声音特征到音素之间的映射关系。

步骤S1104，基于所述音素信息，查找预置字典，输出各音素信息对应的字或词；

字典是字词对应的音素索引集合，是字词和音素之间的映射，通过查找字典，从而确定各音素信息对应的字或词。

步骤S1105，按照输出顺序将各音素信息对应的字或词输入预置语言模型进行处理，输出单个字或词相互关联的概率；

语言模型表示某一字序列发生的概率，可通过对文本语言数据进行训练得到，语言模型能够根据语言学特性计算声音信号对应词组序列的概率，也即建立文字对应的音素到文字组成的词组序列的映射关系。

步骤S1106，将输出的最大概率的字或词拼接为文字格式的语音内容并输出。

在得到语音可能对应的每一个字或词组发生的概率后，将最大概率的字或词拼接为文字格式的语音内容并作为语音识别的结果输出。

参照图6，图6为本发明基于语音的智能刹车方法第二实施例的流程示意图。本实施例中，在上述步骤A110之前，还包括：

步骤S210，获取注册用户的注册语音；

步骤S220，采用GMM-UBM模型提取所述注册语音的第一声纹特征，采用神经网络模型提取所述注册语音的第二声纹特征；

本实施例中，在应用语音刹车指令之前，需要先注册用户的语音特征信息。本实施例具体选取语音的声纹特征作为注册用户的语音特征。

本实施例中，为获得更多的语音特征进而提升声纹识别的准确性，因此，使用多个模型来提取语音的声纹特征。本实施例具体采用GMM-UBM模型(高斯混合模型-通用背景模型)和神经网络模型同时从注册语音中提取声纹特征。

由于GMM-UBM模型和神经网络模型是两个不同的模型，因此两个模型从注册语音中提取声纹特征时，可能会提取相同的声纹特征，也可能提取不同的声纹特征，也有可能提取部分相同的声纹特征。GMM-UBM模型和神经网络模型从注册语音中提取不同的声纹特征，例如GMM-UBM模型从验证语音中提取的第一声纹特征包括音色、频率、振幅、音量等多个子特征，神经网络模型从验证语音中提取的第二声纹特征包括基频、梅尔频率倒谱系数、共振峰、基音、反射系数等多个子特征。

步骤S230，将所述注册语音的第一声纹特征与第二声纹特征进行特征融合，得到所述注册语音的融合声纹特征向量；

步骤S240，将所述注册语音的融合声纹特征向量保存到所述声纹数据库中，以作为注册用户的声纹特征向量。

本实施例中，在分别获得了GMM-UBM模型和神经网络模型对应提取的第一声纹特征和第二声纹特征后，对第一声纹特征与第二声纹特征进行特征融合，得到融合声纹特征向量并保存到声纹数据库中，从而完成声纹注册。由于注册的用户语音包含有更多的声纹特征，因而更能提升声纹识别的准确性。需要说明的是，为保证注册用户语音特征的准确性，因而优选在用户每天开车之前进行语音注册，从而采集到最新的用户声纹特征。

参照图7，图7为图2中步骤S130一实施例的细化流程示意图。基于上述实施例，本实施例中，上述步骤S130进一步包括：

步骤S1301，若所述语音包含语音刹车指令，则对所述语音进行预加重、分帧以及加窗预处理；

预加重是指提升语音信号中的高频部分，进而使语音信号的频谱变得平坦，并保持在低频到高频的整个频带中，能用同样的信噪比求频谱。

由于语音信号具有短时平稳性，预处理完成后需对语音信号进行分帧、加窗处理，便于用短时分析技术对语音信号进行处理。通常情况下，每秒钟的帧数约为33～100帧，分帧既可采用连续分段的方法，也可采用交叠分段的方法，但后者可以使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移和帧长的比值一般取为(0～1/2)。一边将语音信号用可移动有限长度的窗口进行截取即分帧，通常采用的窗函数有矩形窗(Rectangular)、汉明窗(Hamming)和汉宁窗(Hanning)等。

步骤S1302，通过GMM-UBM模型从预处理后的所述语音中提取基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分以及能量、能量的一阶差分，得到所述语音的第三声纹特征；

本实施例中，基音周期、线性预测倒谱系数、线性预测倒谱系数的一阶差分以及能量、能量的一阶差分都是语音的基本声纹特征，采用GMM-UBM模型提取上述特征，从而形成语音的第三声纹特征。

步骤S1303，将所述语音排列成预定纬数的语谱图；

步骤S1304，通过神经网络模型对所述预定纬数的语谱图进行识别，得到所述语音的第四声纹特征；

本实施例中，每隔预定时间间隔从语音中提取预定纬度的特征向量，以将验证语音排列成预定纬数的语图谱，通过神经网络模型对预定纬数的语谱图进行识别，获得语音的第四声纹特征，该提取方式所提取到的声纹特征可以更好地表征语音中的声学特征，提高语音识别的准确率。

步骤S1305，根据预设的融合声纹特征向量的总特征数，采用直接抽样法确定第三声纹特征的子特征的和第四声纹特征的子特征之间的特征融合比例；

步骤S1306，根据所述特征融合比例，使用马尔可夫链的蒙特卡罗随机采样算法，模拟联合正态分布的采样过程，分别确定从所述第三声纹特征中选取的第一声纹子特征和从所述第四声纹特征中选取的第二声纹子特征，并将所述第一声纹子特征与所述第二声纹子特征组成所述语音的融合声纹特征向量。

本实施例中，在进行特征融合之前，需要先确定二者进行特征融合的比例。本实施例具体采用直接抽样法确定特征融合比例。在确定了特征融合比例后，使用马尔可夫链的蒙特卡罗随机采样算法，模拟联合正态分布的采样过程，分别从第三、第四声纹特征中选取对应比例的字特征，进而组成融合声纹特征向量。

例如，使用马尔可夫链蒙特卡罗随机模型随机从第一声纹特征中的15个特征中抽取10个特征，从第二声纹特征的20个特征中抽取15个特征，融合后即可得到有25个声纹特征的沿着语音的融合声纹特征向量。

参照图8，图8为本发明基于语音的智能刹车方法第三实施例的流程示意图。本实施例中，所述基于语音的智能刹车方法还包括：

步骤S310，通过摄像头或雷达实时采集车辆行进方向的路况信息；

步骤S320，根据所述路况信息，判断当前车辆行进路方向是否存在障碍物或行人；

本实施例中，通过摄像头采集车辆行进方向上的实时图像，通过对图像进行实时动态分析，从而判断当前车辆行进方向上是否存在障碍物或行人。通过雷达发射电磁波，若接收到反射回来的电磁波，则确定当前车辆行进方向上存在障碍物或行人，反之则不存在。本实施例中实现主动刹车的方式与现有技术相同，因此不做过多赘述。

步骤S330，若当前车辆行进路方向存在障碍物或行人，则判断当前是否满足预置语音刹车条件；

本实施例中，对于预先设置的语音刹车条件不限。在一实施例中，优选采用与第一实施例相同的方式设置语音刹车条件，具体包括：

条件A、语音是否包含语音刹车指令；

条件B、发出所述语音的用户是否为注册用户；

若满足上述条件A、B，则判定满足预置语音刹车条件。

步骤S340，若满足，则启动刹车制动；

步骤S350，若不满足，则当车辆未减速且达到预置自动刹车触发条件时，启动刹车制动。

本实施例对于预先设置的自动刹车触发条件不限，具体根据实际需要进行设置，比如车辆的速度以及离障碍物或行人的距离。

本实施例中，为进一步提升主动安全驾驶的舒适性与安全性，将基于摄像头或雷达的主动刹车控制方式与基于用户语音指令的刹车控制方式相结合，基于摄像头或雷达的主动刹车控制方式能够实现全自动化控制刹车操作，不需要用户参与，但适用应用场景比较单一，对于某些复杂的行车环境不能进行很好的判断，而基于用户语音指令的刹车控制方式能够更好地适用各种复杂的行车环境，但需要用户参与刹车操作，因此，通过相互结合，从而双向弥补对方的不足，进一步提升行车主动安全性与智能性。

本发明还提供一种基于语音的智能刹车装置。

参照图9，图9为本发明基于语音的智能刹车装置一实施例的功能模块示意图。本实施例中，所述基于语音的智能刹车装置包括：

识别模块10，用于实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容；

第一判断模块20，用于基于所述语音内容，判断所述语音是否包含语音刹车指令；

提取模块30，用于若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量；

计算模块40，用于计算所述语音的声纹特征向量与预置声纹数据库中各注册用户的声纹特征向量之间的相似度值；

第二判断模块50，用于根据计算得到的相似度值，判断发出所述语音的用户是否为注册用户；

语音刹车模块60，用于若发出所述语音的用户为注册用户，则启动刹车制动。

基于与上述本发明基于语音的智能刹车方法相同的实施例说明内容，因此本实施例对基于语音的智能刹车装置的实施例内容不做过多赘述。

本发明还提供一种计算机可读存储介质。

本实施例中，计算机可读存储介质上存储有基于语音的智能刹车程序，基于语音的智能刹车程序被处理器执行时实现如上述任一项实施例中所述的基于语音的智能刹车方法的步骤。其中，基于语音的智能刹车程序被处理器执行时所实现的方法可参照本发明基于语音的智能刹车方法的各个实施例，因此不再过多赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于语音的智能刹车方法，其特征在于，所述基于语音的智能刹车方法包括以下步骤：

基于所述语音内容，判断所述语音是否包含语音刹车指令；

若发出所述语音的用户为注册用户，则启动刹车制动；

所述基于所述语音内容，判断所述语音是否包含语音刹车指令包括：

2.如权利要求1所述的基于语音的智能刹车方法，其特征在于，所述若存在预置关键词，则对所述语音内容进行语义识别，以判断所述语音是否包含语音刹车指令包括：

3.如权利要求1所述的基于语音的智能刹车方法，其特征在于，所述实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容包括：

实时采集车内人员的语音并对所述语音进行分帧，得到多个带时序的语音帧；

按照时序依次提取所述语音帧的声音特征并生成包含声音信息的多维声音特征向量；

4.如权利要求1所述的基于语音的智能刹车方法，其特征在于，在所述实时采集车内人员的语音并进行语音识别，获得文字格式的语音内容的步骤之前，还包括：

获取注册用户的注册语音；

5.如权利要求1或4所述的基于语音的智能刹车方法，其特征在于，所述若所述语音包含语音刹车指令，则提取所述语音的声纹特征向量包括：

将所述语音排列成预定纬数的语谱图；

6.如权利要求1所述的基于语音的智能刹车方法，其特征在于，所述基于语音的智能刹车方法还包括：

通过摄像头或雷达实时采集车辆行进方向的路况信息；

若满足，则启动刹车制动；

7.一种基于语音的智能刹车装置，其特征在于，所述基于语音的智能刹车装置包括：

语音刹车模块，用于若发出所述语音的用户为注册用户，则启动刹车制动；

所述第一判断模块包括：

8.如权利要求7所述的基于语音的智能刹车装置，其特征在于，所述语义判断单元具体用于：

9.一种基于语音的智能刹车设备，其特征在于，所述基于语音的智能刹车设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于语音的智能刹车程序，所述基于语音的智能刹车程序被所述处理器执行时实现如权利要求1-6中任一项基于语音的智能刹车方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于语音的智能刹车程序，所述基于语音的智能刹车程序被处理器执行时实现如权利要求1-6中任一项基于语音的智能刹车方法的步骤。