CN116705025A

CN116705025A - 一种车载终端通信方法

Info

Publication number: CN116705025A
Application number: CN202310962486.6A
Authority: CN
Inventors: 黄三陆
Original assignee: Quanzhou Sanchuan Communication Technology Co ltd
Current assignee: Quanzhou Sanchuan Communication Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-05

Abstract

本发明公开了一种车载终端通信方法，终端中配置的语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出的关键信号解析进行终端通信功能的唤醒，在进行具体语音识别过程中首先对获取的语音进行音节切分，通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分，提高了识别的准确性和效率，而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量，对帧特征向量进行mfcc声学特征提取，由于本发明对音节进行了完整准确的切分，后续的算法识别能够更好的进行，更准确的进行通信功能的唤醒。

Description

一种车载终端通信方法

技术领域

本发明涉及数字信息的传输领域，尤其涉及一种车载终端通信方法。

背景技术

随着智能网络的不断发展，车辆中配置有语音通话功能的车载终端成为常态。

车载终端在进行通信动作前，需要对终端通信功能进行语音唤醒。而现有所配置的车载终端针对车辆行驶过程中的语音唤醒功能识别率低，无法及时、准确的进行终端的唤醒，对通信功能造成影响。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有车载终端通信过程中存在的问题，提出了本发明。

因此，本发明解决的技术问题是：解决现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低，无法及时、准确的进行终端的唤醒，对通信功能造成影响的问题。

为解决上述技术问题，本发明提供如下技术方案：一种车载终端通信方法，车载终端中配置有语音识别模块，所述语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出的关键信号解析进行终端通信功能的唤醒；其中，所述语音识别模块对相应语音进行识别具体包括如下步骤：S1：获取长度语音，以既定长度帧对所述长度语音进行音节切割，将其切分成静音帧、清音帧及浊音帧；S2：通过GMM算法将所述静音帧、所述清音帧及所述浊音帧处理成帧特征向量；S3：对所述帧特征向量进行mfcc声学特征提取，完成语音识别；

其中，所述语音识别模块对所述静音帧的切分具体包括如下步骤：

S1：选取突变门限σ，从前往后遍历，若第i + 1帧的过零率比第i帧的过零率高出的值大于所述突变门限σ，则定义第i帧为静音突变成清音的临界点，则所获取的第m个临界点在音频的第C_m帧；

S2：进行所述静音帧的一次判别，即若第一个临界点C₁> 6，可定义C₁−3之前的帧均为静音帧；

S3：将每个所述静音帧的短时能量记为A_i，获取其中的最大值，通过以下公式获取静音帧判别能量A_th：

,

其中，A_th为所述静音帧判别能量，k为判别系数，定义为ln2，A_i为每个所述静音帧的短时能量；

S4：基于上述公式进行所述静音帧的二次判别，即低于所述静音帧判别能量A_th的帧均为所述静音帧，记为sil_i=1，反之记sil_i=0；

其中，所述语音识别模块对所述清音帧的切分具体为：

遍历音频，通过以下公式获取所述清音帧：

,

其中，A_i为每个所述静音帧的短时能量，A_th为所述静音帧判别能量，f =j*

Δf，j为傅里叶变换后的频域系数，Δf为变换后的频率间隔，即频率精度；

若第i帧满足此式，则它为清音帧，记为unv_i=1，反之记为unv_i=0；

其中，所述语音识别模块对所述浊音帧的切分具体包括如下步骤：

S1：对所述长度语音进行时频0-1化，以语谱图中1000-4000Hz的能量均值为门限，高于此能量为1，低于此能量为0，重新定义E_ij；

S2：获取浊音的判别门限E_th，即为1000-4000Hz间二维能量的总和的平均，记为voi_th；

S3：通过以下公式定义浊音：

,

若某帧在此频段的能量高于voi_th，则它为浊音，记为voi_i= 1，反之记voi_i= 0。

作为本发明所述的车载终端通信方法的一种优选方案，其中：所述既定长度帧为25ms。

作为本发明所述的车载终端通信方法的一种优选方案，其中：所述突变门

限σ定义为1。

本发明的有益效果：本发明提供一种车载终端通信方法，终端中配置的语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出的关键信号解析进行终端通信功能的唤醒，在进行具体语音识别过程中首先对获取的语音进行音节切分，通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分，提高了识别的准确性和效率，而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量，对帧特征向量进行mfcc声学特征提取，由于本发明对音节进行了完整准确的切分，后续的算法识别能够更好的进行，更准确的进行通信功能的唤醒，解决了现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低，无法及时、准确的进行终端的唤醒，对通信功能造成影响的问题。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

故此，本发明提供一种车载终端通信方法，车载终端中配置有语音识别模块，语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出的关键信号解析进行终端通信功能的唤醒；

在本发明语音识别过程中，语音切分是语音识别的第一步。语音识别上以25ms长度一帧进行切割，并将其处理为帧特征向量，提取特征。语音识别的粒度有从整句层面、单词层面、或音素乃至三因素进行划分，提取mfcc等声学特征，将整句通过算法（如GMM）提供帧的标签，进行训练。常区分音素为静音因素和非静音因素。

从语音研究的方式上则稍有不同，常将语音转化出语谱图，人工按照音素切割，以便后续处理。随着计算机技术的发展，如今也有一些自动切割音素的算法。技术有按停顿进行切分，有以高斯拟合法，或归并法进行切分。本发明创造性使用的是用二维能量发进行音素切割，优点在于计算量小、无需先了解音节个数，并且切分结果较为精确。

其中，语音识别模块对相应语音进行识别具体包括如下步骤：

S1：获取长度语音，以既定长度帧对长度语音进行音节切割，将其切分成静音帧、清音帧及浊音帧；

需要说明的是，设计算法自动将一段话中的音节进信切分，切分成静音帧、清音帧和浊音帧，并利用音节个数等数据协助使用者进行语音识别。

一段语音会分为静音部分，清音部分，浊音部分。

清浊音最基本的区别是浊音发音时声带振动，清音发音时声带不震动。浊音包含所有元音，汉语中还包含一些辅音，如鼻音/n/，/m/，/ng/，和边音/l/，擦音/r/。各方言中情况略有不同，如吴方言就有浊塞音，浊擦音等。

从语谱图上来看，浊音的能量高，而清音的过零率高。因此，通过设置不同门限，可以有效区分出清音、浊音和静音帧。

S2：通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量；

S3：对帧特征向量进行mfcc声学特征提取。

需要说明的是，通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量，对帧特征向量进行mfcc声学特征提取为现有技术的常规运用，在此不做多余赘述。

具体的，既定长度帧为25ms。

进一步的，语音识别模块对静音帧的切分具体包括如下步骤：

S1：选取突变门限σ，从前往后遍历，若第i + 1帧的过零率比第i帧的过零率高出的值大于所述突变门限σ：

,

则定义第i帧为静音突变成清音的临界点，则所获取的第m个临界点在音频的第C_m帧，找到的第m个临界点记为C_m = i_m；

S2：进行静音帧的一次判别，即若第一个临界点C₁> 6，可定义C₁−3之前的帧均为静音帧；

S3：将每个静音帧的短时能量记为A_i，获取其中的最大值，通过以下公式获取静音帧判别能量A_th：

,

其中，A_th为静音帧判别能量，k为判别系数，定义为ln2，A_i为每个静音帧的短时能量；

S4：基于上述公式进行静音帧的二次判别，即低于静音帧判别能量A_th的帧均为静音帧，记为sil_i=1，反之记sil_i=0。

其中，突变门限σ定义为1。

需要说明的是，传统上，语言学使用双门限法来识别静音帧，也就是选取

有话帧前的静音帧中能量最大的一个作为判别门限，并将所有能量低于此门限的帧标为静音帧。

如之前所说，虽然静音和清音的能量都很低，从能量方面不易区分，但静

音的过零率比清音低。

进一步的，语音识别模块对清音帧的切分具体为：

清音发音时声带不震动，语音能量主要在2000Hz到8000Hz之间。

,遍历音频，通过以下公式获取清音帧：

,

其中，A_i为每个静音帧的短时能量，A_th为静音帧判别能量，f =j*Δf，j为

傅里叶变换后的频域系数，Δf为变换后的频率间隔，即频率精度；

清音帧在2000Hz到8000Hz区域内的能量要大于2000Hz以下的能量。

若第i帧满足此式，则它为清音帧，记为unv_i=1，反之记为unv_i=0。

更进一步的，语音识别模块对浊音帧的切分具体包括如下步骤：

S1：对长度语音进行时频0-1化，以语谱图中1000-4000Hz的能量均值为门限，高于此能量为1，低于此能量为0，重新定义E_ij；

S3：通过以下公式定义浊音：

,

需要说明的是：浊音是声带振动发出的音，能量主要在1000Hz和4000Hz之内。由于人在连续说话时，音量总会发出改变，而浊音会受到这个的影响，因此在不同时间，要动态地调整浊音帧的判别门限。

额外的，语音识别模块对有话帧及无话帧的切分具体包括如下步骤：

在0-1000Hz范畴内取二维能量平均，作为低频有话帧判别门限base_th。

,若第i帧的二维能量和大于门限，

,

则它为有话帧，记ba_i = 1；若不符合此式，记ba_i = 0。

完成切分操作后对音节边界进行搜索：

清音：

从前往后搜索音频，若某连续三帧皆为清音：

,

则搜索整数Δi，使得第i + Δi帧为有话帧且不为浊音帧，第i + Δi + 1帧为浊音帧，

,

若没有搜索到满足条件的帧数，则令Δi = 6。

,对于切分过的第k帧，记起始点为seg^unv _k1 = i，

结束点为seg^unv _k2 = i+Δi，

并令切分过的帧中unv_i=0，避免重复计算。

遍历完成后，汇总起始点结果为

,

汇总结束点结果为,

,

浊音：

连续搜索到三帧为浊音帧,

,

则搜索整数Δi使得第i+Δi帧为浊音帧，第i+Δi+1帧和第i+Δi+2帧不为浊音帧，

,

记录起始点为i + 1, 结束点为i + Δi,

对于切分过的第w帧，记起始点为,

结束点为,

并令切分过的帧中voi_i = 0，避免重复计算,

遍历完成后，汇总起始点结果为

,

汇总结束点结果为

,

边界确定：

将起始位置seg^unv ₁和seg^voi ₁从小到大顺序排列，记为seg₁。

将结束位置seg^unv ₂和seg^voi ₂从小到大顺序排列，记为seg₂。

记录seg₁和seg₂的元素个数。

输入语音，以此算法识别出清音和浊音的个数。

如pydub库实现拆分的核心就是silence_thresh是认定小于-50dBFS以下的为silence，发现小于-50dBFS部分超过1000毫秒，就进行拆分。

本发明提供一种车载终端通信方法，终端中配置的语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出的关键信号解析进行终端通信功能的唤醒，在进行具体语音识别过程中首先对获取的语音进行音节切分，通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分，提高了识别的准确性和效率，而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量，对帧特征向量进行mfcc声学特征提取，由于本发明对音节进行了完整准确的切分，后续的算法识别能够更好的进行，更准确的进行通信功能的唤醒，解决了现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低，无法及时、准确的进行终端的唤醒，对通信功能造成影响的问题。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种车载终端通信方法，其特征在于：车载终端中配置有语音识别模块，

所述语音识别模块实时获取乘员的语音，并对相应语音进行识别，基于识别出

的关键信号解析进行终端通信功能的唤醒；

其中，所述语音识别模块对相应语音进行识别具体包括如下步骤：

S1：获取长度语音，以既定长度帧对所述长度语音进行音节切割，将其切

分成静音帧、清音帧及浊音帧；

S2：通过 GMM 算法将所述静音帧、所述清音帧及所述浊音帧处理成帧特征

向量；

S3：对所述帧特征向量进行 mfcc 声学特征提取，完成语音识别；

S1：选取突变门限σ，从前往后遍历，若第 i + 1 帧的过零率比第 i 帧的过零

率高出的值大于所述突变门限σ，则定义第 i 帧为静音突变成清音的临界点，则

所获取的第 m 个临界点在音频的第 Cm 帧；

S2：进行所述静音帧的一次判别，即若第一个临界点 C1 > 6，可定义 C1−3

之前的帧均为静音帧；

S3：将每个所述静音帧的短时能量记为 Ai，获取其中的最大值，通过以下

公式获取静音帧判别能量 Ath：

,

其中，Ath 为所述静音帧判别能量，k 为判别系数，定义为 ln2，Ai 为每个所

述静音帧的短时能量；

S4：基于上述公式进行所述静音帧的二次判别，即低于所述静音帧判别能

量 Ath 的帧均为所述静音帧，记为 sili=1，反之记 sili=0；

其中，所述语音识别模块对所述清音帧的切分具体为：

遍历音频，通过以下公式获取所述清音帧：

,

其中，Ai 为每个所述静音帧的短时能量，Ath 为所述静音帧判别能量，f =j*

Δf，j 为傅里叶变换后的频域系数，Δf 为变换后的频率间隔，即频率精度；

若第 i 帧满足此式，则它为清音帧，记为 unvi=1，反之记为 unvi=0；

S1：对所述长度语音进行时频 0-1 化，以语谱图中 1000-4000Hz 的能量均值

为门限，高于此能量为 1，低于此能量为 0，重新定义 Eij；

S2：获取浊音的判别门限 Eth，即为 1000-4000Hz 间二维能量的总和的平均，

记为 voith；

S3：通过以下公式定义浊音：

,

若某帧在此频段的能量高于 voith，则它为浊音，记为 voii = 1，反之记 voii=0。

2. 根据权利要求 1 所述的车载终端通信方法，其特征在于：所述既定长度帧为25ms。

3. 根据权利要求 2 所述的车载终端通信方法，其特征在于：所述突变门限σ定义为1。