CN117198312B

CN117198312B - 一种用于智能眼镜的语音交互处理方法

Info

Publication number: CN117198312B
Application number: CN202311448822.1A
Authority: CN
Inventors: 陈旭
Original assignee: Shenzhen Moyoung Technology Co ltd
Current assignee: Shenzhen Moyang Technology Co.,Ltd.
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-30
Anticipated expiration: 2043-11-02
Also published as: CN117198312A

Abstract

本发明涉及音频信号数据处理技术领域，具体涉及一种用于智能眼镜的语音交互处理方法，包括：采集智能眼镜的语音信号以及震动数据；根据语音信号以及震动数据获取语音段以及模拟噪声信号；根据语音段以及模拟噪声信号获取所有模拟噪声信号段并计算所有模拟噪声信号段与语音段内小波动的差异程度；根据所有模拟噪声信号段以及语音段获取所有模拟噪声信号段对语音段进行去噪后的可读性；根据差异程度以及可读性，获取所有模拟噪声信号段与语音段的匹配程度参数；根据匹配程度参数获取最匹配语音段的模拟噪声信号段。本发明根据模拟噪音信号对用户在与智能眼镜进行语音交互时的语音信号进行降噪处理，达到智能眼镜准确识别语音信号的目的。

Description

一种用于智能眼镜的语音交互处理方法

技术领域

本发明涉及音频信号数据处理技术领域，具体涉及一种用于智能眼镜的语音交互处理方法。

背景技术

智能眼镜的概念已经存在了很长时间，但直到近年来，智能眼镜才开始进入大众市场。作为一种新型的可穿戴设备，智能眼镜可以将计算机、传感器和显示器集成到眼镜中，为用户提供更加便捷的信息获取和交互方式。其中，语音交互作为智能眼镜的重要组成部分，需要与用户进行实时的双向通信，这对于提高用户体验至关重要。现阶段大众市场对智能眼镜的应用主要在运动领域，用户可以在运动时通过语音交互功能更便捷、安全地获取信息。

但当前智能眼镜在运动领域的使用过程中，由于运动时眼镜本身上下颠簸或风噪声等其他外界干扰问题，导致用户说话时接收的语音信号存在一定噪声，因此其语音识别的过程中总是存在一定误识别或漏识别等问题。而当前的信号降噪增强技术对于智能眼镜的语音交互场景而言，其计算量过大，且对于语音识别模块而言，降噪结果不够理想，因此智能眼镜当前使用场景下仍需要一种更优化的智能语音交互处理方法。

发明内容

本发明提供一种用于智能眼镜的语音交互处理方法，以解决现有的问题。

本发明的一种用于智能眼镜的语音交互处理方法采用如下技术方案：

本发明一个实施例提供了一种用于智能眼镜的语音交互处理方法，该方法包括以下步骤：

采集智能眼镜的语音信号以及智能眼镜自身的震动数据；

根据语音信号获取语音信号中的用户与智能眼镜语音交互的语音信号段以及语音信号中的用户不与智能眼镜语音交互的语音信号段，并将语音信号中的用户与智能眼镜语音交互的语音信号段记为语音段，将语音信号中的用户不与智能眼镜语音交互的语音信号段记为参考段；根据智能眼镜自身的震动数据获取震幅曲线；根据参考段以及震幅曲线获取模拟噪声信号；

根据语音段以及模拟噪声信号获取所有模拟噪声信号段并计算所有模拟噪声信号段与语音段内小波动的差异程度；根据所有模拟噪声信号段对语音段进行去噪，获取所有模拟噪声信号段对语音段进行去噪后的可读性；

根据所有模拟噪声信号段与语音段内小波动的差异程度以及所有模拟噪声信号段对语音段进行去噪后的可读性，获取所有模拟噪声信号段与语音段的匹配程度参数；根据所有模拟噪声信号段与语音段的匹配程度参数获取最匹配语音段的模拟噪声信号段；根据最匹配语音段的模拟噪声信号段对语音段进行降噪；利用降噪后的语音段进行智能眼镜交互。

优选的，所述获取语音信号中的用户与智能眼镜语音交互的语音信号段以及语音信号中的用户不与智能眼镜语音交互的语音信号段，包括的具体步骤如下：

通过最小二乘法对智能眼镜采集的语音信号的幅值进行拟合，得到语音信号拟合曲线；然后获取语音信号拟合曲线中的所有拐点；接着计算语音信号中的语音信号幅值均值，将语音信号拟合曲线中语音信号幅值小于语音信号幅值均值的拐点作为目标拐点；利用语音信号拟合曲线中的所有目标拐点对语音信号拟合曲线进行分割，得到若干拟合曲线段；若拟合曲线段中除两个端点外存在其他极大值点，则拟合曲线段为语音信号中的用户与智能眼镜语音交互的语音信号段；若拟合曲线段中除两个端点外不存在其他极大值点，则拟合曲线段为语音信号中的用户不与智能眼镜语音交互的语音信号段。

优选的，所述获取震幅曲线，包括的具体步骤如下：

根据采集智能眼镜自身的震动数据绘制震幅曲线，所述震幅曲线的横轴为时间，纵轴为智能眼镜的震动幅度。

优选的，所述根据参考段以及震幅曲线获取模拟噪声信号，包括的具体步骤如下：

通过将震幅曲线的最大幅值与最小幅值，结合所有参考段中最大的幅值与最小幅值，对震幅曲线进行等比缩放，使缩放后的震幅曲线的最大幅值等于所有参考段中最大的幅值，且缩放后的震幅曲线的最小幅值等于所有参考段中最小的幅值，将缩放后的震幅曲线记为模拟噪声信号。

优选的，所述对震幅曲线进行等比缩放，包括的具体计算公式如下：

式中，f(g)表示模拟噪声信号；f(v)表示震幅曲线；f(v)_max表示震幅曲线中最大的幅值；f(v)_min表示震幅曲线中最小的幅值；f(u)_max表示所有参考段中最大的幅值；f(u)_min表示所有参考段中最小的幅值。

优选的，所述获取所有模拟噪声信号段并计算所有模拟噪声信号段与语音段内小波动的差异程度，包括的具体步骤如下：

统计语音段内小波动的数量记为n，所述语音段内小波动为语音段内相邻的极大值点与极小值点之间的曲线，语音段内第一个数据点对应的时刻记为起始时刻；然后从模拟信号中起始时刻开始选取n个小波动的作为第一模拟噪声信号段；计算第一模拟噪声信号段与语音段内小波动的差异程度；

接着从模拟信号中起始时刻的下1个时刻开始选取n个小波动的作为第二模拟噪声信号段；计算第二模拟噪声信号段与语音段内小波动的差异程度；

然后从模拟信号中起始时刻的下2个时刻开始选取n个小波动的作为第三模拟噪声信号段；计算第三模拟噪声信号段与语音段内小波动的差异程度；

以此类推，直至从模拟信号中起始时刻的下r个时刻开始选取n个小波动的作为第r+1模拟噪声信号段；计算第r+1模拟噪声信号段与语音段内小波动的差异程度为止，所述r为预设的延迟范围；至此得到所有模拟噪声信号段与语音段内小波动的差异程度。

优选的，所述模拟噪声信号段与语音段内小波动的差异程度的具体计算公式如下：

式中，G表示模拟噪声信号段与语音段内小波动的差异程度；A_fi表示语音段上第i个小波动两端幅值差的绝对值；A_gi表示模拟噪声信号段上第i个小波动两端幅值的差；n表示语音段上小波动的数量同时也表示模拟噪声信号段上小波动的数量；F_gi表示模拟噪声信号段上第i个小波动的时间跨度；F_fi表示语音段信号上第i个小波动的时间跨度。

优选的，所述获取所有模拟噪声信号段对语音段进行去噪后的可读性，包括的具体计算公式如下：

式中，表示根据模拟噪声信号段对语音段进行去噪后的可读性；m_i表示语音段内第i个小波动上的数据点数量；x_i，j表示语音段内第i个小波动上的第j个数据点的幅值；n表示语音段内小波动的数量；μ_i表示语音段内第i个小波动上的数据点幅值的均值；σ_i表示语音段内第i个小波动上的数据点幅值的标准差。

优选的，所述获取所有模拟噪声信号段与语音段的匹配程度参数，包括的具体计算公式如下：

式中，H表示模拟噪声信号段与语音段的匹配程度参数；G表示模拟噪声信号段与语音段内小波动的差异程度；表示根据模拟噪声信号段对语音段进行去噪后的可读性。

优选的，所述获取最匹配语音段的模拟噪声信号段，包括的具体步骤如下：

将所有模拟噪声信号段与语音段的匹配程度参数中最小的匹配参数所对应的模拟噪声信号段，作为最匹配语音段的模拟噪声信号段。

本发明的技术方案的有益效果是：由于用户在运动时眼镜本身上下颠簸或风噪声等其他外界干扰问题，导致用户说话时接收的语音信号存在一定噪声，因此其语音识别的过程中总是存在一定误识别或漏识别等问题。而当前的信号降噪增强技术对于智能眼镜的语音交互场景而言，其计算量过大，且对于语音识别模块而言，降噪结果不够理想；针对上述问题，本发明通过分析用户与智能眼镜在进行语音交互时的场景，结合用户不与智能眼镜语音交互的语音信号，模拟噪音信号，根据模拟噪音信号对用户在与智能眼镜进行语音交互时的语音信号进行降噪处理，达到智能眼镜准确识别语音信号的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种用于智能眼镜的语音交互处理方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于智能眼镜的语音交互处理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于智能眼镜的语音交互处理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于智能眼镜的语音交互处理方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集智能眼镜的语音信号以及智能眼镜自身的震动数据。

需要说明的是，目前智能眼镜的交互方式主要为手势交互、视觉交互以及语音交互这三种交互方式，而在用户运动时与智能眼镜进行语音交互的过程中，由于用户在运动过程中的喘息声、风声以及智能眼镜自身的上下颠簸产生的噪声等因素均会导致智能眼镜采集的语音信号中存在一定噪声，进而造成语音信号识别困难，导致智能眼镜无法提供准确的语音交互服务；而本实施例正是针对这一情况对智能眼镜的语音交互进行优化。为了能够对智能眼镜的语音交互进行优化，首先需要采集用户运动时的各项数据。

具体的，同通过智能眼镜内置的麦克风采集智能眼镜的语音信号；通过智能眼镜内置的陀螺仪采集智能眼镜自身的震动数据。

步骤S002：根据语音信号获取语音信号中的用户与智能眼镜语音交互的语音信号段以及语音信号中的用户不与智能眼镜语音交互的语音信号段，并将语音信号中的用户与智能眼镜语音交互的语音信号段记为语音段，将语音信号中的用户不与智能眼镜语音交互的语音信号段记为参考段；根据智能眼镜自身的震动数据获取震幅曲线；根据参考段以及震幅曲线获取模拟噪声信号。

需要说明的是，由于在用户运动时与智能眼镜进行语音交互的过程中，所采集的语音信号内存在一定的噪声，所以需要对用户运动时与智能眼镜进行语音交互的过程中所采集的语音信号进行降噪处理；而传统的基于信号处理的语音信号降噪方法对硬件的算力以及内存有一定的要求，同时智能眼镜不具备充足的算力和内存，所以使用传统的基于信号处理的语音信号降噪方法，不能有效的去除语音信号中的噪声。

需要进一步说明的是，当用户与智能眼镜进行语音交互时，智能眼镜采集的语音信号幅值高，而用户不与智能眼镜进行语音交互时，智能眼镜采集的语音信号幅值低，所以可以根据智能眼镜采集的语音信号的幅值，获取语音信号中的用户与智能眼镜语音交互的语音信号段。

具体的，通过最小二乘法对智能眼镜采集的语音信号的幅值进行拟合，得到语音信号拟合曲线；然后获取语音信号拟合曲线中的所有拐点，所述语音信号拟合曲线中的所有拐点为语音信号拟合曲线中的所有二阶导为0的点；接着计算语音信号中的语音信号幅值均值，以语音信号幅值均值为阈值对语音信号拟合曲线中的所有拐点进行分类，将语音信号拟合曲线中语音信号幅值小于语音信号幅值均值的拐点作为目标拐点；依照语音信号拟合曲线中的所有目标拐点对语音信号拟合曲线进行分割，得到若干拟合曲线段；若拟合曲线段中除两个端点外存在其他极大值点，则拟合曲线段为语音信号中的用户与智能眼镜语音交互的语音信号段；若拟合曲线段中除两个端点外不存在其他极大值点，则拟合曲线段为语音信号中的用户不与智能眼镜语音交互的语音信号段。

至此，得到语音信号中的用户与智能眼镜语音交互的语音信号段以及用户不与智能眼镜语音交互的语音信号段；将语音信号中的用户与智能眼镜语音交互的语音信号段记为语音段，将语音信号中的用户不与智能眼镜语音交互的语音信号段记为参考段。

需要说明的是，由在参考段中用户与智能眼镜不存在语音交互，所以参考段内的语音信号均为噪声，而智能眼镜自身的震动数据可以反映出语音信号中的噪声，所以可以通过参考段内的语音信号以及智能眼镜自身的震动数据，模拟噪声信号，以在后续步骤中通过模拟噪声信号对语音信号进行自适应降噪增强。

需要进一步说明的是，用户运动时与智能眼镜进行语音交互的过程中所采集的语音信号中的噪声主要是由：用户在运动过程中导致智能眼镜麦克风附近的空气湍流造成的噪声以及用户在运动过程中由于呼吸频率加速出现的喘息声造成的噪声；而用户的运动越激烈，智能眼镜的震幅就越激烈，智能眼镜的震幅越激烈，智能眼镜采集的语音信号中的噪声就越大，因此智能眼镜自身的震动数据可以反映智能眼镜采集的语音信号中的噪声。

具体的，通过将震幅曲线的最大幅值与最小幅值，结合所有参考段中最大的幅值与最小幅值，对震幅曲线进行等比缩放，使缩放后的震幅曲线的最大幅值等于所有参考段中最大的幅值，且缩放后的震幅曲线的最小幅值等于所有参考段中最小的幅值，将缩放后的震幅曲线记为模拟噪声信号，获取模拟噪声信号的计算公式如下：

至此，得到模拟噪声信号。

步骤S003：根据语音段以及模拟噪声信号获取所有模拟噪声信号段并计算所有模拟噪声信号段与语音段内小波动的差异程度；根据所有模拟噪声信号段对语音段进行去噪，获取所有模拟噪声信号段对语音段进行去噪后的可读性。

需要说明的是，由在运动时智能眼镜的震动产生的噪声与智能眼镜的震动幅度频率基本保持一致，但由用户喘息造成的噪声则存在一定的延迟，所以在对语音信号进行降噪处理时，需要调整模拟噪声信号与语音信号对应的时序，使降噪效果达到最优。

需要进一步说明的是语音段内的信号是由噪音信号和用户语音交互信号叠加组成的，故语音段内的信号中存在大量噪声信号，又因为用户语音交互信号的信号幅值远大于噪声信号的幅值，所以噪声信号在语音段内会呈现出许多小波动；故可以通过语音段内的小波动与模拟噪声信号，得到模拟噪声信号段与语音段内小波动的差异程度。

具体的，统计语音段内小波动的数量记为n，所述语音段内小波动为语音段内相邻的极大值点与极小值点之间的曲线，语音段内第一个数据点对应的时刻记为起始时刻；然后从模拟信号中起始时刻开始选取n个小波动的作为第一模拟噪声信号段；计算第一模拟噪声信号段与语音段内小波动的差异程度；

以此类推，直至从模拟信号中起始时刻的下r个时刻开始选取n个小波动的作为第r+1模拟噪声信号段；计算第r+1模拟噪声信号段与语音段内小波动的差异程度为止，所述r为预设的延迟范围，r的具体取值可结合实际情况设置，本实施例不做硬性要求，在本实施例中以r＝30进行叙述；至此得到所有模拟噪声信号段与语音段内小波动的差异程度。

所述模拟噪声信号段与语音段内小波动的差异程度的具体计算公式为：

需要进一步说明的是，表征的是语音段上的小波动与模拟噪声信号段上的小波动在幅值上的差异程度，即/>的值越大语音段上的小波动与模拟噪声信号段上的小波动在幅值上的差异越大；/>表征的是语音段上的小波动与模拟噪声信号段上的小波动在时间跨度上的差异程度，即/>越大音段上的小波动与模拟噪声信号段上的小波动在时间跨度上的差异程度越大；所以G越大则模拟噪声信号段与语音段内小波动的差异程度越大。

至此，得到模拟噪声信号段与语音段内小波动的差异程度。

需要说明的是，本实施例的目的是对智能眼镜语音交互进行优化，所以需要保证经过去噪处理后的语音段具有良好的可读性，所以需要进一步计算，以各模拟噪声信号段作为语音段内对应的噪声段，然后语音段进行谱减法得到根据模拟噪声信号段对语音段进行去噪后的可读性，其中谱减法作为一种公知的技术，故在本实施例中不再赘述。

具体的计算根据模拟噪声信号段对语音段进行去噪后的可读性的公式为：

需要说明的是，是通过计算语音段上单个小波动的峰度表征降噪后该单个小波动的信号幅值，由于保证信号的可读性，所以/>的值越大越好，故当/>的值越大根据模拟噪声信号段对语音段进行去噪后的可读性就越高。

至此，得到根据模拟噪声信号段对语音段进行去噪后的可读性。

步骤S004：根据所有模拟噪声信号段与语音段内小波动的差异程度以及所有模拟噪声信号段对语音段进行去噪后的可读性，获取所有模拟噪声信号段与语音段的匹配程度参数；根据所有模拟噪声信号段与语音段的匹配程度参数获取最匹配语音段的模拟噪声信号段；根据最匹配语音段的模拟噪声信号段对语音段进行降噪；利用降噪后的语音段进行智能眼镜交互。

需要说明的是，模拟噪声信号段与语音段内小波动的差异程度越小，则说明模拟噪声信号段与语音段内小波动差异越小，即语音段也有可能是由模拟噪声信号段与用户语音交互信号叠加，同时根据模拟噪声信号段对语音段进行去噪后的可读性越强，则说明使用该模拟噪声信号段对语音段进行去噪的效果越好；所以可以通过模拟噪声信号段与语音段内小波动的差异程度与根据模拟噪声信号段对语音段进行去噪后的可读性，得到模拟噪声信号段与语音段的匹配程度参数。

其具体的计算公式为：

至此，得到所有模拟噪声信号段与语音段的匹配程度参数。

需要进一步说明的，模拟噪声信号段与语音段的匹配程度参数越小，模拟噪声信号段与语音段越匹配，所以将所有模拟噪声信号段与语音段的匹配程度参数中最小的匹配参数所对应的模拟噪声信号段，作为最匹配语音段的模拟噪声信号段。

最后通过最匹配语音段的模拟噪声信号段对语音段进行谱减法降噪，得到降噪后的语音段，其中由于谱减法作为一种公知的技术，故在本实施例中不再赘述；对降噪后的语音段进行识别，以避免由噪声引起的语音交互错误的情况。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于智能眼镜的语音交互处理方法，其特征在于，该方法包括以下步骤：

采集智能眼镜的语音信号以及智能眼镜自身的震动数据；

根据所有模拟噪声信号段与语音段内小波动的差异程度以及所有模拟噪声信号段对语音段进行去噪后的可读性，获取所有模拟噪声信号段与语音段的匹配程度参数；根据所有模拟噪声信号段与语音段的匹配程度参数获取最匹配语音段的模拟噪声信号段；根据最匹配语音段的模拟噪声信号段对语音段进行降噪；利用降噪后的语音段进行智能眼镜交互；

所述根据参考段以及震幅曲线获取模拟噪声信号，包括的具体步骤如下：

通过将震幅曲线的最大幅值与最小幅值，结合所有参考段中最大的幅值与最小幅值，对震幅曲线进行等比缩放，使缩放后的震幅曲线的最大幅值等于所有参考段中最大的幅值，且缩放后的震幅曲线的最小幅值等于所有参考段中最小的幅值，将缩放后的震幅曲线记为模拟噪声信号；

所述对震幅曲线进行等比缩放，包括的具体计算公式如下：

式中，f(g)表示模拟噪声信号；f(v)表示震幅曲线；f(v)_max表示震幅曲线中最大的幅值；f(v)_min表示震幅曲线中最小的幅值；f(u)_max表示所有参考段中最大的幅值；f(u)_min表示所有参考段中最小的幅值；

所述获取所有模拟噪声信号段并计算所有模拟噪声信号段与语音段内小波动的差异程度，包括的具体步骤如下：

以此类推，直至从模拟信号中起始时刻的下r个时刻开始选取n个小波动的作为第r+1模拟噪声信号段；计算第r+1模拟噪声信号段与语音段内小波动的差异程度为止，所述r为预设的延迟范围；至此得到所有模拟噪声信号段与语音段内小波动的差异程度；

所述模拟噪声信号段与语音段内小波动的差异程度的具体计算公式如下：

式中，G表示模拟噪声信号段与语音段内小波动的差异程度；A_fi表示语音段上第i个小波动两端幅值差的绝对值；A_gi表示模拟噪声信号段上第i个小波动两端幅值的差；n表示语音段上小波动的数量同时也表示模拟噪声信号段上小波动的数量；F_gi表示模拟噪声信号段上第i个小波动的时间跨度；F_fi表示语音段信号上第i个小波动的时间跨度；

所述获取所有模拟噪声信号段对语音段进行去噪后的可读性，包括的具体计算公式如下：

式中，表示根据模拟噪声信号段对语音段进行去噪后的可读性；m_i表示语音段内第i个小波动上的数据点数量；x_i，j表示语音段内第i个小波动上的第j个数据点的幅值；n表示语音段内小波动的数量；μ_i表示语音段内第i个小波动上的数据点幅值的均值；σ_i表示语音段内第i个小波动上的数据点幅值的标准差；

所述获取所有模拟噪声信号段与语音段的匹配程度参数，包括的具体计算公式如下：

式中，G表示模拟噪声信号段与语音段的匹配程度参数；G表示模拟噪声信号段与语音段内小波动的差异程度；表示根据模拟噪声信号段对语音段进行去噪后的可读性。

2.根据权利要求1所述一种用于智能眼镜的语音交互处理方法，其特征在于，所述获取语音信号中的用户与智能眼镜语音交互的语音信号段以及语音信号中的用户不与智能眼镜语音交互的语音信号段，包括的具体步骤如下：

3.根据权利要求1所述一种用于智能眼镜的语音交互处理方法，其特征在于，所述获取震幅曲线，包括的具体步骤如下：

4.根据权利要求1所述一种用于智能眼镜的语音交互处理方法，其特征在于，所述获取最匹配语音段的模拟噪声信号段，包括的具体步骤如下：