CN112750426B

CN112750426B - 移动终端语音分析系统

Info

Publication number: CN112750426B
Application number: CN202110133543.0A
Authority: CN
Inventors: 郭昆; 陈文举; 吉鹏云; 陈羽中; 张鹏; 李钒效
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-10-20
Anticipated expiration: 2041-02-01
Also published as: CN112750426A

Abstract

本发明涉及一种移动终端语音分析系统。包括：数据预处理模块，对输入的语音信号进行预处理，转换成RGB图像；语音识别模块，对RGB图像大小进行调整，输入神经网络进行训练，得到神经网络模型；待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型，输出预测结果；语音重构模块，实现从加速度信号重构出语音信号的功能；对于输入的加速度信号频谱图，重构模块内部基于自动编码器设计的神经网络会先对其进行处理，经过训练的神经网络模型，输出加速度信号对应的语音信号的频谱图，再使用Griffin‑Lim算法从语音信号频谱图还原出语音信号，达到从加速度信号重构出语音信号的目标。本发明能够实现完整的从加速度信号重构出语音信号的功能。

Description

移动终端语音分析系统

技术领域

本发明涉及一种移动终端语音分析系统。

背景技术

基于运动传感器的语音识别吸引了许多安全领域研究人员的关注。Hwang等率先提出利用加速度计来进行智能设备之间无线通信的思想，在固定表面上放置两部智能终端，发送端发送消息时产生的振动通过固体表面传播，接收端分析自身的加速度计数据以解码传入的信息。虽然通信能够进行，但持续时间太短且需要为不同场景设置对应的加速计阈值。Michalevsky等利用智能手机中的陀螺仪拾取放置在同一张桌子上的独立扬声器引起表面的震动，通过分析捕获的震动识别扬声器发出的声音。由于陀螺仪对表面震动的灵敏度较低，并且采样率有限，因此识别成功率很低，区分单个数字发音的准确性仅为26%。Zhang等为了解决语音控制中的能量效率问题，设计了可在智能手机上运行的AccelWord，利用加速度计作为“麦克风”来检测用户所说的热门词汇，在移动场景下可以得到比陀螺仪更高的准确率，但仅限于交谈和行走两种模式下的热门词汇的识别，无法做到原始语音的还原。Anand等研究了通过固体表面或空气检测语音信号的问题，指出当扬声器达到足够的功率且沿固体传播语音时，引起的传感器震动最强烈，最有利于语音识别。Anand等进一步提出利用加速计采集由手机内置听筒发出的语音造成的振荡来进行语音识别与语音重构，不但具有更强的隐蔽性，准确率也更高，但其识别方法只能判断出说话者的性别及身份，而其重构方法只能判断出是否包含关键词，还不能还原出原始语音。Ba等提出基于智能手机的加速计实现手机语音监听的方法，指出现有手机加速计的采样频率已经能够采集到成人语音的完整频率，在此基础上采用基于深度神经网络的算法能够较好识别出语音中的数字和字母，并一定程度上还原出原始语音。但其top 1的识别和还原准确率还不高，且只能还原简单的单个字符的语音。以上研究提出了很多利用移动终端的传感器进行语音分析的方法，但由于语音震荡引起传感器数据的变化存在许多噪声，并且在正常语速下对数据进行正确的分割十分困难，目前存在的方法只能识别数字和单个字母，难以完成中文句子甚至关键字词的识别和重构任务。

发明内容

本发明的目的在于提供一种移动终端语音分析系统，能够实现完整的从加速度信号重构出语音信号的功能。

为实现上述目的，本发明的技术方案是：一种移动终端语音分析系统，包括：

数据预处理模块，对输入的语音信号进行预处理，转换成RGB图像；

语音识别模块，对预处理得到的RGB图像大小进行调整，然后输入神经网络进行训练，得到神经网络模型；待识别的加速度计数据经过预处理和图像大小调整后输入训练后的神经网络模型，输出预测结果；

语音重构模块，实现从加速度信号重构出语音信号的功能；对于输入的加速度信号频谱图，重构模块内部基于自动编码器设计的神经网络会先对其进行处理，经过训练的神经网络模型，输出加速度信号对应的语音信号的频谱图，再使用Griffin-Lim算法从语音信号频谱图还原出语音信号，达到从加速度信号重构出语音信号的目标。

在本发明一实施例中，所述语音信号是通过手机加速度计获取。

在本发明一实施例中，所述数据预处理模块的功能具体实现如下：

步骤S1、利用插值法处理加速度计测量数据的不稳定区间；

步骤S2、使用带通滤波消除重力、硬件和人类活动造成的失真；

步骤S3、将加速度计数据分割为短信号，每段对应一个单词；

步骤S4、将信号转换为频谱图；

步骤S5、将频谱图转换为RGB图像。

在本发明一实施例中，所述语音识别模块使用DenseNet作为基础网络模型，在进行句子是否含有敏感词的预测时，预处理部分通过滑动窗口的方式对数据进行切割，以保证能够更准确的找出敏感词。

在本发明一实施例中，所述语音重构模块包括两个部分，第一个部分是基于自动编码器设计的神经网络，第二是Griffin-Lim算法；神经网络的输入是加速度信号频谱图，输出是语音信号频谱图；经过训练的神经网络模型，对于输入的加速度信号频谱图可直接输出对应的语音信号频谱图；神经网络属于自动编码器架构，编码使用图卷积，解码使用图反卷积，另外，还在神经网络中加入残差映射，这样可以有更深层的神经网络结构，从而使重构出的语音信号频谱图有更高的质量；得到语音信号频谱图之后，再使用Griffin-Lim算法来还原出对应的语音信号，实现完整的从加速度信号重构出语音信号的功能。

相较于现有技术，本发明具有以下有益效果：本发明使用DenseNet模型作为加速度计语音识别模块的基础网络模型，使用自动编码器结合Griffin-Lim算法实现了加速度计语音重构功能，在对于单个数字、汉字以及中文词语的识别和重构上有较高的准确率。对于句子中是否含有敏感词的识别任务，预处理部分使用滑动窗口的方式对句子数据进行分割，能够较为准确地识别出句子中的敏感词。

附图说明

图1为本发明中预处理模块流程图。

图2（a）为本发明神经网络训练流程图；图2（b）为本发明语音识别流程图。

图3为本发明语音重构流程图。

图4为本发明移动终端语音分析系统的软件架构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种移动终端语音分析系统，包括：

以下为本发明的具体实现过程。

本发明一种移动终端语音分析系统。该系统采用DenseNet模型作为语音识别模块的基础网络，结合基于滑动窗口的方法对句子数据进行切割以实现敏感词识别。语音重构模块采用基于自动编码器的框架对频谱图进行重构，结合Griffin-Lim算法还原出对应的语音信号。如图4所示，该系统包括以下3个模块：

（1）数据预处理模块：将语音信号输入后进行预处理，转换成RGB图像。预处理模块主要由插值、带通滤波、切割、信号转换频谱图、频谱图转RGB图等五个预处理功能组成：利用插值法处理加速计测量数据的不稳定区间；使用带通滤波消除重力、硬件和人类活动造成的失真；将加速计信号分割为短信号，每段对应一个单词；将信号转换为频谱图；将频谱图转换为RGB图像。

（2）语音识别模块：识别模块包括模型训练和语音识别，对预处理得到的RGB图像大小进行调整，然后输入神经网络进行训练，得到网络模型。待识别的加速度计数据经过预处理和图像大小调整后输入模型，输出预测结果。

（3）语音重构模块：语音重构模块的输入是加速度信号频谱图，通过基于自动编码器设计的神经网络，可以先重构出对应的语音信号频谱图。对于神经网络输出的语音信号频谱图，再使用Griffin-Lim算法来还原出语音信号，以此实现从加速度信号重构出语音信号的功能。

进一步的，预处理模块具体流程如图1所示：

从图中可以看出识别算法的流程：

（1）插值固定采样率；使用线性插值来处理加速度计测量的不稳定区间。使用时间戳来定位所有没有加速度计测量的时间点，并使用线性插值来填充缺失的数据。产生的信号的固定采样率为1000hz。这个插值(上采样)过程并没有增加加速度信号的语音信息。其主要目的是产生具有固定采样率的加速度信号。

（2）使用带通滤波减小噪声；使用一个带通滤波器来消除由重力、硬件失真(偏移误差)和人类活动造成的严重失真。特别地，首先使用短时傅里叶变换(STFT)将沿每个轴的加速度信号转换成频域。它将长信号分成等长段(有重叠)，并分别计算每个段的傅里叶变换。然后，将截止频率以外的所有频率分量的系数设置为零，并使用反STFT将信号转换回时域。

（3）分割加速计信号；a.选择优势轴：由于三个轴上的加速度信号是完全同步的，利用信号较强的优势轴(z轴)来定位切割点，然后利用得到的切割点对三轴上滤波后的加速度信号进行分割。b. 切割点的位置确定：给定主轴上的加速度信号，我们首先对信号进行另一轮带通滤波，截止频率为160hz。然后计算消噪信号的幅值(绝对值)，用两轮移动平均对得到的幅值序列进行平滑处理。第一轮和第二轮的滑动窗口分别为200和30。然后，求出平滑幅度序列的最大值Mmax和最小值Mmin。在这个过程中，第一个和最后一个100个级值被丢弃，因为它们没有足够的相邻样本进行平均。得到的最小值近似于噪声信号的大小。c.遍历平滑星等序列，找出所有大于0.8Mmin + 0.2Mmax阈值的星等区域。每个定位区域表示一个语音信号的存在。为了保证分割后的信号能够覆盖整个语音信号，每个定位区域的起点和终点分别向前和向后移动100和200个样本。最后利用得到的切点将滤波后的加速度信号分割成多个短信号，每个短信号对应一个单词。

（4）将短信号转换为二维频谱图；为了生成单字信号的频谱图，首先需要将信号分割成多个具有固定重叠的短段。对于语音识别任务，段的长度和重叠部分分别设置为256和252，使得最后生成的RGB图像水平分辨率为210左右，垂直分辨率为129。对于语音重构任务，段的长度和重叠部分分别设置为256和248，使得最后生成的RGB图像水平分辨率为105左右，垂直分辨率为129。参数如此设定是为了在后续任务中将RGB图像输入神经网络模型前需要先进行统一大小调整，此参数能够使调整大小后信息损失较少。然后我们用一个Hamming window对每个片段进行窗口化，并通过STFT计算其频谱，STFT为每个片段生成一系列的复杂系数。沿着每个轴的信号现在被转换成STFT矩阵，记录信号的每个时间和频率的幅度和相位。最后，计算出二维谱图：

其中，x(n)和|STFT {x(n)}(m, w)|分别表示单轴加速度信号及其对应的STFT矩阵的大小。因为我们有沿三个轴的加速度信号，每个单字信号可以得到三个频谱图。

（5）将二维频谱图转换为RGB图像。为了直接将频谱图输入神经网络，进一步将一个信号的三个二维频谱图转换成一个PNG格式的RGB图像。为了做到这一点，首先把三个m×n频谱图放入一个m×n×3 的张量中。然后取张量中所有元素的平方根，把得到的值映射到0到255之间的整数。最后，将m×n×3 张量导出为PNG格式的图像。在获得的RGB图像中，红色、绿色和蓝色的通道分别对应于加速度计信号的x轴、y轴和z轴。为了减少噪声的影响并尽量保留信息，对于识别任务，我们截取80hz-300hz的频率范围，对于重构任务，则截取20hz-500hz的频率范围。

进一步的，语音识别模块根据识别任务的不同需要训练不同的模型，模块整体流程如图2（a）和图2（b）所示。如果要识别中文词语，则需先使用词语数据训练集将模型训练好，然后再使用模型来预测待识别的数据。神经网络模型使用DenseNet模型作为基础模型，该模型的每一层都能够接收和重用来自前一层的特性，参数较少，更容易训练。针对句子数据中是否出现敏感词的识别任务，采用滑动窗口的方式对句子数据集进行切割。

进一步的，语音重构模块包括两个部分，第一个部分是基于自动编码器设计的神经网络，第二是Griffin-Lim算法部分，具体流程如图3所示。神经网络的输入是加速度信号频谱图，输出是语音信号频谱图。经过训练的模型，对于输入的加速度频谱图可以直接输出对应的语音信号频谱图。重构神经网络属于自动编码器架构，编码使用了图卷积，解码使用了图反卷积。另外，还在网络中加入了残差映射，这样可以有更深层的网络结构，从而使重构出的语音信号频谱图有更高的质量。得到语音信号频谱图之后，再使用Griffin-Lim算法来还原出对应的语音信号，实现完整的从加速度信号重构出语音信号的功能。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种移动终端语音分析系统，其特征在于，包括：

语音重构模块，实现从加速度信号重构出语音信号的功能；对于输入的加速度信号频谱图，重构模块内部基于自动编码器设计的神经网络会先对其进行处理，经过训练的神经网络模型，输出加速度信号对应的语音信号的频谱图，再使用Griffin-Lim算法从语音信号频谱图还原出语音信号，达到从加速度信号重构出语音信号的目标；

所述数据预处理模块的功能具体实现如下：

步骤S1、利用插值法处理加速度计测量数据的不稳定区间；

步骤S4、将信号转换为频谱图；

步骤S5、将频谱图转换为RGB图像；

所述语音识别模块使用DenseNet作为基础网络模型，在进行句子是否含有敏感词的预测时，预处理部分通过滑动窗口的方式对数据进行切割，以保证能够更准确的找出敏感词；

所述语音重构模块包括两个部分，第一个部分是基于自动编码器设计的神经网络，第二是Griffin-Lim算法；神经网络的输入是加速度信号频谱图，输出是语音信号频谱图；经过训练的神经网络模型，对于输入的加速度信号频谱图可直接输出对应的语音信号频谱图；神经网络属于自动编码器架构，编码使用图卷积，解码使用图反卷积，另外，还在神经网络中加入残差映射，这样可以有更深层的神经网络结构，从而使重构出的语音信号频谱图有更高的质量；得到语音信号频谱图之后，再使用Griffin-Lim算法来还原出对应的语音信号，实现完整的从加速度信号重构出语音信号的功能。

2.根据权利要求1所述的移动终端语音分析系统，其特征在于，所述语音信号是通过手机加速度计获取。