CN113539298A

CN113539298A - 一种基于云边端的声音大数据分析计算图像化系统

Info

Publication number: CN113539298A
Application number: CN202110814736.2A
Authority: CN
Inventors: 徐元晓; 张家健; 周斌; 徐啸峰; 马乐; 任杰; 陈飞; 刘春林; 夏章楠
Original assignee: China Information Consulting and Designing Institute Co Ltd
Current assignee: China Information Consulting and Designing Institute Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22
Anticipated expiration: 2041-07-19
Also published as: CN113539298B

Abstract

本发明提供了一种基于云边端的声音大数据分析计算图像化系统，包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块和计算结果管理模块；本发明为城市安全监控提供一种新的预警形式和方法，利用云端的深度学习声音分类模型和声音图像化搜索算法，满足数字城市建设中城市应急预警的智慧化需求。

Description

一种基于云边端的声音大数据分析计算图像化系统

技术领域

本发明属于计算机大数据分析计算技术领域，尤其涉及一种基于云边端的声音大数据分析计算图像化系统。

背景技术

视频AI识别作为城市应急预警的常用辅助手段，在智慧城市建设中的应用越来越普遍，可实现实时视频分析，对目标行为进行动态识别，实现自动检测、分离、跟踪，极大提升了城市安全监控，是智慧城市建设的重要组成部分，但在厕所、学校课堂等公共隐私场所，又或摄像头背后、环境黑暗隧道等情况下，视频监控就无法实现安全预警。

在这样的现状下，在厕所等涉及到个人隐私情况下，当发生危险的时候如何及时预警？在灰暗的隧道中无法通过视频AI识别车辆超速时如何预警？如何解决学校教室中学生集聚情况下的风险预警？等等视频AI无法预警的场景，这些已然成为公共安全预警的迫切需求。

传统的声音识别只是通过对声音分贝大小来做出预警判断，而且没有直观的可视化表现形式来显示。基于声音识别，大多数是在窃听的情况下对特定事进行风险预警，有时还是会涉及到个人隐私。同时基于声音分贝大小来预警，往往是在人为有呼喊的情况下的预警，无法基于物体移动下的风险预警。

发明内容

发明目的：本发明的目的是针对城市特殊环境下无法通过视频AI分析进行风险预警的场景，即是5G、物联网、大数据时代城市应急预警需要的基于声音大数据分析预警技术，提供一种云边端的大数据分析图像化系统。

本发明系统包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块和计算结果管理模块，这五大功能模块是基于“边云端”的技术架构进行设计。

所述数据采集模块用于，采集特定环境下(一般指厕所、课堂教室、地下室等涉及到个人隐私或黑暗环境下)物体发出的声音，并在数据采集的边缘端记录保存为音频数据，这里的边缘端是指在靠近数据采集的物联网设备侧加入一定数据计算能力，比如在声音采集设备上加上一定的存储、多核CPU、一定的内存等进行数据存储和顺序处理计算能力；

所述声音预处理模块用于，在边缘端对音频数据进行预加重、分帧、加窗等预处理操作，得到预处理后的音频数据；这些操作的目的是消除因为物体发声本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证数字音频识别模块等得到信号更均匀、平滑，提高语音处理质量；

所述数字音频识别模块用于，接收边缘端预处理的音频数据，然后进行深度学习对音频数据进行分类，比如汽车引擎噪音、狗叫声和汽笛声等，要做的就是对每个声音样本进行分类并标记它所属的类；

所述数字音频图像化处理模块用于，在字音频识别模块对音频数据进行分类的基础上，采用动态时间规整DTW特征匹配算法，采用图像库序列和实时采集声音序列通过DTW把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性，通过计算得出累积距离(相似性)来进行图像化输出。

所述计算结果管理模块用于，对数据采集模块中音频数据进行元数据管理，以方便溯源；所述计算结果管理模块还用于，对数字音频识别模块进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据，从而提高模型的准确性；最后，对数字音频图像化处理模块生成的图像进行分类管理，提供不同终端的显示方式，增强可识别率，从而可以快速的阅读出预警事件。

所述声音预处理模块具体执行如下步骤：

步骤a1，预加重:采用数字滤波器对音频数据s(n)进行预加重，公式如下：

是音频数据的平均功率谱，s(n)是当前音频数据，s(n-1)是上一时刻音频数据，其中a是预加重系数；

步骤a2，分帧：音频数据具有时变特性，但在一个短时间范围，其特性基本保持不变的特性定义为音频信号短时平稳性，所以将音频数据分段采用“短时分析技术”来分析音频信号短时平稳性的特征参数，其中每一段为一“帧”，每一帧的长度根据音频数据的长度进行取值，从而分析出由每一帧短时平稳性特征参数组成的特征参数时间序列作为步骤a3的输入；

步骤a3，加窗：对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱，即对各个短段进行汉明窗运算，公式为：

其中，0≤n≤N，w(n)是计算出的汉明窗短时谱，N为汉明窗的长度；

步骤a4，端点检测:以短时能量E和短时平均过零率Z作为特征，排除音频数据中无声段的噪声干扰。

步骤a4中，短时能量E和短时平均过零率Z计算公式如下：

其中，E_n是第n帧的短时能量谱，x_n(m)是第n帧的音频数据信号，N为帧长；Z_n是第n帧的短时过零率，sgn[]是符号函数。

所述数字音频识别模块首先判断预处理后的音频数据是否是立体声，如果不是进行步骤b1，如果是直接跳到步骤b2：

步骤b1：立体声转换:对于单声道文件，将单声道文件的第一个通道复制到第二个通道中；

步骤b2：采样率标准化：将音频数据转换为相同的采样率；

步骤b3：等长调整：如果音频数据的长度大于设定的长度，则采用将音频数据直接截断到设定的长度；如果小于设定的长度，则随机填充到设定的长度，从而使音频数据持续时间调整为具有相同的长度；

步骤b4：时移增广：为了保证音频数据集中的相关数据，防止深度学习网络中学习不到相关特征，所以采用时间偏移的方式将音频数据随机的向左或者向右移动进行音频数据的增广；

步骤b5：梅尔图谱化：将增广后的音频数据转换为梅尔频谱图，并将其作为深度学习模型的输入参数；

步骤b6：屏蔽时间和频率：在梅尔频谱图上添加水平条来随机屏蔽一系列连续频率，同时使用竖线随机地遮挡时间范围的技术进行进一步的音频数据扩充；

步骤b7：建立卷积神经网络分类模型，卷积神经网络分类模型将生成特征图的四个卷积块，然后将音频数据重新整形为需要的格式，以便能够输入到线性分类器层，线性分类器层最终输出针对分类的预测；

步骤b8：训练卷积神经网络分类模型：创建训练循环来训练卷积神经网络分类模型，采用损失函数和学习率的调度计划的函数来进行优化模型训练，同时建立一个准确性指标来对每轮学习进行评估，所述准确性指标衡量正确预测的百分比；

步骤b9：声音分类推理：禁用梯度更新，同时运行一个推理循环与卷积神经网络分类模型一起执行前向传播以获取预测，推理得到的音频分类为离散音频数据序列，离散音频数据序列作为数字音频图像化处理模块的输入参数。

所述数字音频图像化处理模块具体执行如下步骤：

步骤c1：采用如下公式计算得到信号幅度频谱：

其中x[n]为经过数字音频识别分类出来的离散音频数据序列，n＝0,1,2,…,N-1；N为帧长，X[k]为N点的复数系列，j为虚数单位；

步骤c2：梅尔图谱化：将实际音频数据频率尺度转换为梅尔频谱图，采用如下公式进行计算：

其中Mel(f)为梅尔频率，f为实际频率；

步骤c3：采用一组三角形滤波器进行滤波，同时计算出每一个三角形滤波器对信号幅度谱滤波；

步骤c4：计算MFCC梅尔倒谱系数系数矩阵；

步骤c5：音频图像化搜索算法，采用动态时间规整的搜索算法(DTW)进行音频图像化，其原理就是通过满足一定条件的时间规整函数W(n)描述实时转换图像和图像库的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。

步骤c3包括：采用如下公式进行计算：

其中当f₀(l)≤k≤f_c(l)

当f_c(l)≤k≤f_h(l)

其中，w_l(k)为对应三角形滤波器的滤波系数，o(l)，c(l)，h(l)分别为实际频率坐标轴上对应三角形滤波器的下限频率、中心频率和上限频率，f_s为采样频率，L为滤波器个数，F(l)为计算后的滤波输出，k为自定义变量，f_k(l)是变量k频率下的采样频率，f_o(l)是下限频率的采样频率。

步骤c4包括：对步骤c3滤波后的结果再进一步做离散余弦变换计算，得到MFCC系数矩阵，计算公式为：

其中Q为MFCC参数的阶数，M(i)即为计算得到的MFCC系数矩阵。

步骤c5包括：设定Q和C为两个时间序列，长度分别n和m，Q为具有时间属性的图像库，C为经过滤波后的音频图谱，时间序列中的每个点的值为离散音频数据序列中每一帧的特征矢量，图像库序列Q第i帧的特征向量是qi，以此类推Q＝q1,q2,q3…qi,qn；C＝c1,c2,c3…ci,cm；具体计算过程包括：

步骤c5-1，先构造一个n*m的矩阵网络来对齐Q和C，矩阵元素(i,j)表示qi和cj两个点的欧式距离，d(qi,cj)＝(qi-cj)2，矩阵元素(i,j)同时表示点qi和cj的对齐；

步骤c5-2，寻找一条通过矩阵网络中格点的路径，路径通过的格点即为两个时间序列Q和C进行计算的对齐的点，所述路径被定义为规整路径，用W来表示，W的第k个元素定义为w_K＝(i,j)k，i、j是时间序列Q和C二维矩阵表中定义的变量，得出W＝w₁,w₂,…,w_k,…,w_K；maxm,n≤K<m+n-1，K为最后一个路径编号值；

所述路径需要满足如下三个条件：

边界条件：w1＝(1,1)和wK＝(m,n)，即所述路径必定是从左下角出发，在右上角结束；

连续性：DTW动态时间规整算法不可能跨过一个点去匹配，只能和自己相邻的点对齐；

单调性：W上面的点必须是随着时间单调进行的；

步骤c5-3，用如下公式找出规整代价最小的路径：

DTW(Q,C)是Q、C时间序列的规整代价最小路径；W为规整路径，k为元素变量，W_k是第k个元素在序列Q和C的映射点，K为变量k变量的终值；

步骤c5-4，通过建立累加距离矩阵来寻找时间序列Q和C的相似度，即从(0,0)点开始匹配两个时间序列Q和C，每到一个点之前所有的点计算的距离都会累加，一直到达终点(n,m)后，累加的距离就是最后的总距离，即为累积距离y(i,j)：

y(i,j)＝d(q_i,c_j)+min{y(i-1,j-1),y(i-1,j),y(i,j-1)}，d(q_i,c_j)是q_i和c_j的欧式距离(相似性)；

y(i,j)也就是时间序列Q和C的相似度，通过上面公式计算出最小距离y(m,n)，此点对应的Q所匹配的图片库中的某一个图片就是输出的格式图像。

本发明提供了一套本发明系统通过边缘端实时采集声音信息，同时结合云端深度学习分析出公共场所可能存在的安全隐患进行预警，最后将这些预警声音转换成标准化、形象化、具体化的可快速识别图像显示在各种终端，从而可以为日常预测预警提供另外一种直观、快速、系统的预测预警方式的基于云边端的声音大数据分析计算图像化的软件系统。本系统采用卷积神经网络(CNN)图像分类算法和动态时间规整的搜索算法(DTW)实现边缘声音采集到云端计算转换图像和终端显示图像的目的。为了达到此目的，云端的声音图像化主要处理三个关键问题：一是，声音预处理方法；二是，声音分类的深度学习方法；三是：图像快速搜索定位计算方法。

本发明涉及到“声音采集”、“声音分类”、“声音图像化”的及时性、高效性、可读性，主要是针对特殊场所发出的声音进行预处理、分类模型建立和快速计算搜索出图像库中的图像，实现声音预警直观、快速、系统。

本系统包括：声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块以及计算结果管理模块。数据采集模块，负责采集记录特定环境下物体发出的声音，在边缘端记录保存为.wav数据文件格式；声音预处理模块，在边缘端对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为物体发声本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证数字音频识别模块等得到信号更均匀、平滑，提高语音处理质量；数字音频识别模块，接收边缘端预处理的音频数据，然后进行深度学习对音频数据进行分类，比如汽车引擎噪音、狗叫声和汽笛声等，要做的就是对每个声音样本进行分类并标记它所属的类；数字音频图像化处理模块，在声音类型确定的基础上，采用动态时间规整DTW特征匹配算法，采用图像库序列和实时采集声音序列通过DTW把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性，通过计算得出累积距离(相似性)来进行图像化输出；计算结果管理模块，一方面管理数据采集模块中预警数据进行元数据管理，以方便溯源；另一方面对数字音频识别模块两个过程进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据，从而提高模型的准确性；最后，对生成的图像进行分类管理，提供不同终端的显示方式，增强可识别率，从而可以快速的阅读出预警事件。

本发明采用了大数据分析计算图像化技术巧妙的规避了视频AI分析的不足。首先，通过声音采集设备将特殊环境需求下的声音进行采集存储；其次，对声音进行分类过滤，只是对环境声音进行识别；最后，对不同的环境声音进行分类图像化，以方便人们可以直观的理解预警意思，就好比人们看路标中的禁止鸣笛，就可以直观知道此路段禁止鸣笛。

有益效果：本发明系统基于边缘端声音数据采集和声音预处理，云端的声音分类和图像化，端的显示管理部分，即通过在摄像头盲区、隐私场所等声音数据采集，然后对音频数据的图谱进行分类计算后的图像化，这种将声音的声谱转换成人们可以快速理解的图像化软件平台就是本发明的创新点。系统的架构，包括边缘端的声音数据采集模块、声音预处理模块，云端的数字音频识别模块、数字音频图像化处理模块以及终端的计算结果管理模块，实现了以声音分类预警图像化的边云端融合处理的能力等等，为城市安全监控提供一种新的预警形式和方法，利用云端的深度学习声音分类模型和声音图像化搜索算法，满足数字城市建设中城市应急预警的智慧化需求。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明系统架构图。

图2是本发明系统处理流程图。

图3是规整路径图。

具体实施方式

视频AI识别作为城市应急预警的常用辅助手段，在智慧城市建设中的应用越来越普遍，可实现实时视频分析，对目标行为进行动态识别，实现自动检测、分离、跟踪，极大提升了城市安全监控，是智慧城市建设的重要组成部分，但摄像头下也会有大量的盲区或隐私区域不能装摄像头，为了弥补这一盲区研发了基于云边端的声音大数据分析计算图像化系统，包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块以及计算结果管理模块，这五大功能模块是基于“边云端”的技术架构进行设计，声音数据采集模块、声音预处理模块将在边缘端对采集的数据进行预加重、分帧、加窗等操作，以方便后续到服务器端进行模型匹配运算；数字音频识别模块、数字音频图像化处理模块是在云端通过音频事件模型进行人工智能分析计算，从而得到分类化的图像；计算结果管理模块分为两个层次，其一是元数据管理、数据质量管理，其二是用户展示层，主要是对图像进行分类、索引和展现。因此，本发明系统通过边缘端实时采集声音信息，同时结合云端深度学习分析出公共场所可能存在的安全隐患进行预警，最后将这些预警声音转换成标准化、形象化、具体化的可快速识别图像显示在各种终端，从而可以为日常预测预警提供另外一种直观、快速、系统的预测预警方式。

声音信号是一维的序列数据，尽管可以通过像FFT这样的频域转换算法转换为二维频谱，但是它的两个维度也是有特定的含义(纵轴表示频率，横轴表示时间帧)，不能直接采用图像的形式进行处理，所以基于云边端的声音大数据分析计算图像化系统是一次创新型发明，如图1所示，本发明系统包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块以及计算结果管理模块；这五大功能模块是基于“边云端”的技术架构进行设计；

数据采集模块，负责采集记录特定环境下物体发出的声音，在边缘端记录保存为.wav数据文件格式；

声音预处理模块，在边缘端对其进行预加重、分帧、加窗等预处理操作。这些操作的目的是消除因为物体发声本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证数字音频识别模块等得到信号更均匀、平滑，提高语音处理质量；

数字音频识别模块，接收边缘端预处理的音频数据，然后进行深度学习对音频数据进行分类，比如汽车引擎噪音、狗叫声和汽笛声等，要做的就是对每个声音样本进行分类并标记它所属的类；

数字音频图像化处理模块，在声音类型确定的基础上，采用动态时间规整DTW特征匹配算法，采用图像库序列和实时采集声音序列通过DTW把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性，通过计算得出累积距离(相似性)来进行图像化输出。

计算结果管理模块，一方面管理数据采集模块中预警数据进行元数据管理，以方便溯源；另一方面对数字音频识别模块两个过程进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据，从而提高模型的准确性；最后，对生成的图像进行分类管理，提供不同终端的显示方式，增强可识别率，从而可以快速的阅读出预警事件。

如图2所示，本发明系统执行如下步骤：

步骤1，边缘端采集环境声音并存储为.wav格式文件；

步骤2，边缘端对音频数据进行预加重、分帧、加窗预处理，为声音信号参数的提取提供优质数据源，提高语音处理质量；

步骤3，采用深度学习的方式进行音频数据的分类，主要经过立体声转换、采样频率标准化、等长调整、分类建模、分类模型训练等步骤操作后，推理出声音分类；

步骤4，经过步骤3深度学习得到的声音分类后，经过傅立叶转换、梅尔图谱化、滤波、计算得出MFCC系数矩阵后，采用动态时间规整DTW特征匹配算法搜索出图像库中的对应图像，完成实时声音图像化过程；

步骤5，首先对声音边缘采集的达到预警的元数据进行管理，以方便数据溯源；然后对整个数据转换过程进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据，从而提高模型的准确性；最后，对生成的图像进行分类管理，提供不同终端的显示方式，增强可识别率，从而可以快速的阅读出预警事件。

步骤2中的数据处理是在边缘端完成，其主要是对音频数据进行预加重、分帧、加窗预处理操作，这些操作的目的是消除因为物体发声本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证数字音频识别模块等得到信号更均匀、平滑，提高语音处理质量。

步骤3中也是在云端完成，其主要采用深度学习的方式进行音频数据的分类。首先，将音频数据进行音频分类转换的标准化操作，将其转换为相同的采样率，以使所有阵列具有相同的尺寸；其次，采用静默填充或通过截断其长度来延长其持续时间的方式将音频数据的大小调整为具有相同的长度；再次，应用时间偏移将音频向左或向右移动随机量来对原始音频信号进行数据增广；然后，将增广后的音频转换为梅尔频谱图；最后，通常是将音频数据输入到深度学习模型中进行学习。如果模型学习的结果可以执行前向传播以获取预测，将进行步骤4的图像化处理，否则需要进行多次扩充，但接下来是在梅尔频谱图上，而不是在原始音频上，从而找出模型学习可以预测的音频数据。

步骤4业主云端完成，经过步骤3的深度学习语音分类处理后的语音信号中，仍然包含着非常丰富的特征参数，所以步骤4中将采用傅立叶变换、梅尔图谱化、滤波过程，尽量取出或削减分类好的语音信号中与识别无关的信息的影响后，再通过计算出MFCC系数矩阵，最后在MFCC系数矩阵和图像库的图像序列中采用动态时间规整DTW算法，求解出采集声音图谱与图像库中图谱匹配时累计距离(相似性)最小所对应的图片。

本发明步骤2中，声音预处理的方法如下：

步骤2-1：预加重，由于声音信号s(n)的平均功率谱受环境辐射的影响(高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小)，为此要在对语音信号s(n)进行预加重，采用的是数字滤波器进行预加重，预加重的输出和输入的语音信号s(n)的公式为：

其中a为预加重系数，一般取a＝0.9375；

步骤2-2：分帧，由于语音信号具有时变特性，但在一个短时间范围内(一般为10-30ms短时间内)，其特性基本保持相对稳定，将其看作是一个准稳态过程，即语音信号的短时平稳性。本步骤主要是将语音信号分段来分析其特征参数，将10-30ms为一个帧单元，从而分析出由每一帧特征参数组成的特征参数时间序列作为下一步骤的输入；

步骤2-3：加窗，加窗的目的是对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱，即对各个短段进行汉明窗(Hamming)运算，其公式为：

步骤2-4：端点检测，端点检测的目的是为了自动检测出语音的起始点和结束点。此步骤采用的双门限比较法来进行端点检测，以短时能量E

和短时平均过零率Z

作为特征，排除无声段的噪声干扰，从而提高步骤3的语音信号的处理性能。

本发明步骤3中，数字音频识别的方法如下：

经过预处理的音频数据有的是单声道(即1个音频通道)，而大多数则是立体声(即2个音频通道)，所以在进入步骤3后，首先需判断是不是立体声，如果不是进行步骤3-1，如果是直接跳到步骤3-2；

步骤3-1：立体声转换，单声道文件转换为立体声就是将第一个通道复制到第二个通道中，这样就能保证声音有相同的尺寸；

步骤3-2：采样率标准化，采集的大多数音频数据采样率是44100Hz，但也会有部分声音的采样率是48000Hz，所以需要将采集的声音转换为相同的采样率，统一采样率从而保证所有阵列具有相同的尺寸；

步骤3-3：等长调整，使用静默填充或通过截断其长度来延长其持续时间的方法来将声音样本调整为具有相同的长度；

步骤3-4：扩充填广，通过应用时间偏移将音频向左或向右移动随机量来对原始声音信号进行数据增广；

步骤3-5：梅尔图谱化，将增广后的声音转换为梅尔频谱图，并将其作为深度学习模型中；

步骤3-6：屏蔽时间和频率，在梅尔频谱上采用频谱图上添加水平条来随机屏蔽一系列连续频率的频率屏蔽方法和使用竖线从频谱图中随机地遮挡了时间范围的时间掩码方法进行屏蔽时间和频率；

步骤3-7：建立分类模型，建立卷积神经网络(CNN)分类模型，CNN模型将生成特征图的四个卷积块，然后将数据重新整形为需要的格式，以便可以将其输入到线性分类器层，该层最终输出针对10个分类的预测；

步骤3-8：训练分类模型，创建训练循环来训练模型，为了使模型收敛的更快，需要采用损失函数和学习率的调度计划的函数来进行优化模型训练。同时建立一个准确性指标来对每轮学习进行评估，该指标衡量正确预测的百分比；

步骤3-9：声音分类推理，推理其实就是根据验证数据评估指标，具体首先禁用梯度更新，同时运行一个推理循环与模型一起执行前向传播以获取预测，这里不需要反向传播和优化；

本发明步骤4中，数字音频图像化的方法如下：

步骤4-1：傅立叶变换(FFT)采用

计算方式得到信号幅度频谱，其中x[n](n＝0,1,2,…,N-1)为经过采样得到的一帧离散语音序列，N为帧长，X[k]为N点的复数系列；

步骤4-2：梅尔图谱化，即将实际频率尺度转换为梅尔(Mel)频率谱图，采用

公式进行计算，单位为Hz，其中Mel(f)为梅尔频率，f为实际频率；

步骤4-3：滤波，采用一组三角形滤波器进行滤波，同时计算出每一个三角形滤波器对信号幅度谱滤波。采用

公式进行计算，其中w_l(k)为对应滤波器的滤波系数，o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的下限频率、中心频率和上限频率，fs为采样频率，L为滤波器个数，F(l)为计算后的滤波输出；

步骤4-4：计算MFCC系数矩阵，即对4-3滤波后的结果再进一步做离散余弦变换(DTC)计算，即可得到MFCC系数矩阵。其公式为：

其中Q为MFCC参数的阶数，取13，M(i)即为计算出来的MFCC矩阵结果；

步骤4-5：音频图像化搜索算法，采用动态时间规整的搜索算法(DTW)进行音频图像化，其原理就是通过满足一定条件的时间规整函数W(n)描述实时转换图像和图像库的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。

计算过程如下：如图3中Q和C两个时间序列，长度分别n和m，Q为图像库模板，C为实时转换图像，序列中的每个点的值为语音序列中每一帧的特征矢量，语音序列Q第i帧的特征向量是qi，以此类推Q＝q1,q2,q3…qi,qn,C＝c1,c2,c3…ci,cm，计算过程如下：

(1)先构造一个nxm的矩阵网络来对齐Q和C序列，矩阵元素(i,j)表示qi和cj两个点的欧式距离，d(qi,cj)＝(qi-cj)2，每一个矩阵元素(i,j)表示点qi和cj的对齐；

(2)接下来就需要寻找一条通过此网格中若干格点的路径，路径通过的格点即为两个序列进行计算的对齐的点；这条路径被定义为规整路径用W来表示，W的第k个元素定义为wk＝(i,j)k，这样就可以得出W＝w1,w2,…,wk,…,wK，maxm,n≤K<m+n-1；(此条路径需要满足三个条件：边界条件：w1＝(1,1)和wK＝(m,n)，即所选的路径必定是从左下角出发，在右上角结束；连续性：DTW不可能跨过某个点去匹配，只能和自己相邻的点对齐；单调性：W上面的点必须是随着时间单调进行的)；

(3)满足选择路径的三个约束条件的路径可以有指数个，为了找到相似的图片需要采用

(分母中的K是为了对不同的长度的规整路径做补偿)公式来找出规整代价最小的路径；

(4)通过建立累加距离矩阵来寻找序列Q和C的相似度，即从(0,0)点开始匹配这两个序列Q和C，每到一个点之前所有的点计算的距离都会累加，一直到达终点(n,m)后，这个累积距离就是最后的总的距离，即为累积距离(累积距离y(i,j)可以按下面的方式表示，累积距离有y(i,j)为当前格点距离d(i,j)，也就是点qi和cj的欧式距离(相似性)与可以到达该点的最小的邻近元素的累积距离之和:y(i,j)＝d(qi,cj)+min{y(i-1,j-1),y(i-1,j),y(i,j-1)})也就是序列Q和C的相似度，当这个相似度极小时就将图片库中Q对应的图片输出为需要格式化的图像。

本发明提供了一种基于云边端的声音大数据分析计算图像化系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于云边端的声音大数据分析计算图像化系统，其特征在于，包括声音数据采集模块、声音预处理模块、数字音频识别模块、数字音频图像化处理模块和计算结果管理模块；

其中，所述数据采集模块用于，采集特定环境下物体发出的声音，并在数据采集的边缘端记录保存为音频数据；

所述声音预处理模块用于，在边缘端对音频数据进行预处理，得到预处理后的音频数据；

所述数字音频识别模块用于，对预处理后的音频数据进行分类；

所述数字音频图像化处理模块用于，在字音频识别模块对音频数据进行分类的基础上，通过计算得出累积距离来进行图像化输出；

所述计算结果管理模块用于，对数据采集模块中音频数据进行元数据管理，对数字音频识别模块进行数据质量的管理，对误报的数据进行存储，提供模型学习的反向数据；对数字音频图像化处理模块生成的图像进行分类管理，提供不同终端的显示方式。

2.根据权利要求1所述的系统，其特征在于，所述声音预处理模块具体执行如下步骤：

3.根据权利要求2所述的系统，其特征在于，步骤a4中，短时能量E和短时平均过零率Z计算公式如下：

4.根据权利要求3所述的系统，其特征在于，所述数字音频识别模块首先判断预处理后的音频数据是否是立体声，如果不是进行步骤b1，如果是直接跳到步骤b2：