CN108073856A

CN108073856A - 噪音信号的识别方法及装置

Info

Publication number: CN108073856A
Application number: CN201611000609.4A
Authority: CN
Inventors: 薛希俊; 王明; 闫正
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-11-14
Filing date: 2016-11-14
Publication date: 2018-05-25

Abstract

本公开提供了一种噪音信号的识别方法及装置，属于音频识别技术领域。所述方法包括：获取待识别噪音信号；获取该待识别噪音信号的第一信号特征，该第一信号特征包括听觉特征和传统特征，该听觉特征用于指示能够用于语音识别的声学特征；对该传统特征进行图像特征提取，得到该待识别噪音信号的第二信号特征；根据该待识别噪音信号的第一信号特征和第二信号特征，对该待识别噪音信号进行识别，得到该待识别噪音信号的目标类别。本公开提取的待识别噪音信号多种特征能够更加全面、更加细腻的反映待识别噪音信号的特点，通过对该多种特征进行识别得到目标类别，实现了对待识别噪音信号全方位、细粒度的识别，提高了识别准确率、降低了误识率。

Description

噪音信号的识别方法及装置

技术领域

本公开涉及音频识别技术领域，特别涉及一种噪音信号的识别方法及装置。

背景技术

声音信号包括语音信号和非语音信号(噪音信号)，其中，语音信号具有带宽稳定、有一定规律性、便于统计等特点，而相比于语音信号来说，噪音信号则具有多样性、无规则性、难以统计等特点。因此，相比于发展成熟的语音信号识别技术，噪音信号的识别技术较为落后。而由于声音信号是由物体的振动产生的，并且可以在一定程度上反映出物体的状态信息，在工业生产中可以通过对产品使用过程中产生噪音信号的识别来判别产品质量的好坏，进而实现工业控制。

现有技术中，噪音信号可以分为正常噪音信号和异常噪音信号。目前，通常噪音信号的识别基于对噪音信号的传统特征分析，识别的主要方式包括信号强度峰值判断、短时能量检测算法、过零率判断等。其中，噪音信号的传统特征可以为噪音信号的强度、能量、周期、基频频率、谐波频率、频谱分布等特征。针对噪音信号的任一传统特征，噪音信号的识别过程为：提取待识别噪音信号的特征，将该特征的数值与预设特征阈值进行比较，如果该特征的数值超过该特征阈值，则确定待识别噪音信号为异常噪音信号；反之，则确定待识别噪音信号为正常噪音信号。

在实现本公开的过程中，发明人发现现有技术至少存在以下问题：

由于异常噪音信号根据其产生原因的不同其种类是多种多样的，实际情况中，有些类别的异常噪音信号的特征与正常噪音信号的特征在数值上非常相近，单单依靠上述数值比较的方法，很容易将异常噪音信号误判为正常噪音信号，导致噪音信号识别的准确率低、误识率高。

发明内容

为了解决现有技术的问题，本公开实施例提供了一种噪音信号的识别方法及装置。所述技术方案如下：

一方面，提供了一种噪音信号的识别方法，该方法包括：

获取待识别噪音信号；

获取该待识别噪音信号的第一信号特征，该第一信号特征包括听觉特征和传统特征，该听觉特征用于指示能够用于语音识别的声学特征；

对该传统特征进行图像特征提取，得到该待识别噪音信号的第二信号特征；

根据该待识别噪音信号的第一信号特征和第二信号特征，对该待识别噪音信号进行识别，得到该待识别噪音信号的目标类别。

通过提取待识别噪音信号的传统特征和能够用于语音识别的声学特征，并基于传统特征提取了待识别噪音信号的图像特征，得到了待识别噪音信号的多种特征，该多种特征能够更加全面、更加细腻的反映待识别噪音信号的特点，通过对待识别噪音信号的多种特征进行识别得到目标类别，实现了对待识别噪音信号全方位、更加细粒度的识别，提高了噪音识别的准确率、降低了误识率。

结合第一方面，在第一方面的第一种可能的实现方式中，该对该传统特征进行图像特征提取，得到该待识别噪音信号的第二信号特征的过程可以为：

根据该传统特征中每帧信号的频谱特征，获取该每帧信号的图像特征，该每帧信号的图像特征采用不同的灰度表示不同的频谱强度；将该每帧信号的图像特征按照时间顺序排列，得到该待识别噪音信号的声谱图，将该声谱图转换为声谱图片，将该声谱图片作为该待识别噪音信号的第二信号特征；和/或，根据该待识别噪音信号中每帧信号的传统特征，获取该待识别信号的波形图、频谱图和倒梅尔谱图中的至少一项，将获取到的谱图转换为相应的谱图图片，将转换得到的谱图图片作为该待识别噪音信号的第二信号特征。

通过根据传统特征提取待识别噪音信号的各种图谱图片表示的图像特征，使得提取的特征可以从时域和频率多个维度、更加细粒度地反映待识别噪音信号的特点，进而提高识别的准确率。

结合第一方面，在第一方面的第二种可能的实现方式中，根据该待识别噪音信号的第一信号特征和第二信号特征，对该待识别噪音信号进行识别，得到该待识别噪音信号的目标类别的过程可以为：将该待识别噪音信号的听觉特征、传统特征和第二信号特征分别输入对应的分类模型，得到该待识别噪音信号的多个分类结果；根据该多个分类结果，得到该待识别噪音信号的目标类别。其中，该待识别噪音信号的听觉特征和第二信号特征对应的分类模型，分别由对不同类型的神经网络进行迭代训练得到。

通过对待识别噪音信号的多个分类结果进行联合识别，最终得到一个目标类别，使得最终识别结果更加准确，而且采用对神经网络进行训练得到相应的分类模型，进一步增加了识别结果的准确性。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，根据该多个分类结果，得到待识别噪音信号的目标类别的过程可以为：对于该多个分类结果中的每个分类结果，确定该分类结果对应分类模型的权重因子；根据该每个分类结果对应分类模型的权重因子，对该多个分类结果进行加权运算，得到目标数值；根据该目标数值，确定该目标类别。

通过对不同的分类模型设置不同的权重值，可以将待识别噪音号的多个特征中最能体现其本质的特征，对应的分类模型的权重值设置为最高，这样可以使得识别结果更加贴切待识别噪音信号体现其本质的特征，从而提高识别的准确率。

结合第一方面的第二种可能的实现方式，在第一方面的第四种可能的实现方式中，获取该待识别噪音信号的第一信号特征的过程可以为：对该待识别噪音信号进行特征提取，得到该待识别噪音信号的传统特征；通过预设滤波器对该传统特征进行滤波，得到该待识别噪音信号中部分帧信号的频谱，该预设滤波器用于模拟人耳的非线性特性；将该部分帧信号中每帧信号的频谱所指示的频率信息和强度信息，映射为一个多维向量；将该部分帧信号中每帧信号对应的多维向量按照时间顺序排列，得到该待识别噪音信号的听觉特征。

通过采用模拟人耳的非线性特性的预设滤波器提取听觉特征，排除了对识别结果影响不大的部分信号，将需要识别的部分信号集中在一个能够体现噪音信号本质特征的小范围内，降低了数据处理压力，提高了识别的效率。

第二方面，提供了一种噪音信号的识别装置，该噪音信号的识别装置包括至少一个单元，该至少一个单元用于实现上述第一方面或第一方面中任意一种可能的实现方式所提供的噪音信号的识别方法。该第二方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

第三方面，提供了一种终端，该终端包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行上述第一方面中终端所执行的方法。该第三方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

附图说明

图1是本公开实施例提供的一种终端的结构示意图；

图2A是本公开实施例提供的一种噪音信号的识别方法的流程图；

图2B是本公开实施例提供的一种构建多种分类模型的示意图；

图2C是本公开实施例提供的一种构建多种分类模型的示意图；

图2D是本公开实施例提供的一种构建决策模型的示意图；

图2E是本公开实施例提供的一种构建决策模型的示意图；

图2F是本公开实施例提供的一种利用多种分类模型和决策模型进行噪音识别的示意图；

图2G是本公开实施例提供的一种利用多种分类模型和决策模型进行噪音识别的示意图；

图3是本公开实施例提供的一种噪音信号的识别装置的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开实施例中，对噪音识别的过程可以由终端执行，如图1所示本实施例提供的一种终端100的结构示意图，该终端100包括：

终端100可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(Wireless Fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如噪音播放功能、图像播放功能等)等；存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。其中，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。其中，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

输入单元还可以包括噪音采集装置133，以对噪音信号进行采集。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端100还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。其中，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端100移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端100之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为噪音信号输出；另一方面，传声器162将收集的噪音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端100的通信。

WiFi属于短距离无线传输技术，终端100通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块170，但是可以理解的是，其并不属于终端100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端100的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端100还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端100还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。所述一个或者一个以上程序包含可执行指令，终端100被配置为执行指令，以执行下述实施例中噪音信号的识别方法实施例中终端所执行的方法。

在本公开实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成下述实施例中噪音信号的识别方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

为了提高现有技术中噪音识别的准确率、降低误识率，本公开实施例提出了一种利用噪音信号的多种信号特征来识别噪音信号的方法，该多种信号特征可以包括噪音信号的传统特征、听觉特征和视觉特征。该种噪音信号识别方法可以应用于工业生产、安全预警、环境监控等各领域。

图2A为本公开实施例提供的一种噪音信号的识别方法的流程图，参见图2A，该方法包括以下步骤：

201、终端获取待识别噪音信号。

在实际应用中，可以通过噪音采集装置对噪音信号进行采集，将采集的噪音信号转化成数字信号作为该待识别噪音信号。其中，该噪音采集装置可以为终端的一部分，或者为独立的装置，可以与终端进行数据连接，以便将采集到的噪音信号发送至终端。

202、终端获取待识别噪音信号的第一信号特征，该第一信号特征包括听觉特征和传统特征。

终端获取第一信号特征的过程可以为：终端对待识别噪音信号进行特征提取，得到待识别噪音信号的传统特征；通过预设滤波器对传统特征进行滤波，得到待识别噪音信号中部分帧信号的频谱；将部分帧信号中每帧信号的频谱所指示的频率信息和强度信息，映射为一个多维向量；将部分帧信号中每帧信号对应的多维向量按照时间顺序排列，得到待识别噪音信号的听觉特征。其中，预设滤波器用于模拟人耳的非线性特性，预设滤波器的滤波参数可以根据实际需要进行预先设置或更改，该预设滤波器可以为符合梅尔特性的滤波器，本公开实施例对此不作限定。

其中，待识别噪音信号的传统特征是指噪音信号的强度、能量、频率、短时能量值、短时过零率等特征中的至少一项。其中，不同特征信号值的曲线形状参数也可以作为传统特征，比如频率曲线的倾斜度等。终端可以根据预设的传统特征提取方式，对待识别噪音信号进行相应的传统特征提取。以频率特征为例，对于每一个的待识别噪音信号，终端获取该待识别噪音信号的频率特征的过程可以为：首先将该待识别噪音信号进行帧提取，对提取的每帧信号进行傅里叶变换，记录该帧信号的频率值。将记录的每帧信号的频率值按照时间顺序组合成一个频率向量。该频率向量即为该待识别噪音信号的频率特征。同理，终端可以得到待识别噪音信号的强度特征、短时能量特征、短时过零率特征和频率曲线倾斜度特征，本公开实施例在此不做赘述。

其中，听觉特征用来指示能够用于语音识别的声学特征。该听觉特征可以为待识别噪音信号的LPC(Linear Predictive Coding，线性预测编码)特征、LPCC(LinearPredictive Cepstral Coefficients，线性预测倒谱系数)特征和MFCC(Mel-scaleFrequency Cepstral Coefficients，梅尔倒谱系数)特征等。终端可以在提取的传统特征的基础上，对待识别噪音信号的听觉特征进行提取，例如，以MFCC特征为例，终端获取该待识别噪音信号的听觉特征的过程可以为：首先将待识别噪音信号进行帧提取，对于提取的每一帧信号，对该帧信号进行傅里叶变换，得到待识别噪音信号的频率特征；然后对每帧信号采用预设滤波器进行滤波，对滤波后的帧信号进行对数运算和反傅里叶变换，得到该帧信号的MFCC特征向量，将该噪音信号的每一帧信号的MFCC特征向量按照时间顺序组合成一个特征向量集。该特征向量集即为待识别噪音信号的听觉特征，该特征向量集中包含了待识别该噪音信号的全部信息。同理，终端可以得到待识别噪音信号的LPC特征、LPCC特征。

通过预设滤波器将待识别噪音信号中符合人耳非线性特征的听觉特征提取出来，使得用于识别噪音信号的特征更加多样化，以提高识别噪音信号的准确率。

203、终端对传统特征进行图像特征提取，得到待识别噪音信号的第二信号特征。

其中，第二信号特征是指待识别噪音信号的视觉特征，该视觉特征指能够用于图像识别的图像特征。该视觉特征可以包含待识别噪音信号时域信息和频域信息。其中，待识别噪音信号的视觉特征可以包括待识别噪音信号的声谱图、波形图、频谱图和倒梅尔谱图所对应的谱图图片中的至少一种。

其中，当视觉特征为声谱图片时，终端对传统特征进行图像特征提取，得到该第二信号特征的过程可以为：根据传统特征中每帧信号的频谱特征，获取每帧信号的图像特征，每帧信号的图像特征采用不同的灰度表示不同的频谱强度；将每帧信号的图像特征按照时间顺序排列，得到待识别噪音信号的声谱图，将声谱图转换为声谱图片，将声谱图片作为待识别噪音信号的第二信号特征。

例如，当视觉特征为声谱图片时，终端对传统特征进行图像特征提取的过程可以为：在终端获取到待识别噪音信号的频谱之后，将该频谱逆时针旋转90度，然后再把旋转后的频谱中每个幅度值映射到一个灰度条中，该灰度条中幅值越大对应的灰度值越大(即颜色越深)。将待识别噪音信号中的每一帧均做上述变换后，将每一帧信号的灰度条按照时间顺序排列起来，便得到该待识别噪音信号的声谱图，该声谱图的横轴反映了该待识别噪音信号的时间信息，纵轴代表了频率信息，并且其中每一个像素点的灰度值代表了该待识别噪音信号的强度信息。将该声谱图转换为声谱图片，便得到待识别噪音信号的视觉特征。

同理，终端还可以根据待识别噪音信号中每帧信号的传统特征，获取待识别信号的波形图、频谱图和倒梅尔谱图中的至少一项，将获取到的谱图转换为相应的谱图图片，将转换得到的谱图图片作为待识别噪音信号的第二信号特征，本公开实施例对比不做赘述。

需要说明的是，该视觉特征是指图像特征，具体实施时可以采用像素矩阵方式来表示该图像特征。以RGB颜色标准为例，一个图像可以表示为三个颜色通道的像素矩阵，比如R通道像素矩阵、G通道像素矩阵和B通道像素矩阵。其中，R通道像素矩阵中每个数值代表相应像素点在R通道的分量值，G通道像素矩阵和B通道像素矩阵同理。因此，视觉特征是指视觉特征对应的图像数据。

204、终端将待识别噪音信号的听觉特征、传统特征和第二信号特征分别输入对应的分类模型，得到待识别噪音信号的多个分类结果。

本公开实施例中，针对不同的信号特征采用不同类型的分类模型进行识别。例如，听觉特征采用听觉分类模型来识别，传统特征采用传统特征模型来识别，第二信号特征采用视觉特征来识别。

下面对该多种分类模型的构建过程进行介绍，该多种分类模型的构建流程可以包括以下步骤204a至204c：

204a、终端获取多种类别的噪音样本信号。

在实际应用中，可以通过噪音采集装置对已知类别的噪音信号进行采集，将采集的噪音信号转化成数字信号作为噪音样本信号，将该噪音样本信号发送至终端。终端可以将获取到的噪音样本信号存储至样本数据库中。该样本数据库可以存储在终端本地，也可以存储在服务器。或者，噪音采集装置在采集到噪音样本信号后，可以直接将噪音样本信号上传至服务器，由服务器将该噪音样本信号存储至样本数据库中，使得终端可以从服务器下载需要的噪音样本信号。

该噪音样本信号包括正常噪音样本信号和异常噪音样本信号。其中，正常噪音样本信号的数目为多个；由于异常噪音信号的形成原因的不同，可以将异常噪音信号分为多种类别，比如对于电梯来说，其因传送带中夹杂塑料袋等杂质所产生的异常噪音和因传送带松动而产生的异常噪音不同。其中，每种类别的异常噪音样本信号的数目也可以为多个。

其中，为了明确区分不同类别的噪音样本信号，终端或服务器可以在样本数据库中，为不同类别的噪音样本信号添加不同的类别标识。比如，可以将正常噪音样本信号用类别L1表示，不同的异常噪音样本信号可以根据形成原因分别用类别L2、L3，…，Ln来表示。对于每种异常噪音，终端还可以与该异常噪音的类别标识对应存储该异常噪音的产生原因。

需要说明的是，为了便于后续采用神经网络对不同类别的噪音信号进行学习，以建立相应的分类模型，可以将每种类别标识对应一个数值，比如，正常噪音信号的类别标识的数值为1，不同种类的异常噪音信号的类别标识的数值可以分别为2，3，…，n等。当然，也可以直接用数值来表示类别标识，本公开实施例对比不做限定。

204b、终端对每种类别的噪音样本信号进行多种特征提取，得到每种类别噪音样本信号的多种特征集合。

该多种特征提取包括第一信号特征提取和第二特征信号提取，其中第一信号特征提取包括传统特征提取和听觉特征提取。相应的，多种特征集合包括传统特征集合、听觉特征集合和视觉特征集合。

其中，对于每个噪音样本信号，终端获取该噪音样本信号的传统特征和听觉特征的过程与步骤202同理，终端获取该噪音样本信号的视觉特征的过程与步骤203同理，在此不再赘述。在得到每个噪音样本信号的传统特征、听觉特征和视觉特征之后，将每种类别的噪音样本信号的传统特征进行组合便得到该类别噪音样本信号的传统特征集合，将每种类别的噪音样本信号的听觉特征集合进行组合便得到该类别噪音样本信号的听觉特征集合。

需要说明的是，对于每种类别的噪音样本信号，其对应的传统特征集合的个数可以为多个，比如有频率特征集合、短时过零率特征集合等。相应地，每种类别的噪音样本信号对应的听觉特征集合和视觉特征集合的个数也可以为多个，比如，视觉特征集合包括声谱图片集合、频谱图片集合、梅尔倒谱图片集合等；听觉特征集合包括MFCC特征集合、LPC特征集合等，本公开实施例对每种特征集合的个数不作限定。

204c、终端根据每种类别的噪音样本信号的不同特征集合，构建相应的分类模型。

其中，视觉特征集合用于构建视觉模型，听觉特征集合用于构建听觉模型，传统特征集合用于构建传统模型。不同分类模型的构建过程可以分别参见下述步骤204c1至204c3：

其中，针对听觉模型和视觉模型所指示的分类模型，可以分别由终端对不同类型的神经网络进行迭代训练得到。

204c1、终端根据每种类别的噪音样本信号的视觉特征集合对第一神经网络进行迭代训练，得到视觉模型。

该第一神经网络可以为卷积神经网络(Convolutional Neural Network，CNN)、深度神经网络(DNN)、循环神经网络(RNN)和时间递归神经网络(LSTM)等，优选地，该第一神经网络为卷积神经网络，以更好地进行图像识别。该第一神经网络的层数、每层的节点数、以及相连接的两个节点的连接参数(即两个节点连线上的权重)均可以根据实际需求进行预先设置。其中，该第一神经网络可以具有多个输出节点，每一个输出节点对应一种噪音的类别，终端可以预先设定哪个输出节点对应哪种噪音类别。其中，可以根据每个输出节点的输出值来判定输出结果是否为该输出节点对应的类别。

例如，假设需要识别的噪音类别包括3类，分别是正常噪音、第一异常噪音和第二异常噪音，则可以将第一神经网络设定为3个输出节点，其中，终端可以设定输出节点1对应正常噪音，输出节点2对应第一异常噪音，输出节点3对应第二异常噪音，其中，每个输出节点可以对应一种噪音信号的类别标识。

其中，对于每种类别的噪音样本信号，终端根据该类别的噪音样本信号的视觉特征集合对该第一神经网络进行迭代训练的过程可以为：

终端将该类别的噪音样本信号的视觉特征集合作为第一神经网络的输入，输入至第一神经网络；根据该类别的类别标识，在该第一神经网络中确定与该类别对应的指定输出节点；将该指定输出节点的实际输出值与理论输出值进行比较，如果二者不一致，则利用二者的差值对第一神经网络中各节点间的连接参数进行调整。之后继续将该类别的其他噪音样本信号的视觉特征集合输入该第一神经网络进行迭代训练，直至该指定输出节点的实际输出值与理论输出值一致为止。其中，在保证指定输出节点的实际输出值与理论输出值一致的同时，还要保证其它输出节点的实际输出值为默认值。当输出节点输出默认值时，表示该输出结果不是该输出节点对应的类别。比如，每个输出节点输出值可以为0或1。对于每一个输出节点，可以设定1为理论输出值，当该输出节点的输出值为1时，输出结果代表该输出节点对应的类别；设定0为默认值，当该输出节点的输出值为0时，则说明输出结果不是该输出节点对应的类别。最终使得第一神经网络的每个输出节点的输出数据均与对应的类别标识一致，得到该视觉模型。

例如，仍以上述3类噪音类别为例，其中，正常噪音的类别标识为1、第一异常噪音的类别标识为2、第二异常噪音的类别标识为3。则根据正常噪音的噪音样本信号对第一神经网络进行训练的过程可以为：假设类别标识1对应输出节点1，则终端将正常噪音的噪音样本信号的视觉特征输入至第一神经网络时，确定该正常噪音对应第一神经网络的输出节点1，假设输出节点1实际输出值为1.8，而设定的理论输出值为1，则需要根据实际输出值1.8和理论输出值1的差值0.8，对第一神经网络中节点间的连接参数进行调整。直至输出节点1的实际输出值与理论输出值1一致为止。

其中，每种类别的噪音样本信号的个数可以为多个，在采用每个噪音样本信号对第一神经网络进行训练时，均可以对第一神经网络节点间的连接参数进行调整。其中，第一神经网络中每两个相邻节点间的连接参数均与上述差值之间具有函数关系，该函数关系可以根据需要进行预先设定或修改，而不同连接参数与上述差值之间的函数关系可以不同，本公开实施例对此不作限定。其中，指定输出节点的实际输出值与理论输出值一致可以指二者的差值小于预设误差范围，该差值可以为二者的绝对差值也可以为二者的均方差等，该预设误差范围可以由终端进行预先设定或修改，本公开实施例对此不作限定。当然，第一神经网络的多个输出节点的理论输出值可以相同也可以不同，本公开实施例对此不作限定。

需要说明的是，由步骤204b可知，视觉特征集合可以为噪音信号的波形图片集合、频谱图片集合、声谱图片集合或梅尔倒谱图片集合等。终端可以针对不同的视觉特征集合，构建相应的视觉模型。比如，终端可以根据噪音样本信号的波形图片集合构建视觉模型1，该视觉模型1用于针对噪音信号的波形图特征进行噪音识别；根据噪音样本信号的声谱图片集合构建视觉模型2，该视觉模型2用于针对噪音信号的声谱图特征进行噪音识别。本公开实施例仅以构建一个视觉模型的过程为例进行解释说明，对构建的视觉模型的个数不作限定。

204c2、终端根据每种类别的噪音样本信号的听觉特征集合对第二神经网络进行迭代训练，得到听觉模型。

其中，第二神经网络可以为卷积神经网络、深度神经网络、循环神经网络和时间递归神经网络等，优选地，该第二神经网络可以为深度神经网络，以更好地进行声学特征识别。当然，该第二神经网络与第一神经网络可以相同也可以不同，根据实际需求而定，本公开实施例对此不作限定。

该第二神经网络的层数、每层的节点数、以及相连接的两个节点的连接参数(即两个节点连线上的权重)均可以根据实际需求进行预先设置。其中，该第二神经网络可以具有多个输出节点，每一个输出节点对应一种噪音的类别，终端可以预先设定哪个输出节点对应哪种噪音类别。

该根据听觉特征集合对第二神经网络进行迭代训练的过程，与对第一神经网络进行迭代训练的过程同理，在此不做赘述。需要说明的是，由步骤204b可知，听觉特征集合可以为噪音信号的LPC特征集合、LPCC特征集合和MFCC特征集合。终端可以针对不同的听觉特征集合，构建相应的听觉模型。比如，终端可以根据噪音样本信号的LPC特征集合构建听觉模型1，该听觉模型1用于针对噪音信号的LPC特征进行噪音识别；根据噪音样本信号的MFCC特征集合构建听觉模型2，该听觉模型2用于针对噪音信号的MFCC特征进行噪音识别。

204c3、终端根据每种类别的噪音样本信号的该传统特征集合，计算每种类别的噪音样本信号的阈值范围，根据每种类别的噪音样本信号的阈值范围，构建传统模型。

终端可以根据传统特征集合，统计每种类别的噪音样本信号对于该传统特征的阈值范围，进而构建对应的传统模型。例如，仍假设需要识别的噪音类别为正常噪音、第一异常噪音、第二异常噪音3类，该传统特征集合为频率特征集合，则终端可以根据频率特征集合对不同类别噪音样本信号的频率特征进行统计，得到正常噪音的频率阈值范围、第一异常噪音的频率阈值范围和第二异常噪音的频率阈值范围。

其中，不同类别噪音对应的频率阈值范围可以采用类别阈值列表进行存储，从终端可以基于该类别阈值列表，构建与频率特征集合对应的传统模型，该类别阈值列表如表1所示。

表1

类别	频率阈值范围
		1(正常噪音)	(x1，y1)
2(第一异常噪音)	(x2，y2)
		3(第二异常噪音)	(x3，y3)

其中，(x1，y1)、(x2，y2)和(x3，y3)两两之间没有交集。

需要说明的是，对于其他传统特征集合，终端也可以计算出不同类别噪音的阈值范围，并存储相应的类别阈值列表，并基于得到的类别阈值列表，构建相应特征对应的传统模型。本公开实施例仅以频率特征为例进行举例，对此并不做限定。需要说明的是，由上述步骤204b可知，该传统特征集合可以为频率特征集合、强度特征集合、短时能量特征集合、短时过零率特征集合、频率曲线倾斜度的特征集合等。针对每一种传统特征集合，终端均可以对应该传统特征集合构建一个传统模型。比如，终端可以根据频率特征集合构建传统模型1，根据强度特征集合构建传统模型2。该传统模型1用于针对频率特征进行噪音识别，传统模型2用于针对强度特征进行噪音识别。

需要说明的是，上述步骤204c1至204c3可以同时执行，也可以分别执行，本公开实施例对其执行顺序不作限定。

上述步骤204c1至步骤204c3为建立多种分类模型的过程，在基于神经网络构建视觉模型或听觉模型时，神经网络被设置为训练状态，为了更加清晰的示出该多种分类模型的构建过程，图2B和图2C示出了构建多种分类模型的示意图，其中，图2B中视觉模型、听觉模型和传统模型的个数均为1个，图2C中视觉模型、听觉模型和传统模型的个数均为多个。

该构建的多种分类模型用于对未知类别的噪音信号进行识别，并输出识别出的类别。比如，终端在获取到待识别噪音信号的第一信号特征和第二信号特征后，可以将待识别噪音信号的传统特征输入传统模型，将待识别噪音信号的听觉特征输入听觉模型，将待识别噪音信号的视觉特征输入视觉模型，得到待识别噪音信号的多个分类结果。

其中，终端通过视觉模型对待识别噪音信号进行识别的过程可以为：终端将该待识别噪音信号的视觉特征输入该视觉模型，也即是，将该待识别噪音信号的视觉特征所指示的图像数据输入该视觉模型。通过该视觉模型对输入的图像数据进行处理，得到该待分类模型的第一类别。比如，视觉模型的输出结果可以为二进制输出结果，假设视觉模型能够识别3种类别的噪音，如正常噪音、第一异常噪音和第二异常噪音，视觉模型可以对应每一个类别输出一位二进制，其中1表示为对应类别，0表示不是对应类别，则如果视觉模型的输出结果为010，则该输出结果说明识别的类别为第一异常噪音。

其中，终端通过听觉模型对待识别噪音信号进行识别的过程与通过视觉模型的识别过程同理，本公开实施例对此不作限定。

其中，终端通过传统模型对该待识别噪音信号进行识别的过程可以为：终端根据该待识别噪音信号的传统特征，计算该传统特征的特征值。根据该特征对应的类别阈值列表(如表1所示的类别阈值列表)，确定该特征值对应的阈值范围，将该确定的阈值范围对应的类别，确定为该待识别噪音的第三类别。

例如，该待识别噪音信号的传统特征为频率特征，该频率特征的类别阈值列表如上述表1所示。假设，该频率特征的特征值为t，t落入(x3，y3)的范围内，则由表1可知该待识别噪音信号的类别为第二异常噪音。其中，该传统模型的输出结果也可以为二进制输出结果，每个二进制位代表一种类别的输出结果，输出结果为1时表示是该类别，输出结果为0时表示不是该类别，则当传统模型的输出结果为001时，确定分类结果为第二异常噪音。

在本公开实施例中，可以综合该多种分类模型的分类结果，确定出待识别噪音信号的目标类别，该过程详见步骤205。

205、终端根据该多个分类结果，得到待识别噪音信号的目标类别。

对于所述多个分类结果中的每个分类结果，终端确定每个分类结果对应的分类模型的权重因子；根据每个分类结果对应分类模型的权重因子，对所述多个分类结果进行加权运算，得到目标数值；根据该目标数值，确定待识别噪音信号的目标类别。其中，每个分类模型的权重因子可以由终端进行预先设置或更改，本公开实施例对此不作限定。

其中，每个分类模型的权重因子也可以由对神经网络的迭代训练确定。例如，该步骤的过程可由决策模型实现，该决策模型有对神经网络的迭代训练得到。比如，在构建好多个分类模型之后，可以将每个分类模型的输出作为第三神经网络的输入，以对该第三神经网络进行迭代训练，以构建该决策模型。例如，该第三神经网络输出节点的个数为多个，每个输出节点对应一种噪音的类别，终端可以预先设定哪个输出节点对应哪种噪音类别。对该第三神经网络进行迭代训练的过程与上述对第一神经网络进行迭代训练的过程同理，下面仅以第三神经网络的一个输出节点为例，对该决策模型的训练过程进行解释说明：例如，该第三神经网络可以为一个三层的神经网络，其第一层作为输入层，第三层(包括多个输出节点)作为输出层，其中，每个输出节点的输出值与输入的多个分类结果的关系可以采用如下函数表示：

h(x)＝θ₁x₁+θ₂x₂+θ₃x₃+…+θ_nx_n；

其中，x₁至x_n表示不同分类模型输出的类别值，θ₁至θ_n表示不同分类模型的权重因子(对应第三神经网络相应节点间的关联参数)，h(x)为最终确定的目标类别。经过迭代训练之后，可以确定该输出节点对应的不同分类模型的权重因子，通过训练确定每一个输出节点对应的不同分类模型的权重因子之后，便可得到该决策模型。如图2D和图2E示出了基于上述多个分类模型构建该决策模型的示意图，图2D中视觉模型、听觉模型和传统模型的个数均为1，图2E中视觉模型、听觉模型和传统模型的个数均为多个。当视觉模型、听觉模型和传统模型的个数均为多个时，终端将所有分类模型的输出作为第三神经网络的输入，对第三神经网络进行训练，得到该决策模型。

需要说明的是，在构建决策模型的过程中，对于基于神经网络构建的视觉模型或听觉模型，相应的神经网络被设置为识别状态，此时，当有噪音样本信号的视觉特征集合输入至视觉模型时，第一神经网络输出相应的分类结果，不再对神经网络中各节点间的连接参数进行调整。

以采用决策模型确定目标类别为例，终端根据该多个分类结果，得到待识别噪音信号的目标类别的具体过程可以为：假设多个分类模型包括视觉模型、听觉模型、传统模型，三者对待识别噪音信号的分类结果分别为：010(第一异常噪音)、010(第一异常噪音)、001(第二异常噪音)，则将这三种分类结果输入决策模型。假设，决策模型中对应视觉模型的权重因子为0.6，对应听觉模型的权重因子为0.3，对应传统分类模型的权重因子为0.1，则将分类模型输出的类别看作是向量，可以通过如下公式计算目标数值：

目标数值h(x)＝0.6*[0,1,0]+0.3*[0,1,0]+0.1*[0,0,1]＝[0,0.9,0.1]；

根据计算出的目标数值，终端可以根据该目标数值，得到最终的目标类别。例如，终端可以将该目标数值进行取整运算，得到目标类别的输出[0,1,0]，根据该目标类别的输出即可判断出目标类别为第一异常噪音。为了更直观地表示终端进行噪音识别的过程，图2F和图2G示出了利用多种分类模型和决策模型进行噪音识别的示意图。其中，图2F中视觉模型、听觉模型和传统模型的个数均为1，图2G中视觉模型、听觉模型和传统模型的个数均为多个。

需要说明的是，为了更加详细地展示最终的决策结果，如果该目标类别指示了异常噪音，则终端在得到该目标类别之后，可以获取该目标类别所指示的异常噪音所产生的原因，并显示该异常噪音的产生原因。比如，如步骤204a中所述，对于每种异常噪音，终端可以对应该异常噪音的类别标识记录该异常噪音的产生原因，因此终端可以根据该异常噪音的类别标识，获取该异常噪音的产生原因。通过显示异常噪音的产生原因，使得工业生产中用户可以根据显示原因准确地定位故障原因，进而快速地解决相应故障，提高了故障处理效率。

本公开实施例提供的方法，通过提取待识别噪音信号的传统特征和能够用于语音识别的声学特征，并基于传统特征提取了待识别噪音信号的图像特征，得到了待识别噪音信号的多种特征，该多种特征能够更加全面、更加细腻的反映待识别噪音信号的特点，通过对待识别噪音信号的多种特征进行识别得到目标类别，实现了对待识别噪音信号全方位、更加细粒度识别，提高了噪音识别的准确率、降低了误识率。

图3是本公开实施例提供的一种噪音信号的识别装置的框图。参照图3，该装置可以通过软件、硬件或者两者的结合实现，该装置包括第一获取单元301，第二获取单元302，特征提取单元303和识别单元304。

第一获取单元301，用于执行上述方法实施例中步骤201所涉及的过程；

第二获取单元302，用于执行上述方法实施例中步骤202所涉及的过程；

特征提取单元303，用于执行上述方法实施例中步骤203所涉及的过程；

识别单元304，用于执行上述方法实施例中步骤204和205所涉及的过程。

需要说明的是：上述实施例提供的噪音信号的识别装置在识别噪音信号时时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的噪音信号的识别装置与噪音信号的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种噪音信号的识别方法，其特征在于，所述方法包括：

获取待识别噪音信号；

获取所述待识别噪音信号的第一信号特征，所述第一信号特征包括听觉特征和传统特征，所述听觉特征用于指示能够用于语音识别的声学特征；

对所述传统特征进行图像特征提取，得到所述待识别噪音信号的第二信号特征；

根据所述待识别噪音信号的第一信号特征和第二信号特征，对所述待识别噪音信号进行识别，得到所述待识别噪音信号的目标类别。

2.根据权利要求1所述的方法，其特征在于，所述对所述传统特征进行图像特征提取，得到所述待识别噪音信号的第二信号特征包括：

根据所述传统特征中每帧信号的频谱特征，获取所述每帧信号的图像特征，所述每帧信号的图像特征采用不同的灰度表示不同的频谱强度；将所述每帧信号的图像特征按照时间顺序排列，得到所述待识别噪音信号的声谱图，将所述声谱图转换为声谱图片，将所述声谱图片作为所述待识别噪音信号的第二信号特征；和/或，

根据所述待识别噪音信号中每帧信号的传统特征，获取所述待识别信号的波形图、频谱图和倒梅尔谱图中的至少一项，将获取到的谱图转换为相应的谱图图片，将转换得到的谱图图片作为所述待识别噪音信号的第二信号特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述待识别噪音信号的第一信号特征和第二信号特征，对所述待识别噪音信号进行识别，得到所述待识别噪音信号的目标类别包括：

将所述待识别噪音信号的听觉特征、传统特征和第二信号特征分别输入对应的分类模型，得到所述待识别噪音信号的多个分类结果；

根据所述多个分类结果，得到所述待识别噪音信号的目标类别。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个分类结果，得到所述待识别噪音信号的目标类别包括：

对于所述多个分类结果中的每个分类结果，确定所述分类结果对应分类模型的权重因子；

根据所述每个分类结果对应分类模型的权重因子，对所述多个分类结果进行加权运算，得到目标数值；

根据所述目标数值，确定所述目标类别。

5.根据权利要求3所述的方法，其特征在于，所述待识别噪音信号的听觉特征和第二信号特征对应的分类模型，分别由对不同类型的神经网络进行迭代训练得到。

6.根据权利要求1所述的方法，其特征在于，所述获取所述待识别噪音信号的第一信号特征包括：

对所述待识别噪音信号进行特征提取，得到所述待识别噪音信号的传统特征；

通过预设滤波器对所述传统特征进行滤波，得到所述待识别噪音信号中部分帧信号的频谱，所述预设滤波器用于模拟人耳的非线性特性；

将所述部分帧信号中每帧信号的频谱所指示的频率信息和强度信息，映射为一个多维向量；

将所述部分帧信号中每帧信号对应的多维向量按照时间顺序排列，得到所述待识别噪音信号的听觉特征。

7.一种噪音信号的识别装置，其特征在于，所述装置包括：

第一获取单元，用于获取待识别噪音信号；

第二获取单元，用于获取所述待识别噪音信号的第一信号特征，所述第一信号特征包括听觉特征和传统特征，所述听觉特征用于指示能够用于语音识别的声学特征；

特征提取单元，用于对所述传统特征进行图像特征提取，得到所述待识别噪音信号的第二信号特征；

识别单元，用于根据所述待识别噪音信号的第一信号特征和第二信号特征，对所述待识别噪音信号进行识别，得到所述待识别噪音信号的目标类别。

8.根据权利要求7所述的装置，其特征在于，所述特征提取单元，用于根据所述传统特征中每帧信号的频谱特征，获取所述每帧信号的图像特征，所述每帧信号的图像特征采用不同的灰度表示不同的频谱强度；将所述每帧信号的图像特征按照时间顺序排列，得到所述待识别噪音信号的声谱图，将所述声谱图转换为声谱图片，将所述声谱图片作为所述待识别噪音信号的第二信号特征；和/或，根据所述待识别噪音信号中每帧信号的传统特征，获取所述待识别信号的波形图、频谱图和倒梅尔谱图中的至少一项，将获取到的谱图转换为相应的谱图图片，将转换得到的谱图图片作为所述待识别噪音信号的第二信号特征。

9.根据权利要求7所述的装置，其特征在于，所述识别单元包括：

第一子识别单元，用于将所述待识别噪音信号的听觉特征、传统特征和第二信号特征分别输入对应的分类模型，得到所述待识别噪音信号的多个分类结果；

第二子识别单元，用于根据所述多个分类结果，得到所述待识别噪音信号的目标类别。

10.根据权利要求9所述的装置，其特征在于，所述第二子识别单元用于对于所述多个分类结果中的每个分类结果，确定所述分类结果对应分类模型的权重因子；根据所述每个分类结果对应分类模型的权重因子，对所述多个分类结果进行加权运算，得到目标数值；根据所述目标数值，确定所述目标类别。

11.根据权利要求9所述的装置，其特征在于，所述待识别噪音信号的听觉特征和第二信号特征对应的分类模型，分别由对不同类型的神经网络进行迭代训练得到。

12.根据权利要求7所述的装置，其特征在于，所述第二获取单元用于对所述待识别噪音信号进行特征提取，得到所述待识别噪音信号的传统特征；通过预设滤波器对所述传统特征进行滤波，得到所述待识别噪音信号中部分帧信号的频谱，所述预设滤波器用于模拟人耳的非线性特性；将所述部分帧信号中每帧信号的频谱所指示的频率信息和强度信息，映射为一个多维向量；将所述部分帧信号中每帧信号对应的多维向量按照时间顺序排列，得到所述待识别噪音信号的听觉特征。