CN115565548A

CN115565548A - 异常声音检测方法、装置、存储介质及电子设备

Info

Publication number: CN115565548A
Application number: CN202211144700.9A
Authority: CN
Inventors: 李晓宇
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-01-03

Abstract

本申请属于人工智能技术领域，涉及异常声音检测方法、装置、存储介质及电子设备。该方法包括：对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列；将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取与所述频域向量序列维度相同的目标向量序列；根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。本申请能够提高异常声音检测结果的精准性。

Description

异常声音检测方法、装置、存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，特别涉及一种异常声音检测方法、异常声音检测系统、计算机存储介质及电子设备。

背景技术

随着人工智能技术的发展，通过人工智能技术进行异常声音检测成为可能，相对于人工检测异常声音，准确率更高。

目前在进行异常声音检测时，会基于传统声学特征提取方式将音频从时域转换为频域，进而根据转换得到的频域信息对异常声音进行判断，但是传统声学特征提取方式一般使用频域特征Fbank或者梅尔倒谱系数，这种特征提取方式多用于语音的特征提取，由于机器的声音频率范围和语音频率范围可能存在不一致的情况，因此这种特征提取方式会损失到一部分的高频信息，有可能误判一些高频的异常音频。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本申请的背景的理解。

发明内容

本申请的目的在于提供一种异常声音检测方法、异常声音检测系统、计算机存储介质及电子设备，进而至少在一定程度上提高对各类异常声音的检测准确率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的第一方面，提供一种异常声音检测方法，包括：

对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列；

将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取与所述频域向量序列维度相同的目标向量序列；

根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。

根据本申请的第二方面，提供一种异常声音检测装置，包括：

预处理模块，用于对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列；

模型处理模块，用于将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取与所述频域向量序列维度相同的目标向量序列；

异常判断模块，用于根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。

根据本申请的第三方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的异常声音检测方法。

根据本申请的第四方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的异常声音检测方法。

由上述技术方案可知，本申请示例性实施例中的异常声音检测方法、异常声音检测装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

本申请中的异常声音检测方法，通过对待处理音频信息进行预处理，以获取与待处理音频信息对应的频域向量序列；接着将得到的频域向量序列输入至声音模型，通过声音模型对所述频域向量序列进行双通道特征提取，以获取与频域向量序列维度相同的目标向量序列；最后根据目标向量序列和频域向量序列确定向量距离，并根据向量距离判断待处理音频信息是否为异常音频信息。本申请中的异常声音检测方法，由于声音模型能够对频域向量序列进行双通道特征提取，根据双通道特征提取能够得到更多的音频信息，提高目标向量序列的准确性，进而提高了异常声音检测的准确性。

本申请应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请实施例中异常声音检测方法的系统架构的结构示意图。

图2示意性地示出了本申请实施例中异常声音检测方法的流程示意图。

图3示意性地示出了本申请实施例中声音模型的结构示意图。

图4示意性地示出了本申请实施例中自编码子模型303的结构示意图。

图5示意性地示出了本申请实施例中待训练声音模型的结构示意图。

图6示意性地示出了本申请实施例中待训练自编码子模型504的结构示意图。

图7示意性地示出了本申请中异常声音检测装置的结构框图。

图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本申请的相关技术中，在异常声音检测的任务中，由于条件限制，往往只能够获取到大量的正常音频样本用于模型训练，但是缺乏足够规模的异常声音样本，甚至在某些情况下，完全无法获取到异常声音样本。在这种情况下，就需要使用正常音频样本进行无监督的模型训练，从而达到检测异常声音的目的。

目前，很多的异常声音检测技术仍然采用传统的声学特征提取方式(梅尔谱图、FBanks、梅尔倒谱系数MFCC等等)。这种传统的声学特征提取方式可以很好提取人声语音中的特征信息。语音的频率范围集中在1kHz左右，人耳能够听到的频率范围在20Hz到20KHz左右，然而待检测的声音的频率并不一定在这个范围内。因此，传统的声学特征的提取方式并不一定适用于像车床、轴承、齿轮等物体发出的声音，简单套用传统声学的特征提取方式就有可能丢失一些音频中的重要信息。

针对相关技术中存在的问题，本申请提出了一种异常声音检测方法。

在对本申请实施例中的技术方案进行详细说明之前，首先对本申请实施例中可能涉及到的技术名词进行解释和说明。

(1)短时傅里叶变换：short-time Fourier transform，或short-term Fouriertransform，简称STFT，是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

(2)自编码器：Autoencoder，简称AE，是一类在半监督学习和非监督学习中使用的人工神经网络，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习。

在介绍完本申请实施例中可能涉及到的技术名词后，对本申请中的异常声音检测方法进行详细说明。

图1示意性示出了应用本申请技术方案的示例性系统架构框图。

如图1所示，系统架构100可以包括终端设备101、服务器102和网络103。其中，终端设备101可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、智能车载终端等各种具有显示屏幕和声音采集装置的电子设备，该声音采集装置例如可以是内嵌或外置的麦克风、话筒，或者其它可实现声音采集功能的装置。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。网络103可以是能够在终端设备101和服务器102之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。

在本申请的示例性实施例中，终端设备101可以通过自身具有或外连的声音采集装置收集音频信息，然后将音频信息作为待处理音频信息，通过网络103发送至服务器102，服务器102接收到待处理音频信息后，可以对其进行预处理，获取与待处理音频信息对应的频域向量序列；接着可以调用声音模型，将该频域向量序列输入至声音模型，通过声音模型对频域向量序列进行双通道特征提取，以获取维度与频域向量序列的维度相同的目标向量序列；然后可以根据目标向量序列和频域向量序列确定向量距离，并根据该向量距离判断待处理音频信息是否为异常音频信息。

在本申请的示例性实施例中，终端设备101也可以接收其它终端设备发送的待处理音频信息，并将待处理音频信息通过网络103发送至服务器102，以使服务器102调用声音模型对待处理音频信息进行处理，并判断待处理音频信息是否为异常声音。

当然，本申请实施例中的异常声音检测方法还可以由终端设备101执行，终端设备101在采集得到待处理音频信息或接收到其它终端设备发送的待处理音频信息后，可以调用声音模型对带存了音频信息进行处理，并根据处理结果判断待处理音频信息是否为异常声音。

根据实现需要，本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如，服务器可以是由多个服务器设备组成的服务器群组。

本申请实施例提供的技术方案可以应用于终端设备101或者服务器102，本申请中的异常声音检测方法是基于声音模型实现的，而声音模型是一种机器学习模型，涉及人工智能。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像信息标注、OCR、视频处理、视频语义理解、视频内容/行为识别、异常声音检测、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面结合具体实施方式对本申请提供的异常声音检测方法、异常声音检测装置、计算机可读介质以及电子设备等技术方案做出详细说明。

图2示出了异常声音检测方法的流程图，如图2所示，异常声音检测方法包括：

步骤S210：对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列；

步骤S220：将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取维度与所述频域向量序列的维度相同的目标向量序列；

步骤S230：根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。

本申请的异常声音检测方法，通过对待处理音频信息进行预处理，以获取与待处理音频信息对应的频域向量序列；接着将得到的频域向量序列输入至声音模型，通过声音模型对所述频域向量序列进行双通道特征提取，以获取与频域向量序列维度相同的目标向量序列；最后根据目标向量序列和频域向量序列确定向量距离，并根据向量距离判断待处理音频信息是否为异常音频信息。本申请中的异常声音检测方法，由于声音模型能够对频域向量序列进行双通道特征提取，根据双通道特征提取能够得到更多的音频信息，提高输入向量序列的准确性，进而提高了异常声音检测的准确性。

下面对图2所示的异常声音检测方法的各个步骤进行详细说明。

在步骤S210中，对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列。

在本申请的示例性实施例中，在接收到待处理音频信息后，可以对待处理音频信息进行预处理，以将待处理音频信息从时域转换到频域，获取频域向量序列。本申请实施例中的预处理包括第一预处理阶段和第二预处理阶段，其中，第一预处理阶段是对待处理音频信息进行降噪、回声消除、去混响等清洗处理，以去除待处理音频信息中的干扰信息，第二预处理阶段为对待处理音频信息进行时频域转换，以将音频从时域转换到频域，获取与待处理音频信息对应的频域向量序列。

在本申请的示例性实施例中，可以通过短时傅里叶变换获取与待处理音频信息对应的频域向量序列，具体地，首先对待处理音频信息进行分帧，然后对每一帧待处理音频信息加窗，提取每帧待处理音频信息中的频域信息，即频域向量，最后将每一帧待处理音频信息对应的频域信息拼接起来，即可得到与待处理音频信息对应的频域向量序列，其中，加窗就是对每一帧待处理音频信息乘一个时间有限的窗函数h(t)，并假定非平稳信号在分析窗的短时间隔内是平稳的，通过窗函数h(t)在时间轴上的移动，对信号进行逐段分析得到信号的一组局部“频谱”。

在步骤S220中，将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取维度与所述频域向量序列的维度相同的目标向量序列。

在本申请的示例性实施例中，在获取频域向量序列后，可以对该频域向量序列进行处理，以获取与待处理音频信息对应的目标向量序列。本申请实施例中采用声音模型对频域向量序列进行特征提取，该声音模型是一个融合模型，其中包括多个具有不同功能的子模型。

图3示意性示出了声音模型的结构示意图，如图3所示，声音模型300包括依次连接的输入层301、第一逐点卷积子模型302、自编码子模型303、第二逐点卷积子模型304和输出层305，其中，输入层301将频域向量序列输入至第一逐点卷积子模型302，通过第一逐点卷积子模型302对该频域向量序列进行特征提取，以获取第一特征向量；接着将第一特征向量输入至自编码子模型303，通过自编码子模型303对第一特征向量进行双通道编码和双通道解码处理，以获取第二特征向量；然后第二特征向量被输入至第二逐点卷积子模型304，通过第二逐点卷积子模型304对第二特征向量进行特征提取，以获取目标向量序列；最后通过输出层305输出该目标向量序列。

接下来，对本申请实施例中的声音模型和信息处理流程进行详细说明。

在本申请的示例性实施例中，第一逐点卷积子模型302和第二逐点卷积子模型304均为pointwise卷积神经网络模型，其中，第一逐点卷积子模型包含M个卷积核，每个卷积核的大小为1×1，其中，M为小于频域向量序列维度的正整数，第二逐点卷积子模型包含N个卷积核，每个卷积核的大小为1×1，其中，N等于频域向量序列的维度，也就是说，最终输出的目标向量序列的大小与频域向量序列的维度相同，第一逐点卷积子模型302主要是从频域向量序列中提取重要特征，并减少数据处理量，例如可以通过第一逐点卷积子模型302将频域向量序列转换为256维的第一特征向量，等等；第二逐点卷积子模型304是将第二特征向量的维度转换为频域向量序列的维度，这样有利于计算向量距离，并根据向量距离对异常声音进行检测。

在本申请的示例性实施例中，自编码子模型303包括对称设置的编码单元303-1和解码单元303-2，其中编码单元303-1和解码单元303-2的数量可以为一个或多个，并且编码单元的数量与解码单元的数量相同。由于自编码模型是将输入信息作为学习目标，对输入信息进行表征学习，所以编码单元303-1和解码单元303-2的内部组成结构是对称的，也就是说，在编码单元303-1中设置有卷积层，那么在解码单元303-2中就要对应设置反卷积层，等等。

接下来，以自编码子模型303包括一个编码单元和一个解码单元为例，对自编码子模型的结构进行说明。

图4示意性示出了自编码子模型303的结构示意图，如图4所示，编码单元303-1包括第一层归一化层401、与第一层归一化层连接的第一卷积层402和第二卷积层403、与第一卷积层402连接的第一sigmoid激活层404以及与第二卷积层403和第一sigmoid激活层404连接的第一加权层405；解码单元303-2包括第二层归一化层406、与第二层归一化层406连接的第一反卷积层407和第二反卷积层408、与第一反卷积层407连接的第二sigmoid激活层409以及与第二反卷积层408和第二sigmoid激活层409连接的第二加权层410，其中，第一层归一化层401和第二层归一化层406的参数相同，第一卷积层402、第二卷积层403、第一反卷积层407和第二反卷积层408的参数相同，且均为一维卷积层或一维反卷积层。

编码单元303-1接收到第一特征向量后，能够对其进行双通道特征提取，以获取第一加权特征向量。具体地，通过第一层归一化层401对第一特征向量进行归一化处理，以获取第三特征向量；接着通过第一卷积层402对第三特征向量进行卷积处理，并通过第一sigmoid激活层404对所提取的特征进行处理，以获取权重向量，同时通过第二卷积层403对第三特征向量进行卷积处理，以获取第四特征向量；最后通过第一加权层405根据权重向量对第四特征向量进行加权处理，以获取第一加权特征向量。

其中，第一卷积层402和第一sigmoid激活层403组成第一个通道，第二卷积层403为第二个通道，第一个通道输出的是与各个经过卷积处理后的第三特征向量对应的介于[0,1]之间的值，该值可以认为是一个权重值，由于第一卷积层402和第二卷积层403的结构相同，因此经过卷积处理后的第三特征向量与第四特征向量相同，通过第一加权层根据权重向量对第四特征向量进行加权处理，即可实现对第四特征向量中每个位置进行相应权重的信息提取，由于经过sigmoid函数得到的值为(0,1)范围内的值，相对于采用系数只有0和1的ReLU激活函数，通过双通道特征提取可以保留更多的音频信息，同时由于每个子特性向量对应的权重值不完全相同，因此可以实现对待处理音频信息中重要信息和非重要信息的区别保留，为精准检测异常声音奠定了基础。

在本申请的示例性实施例中，第一加权层405为哈达玛哈层，通过对权重向量和第四特征向量进行哈达玛积运算，以获取第一加权特征向量。哈达玛积运算就是将权重向量和第四特征向量中对应同一坐标的权重值和特征值相乘，形成与该坐标对应的加权值，进而根据各个坐标对应的加权值构成第一加权特征向量。

在本申请的示例性实施例中，第一加权特征向量由第一加权层405输入至解码单元303-2中，通过解码单元303-2对第一加权特征向量进行双通道特征提取，可以获取第二加权特征向量，该第二加权特征向量即为自编码子模型303输出的第二特征向量。

解码单元303-2对第一加权特征向量的处理流程与编码单元303-1对第一特征向量的处理流程相似，具体地，第二层归一化层406接收到第一加权特征向量后，对第一加权特征向量进行归一化处理，以获取第五特征向量；接着通过第一反卷积层407对第五特征向量进行反卷积处理，并通过第二sigmoid激活层409对反卷积处理所提取的特征进行处理，以获取权重向量，同时通过第二反卷积层408对第五特征向量进行反卷积处理，以获取第六特征向量；最后通过第二加权层410根据权重向量对第六特征向量进行加权处理，以获取第二加权特征向量。

其中，解码单元303-2中双通道特征提取获取第二加权特征向量的逻辑与编码单元303-1中双通道特征提取获取第一加权特征向量的逻辑相同，区别仅在于第一反卷积层407和第二反卷积层408对第五特征向量进行反卷积处理为第一卷积层402和第三卷积层403对第三特征向量进行卷积处理的逆运算，因此在此不再赘述获取第二加权特征向量的流程。

在本申请的示例性实施例中，第二加权层410与第一加权层405相同，都是哈达玛积层，用于将权重向量和第五特征向量中对应同一坐标的权重值和特征值相乘，以获取组成第二加权特征向量的各个加权值。值得说明的是，由于第一逐点卷积子模型301输出的第一特征向量为一维向量，所以本申请实施例中的第一卷积层402和第二卷积层403均为一维卷积层，第一反卷积层407和第二反卷积层408均为一维反卷积层。

在本申请的示例性实施例中，编码单元和解码单元均可以为多个，例如可以设置六个编码单元和六个解码单元，当然还可以设置其它数量的编码单元和解码单元，本申请实施例对此不作具体限定。在本申请实施例中，通过设置多个编码单元和多个解码单元对第一特征向量进行编解码处理，能够提高第二特征向量的准确性，充分获取待处理音频信息中的信息，进而提高了异常声音检测的准确性。

在生成第二特征向量后，解码单元303-2将第二特征向量输入至第二逐点卷积子模型304，通过第二逐点卷积子模型304对第二特征向量进行特征提取，以获取目标向量序列，该目标向量序列为对待处理音频信息进行特征提取后所生成的与频域向量序列维度相同的向量序列。

在步骤S230中，根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。

在本申请的示例性实施例中，在获取目标向量序列之后，为了判断待处理音频信息是否为异常音频信息，可以获取目标向量序列和频域向量序列之间的向量距离，并根据该向量距离进行判断。在本申请的实施例中，向量距离具体可以是L2距离，L2距离又称欧式距离，其计算公式如式(1)所示：

其中，x_i为目标向量序列中的第i个元素，y_i为频域向量序列中的第i个元素，N为目标向量序列和频域向量序列的最大长度。

值得说明的是，本申请实施例中的向量距离还可以是其它类型的距离，本申请实施例对此不作具体限定。

在本申请的示例性实施例中，在获取向量距离后，可以将该向量距离与距离阈值进行比较，当向量距离小于或等于距离阈值时，判定待处理音频信息为正常音频信息，当向量距离大于距离阈值时，判定待处理音频信息为异常音频信息。其中，距离阈值是根据正常音频信息所确定的距离，具体地，可以将正常音频信息对应的频域向量序列输入至声音模型中，通过声音模型输出与正常音频信息对应的目标向量序列，进而根据与正常音频信息对应的目标向量序列和频域向量序列即可确定距离阈值，进一步地，还可以基于所获取的距离阈值确定一距离阈值范围，当向量距离位于该距离阈值范围内时，则判定该待处理音频信息为正常音频信息，当向量距离位于该距离阈值范围外时，则判定该待处理音频信息为异常音频信息。

在本申请的示例性实施例中，在将待处理音频信息对应的频域向量序列输入至声音模型之前，需要对待训练声音模型进行训练，以获取性能稳定的声音模型。在训练时，首先可以获取音频信息样本，通过对音频信息样本进行预处理获取与其对应的频域向量序列，接着将频域向量序列输入至待训练声音模型，通过待训练声音模型对频域向量序列进行特征提取，以获取预测向量序列，然后根据音频信息样本对应的频域向量序列和预测向量序列构建损失，并根据损失函数对待训练声音模型的参数进行优化，以获取声音模型。

在本申请的示例性实施例中，待训练声音模型的结构与声音模型的架构基本相同，包括第一待训练逐点卷积子模型、待训练自编码子模型和第二待训练逐点卷积子模型，并且待训练自编码子模型中包括一个或多个待训练编码单元和待训练解码单元。在训练的过程中，为了防止过拟合，可以在待训练声音模型中添加Dropout层，通过随机剔除部分神经元，防止模型训练过程中出现过拟合，进而提高模型的鲁棒性。待训练声音模型中可以设置一个或多个Dropout层，例如可以在在第一待训练逐点卷积子模型和待训练自编码子模型之间、在待训练编码单元和待训练解码单元所包含的待训练加权层之后，以及在第二待训练逐点卷积子模型后这三个位置中的至少一个位置处设置Dropout层。

图5示意性示出了待训练声音模型的结构示意图，如图5所示，待训练声音模型包括输入层501、第一待训练逐点卷积子模型502、第一Dropout层503、待训练自编码子模型504、第二待训练逐点卷积子模型505、第二Dropout层506和输出层507。

图6示意性示出了待训练自编码子模型504的结构示意图，如图6所示，待训练自编码子模型504包括待训练编码单元601和待训练解码单元602，其中，待训练编码单元601包括第一待训练层归一化层603、与第一待训练层归一化层603连接的第一待训练卷积层604和第二待训练卷积层605、与第一待训练卷积层604连接的第一待训练sigmoid激活层606、与第二待训练卷积层605和第一待训练sigmoid激活层606连接的第一待训练加权层607以及与第一待训练加权层607连接的第三Dropout层608；待训练解码单元602包括第二待训练层归一化层609、与第二待训练层归一化层连接的第一待训练反卷积层610和第二待训练反卷积层611、与第一待训练反卷积层连接的第二待训练sigmoid激活层612、与第二待训练反卷积层611和第二待训练sigmoid激活层612连接的第二待训练加权层613以及与第二待训练加权层613连接的第四Dropout层614。值得说明的是，待训练自编码子模型除了由图6中所示的一个待训练编码单元和一个待训练解码单元组成，还可以由多个待训练编码单元和多个待训练解码单元组成，只要保证待训练编码单元和待训练解码单元的数量相同即可。

待训练声音模型中各个子模型的数据处理流程与图3所示的声音模型中各个子模型的数据处理流程相同，区别仅在于，第一待训练逐点卷积子模型502输出的特征向量通过第一Dropout层503进行了随机剔除，第一待训练加权层607输出的加权特征向量通过第三Dropout层进行了随机剔除，第二待训练加权层613输出的加权特征向量通过第四Dropout层614进行了随机剔除，第二待训练逐点卷积子模型505输出的特征向量通过第二Dropout层506进行了随机剔除。通过在不同的模型训练阶段，通过Dropout层进行随机剔除，防止了训练后的模型存在过拟合的问题。

在本申请的示例性实施例中，可以将根据音频信息样本对应的频域向量序列和预测向量序列确定的L2距离作为损失函数，通过最小化损失函数以确定最优的模型参数值，进而根据所确定的最优模型参数值生成性能稳定的声音模型。在本申请的实施例中，还可以采用其它类型的距离构建损失函数，本申请实施例对此不作具体限定。

本申请中的异常声音检测方法可以应用于涉及异常声音检测的各种领域，例如公安、工业、国防、军队、安保、医疗，等等，例如在工业领域，可以通过异常声音检测判断机器是否存在故障，在安保领域，可以通过异常声音检测判断是否有非法侵入，在医疗领域，可以通过异常声音检测判断器官是否发生病变，等等。

以对机器是否存在故障进行判断为例，可以采集机器运行时的声音，并对采集的声音所对应的音频信息进行预处理，获取对应的频域向量序列，接着可以将频域向量序列输入至声音模型中进行双通道特征提取，以获取维度与频域向量序列的维度相同的目标向量序列，然后根据目标向量序列和频域向量序列确定向量距离，最后将向量距离和根据机器正常运行时采集的声音所确定的距离阈值进行比较，以根据比较结果判断机器是否存在故障。

在本申请的示例性实施例中，在使用短时傅里叶变换后使用1×1pointwise卷积神经网络(逐点卷积子模型)作为特征提取器，让网络在不断迭代中学习提取特征的方式，使得网络能够适应不同频率的音频样本，从而保留更多的音频信息，因此在完成待训练声音模型的训练后，可以将卷积神经网络特征提取器用于其它任务，通过卷积神经网络特征提取器精准提取不同类型声音的特征，进而提高其它任务的执行精准度。

在本申请的示例性实施例中，在对待处理音频信息进行预处理时，可以只对待处理音频信息进行清洗，以去除其中的干扰信息，而在声音模型中添加时频域转换层，通过时频域转换层对接收到的预处理后的待处理音频信息进行短时傅里叶变换，将音频信息从时域转换到频域，获取对应的频域向量序列，再通过声音模型中的其它子模型对频域向量序列进行处理，其中对频域向量序列的处理流程与上述实施例中的处理流程相同，在此不再赘述。

本申请实施例中的异常声音检测方法中，将对待处理音频信息进行预处理得到的频域向量序列输入至声音模型，通过声音模型对频域向量序列进行双通道特征提取，以获取维度与频域向量序列的维度相同的目标向量序列，然后根据目标向量序列和频域向量序列确定向量距离，并根据向量距离判断待处理音频信息是否为异常音频信息。本申请实施例中的异常声音检测是基于声音模型实现的，而声音模型中包含逐点卷积子模型和自编码子模型，由于卷积特征提取方式能够兼顾音频频域特征和自主学习声学特征，因此本申请中的声音模型能够解决传统音频提取方式在非人声语音频率下可能存在的信息丢失的问题，保证了异常声音检测方法能够适用于更广泛的领域，例如可以识别语音频率范围和人耳能够听到的频率范围之外的音频范围，并从中提取重要信息；另外由于自编码子模型是一种无监督训练模型，在训练时无需预先准备大量的正常音频信息样本和异常音频信息样本，这样可以避免由于缺乏足够规模的异常音频信息样本而无法进行模型训练的问题；最后由于在声音模型中采用了双通道特征提取，其中一个通道采用了sigmoid激活函数，另一个通道未采用激活函数，那么采用sigmoid激活函数的通道相当于计算了每一个位置的权重，使用权重对每一个位置的向量值进行折扣，相比于ReLU激活函数所确定的系数只能为0或1而言，对应位置的权重这种计算方式更加灵活，也更容易在声音模型的计算中保留更多信息，具体到每一个位置应不应该保留、应该保留多少，避免了ReLU一刀切造成的信息丢失，提高声音模型捕捉音频细节的能力，进而提高声音模型进行异常声音检测的精准度。

本申请还提供了一种异常声音检测装置，图7示出了异常声音检测装置的结构示意图，如图7所示，异常声音检测装置700可以包括预处理模块701、模型处理模块702和异常判断模块703。其中：

预处理模块701，用于对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列；

模型处理模块702，用于将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取与所述频域向量序列大小相同的目标向量序列；

异常判断模块703，用于根据所述目标向量序列和所述频域向量序列确定向量距离，并根据所述向量距离判断所述待处理音频信息是否为异常音频信息。

在本申请的一个实施例中，所述预处理模块701配置为：

对所述待处理音频信息进行清洗，并对清洗后的所述待处理音频信息进行短时傅里叶变换，以获取所述频域向量序列。

在本申请的一个实施例中，所述声音模型包括第一逐点卷积子模型、自编码子模型和第二逐点卷积子模型；所述模型处理模块702包括：

第一处理单元，用于通过所述第一逐点卷积子模型对所述频域向量序列进行特征提取，以获取第一特征向量；

第二处理单元，用于通过所述自编码子模型对所述第一特征向量进行双通道编码和双通道解码处理，以获取第二特征向量；

第三处理单元，用于通过所述第二逐点卷积子模型对所述第二特征向量进行特征提取，以获取所述目标向量序列。

在本申请的一个实施例中，所述第一逐点卷积子模型包含M个卷积核，所述第二逐点卷积子模型包含N个卷积核，其中，M为小于所述频域向量序列维度的正整数，N等于所述频域向量序列的维度。

在本申请的一个实施例中，所述自编码子模型包括对称设置的编码单元和解码单元；所述第二处理单元包括：

第一编码单元，用于通过所述编码单元对所述第一特征向量进行双通道特征提取，以获取第一加权特征向量；

第一解码单元，用于通过所述解码单元对所述第一加权特征向量进行双通道特征提取，以获取第二加权特征向量，并将所述第二加权特征向量作为所述第二特征向量。

在本申请的示例性实施例中，所述编码单元包括第一层归一化层、与所述第一层归一化层连接的第一卷积层和第二卷积层、与所述第一卷积层连接的第一sigmoid激活层以及与所述第二卷积层和所述第一sigmoid激活层连接的第一加权层；所述第一编码单元配置为：

通过所述第一层归一化层对所述第一特征向量进行归一化处理，以获取第三特征向量；

通过所述第一卷积层对所述第三特征向量进行卷积处理，并通过所述第一sigmoid激活层对卷积提取的特征进行处理，以获取权重向量；

通过所述第二卷积层对所述第三特征向量进行卷积处理，以获取第四特征向量；

通过所述第一加权层根据所述权重向量对所述第四特征向量进行加权处理，以获取所述第一加权特征向量。

在本申请的示例性实施例中，所述第一加权层为哈达玛积层；所述通过所述第一加权层根据所述权重向量对所述第四特征向量进行加权处理，以获取所述第一加权特征向量，配置为：

将所述权重向量和所述第四特征向量中对应同一坐标的权重值和特征值相乘，以获取所述第一加权特征向量。

在本申请的示例性实施例中，所述解码单元包括第二层归一化层、与所述第二层归一化层连接的第一反卷积层和第二反卷积层、与所述第一反卷积层连接的第二sigmoid激活层以及与所述第二反卷积层和所述第二sigmoid激活层连接的第二加权层；所述第一解码单元配置为：

通过所述第二层归一化层对所述第一加权特征向量进行归一化处理，以获取第五特征向量；

通过所述第一反卷积层对所述第五特征向量进行反卷积处理，并通过所述第二sigmoid激活层对反卷积提取的特征进行处理，以获取权重向量；

通过所述第二反卷积层对所述第五特征向量进行反卷积处理，以获取第六特征向量；

通过所述第二加权层根据所述权重向量对所述第六特征向量进行加权处理，以获取所述第二加权特征向量。

在本申请的示例性实施例中，所述第二加权层为哈达玛积层；所述通过所述第二加权层根据所述权重向量对所述第六特征向量进行加权处理，以获取所述第二加权特征向量，配置为：

将所述权重向量和所述第六特征向量中对应同一坐标的权重值和特征值相乘，以获取所述第二加权特征向量。

在本申请的示例性实施例中，所述异常判断模块703配置为：

将所述向量距离与距离阈值进行比较；

当所述向量距离小于或等于所述距离阈值时，判定所述待处理音频信息为正常音频信息；

当所述向量距离大于所述距离阈值时，判定所述待处理音频信息为异常音频信息。

在本申请的示例性实施例中，所述向量距离为L2距离，所述距离阈值是根据正常音频信息所确定的L2距离。

在本申请的示例性实施例中，所述异常声音检测装置700还包括：

预测模块，用于在将所述频域向量序列输入至声音模型之前，获取音频信息样本，将所述音频信息样本对应的频域向量序列输入至待训练声音模型，通过所述待训练声音模型对所述频域向量序列进行特征提取，以获取预测向量序列；

优化模块，用于根据所述音频信息样本对应的频域向量序列和所述预测向量序列构建损失函数，并根据所述损失函数对所述待训练声音模型的参数进行优化，以获取所述声音模型。

在本申请的示例性实施例中，所述优化模块配置为：

根据所述音频信息样本对应的频域向量序列和所述预测向量序列确定L2距离作为所述损失函数。

在本申请的示例性实施例中，所述待训练声音模型包括第一待训练逐点卷积子模型、待训练自编码子模型和第二待训练逐点卷积子模型；所述待训练自编码子模型包括待训练编码单元和待训练解码单元。

在本申请的示例性实施例中，所述异常声音检测装置700配置为：

在所述第一待训练逐点卷积子模型和所述待训练自编码子模型之间设置Dropout层；和/或

在所述待训练编码单元和所述待训练解码单元所包含的待训练加权层之后设置Dropout层；和/或

在所述第二待训练逐点卷积子模型后设置Dropout层。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图，该电子设备可以是设置于终端设备或服务器中。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801(Central Processing Unit，CPU)，其可以根据存储在只读存储器802(Read-Only Memory，ROM)中的程序或者从存储部分808加载到随机访问存储器803(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据。中央处理器801、在只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805(Input/Output接口，即I/O接口)也连接至总线804。

在一些实施例中，以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid CrystalDisplay，LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台电子设备执行根据本申请实施方式的方法。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种异常声音检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理音频信息进行预处理，以获取与所述待处理音频信息对应的频域向量序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述声音模型包括第一逐点卷积子模型、自编码子模型和第二逐点卷积子模型；

所述将所述频域向量序列输入至声音模型，通过所述声音模型对所述频域向量序列进行双通道特征提取，以获取与所述频域向量序列维度相同的目标向量序列，包括：

通过所述第一逐点卷积子模型对所述频域向量序列进行特征提取，以获取第一特征向量；

通过所述自编码子模型对所述第一特征向量进行双通道编码和双通道解码处理，以获取第二特征向量；

通过所述第二逐点卷积子模型对所述第二特征向量进行特征提取，以获取所述目标向量序列。

4.根据权利要求3所述的方法，其特征在于，所述第一逐点卷积子模型包含M个卷积核，所述第二逐点卷积子模型包含N个卷积核，其中，M为小于所述频域向量序列包含的频域向量总数量的正整数，N等于所述频域向量序列包含频域向量的总数量。

5.根据权利要求3所述的方法，其特征在于，所述自编码子模型包括对称设置的编码单元和解码单元；

所述通过所述自编码子模型对所述第一特征向量进行双通道编码和双通道解码处理，以获取第二特征向量，包括：

通过所述编码单元对所述第一特征向量进行双通道特征提取，以获取第一加权特征向量；

通过所述解码单元对所述第一加权特征向量进行双通道特征提取，以获取第二加权特征向量，并将所述第二加权特征向量作为所述第二特征向量。

6.根据权利要求5中所述的方法，其特征在于，所述编码单元包括第一层归一化层、与所述第一层归一化层连接的第一卷积层和第二卷积层、与所述第一卷积层连接的第一sigmoid激活层以及与所述第二卷积层和所述第一sigmoid激活层连接的第一加权层；

所述通过所述编码单元对所述第一特征向量进行双通道特征提取，以获取第一加权特征向量，包括：

7.根据权利要求6中所述的方法，其特征在于，所述第一加权层为哈达玛积层；

所述通过所述第一加权层根据所述权重向量对所述第四特征向量进行加权处理，以获取所述第一加权特征向量，包括：

8.根据权利要求5所述的方法，其特征在于，所述解码单元包括第二层归一化层、与所述第二层归一化层连接的第一反卷积层和第二反卷积层、与所述第一反卷积层连接的第二sigmoid激活层以及与所述第二反卷积层和所述第二sigmoid激活层连接的第二加权层；

所述通过所述解码单元对所述第一加权特征向量进行双通道特征提取，以获取第二加权特征向量，包括：

9.根据权利要求8所述的方法，其特征在于，所述第二加权层为哈达玛积层；

所述通过所述第二加权层根据所述权重向量对所述第六特征向量进行加权处理，以获取所述第二加权特征向量，包括：

10.根据权利要求1所述的方法，其特征在于，所述根据所述向量距离判断所述待处理音频信息是否为异常音频信息，包括：

将所述向量距离与距离阈值进行比较；

11.根据权利要求10所述的方法，其特征在于，所述向量距离为L2距离，所述距离阈值是根据正常音频信息所确定的L2距离。

12.根据权利要求3所述的方法，其特征在于，在将所述频域向量序列输入至声音模型之前，所述方法还包括：

获取音频信息样本，将所述音频信息样本对应的频域向量序列输入至待训练声音模型，通过所述待训练声音模型对所述频域向量序列进行特征提取，以获取预测向量序列；

根据所述音频信息样本对应的频域向量序列和所述预测向量序列构建损失函数，并根据所述损失函数对所述待训练声音模型的参数进行优化，以获取所述声音模型。

13.根据权利要求10所述的方法，其特征在于，所述根据所述音频信息样本对应的频域向量序列和所述预测向量序列构建损失函数，包括：

将根据所述音频信息样本对应的频域向量序列和所述预测向量序列确定的L2距离作为所述损失函数。

14.根据权利要求10所述的方法，其特征在于，所述待训练声音模型包括第一待训练逐点卷积子模型、待训练自编码子模型和第二待训练逐点卷积子模型；所述待训练自编码子模型包括待训练编码单元和待训练解码单元。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

在所述第二待训练逐点卷积子模型后设置Dropout层。

16.一种异常声音检测装置，其特征在于，包括：

17.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～15中任意一项所述的异常声音检测方法。

18.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～15中任意一项所述的异常声音检测方法。