CN107545904A

CN107545904A - 一种音频检测方法及装置

Info

Publication number: CN107545904A
Application number: CN201610480405.9A
Authority: CN
Inventors: 陈扬坤; 陈展; 胡林艳
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2016-06-23
Filing date: 2016-06-23
Publication date: 2018-01-05
Anticipated expiration: 2036-06-23
Also published as: CN107545904B

Abstract

本发明实施例公开了一种音频检测方法及装置，将待检测音频划分为第一预设数量个音频段，采取相同的方式获取每个音频段及音频样本对应的信息集合，计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度，当计算得到的相似度的平均值大于第一预设阈值时，将该音频样本的属性确定为该待检测音频的属性。这样可以仅在待检测音频的属性为需要关注的音频属性时，向监控方发送该音频或提示信息，降低了资源占用率，提高了监控的有效性。

Description

一种音频检测方法及装置

技术领域

本发明涉及监控技术领域，特别涉及一种音频检测方法及装置。

背景技术

随着科技的不断发展，利用音频对场景进行监控的技术已经越来越成熟。比如，目前已经可以利用该技术对婴儿进行监控，以满足婴儿的父母可以远程了解婴儿状况，或者实现照顾婴儿的同时还能完成其他工作。

但是，现有的利用音频对婴儿进行监控的方案只是单纯地将携带有婴儿声音信息的音频发送给监控方，并没有对音频进行检测分析。一方面，如果要实现实时监控，需要持续地发送音频，占用很大的网络资源；另一方面，音频中大部分可能是不需要关注的信息，当偶然出现需要关注的信息时，监控方很可能会忽视掉，监控的有效性不高。

发明内容

本发明实施例的目的在于提供一种音频检测方法及装置，以用于降低资源占用率，提高监控的有效性。

为达到上述目的，本发明实施例公开了一种音频检测方法，包括：

将待检测音频划分为第一预设数量个音频段，并获取每个音频段的声音幅度及声音频率；

根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合；

计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度；

当计算得到的相似度的平均值大于第一预设阈值时，将所述音频样本的属性确定为所述待检测音频的属性。

可选的，所述将待检测音频划分为第一预设数量个音频段，可以包括：

将待检测音频平均划分为第一预设数量个音频段。

可选的，所述根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合，可以包括：

通过以下方式构建每个音频段对应的信息集合：

将目标音频段平均划分为N个音频帧，将每个音频帧平均划分为M个音频单元，其中，所述目标音频段为所述待检测音频的任一音频段；

根据所述目标音频段的声音幅度及声音频率，获得各个音频帧的每一音频单元的声音幅度和声音频率；

根据音频帧的划分顺序，以列为单位，按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的值，进而生成所述目标音频段对应的信息集合。

可选的，所述按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的值，可以包括：

将各个音频单元的声音幅度进行二值归一化处理，得到各个音频单元的声音幅度对应的处理值；

按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的处理值。

可选的，在所述将待检测音频划分为第一预设数量个音频段之前，还可以包括：

计算所述待检测音频的信噪比，判断所述信噪比是否大于第二预设阈值；

如果是，执行所述将待检测音频划分为第一预设数量个音频段的步骤。

为达到上述目的，本发明实施例还公开了一种音频检测装置，包括：

划分模块，用于将待检测音频划分为第一预设数量个音频段；

获取模块，用于获取每个音频段的声音幅度及声音频率；

构建模块，用于根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合；

计算模块，用于计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度；

确定模块，用于当计算得到的相似度的平均值大于第一预设阈值时，将所述音频样本的属性确定为所述待检测音频的属性。

可选的，所述划分模块，具体可以用于：

将待检测音频平均划分为第一预设数量个音频段。

可选的，所述构建模块，可以包括：

划分子模块，用于将目标音频段平均划分为N个音频帧，将每个音频帧平均划分为M个音频单元，其中，所述目标音频段为所述待检测音频的任一音频段；

获得子模块，用于根据所述目标音频段的声音幅度及声音频率，获得各个音频帧的每一音频单元的声音幅度和声音频率；

排列子模块，用于根据音频帧的划分顺序，以列为单位，按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的值，进而生成所述目标音频段对应的信息集合。

可选的，所述排列子模块，具体可以用于：

根据音频帧的划分顺序，以列为单位，按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的处理值，进而生成所述目标音频段对应的信息集合。

可选的，所述装置还可以包括：

计算判断模块，用于计算所述待检测音频的信噪比，判断所述信噪比是否大于第二预设阈值；如果是，触发划分模块。

应用本发明实施例，将待检测音频划分为第一预设数量个音频段，采取相同的方式获取每个音频段及音频样本对应的信息集合，计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度，当计算得到的相似度的平均值大于第一预设阈值时，将该音频样本的属性确定为该待检测音频的属性。这样可以仅在待检测音频的属性为需要关注的音频属性时，向监控方发送该音频或提示信息，降低了资源占用率，提高了监控的有效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频检测方法的流程示意图；

图2为本发明实施例中每一音频段对应的矩形示意图；

图3为本发明实施例中提供的扫描方式示意图；

图4为本发明实施例提供的一种音频检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术问题，本发明实施例提供了一种音频检测方法及装置，可以应用于网络摄像机，也可以应用于手机、平板电脑、个人计算机、服务器等其他设备。上述网络摄像机可以安装有声音采集装置。下面首先对本发明实施例提供的一种音频检测方法进行详细说明。

图1为本发明实施例提供的一种音频检测方法的流程示意图，包括：

S101：将待检测音频划分为第一预设数量个音频段。

上述待检测音频可以为对婴儿进行监控的过程中采集到的音频，当然，也可以是其他监控应用中采集到的音频，本申请并不对此进行限定。

为了更准确地对待检测音频进行分析，或者说，为了更准确地对待检测音频进行特征匹配，可以将待检测音频划分成不同的音频段。

另外，音频是由音频帧构成的，所以对待检测音频进行划分后得到的各个音频段可以包含至少一个音频帧。

作为本发明的一种实施方式，可以将待检测音频平均划分为第一预设数量个音频段。可以理解的是，平均划分是最简单的划分方案，当然，也可以采用其他方式划分，得到第一预设数量个音频数据长度不等的音频段，本申请并不对此进行限定。

S102：获取每个音频段的声音幅度及声音频率。

对于音频来说，声音幅度及声音频率是两个基本的属性，具体的，获取声音幅度时，可以解析待检测音频，从解析结果中用于表示声音幅度的标记位中获得待检测音频的声音幅度；获取声音频率时，由于声音频率属于频域信息，因此，可以通过傅里叶变换将待检测音频的时域信息转换为频域信息，然后根据转化后的频域信息得到待检测音频的声音频率。当然也可以利用现有的音频处理工具获得待检测音频的声音幅度及声音频率。

由前面的描述可以得知，音频是由音频帧构成的，音频段又至少包含一个音频帧，所以获得每个音频段的声音幅度和声音频率时，可以以音频帧为单位获得。而对于一个音频帧而言，一个音频帧的不同部分所对应的声音幅度和声音频率可能是不同的，所以可以进一步将音频帧划分为一个或者多个音频单元。音频单元可以理解为最小音频单位，一个音频帧由一个或多个音频单元构成，就像一段直线或曲线由多个点构成。这样获得各个音频段的声音幅度和声音频率时，可以以音频单元为单位获得，也就是说，一个音频段的声音幅度和声音频率是由一个或多个音频单元的声音幅度及声音频率构成的。

S103：根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合。

由上可知，一个音频段中包含一个或多个音频单元，在本发明实施例中，针对一个音频段包含多个音频单元的情况进行说明。一个音频段的声音幅度包含多个音频单元的声音幅度，一个音频段的声音频率包含多个音频单元的声音频率。

假设上述音频单元的声音幅度为一个数值，音频单元的声音频率为一个数值，那么，一个音频段的声音幅度包含多个数值，一个音频段的声音频率也包含多个数值。作为本发明的一种实施方式，每个音频段对应的信息集合中存储的可以是该音频段的声音幅度包含的多个数值(或者为对该多个数值进行处理后的值)，而该多个数值在该信息集合中的存储顺序可以根据该多个数值对应的音频单元的声音频率确定。

在本发明所示实施例中，可以通过以下方式构建每个音频段对应的信息集合：

如上所述，可以获得每一音频单元的声音幅度及声音频率。

在本发明所示实施例中，音频段对应的信息集合可以以矩阵形式表示，当然也可以以其他形式表示，为了方便理解，将矩阵展现为一个矩形，下面结合图2进行说明：

首先，将每一音频段平均划分为N个音频帧，将每个音频帧平均划分为M个音频单元，获得每个音频单元的声音幅度和声音频率。

图2所示的整个大矩形表示一个矩阵形式的信息集合，也就是一个音频段对应的信息集合。该大矩形被划分为M*N个小矩形，每个小矩形对应一个音频单元，每个小矩形中存储的是一个音频单元的声音幅度对应的值Sqi(k)，其中，i为大矩形的每一列的列标，k为大矩形的每一行的行标，q为音频段的段标，因为该大矩形针对一个音频段，所以q为一定值。

大矩形的每一列小矩形对应一个音频帧，也就是说，一列小矩形对应的音频单元属于一个音频帧，因此，该矩形包含N列小矩形(i＝1……i＝N)，一列中包括M个小矩形(k＝1……k＝M)。

在每个音频帧对应的一列小矩形中，按照各个音频单元的声音频率由高到低的顺序排列各个音频单元对应的小矩形。也就是说，在一列小矩形中，上面的小矩形对应的音频单元的声音频率比下面的小矩形对应的音频单元的声音频率要高。

举例来说，假设M＝4，第一个音频帧包括的4个音频单元的声音频率分别为：1000Hz、800Hz、1500Hz、900Hz，第一个音频帧对应图2中大矩形的最左侧的一列。按照声音频率由高到低的顺序排列各个音频单元对应的小矩形，1500Hz声音频率最高，因此，声音频率为1500Hz的音频单元对应的小矩形为图2中存储有Sq1(M)的小矩形(最左上角的小矩形)，声音频率为1000Hz的音频单元对应的小矩形为图2中存储有Sq1(3)的小矩形，声音频率为900Hz的音频单元对应的小矩形为图2中存储有Sq1(2)的小矩形，声音频率为800Hz的音频单元对应的小矩形为图2中存储有Sq1(1)的小矩形。

当然也可以按照相反的顺序，下面的小矩形对应的音频单元的声音频率比上面的小矩形对应的音频单元的声音频率高，总之，按照声音频率由高到低的顺序对各个音频单元对应的小矩形进行排列。本实施例中仅针对第一种顺序进行说明。

每个小矩形中存储其对应的音频单元的声音幅度对应的值Sqi(k)，该声音幅度对应的值可以为声音幅度本身的数值，也可以将各个音频单元的声音幅度进行二值归一化处理，得到各个音频单元的声音幅度对应的处理值，将声音幅度对应的处理值存储到该声音幅度对应的小矩形中。

具体的，二值归一化的处理过程可以为：

当音频单元的声音幅度大于该音频单元所在的音频段中的M*N个音频单元的声音幅度的平均值时，确定所述音频单元的声音幅度对应的处理值为第一预设值；

当音频单元的声音幅度小于该音频单元所在的音频段中的M*N个音频单元的声音幅度的平均值时，确定所述音频单元的声音幅度对应的处理值为第二预设值。

举例来说，假设第一预设值为1，第二预设值为-1，也就是说每个图2的每个小矩形中存储的值为1或-1。

按照预设的扫描顺序，比如图3中的扫描顺序，扫描每个小矩形，扫描的过程即为读取小矩形中存储的值的过程。经过扫描之后，得到的数据为音频段对应的信息集合，假设得到的该音频段对应的信息集合为{1，1，-1，-1，-1，1，}。

S104：计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度。

可以预先获得各种属性的音频样本，比如哭声音频样本，笑声音频样本等等。需要说明的是，在本发明所示实施例中，该音频样本的时长与上述待检测音频的音频段的时长相等，并且，获得音频样本对应的信息集合的方式与上述获得各音频段对应的信息集合的方式相同，在此不做赘述。

通过下式，计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度：

如上所述，i为图2中大矩形的每一列的列标，k为图2中大矩形的每一行的行标，q为音频段的段标，因为该式针对一个音频段，所以q为一定值；Sqi(k)为音频段对应的信息集合中的每个值，也就是上述例子中的1或-1；Tdi(k)为音频样本对应的信息集合中的每个值，因为音频样本对应的信息集合的获得方式与各音频段对应的信息集合的获得方式相同，因此Tdi(k)也为1或-1；⊙表示同或操作，即两个数值相等时，同或操作后的值为1，不相等时，同或操作后的值为0。

假设预先存储了哭声音频样本和笑声音频样本。获得的哭声音频样本对应的信息集合为{1，1，-1，1，-1，1，}，获得的笑声音频样本对应的信息集合为{1，-1，1，-1，1，-1，}，计算哭声音频样本对应的信息集合与上述音频段对应的信息集合{1，1，-1，-1，-1，1，}的相似度＝5/6；计算笑声音频样本对应的信息集合与上述音频段对应的信息集合的相似度＝2/6。

S105：当计算得到的相似度的平均值大于第一预设阈值时，将所述音频样本的属性确定为所述待检测音频的属性。

以上述方式，分别计算待检测音频划分的每个音频段对应的信息集合与哭声音频样本对应的信息集合的相似度，然后计算每个相似度的平均值。如果该平均值大于第一预设阈值，则该待检测音频的属性为哭声。

以上述方式，分别计算待检测音频划分的每个音频段对应的信息集合与笑声音频样本对应的信息集合的相似度，然后计算每个相似度的平均值。如果该平均值大于第一预设阈值，则该待检测音频的属性为笑声。

假设将待检测音频划分为Q个音频段，则可以通过下式计算待检测音频划分的每个音频段对应的信息集合与音频样本对应的信息集合的相似度的平均值：

如上所述，i为图2中大矩形的每一列的列标，k为图2中大矩形的每一行的行标，q为音频段的段标，Sqi(k)为音频段对应的信息集合中的每个值，也就是上述例子中的1或-1；Tdi(k)为音频样本对应的信息集合中的每个值，因为音频样本对应的信息集合的获得方式与各音频段对应的信息集合的获得方式相同，因此Tdi(k)也为1或-1；⊙表示同或操作，即两个数值相等时，同或操作后的值为1，不相等时，同或操作后的值为0。

需要说明的是，以上述属性为哭声的哭声音频样本、及属性为笑声的笑声音频样本为例进行说明，仅为本发明的一种实施方式，还可以预先获得其他属性的音频样本，在此不做限定。

在利用音频进行监控时，可以仅在检测到该音频的属性为需要关注的音频属性的情况下，向监控方发送该音频或提示信息。比如，上述待检测音频为对婴儿进行监控的过程中采集到的音频，上述音频样本为婴儿哭声的样本，将采集到的音频与该音频样本进行相似度计算，当得到的相似度大于预设阈值时，将采集到的该音频的属性确定为婴儿哭声。这种情况下，需要提示监控方婴儿哭了，可以将该音频发送给监控方，或者向监控方发送提示婴儿哭了的信息。如果上述计算得到的相似度不大于预设阈值，表示婴儿没哭，则不需要向监控方发送任何数据，不占用网络资源，而且不需要监控方的持续关注，仅在婴儿哭了的情况下才需要监控方关注并进行后续处理，也就是说，应用本方案，不影响监控方同时进行其他工作，用户体验更佳。

在本发明所示实施例中，在执行S101之前，还可以先计算待检测音频的信噪比，判断所述信噪比是否大于第二预设阈值，仅在判断结果为是的情况下，执行S101。

如果待检测音频的信噪比太小，说明该待检测音频中的噪声较大，有效信息较少，这种情况下进行检测，检测结果可能不准确，此时，可以提示相关人员重新采集音频。仅在待检测音频的信噪比大于预设阈值的情况下，对该待检测音频进行检测，提高检测的准确性。

应用本发明图1所示实施例，将待检测音频划分为第一预设数量个音频段，采取相同的方式获取每个音频段及音频样本对应的信息集合，计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度，当计算得到的相似度的平均值大于第一预设阈值时，将该音频样本的属性确定为该待检测音频的属性。这样可以仅在待检测音频的属性为需要关注的音频属性时，向监控方发送该音频或提示信息，降低了资源占用率，提高了监控的有效性。

与上述的方法实施例相对应，本发明实施例还提供一种音频检测装置。

图4为本发明实施例提供的一种音频检测装置的结构示意图，包括：

划分模块201，用于将待检测音频划分为第一预设数量个音频段；

获取模块202，用于获取每个音频段的声音幅度及声音频率；

构建模块203，用于根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合；

计算模块204，用于计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度；

确定模块205，用于当计算得到的相似度的平均值大于第一预设阈值时，将所述音频样本的属性确定为所述待检测音频的属性。

在本发明所示实施例中，划分模块201，具体可以用于：

将待检测音频平均划分为第一预设数量个音频段。

在本发明所示实施例中，构建模块203，可以包括：划分子模块、获得子模块和排列子模块(图中未示出)，其中，

在本发明所示实施例中，所述排列子模块，具体可以用于：

在本发明所示实施例中，还可以包括：

计算判断模块(图中未示出)，用于计算所述待检测音频的信噪比，判断所述信噪比是否大于第二预设阈值；如果是，触发划分模块201。

应用本发明图4所示实施例，将待检测音频划分为第一预设数量个音频段，采取相同的方式获取每个音频段及音频样本对应的信息集合，计算每个音频段对应的信息集合与音频样本对应的信息集合的相似度，当计算得到的相似度的平均值大于第一预设阈值时，将该音频样本的属性确定为该待检测音频的属性。这样可以仅在待检测音频的属性为需要关注的音频属性时，向监控方发送该音频或提示信息，降低了资源占用率，提高了监控的有效性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种音频检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待检测音频划分为第一预设数量个音频段，包括：

将待检测音频平均划分为第一预设数量个音频段。

3.根据权利要求2所述的方法，其特征在于，所述根据每个音频段的声音幅度及声音频率，构建每个音频段对应的信息集合，包括：

通过以下方式构建每个音频段对应的信息集合：

4.根据权利要求3所述的方法，其特征在于，所述按照每一音频帧中各个音频单元的声音频率由高到低的顺序排列各个音频单元的声音幅度对应的值，包括：

5.根据权利要求1所述的方法，其特征在于，在所述将待检测音频划分为第一预设数量个音频段之前，还包括：

6.一种音频检测装置，其特征在于，包括：

获取模块，用于获取每个音频段的声音幅度及声音频率；

7.根据权利要求6所述的装置，其特征在于，所述划分模块，具体用于：

将待检测音频平均划分为第一预设数量个音频段。

8.根据权利要求7所述的装置，其特征在于，所述构建模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述排列子模块，具体用于：将各个音频单元的声音幅度进行二值归一化处理，得到各个音频单元的声音幅度对应的处理值；

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：