CN110136696A

CN110136696A - 音频数据的监控处理方法和系统

Info

Publication number: CN110136696A
Application number: CN201910430646.6A
Authority: CN
Inventors: 程荣; 赵友林
Original assignee: Shanghai Acoustic Information Technology Co Ltd
Current assignee: Shanghai Acoustic Information Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-16
Anticipated expiration: 2039-05-22
Also published as: CN110136696B

Abstract

本发明实施例公开了一种音频数据的监控处理方法和系统，该音频数据的监控处理方法包括：获取多个音频样本文件；对多个音频样本文件进行预处理，并获取多个音频样本文件的标注信息；根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵；根据多个MFCC特征矩阵和场景信息采用tensorflow框架进行训练得到音频场景识别预测模型；获取监控音频数据，并使用音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息。本发明无需借助音频转文字而是可以对监控音频本身进行识别判断说话人所处的场景(例如色情场景/普通场景/音乐场景)，做出场景预测，预警所监控环境下的异常行为。

Description

音频数据的监控处理方法和系统

技术领域

本发明实施例涉及音频处理技术领域，具体涉及一种音频数据的监控处理方法和系统。

背景技术

现有的音频监控技术，主要通过录入音频并存储，然后将音频转化为文字，再对文字进行识别从而实现音频监控。这种方式不是对音频本身进行识别，更不能达到实时预警。

发明内容

为此，本发明实施例提供一种音频数据的监控处理方法和系统，以解决现有技术中无法对音频本身进行识别，无法实时进行音频监控的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

本发明第一方面的实施例公开了一种音频数据的监控处理方法，包括：获取多个音频样本文件；对所述多个音频样本文件进行预处理，并获取所述多个音频样本文件的标注信息，所述标注信息包括对应所述多个音频样本文件的多个场景信息；根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵；根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型；获取监控音频数据，并使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。

进一步地，根据所述多个MFCC特征矩阵和所述多个场景信息采用所述预设框架进行训练得到所述音频场景识别预测模型，包括：将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集；根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型；通过所述验证集验证所述第一识别预设模型是否符合预设标准；如果所述第一识别预设模型不符合所述预设标准，则调整所述预设训练参数重新训练模型；如果所述第一识别预设模型符合所述预设标准，则将所述第一识别预设模型作为所述音频场景识别预测模型。

进一步地，还包括：根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型；当所述监控音频数据的场景信息满足预设敏感场景规则时，使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息；其中，所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息。

进一步地，所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。

进一步地，所述预处理包括降噪、滤波、声道转换和类型转换中的至少一种。

本发明第二方面的实施例公开了一种音频数据的监控处理系统，包括：获取模块，用于获取多个音频样本文件和监控音频数据，并获取所述多个音频样本文件的标注信息，其中，所述标注信息包括对应所述多个音频样本文件的多个场景信息；预处理模块，用于对多个音频样本文件进行预处理；特征矩阵生成模块，用于根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵；模型训练模块，用于根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型；控制模块，用于使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。

进一步地，所述模型训练模块用于将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集，并根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型，再通过所述验证集验证所述第一识别预设模型是否符合预设标准，如果所述第一识别预设模型不符合所述预设标准，则调整所述预设训练参数重新训练模型；如果所述第一识别预设模型符合所述预设标准，则将所述第一识别预设模型作为所述音频场景识别预测模型。

进一步地，所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息；所述模型训练模块还用于根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型；所述控制模块还用于当所述监控音频数据的场景信息满足预设敏感场景规则时，使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息。

进一步地，所述预处理包括降噪、滤波、类型转换和声道转换中的至少一种。

本发明第三方面的实施例公开了一种计算机存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种执行如上述的音频数据的监控处理方法。

本发明具有如下优点：

无需借助音频转文字而是可以对监控音频本身进行识别，判断说话人所处的场景(色情场景，普通场景，音乐场景)做出场景预测，预警所监控环境下的异常行为。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例的音频数据的监控处理方法的流程图；

图2为本发明实施例的音频数据的监控处理系统的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，术语“多个”表示三个和三个以上。

图1为本发明实施例的音频数据的监控处理方法的流程图。如图1所示，本发明实施例的音频数据的监控处理方法，包括：

S1：获取多个音频样本文件。

具体地，通过网络和存储终端获取多个音频样本文件。

在本发明的一个示例中，可以从多个指定音频监控装置的存储设备中获取该多个音频样本文件，这样对以后的音频分析更具有针对性。当然也可以不获取音频监控文件作为音频样本文件，根据用户需求而定。

S2：对多个音频样本文件进行预处理，并获取多个音频样本文件的标注信息。其中，标注信息包括对应多个音频样本文件的多个场景信息。

在本发明的一个实施例中，预处理包括降噪、滤波和声道转换中的至少一种，优选预处理包括降噪、滤波和声道转换。此外，预处理还可以包括对音频样本文件的采样率和码率进行规范，以实现多个音频样本文件的物理属性统一。

在本发明一个实施例中，获取多个音频样本文件的标注信息的方式包括：对多个音频样本文件进行人工标注，以标准每个音频样本文件的场景信息，例如“音乐场景”，“聊天场景”等。

S3：根据预处理后的多个音频样本文件得到多个MFCC特征矩阵。

具体地，提取预处理后的多个音频样本文件的MFCC特征矩阵。

此外，还可以提取预处理后的多个音频样本文件的相关业务数据，以在提取MFCC特征矩阵的过程中，需要对业务音频数据进行分析，比较，验证，以确定最佳的提取参数(例如：带通的频率范围，mfcc返回矩阵个数等)。其中，上述相关业务数据包括音频的来源、音频采集的时间和采集的方式等业务数据，这些业务数据会影响到音频特征数据的提取。在本发明的一个示例中，音频的来源可以是来自于手机录音，麦克风录音或者其他方式。不同来源的音频，需要调整不同的提取参数，并反复测试，才能获取最能突出主要特征的音频数据。

此外，还可以提取预处理后的多个音频样本文件自身属性数据以及相关的业务数据。音频自身的属性数据包括音频的格式、时长、采样率等；音频的业务数据包括音频的来源、主要说话人的性别等(如有，则提取)。提取的音频本身属性数据会影响对这个音频的采样策略(例如，对于超过时长5分钟的音频，可能会丢弃最前和最后10秒的音频；对于时长低于30秒的音频数据，可能只丢弃前后1秒的音频)；音频的业务数据会影响音频的预处理策略以及后期的二次处理。例如不同来源的音频(手机录音、电脑内录、麦克风采集)，我们的降噪频率可能不一样(基于前期的处理经验，对不同来源的音频会有最优化的降噪频率)。音频本身的业务数据部分，例如主要说话人的性别，会在后面进行二次处理的时候，作为参数加入到二次处理策略中，影响最终的结果。

S4：根据多个MFCC特征矩阵和场景信息采用预设框架进行训练得到音频场景识别预测模型。在本发明的一个实施例中，预设框架为tensorflow框架。本领域技术人员也可以根据需求选择其他框架。

在本发明的一个实施例中，步骤S4包括：

S4-1：将多个MFCC特征矩阵和多个场景信息分为训练集和验证集。

例如将90％的MFCC特征矩阵和此90％的MFCC特征矩阵对应的场景信息作为训练集，将10％的MFCC特征矩阵和此10％的MFCC特征矩阵对应的场景信息作为验证集。其中，90％仅为一种示例，本领域人员可以根据需求进行调整。

S4-2：根据训练集和预设训练参数生成第一识别预测模型。

具体地，在训练过程中，tensorflow框架本身进行验证和调整。训练过程采用sgd等收敛方法，采用relu等激活函数，采用categorical_crossentropy等损失函数，并采用归一化，dropout，增加隐藏层等防过拟合措施，进行训练，从而得到模型。

具体地，在训练过程中，tensorflow框架本身进行验证和调整。训练的过程如下：

(1)使用python读取样本音频文件，并调用ffmpeg、liborosa等工具包中的相关方法读取音频文件的mfcc特征矩阵以及音频文件的标注信息，并将读取的数据存入到一个数据集中。

(2)对数据集进行打乱操作(即让数据集中的数据随机排列，防止由于数据分布不均匀导致的对结果的不良影响)，并根据训练/验证比这个参数，将数据集分为训练集和验证集。

(3)增加输入层，并定义输入层的数据的维度。

(4)增加若干中间层(包括卷积层，池化层等)，并指定中间层激活函数(中间层一般使用relu等)，指定中间层dropout参数(防止过拟合)。中间层的层数根据需要调整。

(5)增加平化层。

(6)增加全连接层，并在全连接层定义l1，l2等正则项参数，防止过拟合。增加全连接层的激活函数(这里一般使用softmax)。

(7)定义收敛方法以及收敛方法所含参数(收敛方法主要有sgd、rmsprop、Adam等；收敛方法所含参数主要有学习率等)。

(8)定义损失函数(主要有categorical_crossentropy，binary_crossentropy等)。

(9)配置其他次要参数，并按照指定轮次开始训练。训练过程中，tensorflow框架会在每一个轮次用验证集去验证，并记录相关数据。

(10)训练完成，生成模型文件，以及相关中间数据。读取中间数据并评估模型是否符合要求、是否发生过拟合，是否网络设置不当，是否数据集有问题。如果模型不符合的话，修改上述训练过程中的相关参数和网络配置(例如中间层层数)，重新训练。

S4-3：通过验证集验证第一识别预设模型是否符合预设标准，如果第一识别预设模型不符合预设标准，则调整预设训练参数重新训练模型；如果第一识别预设模型符合预设标准，则将第一识别预设模型作为音频场景识别预测模型。

在得到第一识别预设模型后利用测试数据进行测试。如果测试结果符合标准，既可上生产使用，如果不符合要求，则调整相关参数(相关参数既包括上述tensorflow训练过程中的参数，例如学习率、激活函数、训练轮次等，也包括处理样本的降噪频率等)，重新训练，一直到产生符合条件的音频场景预测模型为止。其中，上述测试数据不是验证集的数据，而是在模型产生后，用来测试模型的业务数据。

S5：获取监控音频数据，并使用音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息。

具体地，当得到满足用户需求的音频场景预测模型后，通过音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息，例如分析预测得到监控音频数据为聊天场景、音乐场景或敏感场景。其中，敏感场景可以包括内容不健康的场景。

在本发明的一个实施例中，音频数据的监控处理方法还包括：

步骤A：根据MFCC特征矩阵和多个辅助信息采用tensorflow框架进行训练得到音频辅助识别预测模型。

在本发明的一个实施例中，多个辅助信息包括对应多个音频样本文件的多个生成时间、对应多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应多个音频样本文件的多个情绪信息。

当多个辅助信息包括多个人声性别信息时，通过训练可以得到音频性别识别预设模型，可以对音频中人声的性别进行分析预测。

当多个辅助信息包括多个声纹特征信息，可以通过提取声纹特征对音频中的声纹进行分析预测。

当多个辅助信息包括多个情绪信息时，通过训练可以得到音频情绪识别预设模型，可以对音频中情绪进行分析预测。

步骤B：当监控音频数据的场景信息满足预设敏感场景规则时，使用音频辅助识别预测模型对监控音频数据进行预测得到监控音频数据的辅助识别信息。

具体地，当通过音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息包括内容不健康的敏感场景时，需要进行二次判断，此时使用音频辅助识别预测模型对监控音频数据进行预测得到监控音频数据的辅助识别信息，以进行辅助判断，形成判断结果。

此外，利用已经鉴定的结果，人为进行判断，给出反馈，利用反馈，重新训练并更新模型。

本发明音频数据的监控处理方法，无需借助音频转文字而是可以对监控音频本身进行识别，判断说话人所处的环境(例如色情场景/普通场景/音乐场景)，做出场景预测，预警所监控环境下的异常行为。

图2为本发明实施例的音频数据的监控处理系统的结构框图。如图2所示，本发明实施例的音频数据的监控处理系统，包括：获取模块100、预处理模块200、特征矩阵生成模块300、模型训练模块400和控制模块500。

其中，获取模块100用于获取多个音频样本文件和监控音频数据，并获取多个音频样本文件的标注信息，其中，标注信息包括对应多个音频样本文件的多个场景信息。预处理模块200用于对多个音频样本文件进行预处理。特征矩阵生成模块300用于根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵。模型训练模块400用于根据多个MFCC特征矩阵和场景信息采用预设框架进行训练得到音频场景识别预测模型。控制模块500用于使用音频场景预测模型对监控音频数据进行分析预测得到监控音频数据的场景信息。

在本发明的一个实施例中，模型训练模块400用于将多个MFCC特征矩阵和多个场景信息分为训练集和验证集，并根据训练集和预设训练参数采用tensorflow框架生成第一识别预测模型，再通过验证集验证第一识别预设模型是否符合预设标准，如果第一识别预设模型不符合预设标准，则调整预设训练参数重新训练模型；如果第一识别预设模型符合预设标准，则将第一识别预设模型作为音频场景识别预测模型。

在本发明的一个实施例中，标注信息还包括与多个音频样本文件对应的多个辅助信息。模型训练模块400还用于根据MFCC特征矩阵和多个辅助信息采用tensorflow框架进行训练得到音频辅助识别预测模型。控制模块500还用于当监控音频数据的场景信息满足预设敏感场景规则时，使用音频辅助识别预测模型对监控音频数据进行预测得到监控音频数据的辅助识别信息。

在本发明的一个实施例中，预处理包括降噪、滤波和声道转换中的至少一种。

需要说明的是，本发明实施例的音频数据的监控处理系统的具体实施方式与本发明实施例的音频数据的监控处理方法的具体实施方式类似，具体参见音频数据的监控处理方法部分的描述，为了减少冗余，不做赘述。

本发明音频数据的监控处理系统，无需借助音频转文字而是可以对监控音频本身进行识别，判断说话人所处的环境(例如色情场景/普通场景/音乐场景)，做出场景预测，预警所监控环境下的异常行为。

本发明还公开了一种计算机存储介质，上述计算机存储介质中包含一个或多个程序指令，一个或多个程序指令用于被一种执行如上述的音频数据的监控处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种音频数据的监控处理方法，其特征在于，包括：

获取多个音频样本文件；

对所述多个音频样本文件进行预处理，并获取所述多个音频样本文件的标注信息，所述标注信息包括对应所述多个音频样本文件的多个场景信息；

根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵；

根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型；

获取监控音频数据，并使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。

2.根据权利要求1所述的音频数据的监控处理方法，根据所述多个MFCC特征矩阵和所述多个场景信息采用所述预设框架进行训练得到所述音频场景识别预测模型，包括：

将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集；

根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型；

通过所述验证集验证所述第一识别预设模型是否符合预设标准；

如果所述第一识别预设模型不符合所述预设标准，则调整所述预设训练参数重新训练模型；

如果所述第一识别预设模型符合所述预设标准，则将所述第一识别预设模型作为所述音频场景识别预测模型。

3.根据权利要求1所述的音频数据的监控处理方法，其特征在于，还包括：

根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型；

当所述监控音频数据的场景信息满足预设敏感场景规则时，使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息；

其中，所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息。

4.根据权利要求3所述的音频数据的监控处理方法，所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。

5.根据权利要求1所述的音频数据的监控处理方法，其特征在于，所述预处理包括降噪、滤波、声道转换以及类型转换中的至少一种。

6.一种音频数据的监控处理系统，其特征在于，包括：

获取模块，用于获取多个音频样本文件和监控音频数据，并获取所述多个音频样本文件的标注信息，其中，所述标注信息包括对应所述多个音频样本文件的多个场景信息；

预处理模块，用于对多个音频样本文件进行预处理；

特征矩阵生成模块，用于根据预处理后的多个音频样本文件得到多个梅尔频率倒谱系数MFCC特征矩阵；

模型训练模块，用于根据所述多个MFCC特征矩阵和所述场景信息采用预设框架进行训练得到音频场景识别预测模型；

控制模块，用于使用音频场景预测模型对所述监控音频数据进行分析预测得到所述监控音频数据的场景信息。

7.根据权利要求6所述的音频数据的监控处理系统，其特征在于，所述模型训练模块用于将所述多个MFCC特征矩阵和所述多个场景信息分为训练集和验证集，并根据所述训练集和预设训练参数采用tensorflow框架生成第一识别预测模型，再通过所述验证集验证所述第一识别预设模型是否符合预设标准，如果所述第一识别预设模型不符合所述预设标准，则调整所述预设训练参数重新训练模型；如果所述第一识别预设模型符合所述预设标准，则将所述第一识别预设模型作为所述音频场景识别预测模型。

8.根据权利要求6所述的音频数据的监控处理系统，其特征在于，所述标注信息还包括与所述多个音频样本文件对应的所述多个辅助信息；所述模型训练模块还用于根据所述MFCC特征矩阵和多个辅助信息采用所述tensorflow框架进行训练得到音频辅助识别预测模型；所述控制模块还用于当所述监控音频数据的场景信息满足预设敏感场景规则时，使用所述音频辅助识别预测模型对所述监控音频数据进行预测得到所述监控音频数据的辅助识别信息。

9.根据权利要求8所述的音频数据的监控处理系统，其特征在于，所述多个辅助信息包括对应所述多个音频样本文件的多个生成时间、对应所述多个音频样本文件中多个人声性别信息、多个声纹特征信息和对应所述多个音频样本文件的多个情绪信息。

10.根据权利要求6所述的音频数据的监控处理系统，其特征在于，所述预处理包括降噪、滤波、类型转换和声道转换中的至少一种。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于被一种执行如权利要求1-5任一项所述的音频数据的监控处理方法。