CN117373488B

CN117373488B - 一种音频实时场景识别系统

Info

Publication number: CN117373488B
Application number: CN202311681405.1A
Authority: CN
Inventors: 陈国强
Original assignee: Fudi Technology Nanjing Co ltd
Current assignee: Fudi Technology Nanjing Co ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-02-13
Anticipated expiration: 2043-12-08
Also published as: CN117373488A

Abstract

本发明公开了一种音频实时场景识别系统，涉及音频识别技术领域，包括：音频特征信息提取单元，音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取，并整合获得音频特征信息数据集U；特征信息分析单元，计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px；特征信息选取单元，基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X。音频场景识别模型，将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。本发明基于有效系数评估各音频特征信息的代表性和有效性，消除无效音频特征信息或冗余音频特征信息，降低音频场景识别计算复杂性，提高识别的准确性。

Description

一种音频实时场景识别系统

技术领域

本发明涉及音频识别技术领域，具体为一种音频实时场景识别系统。

背景技术

音频场景识别广泛应用于设备的环境感知，音频场景识别作为场景识别中的一个研究方向，音频场景识别通过分析音频来提取其所处的环境信息，音频包含与场景相关的丰富信息，使基于音频的场景识别成为可能，音频场景识别是一种通过提取场景音频信号的特征自动确定设备周围场景的过程，可以使各种便携式设备更加智能，一些电子产品可以根据周围不同的场景而自动的调节各种情景模式。

如申请公布号为：CN113793622A，申请公布日为2021.12.14，名称为《一种音频场景识别方法、系统及装置》，其通过残差网络结构的神经网络在大量数据进行训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，以及极大地提升对短时音频的识别性能，但是公知的，音频场景识别的主要任务是从音频样本中提取特征信息，依据模式匹配算法识别音频样本，只有在特征信息中包含了足够多的类别信息，才能通过分类器实现正确分类，而特征参数中是否包含有足够的类别信息却很难确定，通常在实际应用中，特征信息是否有效往往是未知的，所以会通过提取大量特征以更好地表示目标模式，但是并不是所有的特征都是有效的，其中存在很多冗余特征、无关特征，这些特征不但会增加音频场景识别计算复杂性，还会降低音频场景识别准确性。

发明内容

本发明的目的是提供一种音频实时场景识别系统，以解决现有技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：一种音频实时场景识别系统，包括：

音频特征信息提取单元，所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取，并整合获得音频特征信息数据集U；

特征信息分析单元，计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px；

特征信息选取单元，基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X；

音频场景识别模型，将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。

作为上述技术方案的进一步描述：所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为，

通过机器学习模型对音频文件中的音频特征信息X进行识别提取；

对应提取各音频特征信息X对应的属性信息，其中，属性信息包括时长信息T，频次信息F；

将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U，其中，U∈{X1（T1、F1），X2（T2、F2），X3（T3、F3），...，Xn（Tn、Fn）}；

对音频特征信息数据集U进行标签分类整合获得多个标签数据集：R1、R2、R3...Rm。

作为上述技术方案的进一步描述：计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算。

作为上述技术方案的进一步描述：基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数；

基于有效评估系数对应联立各音频特征信息X对应的时长信息T计算各音频特征信息X的有效系数Px。

作为上述技术方案的进一步描述：各音频特征信息X的有效评估系数Kn的计算公式为：

。

作为上述技术方案的进一步描述：各音频特征信息X的有效系数Px的计算公式为：

。

作为上述技术方案的进一步描述：基于获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为：

基于各标签数据集中音频特征信息X数量计算各标签数据集百分比权重系数Wm；

根据音频特征信息X预设选取数量Sy联立各标签数据集百分比权重系数计算各标签数据集中音频特征信息X选取数量Sm；

基于有效系数Px对各标签数据集进行顺序排序，然后根据对应各标签数据集中音频特征信息X选取数量Sm，顺序调取对应数量的音频特征信息X。

作为上述技术方案的进一步描述：各标签数据集百分比权重系数Wm计算方式为：

统计各标签数据集Rm中音频特征信息X的数量Sr；

统计音频特征信息数据集U中音频特征信息X的数量Su；

通过公式，计算各标签数据集百分比权重系数Wm。

作为上述技术方案的进一步描述：各标签数据集中音频特征信息X的选取数量Sm计算方式为：

通过公式进行计算，并对计算的值进行取整。

作为上述技术方案的进一步描述：

基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。

在上述技术方案中，本发明提供的一种音频实时场景识别系统，具备以下有益效果：

该音频实时场景识别系统通过对音频文件中包含的音频也在信息X对应的时长信息T以及频次信息F进行调取，并将时长信息T以及频次信息F进行联立计算各个音频特征信息X的有效系数Px，然后基于有效系数Px评估各音频特征信息X的代表性和有效性，从而可以消除无效音频特征信息或冗余音频特征信息，降低音频场景识别计算复杂性，提高音频场景识别准确性，并将音频特征数据信息数据集U分类成多个标签数据集，同时通过对每个标签数据集中各音频特征信息X的有效系数Px独立计算并进行排序，然后基于各个标签数据集中音频特征信息X的数量计算其在音频特征信息数据集U中的百分比权重系数Wm，再通过各个标签数据集的百分比权重系数Wm计算各个标签数据集中选取的音频特征信息X的数量，然后对应在每个标签数据集中选取对应数量的音频特征信息X，确保选取的音频特征信息X包含足够多的类别信息，进一步提高对音频场景的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频实时场景识别系统的结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

请参阅图1，本发明实施例提供一种技术方案：一种音频实时场景识别系统，包括：

音频特征信息提取单元，所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取，并整合获得音频特征信息数据集U；音频特征信息数据集U为原始特征集，显然的其中存在很多冗余特征信息、无关特征信息，这些特征信息不但会增加对音频场景识别计算复杂性，同时会影响后续对音频场景识别的准确性；

所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为：

通过机器学习模型对音频文件中的音频特征信息X进行识别提取，其中音频特征信息为音频文件中的音频事件，如风声、动物叫声、脚步声，鸣笛声等；

对应提取各音频特征信息X对应的属性信息，其中，属性信息包括时长信息T，频次信息F，时长信息T是音频特性信息X在音频文件中出现的时长信息，时长信息T的单位为秒，频次信息F为是音频特性信息X在音频文件中出现的次数信息；

将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U，其中，U∈{X1（T1、F1），X2（T2、F2），X3（T3、F3），...，Xn（Tn、Fn）}；Xn表示第n种音频特征信息，Tn为音频特征信息Xn对应的时长信息，Tn≥1，Fn为音频频特征信息Xn出现的次数信息，Fn≥1；

对音频特征信息数据集U进行标签分类整合获得多个标签数据集：R1、R2、R3...Rm。将音频特征信息数据集U中的各音频特征信息X进行分类，具体分为五类，动物音频标签数据集，自然音频标签数据集，人类非语音音频标签数据集，室内音频标签数据集以及室内标签数据集；然后将音频特征信息数据集U中各音频特征信息X基于标签属性分类整合至这个五类标签数据集中。

特征信息分析单元，计算获取的音频特征信息数据集U中各音频特征信息X的有效系数Px；其中，有效系数Px用于评价对音频特征信息X的代表性和有效性，即有效系数Px数值越大代表对应的音频特征信息X的有效性和代表性越强，

计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算，对每个标签数据集进行分布独立计算，独立确定每个标签数据集中各个音频特征信息X的有效系数Px并进行评估，从而使得后续选取的音频特征信息X具有足够多的标签类别信息。

计算各音频特征信息X的有效系数Px具体为：

基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数；

各音频特征信息X的有效评估系数的计算公式为：

。

各音频特征信息X的有效系数Px的计算公式为：

。

在一个音频文件中，其包含的音频特征信息X的时长信息T越大以及频次信息F越多其代表性越强，即可以评估该音频特征信息X不是音频场景中随机发生的音频事件，也即不是无效音频特征信息或冗余音频特征信息，通过对音频文件中包含的音频也在信息X对应的时长信息T以及频次信息F进行调取，并将时长信息T以及频次信息F进行联立计算各个音频特征信息X的有效系数Px，然后基于有效系数Px评估各音频特征信息X的代表性和有效性，从而可以消除无效音频特征信息或冗余音频特征信息，降低音频场景识别计算复杂性，提高音频场景识别准确性。

特征信息选取单元，基于计算获取的各个音频特征信息的有效系数Px选取预设数量Sy的音频特征信息X。预设数量Sy为音频场景识别模型在进行音频场景识别导入的音频特征信息最优数量，其可以通过实验获得一个数量区间端，预设数量Sy取数量区间端的中间值，基于获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为：

基于各标签数据集中音频特征信息X数量计算各标签数据集百分比权重系数Wm；通过计算各个标签数据集百分比权重系数Wm来评估各个标签数据集在调取音频特征信息的数量，各标签数据集百分比权重系数Wm计算方式为：

统计各标签数据集Rm中音频特征信息X的数量Sr；

统计音频特征信息数据集U中音频特征信息X的数量Su；

通过公式，计算各标签数据集百分比权重系数Wm，

各标签数据集中音频特征信息X的选取数量Sm计算方式为：

通过公式进行计算，并对计算的值进行取整。

基于有效系数Px对各标签数据集进行顺序排序，然后根据对应各标签数据集中音频特征信息X选取数量Sm，顺序调取对应数量的音频特征信息X，基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。

在此需要说明的是，将采集的音频特征信息X直接计算有效系数Px，然后直接通过有效系数Px评估选取音频特征信息X进行选取，或导致一些标签类别的信息被忽略，从而影响采集的音频特征信息X的类别的全面性，最终影响音频场景的识别的准确性。通过将音频特征数据信息数据集U分类成多个标签数据集，同时通过对每个标签数据集中各音频特征信息X的有效系数Px独立计算并进行排序，然后基于各个标签数据集中音频特征信息X的数量计算其在音频特征信息数据集U中的百分比权重系数Wm，再通过各个标签数据集的百分比权重系数Wm计算各个标签数据集中选取的音频特征信息X的数量，然后对应在每个标签数据集中选取对应数量的音频特征信息X，确保选取的音频特征信息X包含足够多的类别信息，进一步提高对音频场景的准确性。

音频场景识别模型，将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景。其中，音频场景识别模型采用随机森林模型，随机森林模型是一种集成学习模型，它由多个决策树组成，每个决策树都是独立训练的，最终的预测结果是由多个决策树的结果投票决定，随机森林模型为现有技术，不在赘述。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频实时场景识别系统，其特征在于，包括：

音频特征信息提取单元，所述音频特征信息提取单元用于对音频文件中包含的音频特征信息进行提取，并整合获得音频特征信息数据集U，音频特征信息为音频文件中的音频事件；

音频场景识别模型，将选取的音频特征信息X导入音频场景识别模型中进行识别以确定音频文件对应的音频场景；

所述音频特征信息提取单元对音频文件中包含的音频特征信息进行提取具体为，

将获取的各音频特征信息X和对应属性信息件整合获得音频特征信息数据集U，其中，U∈{X1(T1、F1)，X2(T2、F2)，X3(T3、F3)，...，Xn(Tn、Fn)}，其中，Xn表示第n种音频特征信息，Tn为音频特征信息Xn对应的时长信息，Fn为音频频特征信息Xn出现的次数信息；

对音频特征信息数据集U进行标签分类整合获得多个标签数据集：R1、R2、R3...Rm；

计算各音频特征信息X的有效系数具体为：

基于各音频特征信息X的频次信息F计算各音频特征信息X的有效评估系数Kn；

基于有效评估系数Kn对应联立各音频特征信息X对应的时长信息T计算各音频特征信息X的有效系数Px；

各音频特征信息X的有效评估系数Kn的计算公式为：

各音频特征信息X的有效系数Px的计算公式为：

2.根据权利要求1所述的一种音频实时场景识别系统，其特征在于，计算各音频特征信息X的有效系数时对每个标签数据集中的各音频特征信息X进行独立计算。

3.根据权利要求1所述的一种音频实时场景识别系统，其特征在于，计算获取的各个音频特征信息的有效系数选取预设数量的音频特征信息具体为：

4.根据权利要求3所述的一种音频实时场景识别系统，其特征在于，各标签数据集百分比权重系数Wm计算方式为：

统计各标签数据集Rm中音频特征信息X的数量Sr；

统计音频特征信息数据集U中音频特征信息X的数量Su；

通过公式计算各标签数据集百分比权重系数Wm。

5.根据权利要求4所述的一种音频实时场景识别系统，其特征在于，各标签数据集中音频特征信息X的选取数量Sm计算方式为：

通过公式Sm＝Wm*Sr进行计算，并对计算的值进行取整。

6.根据权利要求1所述的一种音频实时场景识别系统，其特征在于，基于有效系数Px对各标签数据集进行顺序排序具体为根据有效系数Px的数值由大到小顺序对各标签数据集中音频特征信息X进行排序。