CN114740751A

CN114740751A - 基于人工智能的音乐场景识别方法及系统

Info

Publication number: CN114740751A
Application number: CN202210671271.4A
Authority: CN
Inventors: 吕东东
Original assignee: New Muse Shenzhen Music Technology Industry Development Co ltd
Current assignee: New Muse Shenzhen Music Technology Industry Development Co ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-07-12
Anticipated expiration: 2042-06-15
Also published as: CN114740751B

Abstract

本发明提供一种基于人工智能的音乐场景识别方法及系统，通过获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息，然后再对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，最后根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。如此，可以根据被控音乐组件的当前环境监控信息对被控音乐组件当前所在环境的音乐场景进行识别，最后根据识别结果对被控音乐组件进行控制，如此使得音乐组件打造的音乐氛围可以更匹配当前环境，提升用户的感受。

Description

基于人工智能的音乐场景识别方法及系统

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种基于人工智能的音乐场景识别方法及系统。

背景技术

随着电子技术的不断发展，智能化的音乐系统在人们的日常家居生活以及商用场景中逐渐的得到普及。例如，在高档酒店、咖啡厅、音乐酒吧、智能家居场景、机场、高铁站、地铁站等可以安装智能化的音乐系统提供舒适的现场感受。

发明人通过研究发现，在上述常见的应用场景中，可以根据设定的规则对现场部署的音乐组件（如可能包括音乐播放设备、相关的声光设备等）进行控制，以为现场提供相应的音乐氛围。然而，针对不同的场景，现场的环境可能随时在发生变化，按照设定的规则而产生的氛围可能不太符合实际的场景。因此，如何根据现场实际环境的变化有效识别出当前环境对应的音乐场景以实现音乐组件的智能控制是本领域需要解决的一大技术问题。

发明内容

鉴于以上内容，本发明实施例提供一种基于人工智能的音乐场景识别方法，应用于音乐场景控制设备，所述音乐场景控制设备与被控音乐组件通信连接，所述方法包括：

获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息，其中，所述环境监控信息包括可视化信息、声音信息、环境温度信息、环境湿度信息、人流量信息中的其中两种或两种以上信息的组合；

对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息；

根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。

优选地，在本发明实施例的一种可替代的实现方式中，所述根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，包括：

采用通过模型训练而得到的音乐场景识别模型对所述两种或两种以上场景特征识别信息进行人工智能识别，得到所述被控音乐组件当前所在环境的音乐场景；

其中，所述音乐场景识别模型通过以下方式进行模型训练得到；

将预先获取的多个环境监控信息样本划分为至少两个样本序列，将其中至少一个样本序列作为样本调整序列；其中，每个所述环境监控信息样本包括至少两种场景特征识别信息，所述环境监控信息样本包括用于指示该环境监控信息样本对应的目标音乐场景的场景标签；

针对所述样本调整序列中的每个环境监控信息样本，获取该环境监控信息样本的场景标签，并获得该场景标签与多个预设场景标签中的每个预设场景标签的关联度，得到关联度低于预设关联度的至少一个目标场景标签；

将所述环境监控信息样本的场景标签更新为任意一个所述目标场景标签，当所述样本调整序列中的每个样本的场景标签更新完成后，将该样本调整序列作为负向标定样本序列，将其它样本序列作为正向标定样本序列，得到训练数据集；

使用所述训练数据集对预设的第一人工智能神经网络进行迭代训练，得到所述音乐场景识别模型。

优选地，在本发明实施例的一种可替代的实现方式中，使用所述训练数据集对预设的第一人工智能神经网络进行迭代训练的每次迭代训练过程，包括：

依次获取一个正向标定样本序列，将所述正向标定样本序列中的每个环境监控信息样本输入所述第一人工智能神经网络进行场景预测；

根据针对所述正向标定样本序列中的每个环境监控信息样本的场景预测结果与该环境监控信息样本对应的场景标签的第一匹配度，获得针对该正向标定样本序列的第一预测代价指标;

依次获取一个负向标定样本序列，将所述负向标定样本序列中的每个环境监控信息样本输入所述第一人工智能神经网络进行场景预测；

根据针对所述负向标定样本序列中的每个环境监控信息样本的场景预测结果与该环境监控信息样本对应的场景标签的第二匹配度，获得针对该负向标定样本序列的第二预测代价指标；

根据所述第一预测代价指标以及所述第二预测代价指标对所述第一人工智能神经网络进行迭代更新；

判断当前迭代训练过程是否满足迭代终止条件，当满足迭代终止条件时，将当前迭代更新后的所述第一人工智能神经网络作为所述音乐场景识别模型；若不满足迭代终止条件，则进入下一迭代训练过程。

优选地，在本发明实施例的一种可替代的实现方式中，所述对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，包括：

采用场景特征识别模型对所述当前环境监控信息进行识别，得到所述两种或两种以上场景特征识别信息；

所述方法还包括对预设的第二人工智能神经网络进行迭代训练而获得所述场景特征识别模型的步骤，所述步骤包括：

获取所述两种或两种以上参考场景特征信息序列，根据所述两种或两种以上参考场景特征信息序列，确定两种或两种以上场景特征样本库；

所述两种或两种以上场景特征样本库中的每种场景特征样本库包括一种相关的场景特征对应的第一参考场景特征信息、第二参考场景特征信息和第三参考场景特征信息；各种场景特征样本库中的第一参考场景特征信息、第二参考场景特征信息和第三参考场景特征信息形成的样本库是根据所述两种或两种以上参考场景特征信息序列而获得；所述两种或两种以上参考场景特征信息序列中的每种参考场景特征信息序列包括一种场景特征对应的第一初始化场景特征信息和第二初始化场景特征信息；其中，所述第一参考场景特征信息和所述第二参考场景特征信息分别携带不同的场景特征标签，所述第三参考场景特征信息为未携带场景特征标签的参考场景特征信息；

根据所述两种或两种以上场景特征样本库，对所述预设的第二人工智能神经网络进行迭代训练，以实现所述初始化场景特征识别AI 模型的迭代更新，得到所述场景特征识别模型。

优选地，在本发明实施例的一种可替代的实现方式中，所述根据所述两种或两种以上参考场景特征信息序列，确定所述两种或两种以上场景特征样本库，包括：

将所述两种或两种以上参考场景特征信息序列中的目标种类的第一初始化场景特征信息，作为目标种类的第一参考场景特征信息，其中，所述目标种类是所述两种或两种以上中的任意一种；

从所述两种或两种以上参考场景特征信息序列的第二初始化场景特征信息中，确定目标种类的第三参考场景特征信息；

从所述两种或两种以上参考场景特征信息序列中，将所述目标种类的第一参考场景特征信息和所述目标种类的第三参考场景特征信息之外的其它场景特征信息，作为目标种类的第二参考场景特征信息；

将所述目标种类的第一参考场景特征信息、所述目标种类的第二参考场景特征信息和所述目标种类的第三参考场景特征信息组合形成所述目标种类的场景特征样本库，以获得所述两种或两种以上场景特征样本库。

优选地，在本发明实施例的一种可替代的实现方式中，所述从所述两种或两种以上参考场景特征信息序列的第二初始化场景特征信息中，确定目标种类的第三参考场景特征信息，包括：

从所述两种或两种以上第二初始化场景特征信息中，将目标种类的第二初始化场景特征信息以外的其它第二初始化场景特征信息作为所述目标种类的第三参考场景特征信息；或者

根据目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度，从所述两种或两种以上第二初始化场景特征信息中，确定所述目标种类的第三参考场景特征信息，具体包括：

若所述两种或两种以上场景特征中的目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度达到预设支持度，则将所述第二初始化场景特征信息中所述目标种类的第二初始化场景特征信息以外的其它第二初始化场景特征信息，确定为所述目标种类的第三参考场景特征信息；

若所述目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度未达到所述预设支持度，则将所述目标种类的场景特征对应的第二初始化场景特征信息作为所述目标种类的第三参考场景特征信息，其他的第二初始化场景特征信息作为所述第二参考场景特征信息。

优选地，在本发明实施例的一种可替代的实现方式中，所述场景特征识别模型包括场景特征卷积层和两种或两种以上场景特征识别层；其中，所述场景特征卷积层用于对所述当前环境监控信息进行卷积运算，以得到所述当前环境监控信息中包括的至少两种场景特征；所述两种或两种以上场景特征识别层中的各种场景特征识别层用于根据所述场景特征卷积层得到的至少两种场景特征进行分类识别，以获得两种或两种以上场景特征识别信息；

所述根据所述两种或两种以上场景特征样本库，对所述预设的第二人工智能神经网络进行迭代训练，以实现所述初始化场景特征识别AI 模型的迭代更新，得到所述场景特征识别模型，包括：

将所述两种或两种以上场景特征样本库中的参考场景特征信息划分为多组参考场景特征信息；

根据所述两种或两种以上场景特征样本库中的x组参考场景特征信息，在当前迭代过程中，对所述第二人工智能神经网络执行x次迭代训练，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络；所述两种或两种以上代价指标分别与所述两种或两种以上场景特征识别层一一对应；

根据所述x次迭代训练得到的两种或两种以上代价指标中的各种代价指标，确定当前迭代过程中的融合代价指标；

根据所述当前迭代过程中的融合代价指标以及迭代训练的次数判断是否达到设定的收敛条件；

当达到设定的收敛条件时，将所述当前迭代过程中迭代训练后的第二人工智能神经网络作为所述场景特征识别模型；

当未达到设定的收敛条件时，执行下一次迭代训练过程，得到下一次迭代训练过程中的融合代价指标和下一次迭代训练过程中迭代训练后的第二人工智能神经网络。

优选地，在本发明实施例的一种可替代的实现方式中，所述根据所述两种或两种以上场景特征样本库中的x组参考场景特征信息，在当前迭代过程中，对所述第二人工智能神经网络执行x次迭代训练，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络，包括：

在当前迭代过程中，根据所述x次迭代训练中而获得第y-1次迭代训练过程得到的第二人工智能神经网络中的场景特征卷积层，获取所述两种或两种以上参考场景特征信息序列中x组参考场景特征信息中的第y组参考场景特征信息的场景特征，得到第y场景特征；其中，y小于或等于x；

根据所述第y-1次迭代训练过程得到的第二人工智能神经网络中的各种场景特征识别层，并根据所述x组参考场景特征信息中与所述第y组参考场景特征信息对应的第y组参考场景特征信息，确定所述第y场景特征的各种代价指标，得到第y次迭代训练对应的代价指标；

根据所述第y次迭代训练对应的代价指标，对所述第y-1次迭代训练过程得到的第二人工智能神经网络的网络参数进行优化，得到第y次优化后的第二人工智能神经网络；

循环执行上述过程，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络，作为所述场景特征识别模型；

其中，所述收敛条件包括：

所述当前迭代过程中的融合代价指标位于预设代价指标范围内；或者

所述迭代训练的循环次数达到预设次数。

优选地，在本发明实施例的一种可替代的实现方式中，所述当前环境监控信息通过集成了摄像头、麦克风阵列、声光感应器、红外人流监控设备的环境特征监控组件对所述被控音乐组件当前所在场景进行环境信息监测而获得，所述当前环境监控信息是包括图像、视频、声音信息、光信息、温湿度数据、现场人流数据的融合场景特征信息。

进一步地，本发明实施例还提供一种基于人工智能的音乐场景识别系统，所述系统包括音乐场景控制设备以及与所述音乐场景控制设备通信连接的被控音乐组件，所述音乐场景控制设备包括处理器和机器可读存储介质，所述机器可读存储介质和所述处理器连接，所述机器可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述机器可读存储介质中的程序、指令或代码，以实现上述的方法。

基于上述内容，本发明实施例提供的基于人工智能的音乐场景识别方法及系统，通过获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息，然后再对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，最后根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。如此，可以根据被控音乐组件的当前环境监控信息对被控音乐组件当前所在环境的音乐场景进行识别，最后根据识别结果对被控音乐组件进行控制，如此使得音乐组件打造的音乐氛围可以更匹配当前环境，提升用户的感受。

进一步地，本发明实施例中，通过特定的训练样本或训练数据集对预设的第一人工智能神经网络以及第二人工智能神经网络进行模型训练得到用于对所述音乐场景进行识别的音乐场景识别模型以及用于对场景特征进行识别的场景特征识别模型，如此可以基于场景特征识别模型精准的识别出复杂的环境监控信息中的不同种类的场景特征，并基于音乐场景识别模型根据识别出的不同种类的场景特征识别出被控音乐组件所在环境的音乐场景，用于对被控音乐组件进行智能控制，可进一步提升被控音乐组件的智能化程度，进一步提升使用效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1是本发明实施例提供的基于人工智能的音乐场景识别系统的应用场景示意图。

图2是图1中的音乐场景控制设备的硬件架构示意图。

图3是本发明实施例提供的基于人工智能的音乐场景识别方法的执行流程示意图。

图4是图3中步骤S130的子步骤流程示意图。

图5是图1中的音乐场景控制设备包括的音乐场景识别装置的功能模块示意图。

具体实施方式

首先，对本发明实施例的应用场景进行介绍。

请参阅图1，图1是本发明实施例提供的一种基于人工智能的音乐场景识别系统的应用场景示意图。详细地，本发明实施例中，所述基于人工智能的音乐场景识别系统1可以是部署在设定应用环境中的智能音乐系统，例如可以是部署在在高档酒店、咖啡厅、音乐酒吧、智能家居场景、机场、高铁站、地铁站等环境中的智能音乐系统。本实施例中，所述音乐场景识别系统可以包括音乐场景控制设备10以及与所述音乐场景控制设备10通信连接的被控音乐组件20和环境监控组件30。

本实施例中，所述音乐场景控制设备10用于基于音乐场景实现对被控音乐组件20的控制。本实施例中，所述音乐场景控制设备10可以是用于对预设场景内的被控音乐组件20进行控制的控制中心，例如，所述音乐场景控制设备10可以是，但不限于，计算机设备、服务器、或嵌入式控制系统等。所述被控音乐组件20例如可以包括，但不限于，音乐播放器、声光氛围元件等。所述环境监控组件30可以是集成了摄像头、麦克风阵列、声光感应器、红外人流监控设备等组件设备的监控系统。

如图2所示是上述的音乐场景控制设备10的架构示意图。本实施例中，所述音乐场景控制设备10可以包括音乐场景识别装置101、机器可读存储介质102和处理器103。

其中，所述机器可读存储介质102与处理器103连接，并可由处理器103访问。所述音乐场景识别装置101可以包括存储在机器可读存储介质的多个功能模块。当处理器执行音乐场景识别装置101中的功能模块时，可以实现音乐场景控制设备10的相关功能，例如用于实现本实施例提供的方法所对应的功能。

本实施例中，所述音乐场景控制设备10可以包括至少一个处理器。在一些实施例中，处理器可以是单核处理器或多核处理器，具体不进行限定。例如，处理器可以是CPU、GPU、PPU、DSP等。

机器可读存储介质可以是一种机器可读存储介质，用于存储数据、代码、和/或指令。机器可读存储介质但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，所述音乐场景控制设备10包括的音乐场景识别装置101可以包括一个或多个软件功能模块。所述软件功能模块可以存储在所述机器可读存储介质中的程序、指令，这些软件功能模块在被对应的处理器执行时，用于实现上述的方法。

图3所示，是本发明实施例提供的基于人工智能的音乐场景识别方法的流程示意图，详细地，所述方法由上述的智能家居控制系统100中的所述音乐场景控制设备110实现。

具体的，在一种可能的实施方式中，所述方法可以包括如图2中所示的S110-S130，下面进行详细介绍。

步骤S110，获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息，其中，所述环境监控信息包括可视化信息、声音信息、环境温度信息、环境湿度信息中的其中两种或两种以上信息的组合。

例如，作为一种示例，本实施例中，所述当前环境监控信息可以是通过集成了摄像头、麦克风阵列、声光感应器、红外人流监控设备等组件设备的环境特征监控组件对所述被控音乐组件当前所在场景进行环境信息监测而获得的环境监控信息，所述环境监控信息可以是包括图像、视频、声音信息、光信息、温湿度数据、现场人流数据等特征信息的融合场景特征信息，也可以叫做多模态场景特征信息。

步骤S120，对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息。

本实施例中，作为一种示例，两种或两种以上场景特征识别信息可以是所述可视化信息、声音信息、环境温度信息、环境湿度信息、人流量信息中的其中至少两种信息分别对应的场景特征识别信息的组合，例如可以是当前环境光亮度特征信息、当前环境声音分贝特征信息、当前环境温度信息、当前环境人流量特征信息而构成。

步骤S130，根据识别得到的上述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。例如，可以获取预先设定的与各种不同音乐场景分别对应的控制规则表项，得到与所述音乐场景对应的控制方式，实现对所述被控音乐组件的控制。例如，所述控制方式可以包括可播放的音乐类型、播放的声音大小、现场的声光调整方式等等，具体可以根据被控音乐组件所在的实际场景而具体进行设定，此处不具体限制。

综上所述，本发明实施例中，首先获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息，然后再对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，最后根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。如此，可以根据被控音乐组件的当前环境监控信息对被控音乐组件当前所在环境的音乐场景进行识别，最后根据识别结果对被控音乐组件进行控制，如此使得音乐组件打造的音乐氛围可以更匹配当前环境，提升用户的感受。

进一步地，在本实施例中，为了实现对所述音乐场景的精准识别，本实施例中通过引入AI模型实现所述音乐场景的识别。基于此，在上述步骤S130，根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，可以采用通过模型训练而得到的音乐场景识别模型对所述两种或两种以上场景特征识别信息进行人工智能识别，得到所述被控音乐组件当前所在环境的音乐场景。

其中，如图4所示，所述音乐场景识别模型通过以下步骤S131-S134进行模型训练得到，下面进行详细说明。

步骤S131，将预先获取的多个环境监控信息样本划分为至少两个样本序列，将其中至少一个样本序列作为样本调整序列。

其中，本实施例中，每个所述环境监控信息样本可以包括至少两种场景特征识别信息，所述环境监控信息样本包括用于指示该环境监控信息样本对应的目标音乐场景的场景标签。此外，在本实施例中，不同的场景标签之间具有相应的关联度，所述关联度可以根据不同场景标签对应的音乐场景而预先进行配置，或者可以根据音乐场景通过语义关联函数进行计算而得到，具体不进行限定。

步骤S132，针对所述样本调整序列中的每个环境监控信息样本，获取该环境监控信息样本的场景标签，并获得该场景标签与多个预设场景标签中的每个预设场景标签的关联度，得到关联度低于预设关联度的至少一个目标场景标签。

其中，本实施例中，所述多个预设场景标签可以是预先为每个可能的音乐场景而设定的场景标签，用于对相应的音乐场景进行标识。

步骤S133，将所述环境监控信息样本的场景标签更新为任意一个所述目标场景标签，当所述样本调整序列中的每个样本的场景标签更新完成后，将该样本调整序列作为负向标定样本序列，将其它样本序列作为正向标定样本序列，得到训练数据集。

步骤S144，使用所述训练数据集对预设的第一人工智能神经网络进行迭代训练，得到所述音乐场景识别模型。

基于上述方法，本发明实施例同归对预先获取的环境监控信息样本进行样本划分，然后通过通过样本之间的场景标签的关联度，将一部分样本通过场景标签更新的方式作为负向标定样本，如此，通过正向标定样本和负向标定样本对第一人工智能神经网络进行多样本训练的方式，可以使得训练得到的模型的识别精准度更高、模型的鲁棒性更强。

其中，在本实施例的一种优选实施方式中，基于步骤S144，使用所述训练数据集对预设的第一人工智能神经网络进行迭代训练的每次迭代训练过程，可以包括下述S1441-S1446的步骤，具体介绍如下。

步骤S1441，依次获取一个正向标定样本序列，将所述正向标定样本序列中的每个环境监控信息样本输入所述第一人工智能神经网络进行场景预测。

步骤S1442，根据针对所述正向标定样本序列中的每个环境监控信息样本的场景预测结果与该环境监控信息样本对应的场景标签的第一匹配度，获得针对该正向标定样本序列的第一预测代价指标。

示例性地，本实施例中，例如，可以将针对各个环境监控信息样本的场景预测结果与各相应的环境监控信息样本对应的场景标签的多个第一匹配度的匹配度均值计算得到所述第一预测代价指标。本实施例中，所述第一匹配度均值与所述第一预测代价指标负相关。例如，所述匹配度均值越大，则所述第一预测代价指标越小。

步骤S1443，依次获取一个负向标定样本序列，将所述负向标定样本序列中的每个环境监控信息样本输入所述第一人工智能神经网络进行场景预测。

步骤S1444，根据针对所述负向标定样本序列中的每个环境监控信息样本的场景预测结果与该环境监控信息样本对应的场景标签的第二匹配度，获得针对该负向标定样本序列的第二预测代价指标；

本实施例中，作为一种示例，可以将针对各个环境监控信息样本的场景预测结果与各相应的环境监控信息样本对应的场景标签的各个第二匹配度的匹配度均值计算得到所述第二预测代价指标。本实施例中，所述第二匹配度均值与所述第二预测代价指标正相关。例如，所述第二匹配度均值越大，则所述第一预测代价指标越大。

步骤S1445，根据所述第一预测代价指标以及所述第二预测代价指标对所述第一人工智能神经网络进行迭代更新。

步骤S1446，判断当前迭代训练过程是否满足迭代终止条件，当满足迭代终止条件时，将当前迭代更新后的所述第一人工智能神经网络作为所述音乐场景识别模型；若不满足迭代终止条件，则进入下一迭代训练过程。

例如，本实施例中，所述迭代终止条件可以是所述第一预测代价指标以及所述第二预测代价指标分别达到设定的指标参数阈值。

进一步地，考虑到用于实现音乐场景识别设计的场景特征的类型较多，且不同的场景特征之间可能存在关联或干扰等因素，为了实现场景特征信息的精确识别，也可以采用人工智能模型的方式实现所述场景特征识别信息的获得。基于此，本实施例中，在上述步骤S120中，对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，可以是：采用场景特征识别模型对所述当前环境监控信息进行识别，得到所述两种或两种以上场景特征识别信息。

进一步地，本实施例中，所述方法还包括对预设的第二人工智能神经网络进行迭代训练而获得所述场景特征识别模型的步骤，具体包括下述的（1）和（2）的步骤，下面进行具体的介绍。

（1）获取所述两种或两种以上参考场景特征信息序列，根据所述两种或两种以上参考场景特征信息序列，确定所述两种或两种以上场景特征样本库。

本实施例中，作为一种优选的实施方式，所述两种或两种以上场景特征样本库中的每种场景特征样本库可以包括一种相关的场景特征对应的第一参考场景特征信息、第二参考场景特征信息和第三参考场景特征信息。各种场景特征样本库中的第一参考场景特征信息、第二参考场景特征信息和第三参考场景特征信息形成的样本库是根据所述两种或两种以上参考场景特征信息序列而获得。所述两种或两种以上参考场景特征信息序列中的每种参考场景特征信息序列包括一种场景特征对应的第一初始化场景特征信息和第二初始化场景特征信息。其中，所述第一参考场景特征信息和所述第二参考场景特征信息分别携带不同的场景特征标签，所述第三参考场景特征信息为未携带场景特征标签的参考场景特征信息。

作为一种优选的示例，所述根据所述两种或两种以上参考场景特征信息序列，确定所述两种或两种以上场景特征样本库，可以包括下述的（11）-（14）的步骤。

（11）将所述两种或两种以上参考场景特征信息序列中的目标种类的第一初始化场景特征信息，作为目标种类的第一参考场景特征信息。其中，所述目标种类是所述两种或两种以上中的任意一种。

（12）从所述两种或两种以上参考场景特征信息序列的第二初始化场景特征信息中，确定目标种类的第三参考场景特征信息。

例如，在一种可能的实施方式中，可以从所述两种或两种以上第二初始化场景特征信息中，将目标种类的第二初始化场景特征信息以外的其它第二初始化场景特征信息作为所述目标种类的第三参考场景特征信息。

又例如，在另一种可能的实施方式中，可以根据目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度，从所述两种或两种以上第二初始化场景特征信息中，确定所述目标种类的第三参考场景特征信息。其中，所述支持度可以代表所述目标种类的场景特征在所述两种或两种以上的参考场景特征信息序列中出现的频次。支持度越大则表面该目标种类的场景特征对于音乐场景的影响程度较大，重要性也越高。

其中，若所述两种或两种以上场景特征中的目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度达到预设支持度，可以将所述第二初始化场景特征信息中所述目标种类的第二初始化场景特征信息以外的其它第二初始化场景特征信息，确定为所述目标种类的第三参考场景特征信息。若所述目标种类的场景特征在所述两种或两种以上参考场景特征信息序列中的支持度未达到所述预设支持度，则可以将所述目标种类的场景特征对应的第二初始化场景特征信息作为所述目标种类的第三参考场景特征信息，其他的第二初始化场景特征信息作为所述第二参考场景特征信息。

（13）从所述两种或两种以上参考场景特征信息序列中，将所述目标种类的第一参考场景特征信息和所述目标种类的第三参考场景特征信息之外的其它场景特征信息，作为目标种类的第二参考场景特征信息。

（14）将所述目标种类的第一参考场景特征信息、所述目标种类的第二参考场景特征信息和所述目标种类的第三参考场景特征信息组合形成所述目标种类的场景特征样本库，以获得所述两种或两种以上场景特征样本库。

（2）根据所述两种或两种以上场景特征样本库，对所述预设的第二人工智能神经网络进行迭代训练，以实现所述初始化场景特征识别AI 模型的迭代更新，得到所述场景特征识别模型。

作为一种示例，例如在本实施例中，可以针对每个目标种类对应的场景特征样本库，可以分别将该目标种类对应的场景特征样本库对应的第一参考场景特征信息、第二参考场景特征信息对所述第二人工智能神经网络进行有监督训练，然后再采用所述第三参考场景特征信息对通过所述第一参考场景特征信息、第二参考场景特征信息进行有监督训练后的第二人工智能神经网络进行无监督训练，如此反复，直到使用每个目标种类的参考特征样本库对所述第二人工智能神经网络完成训练后，得到所述场景特征识别模型。

进一步地，作为一种示例，在本实施例中，所述场景特征识别模型可以包括场景特征卷积层和两种或两种以上场景特征识别层。其中，所述场景特征卷积层用于对所述当前环境监控信息进行卷积运算，以得到所述当前环境监控信息中包括的至少两种场景特征。所述两种或两种以上场景特征识别层中的各种场景特征识别层用于根据所述场景特征卷积层得到的至少两种场景特征进行分类识别，以获得两种或两种以上场景特征识别信息。

基于此，上述步骤（2）中，根据所述两种或两种以上场景特征样本库，对所述预设的第二人工智能神经网络进行迭代训练，以实现所述初始化场景特征识别AI 模型的迭代更新，得到所述场景特征识别模型，可以包括以下（21）-（24）的步骤。

（21）将所述两种或两种以上场景特征样本库中的参考场景特征信息划分为多组参考场景特征信息。

（22）根据所述两种或两种以上场景特征样本库中的x组参考场景特征信息，在当前迭代过程中，对所述第二人工智能神经网络执行x次迭代训练，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络。其中，所述两种或两种以上代价指标分别与所述两种或两种以上场景特征识别层一一对应。

例如，作为一种示例，可以在当前迭代过程中，根据所述x次迭代训练中而获得第y-1次迭代训练过程得到的第二人工智能神经网络中的场景特征卷积层，获取所述两种或两种以上参考场景特征信息序列中x组参考场景特征信息中的第y组参考场景特征信息的场景特征，得到第y场景特征；其中，y小于或等于x；

然后，根据所述第y-1次迭代训练过程得到的第二人工智能神经网络中的各种场景特征识别层，并根据所述x组参考场景特征信息中与所述第y组参考场景特征信息对应的第y组参考场景特征信息，确定所述第y场景特征的各种代价指标，得到第y次迭代训练对应的代价指标；

其次，根据所述第y次迭代训练对应的代价指标，对所述第y-1次迭代训练过程得到的第二人工智能神经网络的网络参数进行优化，得到第y次优化后的第二人工智能神经网络；

最后，循环执行上述过程，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络，作为所述场景特征识别模型；

其中，所述收敛条件包括：

所述迭代训练的循环次数达到预设次数。

（23）根据所述x次迭代训练得到的两种或两种以上代价指标中的各种代价指标，确定当前迭代过程中的融合代价指标。

（24）根据所述当前迭代过程中的融合代价指标以及迭代训练的次数判断是否达到设定的收敛条件，当达到设定的收敛条件时，将所述当前迭代过程中迭代训练后的第二人工智能神经网络作为所述场景特征识别模型。其中，当未达到设定的收敛条件时，执行下一次迭代训练过程，得到下一次迭代训练过程中的融合代价指标和下一次迭代训练过程中迭代训练后的第二人工智能神经网络。

如图5所示，所述音乐场景识别装置101可以包括监控信息获取模块1011，场景特征识别模块1012，以及音乐场景识别模块1013。

监控信息获取模块1011，用于获取针对被控音乐组件所在环境进行环境监控而获得的当前环境监控信息。其中，所述环境监控信息包括可视化信息、声音信息、环境温度信息、环境湿度信息、人流量信息中的其中两种或两种以上信息的组合。

场景特征识别模块1012，用于对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息。

音乐场景识别模块1013，用于根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制。

优选地，所述音乐场景识别模块1013可以采用通过模型训练而得到的音乐场景识别模型对所述两种或两种以上场景特征识别信息进行人工智能识别，得到所述被控音乐组件当前所在环境的音乐场景。

优选地，所述场景特征识别模块1012可以采用场景特征识别模型对所述当前环境监控信息进行识别，得到所述两种或两种以上场景特征识别信息。

其中，所述场景特征识别模型通过对预设的第二人工智能神经网络进行迭代训练而获得，对预设的第二人工智能神经网络进行迭代训练包括：

获取所述两种或两种以上参考场景特征信息序列，根据所述两种或两种以上参考场景特征信息序列，确定所述两种或两种以上场景特征样本库；

优选地，本实施例中，所述监控信息获取模块1011，场景特征识别模块1012，以及音乐场景识别模块1013可以分别对应实现图3所示的步骤S110-S130，这些模块的具体实现方式可参照对应的步骤的详细介绍，此处不赘述。

以上所揭露的仅为本发明的局部实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。此外，在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围，而仅仅是表示本发明的选定实施例。因此，本发明的保护范围应以权利要求的保护范围为准。此外，基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本发明保护的范围。

Claims

1.一种基于人工智能的音乐场景识别方法，应用于音乐场景控制设备，所述音乐场景控制设备与被控音乐组件通信连接，其特征在于，所述方法包括：

根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，并根据所述音乐场景对所述被控音乐组件进行控制；

所述根据所述两种或两种以上场景特征识别信息分析得到所述被控音乐组件当前所在环境的音乐场景，包括：

其中，所述音乐场景识别模型通过以下方式进行模型训练得到：

将所述环境监控信息样本的场景标签更新为任意一个所述目标场景标签，当所述样本调整序列中的每个环境监控信息样本的场景标签更新完成后，将该样本调整序列作为负向标定样本序列，将其它样本序列作为正向标定样本序列，得到训练数据集；

2.根据权利要求1所述的方法，其特征在于，使用所述训练数据集对预设的第一人工智能神经网络进行迭代训练的每次迭代训练过程，包括：

根据针对所述正向标定样本序列中的每个环境监控信息样本的场景预测结果与该环境监控信息样本对应的场景标签的第一匹配度，获得针对该正向标定样本序列的第一预测代价指标；

3.根据权利要求1所述的方法，其特征在于，所述对所述当前环境监控信息进行识别，得到两种或两种以上场景特征识别信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述两种或两种以上参考场景特征信息序列，确定所述两种或两种以上场景特征样本库，包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述两种或两种以上参考场景特征信息序列的第二初始化场景特征信息中，确定目标种类的第三参考场景特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述场景特征识别模型包括场景特征卷积层和两种或两种以上场景特征识别层；其中，所述场景特征卷积层用于对所述当前环境监控信息进行卷积运算，以得到所述当前环境监控信息中包括的至少两种场景特征；所述两种或两种以上场景特征识别层中的各种场景特征识别层用于根据所述场景特征卷积层得到的至少两种场景特征进行分类识别，以获得两种或两种以上场景特征识别信息；

7.根据权利要求6所述的方法，其特征在于，所述根据所述两种或两种以上场景特征样本库中的x组参考场景特征信息，在当前迭代过程中，对所述第二人工智能神经网络执行x次迭代训练，得到x次迭代训练得到的两种或两种以上代价指标中的各种代价指标和当前迭代过程中迭代训练后的第二人工智能神经网络，包括：

其中，所述收敛条件包括：

所述当前迭代过程中的融合代价指标位于预设代价指标范围内；或者所述迭代训练的循环次数达到预设次数。

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述当前环境监控信息通过集成了摄像头、麦克风阵列、声光感应器、红外人流监控设备的环境特征监控组件对所述被控音乐组件当前所在场景进行环境信息监测而获得，所述当前环境监控信息是包括图像、视频、声音信息、光信息、温湿度数据、现场人流数据的融合场景特征信息。

9.一种基于人工智能的音乐场景识别系统，其特征在于，所述系统包括音乐场景控制设备以及与所述音乐场景控制设备通信连接的被控音乐组件，所述音乐场景控制设备包括处理器和机器可读存储介质，所述机器可读存储介质和所述处理器连接，所述机器可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述机器可读存储介质中的程序、指令或代码，以实现上述权利要求1-8所述的方法。