CN116828385A

CN116828385A - 一种基于人工智能分析的音频数据处理方法及相关装置

Info

Publication number: CN116828385A
Application number: CN202311108957.3A
Authority: CN
Inventors: 刘军
Original assignee: Shenzhen Guanghetong Wireless Communication Software Co ltd
Current assignee: Shenzhen Guanghetong Wireless Communication Software Co ltd
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-09-29

Abstract

本发明公开了一种基于人工智能分析的音频数据处理方法及相关装置，涉及人工智能技术领域，该方法包括：将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；将合成后的音频数据输入到相应的声道内。该方法不受音源、录制条件的限制，对任何音频进行处理，都能够使听者有临场的感受。

Description

一种基于人工智能分析的音频数据处理方法及相关装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于人工智能分析的音频数据处理方法；还涉及一种基于人工智能分析的音频数据处理装置、计算机设备以及计算机存储介质。

背景技术

目前，音频主要分为单声道音频、立体音、环绕音等。其中，环绕音主要分为双声道音、5.1环绕音、7.1环绕音、5.1.2环绕音、7.1.2环绕音。环绕音搭配相应的播放设备（例如图1、图2所示）以及多声道解码技术，可以在音频输出时给予听者临场的感受。

然而，大部分的立体音、环绕音依赖于录制，受到录制模式、设备等的限制，难以普及大众。另外，为了达到类似临场的听感，现有方案依据特殊算法对音频进行处理，并且对音频的种类有特别的要求。如果音源本身不具有较大的层次感，则无法进行特定的处理。如果音频本身即为单声道或者普通的双声道，则也无法实现临场。

因此，提供一种不受音源、录制条件的限制，对任何音频进行处理，都能够使听者有临场的感受的技术方案已成为本领域技术人员亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于人工智能分析的音频数据处理方法，不受音源、录制条件的限制，对任何音频进行处理，都能够使听者有临场的感受。本发明的另一个目的是提供一种基于人工智能分析的音频数据处理装置、计算机设备以及计算机存储介质，均具有上述技术效果。

为解决上述技术问题，本发明提供了一种基于人工智能分析的音频数据处理方法，包括：

将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；

通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；

根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；

将合成后的音频数据输入到相应的声道内。

可选的，还包括：

根据用户的需求和音频设备数量确定所述声道数量和所述各声道的空间排布。

可选的，所述通过人工智能分析所述音频颗粒数据，包括：

通过人工智能分析所述音频颗粒数据的音频频率，确定所述音频颗粒数据的发声源。

可选的，所述通过人工智能分析所述音频颗粒数据，还包括：

获取所述音频数据对应的场景类别；

基于所述发声源和所述场景类别，通过人工智能分析确定所述音频颗粒数据的发声位置。

可选的，所述基于分析结果对所述音频颗粒数据进行分类，包括：

基于所述发声源和所述发声位置对所述音频颗粒数据进行分类。

可选的，所述根据分类结果确定声道数量和各声道的空间排布，包括：

基于所述发声位置确定所述音频颗粒数据所对应的声道的空间排布。

可选的，所述获取所述音频数据对应的场景类别，包括：

获取通过人工智能分析识别所述音频数据对应的场景类别，或获取用户手动设置的场景类别。

为解决上述技术问题，本发明还提供了一种基于人工智能分析的音频数据处理装置，包括：

解析模块，用于将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；

分类模块，用于通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；

合成模块，用于根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；

输入模块，用于将合成后的音频数据输入到相应的声道内。

为解决上述技术问题，本发明还提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的基于人工智能分析的音频数据处理方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的基于人工智能分析的音频数据处理方法的步骤。

本发明所提供的基于人工智能分析的音频数据处理方法，包括：将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；将合成后的音频数据输入到相应的声道内。

可见，本发明所提供的基于人工智能分析的音频数据处理方法，将音频数据颗粒化，并对颗粒化后的数据进行分析与分类，根据分类结果确定声道数量与各声道的空间排布，进而对同类别的音频颗粒数据进行合成处理，并将合成后的音频数据输入到相应的声道内，这样能够接近还原音频中发声源本身所处的空间位置，让用户有接近临场的感受。并且本发明所提供的音频数据处理方法不受音频本身的限制，也不受音频类型的限制。对于消费类电子，尤其对于多喇叭的设备，采用本发明所提供的音频数据处理方法处理的音频可以比现有方案处理过的音频更加具有空间感，更加真实的还原临场感受。

本发明所提供的基于人工智能分析的音频数据处理装置、计算机设备以及计算机存储介质均具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为家庭音箱摆放位置分布图；

图2为便携设备扬声器位置分布图；

图3为本发明实施例所提供的一种音频数据处理方法的流程示意图；

图4为本发明实施例所提供的一种虚拟音频空间排布示意图；

图5为本发明实施例所提供的一种音频数据AI智能解析示意图；

图6为本发明实施例所提供的另一种音频数据处理方法的流程示意图；

图7为本发明实施例所提供的一种音频数据处理装置的示意图；

图8为本发明实施例所提供的一种计算机设备的示意图。

具体实施方式

本发明的核心是提供一种基于人工智能分析的音频数据处理方法，不受音源、录制条件的限制，对任何音频进行处理，都能够使听者有临场的感受。本发明的另一个核心是提供一种基于人工智能分析的音频数据处理装置、计算机设备以及计算机存储介质，均具有上述技术效果。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图3，图3为本发明实施例所提供的一种基于人工智能分析的音频数据处理方法的流程示意图，参考图3所示，该方法包括：

S101：将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；

通过AI（Artificial Intelligence，人工智能）智能分析音频数据，并将完整的音频数据拆分成若干音频颗粒数据。音频颗粒数据是指一小段时间内的音频数据，以便对每小段时间内的音频数据进行人工智能分析。

其中，通过AI智能可以将完整的音频数据拆分成时间长度完全相等的若干音频颗粒数据。例如，将完整的音频数据拆分成时间长度均为1s的多个音频颗粒数据。通过AI智能也可以将完整的音频数据拆分成时间长度不完全相等的多个音频颗粒数据。例如，将完整的音频数据拆分成多个音频颗粒数据，其中某个音频颗粒数据的时间长度为1s，某个音频颗粒数据的时间长度为0.5s。

为了便于更加准确的对音频颗粒数据进行AI智能分析，AI智能可以根据音频频率对音频数据进行AI智能分析，将完整的音频数据拆分为若干所述音频颗粒数据。以音频频率为依据，根据音频频率的上下文进行颗粒化解析，将完整的音频数据拆分为若干音频颗粒数据。拆分得到的各音频颗粒数据的时间长度不一定相等。例如，其中从第0.1s至第0.5s为一个音频颗粒数据，该音频颗粒数据对应的发声源为乐器；从第0.5s至第2s为一个音频颗粒数据，该音频颗粒数据对应的发声源为人声。

S102：通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；

在将完整的音频数据拆分为若干音频颗粒数据的基础上，通过人工智能对各音频颗粒数据进行分析，并根据分析结果，对各音频颗粒数据进行分类。

在一些实施例中，所述通过人工智能分析所述音频颗粒数据，包括：

不同发声源对应的音频频率不同。本实施例以音频频率为依据对音频颗粒数据进行分类，确定各音频颗粒数据的发声源。

在一些实施例中，所述通过人工智能分析所述音频颗粒数据，还包括：

获取所述音频数据对应的场景类别；

在分析确定出各音频颗粒数据的发声源后，本实施例还根据音频颗粒数据的发声源以及音频数据对应的场景类别，进一步通过人工智能分析确定音频颗粒数据的发声位置。同一个发声源在不同场景类别下，其发声位置可能不同。因此，本实施例结合场景类别与发声源能够更加准确的确定出发声位置。

其中，所述获取所述音频数据对应的场景类别可以包括：

获取通过人工智能分析识别所述音频数据对应的场景类别，或获取用户手动设置的场景类别。也就是说，场景类别可以由用户手动进行设置，也可以通过人工智能自动分析识别。

在上述分析确定音频颗粒数据的发声源与发声位置的实施例的基础上，相应的，所述基于分析结果对所述音频颗粒数据进行分类，包括：

可将属于同一发声源且位于同一发声位置的音频颗粒数据分为同一类别，将属于同一发声源但位于不同发声位置的音频颗粒数据分为不同类别。

S103：根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；

可以根据分类结果在虚拟音频空间中排布各声道，确定各声道的空间排布。参考图4所示，虚拟音频空间以人为中心，包括前、后、左、右、上、下六个方位。根据分类结果，将各声道在虚拟音频空间中进行二维或者三维的空间排布。

在一些实施例中，所述根据分类结果确定声道数量和各声道的空间排布，包括：

可以根据音频颗粒数据的发声位置，将各声道在虚拟音频空间中进行二维或者三维的空间排布，确定各声道的空间排布。

例如，存在一段雨天打雷的音频数据，左侧时而有狼叫的声音，右侧有湍急的水流声。雷声、雨声、雨滴下的声音、狼叫声、水流声为五种类别。此时可以确定声道数量为五。根据雷声、雨声、雨滴下的声音、狼叫声以及水流声的发声位置，可将雷声所对应的声道排布在虚拟音频空间的上方，将雨声所对应的声道排布在虚拟音频空间的上方，将雨滴下的声音所对应的声道排布在虚拟音频空间的下方，将狼叫声所对应的声道排布在虚拟音频空间的左方，水流声所对应的声道排布在虚拟音频空间的右方。

在一些实施例中，还包括：

本实施例结合分类结果、用户的需求以及音频设备数量确定声道数量各各声道的空间排布，可以更好的满足用户需求，符合音频设备的实际情况。

例如，虚拟音频空间包括前、后、左、右、上、下六个方位，默认声道数为六。参考图5所示，如果刚好存在六个音频设备，则可以确定声道数量为六，以实现360度的音频临场感受。如果音频设备的数量比六个更多或更少，则根据音频设备数量，确定声道数量比六个更多或更少。

S104：将合成后的音频数据输入到相应的声道内。

将合成后的音频数据输入到相应的声道内，每一声道中包含若干音频颗粒数据。

参考图6所示，以下描述一种具体的实施方式：

判断用户是否手动完成音频场景选择，即判断用户是否手动选择了场景类别。若是，则直接通过AI智能对音频数据进行颗粒化解析，将完整的音频数据拆分成若干音频颗粒数据。对音频颗粒数据进行大数据分析，确定发声源、发声位置，并进行空间排布。用户可以根据自身的需求与音频设备情况选择合成方式，根据用户选择的合成方式，按照空间排布，合成多声道数据，或者合成多条单声道数据。最后将合成的数据定位输出。

若否，则首先通过AI智能对音频数据进行分析，识别场景类型，然后通过AI智能对完整音频数据进行颗粒化解析，将完整的音频数据拆分成若干音频颗粒数据。对音频颗粒数据进行大数据分析，确定发声源、发声位置，并进行空间排布。根据用户选择的合成方式，按照空间排布，合成多声道数据，或者合成多条单声道数据。最后将合成的数据定位输出。

以下以家庭影音类或音乐类的音频数据为例，阐述一种具体的实施例：

对音频数据进行解码，然后手动或者自动识别音频种类（音频种类属于场景类别的一种）。以音乐为例，识别出音频种类为纯人声或者古典或者流行等。对于不同的音频种类进行不同算法处理。对音频数据进行颗粒化解析，根据上下文频率区分，将音频数据划分为若干个音频颗粒数据。对音频颗粒数据逐个进行大数据分析，并对音频颗粒数据进行空间排布，将同一方位的音频合到一条音轨上。将合成的若干个数据条，再根据用户需求合成对应的音频格式，然后播放出去。

综上所述，本发明所提供的基于人工智能分析的音频数据处理方法，将音频数据颗粒化，并对颗粒化后的数据进行分析与分类，根据分类结果确定声道数量与各声道的空间排布，进而对同类别的音频颗粒数据进行合成处理，并将合成后的音频数据输入到相应的声道内，这样能够接近还原音频中发声源本身所处的空间位置，让用户有接近临场的感受。并且本发明所提供的音频数据处理方法不受音频本身的限制，也不受音频类型的限制。对于消费类电子，尤其对于多喇叭的设备，采用本发明所提供的音频数据处理方法处理的音频可以比现有方案处理过的音频更加具有空间感，更加真实的还原临场感受。

本发明还提供了一种基于人工智能分析的音频数据处理装置，下文描述的该装置可以与上文描述的方法相互对应参照。请参考图7，图7为本发明实施例所提供的一种基于人工智能分析的音频数据处理装置的示意图，结合图7所示，该装置包括：

解析模块10，用于将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；

分类模块20，用于通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；

合成模块30，用于根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；

输入模块40，用于将合成后的音频数据输入到相应的声道内。

在上述实施例的基础上，作为一种具体的实施方式，合成模块30还用于：

在上述实施例的基础上，作为一种具体的实施方式，分类模块20具体用于：

在上述实施例的基础上，作为一种具体的实施方式，分类模块20还用于：

获取所述音频数据对应的场景类别；

在上述实施例的基础上，作为一种具体的实施方式，合成模块30具体用于：

本发明所提供的基于人工智能分析的音频数据处理装置，将音频数据颗粒化，并对颗粒化后的数据进行分析与分类，根据分类结果确定声道数量与各声道的空间排布，进而对同类别的音频颗粒数据进行合成处理，并将合成后的音频数据输入到相应的声道内，这样能够接近还原音频中发声源本身所处的空间位置，让用户有接近临场的感受。并且本发明所提供的音频数据处理方法不受音频本身的限制，也不受音频类型的限制。对于消费类电子，尤其对于多喇叭的设备，采用本发明所提供的音频数据处理方法处理的音频可以比现有方案处理过的音频更加具有空间感，更加真实的还原临场感受。

本发明还提供了一种计算机设备，参考图8所示，该设备包括存储器1和处理器2。

存储器1，用于存储计算机程序；

处理器2，用于执行计算机程序实现如下的步骤：

将完整的音频数据进行人工智能分析并拆分为若干音频颗粒数据；所述音频颗粒数据为一段时间内的音频数据；通过人工智能分析所述音频颗粒数据，并基于分析结果对所述音频颗粒数据进行分类；根据分类结果确定声道数量和各声道的空间排布，并对同类别的所述音频颗粒数据进行合成处理；将合成后的音频数据输入到相应的声道内。

对于本发明所提供的设备的介绍请参照上述方法实施例，本发明在此不做赘述。

本发明还提供了一种计算机存储介质，该计算机存储介质上存储有计算机程序，计算机程序被处理器执行时可实现如下的步骤：

该计算机存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

对于本发明所提供的计算机存储介质的介绍请参照上述方法实施例，本发明在此不做赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于人工智能分析的音频数据处理方法、装置、计算机设备以及计算机存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围。

Claims

1.一种基于人工智能分析的音频数据处理方法，其特征在于，包括：

将合成后的音频数据输入到相应的声道内。

2.根据权利要求1所述的基于人工智能分析的音频数据处理方法，其特征在于，还包括：

3.根据权利要求1所述的基于人工智能分析的音频数据处理方法，其特征在于，所述通过人工智能分析所述音频颗粒数据，包括：

4.根据权利要求3所述的基于人工智能分析的音频数据处理方法，其特征在于，所述通过人工智能分析所述音频颗粒数据，还包括：

获取所述音频数据对应的场景类别；

5.根据权利要求4所述的基于人工智能分析的音频数据处理方法，其特征在于，所述基于分析结果对所述音频颗粒数据进行分类，包括：

6.根据权利要求4所述的基于人工智能分析的音频数据处理方法，其特征在于，所述根据分类结果确定声道数量和各声道的空间排布，包括：

7.根据权利要求4所述的基于人工智能分析的音频数据处理方法，其特征在于，所述获取所述音频数据对应的场景类别，包括：

8.一种基于人工智能分析的音频数据处理装置，其特征在于，包括：

输入模块，用于将合成后的音频数据输入到相应的声道内。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于人工智能分析的音频数据处理方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于人工智能分析的音频数据处理方法的步骤。