CN117116302B

CN117116302B - 一种在复杂场景下的音频数据分析方法、系统及存储介质

Info

Publication number: CN117116302B
Application number: CN202311381953.2A
Authority: CN
Inventors: 黄洪平; 邓胜丰; 白启昊
Original assignee: China Etech Technology Co ltd
Current assignee: China Etech Technology Co ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-22
Anticipated expiration: 2043-10-24
Also published as: CN117116302A

Abstract

本发明公开了一种在复杂场景下的音频数据分析方法、系统及存储介质，通过在预设网络中的用户发送端中，实时获取视频数据与音频数据；基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息与场景复杂度；基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据；将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备。通过本发明，能够有效提高实时网络中音频数据质量，特别是在复杂场景下，双方用户的实时音频传输过程中的数据传输质量问题。

Description

一种在复杂场景下的音频数据分析方法、系统及存储介质

技术领域

本发明涉及数据分析领域，更具体的，涉及一种在复杂场景下的音频数据分析方法、系统及存储介质。

背景技术

受制于现有技术，在实时的音视频数据传输中，由于对音频数据的处理过于简单，导致在接收方一端可能会出现音频质量差，音频数据损失等问题，进一步影响在实时网络下的音频传输，且现有技术中没有考虑在多种用户场景下的音频高效处理方法，导致目前音频数据的传输存在较大问题。因此，目前亟需一种音频数据分析方法。

发明内容

本发明克服了现有技术的缺陷，提出了一种在复杂场景下的音频数据分析方法、系统及存储介质。

本发明第一方面提供了一种在复杂场景下的音频数据分析方法，包括：

在预设网络中的用户发送端中，实时获取视频数据与音频数据；

基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息与场景复杂度；

基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据；

将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备。

本方案中，所述在预设网络中的用户发送端中，实时获取视频数据与音频数据，具体为：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

将所述视频数据与音频数据进行数据标准化并上传至预设网络中。

本方案中，所述基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息与场景复杂度，具体为：

将所述视频数据进行关键帧提取，得到关键图像集；

基于用户发送端获取用户信息；

根据所述用户信息进行获取用户的人物图像特征；

对所述关键图像集进行基于区域性的特征提取，得到图像特征数据；

基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别，得到图像人物区域与背景区域；

基于所述背景区域进行物体识别与场景识别，得到场景信息。

本方案中，所述基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据，具体为：

根据所述场景信息与预设场景信息进行场景匹配与匹配率计算，将其中匹配成功的场景标记为匹配场景，其余标记为第一场景，并得到匹配率；

基于匹配场景，从系统数据库中获取对应音频降噪数据，基于所述音频降噪数据对音频数据进行一次降噪处理；

基于匹配率的大小计算出场景复杂度；

基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。

本方案中，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，具体为：

将所述中间音频数据在预设网络发送至用户接收端；

用户接收端获取中间音频数据与对应的匹配场景、第一场景、场景复杂度；

对中间音频数据进行解压得到第二音频数据。

本方案中，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，还包括：

判断场景复杂度是否大于预设值，若是，则将第二音频数据进行基于频率、振幅、音频波形的特征提取，得到音频特征数据；

基于用户信息，从系统数据库中获取用户语音特征数据；

根据所述用户语音特征数据与音频特征数据进行基于DTW的音频相似分析，并从音频特征数据中提取相似部分得到第一音频特征数据，非相似部分标记为第二音频特征数据。

本方案中，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，包括：

基于时域增强算法对所述第一音频特征数据进行音频增强分析，并得到音频增强参数信息；

基于反相技术，对第二音频特征数据进行音频反相分析，得到环境降噪数据；

基于音频增强参数信息对第一音频数据进行音频增强处理，基于环境降噪数据对第二音频数据进行音频二次降噪处理，并得到第三音频数据；

将所述第三音频数据发送至预设终端设备。

本发明第二方面还提供了一种在复杂场景下的音频数据分析系统，该系统包括：存储器、处理器，所述存储器中包括在复杂场景下的音频数据程序，所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括在复杂场景下的音频数据程序，所述在复杂场景下的音频数据程序被处理器执行时，实现如上述任一项所述的在复杂场景下的音频数据分析方法的步骤。

附图说明

图1示出了本发明一种在复杂场景下的音频数据分析方法的流程图；

图2示出了本发明场景信息获取流程图；

图3示出了本发明中间音频数据流程图；

图4示出了本发明一种在复杂场景下的音频数据分析系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种在复杂场景下的音频数据分析方法的流程图。

如图1所示，本发明第一方面提供了一种在复杂场景下的音频数据分析方法，包括：

S102，在预设网络中的用户发送端中，实时获取视频数据与音频数据；

S104，基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息与场景复杂度；

S106，基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据；

S108，将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备。

根据本发明实施例，所述在预设网络中的用户发送端中，实时获取视频数据与音频数据，具体为：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

需要说明的是，在与社网络环境中，各个用户可以进行实时音视频传输，传输过程基于互联网。

图2示出了本发明场景信息获取流程图。

根据本发明实施例，所述基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息与场景复杂度，具体为：

S202，将所述视频数据进行关键帧提取，得到关键图像集；

S204，基于用户发送端获取用户信息；

S206，根据所述用户信息进行获取用户的人物图像特征；

S208，对所述关键图像集进行基于区域性的特征提取，得到图像特征数据；

S210，基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别，得到图像人物区域与背景区域；

S212，基于所述背景区域进行物体识别与场景识别，得到场景信息。

需要说明的是，所述视频数据与音频数据一般为实时数据，在某些非实时环境下，也可以为非实时数据，例如在非实时需求下的预设网络条件下。所述基于区域性的特征提取具体为通过分析关键图像集中每一张图像的多个区域生成相关图像特征数据，每个区域均有对应的图像特征数据。所述场景信息为实时分析得到的用户所在场景信息。场景信息可能包括多种场景、例如室外场景加车站场景。所述人物图像特征存储于系统数据库。

图3示出了本发明中间音频数据流程图。

根据本发明实施例，所述基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据，具体为：

S302，根据所述场景信息与预设场景信息进行场景匹配与匹配率计算，将其中匹配成功的场景标记为匹配场景，其余标记为第一场景，并得到匹配率；

S304，基于匹配场景，从系统数据库中获取对应音频降噪数据，基于所述音频降噪数据对音频数据进行一次降噪处理；

S306，基于匹配率的大小计算出场景复杂度；

S308，基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。

需要说明的是，所述音频降噪数据为一种基于反相技术的降噪音频，在本发明实施例中为根据预设场景信息进行提前获取并存入系统数据库中。所述匹配率为匹配场景与第一场景数之比。所述基于匹配率的大小计算出场景复杂度中，场景复杂度等于匹配率乘以预设修正参数，且匹配率与场景复杂度成正比。所述基于场景复杂度选择预设压缩算法，具体为当场景复杂度高于预设值，则选择无损压缩算法，以减少用户重要音频数据的损失，否则选择有损压缩算法，以提高网络传输的速率。所述预设压缩算法包括MPEG、AAC、OGG、WMA、Opus等压缩算法，不同压缩算法对音频影响各不相同，且对应数据的损失率也不相同。

根据本发明实施例，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，具体为：

将所述中间音频数据在预设网络发送至用户接收端；

对中间音频数据进行解压得到第二音频数据。

根据本发明实施例，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，还包括：

基于用户信息，从系统数据库中获取用户语音特征数据；

需要说明的是，所述场景复杂度大于预设值时，代表用户发送端所处环境较为复杂，其对应的音频数据较大可能存在杂音与噪音，这严重影响了接收端的用户体验。因此，本发明通过视频分析发送方的场景信息（可能包括多个场景），进一步分析出场景复杂度并进行音频数据的调整，从而增强音频效果，满足用户需求，提高用户体验。

所述预设场景包括室内、室外、公交车站、地铁、机场、办公室、高铁站等对采集音频数据有所影响的场景。所述第一音频特征数据一般对应为用户语音数据，第二音频特征数据为一般对应为环境音频数据。

根据本发明实施例，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，包括：

将所述第三音频数据发送至预设终端设备。

需要说明的是，所述预设终端设备一般为用户接收端。

根据本发明实施例，还包括：

在一个分析周期内，基于预设网络实时获取用户发送端与用户接受端的丢包率、延迟值、网络抖动值；

基于所述丢包率、延迟值、网络抖动值进行网络质量评估，得到网络质量分数；

在一个分析周期内，从用户发送端中实时获取当前音频数据与当前视频数据，对所述当前音频数据进行基于频率、振幅、音频波形的特征提取，得到当前音频特征数据；

基于用户信息，从系统数据库中获取用户语音特征数据；

根据所述用户语音特征数据与当前音频特征数据进行基于DTW的音频相似分析，并从音频特征数据中提取相似部分得到第一当前音频特征数据，非相似部分标记为第二当前音频特征数据；

基于所述当前音频数据与当前视频数据获取当前场景复杂度；

基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系，选择一种压缩算法作为当前压缩算法；

基于所述当前压缩算法对第一当前音频特征数据与第二当前音频特征数据分别进行压缩与数据整合，得到实时处理音频传输数据。

需要说明的是，在本发明中，既可以基于场景进行压缩算法的选择，也可以基于网络状况进行动态压缩算法的选择，当出现网络波动较大时，优先基于网络状况进行动态压缩算法分析与选择。

根据本发明实施例，所述基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系，具体为：

在历史网络传输中，记录在不同场景复杂度与不同网络质量分数下的N种传输情况；

基于所述N种传输情况中，在每一种情况下随机获取预设数据量的音频数据并标记为分析音频数据；

基于预设压缩算法中的每一种压缩算法，将分析音频数据进行数据压缩并进行压缩前后的数据损失度与数据失真率的计算分析，基于数据损失度与数据失真率得到压缩优化度，每一种压缩算法对应一个压缩优化度；

N种传输情况对应N种传输情况下，预设压缩算法的压缩优化度。

需要说明的是，所述不同场景复杂度与不同网络质量分数具体为在不同数值区间内判别，例如，将场景复杂度划分为多个数值区间，同一个数值区间内的两个场景复杂度为相同情况，另外，不同场景复杂度与不同网络质量分数可以组合成多种情况。所述N种传输情况对应N种传输情况下，预设压缩算法的压缩优化度即为场景复杂度、网络质量分数与预设压缩算法的压缩优化关系。通过压缩优化度，能够在N种传输情况（不同场景复杂度、网络质量分数的情况下）中选择最优压缩算法。所述N种传输情况可以根据需求只分析网络质量分数。

所述预设数据量为一个用户设定的较小的数据量，用于模拟分析音频数据在不同情况下压缩优化情况。所述数据损失度与数据失真率越大，压缩优化度越低。

本发明第二方面还提供了一种在复杂场景下的音频数据分析系统4，该系统包括：存储器41、处理器42，所述存储器中包括在复杂场景下的音频数据程序，所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

将所述视频数据进行关键帧提取，得到关键图像集；

基于用户发送端获取用户信息；

根据所述用户信息进行获取用户的人物图像特征；

基于匹配率的大小计算出场景复杂度；

将所述中间音频数据在预设网络发送至用户接收端；

对中间音频数据进行解压得到第二音频数据。

基于用户信息，从系统数据库中获取用户语音特征数据；

将所述第三音频数据发送至预设终端设备。

需要说明的是，所述预设终端设备一般为用户接收端。

根据本发明实施例，还包括：

基于用户信息，从系统数据库中获取用户语音特征数据；

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种在复杂场景下的音频数据分析方法，其特征在于，包括：

基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息；

将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备；

其中，所述在预设网络中的用户发送端中，实时获取视频数据与音频数据，具体为：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

将所述视频数据与音频数据进行数据标准化并上传至预设网络中；

其中，所述基于所述视频数据进行图像转换、图像识别与用户场景匹配，得到场景信息，具体为：

将所述视频数据进行关键帧提取，得到关键图像集；

基于用户发送端获取用户信息；

根据所述用户信息进行获取用户的人物图像特征；

基于所述背景区域进行物体识别与场景识别，得到场景信息；

其中，所述基于所述场景信息与预设场景信息进行匹配，得到匹配场景，根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理，得到中间音频数据，具体为：

基于匹配率的大小计算出场景复杂度；

基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据；

所述匹配率为匹配场景与第一场景数之比，所述场景复杂度等于匹配率乘以预设修正参数，且匹配率与场景复杂度成正比。

2.根据权利要求1所述的一种在复杂场景下的音频数据分析方法，其特征在于，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，具体为：

将所述中间音频数据在预设网络发送至用户接收端；

对中间音频数据进行解压得到第二音频数据。

3.根据权利要求2所述的一种在复杂场景下的音频数据分析方法，其特征在于，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，还包括：

基于用户信息，从系统数据库中获取用户语音特征数据；

4.根据权利要求3所述的一种在复杂场景下的音频数据分析方法，其特征在于，所述将所述中间音频数据在预设网络中进行传输，对中间音频数据进行音频增强处理并实时发送至预设终端设备，包括：

将所述第三音频数据发送至预设终端设备。

5.一种在复杂场景下的音频数据分析系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括在复杂场景下的音频数据程序，所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤：

基于用户数量实时构建预设网络环境；

基于用户发送端，实时采集视频数据与音频数据；

将所述视频数据进行关键帧提取，得到关键图像集；

基于用户发送端获取用户信息；

根据所述用户信息进行获取用户的人物图像特征；

基于匹配率的大小计算出场景复杂度；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括在复杂场景下的音频数据程序，所述在复杂场景下的音频数据程序被处理器执行时，实现如权利要求1至4中任一项所述的在复杂场景下的音频数据分析方法的步骤。