CN117116302A - 一种在复杂场景下的音频数据分析方法、系统及存储介质 - Google Patents

一种在复杂场景下的音频数据分析方法、系统及存储介质 Download PDF

Info

Publication number
CN117116302A
CN117116302A CN202311381953.2A CN202311381953A CN117116302A CN 117116302 A CN117116302 A CN 117116302A CN 202311381953 A CN202311381953 A CN 202311381953A CN 117116302 A CN117116302 A CN 117116302A
Authority
CN
China
Prior art keywords
scene
audio data
data
audio
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311381953.2A
Other languages
English (en)
Other versions
CN117116302B (zh
Inventor
黄洪平
邓胜丰
白启昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Etech Technology Co ltd
Original Assignee
China Etech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Etech Technology Co ltd filed Critical China Etech Technology Co ltd
Priority to CN202311381953.2A priority Critical patent/CN117116302B/zh
Publication of CN117116302A publication Critical patent/CN117116302A/zh
Application granted granted Critical
Publication of CN117116302B publication Critical patent/CN117116302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种在复杂场景下的音频数据分析方法、系统及存储介质,通过在预设网络中的用户发送端中,实时获取视频数据与音频数据;基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。通过本发明,能够有效提高实时网络中音频数据质量,特别是在复杂场景下,双方用户的实时音频传输过程中的数据传输质量问题。

Description

一种在复杂场景下的音频数据分析方法、系统及存储介质
技术领域
本发明涉及数据分析领域,更具体的,涉及一种在复杂场景下的音频数据分析方法、系统及存储介质。
背景技术
受制于现有技术,在实时的音视频数据传输中,由于对音频数据的处理过于简单,导致在接收方一端可能会出现音频质量差,音频数据损失等问题,进一步影响在实时网络下的音频传输,且现有技术中没有考虑在多种用户场景下的音频高效处理方法,导致目前音频数据的传输存在较大问题。因此,目前亟需一种音频数据分析方法。
发明内容
本发明克服了现有技术的缺陷,提出了一种在复杂场景下的音频数据分析方法、系统及存储介质。
本发明第一方面提供了一种在复杂场景下的音频数据分析方法,包括:
在预设网络中的用户发送端中,实时获取视频数据与音频数据;
基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。
本方案中,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中。
本方案中,所述基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度,具体为:
将所述视频数据进行关键帧提取,得到关键图像集;
基于用户发送端获取用户信息;
根据所述用户信息进行获取用户的人物图像特征;
对所述关键图像集进行基于区域性的特征提取,得到图像特征数据;
基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别,得到图像人物区域与背景区域;
基于所述背景区域进行物体识别与场景识别,得到场景信息。
本方案中,所述基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据,具体为:
根据所述场景信息与预设场景信息进行场景匹配与匹配率计算,将其中匹配成功的场景标记为匹配场景,其余标记为第一场景,并得到匹配率;
基于匹配场景,从系统数据库中获取对应音频降噪数据,基于所述音频降噪数据对音频数据进行一次降噪处理;
基于匹配率的大小计算出场景复杂度;
基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。
本方案中,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,具体为:
将所述中间音频数据在预设网络发送至用户接收端;
用户接收端获取中间音频数据与对应的匹配场景、第一场景、场景复杂度;
对中间音频数据进行解压得到第二音频数据。
本方案中,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,还包括:
判断场景复杂度是否大于预设值,若是,则将第二音频数据进行基于频率、振幅、音频波形的特征提取,得到音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一音频特征数据,非相似部分标记为第二音频特征数据。
本方案中,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,包括:
基于时域增强算法对所述第一音频特征数据进行音频增强分析,并得到音频增强参数信息;
基于反相技术,对第二音频特征数据进行音频反相分析,得到环境降噪数据;
基于音频增强参数信息对第一音频数据进行音频增强处理,基于环境降噪数据对第二音频数据进行音频二次降噪处理,并得到第三音频数据;
将所述第三音频数据发送至预设终端设备。
本发明第二方面还提供了一种在复杂场景下的音频数据分析系统,该系统包括:存储器、处理器,所述存储器中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤:
在预设网络中的用户发送端中,实时获取视频数据与音频数据;
基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。
本方案中,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被处理器执行时,实现如上述任一项所述的在复杂场景下的音频数据分析方法的步骤。
本发明公开了一种在复杂场景下的音频数据分析方法、系统及存储介质,通过在预设网络中的用户发送端中,实时获取视频数据与音频数据;基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。通过本发明,能够有效提高实时网络中音频数据质量,特别是在复杂场景下,双方用户的实时音频传输过程中的数据传输质量问题。
附图说明
图1示出了本发明一种在复杂场景下的音频数据分析方法的流程图;
图2示出了本发明场景信息获取流程图;
图3示出了本发明中间音频数据流程图;
图4示出了本发明一种在复杂场景下的音频数据分析系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种在复杂场景下的音频数据分析方法的流程图。
如图1所示,本发明第一方面提供了一种在复杂场景下的音频数据分析方法,包括:
S102,在预设网络中的用户发送端中,实时获取视频数据与音频数据;
S104,基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
S106,基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
S108,将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。
根据本发明实施例,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中。
需要说明的是,在与社网络环境中,各个用户可以进行实时音视频传输,传输过程基于互联网。
图2示出了本发明场景信息获取流程图。
根据本发明实施例,所述基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度,具体为:
S202,将所述视频数据进行关键帧提取,得到关键图像集;
S204,基于用户发送端获取用户信息;
S206,根据所述用户信息进行获取用户的人物图像特征;
S208,对所述关键图像集进行基于区域性的特征提取,得到图像特征数据;
S210,基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别,得到图像人物区域与背景区域;
S212,基于所述背景区域进行物体识别与场景识别,得到场景信息。
需要说明的是,所述视频数据与音频数据一般为实时数据,在某些非实时环境下,也可以为非实时数据,例如在非实时需求下的预设网络条件下。所述基于区域性的特征提取具体为通过分析关键图像集中每一张图像的多个区域生成相关图像特征数据,每个区域均有对应的图像特征数据。所述场景信息为实时分析得到的用户所在场景信息。场景信息可能包括多种场景、例如室外场景加车站场景。所述人物图像特征存储于系统数据库。
图3示出了本发明中间音频数据流程图。
根据本发明实施例,所述基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据,具体为:
S302,根据所述场景信息与预设场景信息进行场景匹配与匹配率计算,将其中匹配成功的场景标记为匹配场景,其余标记为第一场景,并得到匹配率;
S304,基于匹配场景,从系统数据库中获取对应音频降噪数据,基于所述音频降噪数据对音频数据进行一次降噪处理;
S306,基于匹配率的大小计算出场景复杂度;
S308,基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。
需要说明的是,所述音频降噪数据为一种基于反相技术的降噪音频,在本发明实施例中为根据预设场景信息进行提前获取并存入系统数据库中。所述匹配率为匹配场景与第一场景数之比。所述基于匹配率的大小计算出场景复杂度中,场景复杂度等于匹配率乘以预设修正参数,且匹配率与场景复杂度成正比。所述基于场景复杂度选择预设压缩算法,具体为当场景复杂度高于预设值,则选择无损压缩算法,以减少用户重要音频数据的损失,否则选择有损压缩算法,以提高网络传输的速率。所述预设压缩算法包括MPEG、AAC、OGG、WMA、Opus等压缩算法,不同压缩算法对音频影响各不相同,且对应数据的损失率也不相同。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,具体为:
将所述中间音频数据在预设网络发送至用户接收端;
用户接收端获取中间音频数据与对应的匹配场景、第一场景、场景复杂度;
对中间音频数据进行解压得到第二音频数据。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,还包括:
判断场景复杂度是否大于预设值,若是,则将第二音频数据进行基于频率、振幅、音频波形的特征提取,得到音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一音频特征数据,非相似部分标记为第二音频特征数据。
需要说明的是,所述场景复杂度大于预设值时,代表用户发送端所处环境较为复杂,其对应的音频数据较大可能存在杂音与噪音,这严重影响了接收端的用户体验。因此,本发明通过视频分析发送方的场景信息(可能包括多个场景),进一步分析出场景复杂度并进行音频数据的调整,从而增强音频效果,满足用户需求,提高用户体验。
所述预设场景包括室内、室外、公交车站、地铁、机场、办公室、高铁站等对采集音频数据有所影响的场景。所述第一音频特征数据一般对应为用户语音数据,第二音频特征数据为一般对应为环境音频数据。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,包括:
基于时域增强算法对所述第一音频特征数据进行音频增强分析,并得到音频增强参数信息;
基于反相技术,对第二音频特征数据进行音频反相分析,得到环境降噪数据;
基于音频增强参数信息对第一音频数据进行音频增强处理,基于环境降噪数据对第二音频数据进行音频二次降噪处理,并得到第三音频数据;
将所述第三音频数据发送至预设终端设备。
需要说明的是,所述预设终端设备一般为用户接收端。
根据本发明实施例,还包括:
在一个分析周期内,基于预设网络实时获取用户发送端与用户接受端的丢包率、延迟值、网络抖动值;
基于所述丢包率、延迟值、网络抖动值进行网络质量评估,得到网络质量分数;
在一个分析周期内,从用户发送端中实时获取当前音频数据与当前视频数据,对所述当前音频数据进行基于频率、振幅、音频波形的特征提取,得到当前音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与当前音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一当前音频特征数据,非相似部分标记为第二当前音频特征数据;
基于所述当前音频数据与当前视频数据获取当前场景复杂度;
基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系,选择一种压缩算法作为当前压缩算法;
基于所述当前压缩算法对第一当前音频特征数据与第二当前音频特征数据分别进行压缩与数据整合,得到实时处理音频传输数据。
需要说明的是,在本发明中,既可以基于场景进行压缩算法的选择,也可以基于网络状况进行动态压缩算法的选择,当出现网络波动较大时,优先基于网络状况进行动态压缩算法分析与选择。
根据本发明实施例,所述基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系,具体为:
在历史网络传输中,记录在不同场景复杂度与不同网络质量分数下的N种传输情况;
基于所述N种传输情况中,在每一种情况下随机获取预设数据量的音频数据并标记为分析音频数据;
基于预设压缩算法中的每一种压缩算法,将分析音频数据进行数据压缩并进行压缩前后的数据损失度与数据失真率的计算分析,基于数据损失度与数据失真率得到压缩优化度,每一种压缩算法对应一个压缩优化度;
N种传输情况对应N种传输情况下,预设压缩算法的压缩优化度。
需要说明的是,所述不同场景复杂度与不同网络质量分数具体为在不同数值区间内判别,例如,将场景复杂度划分为多个数值区间,同一个数值区间内的两个场景复杂度为相同情况,另外,不同场景复杂度与不同网络质量分数可以组合成多种情况。所述N种传输情况对应N种传输情况下,预设压缩算法的压缩优化度即为场景复杂度、网络质量分数与预设压缩算法的压缩优化关系。通过压缩优化度,能够在N种传输情况(不同场景复杂度、网络质量分数的情况下)中选择最优压缩算法。所述N种传输情况可以根据需求只分析网络质量分数。
所述预设数据量为一个用户设定的较小的数据量,用于模拟分析音频数据在不同情况下压缩优化情况。所述数据损失度与数据失真率越大,压缩优化度越低。
图4示出了本发明一种在复杂场景下的音频数据分析系统的框图。
本发明第二方面还提供了一种在复杂场景下的音频数据分析系统4,该系统包括:存储器41、处理器42,所述存储器中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤:
在预设网络中的用户发送端中,实时获取视频数据与音频数据;
基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。
根据本发明实施例,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中。
需要说明的是,在与社网络环境中,各个用户可以进行实时音视频传输,传输过程基于互联网。
根据本发明实施例,所述基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度,具体为:
将所述视频数据进行关键帧提取,得到关键图像集;
基于用户发送端获取用户信息;
根据所述用户信息进行获取用户的人物图像特征;
对所述关键图像集进行基于区域性的特征提取,得到图像特征数据;
基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别,得到图像人物区域与背景区域;
基于所述背景区域进行物体识别与场景识别,得到场景信息。
需要说明的是,所述视频数据与音频数据一般为实时数据,在某些非实时环境下,也可以为非实时数据,例如在非实时需求下的预设网络条件下。所述基于区域性的特征提取具体为通过分析关键图像集中每一张图像的多个区域生成相关图像特征数据,每个区域均有对应的图像特征数据。所述场景信息为实时分析得到的用户所在场景信息。场景信息可能包括多种场景、例如室外场景加车站场景。所述人物图像特征存储于系统数据库。
根据本发明实施例,所述基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据,具体为:
根据所述场景信息与预设场景信息进行场景匹配与匹配率计算,将其中匹配成功的场景标记为匹配场景,其余标记为第一场景,并得到匹配率;
基于匹配场景,从系统数据库中获取对应音频降噪数据,基于所述音频降噪数据对音频数据进行一次降噪处理;
基于匹配率的大小计算出场景复杂度;
基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。
需要说明的是,所述音频降噪数据为一种基于反相技术的降噪音频,在本发明实施例中为根据预设场景信息进行提前获取并存入系统数据库中。所述匹配率为匹配场景与第一场景数之比。所述基于匹配率的大小计算出场景复杂度中,场景复杂度等于匹配率乘以预设修正参数,且匹配率与场景复杂度成正比。所述基于场景复杂度选择预设压缩算法,具体为当场景复杂度高于预设值,则选择无损压缩算法,以减少用户重要音频数据的损失,否则选择有损压缩算法,以提高网络传输的速率。所述预设压缩算法包括MPEG、AAC、OGG、WMA、Opus等压缩算法,不同压缩算法对音频影响各不相同,且对应数据的损失率也不相同。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,具体为:
将所述中间音频数据在预设网络发送至用户接收端;
用户接收端获取中间音频数据与对应的匹配场景、第一场景、场景复杂度;
对中间音频数据进行解压得到第二音频数据。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,还包括:
判断场景复杂度是否大于预设值,若是,则将第二音频数据进行基于频率、振幅、音频波形的特征提取,得到音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一音频特征数据,非相似部分标记为第二音频特征数据。
需要说明的是,所述场景复杂度大于预设值时,代表用户发送端所处环境较为复杂,其对应的音频数据较大可能存在杂音与噪音,这严重影响了接收端的用户体验。因此,本发明通过视频分析发送方的场景信息(可能包括多个场景),进一步分析出场景复杂度并进行音频数据的调整,从而增强音频效果,满足用户需求,提高用户体验。
所述预设场景包括室内、室外、公交车站、地铁、机场、办公室、高铁站等对采集音频数据有所影响的场景。所述第一音频特征数据一般对应为用户语音数据,第二音频特征数据为一般对应为环境音频数据。
根据本发明实施例,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,包括:
基于时域增强算法对所述第一音频特征数据进行音频增强分析,并得到音频增强参数信息;
基于反相技术,对第二音频特征数据进行音频反相分析,得到环境降噪数据;
基于音频增强参数信息对第一音频数据进行音频增强处理,基于环境降噪数据对第二音频数据进行音频二次降噪处理,并得到第三音频数据;
将所述第三音频数据发送至预设终端设备。
需要说明的是,所述预设终端设备一般为用户接收端。
根据本发明实施例,还包括:
在一个分析周期内,基于预设网络实时获取用户发送端与用户接受端的丢包率、延迟值、网络抖动值;
基于所述丢包率、延迟值、网络抖动值进行网络质量评估,得到网络质量分数;
在一个分析周期内,从用户发送端中实时获取当前音频数据与当前视频数据,对所述当前音频数据进行基于频率、振幅、音频波形的特征提取,得到当前音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与当前音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一当前音频特征数据,非相似部分标记为第二当前音频特征数据;
基于所述当前音频数据与当前视频数据获取当前场景复杂度;
基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系,选择一种压缩算法作为当前压缩算法;
基于所述当前压缩算法对第一当前音频特征数据与第二当前音频特征数据分别进行压缩与数据整合,得到实时处理音频传输数据。
需要说明的是,在本发明中,既可以基于场景进行压缩算法的选择,也可以基于网络状况进行动态压缩算法的选择,当出现网络波动较大时,优先基于网络状况进行动态压缩算法分析与选择。
根据本发明实施例,所述基于场景复杂度、网络质量分数与预设压缩算法的压缩优化关系,具体为:
在历史网络传输中,记录在不同场景复杂度与不同网络质量分数下的N种传输情况;
基于所述N种传输情况中,在每一种情况下随机获取预设数据量的音频数据并标记为分析音频数据;
基于预设压缩算法中的每一种压缩算法,将分析音频数据进行数据压缩并进行压缩前后的数据损失度与数据失真率的计算分析,基于数据损失度与数据失真率得到压缩优化度,每一种压缩算法对应一个压缩优化度;
N种传输情况对应N种传输情况下,预设压缩算法的压缩优化度。
需要说明的是,所述不同场景复杂度与不同网络质量分数具体为在不同数值区间内判别,例如,将场景复杂度划分为多个数值区间,同一个数值区间内的两个场景复杂度为相同情况,另外,不同场景复杂度与不同网络质量分数可以组合成多种情况。所述N种传输情况对应N种传输情况下,预设压缩算法的压缩优化度即为场景复杂度、网络质量分数与预设压缩算法的压缩优化关系。通过压缩优化度,能够在N种传输情况(不同场景复杂度、网络质量分数的情况下)中选择最优压缩算法。所述N种传输情况可以根据需求只分析网络质量分数。
所述预设数据量为一个用户设定的较小的数据量,用于模拟分析音频数据在不同情况下压缩优化情况。所述数据损失度与数据失真率越大,压缩优化度越低。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被处理器执行时,实现如上述任一项所述的在复杂场景下的音频数据分析方法的步骤。
本发明公开了一种在复杂场景下的音频数据分析方法、系统及存储介质,通过在预设网络中的用户发送端中,实时获取视频数据与音频数据;基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备。通过本发明,能够有效提高实时网络中音频数据质量,特别是在复杂场景下,双方用户的实时音频传输过程中的数据传输质量问题。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种在复杂场景下的音频数据分析方法,其特征在于,包括:
在预设网络中的用户发送端中,实时获取视频数据与音频数据;
基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备;
其中,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中;
其中,所述基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度,具体为:
将所述视频数据进行关键帧提取,得到关键图像集;
基于用户发送端获取用户信息;
根据所述用户信息进行获取用户的人物图像特征;
对所述关键图像集进行基于区域性的特征提取,得到图像特征数据;
基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别,得到图像人物区域与背景区域;
基于所述背景区域进行物体识别与场景识别,得到场景信息。
2.根据权利要求1所述的一种在复杂场景下的音频数据分析方法,其特征在于,所述基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据,具体为:
根据所述场景信息与预设场景信息进行场景匹配与匹配率计算,将其中匹配成功的场景标记为匹配场景,其余标记为第一场景,并得到匹配率;
基于匹配场景,从系统数据库中获取对应音频降噪数据,基于所述音频降噪数据对音频数据进行一次降噪处理;
基于匹配率的大小计算出场景复杂度;
基于场景复杂度选择预设压缩算法对音频数据进行压缩处理得到中间音频数据。
3.根据权利要求2所述的一种在复杂场景下的音频数据分析方法,其特征在于,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,具体为:
将所述中间音频数据在预设网络发送至用户接收端;
用户接收端获取中间音频数据与对应的匹配场景、第一场景、场景复杂度;
对中间音频数据进行解压得到第二音频数据。
4.根据权利要求3所述的一种在复杂场景下的音频数据分析方法,其特征在于,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,还包括:
判断场景复杂度是否大于预设值,若是,则将第二音频数据进行基于频率、振幅、音频波形的特征提取,得到音频特征数据;
基于用户信息,从系统数据库中获取用户语音特征数据;
根据所述用户语音特征数据与音频特征数据进行基于DTW的音频相似分析,并从音频特征数据中提取相似部分得到第一音频特征数据,非相似部分标记为第二音频特征数据。
5.根据权利要求4所述的一种在复杂场景下的音频数据分析方法,其特征在于,所述将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备,包括:
基于时域增强算法对所述第一音频特征数据进行音频增强分析,并得到音频增强参数信息;
基于反相技术,对第二音频特征数据进行音频反相分析,得到环境降噪数据;
基于音频增强参数信息对第一音频数据进行音频增强处理,基于环境降噪数据对第二音频数据进行音频二次降噪处理,并得到第三音频数据;
将所述第三音频数据发送至预设终端设备。
6.一种在复杂场景下的音频数据分析系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被所述处理器执行时实现如下步骤:
在预设网络中的用户发送端中,实时获取视频数据与音频数据;
基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度;
基于所述场景信息与预设场景信息进行匹配,得到匹配场景,根据所述匹配场景与场景复杂度对音频数据进行实时压缩与降噪分析处理,得到中间音频数据;
将所述中间音频数据在预设网络中进行传输,对中间音频数据进行音频增强处理并实时发送至预设终端设备;
其中,所述在预设网络中的用户发送端中,实时获取视频数据与音频数据,具体为:
基于用户数量实时构建预设网络环境;
基于用户发送端,实时采集视频数据与音频数据;
将所述视频数据与音频数据进行数据标准化并上传至预设网络中;
其中,所述基于所述视频数据进行图像转换、图像识别与用户场景匹配,得到场景信息与场景复杂度,具体为:
将所述视频数据进行关键帧提取,得到关键图像集;
基于用户发送端获取用户信息;
根据所述用户信息进行获取用户的人物图像特征;
对所述关键图像集进行基于区域性的特征提取,得到图像特征数据;
基于图像特征数据与人物图像特征进行基于标准欧氏距离的相似性分析与人物区域识别,得到图像人物区域与背景区域;
基于所述背景区域进行物体识别与场景识别,得到场景信息。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括在复杂场景下的音频数据程序,所述在复杂场景下的音频数据程序被处理器执行时,实现如权利要求1至5中任一项所述的在复杂场景下的音频数据分析方法的步骤。
CN202311381953.2A 2023-10-24 2023-10-24 一种在复杂场景下的音频数据分析方法、系统及存储介质 Active CN117116302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311381953.2A CN117116302B (zh) 2023-10-24 2023-10-24 一种在复杂场景下的音频数据分析方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311381953.2A CN117116302B (zh) 2023-10-24 2023-10-24 一种在复杂场景下的音频数据分析方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN117116302A true CN117116302A (zh) 2023-11-24
CN117116302B CN117116302B (zh) 2023-12-22

Family

ID=88797014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311381953.2A Active CN117116302B (zh) 2023-10-24 2023-10-24 一种在复杂场景下的音频数据分析方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117116302B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130314599A1 (en) * 2012-05-22 2013-11-28 Kabushiki Kaisha Toshiba Audio processing apparatus and audio processing method
CN109273017A (zh) * 2018-08-14 2019-01-25 Oppo广东移动通信有限公司 编码控制方法、装置以及电子设备
WO2021143599A1 (zh) * 2020-01-15 2021-07-22 荣耀终端有限公司 基于场景识别的语音处理方法及其装置、介质和系统
CN113539283A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备及存储介质
WO2022022585A1 (zh) * 2020-07-31 2022-02-03 华为技术有限公司 电子设备及其音频降噪方法和介质
CN116189706A (zh) * 2021-11-29 2023-05-30 腾讯科技(深圳)有限公司 数据传输方法、装置、电子设备和计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130314599A1 (en) * 2012-05-22 2013-11-28 Kabushiki Kaisha Toshiba Audio processing apparatus and audio processing method
CN109273017A (zh) * 2018-08-14 2019-01-25 Oppo广东移动通信有限公司 编码控制方法、装置以及电子设备
WO2021143599A1 (zh) * 2020-01-15 2021-07-22 荣耀终端有限公司 基于场景识别的语音处理方法及其装置、介质和系统
WO2022022585A1 (zh) * 2020-07-31 2022-02-03 华为技术有限公司 电子设备及其音频降噪方法和介质
CN113539283A (zh) * 2020-12-03 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备及存储介质
CN116189706A (zh) * 2021-11-29 2023-05-30 腾讯科技(深圳)有限公司 数据传输方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN117116302B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN109286825B (zh) 用于处理视频的方法和装置
CN110910901A (zh) 一种情绪识别方法及装置、电子设备和可读存储介质
CN104036788B (zh) 音频文件的音质识别方法及装置
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN106372653A (zh) 一种基于堆栈式自动编码器的广告识别方法
CN111953939B (zh) 提高监控视频存证正确率的方法及系统
CN117116302B (zh) 一种在复杂场景下的音频数据分析方法、系统及存储介质
CN114693812A (zh) 视频处理方法及装置
CN117238311B (zh) 一种多声源及噪声环境中的语音分离增强方法及系统
CN111627453B (zh) 公安语音信息管理方法、装置、设备及计算机存储介质
CN116320878A (zh) 一种基于骨声纹传感器的耳机降噪方法及系统
CN111031325A (zh) 数据处理方法及系统
CN115393798A (zh) 预警方法、装置、电子设备及存储介质
CN116647710B (zh) 一种基于社交群聊的直播方法、系统及存储介质
CN113948099A (zh) 音频编码方法、音频解码方法、装置和电子设备
CN113965759A (zh) 一种视频帧的压缩方法及系统
CN109065066B (zh) 一种通话控制方法、装置及设备
CN113870879A (zh) 智能家电麦克风的共享方法、智能家电和可读存储介质
US20020095297A1 (en) Device and method for processing audio information
CN117351993B (zh) 一种基于音频分发的音频传输质量评价方法及系统
CN117789723B (zh) 一种基于人工智能的视频内容处理方法及系统
CN115550660B (zh) 网络视频局部可变压缩方法和系统
CN112201271B (zh) 一种基于vad的语音状态统计方法、系统和可读存储介质
CN116962935B (zh) 一种基于数据分析的耳机降噪方法及系统
CN114171034B (zh) 一种高清机顶盒语音数据编解码系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant