CN117789740B - 音频数据处理方法、装置、介质、设备及程序产品 - Google Patents

音频数据处理方法、装置、介质、设备及程序产品 Download PDF

Info

Publication number
CN117789740B
CN117789740B CN202410204094.8A CN202410204094A CN117789740B CN 117789740 B CN117789740 B CN 117789740B CN 202410204094 A CN202410204094 A CN 202410204094A CN 117789740 B CN117789740 B CN 117789740B
Authority
CN
China
Prior art keywords
algorithm
audio
candidate
hearing
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410204094.8A
Other languages
English (en)
Other versions
CN117789740A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410204094.8A priority Critical patent/CN117789740B/zh
Publication of CN117789740A publication Critical patent/CN117789740A/zh
Application granted granted Critical
Publication of CN117789740B publication Critical patent/CN117789740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了音频数据处理方法、装置、介质、设备及程序产品,涉及计算机技术领域,方法包括:获取待处理音频数据;分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;听感差异信息用于指示待处理音频数据分别经当前音频算法集和候选算法集对应的音频处理后在听觉感知维度的质量差异,开销差异信息用于指示分别运行音频算法集和候选算法集的算法所需运算资源消耗的差异;根据听感差异信息和开销差异信息确定多个候选算法集中的目标算法集;基于目标算法集对待处理音频数据进行音频处理,得到目标音频数据。本申请能够避免设备额外音频开销,避免设备卡顿和死机。

Description

音频数据处理方法、装置、介质、设备及程序产品
技术领域
本申请涉及计算机技术领域,具体涉及音频数据处理方法、装置、介质、设备及程序产品。
背景技术
绝大部分音视应用中都会采用音频数据处理技术,例如音视频通话、直播等,音频数据处理具体是指对采集到的原始音频信号或待播放音频信号进行一系列处理,以减少实际音频应用中影响音频质量的噪音、回声、音量小等音质问题,常见的音频数据处理技术包括滤波、回声消除、降噪、增益、均衡器、压缩、限幅等。
然而随着人们对声音品质的要求不断提高,音频应用场景中音频问题的复杂性凸显,深度学习或大模型技术凭借其效果优势不断被广泛应用于音频前处理中,但其弊端是由于模型复杂、模型参数量庞大等带来的计算复杂度问题,导致设备开启相关算法的运行过程时产生高计算负载,进而造成数据处理时延,系统处理线程调度不及时,设备发热量激增,甚至导致设备卡顿、死机等问题,影响音频效果、以及系统和应用的正常运行。
发明内容
本申请提供了音频数据处理方法、装置、介质、设备及程序产品。所述技术方案如下:
一方面,本申请提供了一种音频数据处理方法,应用于电子设备,所述方法包括:
获取待处理音频数据;
分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;所述当前音频算法集包括当前运行的各音频处理算法,所述候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一;所述听感差异信息用于指示所述待处理音频数据分别经所述当前音频算法集和所述候选算法集对应的音频处理后在听觉感知维度的质量差异,所述开销差异信息用于指示分别运行所述当前音频算法集和所述候选算法集的算法所需运算资源消耗的差异;
根据所述听感差异信息和所述开销差异信息确定所述多个候选算法集中的目标算法集;
基于所述目标算法集对所述待处理音频数据进行音频处理,得到目标音频数据。
另一方面,本申请提供了一种音频数据处理装置,应用于电子设备,所述装置包括:
第一获取模块:用于获取待处理音频数据;
第二获取模块:用于分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;所述当前音频算法集包括当前运行的各音频处理算法,所述候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一;所述听感差异信息用于指示所述待处理音频数据分别经所述当前音频算法集和所述候选算法集对应的音频处理后在听觉感知维度的质量差异,所述开销差异信息用于指示分别运行所述当前音频算法集和所述候选算法集的算法所需运算资源消耗的差异;
目标集确定模块:用于根据所述听感差异信息和所述开销差异信息确定所述多个候选算法集中的目标算法集;
音频处理模块:用于基于所述目标算法集对所述待处理音频数据进行音频处理,得到目标音频数据。
另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如前述的音频数据处理方法。
另一方面,本申请提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如前述的音频数据处理方法。
另一方面,本申请提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如前述的音频数据处理方法。
本申请提供的音频数据处理方法、装置、介质、设备和程序产品,具有如下技术效果:
本申请的技术方案分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;当前音频算法集包括当前运行的各音频处理算法,其中,候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一,听感差异信息用于指示待处理音频数据分别经当前音频算法集和候选算法集对应的音频处理后在听觉感知维度的质量差异,开销差异信息用于指示分别运行音频算法集和候选算法集的算法所需运算资源消耗的差异,以分别得到当前运行的各算法和候选算法集的主观听觉维度的质量贡献差异,以及二者间的开销差异,以从主观听觉角度和资源开销角度综合评估筛选出目标算法集,在确保音频处理效果的同时实现算法集降级,进而降低无效或低效的计算开销,从而降低音频处理时延、处理线程调度效率、设备发热等问题风险,避免设备卡顿和死机。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种音频数据处理方法的流程示意图;
图3是本申请实施例提供的另一种音频数据处理方法的流程示意图;
图4是本申请实施例提供的另一种音频数据处理方法的流程示意图;
图5是本申请实施例提供的另一种音频数据处理方法的流程示意图;
图6是本申请实施例提供的国际声学标准组织测定的声学等响曲线图;
图7是本申请实施例提供的一种听觉感知加权系数图;
图8是本申请实施例提供的一种音频数据处理装置的结构框架图;
图9是本申请实施例提供的用于实现一种音频数据处理方法的设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于理解本申请实施例的技术方案及其产生的技术效果,本申请实施例对于涉及到的相关专业名词进行解释:
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革,WavLM,UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性,可以优秀完成各方向的语音处理任务。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
现有音频类应用等音频处理场景是在启动初始化阶段对各个音频处理算法进行参数配置,参数配置值是基于开发人员对当前应用场景的需求分析、设备机型处理能力和工况分析等得到的,而配置参数在音频应用运行过程中不做改动。这里的音频数据处理包括但不限于:回声消除、噪声抑制、混响消除、杂音抑制、啸叫抑制、音量增强、均衡、滤波等,不同算法是针对不同主观音质问题而设计的。然而随着深度学习、大模型技术的普及推广,基于AI新技术的音频处理算法以其效果上的显著优势得到进一步落地应用,例如上述提到的回声消除、噪声抑制、混响消除、杂音抑制、啸叫抑制等算法都逐渐从传统非AI方案迁移到AI方案。并且,在实际音频类应用中,通常多个音频处理算法通过串行或并行方式进行,其中一些处理算法计算比较复杂,例如AI算法通常在深度学习网络推理模型的规模上比较大(普遍在百万级的参数量),算法运行过程的计算开销明显高于传统算法,而多个AI算法并行或串行处理导致设备计算负载激增。
然而,现有音频数据处理方案的算法设计是基于通用场景或特定场景的音质问题进行设计,这些音质问题在不同硬件设备、不同声学环境中表现是有较大差异的,例如用户在一个比较安静的室内环境下进行音频通话,几乎不存在背景环境噪声,降噪算法在这种场景下并非必要,但由于室内环境墙壁、天花板、地板的声学反射问题比较突出,因此混响问题在这种场景下是比较严重的,需要通过混响抑制算法解决;又如一些终端设备在声学硬件设计和硬件芯片开发时就已经考虑各种音频问题解决方案,并且在音频信号采集阶段就解决了相关声音问题,所以后续的部分或全部音频处理算法不是必需的。因此采用当前静态固化配置的音频数据处理方案,不仅造成过高的计算负载,还无法结合当前实际场景、用户的实际需求、设备运行实时状态进行有效检测分析和动态最优配置,算法框架缺乏对各算法贡献反馈和主观评价机制,无法综合给出各模块最佳配置参数方案,导致在一些中低端机器上可能出现算法计算超负荷,系统整体运行卡顿,高端机器高负荷运行导致运行一段时间后出现机器过热等现象。
鉴于此,本申请针对现有方案可能引起设备计算负载过重,导致时延、应用体验卡顿、发热量过大等异常情况中的至少之一提出一种改进的音频处理方案,以降低非必要计算开销。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括终端01和服务器02。在实际应用中,终端01和服务器02可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的服务器02可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
具体地,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术能够应用于各种领域,如医疗云、云物联、云安全、云教育、云会议、人工智能云服务、云应用、云呼叫和云社交等,云技术基于云计算(cloud computing)商业模式应用,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”,“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务))平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
具体地,上述涉及的服务器02可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。
具体地,终端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。
本申请实施例中,服务器02可以与终端01间传输音频数据等,终端01可以用于对待处理音频数据进行音频处理以获得目标音频数据进行播放或发送至服务器02,或者也可以将待处理音频数据发送至服务器02,以使服务器02进行音频处理。在音频处理中,需获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息,根据听感差异信息和开销差异信息确定多个候选算法集中的目标算法集,进而基于目标算法集对待处理音频数据进行音频处理,得到目标音频数据。
此外,可以理解的是,图1所示的仅仅是一种图像处理方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
可以理解的是,在本申请的具体实施方式中,涉及到设备的运行参数信息、开销信息等相关的数据,当本申请的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下介绍本申请提供的一种音频数据处理方法,应用于电子设备,电子设备可以是终端设备,也可以是服务器,可以运行音视频应用等。本申请的应用场景可以包括但不限于:音视频通话类应用、直播类应用、游戏语音等。图2是本申请实施例提供的一种音频数据处理方法的流程图,本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。请参照图2,本申请实施例提供的一种音频数据处理方法可以包括如下步骤S201-S207:
S201:获取待处理音频数据。
具体地,待处理音频数据可以为电子设备采集到的原始音频信号或待播放音频信号,可以为音频流形式获取。电子设备可以为终端,也可以为服务器,待处理音频处理后得到的目标音频数据可以用于播放,或进行传输、存储等。示例性地,待处理音频数据可以例如为移动终端在通话场景中采集的连续音频信号中的音频帧,或者录音场景中采集的连续音频信号中的音频帧等。
S203:分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息。
具体地,音频数据处理是指对待处理音频数据进行一系列处理,以减少实际音频应用中影响音频质量的噪音、回声、音量小等音质问题,电子设备设置多个音频处理算法,可以包括但不限于滤波算法、回声消除算法、降噪算法、噪声抑制算法、杂音抑制算法、啸叫抑制算法、增益算法、音量增强算法、均衡器算法、压缩算法、限幅算法、混响消除算法等。
具体地,当前音频算法集包括当前运行的各音频处理算法,如在通话应用场景中,包括默认开启的滤波算法、回声消除算法、降噪算法、增益算法、均衡器算法等。具体地,候选算法集为当前音频算法集的降级算法集,候选算法集的预估开销要低于当前音频算法集的开销,候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一,其中降级算法是指与当前运行的原音频处理算法的音频处理功能相同且计算开销更低的算法,如当前运行的原音频处理算法为AI类的噪声抑制算法,其对应的降级算法为非AI类的降噪算法。可以理解地,候选算法集可以仅包括部分当前运行的音频处理算法,或者仅包括部分或全部当前运行的音频处理算法对应的降级算法,或者包括部分当前运行的音频处理算法、以及部分或全部其余当前运行的音频处理算法对应的降级算法;极端情况下,候选算法集可以为空。
可以理解地,一些情况下,候选算法集的元素数(算法数量)小于等于当前音频算法集的元素数,以在切换至候选算法集运行后,关闭至少部分当前运行的音频处理算法或替换至少部分当前运行的音频处理算法为降级算法。
一些实施例中,各个候选算法集可以是基于先验经验预先设置的,S203所涉及的多个候选算法集可以是当前应用程序或电子设备所预设的全部候选算法集,或者也可以为当前音频算法集匹配的候选算法集,匹配的候选算法集是指包括部分当前运行的音频处理算法、部分或全部当前运行的音频处理算法对应的降级算法、或者上述二者的组合,且不包含当前运行的各音频处理算法之外的其它音频处理算法或其它音频处理算法对应的降级算法的算法组合。如当前音频算法集为{a,b,c,d,e},其对应的一候选算法集为{a,b,c',e'},c'为c的降级算法,e'为e的降级算法。
具体地,听感差异信息用于指示待处理音频数据分别经当前音频算法集和候选算法集对应的音频处理后在听觉感知维度的质量差异,即表征听感维度上,待处理音频数据经当前运行的各音频处理算法处理后所得的音频与经某一候选算法集的全部候选算法处理后得到的音频间的质量差异,可以理解地,当前音频算法集处理后得到的音频质量通常优于候选算法集处理后得到的音频质量,听感差异信息对应的差异程度或差异值越高,表征候选算法集相较于当前算法集的音质负增益越大,反之,音质负增益越小。
具体地,开销差异信息用于指示分别运行音频算法集和候选算法集的算法所需运算资源消耗的差异,可以理解地,当前音频算法集所需的运算资源消耗高于候选算法集所需的运算资源消耗,开销差异信息对应的差异程度或差异值越高,表征候选算法集相较于当前算法集的运算资源节省量越大,反之越小。具体地,运算资源可以包括但不限于内CPU资源、内存资源、硬盘资源和网络资源等。
一些实施例中,步骤S203是基于运算减载事件触发的,该运算减载事件的目标为降低电子设备的运行负载,可以是当前电子设备的运行模式选择所生成的,如运行模式为节能运行模式,则可以触发该运算减载事件,进而执行该S203,或者运算减载事件也可以是在电子设备达到告警状态下生成的,相应地,方法还包括S101-S103:
S101:获取电子设备当前的运行参数信息;
S103:若当前的运行参数信息指示设备运行状态达到预设告警状态,执行分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息的步骤;
S105:若当前的运行参数信息指示设备运行状态未达到预设告警状态,则以默认音频处理模块配置对应的音频算法集进行待处理音频数据的处理。
默认音频处理模块配置对应的音频算法集可以为当前音频算法集,或者当前场景对应的音频算法集。如此,设定设备告警以触发当前音频算法集的听感和开销计算,进而在设备存在负载风险时进行算法计算量减载,以在设备状态允许时提升音质并在设备状态不佳时避免异常问题产生。
具体地,运行参数信息包括能够指示电子设备的当前运算负载状态或硬件设备安全状态的设备运行参数,包括但不限于CPU占用率、电池温度值等。可以对运行参数信息进行监测,如周期性地监测运行参数信息,判断其是否满足预设告警条件,若满足,则确定当前的运行参数信息指示设备运行状态达到预设告警状态。其中,监测周期可以例如为5s等,运行参数信息可以通过检测程序获取。预设告警条件可以包括各设备运行参数各自对应的安全阈值,若达到或者超过安全阈值,则表明存在风险,预设告警条件可以基于各安全阈值中的一个或多个的组合作为告警状态判断的条件,以在任一设备运行参数超过相应安全阈值,或多个设备运行参数均超过其相应的安全阈值的情况下,确定命中预设告警条件,这里的超过安全阈值是指超出安全阈值所限定的安全范围;优选地,还可以设置多个告警子条件,以分别对应多个告警级别,如包括第一告警子条件、第二告警子条件和第三告警子条件,分别对应第一告警级别、第二告警级别和第三告警级别,不同级别中同一设备运行参数对应的安全阈值也可以不同。示例性地,第一告警级别可以为cpu占用率持续超过90%,电池温度值达到2级温度范围;第二告警级别可以为cpu占用率持续超过95%,电池温度值达到2级温度范围;第三告警级别可以为电池温度值达到3,告警级别越高,表明设备运行状态安全性越差。
一些实施例中,在运算减载事件触发的情况下,触发对听觉差异信息的获取,该听觉差异信息可以通过统计当前运行的各音频处理算法的听感质量贡献值和候选算法集的各候选算法的听感质量贡献值,并进行差异计算得到。听感质量贡献值用于指示待处理音频数据对应的输入音频数据经音频处理算法或候选算法处理后在听觉感知质量上的提升程度。相应地,参考图3,听感差异信息的获取方式包括S301-S305:
S301:获取当前运行的各音频处理算法各自的第一听感质量贡献值。
具体地,第一听感质量贡献值用于指示待处理音频数据对应的输入音频数据经音频处理算法处理后在听觉感知质量上的提升程度;输入音频数据为待处理音频数据或待处理音频数据经其它一种或几种当前运行的音频处理算法处理后的数据。可以理解地,各音频处理算法可以并行或串行的对待处理音频数据进行音频处理,输入某一音频处理算法的输入音频数据可以是原始的待处理音频数据,也可以是其它音频处理算法处理并输出的音频数据。第一听感质量贡献值可以是输入音频数据经当前运行的音频处理算法处理前后的主观听觉贡献,具体可以通过输入音频数据和输出音频数据的听觉感知强度差异确定。相应地,一些实施例中,第一听感质量贡献值的获取方式包括S3011-S3012:
S3011:针对每一当前运行的音频处理算法,获取音频处理算法的输入音频数据的听觉感知强度和输入音频数据经音频处理算法处理后的输出音频数据的听觉感知强度;
S3012:根据输入音频数据的听觉感知强度和输出音频数据的听觉感知强度间的差异生成第一听感质量贡献值。
具体地,听觉感知强度用于表征人耳对音频数据的感知程度,具体是通过心理声学感知分析确定出的听觉感知的量化信息,即量化听觉感知强弱;可以理解地,输出音频数据的听觉感知强度高于输入音频数据的听觉感知强度,第一听感质量贡献值可以为后者与前者间的差值。通过听觉感知强度差异体现当前的音频处理算法对待处理音频的听感贡献,以作为后续听感差异信息确定的数据基础,有利于确保算法降级后的音频处理质量。
一些实施例中,听觉感知强度的获取方式包括:
1)获取输入音频数据的第一功率谱数据和输出音频数据的第二功率谱数据。
可以理解地,音频数据通常为音频流形式,待处理音频数据可以是对音频数据进行分帧处理得到的音频帧,可以通过分析窗分帧,如每20ms为一帧(与编码器帧定义一致)的分析窗,窗函数可以选用汉宁窗或汉明窗。然后进行功率谱计算,对待处理音频数据(加窗分帧信号i)做fft傅里叶变换,得到第一功率谱数据,功率谱表征频点与功率的对应关系,并求出第一功率谱数据中各频点的功率绝对值,/>为总频点数。以及,将待处理音频数据输入当前运行的一音频处理算法得到输出音频数据,并基于上述方式计算出第二功率谱数据,以及第二功率谱数据中各频点的功率绝对值/>,/>为总频点数。
2)基于听觉感知加权数据确定第一功率谱数据中每一频点对应的第一感知加权系数和第二功率谱数据中每一频点对应的第二感知加权系数。
具体地,听觉感知加权数据用于指示感知加权系数与声波频率间的对应关系,是基于预设的心理声学等响曲线数据计算得到的,心理声学等响曲线数据为等响度条件下声压级与声波频率的关系曲线,具体参考图6。
具体地,听觉感知主要的依据是“响度(Loud)”,“响度”随声音的强度而变化,但也受频率的影响,即相同强度、不同频率的声音对于人耳有着不一样的听觉感知。图6为国际声学标准组织测定的声学等响曲线图,等响曲线是描述等响条件下声压级与声波频率的关系曲线,是重要的听觉特征之一,即在不同频率下的纯音需要达到何种声压级,才能获得对听者来说一致的听觉响度。为了说明该曲线的含义,接下来举例说明,如针对图6上的任一条等响曲线,中低频段(1KHz以下)中频率越低,等响需要的声压强度(能量)越大,即需要更大的,声压级才能让人耳有相同听觉感受,而中高频段(1KHz以上)中,不同频段的有着不同的声学听觉感知特征。
进一步地,听觉感知加权数据是基于BS3383标准《BS 3383 Specification fornormal equal-loudness level contours for pure tones under free-fieldlistening conditions》的心理声学等响曲线数据(图6)计算得到。具体采用下述公式(1-1、1-2、1-3、1-4)计算响度值(参见BS3383第四章),其中freq为输入的目标频点值,ff、af、bf、cf对应BS3383公开的等响曲线数据表内数据,afy、bfy和cfy为BS3383中定义的查表参数,其响度计算是采用线性插值法对现有等响曲线数据进行插值,从而得到对应目标频点freq的响度值loud,其中,
afy=af(j-1)+(freq-ff(j-1))×(af(j)-af(j-1))/(ff(j)-ff(j-1))(1-1)
bfy=bf(j-1)+(freq-ff(j-1))×(bf(j)-bf(j-1))/(ff(j)-ff(j-1))(1-2)
cfy=cf(j-1)+(freq-ff(j-1))×(cf(j)-cf(j-1))/(ff(j)-ff(j-1))(1-3)
loud=4.2+afy×(dB-cfy)/(1+bfy×(dB-cfy))(1-4)
进一步地,确定各频点对应的响度值后,确定听觉感知加权系数与频率间的关系曲线,得到听觉感知加权数据。每一频点的听觉感知加权系数是基于该频点的响度值进行感知加权系数计算得到的,可以采用下述公式(1-5)计算得到,cof(freq) 听觉感知加权系数,对应图7中的纵坐标,图7为基于该公式计算得到的听觉感知加权系数图。
cof(freq) = (10^loud/20)/1000(1-5)
得到听觉感知加权数据后,查找第一功率谱数据中每一频点对应的第一感知加权系数和第二功率谱数据中每一频点对应的第二感知加权系数
3)基于第一功率谱数据中每一频点对应的功率值和第一感知加权系数进行感知能量计算,得到输入音频数据的听觉感知强度,以及基于第二功率谱数据中每一频点对应的功率值和第二感知加权系数进行感知能量计算,得到输出音频数据的听觉感知强度。
具体地,单个频点的听觉感知强度是通过该频点的功率值与感知加权系数相乘得到的,将各频点的听觉感知强度累加得到输入音频数据的听觉感知强度和输出音频数据的听觉感知强度。具体可采用下述公式得到,为音频数据的听觉感知强度,J为总频点数,i为音频帧序号,j为频点序号,/>为频点j的听觉感知加权系数,/>为频点j的功率值。
相应地,基于上述公式可以计算得到输入音频数据的听觉感知强度和输出音频数据的听觉感知强度/>,第一听感质量贡献值/>为/>
在运算减载事件触发S203后,统计当前运行的各音频处理算法的第一听感质量贡献值,该第一听感质量贡献值通过音频处理算法处理前和处理后的音频数据的主观感知功率谱差值(第一功率谱数据和第二功率谱数据通过听觉感知加权系数相乘处理后得到的间的差异)来表述,提供主观听觉上的评估数据,进而作为后续候选算法集筛选的数据基础。
S303:针对每一候选算法集,确定候选算法集中各候选算法各自的第二听感质量贡献值。
具体地,第二听感质量贡献值用于指示输入音频数据经候选算法处理后在听觉感知质量上的提升程度。
可以理解地,候选算法集相当于关闭部分当前运行的音频处理算法和/或将至少部分音频处理算法替换为计算复杂度低的降级算法。若候选算法集中仍包括该音频处理算法,则听感质量负增益为零;若关闭当前运行的音频处理算法,相应存在的听感质量负增益为第一听感质量贡献值;若将其替换为降级算法,即配置低复杂度的降级算法通常会存在听觉感知贡献值下降,则该替换操作形成的听感质量负增益为第一听感质量贡献值与第二听感质量贡献值间的差值,下降值的计算可以通过先验经验进行标定或估计,进而得到增益下降系数,增益下降系数用于指示降级算法相对于原音频处理算法的听感质量下降程度,增益下降系数大于零且小于1。相应地,一些实施例中,若候选算法为降级算法,第二听感质量贡献值的获取方式包括S3031-S3032:
S3031:获取降级算法对应的增益下降系数;
S3032:基于增益下降系数和第一听感质量贡献值进行贡献值计算,得到第二听感质量贡献值,第二听感质量贡献值小于第一听感质量贡献值。
具体地,这里的贡献值计算是指将增益下降系数与第一听感质量贡献值相乘得到第二听感质量贡献值。以AI降噪算法为例,终端可以关闭该AI降噪算法则其带来的第一听觉感知贡献值则变为0,也可以选取本地参数规模比当前AI降噪算法更小的降噪模型进行降噪处理,即降级算法替换,实验数据标定出作为降级算法的降噪模型相较于原AI降噪算法的增益下降系数为0.8,则第二听感贡献值为0.8×。如此,通过预先估计增益下降系数简化降级算法的听感贡献计算,以提升候选算法集的筛选效率。
S305:基于当前音频算法集对应的各第一听感质量贡献值与候选算法集对应的各第二听感质量贡献值间的差异,生成每一候选算法集的听感差异信息。
具体地,统计当前运行的各音频处理算法中每一音频处理算法相对于候选算法集的听感质量负增益值,如前述地,若候选算法集中不包括该音频处理算法或其降级算法,则听感质量负增益值为第一听感质量贡献值,若存在降级算法,则将第一听感质量贡献值与第二听感质量贡献值间的差值确定为单个音频处理算法降级后的听感质量负增益值,若存在该音频处理算法,则听感质量负增益值为0。相应地,将各当前运行的音频处理算法的听感质量负增益值累加得到听感差异信息。或者,可以统计当前音频算法集的各第一听感质量贡献值的累加加和,得到第一总贡献值,以及候选算法集的各第二听感质量贡献值的累加加和,得到第二总贡献值,将第一总贡献值与第二总贡献值的差值确定为听感差异信息。如此,从主观听觉上评价候选算法集和当前音频算法集的差异,以避免降级后的过度音质损失。
以降噪模块的AI降噪算法为例,对输入降噪模块前的音频信号先计算出第听觉感知强度,对经过降噪模块处理的输出音频信号计算出听觉感知强度/>,则降噪算法(定义为第n个算法)的第一听感质量贡献值为/>;若关闭降噪模块,则听感质量负增益值Dscv(n)为Dscv(n) = SCV(n),而选择降级算法,则其第二听感质量贡献值为a ×SCV(n),这里a是增益下降系数,是相对于当前运行的音频处理算法(设备默认参数)的降噪算法的贡献折算系数,因此听感质量负增益值为Dscv(n) =(1-a)×SCV(n),该值越小,表征听感质量损失越小,反之越大。若当前音频算法集中包括5个音频处理算法,则先计算当前5个音频处理算法的第一总贡献值,然后预估各候选算法集(如可以是52个)的第二总贡献值,进而求出各候选算法集对应的听感差异信息。
一些实施例中,开销差异信息的获取方式包括S401-S403:
S401:获取当前音频算法集的第一开销信息和各候选算法集各自的第二开销信息;
S403:分别基于当前音频算法集的第一开销信息与各候选算法集的第二开销信息间的差异,生成每一候选算法集的开销差异信息。
具体地,第一开销信息用于指示当前运行的各音频处理算法消耗的运算资源量,第二开销信息用于指示运行候选算法集的各候选算法所需消耗的运算资源量;开销差异信息用于指示第一开销信息与第二开销信息间的差距。如此,通过开销差异评估候选算法集的计算节省量,有利于优化设备运行状态,降低多余开销。
可以理解地,每一音频处理算法和每一降级算法的计算开销值可以是基于经验或实验标定的预设值,如可以预先设置先验数据表。或者,可以在确定音频处理算法的计算开销值后,基于先验估计确定其降级算法的开销折算系数,进而将音频处理算法的计算开销值与开销折算系数相乘,得到降级算法的计算开销值。开销折算系数大于零且小于1,其值越大表征计算开销下降越多,反之越少;示例性地,默认降噪算法n的计算开销值为CCV(n),而降级参数下的降噪算法(降级算法)的计算开销值为b×CCV(n),b为先验计算的开销折算系数,相应地,关闭降噪算法的计算开销节省值Dccv(n)为Dccv(n) = CCV(n),若采取降级参数的降噪算法的计算开销节省值为Dccv(n) =(1-b)×CCV(n)。
可以统计当前音频算法集中各音频处理算法各自的计算开销值,进而求和计算得到当前音频算法集的第一开销信息,第一开销信息为当前运行的各音频处理算法的总开销值,相类似的,确定每一候选算法集中各候选算法各自的计算开销值,进而求和计算每一候选算法集的总开销值,得到不同算法组合的各候选算法集各自的第二开销信息,从而将第一开销信息与第二开销信息间的差值确定为开销差异信息,以表征当前音频算法集与候选算法集间的计算开销节省值。
S205:根据听感差异信息和开销差异信息确定多个候选算法集中的目标算法集。
具体地,听感差异信息对应的差异值越大,表征候选算法集的音质负增益越大,即切换至候选算法后输出的音频数据的音频质量较当前算法集输出的音频数据越差,反之,音质负增益越小;开销差异信息对应的差异值越大,表明运行候选算法集的各候选算法较运行当前音频算法集的资源开销下降量越大,反之越小。相应地,通过听感差异信息和开销差异信息对候选算法集进行评估,以得到综合的评价指标数据,以作为目标算法集的筛选标准。
一些实施例中,S205可以包括S501-S503:
S501:根据多个候选算法集各自对应的听感差异信息和开销差异信息,确定每一候选算法集的评价指标数据;
S503:基于评价指标数据从多个候选算法集中确定目标算法集。
具体地,评价指标数据与听感差异信息呈数值负相关,即听感差异信息对应的差异值越大,评价指标数据对应的评分越低,反之越高。评价指标数据与开销差异信息呈数值正相关,即开销差异信息对应的差异值越大,评价指标数据对应的评分越高,反之越低。如此,通过评价指标数据能够综合听感音质负增益信息和资源开销的下降信息,以尽可能在降低计算负载的同时避免音质下降过大,从而避免设备运行问题且确保音质。
一些实施例中,S503可以包括:将多个候选算法集中评价指标数据最高的候选算法集确定为目标算法集,以将评分最高的候选算法集确定为目标算法集,从而最大程度的降低音频处理的计算开销。
一些情况下,可能存在评价指标数据相同的不止一个候选算法集,相应地,将其中开销差异信息对应的差异值最大的候选算法集确定为目标算法集,或者将听感差异信息对应的差异值最小的候选算法集确定为目标算法集。
另一些实施例中,预设告警状态包括多个告警级别,S503可以包括:基于评价指标数据对多个候选算法集排序,得到算法集排序结果;基于预设对应关系确定当前告警级别在算法集排序结果中对应的目标排名,并将目标排名对应的候选算法集确定为目标算法集。算法集排序结果中,排名越靠前,评价指标数据对应的评分值越高,反之越低。如此,通过设置多级告警并影响相应的算法集筛选,以在告警级别较低的情况下尽可能确保音质,而在告警级别较高的情况下偏重开销节省,灵活适配各种状态。
具体地,预设对应关系包括多个告警级别与多个排名间的映射关系,告警级别指示的告警严重程度与目标排名对应的评价指标数据间呈数值正相关,即告警严重程度越高,其所对应的评价指标数据越大,以更进一步降低计算负载。预设对应关系中的映射关系可以是指固定的告警级别与排名次间的对应关系,如共3级告警级别,1级对应排名6,2级对应排名3,3级对应排名1,即最高告警级别对应排名最靠前的评价指标数据。或者,预设对应关系中的映射关系也可以是指告警级别与排名区间的对应关系,某一告警级别与排名比例相关,排名比例是指目标排名的位次与候选算法集数量的比,如告警级别1对应排序结果中的2/3,告警2对应排序结果中的1/3,告警级别3对应排序结果中最靠前排名;示例性地,共9个候选算法集,告警级别1对应排序结果中的第六名,告警2对应排序结果中的第三名,告警级别3对应的目标排名为第一名。
一些实施例中,评价指标数据可以通过开销差异信息对应的差异值和听感差异信息对应的差异值加权求和得到。相应地,第m个候选算法集的评价指标数据的计算公式如下式所示,其中n为候选算法集中的第n个候选算法,N为候选算法集中的候选算法总量,f1和f2分别为计算开销差异信息的差异值的映射函数和听感差异信息的差异值的映射函数,两者均为单调递增函数,/>为开销差异信息对应的异常值,为听感差异信息对应的异常值,/>和/>分别为权重系数,特殊情况下,二者可以取值为1。
通过上述综合打分方法可以表述选取的该组候选算法的参数对主观音质损失和计算开销降低收益的最终结果,例如在一些安静场景下进行VoIP(Voice over InternetProtocol,基于IP的语音传输)双人通话,降噪算法可以关闭或者采用降级参数的降级算法运行,其计算开销节省量比较可观,而主观贡献负增益几乎为0,这种降级参数选择带来的score值是比较高的,因此通过上述方式能够将所有可选降级参数的候选算法集的综合打分值进行排序,最终选取目标算法集的参数作为执行参数,以合理配置音频处理模块的运行参数,作为本周期的最终配置结果。
可以理解地,如前文,可以周期性获取电子设备当前的运行参数信息,在确定告警状态下确定出当前周期所对应的目标算法集,以进行当前周期的音频数据处理,若在后续周期中随环境或设备运行状态变化,基于运行参数信息重复上述告警判断操作,进行该周期的目标算法集的确定操作,以进行更新的音频数据处理。若该周期未达到告警状态,则可基于设定采用原默认的音频算法集进行音频处理,或者维持当前的目标算法集进行音频处理。通过本申请的算法选择方式,实现音频处理算法的自动配置,以检测各音频处理算法对当前应用的主观听感贡献和开销占用,给予最优状态适配。
S207:基于目标算法集对待处理音频数据进行音频处理,得到目标音频数据。
具体地,通过控制音频处理模块中各算法的使能开关和模型可选参数等进行算法切换,将当前音频算法集切换至运行目标算法集中的各算法,以并行或串行的对待处理音频数据进行处理,合理配置音频处理模块的参数,从而降低音频处理的计算负载和资源占用,避免设备卡顿、发热量过大等异常。
基于上述部分或全部实施方式,一些实施例中,在确定各音频处理算法的第一听感质量贡献值后,可以将各第一听感贡献值与预设贡献值比较,预设贡献值为表征音频处理算法具有听感质量贡献的数值下限,低于该值则表明算法处理前后的听感质量差异过低。若第一听感贡献值小于等于预设贡献值,则将该当前运行的音频处理算法贡献过低,相应地,将各候选算法集中的该音频处理算法或该音频处理算法对应的降级算法去除,以得到更新的候选算法集,则后续相应的关于候选算法的第二听感贡献值、开销差异信息计算或音频处理步骤中,均基于各个更新的候选算法集作为数据基础,进而从各更新的候选算法集中确定出目标算法集,以进行待处理音频数据的音频处理,得到目标音频数据。极端情况下,当前音频算法集中的各音频处理算法的第一听感贡献值均低于预设贡献值,相应地,多个候选算法集中的候选算法均去除,以待处理音频数据作为目标音频数据,如一些终端设备的声学硬件设计和硬件芯片已具备音频问题解决方案,在音频信号采集阶段就解决了相关声音问题,所得到的待处理音频数据则无需再进行音频处理算法处理,相应无需选择候选算法集,关闭当前运行的各音频处理算法。
本申请的技术方案能够根据当前音频应用的音频信号特点、主观音质问题以及音频数据处理中各音频处理算法的开销分析,周期性判断当前设备是否处于开销告警状态,若进入告警状态,则对各音频处理算法及其各种候选算法集合的音频主观质量贡献、计算开销做综合评估打分,以综合评分最高或告警等级对应的候选参数集作为更新的音频数据处理执行参数并实施,从主观听觉贡献角度衡量各音频数据处理模块存在的合理性和必要性,进而避免无效或低效的模块计算开销,实现主观感知和开销协同的动态最优方案,从而降低设备出现卡顿、发热等问题。并且,该方案与当前应用场景需求灵活适配,算法参数切换机制科学有效,避免多个高复杂度算法并行或串行无效或低效运行导致的系统cpu负载超标、终端运行过程电池发热量激增、以及用户体验较差的问题。
本申请实施例还提供了一种音频数据处理装置,应用于电子设备,如图8所示,图8示出了本申请实施例提供的一种图像处理装置的结构示意图,装置可以包括下述模块。
第一获取模块10:用于获取待处理音频数据;
第二获取模块20:用于分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;当前音频算法集包括当前运行的各音频处理算法,候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一;听感差异信息用于指示待处理音频数据分别经当前音频算法集和候选算法集对应的音频处理后在听觉感知维度的质量差异,开销差异信息用于指示分别运行音频算法集和候选算法集的算法所需运算资源消耗的差异;
目标集确定模块30:用于根据听感差异信息和开销差异信息确定多个候选算法集中的目标算法集;
音频处理模块40:用于基于目标算法集对待处理音频数据进行音频处理,得到目标音频数据。
一些实施例中,装置还包括:
第三获取模块:用于获取电子设备当前的运行参数信息;
告警模块:用于若当前的运行参数信息指示设备运行状态达到预设告警状态,执行分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息的步骤。
一些实施例中,第二获取模块20包括:
第一听感子模块:用于获取当前运行的各音频处理算法各自的第一听感质量贡献值,第一听感质量贡献值用于指示待处理音频数据对应的输入音频数据经音频处理算法处理后在听觉感知质量上的提升程度;输入音频数据为待处理音频数据或待处理音频数据经其它一种或几种当前运行的音频处理算法处理后的数据;
第二听感子模块:用于针对每一候选算法集,确定候选算法集中各候选算法各自的第二听感质量贡献值,第二听感质量贡献值用于指示输入音频数据经候选算法处理后在听觉感知质量上的提升程度;
听感差异子模块:用于基于当前音频算法集对应的各第一听感质量贡献值与候选算法集对应的各第二听感质量贡献值间的差异,生成每一候选算法集的听感差异信息。
一些实施例中,第一听感子模块包括:
听感强度单元:用于针对每一当前运行的音频处理算法,获取音频处理算法的输入音频数据的听觉感知强度和输入音频数据经音频处理算法处理后的输出音频数据的听觉感知强度;听觉感知强度用于表征人耳对音频数据的感知程度;
感知强度差异单元:用于根据输入音频数据的听觉感知强度和输出音频数据的听觉感知强度间的差异生成第一听感质量贡献值。
一些实施例中,听感强度单元包括:
功率谱获取子单元:用于获取输入音频数据的第一功率谱数据和输出音频数据的第二功率谱数据;
加权系数确定子单元:用于基于听觉感知加权数据确定第一功率谱数据中每一频点对应的第一感知加权系数和第二功率谱数据中每一频点对应的第二感知加权系数,听觉感知加权数据用于指示感知加权系数与声波频率间的对应关系,是基于预设的心理声学等响曲线数据计算得到的,心理声学等响曲线数据为等响度条件下声压级与声波频率的关系曲线;
感知能量计算子单元:用于基于第一功率谱数据中每一频点对应的功率值和第一感知加权系数进行感知能量计算,得到输入音频数据的听觉感知强度,以及基于第二功率谱数据中每一频点对应的功率值和第二感知加权系数进行感知能量计算,得到输出音频数据的听觉感知强度。
一些实施例中,若候选算法为降级算法,第二听感子模块包括:
下降系数获取单元:用于获取降级算法对应的增益下降系数,增益下降系数用于指示降级算法相对于原音频处理算法的听感质量下降程度;
贡献值计算单元:用于基于增益下降系数和第一听感质量贡献值进行贡献值计算,得到第二听感质量贡献值,第二听感质量贡献值小于第一听感质量贡献值。
一些实施例中,第二获取模块20包括:
开销获取子模块:用于获取当前音频算法集的第一开销信息和各候选算法集各自的第二开销信息,第一开销信息用于指示当前运行的各音频处理算法消耗的运算资源量,第二开销信息用于指示运行候选算法集的各候选算法所需消耗的运算资源量;
开销差异子模块:用于分别基于当前音频算法集的第一开销信息与各候选算法集的第二开销信息间的差异,生成每一候选算法集的开销差异信息。
一些实施例中,目标集确定模块30包括:
评价指标子模块:用于根据多个候选算法集各自对应的听感差异信息和开销差异信息,确定每一候选算法集的评价指标数据,评价指标数据与听感差异信息呈数值负相关,评价指标数据与开销差异信息呈数值正相关;
目标候选集子模块:用于基于评价指标数据从多个候选算法集中确定目标算法集。
一些实施例中,目标候选集子模块可以具体用于:将多个候选算法集中评价指标数据最高的候选算法集确定为目标算法集。
另一些实施例中,预设告警状态包括多个告警级别,目标候选集子模块包括:
排序单元:用于基于评价指标数据对多个候选算法集排序,得到算法集排序结果;
排名确定单元:用于基于预设对应关系确定当前告警级别在算法集排序结果中对应的目标排名,并将目标排名对应的候选算法集确定为目标算法集,预设对应关系包括多个告警级别与多个排名间的映射关系,告警级别指示的告警严重程度与目标排名对应的评价指标数据间呈数值正相关。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种音频数据处理方法。
图9示出了一种用于实现本申请实施例所提供的一种音频数据处理方法的设备的硬件结构示意图,设备可以参与构成或包含本申请实施例所提供的装置或系统。如图9所示,设备10可以包括一个或多个(图中采用1002a、1002b,……,1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1004可用于存储应用软件的软件程序以及模块,如本申请实施例中的方法对应的程序指令/数据存储装置,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种音频数据处理方法。存储器1004可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1006可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种音频数据处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种音频数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施方式中提供的一种音频数据处理方法。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (23)

1.一种音频数据处理方法,其特征在于,应用于电子设备,所述方法包括:
获取待处理音频数据;
分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;所述当前音频算法集包括当前运行的各音频处理算法,所述候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一;所述听感差异信息用于指示所述待处理音频数据分别经所述当前音频算法集和所述候选算法集对应的音频处理后在听觉感知维度的质量差异,所述开销差异信息用于指示分别运行所述当前音频算法集和所述候选算法集的算法所需运算资源消耗的差异;所述降级算法是指与当前运行的原音频处理算法的音频处理功能相同且计算开销更低的算法;
根据所述听感差异信息和所述开销差异信息确定所述多个候选算法集中的目标算法集;
基于所述目标算法集对所述待处理音频数据进行音频处理,得到目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述电子设备当前的运行参数信息;
若所述当前的运行参数信息指示设备运行状态达到预设告警状态,执行所述分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息的步骤。
3.根据权利要求1所述的方法,其特征在于,所述听感差异信息的获取方式包括:
获取所述当前运行的各音频处理算法各自的第一听感质量贡献值,所述第一听感质量贡献值用于指示所述待处理音频数据对应的输入音频数据经所述音频处理算法处理后在听觉感知质量上的提升程度;所述输入音频数据为所述待处理音频数据或所述待处理音频数据经其它一种或几种当前运行的音频处理算法处理后的数据;
针对每一所述候选算法集,确定所述候选算法集中各候选算法各自的第二听感质量贡献值,所述第二听感质量贡献值用于指示所述输入音频数据经所述候选算法处理后在听觉感知质量上的提升程度;
基于所述当前音频算法集对应的各所述第一听感质量贡献值与所述候选算法集对应的各所述第二听感质量贡献值间的差异,生成每一所述候选算法集的听感差异信息。
4.根据权利要求3所述的方法,其特征在于,所述第一听感质量贡献值的获取方式包括:
针对每一当前运行的音频处理算法,获取所述音频处理算法的输入音频数据的听觉感知强度和所述输入音频数据经所述音频处理算法处理后的输出音频数据的听觉感知强度;所述听觉感知强度用于表征人耳对音频数据的感知程度;
根据所述输入音频数据的听觉感知强度和所述输出音频数据的听觉感知强度间的差异生成所述第一听感质量贡献值。
5.根据权利要求4所述的方法,其特征在于,所述听觉感知强度的获取方式包括:
获取所述输入音频数据的第一功率谱数据和所述输出音频数据的第二功率谱数据;
基于听觉感知加权数据确定所述第一功率谱数据中每一频点对应的第一感知加权系数和所述第二功率谱数据中每一频点对应的第二感知加权系数,所述听觉感知加权数据用于指示感知加权系数与声波频率间的对应关系,是基于预设的心理声学等响曲线数据计算得到的,所述心理声学等响曲线数据为等响度条件下声压级与声波频率的关系曲线;
基于所述第一功率谱数据中每一频点对应的功率值和第一感知加权系数进行感知能量计算,得到所述输入音频数据的听觉感知强度,以及基于所述第二功率谱数据中每一频点对应的功率值和第二感知加权系数进行感知能量计算,得到所述输出音频数据的听觉感知强度。
6.根据权利要求3所述的方法,其特征在于,若所述候选算法为所述降级算法,所述第二听感质量贡献值的获取方式包括:
获取所述降级算法对应的增益下降系数,所述增益下降系数用于指示所述降级算法相对于原音频处理算法的听感质量下降程度;
基于所述增益下降系数和所述第一听感质量贡献值进行贡献值计算,得到所述第二听感质量贡献值,所述第二听感质量贡献值小于所述第一听感质量贡献值。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述开销差异信息的获取方式包括:
获取所述当前音频算法集的第一开销信息和各所述候选算法集各自的第二开销信息,所述第一开销信息用于指示所述当前运行的各音频处理算法消耗的运算资源量,所述第二开销信息用于指示运行所述候选算法集的各候选算法所需消耗的运算资源量;
分别基于所述当前音频算法集的第一开销信息与各所述候选算法集的第二开销信息间的差异,生成每一所述候选算法集的开销差异信息。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述听感差异信息和所述开销差异信息确定所述多个候选算法集中的目标算法集包括:
根据所述多个候选算法集各自对应的所述听感差异信息和所述开销差异信息,确定每一所述候选算法集的评价指标数据,所述评价指标数据与所述听感差异信息呈数值负相关,所述评价指标数据与所述开销差异信息呈数值正相关;
基于所述评价指标数据从所述多个候选算法集中确定所述目标算法集。
9.根据权利要求8所述的方法,其特征在于,所述基于所述评价指标数据从所述多个候选算法集中确定所述目标算法集包括:
将所述多个候选算法集中所述评价指标数据最高的候选算法集确定为所述目标算法集。
10.根据权利要求8所述的方法,其特征在于,预设告警状态包括多个告警级别,所述基于所述评价指标数据从所述多个候选算法集中确定所述目标算法集包括:
基于所述评价指标数据对所述多个候选算法集排序,得到算法集排序结果;
基于预设对应关系确定当前告警级别在所述算法集排序结果中对应的目标排名,并将所述目标排名对应的候选算法集确定为所述目标算法集,所述预设对应关系包括多个告警级别与多个排名间的映射关系,所述告警级别指示的告警严重程度与所述目标排名对应的评价指标数据间呈数值正相关。
11.一种音频数据处理装置,其特征在于,应用于电子设备,所述装置包括:
第一获取模块:用于获取待处理音频数据;
第二获取模块:用于分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息;所述当前音频算法集包括当前运行的各音频处理算法,所述候选算法集的候选算法包括部分当前运行的音频处理算法和至少部分当前运行的音频处理算法对应的降级算法中的至少之一;所述听感差异信息用于指示所述待处理音频数据分别经所述当前音频算法集和所述候选算法集对应的音频处理后在听觉感知维度的质量差异,所述开销差异信息用于指示分别运行所述当前音频算法集和所述候选算法集的算法所需运算资源消耗的差异;所述降级算法是指与当前运行的原音频处理算法的音频处理功能相同且计算开销更低的算法;
目标集确定模块:用于根据所述听感差异信息和所述开销差异信息确定所述多个候选算法集中的目标算法集;
音频处理模块:用于基于所述目标算法集对所述待处理音频数据进行音频处理,得到目标音频数据。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第三获取模块:用于获取所述电子设备当前的运行参数信息;
告警模块:用于若所述当前的运行参数信息指示设备运行状态达到预设告警状态,执行所述分别获取当前音频算法集与多个候选算法集间的听感差异信息和开销差异信息的步骤。
13.根据权利要求11所述的装置,其特征在于,所述第二获取模块包括:
第一听感子模块:用于获取所述当前运行的各音频处理算法各自的第一听感质量贡献值,所述第一听感质量贡献值用于指示所述待处理音频数据对应的输入音频数据经所述音频处理算法处理后在听觉感知质量上的提升程度;所述输入音频数据为所述待处理音频数据或所述待处理音频数据经其它一种或几种当前运行的音频处理算法处理后的数据;
第二听感子模块:用于针对每一所述候选算法集,确定所述候选算法集中各候选算法各自的第二听感质量贡献值,所述第二听感质量贡献值用于指示所述输入音频数据经所述候选算法处理后在听觉感知质量上的提升程度;
听感差异子模块:用于基于所述当前音频算法集对应的各所述第一听感质量贡献值与所述候选算法集对应的各所述第二听感质量贡献值间的差异,生成每一所述候选算法集的听感差异信息。
14.根据权利要求13所述的装置,其特征在于,所述第一听感子模块包括:
听感强度单元:用于针对每一当前运行的音频处理算法,获取所述音频处理算法的输入音频数据的听觉感知强度和所述输入音频数据经所述音频处理算法处理后的输出音频数据的听觉感知强度;所述听觉感知强度用于表征人耳对音频数据的感知程度;
感知强度差异单元:用于根据所述输入音频数据的听觉感知强度和所述输出音频数据的听觉感知强度间的差异生成所述第一听感质量贡献值。
15.根据权利要求14所述的装置,其特征在于,所述听感强度单元包括:
功率谱获取子单元:用于获取所述输入音频数据的第一功率谱数据和所述输出音频数据的第二功率谱数据;
加权系数确定子单元:用于基于听觉感知加权数据确定所述第一功率谱数据中每一频点对应的第一感知加权系数和所述第二功率谱数据中每一频点对应的第二感知加权系数,所述听觉感知加权数据用于指示感知加权系数与声波频率间的对应关系,是基于预设的心理声学等响曲线数据计算得到的,所述心理声学等响曲线数据为等响度条件下声压级与声波频率的关系曲线;
感知能量计算子单元:用于基于所述第一功率谱数据中每一频点对应的功率值和第一感知加权系数进行感知能量计算,得到所述输入音频数据的听觉感知强度,以及基于所述第二功率谱数据中每一频点对应的功率值和第二感知加权系数进行感知能量计算,得到所述输出音频数据的听觉感知强度。
16.根据权利要求13所述的装置,其特征在于,若所述候选算法为所述降级算法,第二听感子模块包括:
下降系数获取单元:用于获取所述降级算法对应的增益下降系数,所述增益下降系数用于指示所述降级算法相对于原音频处理算法的听感质量下降程度;
贡献值计算单元:用于基于所述增益下降系数和所述第一听感质量贡献值进行贡献值计算,得到所述第二听感质量贡献值,所述第二听感质量贡献值小于所述第一听感质量贡献值。
17.根据权利要求11-16中任一项所述的装置,其特征在于,所述第二获取模块包括:
开销获取子模块:用于获取所述当前音频算法集的第一开销信息和各所述候选算法集各自的第二开销信息,所述第一开销信息用于指示所述当前运行的各音频处理算法消耗的运算资源量,所述第二开销信息用于指示运行所述候选算法集的各候选算法所需消耗的运算资源量;
开销差异子模块:用于分别基于所述当前音频算法集的第一开销信息与各所述候选算法集的第二开销信息间的差异,生成每一所述候选算法集的开销差异信息。
18.根据权利要求11-16中任一项所述的装置,其特征在于,目标集确定模块包括:
评价指标子模块:用于根据所述多个候选算法集各自对应的所述听感差异信息和所述开销差异信息,确定每一所述候选算法集的评价指标数据,所述评价指标数据与所述听感差异信息呈数值负相关,所述评价指标数据与所述开销差异信息呈数值正相关;
目标候选集子模块:用于基于所述评价指标数据从所述多个候选算法集中确定所述目标算法集。
19.根据权利要求18所述的装置,其特征在于,所述目标候选集子模块具体用于:将所述多个候选算法集中所述评价指标数据最高的候选算法集确定为所述目标算法集。
20.根据权利要求18所述的装置,其特征在于,预设告警状态包括多个告警级别,所述目标候选集子模块包括:
排序单元:用于基于所述评价指标数据对所述多个候选算法集排序,得到算法集排序结果;
排名确定单元:用于基于预设对应关系确定当前告警级别在所述算法集排序结果中对应的目标排名,并将所述目标排名对应的候选算法集确定为所述目标算法集,所述预设对应关系包括多个告警级别与多个排名间的映射关系,所述告警级别指示的告警严重程度与所述目标排名对应的评价指标数据间呈数值正相关。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至10中任一项所述的音频数据处理方法。
22.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行以实现如权利要求1至10中任一项所述的音频数据处理方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至10中任一项所述的音频数据处理方法。
CN202410204094.8A 2024-02-23 2024-02-23 音频数据处理方法、装置、介质、设备及程序产品 Active CN117789740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410204094.8A CN117789740B (zh) 2024-02-23 2024-02-23 音频数据处理方法、装置、介质、设备及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410204094.8A CN117789740B (zh) 2024-02-23 2024-02-23 音频数据处理方法、装置、介质、设备及程序产品

Publications (2)

Publication Number Publication Date
CN117789740A CN117789740A (zh) 2024-03-29
CN117789740B true CN117789740B (zh) 2024-04-19

Family

ID=90380021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410204094.8A Active CN117789740B (zh) 2024-02-23 2024-02-23 音频数据处理方法、装置、介质、设备及程序产品

Country Status (1)

Country Link
CN (1) CN117789740B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300946A (zh) * 2017-02-14 2019-10-01 微软技术许可有限责任公司 智能助理
CN111383643A (zh) * 2018-12-28 2020-07-07 南京中感微电子有限公司 一种音频丢包隐藏方法、装置及蓝牙接收机
CN114090262A (zh) * 2021-11-29 2022-02-25 Oppo广东移动通信有限公司 对象处理方法及装置、电子设备、存储介质
CN115148182A (zh) * 2021-03-15 2022-10-04 阿里巴巴新加坡控股有限公司 语音合成方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110300946A (zh) * 2017-02-14 2019-10-01 微软技术许可有限责任公司 智能助理
CN111383643A (zh) * 2018-12-28 2020-07-07 南京中感微电子有限公司 一种音频丢包隐藏方法、装置及蓝牙接收机
CN115148182A (zh) * 2021-03-15 2022-10-04 阿里巴巴新加坡控股有限公司 语音合成方法及装置
CN114090262A (zh) * 2021-11-29 2022-02-25 Oppo广东移动通信有限公司 对象处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN117789740A (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
EP3055983B1 (en) Predicting call quality
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
US20220230651A1 (en) Voice signal dereverberation processing method and apparatus, computer device and storage medium
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
US11778106B2 (en) Detecting and flagging acoustic problems in video conferencing
US11605392B2 (en) Automatic gain control based on machine learning level estimation of the desired signal
WO2022218252A1 (zh) 音频信号中噪声响度的获取方法、装置和电子设备
CN113949956A (zh) 降噪处理方法、装置、电子设备、耳机及存储介质
CN117789740B (zh) 音频数据处理方法、装置、介质、设备及程序产品
CN108804069B (zh) 音量调节方法及装置、存储介质、电子设备
GB2490092A (en) Reducing howling by applying a noise attenuation factor to a frequency which has above average gain
US11818556B2 (en) User satisfaction based microphone array
US20230066600A1 (en) Adaptive noise suppression for virtual meeting/remote education
CN114822570B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
CN112489680B (zh) 声学回声消除算法的评估方法、装置及终端设备
JP5376635B2 (ja) 雑音抑圧処理選択装置,雑音抑圧装置およびプログラム
CN110173864B (zh) 空调器的控制方法、空调器及存储介质
CN114071220A (zh) 音效调节方法、装置、存储介质及电子设备
WO2021042538A1 (zh) 一种音频处理方法、装置及计算机存储介质
WO2023020208A1 (zh) 音频信号处理方法及装置、耳机、存储介质
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
US11902745B2 (en) System of processing devices to perform an algorithm
EP4258263A1 (en) Apparatus and method for noise suppression
WO2022173706A1 (en) Echo reference prioritization and selection
JP2004061567A (ja) ノイズキャンセラ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant