CN115116460B - 音频信号增强方法、装置、设备、存储介质及程序产品 - Google Patents

音频信号增强方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115116460B
CN115116460B CN202210693468.8A CN202210693468A CN115116460B CN 115116460 B CN115116460 B CN 115116460B CN 202210693468 A CN202210693468 A CN 202210693468A CN 115116460 B CN115116460 B CN 115116460B
Authority
CN
China
Prior art keywords
audio
sub
feature
representations
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210693468.8A
Other languages
English (en)
Other versions
CN115116460A (zh
Inventor
罗艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210693468.8A priority Critical patent/CN115116460B/zh
Publication of CN115116460A publication Critical patent/CN115116460A/zh
Application granted granted Critical
Publication of CN115116460B publication Critical patent/CN115116460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音频信号增强方法、装置、设备、存储介质及程序产品,涉及语音技术处理领域。该方法包括:获取目标音频;对目标音频进行特征提取,得到与目标音频对应的音频特征表示;沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示;基于至少两个音频子特征表示在时域维度的累进分布关系,确定与至少两个音频子特征表示分别对应的预测子特征表示;对至少两个预测子特征表示进行拼接解码处理,得到目标音频中与目标信号源对应的增强音频信号。通过以上方式,能够使得对预测子特征表示的预测结果更加准确,进而得到目标音频中信号增强效果更好的增强音频信号。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

音频信号增强方法、装置、设备、存储介质及程序产品
技术领域
本申请实施例涉及语音技术处理领域,特别涉及一种音频信号增强方法、装置、设备、存储介质及程序产品。
背景技术
语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰,因此需要通过语音增强技术从带噪音的语音信号中提取尽可能纯净的原始语音,语音增强技术在语音处理、语音识别、语音检测等领域中发挥着重要作用。
相关技术中,通常采用多通道维纳滤波(MCWF)方法、最小方差无失真响应(MVDR)波束成型等方法,基于语音信号的频域特征对语音信号进行处理;或者,对语音信号对应的时域特征进行综合分析。
通过上述方法对语音信号进行分析的过程中,需要获取得到全部语音信号后,才能进行语音分析过程,但当要求更快速地对语音信号进行实时分析时,上述综合分析的方法会使得语音信号的分析效率低下。
发明内容
本申请实施例提供了一种音频信号增强方法、装置、设备、存储介质及程序产品,能够使得预测结果会更加准确,进而得到目标音频中信号增强效果更好的增强音频信号。所述技术方案如下。
一方面,提供了一种音频信号增强方法,所述方法包括:
获取目标音频,所述目标音频中包括与至少一个信号源对应的音频数据;
对所述目标音频进行特征提取,得到与所述目标音频对应的音频特征表示;
沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示;
基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,所述预测子特征表示是针对所述至少一个信号源中的目标信号源预测得到的特征表示;其中,所述累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数;
对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号。
另一方面,提供了一种音频信号增强装置,所述装置包括:
获取模块,用于获取目标音频,所述目标音频中包括与至少一个信号源对应的音频数据;
提取模块,用于对所述目标音频进行特征提取,得到与所述目标音频对应的音频特征表示;
分段模块,用于沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示;
确定模块,用于基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,所述预测子特征表示是针对所述至少一个信号源中的目标信号源预测得到的特征表示;其中,所述累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数;
处理模块,用于对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述音频信号增强方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频信号增强方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的音频信号增强方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
对获取得到目标音频进行特征提取,得到音频特征表示,并沿时域维度对音频特征表示进行分段处理,之后利用分段处理后的多个音频子特征表示在时域维度的累进分布关系,确定与多个音频子特征表示分别对应的预测子特征表示,并对至少两个预测子特征表示进行拼接解码处理,从而得到与目标信号源对应的增强音频信号。通过上述方法,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行实时预测,得到与多个音频子特征表示分别对应的预测子特征表示,预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的音频信号增强方法的流程图;
图3是本申请另一个示例性实施例提供的音频信号增强方法的流程图;
图4是本申请又一个示例性实施例提供的音频信号增强方法的流程图;
图5是本申请一个示例性实施例提供的音频信号增强方法的示意图;
图6是本申请一个示例性实施例提供的分段处理示意图;
图7是本申请再一个示例性实施例提供的音频信号增强方法的流程图;
图8是本申请其余一个示例性实施例提供的音频信号增强方法的流程图;
图9是本申请一个示例性实施例提供的音频信号增强装置的结构框图;
图10是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
相关技术中,通常采用多通道维纳滤波(MCWF)方法、最小方差无失真响应(MVDR)波束成型等方法,基于语音信号的频域特征对语音信号进行处理;或者,沿时域特征对语音信号对应的时域特征进行综合分析。通过上述方法对语音信号进行分析时,即便可能采用从时域维度的方法对语音信号进行分析,但当需要更快速地对语音信号进行实时分析时,上述综合分析的方法则会使得语音信号的分析效率低下。
本申请实施例中,提供了一种音频信号增强方法,能够使得预测结果会更加准确,进而得到目标音频中信号增强效果更好的增强音频信号。针对本申请训练得到的音频信号增强方法,在应用时包括音频增强场景、音频增强后的音频识别场景等。值得注意的是,上述应用场景仅为示意性的举例,本实施例提供的音频信号增强方法还可以应用于其他场景中,本申请实施例对此不加以限定。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的目标音频、音频数据等都是在充分授权的情况下获取的。
其次,对本申请实施例中涉及的实施环境进行说明,示意性的,请参考图1,该实施环境中涉及终端110、服务器120,终端110和服务器120之间通过通信网络130连接。
在一些实施例中,终端110用于向服务器120发送目标音频。在一些实施例中,终端110中安装有具有音频获取功能的应用程序,以获取得到目标音频。其中,目标音频是与至少一个信号源对应的音频数据,例如:当目标音频是针对单个信号源采集得到的音频数据时,目标音频为单通道音频数据;当目标音频是针对多个信号源采集得到的音频数据时,目标音频为多通道音频数据。
本申请实施例提供的音频信号增强方法可以由终端110单独执行实现,也可以由服务器120执行实现,或者由终端110和服务器120通过数据交互实现,本申请实施例对此不加以限定。本实施例中,终端110通过具有音频获取功能的应用程序获取目标音频后,向服务器120发送获取得到的目标音频,示意性的,以服务器120对目标音频进行音频信号增强过程为例进行说明。
可选地,服务器120在接收到终端110发送的目标音频后,对目标音频进行特征提取,得到目标音频对应的音频特征表示,之后沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示,例如:包括音频子特征表示1、音频子特征表示2、音频子特征表示n等。基于至少两个音频子特征表示在时域维度的累进分布关系,确定与至少两个音频子特征表示分别对应的预测子特征表示,例如:包括与音频子特征表示1对应的预测子特征表示1、与音频子特征表示2对应的预测子特征表示2、与音频子特征表示n对应的预测子特征表示n等。其中,累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系。最后,在得到与至少两个音频子特征表示分别对应的预测子特征表示后,对至少两个预测子特征表示进行拼接解码处理,得到目标音频中与至少一个信号源中的目标信号源对应的增强音频信号。例如:当目标音频为单通道音频数据是,该增强音频信号是对目标音频进行增强后的信号;当目标音频为多通道音频数据是,该增强音频信号是对目标音频中目标信号源进行增强后的信号等。
可选地,服务器120将通过目标信号源对应的增强音频信号发送至终端110,由终端110对音频处理结果进行接收、播放、显示等。
值得注意的是,上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。
在一些实施例中,上述服务器还可以实现为区块链系统中的节点。
结合上述名词简介和应用场景,对本申请提供的音频信号增强方法进行说明,以该方法应用于服务器为例,如图2所示,该方法包括如下步骤210至步骤250。
步骤210,获取目标音频。
其中,目标音频中包括与至少一个信号源对应的音频数据。
示意性的,音频用于指示具有音频信息的数据,如:一段音乐、一段语音消息等。可选地,采用终端、录音机等内置或者外接语音采集组件的设备,对音频进行获取。例如:采用配置有麦克风、麦克风阵列或者拾音器的终端,对音频进行获取;或者,采用音频合成应用程序合成音频,从而对音频进行获取等。
在一个可选的实施例中,信号源用于指示声音的来源。示意性的,目标音频对应有两个声源,分别为声源1和声源2,将每一个声源作为一个信号源,则信号源包括与声源1对应的信号源1以及与声源2对应的信号源2。借助麦克风设备、音频数据存储集等,获取得到与信号源1对应的音频数据A,以及与信号源2对应的音频数据B等。例如:通过麦克风设备O获取声源1对应的音频数据A;或者,从音频数据存储集中获取声源2对应的音频数据B等。
示意性的,在一个声音采集环境中,对应包括人声声源(声源1)和乐器声声源(声源2),通过专门收集人声声源的麦克风设备O1对人声声源对应的音频数据进行采集;通过专门收集乐器声声源的麦克风设备O1对乐器声声源对应的音频数据进行采集等,例如:不同的麦克风设备通过声源对应的不同频率进行区别。将人声声源对应的音频数据和乐器声声源对应的音频数据合成后得到目标音频。该目标音频为双通道音频数据,其中,每个单通道音频数据对应一个声源。
步骤220,对目标音频进行特征提取,得到与目标音频对应的音频特征表示。
可选地,音频特征表示是从时域维度对目标音频进行特征提取得到的特征表示,其中,时域维度是采用时间标尺对目标音频在时间上的变化进行记录的维度情况。
示意性的,将获取得到的目标音频输入特征提取网络中,得到与目标音频对应的音频特征表示;或者,对目标音频进行分帧处理后,得到目标音频对应的多个音频帧,通过线性变换编码器,将每一个音频帧的信号转化为音频帧特征表示后,将多个音频帧特征表示沿时域维度进行拼接,得到目标音频对应的音频特征表示等。
步骤230,沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示。
示意性的,分段处理用于指示在时域维度上对音频特征表示进行切分,使得音频特征表示被切分为一系列音频子特征表示(即:至少两个音频子特征表示),一系列音频子特征表示在时域维度上呈现为依次排列的排序情况。例如:第n-1个音频子特征表示为第3分27秒至第3分28秒的第一时域区间对应的特征表示;第n个音频子特征表示为第3分28秒至第3分29秒的第二时域区间对应的特征表示,则第n-1个音频子特征表示与第n个音频子特征表示在时域维度上为相邻关系,且第n-1个音频子特征表示的末尾端为第n个音频子特征表示的起始端。
可选地,在得到音频特征表示后,依照相同的分段间隔,沿时域维度对音频特征表示进行分段处理。示意性的,在得到音频特征表示后,依照1s的分段间隔,对音频特征表示进行分段处理,从而得到至少两个时域片段长度相同的音频子特征表示;或者,在得到音频特征表示后,将5个音频帧作为分段间隔,对音频特征表示进行分段处理,从而得到至少两个时域片段长度相同的音频子特征表示。
可选地,在得到音频特征表示后,依照不同的分段间隔,沿时域维度对音频特征表示进行分段处理,从而得到至少两个时域片段长度不同的音频子特征表示等。
在一个可选的实施例中,目标音频是针对一个信号源采集得到的音频数据,则该目标音频为单通道音频信号。
示意性的,在沿时域维度该目标音频对应的音频特征表示进行分段处理后,得到至少两个音频子特征表示,该至少两个音频子特征与目标音频相对应。
在一个可选的实施例中,目标音频是针对多个信号源采集得到的音频数据,则该目标音频为多通道音频信号。
示意性的,在对沿时域维度该目标音频对应的音频特征表示进行分段处理时,对目标音频对应的音频特征表示进行分段处理,从而得到至少两个音频子特征表示;或者,根据目标音频的多个通道,将音频特征表示转化为与多个通道分别对应的通道特征表示,并在目标音频的每个通道内,对通道对应的通道特征表示进行分段处理后,得到至少两个音频子特征表示等。
步骤240,基于至少两个音频子特征表示在时域维度的累进分布关系,确定与至少两个音频子特征表示分别对应的预测子特征表示。
其中,预测子特征表示是针对至少一个信号源中的目标信号源预测得到的特征表示;累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数。
可选地,从目标音频对应的至少一个信号源中随机选择至少一个信号源作为目标信号源,预测子特征表示是针对目标信号源预测得到的特征表示。
可选地,累进用于指示至少两个音频子特征表示在时域维度上的序列分布情况。此外,通过至少两个音频子特征表示在时域维度上的累进分布关系,在确定第n个音频子特征表示对应的第n个预测子特征表示时,不单单考虑第n个音频子特征表示,而是对时域维度上前n个音频子特征表示进行综合分析,从而借助时域维度上不同音频子特征表示的序列分布情况,对至少两个音频子特征表示分别对应的预测子特征表示进行逐一确定。
示意性的,当确定时域维度上第5个音频子特征表示对应的第5个预测子特征表示时,基于前5个音频子特征表示,确定第5个预测子特征表示。例如:将前5个音频子特征表示进行拼接后,得到音频拼接特征表示,根据音频拼接特征表示中蕴含的前5个音频子特征表示的特征关系,对第5个音频子特征表示对应的第5个预测子特征表示进行预测,从而得到与第5个音频子特征表示对应的第5个预测子特征表示;或者,首先确定前5个音频子特征表示对应的时域区间,之后确定该时域区间内目标音频对应的区间特征表示,然后根据区间特征表示对第5个音频子特征表示对应的第5个预测子特征表示进行预测,从而得到与第5个音频子特征表示对应的第5个预测子特征表示等。
步骤250,对至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到目标音频中与目标信号源对应的增强音频信号。
其中,拼接解码处理包括拼接处理和解码处理。示意性的,在得到至少两个音频子特征表示分别对应的预测子特征表示后,将至少两个预测子特征表示进行拼接处理,得到预测特征表示。
拼接处理用于指示将至少两个预测子特征表示进行拼接,示意性的,在至少两个预测子特征表示处于同一特征维度时,沿时域维度将至少两个音频子特征表示分别对应的预测子特征表示进行向量拼接(Concatenate),使得至少两个预测子特征表示融合为一个预测特征表示。例如:在经过上述分段处理以及预测过程后,得到多个预测子特征表示,其中包括与第一时域区间(第3分27秒至第3分28秒)的第一音频子特征表示对应的第一预测子特征表示,以及与第二时域区间(第3分28秒至第3分29秒)的第二音频子特征表示对应的第二预测子特征表示。当多个预测子特征表示处于同一特征维度时,将包括第一预测子特征表示与第二预测子特征表示的多个预测子特征表示首尾相连,从而得到预测特征表示。
可选地,对预测特征表示进行线性解码操作,生成目标音频中与目标信号源对应的增强音频信号。
解码处理用于指示将预测特征表示(向量形式)转换为数据形式,由于预测特征表示是由预测子特征表示拼接得到特征表示,且预测子特征表示是针对目标信号源预测得到的特征表示,故预测特征表示与目标音频中目标信号源对应的音频数据相关。此外,预测子特征表示与音频子特征表示相对应,故由预测子特征表示拼接得到的预测特征表示在时域维度上呈现连续分布状态。
示意性的,在得到预测特征表示后,将预测特征表示输入一个线性变换解码器中,通过线性变换解码器将连续型的预测特征表示转化为离散型的数据,即:将预测特征表示转化为每一个音频帧的采样点,音频帧是目标音频分帧后的结果,采样点是解码后得到的与目标音频中目标信号源对应的音频离散数据。
可选地,将音频离散数据在时域维度上进行平滑处理,从而得到与预测特征表示对应的数字信号,该数字信号与目标信号源相对应,将该数字信号作为增强音频信号;或者,将经过模数转换后的、与数字信号相对应的电信号作为增强音频信号等,即:生成目标音频中与目标信号源对应的增强音频信号。
其中,由于预测子特征表示是针对目标信号源得到的特征表示,故基于预测子特征表示得到的增强音频信号与目标信号源相关。增强音频信号是对目标信号源对应的音频数据进行增强后得到的信号。例如:目标音频是与人声信号源和乐器声信号源对应的音频数据(例如:由人声信号源对应的人声数据和乐器声信号源对应的乐器声数据混合得到该目标音频),选择人声信号源作为目标信号源,则与人声信号源对应的增强音频信号是对目标音频中人声音频数据进行增强后得到的信号,即:实现对目标音频中目标信号源对应的音频数据进行增强的过程,从而有利于有选择地对目标音频中目标信号源对应的音频数据进行更有效地接收、收听等处理。
综上所述,对获取得到目标音频进行特征提取,得到音频特征表示,并沿时域维度对音频特征表示进行分段处理,之后利用分段处理后的多个音频子特征表示在时域维度的累进分布关系,确定与多个音频子特征表示分别对应的预测子特征表示,并对至少两个预测子特征表示进行拼接解码处理,从而得到与目标信号源对应的增强音频信号。通过上述方法,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行预测,得到与多个音频子特征表示分别对应的预测子特征表示,由于预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
在一个可选的实施例中,以对目标信号源对应的音频数据进行信号增强过程为例进行说明,目标信号源是目标音频对应的至少一个信号源中的信号源。示意性的,如图3所示,上述图2所示出的实施例还可以实现为如下步骤310至步骤380。
步骤310,获取目标音频。
其中,目标音频中包括与至少一个信号源对应的音频数据。
在一个可选的实施例中,信号源用于指示声音的来源,即:声源。
在一个可选的实施例中,将声音采集设备作为信号源,通过声音采集设备进行目标音频对应的音频数据的采集过程。
可选地,声音采集设备为麦克风阵列;或者,声音采集设备为终端上的安装的音频合成应用程序等。
示意性的,在一个声音采集环境中,对应摆放有一个麦克风阵列,在麦克风阵列中包括至少一个麦克风。示意性的,当通过麦克风阵列中的一个麦克风采集音频数据时,以该麦克风为音频采集设备,对该声音采集环境中的音频数据进行获取,得到目标音频,该目标音频为单通道音频数据。示意性的,以麦克风阵列中包括两个麦克风为例进行说明,两个麦克风分别为麦克风1和麦克风2,通过麦克风的摆放位置区别不同的信号源。例如:两个麦克风的摆放高度不同、两个麦克风的摆放坐标不同、两个麦克风的摆放方向不同等,将每一个麦克风作为一个信号源,则信号源包括:与麦克风1对应的信号源1,以及与麦克风2对应的信号源2,将麦克风1采集得到的音频数据作为信号源1对应的音频数据A,将麦克风2采集得到的音频数据作为信号源2对应的音频数据B等,则通过音频数据A和音频数据B得到的目标音频为多通道音频数据。
示意性的,在上述声音采集环境中,包括有多个人声声源(如:说话人M、说话人L以及说话人N),通过麦克风阵列中的麦克风1,对左侧方向的音频数据进行采集,通过麦克风阵列中的麦克风2,对右侧方向的音频数据进行采集,将左侧方向的音频数据和右侧方向的音频数据进行合成,从而得到目标音频,该目标音频为双通道音频数据,其中,每个单通道音频数据对应一个音频采集设备(麦克风)。
步骤320,对目标音频进行特征提取,得到与目标音频对应的音频特征表示。
示意性的,假设目标音频表示为P∈RM×L,其中,M为目标音频对应的通道数量(即:麦克风阵列中在采集目标音频时用到的麦克风数量),M≥1,L为目标音频中采样点的数量。
在一个可选的实施例中,当目标音频为针对单个信号源采集得到的单通道音频数据时,将目标音频进行分帧处理,得到目标音频对应的多个音频帧;对多个音频帧种的每一个音频帧进行特征提取,得到每一个音频帧对应的音频帧特征表示,将多个音频帧分别对应的音频帧特征表示进行拼接后,得到目标音频对应的音频特征表示。
在一个可选的实施例中,当目标音频为针对多个信号源采集得到的多通道音频数据时,对目标音频对应的多个通道分别进行分析,确定每一个通道对应的通道音频数据(一维信号)后,将通道音频数据对应通道特征表示进行拼接,从而得到目标音频对应的音频特征表示。
示意性的,目标音频为通过M个信号源采集得到的多通道音频数据,首先根据通道分布情况,确定目标音频中每个通道对应的通道音频数据,即:得到与M个通道分别对应的通道音频数据,之后对每一个通道对应的通道音频数据进行分帧处理。示意性的,根据预设窗长(window size),沿时域维度将每一个通道对应的通道音频数据切分成一系列的通道子音频帧。其中,窗长用于指示时域片段的长度,如:预设窗长为0.1ms。
可选地,在基于预设窗长对通道音频数据进行片段分割操作时,为避免相邻通道子音频帧之间的能量损耗,采用预设重叠率(overlap ratio)的方法,使得相邻通道子音频帧之间具有重叠音频片段,其中,重叠音频片段与预设窗长和预设重叠率相关。示意性的,根据预设窗长和预设重叠率,沿时域维度将每一个通道对应的通道音频数据切分成一系列的通道子音频帧。其中,窗长用于时域片段的长度,如:预设窗长为0.1ms;重叠率用于指示两个相邻通道子音频帧之间在时域维度上的重叠关系,如:预设重叠率为0.2等。例如:以Mm,t表示第m个通道的第t个通道子音频帧。
可选地,在得到不同通道各自对应的一系列的通道子音频帧后,将通道子音频帧输入线性变换编码器中,将每一个通道子音频帧转化为一个高维特征表示,即:提取得到通道子音频帧对应的通道子特征表示。示意性的,以对Mm,t进行线性变换为例进行说明。
Ym,t=Mm,tE
其中,Ym,t用于指示第m个通道的第t个通道子音频帧对应的通道子音频特征表示,且Ym,t∈R1×N,N为经过线性变化后通道子音频特征表示的特征维度;Mm,t用于指示第m个通道的第t个通道子音频帧,且Mm,t∈R1×C,C为预设窗长;E用于指示线性变换编码器的线性变换矩阵,且E∈RC×N,C为上述预设窗长,N为上述特征维度。
可选地,在得到不同通道各自对应的一系列的通道子音频特征表示后,将不同通道各自对应的一系列的通道子音频特征表示进行拼接,得到与目标音频对应的音频特征表示。例如:沿通道维度,将该通道对应的一系列的通道子音频特征表示进行拼接,得到该通道对应的通道音频特征表示,再将不同通道各自对应的通道音频特征表示进行拼接,得到与目标音频对应的音频特征表示等。
示意性的,以Y表示目标音频对应的音频特征表示,且Y∈RM×N×T,其中,M为目标音频对应的通道数(信号源的数量),N为上述特征维度,T为通道子音频帧的总数量,即:所有通道中音频帧的数量。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤330,沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示。
可选地,在得到音频特征表示后,沿时域维度对音频特征表示进行分段处理,即:将音频特征表示沿时域维度切分为N个片段,片段长度依次为K1,K2,…,KN,且满足从而得到不同片段分别对应的音频子特征表示,也即,得到音频特征表示对应的至少两个音频子特征表示。
步骤340,对目标音频进行音频分离,得到目标音频中与目标信号源中的目标信号源对应的子音频数据。
在一个可选的实施例中,当目标音频为针对单个信号源采集得到的单通道音频数据时,将该通道作为目标信号源,该目标信号源对应的子音频数据即为目标音频对应的音频数据。
在一个可选的实施例中,当目标音频为针对多个信号源采集得到的多通道音频数据时,对目标音频进行音频分离,得到与多个信号源分别对应的音频数据,从多个信号源中确定一个信号源作为目标信号源,并对目标信号源对应的子音频数据进行获取。
其中,目标信号源为从多个信号源中任意选择的至少一个信号源。
可选地,以目标信号源为从多个信号源中任意选择的一个信号源为例进行说明。在对目标音频进行音频分离后,得到与目标信号源对应的子音频数据,也即,该子音频数据为目标信号源对应通道的通道音频数据。
步骤350,对子音频数据进行特征提取,得到与子音频数据对应的估计特征表示。
可选地,对目标信号源对应的子音频数据进行特征提取。例如:通过信号处理方法对目标信号源对应的子音频数据进行特征提取;或者,采用神经网络方法对子音频数据进行特征提取等,从而得到与目标信号源对应的子音频数据的估计特征表示,也即,估计特征表示与目标音频对应的目标信号源的子特征数据对应。
示意性的,既可以采用相同的特征提取方法,对子音频数据和目标音频分别进行特征提取过程,也可以采用不同的特征提取方法,对子音频数据和目标音频分别进行特征提取过程。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤360,沿时域维度对估计特征表示进行分段处理,得到至少两个估计子特征表示。
示意性的,在得到目标信号源对应的估计子特征表示后,沿时域维度对估计特征表示进行分段处理。可选地,通过预设分割长度,沿时域维度对估计特征表示进行分段处理。基于分段处理,得到与估计特征表示对应的至少两个估计子特征表示。
其中,至少两个估计子特征表示与至少两个音频子特征表示在时域维度一一对应。
也即,采用对音频特征表示进行分段处理时的时域划分标准,对估计特征表示进行分段处理。例如:在时域维度,将估计特征表示与目标音频对应的音频特征表示进行对齐操作,采用对音频特征表示进行分段处理时的预设分割长度,对估计特征表示进行分段处理,从而使得至少两个估计子特征表示与至少两个音频子特征表示在时域维度一一对应。
示意性的,采用预设分割长度L对音频特征表示进行分段处理后,得到N个音频子特征表示,采用相同的预设分割长度L对估计特征表示进行分段处理后,得到N个估计子特征表示。其中,在时域维度上,第1个音频子特征表示与第1个估计子特征表示相对应,第2个音频子特征表示与第2个估计子特征表示相对应,第n个音频子特征表示与第n个估计子特征表示相对应等。
步骤370,基于至少两个估计子特征表示与至少两个音频子特征表示在时域维度的混合累进分布关系,确定与至少两个音频子特征表示分别对应的预测子特征表示。
示意性的,在得到在时域维度呈现一一对应关系的至少两个估计子特征表示与至少两个音频子特征表示后,对二者在时域维度的混合累进分布关系进行分析。其中,混合累进分布关系用于指示通过前n个音频子特征表示和前n个估计子特征表示得到第n个预测子特征表示的预测关系。
可选地,在确定音频子特征表示对应的预测子特征表示时,首先通过音频子特征表示与该音频子特征表示对应的估计子特征表示,得到预测子特征表示对应的预测参数,其中,预测参数用于通过音频子特征表示得到该音频子特征表示对应的预测子特征表示。
示意性的,不同的音频子特征表示对应不同的预测参数,例如:音频子特征表示Y1对应的预测参数为W1;音频子特征表示Yn对应的预测参数为Wn等。
示意性的,预测参数为通过音频子特征表示和估计子特征表示得到的矩阵;或者,预测参数为通过音频子特征表示和估计子特征表示得到的参数数值等。
在一个可选的实施例中,累积确定前n个估计子特征表示对应的第一特征表示以及前n个音频子特征表示对应的第二特征表示。
示意性的,在对音频特征表示进行分段处理后得到N个音频子特征表示,在对估计特征表示进行分段处理后得到N个估计子特征表示。其中,N个音频子特征表示与N个估计子特征表示在时域维度上一一对应。
可选地,将前n个估计子特征表示进行拼接,得到前n个估计子特征表示对应的第一特征表示;或者,确定前n个估计子特征表示在时域维度的时域区间,将目标信号源对应的子音频数据在该时域区间内的特征表示作为第一特征表示。
可选地,将前n个音频子特征表示进行拼接,得到前n个音频子特征表示对应的第二特征表示;或者,确定前n个音频子特征表示在时域维度的时域区间,将目标音频在该时域区间内的特征表示作为第二特征表示。其中,基于第n个音频子特征表示与第n个估计子特征表示在时域维度相对应,故前n个音频子特征表示的时域区间与前n个估计子特征表示的时域区间对应相同。
在一个可选的实施例中,基于第一特征表示和第二特征表示,确定目标音频中与第n个音频子特征表示对应的预测子特征表示。
示意性的,在得到前n个估计子特征表示对应的第一特征表示与前n个音频子特征表示对应的第二特征表示后,通过第一特征表示和第二特征表示确定得到第n个预测子特征表示的预测参数,并通过第n个预测子特征表示对应的预测参数和第n个音频子特征表示,确定与第n个音频子特征表示对应的第n个预测子特征表示。
在一个可选的实施例中,对第一特征表示和第二特征表示进行矩阵变换,得到与第n个音频子特征表示对应的特征变换矩阵。
示意性的,将第n个音频子特征表示对应的特征变换矩阵作为确定第n个预测子特征表示的预测参数。
可选地,在通过第一特征表示和第二特征表示得到与第n个音频子特征表示对应的特征变换矩阵时,以第二特征表示为滤波系统的输入,以第一特征表示为滤波系统的输出,确定滤波系统的系统函数;将滤波系统的系统函数作为特征变换矩阵。
示意性的,滤波系统为一个预先选取的滤波器,在通过第一特征表示和第二特征表示确定滤波系统的系统函数时,要求该滤波系统的系统函数满足最小均方差条件,并将符合该条件的系统函数作为特征变换矩阵,将该特征变换矩阵作为预测参数,从而得到第n个音频子特征表示的预测参数,即:确定第n个预测子特征表示的预测参数。
也即,第n个音频子特征表示的预测参数与前n个音频子特征表示和前n个估计子特征表示相关。
在一个可选的实施例中,将第n个音频子特征表示对应的特征变换矩阵和第n个音频子特征表示的矩阵乘积结果,作为与第n个音频子特征表示对应的预测子特征表示。
示意性的,依照上述方法,确定进行分段处理后多个音频子特征表示分别对应的特征变换矩阵(预测参数),从而得到不同音频子特征表示分别对应的特征变换矩阵,例如:第n个音频子特征表示对应第n个特征变换矩阵。
可选地,在得到不同音频子特征表示分别对应的特征变换矩阵后,根据特征变换矩阵对其对应的音频子特征表示进行预测,从而得到不同音频子特征表示分别对应的预测子特征表示。例如:第n个音频子特征表示对应的特征变换矩阵为第n个特征变换矩阵,该第n个特征变换矩阵是通过前n个音频子特征表示和前n个估计子特征表示得到的。在通过第n个音频子特征表示预测得到第n个音频子特征表示对应的第n个预测子特征表示时,将第n个音频子特征表示对应的第n个特征变换矩阵与第n个音频子特征表示进行乘积,并将矩阵乘积结果作为与第n个音频子特征表示对应的第n个预测子特征表示。
值得注意的是,上述仅为示意性的举例,本申请实施例对此不加以限定。
步骤380,对至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到目标音频中与目标信号源对应的增强音频信号。
示意性的,在得到目标信号源中与至少两个音频子特征表示分别对应的预测子特征表示后,对至少两个预测子特征表示进行拼接处理后,得到与目标信号源对应的预测特征表示;之后,对与目标信号源对应的预测特征表示进行解码处理,例如:将与目标信号源对应的预测特征表示输入线性解码器中,从而得到与目标信号源对应的增强音频信号。
综上所述,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行预测,得到与多个音频子特征表示分别对应的预测子特征表示,由于预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
在本申请实施例中,对通过估计特征表示确定预测子特征表示的过程进行了介绍。对获取得到的目标音频进行音频分离,从中获取得到与目标信号源对应的子音频数据,对子音频数据进行特征提取,得到与子音频数据对应的估计特征表示,并同样对估计特征表示分段处理,从而得到在时域维度上与音频子特征表示一一对应的估计子特征表示,结合音频子特征表示和与其对应的估计子特征表示,确定与多个音频子特征表示分别对应的预测子特征表示,进而得到与目标信号源对应的增强音频信号,从而使得在对目标音频进行全局分析的情况下,结合待分析的目标信号源对应的估计子特征表示,对不同音频子特征表示分别对应的预测子特征表示进行预测,进而能够得到对目标信号源增强效果更好的增强音频信号。
在一个可选的实施例中,在得到与目标音频对应的音频特征表示后,对音频特征表示进行分组,根据分组之后得到的至少两个分组特征表示,对目标音频进行音频信号的增强过程。示意性的,如图4所示,上述图2所示出的实施例还可以实现为如下步骤410至步骤490。
步骤410,获取目标音频。
其中,目标音频中包括与至少一个信号源对应的音频数据。示意性的,通过麦克风阵列对一个特定环境下的音频数据进行采集,从而得到目标音频。目标音频包括单通道音频数据和多通道音频数据中的至少一种。
步骤420,对目标音频进行特征提取,得到与目标音频对应的音频特征表示。
示意性的,如图5所示,在获取得到目标音频P∈RM×L后,将目标音频P输入编码器中,通过编码器对目标音频进行特征提取,从而得到与目标音频对应的音频特征表示510,其中,音频特征表示510以Y∈RM×N×T进行表示,其中,M用于指示目标音频对应的通道数(信号源的数量),且M≥1,当M=1时,目标音频为单通道音频数据;当M>1时,目标音频为多通道音频数据。
步骤430,沿频域维度对目标音频对应的音频特征表示进行分组,得到至少两个分组分别对应的分组特征表示。
在一个可选的实施例中,响应于目标音频是针对一个信号源采集得到的单通道音频数据,对目标音频对应的音频特征表示进行分组,得到至少两个分组分别对应的分组特征表示。
示意性的,当目标音频为单通道音频数据时,上述目标音频P∈RM×L中的M=1。可选地,在对目标音频对应的音频特征表示进行分组时,沿特征维度N对音频特征表示Y∈RN×T进行分组,得到至少两个分组特征表示。
在一个可选的实施例中,响应于目标音频是针对多个信号源采集得到的多通道音频数据,以信号源为划分标准,确定目标音频对应的至少两个通道。
其中,第m个信号源对应第m个通道,m为正整数。示意性的,当目标音频为多通道音频数据时,上述目标音频P∈RM×L中的M>1。
可选地,以至少两个通道为划分标准,对目标音频对应的音频特征表示进行特征分离,确定与至少两个通道分别对应的通道特征表示。
示意性的,在对多通道的目标音频对应的音频特征表示进行分组时,首先以通道为划分标准,对音频特征表示进行特征分离,得到与至少两个通道分别对应的通道特征表示Ym∈RN×T,其中,m代表M个通道中的第m个通道。
在一个可选的实施例中,对至少两个通道中每个通道对应的通道特征表示进行分组,得到至少两个特征表示分组。其中,不同通道对应的分组情况相同,例如:将目标音频对应的通道A分为两组,则将目标音频对应的通道B也分为两组,且对应分组的特征维度相同。示意性的,对通道A对应的通道特征表示a进行分组,得到该通道对应的特征表示分组a1以及该通道对应的特征表示分组a2;对通道B对应的通道特征表示b进行分组,得到该通道对应的特征表示分组b1以及该通道对应的特征表示分组b2等。其中,特征表示分组a1与特征表示分组b1相对应,且特征维度相同;同理,特征表示分组a2与特征表示分组b2相对应,且特征维度相同。
可选地,如图5所示,在得到目标音频对应的音频特征表示510后,沿特征维度N对音频特征表示510Y∈RM×N×T进行分组,其中,分组数量为V,且V能够被N整除,从而得到至少两个分组特征表示且/>
示意性的,将每一个分组分别对应的至少两个特征表示分组沿通道维度进行拼接,从而得到更新特征表示530,其中,以表示通过分组特征表示/>拼接后得到的更新后的音频特征表示,即:更新特征表示,且/>以MN/V表示新的V个分组组内拼接后的特征维度。
步骤440,沿时域维度对分组特征表示进行分段处理,在每一个分段时域范围内得到分组特征表示对应的至少两个分组子特征表示。
可选地,在得到至少两个分组特征表示后,沿时域维度对至少两个分组特征表示中每个分组特征表示进行分段处理。
示意性的,如图6所示,其中包括至少两个分组特征表示610,每一个分组特征表示610通过进行表示,将分组特征表示610沿时域维度切分为L个片段,其片段长度为K1,K2,…,KN,且满足/>其中,不同音频片段的片段长度可以相同,如:K1=K2=…=KN;或者,不同音频片段的片段长度可以不同,如:K1=K2≠…≠KN等。其中,在时域维度上,不同分组特征表示对应的分段情况相同,即:不同的分组特征表示按照相同的片段分割长度和时域分割情况进行划分。
可选地,在对分组特征表示进行分段处理(切分)后,得到至少两个分组特征表示分别对应的至少两个分组子特征表示。
示意性的,在对分组特征表示进行分段处理后,得到与分组特征表示611对应的至少两个分组子特征表示621;同理,在对分组特征表示/>进行分段处理后,得到与分组特征表示612对应的至少两个分组子特征表示622;对分组特征表示/>进行分段处理后,得到与分组特征表示613对应的至少两个分组子特征表示623等。
步骤450,将每一个分段时域范围内的至少两个分组子特征表示分别作为一个音频子特征表示,从而得到至少两个音频子特征表示。
示意性的,在得到每个分组对应的至少两个分组子特征表示后,基于上述分组处理和分段处理过程,在每一个分段时域范围内,也会对应至少两个分组子特征表示,将同一个分段时域范围内的至少两个分组子特征表示作为一个音频子特征表示。
可选地,基于即将分段处理后的每一个分段时域范围内的至少两个分组子特征表示作为一个音频子特征表示的过程,得到每一个分段时域范围分别对应的音频子特征表示,从而得到多个分段时域范围对应的至少两个音频子特征表示。
步骤460,在至少两个分组中的每一个分组内,基于至少两个分组子特征表示在时域维度的累进分布关系,确定与分组子特征表示分别对应的预测分组子特征表示。
其中,累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数。可选地,在上述过程中,累进分布关系用于指示通过前n个分组子特征表示得到第n个预测分组子特征表示的预测关系。
可选地,在得到不同分组分别对应的至少两个分组子特征表示后,以不同分组为划分标准,对每个分组中的至少两个分组子特征表示分别进行分析。
在一个可选的实施例中,对目标音频进行音频分离,得到目标音频中与目标信号源对应的子音频数据;对子音频数据进行特征提取,得到与子音频数据对应的估计特征表示;对目标音频对应的估计特征表示进行分组,得到至少两个估计分组特征表示,其中,估计分组特征表示与分组特征表示在分组维度上一一对应;沿时域维度对估计分组特征表示进行分段处理,得到至少两个估计分组子特征表示,其中,至少两个估计分组子特征表示与至少两个分组子特征表示在时域维度一一对应。
示意性的,如图5所示,对目标音频进行音频分离后,得到目标音频中与目标信号源对应的子音频数据且/>对子音频数据/>进行特征提取,得到与子音频数据/>对应的估计特征表示/>且/>对目标音频对应的估计特征表示/>进行分组,得到至少两个估计分组特征表示/>(图中示出一个估计分组特征表示),其中,估计分组特征表示/>与分组特征表示/>在频域维度上一一对应。
可选地,沿时域维度对估计分组特征表示进行分段处理,得到至少两个估计分组子特征表示,其中,至少两个估计分组子特征表示与至少两个音频子特征表示在时域维度一一对应。
在一个可选的实施例中,在时域维度上,通过至少两个分组子特征表示和与至少两个分组子特征表示分别对应的估计分组子特征表示,确定至少两个分组子特征表示分别对应的分组预测参数。
在确定分组子特征表示对应的预测分组子特征表示时,首先通过分组子特征表示与该分组子特征表示对应的估计分组子特征表示,得到该分组子特征表示对应的分组预测参数,其中,分组预测参数用于通过分组子特征表示得到该分组子特征表示对应的预测分组子特征表示。
示意性的,如图6所示,以对分组特征表示613对应的分组n进行分析为例进行说明。其中,基于估计分组特征表示与分组特征表示613在分组维度上一一对应,故在对分组特征表示613对应的分组n进行分析时,将同时对分组n对应的估计分组特征表示进行分析。
示意性的,沿时域维度对估计分组特征表示进行分段处理后,得到至少两个估计分组子特征表示631,其中,至少两个估计分组子特征表示631与至少两个分组子特征表示623在时域维度一一对应。
可选地,在确定与分组子特征表示623对应的预测参数时,首先确定与分组子特征表示623在时域维度上对应的估计分组子特征表示631,之后基于分组子特征表示623与估计分组子特征表示631,确定与分组子特征表示623对应的分组预测参数。
示意性的,如图5所示,以表示分组预测参数570,在计算不同分组子特征表示对应的/>时,根据分组子特征表示对应片段在时域维度上的顺序,依次计算每个分组子特征表示对应的/>且/>对于第n个片段,/>的定义如下所示。
其中,用于指示累积到第n个片段时的所有分组子特征表示,即:前n个分组子特征表示;/>用于指示截止至第n个片段时的总音频帧数量。同理,用于指示累积到第n个片段时的所有估计分组子特征表示,即:前n个估计分组子特征表示。
基于上述公式,确定不同分组子特征表示对应的分组预测参数也即,实现确定不同分组中不同分组子特征表示分别对应的分组预测参数/>的过程。
在一个可选的实施例中,在应用不同分组子特征表示分别对应的分组预测参数确定不同分组子特征表示对应的预测子特征表示时,采用如下计算公式确定预测分组子特征表示。
其中,用于指示第n个分组子特征表示;/>用于指示第n个分组子特征表示对应的分组预测参数;/>用于指示第n个分组子特征表示对应的分组子特征表示。
也即:在确定第n个分组子特征表示对应的预测参数时,需要借助前n个分组子特征表示和前n个分组子特征表示对应的前n个估计分组子特征表示;在应用第n个分组子特征表示对应的分组预测参数时,需要借助第n个分组子特征表示对应的分组预测参数以及第n个分组子特征表示(无需前n个分组子特征表示)。
值得注意的是,以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤470,沿时域维度对预测分组子特征表示进行拼接,得到预测分组特征表示。
示意性的,在得到不同分组内对应的至少两个预测分组子特征表示后,在每一个分组中,沿时域维度对该分组内的至少两个预测分组子特征表示进行拼接,从而得到与该分组对应的预测分组特征表示。
步骤480,沿频域维度对预测分组特征表示进行拼接,确定与至少两个音频子特征表示分别对应的预测子特征表示。
示意性的,在得到不同分组分别对应的预测分组特征表示后,沿频域维度,将不同分组分别对应的预测分组特征表示进行拼接,从而得到与至少两个音频子特征表示分别对应的预测子特征表示。
步骤490,对预测特征表示进行线性解码处理,得到目标音频中与目标信号源对应的增强音频信号。
示意性的,如图5所示,对目标信号源对应的预测特征表示进行线性解码处理,例如:将目标信号源G对应的预测特征表示/>输入线性解码器中,输出得到目标音频中与信号源对应的增强音频信号/>且/>
综上所述,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行预测,得到与多个音频子特征表示分别对应的预测子特征表示,由于预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
在本申请实施例中,在得到目标音频对应的音频特征表示后,对音频特征表示进行分组,从而得到至少两个分组特征表示,在对音频特征表示进行分段处理时,对每一个分组对应的分组特征表示进行分段处理,从而实现对音频特征表示进行更细颗粒度的分析过程;此外,在每一个分组内,根据该分组特征表示对应的音频子特征表示的累进分布关系,确定不同分组各自对应的预测子特征表示,并将不同分组对应的预测子特征表示进行拼接处理和解码处理,在考虑到音频特征表示所具有的庞大数据量的前提下,通过分组处理将单次高维求解转换为多次低维求解,进而进行更精准地分段处理过程,不仅降低了计算复杂度,还有效提高了对音频特征表示的分析准确性。
在一个可选的实施例中,目标音频为单通道音频数据或者多通道音频数据,也即,目标音频既可以是针对单个信号源采集得到的音频数据,也可以是针对多个信号源采集得到的音频数据,则在对信号源对应的音频信号进行增强时,即实现为对目标音频进行增强的过程。示意性的,对非流式广义维纳滤波方法(Non-streaming generalized Wienerfilter,Non-streamingGWF)处理目标音频进行改进,得到上述采用流式方法广义维纳滤波方法(streaming generalized Wiener filter,streamingGWF)对目标音频进行处理的音频信号增强方法。如图7所示,上述音频信号增强方法还可以实现为如下步骤。
步骤710,对获取得到的目标音频进行特征提取,得到音频特征表示。
非流式GWF用于指示在整句层面(utterance-level)对所观测到的带噪输入信号(目标音频)进行处理,即:对目标音频的全部音频帧分析完毕后,返回分析结果;流式GWF用于指示在对所观测到的带噪输入信号进行分析时,并非在整句层面方法对目标音频分析完毕后再返回分析结果,而是支持实时返回分析结果,例如:对一个(或者多个)音频帧分析后返回分析结果,之后借助先前返回的分析结果,对下一个(或者多个)音频帧进行分析。
示意性的,观测到的带噪信号(目标音频)为P∈RM×L,其中M为目标音频的通道数量,即:用于采集音频数据的信号接收器(信号源),如麦克风的个数,且M≥1,当M为1,目标音频为单通道音频数据;当M大于1,目标音频为多通道音频数据。L为目标音频中采样点的数量。
可选地,将每个通道的一维输入信号进行分帧(framing),即:对目标音频进行分帧处理。例如:按照预设窗长(window size)与预设重叠率(overlap ratio),将目标音频切分为一系列的音频帧。然后,使用一个线性变换编码器(encoder)将每一个音频帧的信号转化为一个高维特征,得到目标音频对应的音频特征表示。
Ym,t=Mm,tE
其中,Mm,t∈R1×C为第m个通道的第t个音频帧,C为窗长,E∈RC×N为编码器的线性变换矩阵,Ym,t∈R1×N为变换后的高维特征(第m个通道的第t个音频帧对应的音频特征表示),其维度为N。
可选地,将所有通道的所有音频帧对应的高维特征沿通道维度与时域维度进行拼接,得到音频特征表示Y∈RM×N×T,其中,T为总帧数。
步骤720,根据目标音频对应的信号源,对获取得到的目标音频中目标信号源对应的音频数据进行特征提取,得到与目标信号源对应的估计特征表示。
示意性的,可以对目标音频对应的目标信号源的音频信号进行增强。可选地,当目标音频为单通道音频数据时,将该通道对应的信号源作为目标信号源;或者,当目标音频为多通道音频数据时,将多个通道中的一个信号源作为目标信号源。
可选地,在确定目标音频对应的目标信号源后,对目标信号源对应的音频数据进行特征提取,从而得到与目标信号源对应的估计特征表示。
示意性的,采用GWF框架时,需要对目标音频中需要增强(或者增强、提取等音频处理目标)的目标信号源对应的音频数据进行粗略估计,此估计可以通过任何方法或者模型实现,例如:信号处理方法、神经网络方法等。
示意性的,在粗略估计出目标信号源对应的音频数据后,将其通过如上所示的分帧操作、编码操作(编码器为E)与通道分组操作,得到估计特征表示其中,由于粗略估计的目标信号为单通道信号,故/>与/>相比,其第二维度为N/V。
情况一:当不对音频特征表示和估计特征表示进行分组时,在上述步骤720之后还 包括如下步骤731至步骤734。
步骤731,沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示;沿时域维度对估计特征表示进行分段处理,得到至少两个估计子特征表示。
其中,在时域维度上,至少两个音频子特征表示与至少两个估计子特征表示呈现一一对应的关系,也即:第n个音频子特征表示与第n个估计子特征表示在时域维度上对齐,n为任意正整数。
步骤732,基于至少两个音频子特征表示和至少两个估计子特征表示,得到与至少两个音频子特征表示分别对应的预测参数。
示意性的,确定在时域维度一一对应的音频子特征表示和估计子特征表示,借助估计子特征表示与音频子特征表示在时域维度的混合累进分布关系,确定不同音频子特征表示分别对应的预测参数,其中,混合累进分布关系用于指示通过前n个音频子特征表示和前n个估计子特征表示得到第n个预测子特征表示的预测关系。
示意性的,确定前n个估计子特征表示对应的第一特征表示,以及前n个音频子特征表示对应的第二特征表示,对第一特征表示和第二特征表示进行矩阵变换,得到与第n个音频子特征表示对应的预测参数。
步骤733,通过至少两个音频子特征表示分别对应的预测参数,确定至少两个音频子特征表示分别对应的预测子特征表示。
示意性的,在得到不同音频子特征表示分别对应的预测参数后,根据预测参数与对应的音频子特征表示,确定该音频子特征表示对应的预测子特征表示。例如:预测参数为一个矩阵,将音频子特征表示和与其对应的预测参数(矩阵)相乘后,确定该音频子特征表示对应的预测子特征表示。
步骤734,对至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到与目标信号源对应的增强音频信号。
示意性的,在得到至少两个音频子特征表示分别对应的预测子特征表示后,对至少两个预测子特征表示进行拼接处理,得到预测特征表示;之后,对预测特征表示进行解码处理,得到与目标信号源对应的增强音频信号。
情况二:当对音频特征表示和估计特征表示进行分组时,在上述步骤720之后还包 括如下步骤741至步骤745。
步骤741,沿通道维度对至少两个音频特征表示进行分组处理,得到与至少两个音频特征表示分别对应的分组特征表示;沿通道维度对至少两个估计特征表示进行分组处理,得到与至少两个估计特征表示分别对应的估计分组特征表示。
其中,采用相同的组别划分标准,对至少两个音频特征表示和至少两个估计特征表示进行分组处理,也即,当采用分组数量V对至少两个音频特征表示进行分组处理时,同样采用分组数量V对至少两个估计特征表示进行分组处理。
可选地,当采用分组数量V对音频特征表示和估计特征表示进行分组时,当分组数量V=1时,仍可视为上述未对上述音频特征表示和估计特征表示进行分组处理。
在一个可选地的实施例中,将音频特征表示Y的每个(或者一个)通道的N维特征分成V组,其中,N能被V整除,此时每一组内的子特征维度为N/V;对于M个通道各自的V个组的子特征,将每个组的子特征沿道维度进行拼接,得到更新特征表示其中MN/V为新的V个组内拼接后的特征维度。
可选地,在得到第m个通道对应的第t个音频帧的音频特征表示Ym,t后,采用上述分组处理方法对音频特征表示进行分组处理时,以分组数量为V对音频特征表示Ym,t进行分组处理确定每个分组对应的分组特征表示其中,/>当对用上述分组处理方法对估计特征表示进行分组处理后,确定每个分组对应的估计分组特征表示/>其中,因此,无论目标音频属于单通道音频数据或者多通道音频数据,均可以选择是否对音频特征表示进行分组处理。当未对音频特征表示进行分组处理时,对音频特征表示和估计特征表示进行分段处理;当对音频特征表示进行分组处理后,对音频特征表示对应的多个分组特征表示进行分段处理等。以上仅为示意性的举例,本申请实施例对此不加以限定。
步骤742,沿时域维度对分组特征表示进行分段处理,得到至少两个分组子特征表示;沿时域维度对估计分组特征表示进行分段处理,得到至少两个估计分组子特征表示。
其中,至少两个音频子特征表示与至少两个估计分组子特征表示在时域维度上一一对应。
示意性的,在得到与每一个音频特征表示对应的至少两个分组特征表示后,沿时域维度对音频特征表示进行分段处理的过程,即可视为沿时域维度对音频特征表示对应的分组特征表示进行分段处理,基于对分组特征表示进行分段处理的过程,得到与分组特征表示对应的至少两个分组子特征表示。
例如:在得到第m个通道对应的第t个音频帧的音频特征表示Ym,t后,以分组数量为V对音频特征表示Ym,t进行分组处理,得到与音频特征表示Ym,t对应的至少两个分组特征表示,之后,对至少两个分组特征表示中每一个分组特征表示进行分段处理,即:沿时域维度对分组特征表示/>进行切分,从而得到与每一个分组特征表示/>分别对应的至少两个音频子特征表示。
同理,在得到与每一个估计特征表示对应的至少两个估计分组特征表示后,沿时域维度对估计特征表示进行分段处理的过程,即可视为沿时域维度对音频特征表示对应的估计分组特征表示进行分段处理,基于对估计分组特征表示进行分段处理的过程,得到与估计分组特征表示对应的至少两个估计分组子特征表示。
例如:在得到估计特征表示X后,以同样的分组数量为V对估计特征表示X进行分组处理,得到与估计特征表示X对应的至少两个估计分组特征表示,之后,对至少两个估计分组特征表示中每一个估计分组特征表示进行分段处理,即:沿时域维度对估计分组特征表示/>进行切分,从而得到与每一个分组特征表示/>分别对应的至少两个估计分组子特征表示。
步骤743,基于至少两个分组子特征表示和至少两个估计分组子特征表示,得到与至少两个分组子特征表示分别对应的分组预测参数。
非流式GWF的滤波器参数定义为满足如下最小均方差(minimum mean-squareerror,MMSE)估计的滤波器:
其中,用于指示分组特征表示(当V=1,则代表音频特征表示),用于指示第v组的估计分组特征表示(当V=1,则代表估计特征表示),则上式具有显式解如下所示。
其中,(·)T表示矩阵转置。
在得到分组特征表示对应的分组子特征表示,以及估计分组特征表示对应的估计分组子特征表示后,采用上述类似方法,对分组子特征表示对应的分组预测参数进行确定,其中,分组预测参数通过进行表示。
可选地,在计算分组预测参数时,根据片段的时间顺序依次计算每个片段对应的/>且/>每个/>的维度为N。
示意性的,对于第n个音频帧,定义其中为累积到第n个音频帧时的所有观测信号特征(即:前n个分组子特征表示),其中,/>为截止至第n个音频帧时的总帧数;/> 为前n个估计分组子特征表示。通过上述方法,确定至少两个分组子特征表示分别对应的分组预测参数。
步骤744,通过至少两个分组子特征表示分别对应的分组预测参数,确定至少两个分组子特征表示分别对应的预测分组子特征表示。
示意性的,当采用非流式GWF方法时,关于Wv的估计依赖整句层面的最小均方差估计;然而,当采用本申请实施例中采用流式GWF的音频信号增强方法时,将分析过程修改为累进式的最小均方差估计,利用具有的因果性,随着时间的累积,会使得/>的预测结果越来越接近于全局最小均方差估计的结果。
可选地,在将分组预测参数应用到预测特征表示的确定过程中时,时,由于因果性的限制,通过该待预测的预测子特征表示对应的音频特征子表示与对应的分组预测参数确定该预测子特征表示的表示形式。
其中,为第n个音频帧对应的分组子特征表示,/>为第n个音频帧的流式GWF输出,即:第n个音频帧对应的预测分组子特征表示。
步骤745,对至少两个分组子特征表示分别对应的预测分组子特征表示进行拼接解码处理,得到与目标信号源对应的增强音频信号。
示意性的,将所有音频帧对应的预测分组子特征表示沿时域维度进行拼接,从而获得完整的预测分组特征表示/>
可选地,当分组数量V=1时,即未对分组特征表示和估计分组特征表示进行分组,则在得到预测分组特征表示后,将预测分组特征表示/>通过一个线性变换解码器(decoder),进行解码操作。
可选地,当分组数量V>1时,即对分组特征表示和估计分组特征表示进行了分组处理,则在得到预测分组特征表示后,将不同分组对应的预测分组特征表示/>进行拼接,再将拼接后的特征表示通过一个线性变换解码器,进行解码操作。
示意性的,在通过线性变换解码器后,能够将特征表示转化为每一个音频帧的采样点,也即:
其中,为第t个音频帧的输入特征表示(预测特征表示或者特征表示),D∈RN×C为解码器的线性变换矩阵,/>为第t个音频帧对应的估计采样点。将所有的进行重叠加(overlap-add)操作得到最终的对于目标信号源对应的预测特征表示
在实际使用中,线性编码器E与解码器D可由人工设定,或可作为可学习参数与其他的神经网络音频分离或者增强模块联合优化,此外,对分组数量V的取值不设硬性限制,示意性的,确定分组数量V=N/2。
在本申请实施例中,每一个音频帧对应的分组预测参数(滤波器参数)依赖于整个目标音频的信息,因此片段长度Kn决定了流式GWF在每个片段内的延迟,通过控制Kn即可控制系统的整体延迟;另一方面,片段个数N决定了需要进行滤波器估计的运算的次数,因此通过控制N即可控制系统的总计算量。在实践中,Kn与N的具体选取依赖于具体场景的要求,本发明对此不设硬性限制。
可以看出,随着时间的累积,越来越接近T,这意味着随着观测信号特征的增多,其计算的/>会越来越接近非流式GWF计算的全局滤波器Wv
综上所述,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行预测,得到与多个音频子特征表示分别对应的预测子特征表示,由于预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
在一个可选的实施例中,欲对目标音频中人声声源对应的音频信号进行增强。示意性的,如图8所示,上述音频信号增强方法还可以实现为如下步骤810至步骤870。
步骤810,获取目标音频。
其中,目标音频中包括与人声信号源对应的音频数据。
示意性的,目标音频为通话音频数据,该通话音频数据中包括人声信号源以及环境声信号源,对目标音频进行采集的过程是通过终端配置的音频采集设备实现的。可选地,将人声信号源作为待进行信号增强的目标信号源。
步骤820,对目标音频进行特征提取,得到与目标音频对应的音频特征表示。
示意性的,在得到目标音频后,将获取得到的目标音频输入特征提取网络中,得到与目标音频对应的音频特征表示。
步骤830,沿时域维度对音频特征表示进行分段处理,得到至少两个音频子特征表示。
示意性的,依照相同的分段间隔,沿时域维度对音频特征表示进行分段处理,从而得到至少两个音频子特征表示。
步骤840,提取目标音频中人声信号源对应的估计特征表示。
可选地,将人声信号源作为待进行信号增强的目标信号源。对目标音频进行音频分离后,得到与人声信号源对应的人声音频数据。
可选地,将获取得到的人声音频数据输入特征提取网络中,得到与人声音频数据对应的估计特征表示。
步骤850,对估计特征表示进行分段处理,得到与估计特征表示对应的估计子特征表示。
示意性的,依照相同的分段间隔,沿时域维度对估计特征表示进行分段处理,从而得到至少两个估计子特征表示。其中,至少两个估计子特征表示与至少两个音频子特征表示在时域维度一一对应。
步骤860,基于至少两个估计子特征表示与至少两个音频子特征表示在时域维度的混合累进分布关系,确定与至少两个音频子特征表示分别对应的预测子特征表示。
示意性的,在得到在时域维度呈现一一对应关系的至少两个估计子特征表示与至少两个音频子特征表示后,对二者在时域维度的混合累进分布关系进行分析。其中,混合累进分布关系用于指示通过前n个音频子特征表示和前n个估计子特征表示得到第n个预测子特征表示的预测关系。
步骤870,对至少两个预测子特征表示进行拼接解码处理,得到目标音频中与人声信号源对应的增强音频信号。
示意性的,在得到人声信号源中与至少两个音频子特征表示分别对应的预测子特征表示后,对至少两个预测子特征表示进行拼接处理后,得到与人声信号源对应的预测特征表示;之后,对与人声信号源对应的预测特征表示进行解码处理,例如:将与人声信号源对应的预测特征表示输入线性解码器中,从而得到与人声信号源对应的增强音频信号。
综上所述,当在通话音频信号增强场景下,对人声信号源对应的音频数据进行特征提取,得到人声信号源对应的估计特征表示,并对估计特征表示分段处理,从而得到在时域维度上与音频子特征表示一一对应的估计子特征表示,结合音频子特征表示和与其对应的估计子特征表示,确定与多个音频子特征表示分别对应的预测子特征表示,进而得到与人声信号源对应的增强音频信号,从而结合待增强的人声信号源对应的估计子特征表示,对不同音频子特征表示分别对应的预测子特征表示进行预测,进而能够得到对人声信号源增强效果更好的增强音频信号,提高人声分辨效果,增强通话质量。同样,上述音频信号增强方法还可以用于增强背景声信号、乐器声信号等,即:选择背景声信号源、乐器声信号源等作为目标信号源,本申请实施例对此不加以限定。
图9是本申请一个示例性实施例提供的音频信号增强装置,如图9所示,该装置包括如下部分:
获取模块910,用于获取目标音频,所述目标音频中包括与至少一个信号源对应的音频数据;
提取模块920,用于对所述目标音频进行特征提取,得到与所述目标音频对应的音频特征表示;
分段模块930,用于沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示;
确定模块940,用于基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,所述预测子特征表示是针对所述至少一个信号源中的目标信号源预测得到的特征表示;其中,所述累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数;
处理模块950,用于对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号。
在一个可选的实施例中,所述确定模块940还用于对所述目标音频进行音频分离,得到所述目标音频中与所述目标信号源对应的子音频数据;对所述子音频数据进行特征提取,得到与所述子音频数据对应的估计特征表示;沿时域维度对所述估计特征表示进行分段处理,得到至少两个估计子特征表示,其中,所述至少两个估计子特征表示与所述至少两个音频子特征表示在时域维度一一对应;基于所述至少两个估计子特征表示与所述至少两个音频子特征表示在时域维度的混合累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,其中,所述混合累进分布关系用于指示通过前n个音频子特征表示和前n个估计子特征表示得到第n个预测子特征表示的预测关系。
在一个可选的实施例中,所述确定模块940还用于累积确定前n个估计子特征表示对应的第一特征表示以及前n个音频子特征表示对应的第二特征表示;基于所述第一特征表示和所述第二特征表示,确定所述目标音频中与所述第n个音频子特征表示对应的预测子特征表示。
在一个可选的实施例中,所述确定模块940还用于对所述第一特征表示和所述第二特征表示进行矩阵变换,得到与所述第n个音频子特征表示对应的特征变换矩阵;将所述第n个音频子特征表示对应的特征变换矩阵和所述第n个音频子特征表示的矩阵乘积结果,作为与所述第n个音频子特征表示对应的预测子特征表示。
在一个可选的实施例中,所述确定模块940还用于以所述第二特征表示为滤波系统的输入,以所述第一特征表示为所述滤波系统的输出,确定所述滤波系统的系统函数;将所述滤波系统的系统函数作为所述特征变换矩阵。
在一个可选的实施例中,所述分段模块930还用于沿频域维度对所述目标音频对应的音频特征表示进行分组,得到至少两个分组分别对应的分组特征表示;沿时域维度对所述分组特征表示进行分段处理,在每一个分段时域范围内得到所述分组特征表示对应的至少两个分组子特征表示;将每一个分段时域范围内的至少两个分组子特征表示分别作为一个音频子特征表示,从而得到所述至少两个音频子特征表示。
在一个可选的实施例中,所述确定模块940还用于在所述至少两个分组中的每一个分组内,基于至少两个分组子特征表示在时域维度的累进分布关系,确定与所述分组子特征表示分别对应的预测分组子特征表示,其中,累进分布关系用于指示通过前n个分组子特征表示得到第n个预测分组子特征表示的预测关系,其中,n为正整数;沿时域维度对所述预测分组子特征表示进行拼接,得到预测分组特征表示;沿频域维度对所述预测分组特征表示进行拼接,确定与所述至少两个音频子特征表示分别对应的预测子特征表示。
在一个可选的实施例中,所述确定模块940还用于对所述目标音频进行音频分离,得到所述目标音频中与所述目标信号源对应的子音频数据;对所述子音频数据进行特征提取,得到与所述子音频数据对应的估计特征表示;沿频域维度对所述估计特征表示进行分组,得到至少两个分组分别对应的估计分组特征表示,其中,至少两个估计分组特征表示与至少两个分组特征表示在频域维度上一一对应;沿时域维度对所述估计分组特征表示进行分段处理,得到至少两个估计分组子特征表示,其中,所述至少两个估计分组子特征表示与所述至少两个分组子特征表示在时域维度一一对应;在所述至少两个分组中的每一个分组内,基于所述至少两个分组子特征表示和所述至少两个估计分组子特征表示在时域维度的混合累进分布关系,确定与所述分组子特征表示分别对应的预测分组子特征表示,其中,所述混合累进分布关系用于指示通过前n个分组子特征表示和前n个估计分组子特征表示得到第n个预测分组子特征表示的预测关系。
在一个可选的实施例中,所述分段模块930还用于响应于所述目标音频是针对一个信号源采集得到的单通道音频数据,对所述目标音频对应的音频特征表示进行分组处理,得到所述至少两个分组特征表示;或者,响应于所述目标音频是针对多个信号源采集得到的多通道音频数据,以信号源为划分标准,确定目标音频对应的至少两个通道,其中,第m个信号源对应第m个通道,m为正整数;以所述至少两个通道为划分标准,对所述目标音频对应的音频特征表示进行特征分离,确定与所述至少两个通道分别对应的通道特征表示;对所述至少两个通道中每个通道对应的通道特征表示进行分组处理,得到所述至少两个特征表示分组。
在一个可选的实施例中,所述处理模块950还用于对所述至少两个预测子特征表示进行拼接处理,得到预测特征表示;对所述预测特征表示进行线性解码操作,生成所述目标音频中与所述目标信号源对应的所述增强音频信号。
在一个可选的实施例中,所述处理模块950还用于响应于所述目标音频对应有至少两个信号源,对与至少两个信号源中目标信号源对应的至少两个预测子特征表示进行拼接解码处理,生成所述目标音频中与所述目标信号源对应的增强音频信号。
综上所述,对获取得到目标音频进行特征提取,得到音频特征表示,并沿时域维度对音频特征表示进行分段处理,之后利用分段处理后的多个音频子特征表示在时域维度的累进分布关系,确定与多个音频子特征表示分别对应的预测子特征表示,并对至少两个预测子特征表示进行拼接解码处理,从而得到与目标对应的增强音频信号。通过上述装置,对分段处理后的多个音频子特征表示在时域维度上的相互关系进行分析,并对多个音频子特征表示进行预测,得到与多个音频子特征表示分别对应的预测子特征表示,由于预测子特征表示中蕴含了在时域维度上先前音频子特征表示的影响,因此随着时间的累积,对预测子特征表示的预测结果会更加准确,从而在利用预测子特征表示得到与信号源对应的增强音频信号时,信号增强效果更好,实时分析效率也有效提升。
需要说明的是:上述实施例提供的音频信号增强装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频信号增强装置与音频信号增强方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(RandomAccess Memory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。
大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说,大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
根据本申请的各种实施例,服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频信号增强方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的音频信号增强方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的音频信号增强方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种音频信号增强方法,其特征在于,所述方法包括:
获取目标音频,所述目标音频中包括与至少一个信号源对应的音频数据;
对所述目标音频进行特征提取,得到与所述目标音频对应的音频特征表示;
沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示;
基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,所述预测子特征表示是针对所述至少一个信号源中的目标信号源预测得到的特征表示;其中,所述累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数;
对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,包括:
对所述目标音频进行音频分离,得到所述目标音频中与所述目标信号源对应的子音频数据;
对所述子音频数据进行特征提取,得到与所述子音频数据对应的估计特征表示;
沿时域维度对所述估计特征表示进行分段处理,得到至少两个估计子特征表示,其中,所述至少两个估计子特征表示与所述至少两个音频子特征表示在时域维度一一对应;
基于所述至少两个估计子特征表示与所述至少两个音频子特征表示在时域维度的混合累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,其中,所述混合累进分布关系用于指示通过前n个音频子特征表示和前n个估计子特征表示得到第n个预测子特征表示的预测关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少两个估计子特征表示与所述至少两个音频子特征表示在时域维度的混合累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,包括:
累积确定前n个估计子特征表示对应的第一特征表示以及前n个音频子特征表示对应的第二特征表示;
基于所述第一特征表示和所述第二特征表示,确定所述目标音频中与所述第n个音频子特征表示对应的预测子特征表示。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一特征表示和所述第二特征表示,确定所述目标音频中与所述第n个音频子特征表示对应的预测子特征表示,包括:
对所述第一特征表示和所述第二特征表示进行矩阵变换,得到与所述第n个音频子特征表示对应的特征变换矩阵;
将所述第n个音频子特征表示对应的特征变换矩阵和所述第n个音频子特征表示的矩阵乘积结果,作为与所述第n个音频子特征表示对应的预测子特征表示。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一特征表示和所述第二特征表示进行矩阵变换,得到与所述第n个音频子特征表示对应的特征变换矩阵,包括:
以所述第二特征表示为滤波系统的输入,以所述第一特征表示为所述滤波系统的输出,确定所述滤波系统的系统函数;
将所述滤波系统的系统函数作为所述特征变换矩阵。
6.根据权利要求1至5任一所述的方法,其特征在于,所述沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示,包括:
沿频域维度对所述目标音频对应的音频特征表示进行分组,得到至少两个分组分别对应的分组特征表示;
沿时域维度对所述分组特征表示进行分段处理,在每一个分段时域范围内得到所述分组特征表示对应的至少两个分组子特征表示;
将每一个分段时域范围内的至少两个分组子特征表示分别作为一个音频子特征表示,从而得到所述至少两个音频子特征表示。
7.根据权利要求6所述的方法,其特征在于,所述基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,包括:
在所述至少两个分组中的每一个分组内,基于至少两个分组子特征表示在时域维度的累进分布关系,确定与所述分组子特征表示分别对应的预测分组子特征表示,其中,累进分布关系用于指示通过前n个分组子特征表示得到第n个预测分组子特征表示的预测关系,其中,n为正整数;
沿时域维度对所述预测分组子特征表示进行拼接,得到预测分组特征表示;
沿频域维度对所述预测分组特征表示进行拼接,确定与所述至少两个音频子特征表示分别对应的预测子特征表示。
8.根据权利要求7所述的方法,其特征在于,所述在所述至少两个分组中的每一个分组内,基于至少两个分组子特征表示在时域维度的累进分布关系,确定与所述分组子特征表示分别对应的预测分组子特征表示,包括:
对所述目标音频进行音频分离,得到所述目标音频中与所述目标信号源对应的子音频数据;
对所述子音频数据进行特征提取,得到与所述子音频数据对应的估计特征表示;
沿频域维度对所述估计特征表示进行分组,得到至少两个分组分别对应的估计分组特征表示,其中,至少两个估计分组特征表示与至少两个分组特征表示在频域维度上一一对应;
沿时域维度对所述估计分组特征表示进行分段处理,得到至少两个估计分组子特征表示,其中,所述至少两个估计分组子特征表示与所述至少两个分组子特征表示在时域维度一一对应;
在所述至少两个分组中的每一个分组内,基于所述至少两个分组子特征表示和所述至少两个估计分组子特征表示在时域维度的混合累进分布关系,确定与所述分组子特征表示分别对应的预测分组子特征表示,其中,所述混合累进分布关系用于指示通过前n个分组子特征表示和前n个估计分组子特征表示得到第n个预测分组子特征表示的预测关系。
9.根据权利要求6所述的方法,其特征在于,所述沿频域维度对所述目标音频对应的音频特征表示进行分组,得到至少两个分组分别对应的分组特征表示,包括:
响应于所述目标音频是针对一个信号源采集得到的单通道音频数据,对所述目标音频对应的音频特征表示进行分组处理,得到所述至少两个分组分别对应的分组特征表示;
或者,
响应于所述目标音频是针对多个信号源采集得到的多通道音频数据,以信号源为划分标准,确定目标音频对应的至少两个通道,其中,第m个信号源对应第m个通道,m为正整数;以所述至少两个通道为划分标准,对所述目标音频对应的音频特征表示进行特征分离,确定与所述至少两个通道分别对应的通道特征表示;对所述至少两个通道中每个通道对应的通道特征表示进行分组处理,得到所述至少两个分组分别对应的分组特征表示。
10.根据权利要求1至5任一所述的方法,其特征在于,所述对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号,包括:
对所述至少两个预测子特征表示进行拼接处理,得到预测特征表示;
对所述预测特征表示进行线性解码操作,生成所述目标音频中与所述目标信号源对应的所述增强音频信号。
11.根据权利要求1至5任一所述的方法,其特征在于,所述对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号,包括:
响应于所述目标音频对应有至少两个信号源,对与至少两个信号源中目标信号源对应的至少两个预测子特征表示进行拼接解码处理,生成所述目标音频中与所述目标信号源对应的增强音频信号。
12.一种音频信号增强装置,其特征在于,所述装置包括:
获取模块,用于获取目标音频,所述目标音频中包括与至少一个信号源对应的音频数据;
提取模块,用于对所述目标音频进行特征提取,得到与所述目标音频对应的音频特征表示;
分段模块,用于沿时域维度对所述音频特征表示进行分段处理,得到至少两个音频子特征表示;
确定模块,用于基于所述至少两个音频子特征表示在时域维度的累进分布关系,确定与所述至少两个音频子特征表示分别对应的预测子特征表示,所述预测子特征表示是针对所述至少一个信号源中的目标信号源预测得到的特征表示;其中,所述累进分布关系用于指示通过前n个音频子特征表示得到第n个预测子特征表示的预测关系,其中,n为正整数;
处理模块,用于对所述至少两个音频子特征表示分别对应的预测子特征表示进行拼接解码处理,得到所述目标音频中与所述目标信号源对应的增强音频信号。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至11任一所述的音频信号增强方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至11任一所述的音频信号增强方法。
CN202210693468.8A 2022-06-17 2022-06-17 音频信号增强方法、装置、设备、存储介质及程序产品 Active CN115116460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210693468.8A CN115116460B (zh) 2022-06-17 2022-06-17 音频信号增强方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210693468.8A CN115116460B (zh) 2022-06-17 2022-06-17 音频信号增强方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN115116460A CN115116460A (zh) 2022-09-27
CN115116460B true CN115116460B (zh) 2024-03-12

Family

ID=83328975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210693468.8A Active CN115116460B (zh) 2022-06-17 2022-06-17 音频信号增强方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115116460B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN113593587A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 语音分离方法及装置、存储介质、电子装置
CN114067793A (zh) * 2021-11-04 2022-02-18 北京百度网讯科技有限公司 音频处理方法和装置、电子设备及可读存储介质
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112017018145B1 (pt) * 2015-02-26 2023-11-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V Aparelho e método para processamento de um sinal de áudio para obter um sinal de áudio processado utilizando um envelope de domínio de tempo alvo

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
CN113593587A (zh) * 2021-08-06 2021-11-02 宿迁硅基智能科技有限公司 语音分离方法及装置、存储介质、电子装置
CN114067793A (zh) * 2021-11-04 2022-02-18 北京百度网讯科技有限公司 音频处理方法和装置、电子设备及可读存储介质
CN114360490A (zh) * 2022-01-26 2022-04-15 腾讯科技(深圳)有限公司 语音合成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115116460A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
KR101450414B1 (ko) 멀티-채널 오디오 프로세싱
RU2450369C2 (ru) Устройство и способ для кодирования многоканального звукового сигнала
US9129593B2 (en) Multi channel audio processing
RU2734288C1 (ru) Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения
JPWO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP2009539132A (ja) オーディオ信号の線形予測符号化
US9390723B1 (en) Efficient dereverberation in networked audio systems
RU2715026C1 (ru) Устройство кодирования для обработки входного сигнала и устройство декодирования для обработки кодированного сигнала
RU2729050C1 (ru) Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения
CN117083881A (zh) 分离空间音频对象
US20150269952A1 (en) Method, an apparatus and a computer program for creating an audio composition signal
WO2023226572A1 (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN115116460B (zh) 音频信号增强方法、装置、设备、存储介质及程序产品
US20220392462A1 (en) Multichannel audio encode and decode using directional metadata
JP5574498B2 (ja) 符号化装置、復号装置、およびこれらの方法
den Brinker et al. Pure linear prediction
CN116959470A (zh) 音频提取方法、装置、设备及存储介质
JP5866575B1 (ja) 音声信号の線形予測装置、音声信号の線形予測方法
WO2024132968A1 (en) Method and decoder for stereo decoding with a neural network model
KR20230066056A (ko) 사운드 코덱에 있어서 비상관 스테레오 콘텐츠의 분류, 크로스-토크 검출 및 스테레오 모드 선택을 위한 방법 및 디바이스
CN117334204A (zh) 信号处理方法、装置、计算机设备、存储介质及程序产品
WO2018130742A1 (en) Method for determining line spectral frequencies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant