CN115831138A - 一种音频信息处理方法、装置和电子设备 - Google Patents
一种音频信息处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN115831138A CN115831138A CN202211230560.7A CN202211230560A CN115831138A CN 115831138 A CN115831138 A CN 115831138A CN 202211230560 A CN202211230560 A CN 202211230560A CN 115831138 A CN115831138 A CN 115831138A
- Authority
- CN
- China
- Prior art keywords
- block
- target
- voice
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种音频信息处理方法,对于音频信息中的语音块分别进行处理得到相应的语音块特征,识别语音块特征得到语音块所属的场景,确定与目标语音块属于同一场景的历史语音块,将历史语音块对应的历史块特征与目标语音块对应的目标块特征融合得到融合块特征,基于融合块特征对于目标块特征进行降噪处理,得到第一降噪块特征,基于上述的第一降噪块特征得到第一目标音频信息。由于融合块特征是结合了历史语音块与目标语音块的特征,历史语音块与目标语音块具有相同场景中的音频特征,该融合块特征是长时信息,基于该融合块特征对于目标块特征进行的降噪处理结合了长时信息,相对于仅采用单独的目标语音块的特征进行降噪处理,降噪效果更优。
Description
技术领域
本申请涉及信息技术领域,更具体的说,是涉及一种音频信息处理方法、装置和电子设备。
背景技术
在通话、在线会议等场景中,噪声会极大影响用户的体验。因此,对于上述场景中的语音进行降噪的要求非常高。
现有技术中,一般采用神经网络模型进行降噪,如CNN(Convolutional NeuralNetworks,卷积神经网络)和FullConnect(全连接)能够处理局部信息,其只能看到当前时刻前后一小段时间的信息,但不能考虑到长时信息,因此,降噪效果不理想。
发明内容
有鉴于此,本申请提供了一种音频信息处理方法,如下:
一种音频信息处理方法,包括:
获得音频信息,所述音频信息包含至少一个语音块;
基于所述至少一个语音块得到至少一个语音块特征,所述语音块与所述语音块特征对应;
识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
获取与目标语音块属于同一场景的历史语音块,所述历史语音块的生成时间早于所述目标块的生成时间;
将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,所述目标语音块是所述至少一个语音块中的一个;
控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
基于所述第一降噪块特征得到第一目标音频信息。
可选的,上述的方法,其中:
所述第一处理模型还能够处理所述至少一个语音块特征,得到至少一个第二降噪块特征;
基于至少一个所述第二降噪块特征得到第二目标音频信息。
可选的,上述的方法,所述基于所述至少一个语音块得到至少一个语音块特征,包括:
确定目标语音块中包含的至少两帧帧数据,每一帧帧数据对应目标时长的音频信息,每帧帧数据包含目标维度的特征;
基于目标语音块中每帧帧数据包含的目标维度的特征,得到所述目标语音块特征。
可选的,上述的方法,所述识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景,包括:
将目标语音块特征作为输入特征输入第二处理模型得到所述目标语音块属于至少两个预设场景的概率;
基于所述目标语音块属于第一预设场景的概率满足约定选择条件,选择第一预设场景作为所述目标语音块的场景。
可选的,上述的方法,所述将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,包括:
将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征,基于帧数据的特征维度进行融合,得到融合块特征,每帧帧数据包含目标维度的特征。
可选的,上述的方法,所述基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征,包括:
基于所述融合块特征得到加权特征;
将所述加权特征与所述目标块特征融合,得到二次融合块特征;
将所述二次融合块特征输入第一处理模型进行降噪处理,得到第一降噪块特征。
可选的,上述的方法,所述基于所述融合块特征得到加权特征,包括:
将所述融合块特征分别作为第三处理模型的第一参数和第二参数;
将所述目标块特征作为所述第三处理模型的第三参数;
控制所述第三处理模型基于所述第一参数、第二参数和第三参数,得到加权特征。
可选的,上述的方法,将所述加权特征与所述目标块特征融合,得到二次融合块特征,包括:
将所述加权特征与所述目标块特征基于帧数据的特征维度进行拼接得到二次融合块特征;
或
将所述加权特征与所述目标块特征堆叠得到二次融合块特征。
一种音频信息处理装置,包括:
获得模块,用于获得音频信息,所述音频信息包含至少一个语音块;
特征模块,用于基于所述至少一个语音块得到至少一个语音块特征,所述语音块与所述语音块特征对应;
识别模块,用于识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
获取模块,用于获取与目标语音块属于同一场景的历史语音块,所述历史语音块的生成时间早于所述目标块的生成时间;
融合模块,用于将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,所述目标语音块是所述至少一个语音块中的一个;
降噪模块,用于控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
音频信息模块,用于基于所述第一降噪块特征得到第一目标音频信息。
一种电子设备,包括:存储器、处理器;
其中,存储器存储有处理程序;
所述处理器用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一项所述的音频信息处理方法的各步骤。
经由上述的技术方案可知,本申请提供了一种音频信息处理方法,对于音频信息中的各个语音块分别进行处理得到相应的语音块特征,并且对于语音块特征识别得到该语音块所属的场景,确定与目标语音块属于同一场景的历史语音块,将该历史语音块对应的历史块特征与目标语音块对应的目标块特征融合得到融合块特征,基于该融合块特征对于该目标块特征进行降噪处理,得到第一降噪块特征,依次对于该音频信息中的多个语音块分别进行上述过程,基于上述的第一降噪块特征能够第一目标音频信息。由于融合块特征是结合了历史语音块与目标语音块的特征的,该历史语音块与该目标语音块具有相同场景中的音频的特征,该融合块特征是长时信息,基于该融合块特征对于目标块特征进行的降噪处理结合了长时信息,相对于仅采用单独的目标语音块的特征进行降噪处理,降噪效果更优。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的一种音频信息处理方法实施例1的流程图;
图2是本申请提供的一种音频信息处理方法实施例2的流程图;
图3是本申请提供的一种音频信息处理方法实施例3的流程图;
图4是本申请提供的一种音频信息处理方法实施例4的流程图;
图5是本申请提供的一种音频信息处理方法实施例5的流程图;
图6是本申请提供的一种音频信息处理方法的场景示意图;
图7是本申请提供的一种音频信息处理装置实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示的,为本申请提供的一种音频信息处理方法实施例1的流程图,该方法应用于一电子设备,该方法包括以下步骤:
步骤S101:获得音频信息;
其中,所述音频信息包含至少一个语音块。
其中,该音频信息可以是实时获得的音频信息,也可以是接收到全部的音频信息后的音频信息。
其中,将音频信息按照预设的时间长度进行切换,可以切换得到多个语音块。
其中,若该获得的音频信息不大于预设的时间长度,则将该音频信息直接作为一个语音块处理。
其中,若该获得的音频信息大于预设的时间长度,将该音频信息可以切分为多个语音块。
例如,该预设的时间长度可以是一个较小的值,如500ms(毫秒)以内,如10ms、30ms、100ms、300ms等,本申请中不对于该预设时间长度的具体取值做限制。
步骤S102:基于至少一个语音块得到至少一个语音块特征;
其中,所述语音块与所述语音块特征对应。
其中,对于该音频信息中包含的语音块分别进行处理,得到相应的语音块特征。
需要说明的是,当该音频信息是实时获得的音频信息时,基于实时接收到的音频信息的部分进行划分得到语音块,并实时将该划分的语音块进行处理得到相应的语音块特征。
具体实施中,可以采用短时傅里叶变换(STFT,short-time Fourier transform)对于该语音块分别进行处理,得到语音块特征。
步骤S103:识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
其中,对于该语音块特征分别进行识别,得到相应的语音块所属的场景。
其中,该场景可以基于其中包含的不同声音划分。
具体的,场景包括如下声音的场景,如空调噪声,鼓掌声,键盘声,婴儿啼哭声,猫叫声,狗叫声等。
当然,在具体实施中,该场景不限制于本实施例中提供的场景示例,也可以是其他场景。
具体实施中,在识别得到每个语音块所属的场景后,记录该语音块所属的场景。
步骤S104:获取与目标语音块属于同一场景的历史语音块;
其中,所述历史语音块的生成时间早于所述目标块的生成时间。
其中,在若干历史语音块中筛选与目标语音块属于同一场景中的历史语音块。
具体的,该场景是指声音场景,即具有相同的声音的场景,同一场景中出现的噪声相似。
其中,该与目标语音块属于同一场景的历史语音块的个数可以是一个也可以是多个,本申请中不对于与目标语音块属于同一场景的历史语音块的个数做限制。
其中,目标语音块是当前处理的语音块。
具体实施中,对于该音频信息中的一个或者多个语音块按照生成/获得时间的先后顺序,依次确定一个语音块作为目标语音块。
具体实施中,若该音频信息是实时获得的,则是对于接收到最新的语音块作为目标语音块,确定与其属于同一场景的历史语音块。
其中,该历史语音块可以是不属于步骤S101中获得的音频信息中的语音块,如可以是在步骤S101中获得的音频信息之前获得的音频信息,也可以是属于该步骤S101中获得的音频信息中的语音块。
例如,该目标语音块是属于猫叫声场景,则在历史语音块中查找也属于猫叫声场景的历史语音块,该与目标语音块属于同一场景的历史语音块可以有一个也可以有多个。
步骤S105:将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征;
其中,所述目标语音块是所述至少一个语音块中的一个。
其中,将该历史语音块处理得到历史块特征;
然后,将该目标语音块对应的语音块特征与该历史块特征进行融合得到融合块特征。
其中,该融合块特征中包含了属于同一场景的特定信息,将同一场景的特征块融合,能够将同一场景中的特定信息集中体现。
步骤S106:控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
其中,该融合块特征能够将其对应场景中的特定信息集中体现,因此,第一处理模型基于该融合块特征对于本次获得的音频信息中一个语音块对应的目标块特征进行降噪处理,能够针对该语音块所属的场景中的特定信息,对于该目标块特征进行降噪处理,降噪处理的效果较优。
其中,该第一处理模型可以采用CNN(Convolutional Neural Networks,卷积神经网络)或者FullConnect(全连接网络)等。
其中,该历史语音块与当前语音块融合后,其包含的信息是能够被该CNN或者FullConnect等处理短时信息的模型处理。
其中,依次将步骤S101中的音频信息包含的各个音频块依次执行步骤S103-106的处理,得到相应个数的第一降噪块特征。
步骤S107:基于所述第一降噪块特征得到第一目标音频信息。
其中,该第一目标音频信息是对于获得的音频信息进行降噪处理后的音频信息。
其中,将各个目标特征块处理得到第一降噪块特征后,将其按照相对应的语音块的先后顺序进行组合,得到第一目标音频信息。
具体实施中,先将各个第一降噪块特征进行反傅里叶变换,得到该第一降噪块特征对应的一段降噪后的音频信息,然后,将各段降噪后的音频信息依次进行组合,得到第一目标音频信息。
其中,将该第一降噪块特征进行处理得到一段降噪后的音频信息,依次将步骤S101中的音频信息包含的各个音频块进行处理,得到相应个数的第一降噪块特征,将该多个第一降噪块特征分别进行处理得到相应的一段降噪后的音频信息,将各个段降噪后的音频信息拼接即可得到最终的第一目标音频信息。
具体实施中,该第一处理模型还能够处理所述至少一个语音块特征,得到至少一个第二降噪块特征;基于至少一个所述第二降噪块特征得到第二目标音频信息。
其中,将音频信息中的语音块处理得到的语音块特征后,将该语音块特征直接作为输入信息输入该第一处理模型,以使得该第一处理模型仅基于该语音块特征进行降噪处理,得到第二目标信息。
其中,该第一目标信息相对于第二目标信息的降噪效果更优。
综上,本实施例提供的一种音频信息处理方法,对于音频信息中的各个语音块分别进行处理得到相应的语音块特征,并且对于语音块特征识别得到该语音块所属的场景,确定与目标语音块属于同一场景的历史语音块,将该历史语音块对应的历史块特征与目标语音块对应的目标块特征融合得到融合块特征,基于该融合块特征对于该目标块特征进行降噪处理,得到第一降噪块特征,依次对于该音频信息中的多个语音块分别进行上述过程,基于上述的第一降噪块特征能够第一目标音频信息。由于融合块特征是结合了历史语音块与目标语音块的特征的,该历史语音块与该目标语音块具有相同场景中的音频的特征,该融合块特征是长时信息,基于该融合块特征对于目标块特征进行的降噪处理结合了长时信息,相对于仅采用单独的目标语音块的特征进行降噪处理,降噪效果更优
如图2所示的,为本申请提供的一种音频信息处理方法实施例2的流程图,该方法包括以下步骤:
步骤S201:获得音频信息;
其中,步骤S201与实施例1中的步骤S101一致,本实施例中不做赘述。
步骤S202:确定目标语音块中包含的至少两帧帧数据;
其中,目标语音块是该音频信息中多个语音块中的某一个。
其中,每一帧帧数据对应目标时长的音频信息,每帧帧数据包含目标维度的特征。
其中,该音频信息中包含至少一个语音块,每个语音块包含多帧帧数据。
其中,音频信息中的一帧帧数据是按照目标时长划分的,该目标时长的取值可以根据实际情况设置,如可以设置为1帧大约10到30ms。
其中,一个语音块中可以包括1到10帧帧数据。
其中,将该目标语音块中的每帧帧数据经过短时傅里叶变换,得到每帧帧数据对应的目标维度特征。
具体实施中,也可以先按帧对于音频信息进行划分为多帧,然后,基于约定语音块中包含的帧数,将划分的多帧帧数据分为多个语音块。
具体实施中,由于音频信息的连续的,为了实现对其进行降噪处理,对于其中的信息进行采样得到采样矩阵,该采用矩阵是代表该音频信息。
作为一个示例,一帧帧数据中设置160采样点对于音频信息进行菜样,得到1*160维矩阵,对于该1*160维矩阵采用傅里叶变换,得到256个维度矩阵,即该帧数据对应的特征是1*256维矩阵。
步骤S203:基于目标语音块中每帧帧数据包含的目标维度的特征,得到所述目标语音块特征;
其中,在确定了目标语音块中包含的帧数据的帧数后,基于每帧帧数据中包含的目标维度的特征,即可得到目标语音块特征。
其中,该目标语音块特征是帧数*每帧中目标维度特征得到的矩阵。
作为一个示例,一个语音块中包含C帧帧数据,每帧帧数据中包含F维的特征,则该语音块中包含C*F矩阵的特征,其中,C和F的取值是正整数。
作为一个示例,一帧数据对应的特征是1*256维矩阵,一个语音块中包含10帧帧数据,则得到的语音块特征是10*256维矩阵。
步骤S204:识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
步骤S205:获取与目标语音块属于同一场景的历史语音块;
步骤S206:将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征;
步骤S207:控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
步骤S208:基于所述第一降噪块特征得到第一目标音频信息。
其中,步骤S204-208与实施例1中的步骤S103-107一致,本实施例中不做赘述。
综上,本实施例提供的一种音频信息处理方法中,确定目标语音块包含的多帧帧数据,每帧帧数据包含目标维度的特征,基于该目标语音块中包含的帧数据的帧数和每帧帧数据中包含目标维度的特征,得到该目标语音块对应的目标语音块特征。本实施例中,明确了针对目标语音块得到其对应的目标语音块特征的过程,为后续目标语音块所属场景确定以及得到融合块特征等过程提供处理基础。
如图3所示的,为本申请提供的一种音频信息处理方法实施例3的流程图,该方法包括以下步骤:
步骤S301:获得音频信息;
步骤S302:基于至少一个语音块得到至少一个语音块特征;
其中,步骤S301-302与实施例1中的步骤S101-102一致,本实施例中不做赘述。
步骤S303:将目标语音块特征作为输入特征输入第二处理模型得到所述目标语音块属于至少两个预设场景的概率;
其中,在得到语音块对应的语音块特征后,确定一个目标语音块,将该目标语音块作为输入特征输入第二处理模型,以使得该第二处理模型确定该目标语音块属于多个预设场景的概率。
具体的,该第二处理模型具体是对于声音场景进行检测的模块,可以采用CNN或者FullConnect等,该第二处理模型与实施例1中的第一处理模型的可以采用相同类型的模型,但是二者的参数不同。
其中,该目标语音块特征是一个矩阵,其中若目标语音块包含C*F矩阵的特征,则该目标语音块特征是一个C*F维矩阵,其中,C和F的取值是正整数。
其中,该第二处理模型对于输入特征进行处理,得到该输入特征所属多个预设场景的概率。
例如,预设场景包括:空调噪声、鼓掌声、键盘声、猫叫声、狗叫声共5个。将目标语音块特征C*F维矩阵输入该第二处理模型,第二处理模型输出处理结果,该目标语音块属于上述预设场景的概率分别是75%、15%、7%、2%、1%。
步骤S304:基于所述目标语音块属于第一预设场景的概率满足约定选择条件,选择第一预设场景作为所述目标语音块的场景;
其中,在该第二处理模型输出的多个预设场景对应的概率中,选择满足约定条件的一个对应的预设场景作为该目标语音块所属的场景。
其中,约定条件具体是该多个概率中概率值最大的一个。
例如,目标语音块属于空调噪声、鼓掌声、键盘声、猫叫声、狗叫声共5个预设场景的概率分别是75%、15%、7%、2%、1%,选择概率最大的空调噪声作为该目标语音块所属的场景。
步骤S305:获取与目标语音块属于同一场景的历史语音块;
步骤S306:将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征;
步骤S307:控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
步骤S308:基于所述第一降噪块特征得到第一目标音频信息。
其中,步骤S305-308与实施例1中的步骤S104-107一致,本实施例中不做赘述。
综上,本实施例提供的一种音频信息处理方法中,采用第二处理模型,对于目标语音块特征作为的输入特征进行处理,得到该目标语音块属于多个预设场景的概率,从中选择概率满足约定条件的第一预设场景作为该目标语音块所属的场景,为后续选择历史语音块提供基础。
如图4所示的,为本申请提供的一种音频信息处理方法实施例4的流程图,该方法包括以下步骤:
步骤S401:获得音频信息;
步骤S402:基于至少一个语音块得到至少一个语音块特征;
步骤S403:识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
步骤S404:获取与目标语音块属于同一场景的历史语音块;
其中,步骤S401-404与实施例1中的步骤S101-104一致,本实施例中不做赘述。
步骤S405:将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征,基于帧数据的特征维度进行融合,得到融合块特征;
其中,每帧帧数据包含目标维度的特征。
其中,目标语音块中包含至少两帧帧数据,每个历史语音块中也包含相同帧数的帧数据。
其中,将该目标语音块对应的目标块特征与该历史语音块对应的历史块特征融合,得到融合块特征。
其中,每个目标块特征是基于每个目标块中包含的帧数据的帧数以及每帧帧数据的特征得到,相应的,目标块特征与历史块特征融合时,采用帧数据的特征维度融合。
作为一个示例,该目标块特征是C*F维矩阵,若历史语音块是(B-1)个,历史语音块特征也是C*F维矩阵,将该B个矩阵沿着帧数据的特征维度进行拼接,得到(BC)*F维矩阵,该(BC)*F维矩阵就是融合块特征,其中,B、C、F的取值是正整数。
其中,该融合块特征中包含有目标块特征和历史块特征中的全部特征,而且,由于该目标块特征和该历史块特征对应的目标语音块和历史语音块是属于同一场景的语音块,因此,该融合块特征中是对于该场景中的特定信息集中体现,该融合块特征包含有该音频信息中该目标语音块所属的场景的长时信息,因此,第一处理模型基于该融合块特征对于目标块特征进行降噪处理,能够结合该场景中的特定信息,考虑了该长时信,对于该目标块特征进行针对该场景的降噪处理,相对于第一处理模型仅基于该目标块特征进行降噪处理,降噪效果更好。
步骤S406:控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
步骤S407:基于所述第一降噪块特征得到第一目标音频信息。
其中,步骤S406-407与实施例1中的步骤S106-107一致,本实施例中不做赘述。
综上,本实施例提供的一种音频信息处理方法中,在确定了该目标语音块属于同一场景的历史语音块后,确定该历史语音块对应的历史块特征,将该历史块特征和目标语音块对应的目标块特征基于帧数据的特征维度进行融合,得到融合块特征,该融合块特征中是对于该场景中的特定信息集中体现,该融合块特征包含有该音频信息中该目标语音块所属的场景的长时信息,后续第一处理模型基于该融合块特征对于目标块特征进行降噪处理,考虑了该长时信息,降噪效果较好。
如图5所示的,为本申请提供的一种音频信息处理方法实施例5的流程图,该方法包括以下步骤:
步骤S501:获得音频信息;
步骤S502:基于至少一个语音块得到至少一个语音块特征;
步骤S503:识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
步骤S504:获取与目标语音块属于同一场景的历史语音块;
步骤S505:将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征,基于帧数据的特征维度进行融合,得到融合块特征;
其中,步骤S501-505与实施例4中的步骤S401-405一致,本实施例中不做赘述。
步骤S506:基于所述融合块特征得到加权特征;
其中,该融合块特征中包含有目标语音块所属场景的特定信息,具体是该音频信息中对应该场景的长时信息。
其中,本步骤中,基于该融合块特征得到加权特征,该加权特征具体是对于该目标语音块所属场景的长时信息。
其中,采用第三处理模型以及该融合块特征进行处理得到加权特征。
具体的,该第三处理模型采用注意力(attention)模型。
具体的,步骤S506,包括:
步骤S5061:将所述融合块特征分别作为第三处理模型的第一参数和第二参数;
步骤S5062:将所述目标块特征作为所述第三处理模型的第三参数;
其中,第三处理模型包括三个参数,具体是第一参数、第二参数和第三参数。
其中,该第三处理模型采用attention模型,该第一参数是key(记为K),第二参数是value(记为V),第三参数是query(记为Q)。
其中,将该融合块特征分别作为第三处理模型的第一参数和第二参数,即将该融合块特征分别作为K和V,将该目标块特征为作为第三参数Q。
步骤S5063:控制所述第三处理模型基于所述第一参数、第二参数和第三参数,得到加权特征。
其中,该第三处理模型基于第一参数、第二参数和第三参数进行处理,得到加权特征。
其中,该加权特征是在后续对于目标块特征进行处理过程中,对于该目标块特征针对对应的目标语音块所属场景的加权,使得后续第一处理模型对于目标块特征进行降噪时,结合该加权特征能够针对所属场景进行更加有针对性的处理。
其中,该第三处理模型中可以设置有特定的attention公式。
其中,该attention公式具体是:Q*KT*V (1)
将上述分别作为K和V的融合块特征、以及作为Q的目标块特征代入上述公式,得到的结果是加权特征。
作为一个示例,目标块特征是C*F维矩阵,若历史语音块是(B-1)个,融合块特征是(BC)*F维矩阵,将上述分别作为K和V的融合块特征、以及作为Q的目标块特征代入上述公式(1),得到的结果是C*F的矩阵,该加权特征是该C*F的矩阵,其中,B、C、F的取值是正整数。
步骤S507:将所述加权特征与所述目标块特征融合,得到二次融合块特征;
其中,将该加权特征与该目标块特征融合,得到融合了加权的长时信息与该目标块特征的全部特征的二次融合块特征。
其中,加权特征与目标块特征是相同结构的矩阵,二者融合的方式有多种。
具体的,步骤S507,包括:
步骤S5071:将所述加权特征与所述目标块特征基于帧数据的特征维度进行拼接得到二次融合块特征;
或
步骤S5072:将所述加权特征与所述目标块特征堆叠得到二次融合块特征。
其中,将加权特征与目标块特征基于帧数据的特征维度进行拼接,得到的二次融合块特征对应的帧数据维度翻倍。
例如,加权特征是C*F的矩阵,目标块特征也是C*F的矩阵,将二者基于帧数据的特征维度进行拼接,得到的二次融合块特征是C*2F的矩阵。
其中,将加权特征与目标块特征堆叠,得到的二次融合块特征对应的通道翻倍。
例如,加权特征是C*F的矩阵,目标块特征也是C*F的矩阵,将二者堆叠实现拼接,得到的二次融合块特征是2C*F的矩阵。
步骤S508:将所述二次融合块特征输入第一处理模型进行降噪处理,得到第一降噪块特征;
其中,将该二次融合块特征作为输入信息输入第一处理模型,以使得该第一处理模型进行降噪处理,得到第一降噪块特征。
其中,该二次融合块特征是基于加权特征与目标块特征得到的,该加权特征是具有加权功能的长时信息,该加权的长时信息表征了该目标语音块所属场景的特定信息,该加权特征与目标块特征拼接得到的二次融合块特征中包含了具有加权的长时信息与目标块特征。
其中,该第一处理模型对于输入的二次融合块特征进行降噪处理,得到第一降噪块特征,实现了对于目标语音块进行的降噪处理。
步骤S509:基于所述第一降噪块特征得到第一目标音频信息。
其中,步骤S509与实施例4中的步骤S407一致,本实施例中不做赘述。
综上,本实施例提供的一种音频信息处理方法中,基于融合块特征得到加权特征,该加权特征包含有目标语音块所属的场景的特定信息,将该加权特征与目标块特征融合,得到二次融合块特征;将该二次融合块特征输入第一处理模型进行降噪处理,得到第一降噪块特征,实现对于目标语音块的降噪处理,该降噪过程中,二次融合块特征中包含有加权特征于目标块特征,相应的,第一处理模型进行降噪处理过程中,结合了目标语音块所属场景对应的加权特征,考虑了于场景相关加权的长时信息,降噪效果较好。
如图6所示的为本申请提供的一种音频信息处理方法的场景示意图,该场景中包含三个处理模型,其中,第一处理模型601采用CNN模型,用于降噪处理,第二处理模型602采用CNN模型,用于场景识别,第三处理模型603采用attention模型,其中,第一处理模型于第二处理模型的具体参数不同,二者实现的功能不同。
该场景中对于音频信息的处理过程如下:
步骤S601:输入音频信息,该音频信息包含多个语音块;
步骤S602:将目标语音块进行傅里叶变换得到目标块特征;
步骤S603:第二处理模型对于输入的语音块对应的目标块特征进行识别,输出语音块所属的第一场景;
步骤S604:在音频信息获得属于该第一场景的历史语音块;
步骤S605:将该历史语音块转换为历史块特征后,将其与目标块特征融合得到融合块特征,该融合块特征具有长时信息;
步骤S606:第三处理模型基于目标块特征和融合块特征处理,得到加权特征;
步骤S607:该加权特征与目标块特征拼接得到二次融合块特征;
步骤S608:第一处理模型处理该二次融合块特征,得到降噪特征;
步骤S609:对于该降噪特征进行反傅里叶变换可以得到降噪后的语音块;
其中,将音频信息中的各个语音块分别执行步骤S602-609。
步骤S610:将各个降噪后的语音块按照对应的语音块的时序拼接,得到降噪后的音频信息。
与上述本申请提供的一种音频信息处理方法实施例相对应的,本申请还提供了应用该音频信息处理方法的装置实施例。
如图7所示的为本申请提供的一种音频信息处理装置实施例的结构示意图,该装置包括以下结构:获得模块701、特征模块702、识别模块703、获取模块704、融合模块705、降噪模块706和音频信息模块707;
其中,该获得模块701,用于获得音频信息,所述音频信息包含至少一个语音块;
其中,该特征模块702,用于基于所述至少一个语音块得到至少一个语音块特征,所述语音块与所述语音块特征对应;
其中,该识别模块703,用于识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
其中,该获取模块704,用于获取与目标语音块属于同一场景的历史语音块,所述历史语音块的生成时间早于所述目标块的生成时间;
其中,该融合模块705,用于将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,所述目标语音块是所述至少一个语音块中的一个;
其中,该降噪模块706,用于控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
其中,该音频信息模块707,用于基于所述第一降噪块特征得到第一目标音频信息。
可选的,其中:
所述第一处理模型还能够处理所述至少一个语音块特征,得到至少一个第二降噪块特征;
基于至少一个所述第二降噪块特征得到第二目标音频信息。
可选的,所述特征模块,具体用于:
确定目标语音块中包含的至少两帧帧数据,每一帧帧数据对应目标时长的音频信息,每帧帧数据包含目标维度的特征;
基于目标语音块中每帧帧数据包含的目标维度的特征,得到所述目标语音块特征。
可选的,所述识别模块,具体用于
将目标语音块特征作为输入特征输入第二处理模型得到所述目标语音块属于至少两个预设场景的概率;
基于所述目标语音块属于第一预设场景的概率满足约定选择条件,选择第一预设场景作为所述目标语音块的场景。
可选的,所述融合模块,具体用于:
将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征,基于帧数据的特征维度进行融合,得到融合块特征,每帧帧数据包含目标维度的特征。
可选的,所述降噪模块,包括:
加权单元,用于基于所述融合块特征得到加权特征;
融合单元,用于将所述加权特征与所述目标块特征融合,得到二次融合块特征;
降噪单元,用于将所述二次融合块特征输入第一处理模型进行降噪处理,得到第一降噪块特征。
可选的,所述加权单元具体用于:
将所述融合块特征分别作为第三处理模型的第一参数和第二参数;
将所述目标块特征作为所述第三处理模型的第三参数;
控制所述第三处理模型基于所述第一参数、第二参数和第三参数,得到加权特征。
可选的,所述融合单元具体用于:
将所述加权特征与所述目标块特征基于帧数据的特征维度进行拼接得到二次融合块特征;
或
将所述加权特征与所述目标块特征堆叠得到二次融合块特征。
需要说明的是,本实施例中提供的音频信息处理装置的各个组成结构的功能,请参考方法实施例中的解释,本实施例中不做赘述。
综上,本实施例提供的一种音频信息处理装置,对于音频信息中的各个语音块分别进行处理得到相应的语音块特征,并且对于语音块特征识别得到该语音块所属的场景,确定与目标语音块属于同一场景的历史语音块,将该历史语音块对应的历史块特征与目标语音块对应的目标块特征融合得到融合块特征,基于该融合块特征对于该目标块特征进行降噪处理,得到第一降噪块特征,依次对于该音频信息中的多个语音块分别进行上述过程,基于上述的第一降噪块特征能够第一目标音频信息。由于融合块特征是结合了历史语音块与目标语音块的特征的,该历史语音块与该目标语音块具有相同场景中的音频的特征,该融合块特征是长时信息,基于该融合块特征对于目标块特征进行的降噪处理结合了长时信息,相对于仅采用单独的目标语音块的特征进行降噪处理,降噪效果更优
与上述本申请提供的一种音频信息处理方法实施例相对应的,本申请还提供了与该音频信息处理方法相应的电子设备以及可读存储介质。
其中,该电子设备,包括:存储器、处理器;
其中,存储器存储有处理程序;
所述处理器用于加载并执行所述存储器存储的所述处理程序,以实现如上述任一项所述的音频信息处理方法的各步骤。
具体该电子设备的实现音频信息处理方法,参考前述音频信息处理方法实施例即可。
其中,该可读存储介质,其上存储有计算机程序,所述计算机程序被处理器调用并执行,实现如权利要求上述任一项所述的音频信息处理方法的各步骤。
具体该可读存储介质存储的计算机程序执行实现音频信息处理方法,参考前述音频信息处理方法实施例即可。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种音频信息处理方法,包括:
获得音频信息,所述音频信息包含至少一个语音块;
基于所述至少一个语音块得到至少一个语音块特征,所述语音块与所述语音块特征对应;
识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
获取与目标语音块属于同一场景的历史语音块,所述历史语音块的生成时间早于所述目标块的生成时间;
将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,所述目标语音块是所述至少一个语音块中的一个;
控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
基于所述第一降噪块特征得到第一目标音频信息。
2.根据权利要求1所述的方法,其中:
所述第一处理模型还能够处理所述至少一个语音块特征,得到至少一个第二降噪块特征;
基于至少一个所述第二降噪块特征得到第二目标音频信息。
3.根据权利要求1所述的方法,所述基于所述至少一个语音块得到至少一个语音块特征,包括:
确定目标语音块中包含的至少两帧帧数据,每一帧帧数据对应目标时长的音频信息,每帧帧数据包含目标维度的特征;
基于目标语音块中每帧帧数据包含的目标维度的特征,得到所述目标语音块特征。
4.根据权利要求1所述的方法,所述识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景,包括:
将目标语音块特征作为输入特征输入第二处理模型得到所述目标语音块属于至少两个预设场景的概率;
基于所述目标语音块属于第一预设场景的概率满足约定选择条件,选择第一预设场景作为所述目标语音块的场景。
5.根据权利要求1所述的方法,所述将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,包括:
将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征,基于帧数据的特征维度进行融合,得到融合块特征,每帧帧数据包含目标维度的特征。
6.根据权利要求5所述的方法,所述基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征,包括:
基于所述融合块特征得到加权特征;
将所述加权特征与所述目标块特征融合,得到二次融合块特征;
将所述二次融合块特征输入第一处理模型进行降噪处理,得到第一降噪块特征。
7.根据权利要求6所述的方法,所述基于所述融合块特征得到加权特征,包括:
将所述融合块特征分别作为第三处理模型的第一参数和第二参数;
将所述目标块特征作为所述第三处理模型的第三参数;
控制所述第三处理模型基于所述第一参数、第二参数和第三参数,得到加权特征。
8.根据权利要求6所述的方法,将所述加权特征与所述目标块特征融合,得到二次融合块特征,包括:
将所述加权特征与所述目标块特征基于帧数据的特征维度进行拼接得到二次融合块特征;
或
将所述加权特征与所述目标块特征堆叠得到二次融合块特征。
9.一种音频信息处理装置,包括:
获得模块,用于获得音频信息,所述音频信息包含至少一个语音块;
特征模块,用于基于所述至少一个语音块得到至少一个语音块特征,所述语音块与所述语音块特征对应;
识别模块,用于识别所述至少一个语音块特征,得到所述至少一个语音块所属的场景;
获取模块,用于获取与目标语音块属于同一场景的历史语音块,所述历史语音块的生成时间早于所述目标块的生成时间;
融合模块,用于将所述目标语音块对应的目标块特征与所述历史语音块对应的历史块特征进行融合,得到融合块特征,所述目标语音块是所述至少一个语音块中的一个;
降噪模块,用于控制第一处理模型基于所述融合块特征对于所述目标块特征进行降噪处理,得到第一降噪块特征;
音频信息模块,用于基于所述第一降噪块特征得到第一目标音频信息。
10.一种电子设备,包括:存储器、处理器;
其中,存储器存储有处理程序;
所述处理器用于加载并执行所述存储器存储的所述处理程序,以实现如权利要求1-8任一项所述的音频信息处理方法的各步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211230560.7A CN115831138A (zh) | 2022-09-30 | 2022-09-30 | 一种音频信息处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211230560.7A CN115831138A (zh) | 2022-09-30 | 2022-09-30 | 一种音频信息处理方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115831138A true CN115831138A (zh) | 2023-03-21 |
Family
ID=85524459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211230560.7A Pending CN115831138A (zh) | 2022-09-30 | 2022-09-30 | 一种音频信息处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831138A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705013A (zh) * | 2023-07-28 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
-
2022
- 2022-09-30 CN CN202211230560.7A patent/CN115831138A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116705013A (zh) * | 2023-07-28 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
CN116705013B (zh) * | 2023-07-28 | 2023-10-10 | 腾讯科技(深圳)有限公司 | 语音唤醒词的检测方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305641B (zh) | 情感信息的确定方法和装置 | |
EP3301675B1 (en) | Parameter prediction device and parameter prediction method for acoustic signal processing | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
WO2020098256A1 (zh) | 基于全卷积神经网络的语音增强方法、装置及存储介质 | |
CN103391347B (zh) | 一种自动录音的方法及装置 | |
Triantafyllopoulos et al. | Deep speaker conditioning for speech emotion recognition | |
CN105100360A (zh) | 用于语音通话的通话辅助方法和装置 | |
CN109074808A (zh) | 语音控制方法、中控设备和存储介质 | |
CN105096937A (zh) | 语音数据处理方法及终端 | |
CN110335621A (zh) | 音频处理的方法、系统及相关设备 | |
CN111344717B (zh) | 交互行为预测方法、智能装置和计算机可读存储介质 | |
CN108847222B (zh) | 语音识别模型生成方法、装置、存储介质及电子设备 | |
CN109376363A (zh) | 一种基于耳机的实时语音翻译方法及装置 | |
CN115831138A (zh) | 一种音频信息处理方法、装置和电子设备 | |
CN114373472A (zh) | 一种音频降噪方法、设备、系统及存储介质 | |
WO2024099359A1 (zh) | 语音检测的方法和装置、电子设备和存储介质 | |
CN113345439B (zh) | 字幕生成方法、装置、电子设备和存储介质 | |
CN110309284B (zh) | 一种基于贝叶斯网络推理的自动对答方法及装置 | |
CN108182942B (zh) | 一种支持不同虚拟角色交互的方法和装置 | |
CN113643706B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN115083412A (zh) | 语音交互方法及相关装置、电子设备、存储介质 | |
Tamm et al. | Pre-trained speech representations as feature extractors for speech quality assessment in online conferencing applications | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
CN113257238B (zh) | 预训练模型的训练方法、编码特征获取方法及相关装置 | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |