CN111653285B - 丢包补偿方法及装置 - Google Patents

丢包补偿方法及装置 Download PDF

Info

Publication number
CN111653285B
CN111653285B CN202010485134.2A CN202010485134A CN111653285B CN 111653285 B CN111653285 B CN 111653285B CN 202010485134 A CN202010485134 A CN 202010485134A CN 111653285 B CN111653285 B CN 111653285B
Authority
CN
China
Prior art keywords
frequency domain
packet loss
parameter
audio signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010485134.2A
Other languages
English (en)
Other versions
CN111653285A (zh
Inventor
王晓红
陈佳路
刘鲁鹏
元海明
高强
夏龙
郭常圳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ape Power Future Technology Co Ltd
Original Assignee
Beijing Ape Power Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ape Power Future Technology Co Ltd filed Critical Beijing Ape Power Future Technology Co Ltd
Priority to CN202010485134.2A priority Critical patent/CN111653285B/zh
Publication of CN111653285A publication Critical patent/CN111653285A/zh
Application granted granted Critical
Publication of CN111653285B publication Critical patent/CN111653285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本说明书提供丢包补偿方法及装置,其中所述丢包补偿方法包括:获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;将所述丢包信号区段从时域变换到频域,得到第一频域参数;将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;根据所述第二频域参数与所述第一频域参数得到第三频域参数。本说明书的丢包补偿方法利用丢包位置的上下文音频信号对丢包位置进行补偿,将相位和幅值同时输入基于深度神经网络的音频补偿模型进行预测,降低了计算复杂度并且提高了丢包补偿质量。

Description

丢包补偿方法及装置
技术领域
本说明书涉及音频处理技术领域,特别涉及一种丢包补偿方法。本说明书同时涉及一种丢包补偿装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
在各种音频处理任务中,会遇到本地降级甚至丢失的信息。譬如损坏的音频文件、音频传输中丢失的信息,以及被噪声本地干扰的音频信号。音频中丢失信息的恢复被称为音频补偿,音频内推/外推或波形代换。丢包补偿(重建)通常旨在提供连贯和有意义的信息,同时防止声音伪影,这样听者就不会知道发生了什么问题。丢包补偿属于语音增强范畴内的一种。
现有技术中使用“编码器”(encoder)+“解码器”(decoder)的DNN结构来根据上下文信息恢复丢失的音频内容,DNN结构的输入是64ms数据缺口的上下文音频数据的短时傅里叶变换的系数,DNN结构包括卷积层、全连接层、反卷积层。现有技术分别训练了复数系数和幅值系数两种DNN网络,复数DNN方案比幅值DNN的丢包补偿质量差。而对于幅值DNN方案,DNN网络仅输出幅值信息,相位信息需要单独计算:先设置相位的初始值,再利用算法迭代计算最终的相位,计算复杂度高,运行缓慢。
因此需要计算复杂度低并且丢包补偿质量高的操作或者处理。
发明内容
有鉴于此,本说明书实施例提供了一种丢包补偿方法。本说明书同时涉及一种丢包补偿装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种丢包补偿方法,包括:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数。
可选的,丢包补偿方法还包括:
对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
可选的,将所述丢包信号区段从时域变换到频域,得到第一频域参数,包括:
将所述丢包位置用零填充;
将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
可选的,所述丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段;
将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数,包括:
基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得所述多个频域帧的频域参数作为所述第一频域参数。
可选的,基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧,包括:利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
可选的,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述第一频域参数包括第一幅值参数和第一相位参数,第二频域参数包括第二幅值参数和第二相位参数,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,包括:
将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;
将所述中间参数输入全连接层组,得到幅值实数;
计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;
将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数。
可选的,根据所述第二频域参数与所述第一频域参数得到第三频域参数,包括:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
可选的,所述丢包补偿方法还包括:
对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号;
将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
根据本说明书实施例的第二方面,提供了一种丢包补偿装置,包括:
获取模块,被配置为获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
第一变换模块,被配置为将所述丢包信号区段从时域变换到频域,得到第一频域参数;
模型输入模块,被配置为将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
频域参数得到模块,被配置为根据所述第二频域参数与所述第一频域参数得到第三频域参数。
可选的,丢包补偿装置还包括:
第二变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
可选的,所述第一变换模块包括:
填充子模块,被配置为将所述丢包位置用零填充;
变换子模块,被配置为将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
可选的,所述丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段;
所述变换子模块还包括:
变换单元,被配置为基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得单元,获得所述多个频域帧的频域参数作为所述第一频域参数。
可选的,所述变换单元还被配置为:利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
可选的,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述第一频域参数包括第一幅值参数和第一相位参数,第二频域参数包括第二幅值参数和第二相位参数,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;
所述模型输入模块还被配置为:
将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;
将所述中间参数输入全连接层组,得到幅值实数;
计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;
将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数。
可选的,所述频域参数得到模块还被配置为:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
可选的,所述丢包补偿装置还包括:
第三变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号;
替换模块,被配置为将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意所述丢包补偿方法的步骤。
本说明书提供的丢包补偿方法,通过获取目标音频信号的丢包信号区段;将所述丢包信号区段从时域变换到频域,得到第一频域参数;将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数;根据所述第二频域参数与所述第一频域参数得到第三频域参数,利用丢包位置的上下文音频信号对丢包位置进行补偿,将相位和幅值同时输入基于深度神经网络的音频补偿模型进行预测,降低了计算复杂度并且提高了丢包补偿质量。
附图说明
图1是本说明书一实施例提供的一种丢包补偿方法的流程图;
图2是本说明书一实施例提供的一种丢包补偿方法中的时域丢包的示意图;
图3是本说明书一实施例提供的一种丢包补偿方法中的时域到频域的转换示意图;
图4是本说明书一实施例提供的一种丢包补偿方法中的深度神经网络的模型框架图;
图5是本说明书一实施例提供的一种丢包补偿方法中的经丢包补偿的音频信号的时域波形图与频谱图的示意图;
图6是本说明书一实施例提供的一种丢包补偿装置的结构示意图;
图7是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了一种丢包补偿方法,本说明书同时涉及一种丢包补偿装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例提供的一种丢包补偿方法的流程图,具体包括步骤102至108。
步骤102:获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段。
目标音频信号是存在信息丢失的待丢包补偿的音频信号,丢包位置是音频信号中丢失信息的信号位置。可以以各种方式、途径获取目标音频信号,例如可以主动从服务器、客户端、网络监控端等获取或被动获取。丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段,利用丢包位置前后的上下文音频数据作为输入,可以更好地预测谐波信息,第一数量与第二数量可以相同,也可以不同。
下面结合图2进行说明,图2是本说明书一实施例提供的一种丢包补偿方法中的时域丢包的示意图。如图2中所示,T_gap表示丢包位置,位于丢包位置之前和之后的T_left-side、T_right-side分别表示丢包位置之前和之后的音频信号区段,丢包位置T_gap之前有T1至T6共6个时域帧,丢包位置之后有T8至T13共6个时域帧。例如,可以取T_gap=8毫秒,T_left_side=48毫秒,T_right_side=48毫秒,T_left_side与T_right_side可以取不同值,只要T_left_side与T_right_side为T_gap提供足够谐波相关性即可。
步骤104:将所述丢包信号区段从时域变换到频域,得到第一频域参数。
第一频域参数可以包括第一幅值参数和第一相位参数。
具体地,步骤104可以通过以下来实现:
S1、将所述丢包位置用零填充;
S2、将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
短时傅里叶变换(STFT,short-time Fourier transform)是指将信号加滑动时间窗,并对窗内信号做傅立叶变换,得到信号的时变频谱,用以确定信号其局部区域正弦波的频率与相位。短时傅里叶变换使用一个固定的窗函数,窗函数一旦确定了以后,其形状就不再发生改变,短时傅里叶变换的分辨率也就确定了。
进一步地,S2可以通过以下来实现:
基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得所述多个频域帧的频域参数作为所述第一频域参数。
具体地,可以利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
下面结合图3进行说明,图3是本说明书一实施例提供的一种丢包补偿方法中的时域到频域的转换示意图。在音频输入为16k采样率的情况下,8毫秒的丢包位置为128采样。取帧长为512,帧步长为128,利用汉宁窗进行短时傅里叶变换,其中,汉宁窗长度为512,步长为128,不加边缘填充(padding),不加边缘填充可以规避预测输出的幅值低的问题。图3中虚线表示T_gap,T_gap左侧为T_left_side,T_gap右侧为T_right_side。短时傅里叶变换之后,T_gap左侧的T_left_side生成了帧1、帧2和帧3共3个频域帧;T_gap右侧的T_right_side生成了帧8、帧9和帧10共3个频域帧;频域中与T_gap相关的是帧4、帧5、帧6和帧7共4个频域帧。即,利用汉宁窗将13个时域帧的音频信号转换到频域得到10个频域帧,获得10个频域帧的幅值参数和相位参数作为第一频域参数。
步骤106:将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数。
第二频域参数包括第二幅值参数和第二相位参数,第二频域参数是与T_gap相关的第二幅值参数和第二相位参数。下面结合图4对音频补偿模型进行说明,图4是本说明书一实施例提供的一种丢包补偿方法中的深度神经网络的模型框架图。如图4所示,音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层(图4中示为信息通讯),所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互。
具体地,如图4所示,神经网络框架中采用幅值流(左侧)和相位流(右侧),幅值流用于预测幅值实数(mask),相位流用于预测相位。以图3中的10个频域帧为例进行说明,该神经网络的输入是10个频域帧的第一频域参数,输入的形状(shape)为(batch,10,257,2),batch是超参数,为定义更新模型参数之前处理的样本数,10为频域帧数目,257由512点短时傅里叶变换决定,2为通道数。神经网络的输出为与丢包位置相关的4个频域帧的第二频域参数,输出的形状为(batch,4,257,2)。
输入的形状取决于步骤102和104中的具体参数,幅度流和相位流的输入可以相同也可以不同,输入和输出的形状可以相同或不同,本申请中不作具体限制。
下面描述深度神经网络的模型框架的具体结构。幅值流包括第一卷积层组、全连接层组和通讯层,相位流包括第二卷积层组和通讯层。第一卷积层组、全连接层组、第二卷积层组各自包括多个层,每个层的输入是前一层的输出。图4中所示卷积层与全连接层的层数与特征数仅为示例,层数与特征数可以有变化。通讯层设置在第一卷积层组中的卷积层之间,并且设置在第二卷积层组中的卷积层之间,用于实现幅值流和相位流交互。具体地,通讯层通过
Figure BDA0002518859640000121
实现,其中,对于幅值流,x1是幅值流中的卷积层之间的中间参数,x2是相位流中的卷积层之间的中间参数,对于相位流,x1是相位流中的卷积层之间的中间参数,x2是幅值流中的卷积层之间的中间参数,在通讯层之后,幅值流和相位流得到交互。由于相位自身难以预测,利用来自幅值流的信息,相位预测得到提高。成功预测相位也有助于预测幅值。
具体地,步骤106可以通过以下实现:
将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;
将所述中间参数输入全连接层组,得到幅值实数;
计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;
将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数。
以图3中的10个频域帧为例进行说明,将10个频域帧的第一幅值参数输入第一卷积层组、全连接层组,幅值流的输出为幅值实数,将其与参考幅值相乘得到帧4至帧7四个频域帧的第二幅值参数,作为示例,参考幅值例如可以从左到右取四帧为帧4、帧4、帧7、帧7。幅值自身范围大,无法很好地直接预测目标幅值。预测幅值实数实现的预测效果远好于直接预测幅值的预测效果。将10个频域帧的第一相位参数输入相位流中的第二卷积层组,经过第二卷积层组与通讯层之后进行幅值归一化,得到帧4至帧7四个频域帧的第二相位参数。将包含丢包位置的帧4至帧7四个频域帧的第二幅值参数和第二相位参数作为所述第二频域参数。
采用上述深度神经网络的模型框架,相位与幅值同时训练,解决了相位单独不好训练的问题,改善丢包补偿后的音频质量。此外,该模型采用全连接层,降低了模型复杂度,提高了补偿速度,在丢包位置前后仅需要6*T_gap毫秒的数据,可补偿T_gap毫秒的丢包数据,更适合于基于RTP/UDP的低延时直播网络。
步骤108:根据所述第二频域参数与所述第一频域参数得到第三频域参数。
具体地,可以将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
以图3中的10个频域帧为例进行说明,包含丢包位置的四个频域帧(帧4至帧7)的第二幅值参数和第二相位参数是所述第二频域参数,将其与第一频域参数中的帧1至帧3以及帧8至帧10的频域参数进行拼接,得到第三频域参数。
本说明书的丢包补偿方法利用丢包位置的上下文音频信号对丢包位置进行补偿,将相位和幅值同时输入基于深度神经网络的音频补偿模型进行预测,降低了计算复杂度并且提高了丢包补偿质量。
在本说明书一实施例中,帧长是帧步长的四倍,这样可以解决拼接问题。在具体应用中,帧长和帧步长的比值可以取其他值,比值越大,丢包补偿效果越好,所需T_left_side与T_right_side越大。
在本说明书一实施例中,丢包补偿方法还包括:
对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
实际应用中可以对拼接后的频谱进行短时傅里叶反变换,得到经过丢包补偿的时域音频信号。
在本说明书一实施例中,丢包补偿方法还包括:
将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
由于在短时傅里叶变换时利用了汉宁窗,所以经过丢包补偿的时域音频信号前m个和后n个时域帧(即m×帧步长和n×帧步长个采样点)与原始信号不符,需要将这些采样点替换为已知的原始输入的信号。
以图3中的10个频域帧为例进行说明,由于短时傅里叶反变换时,每一个时域帧需要四个频域帧来生成,例如,时域帧T4由频域帧1至频域帧4生成,时域帧T6由频域帧3至频域帧6生成。与时域T1/T2/T3和T11/T12/T13对应的频域帧不足四个,短时傅里叶反变换后的时域T1’/T2’/T3’和T11’/T12’/T13’帧是不正确的,因此将T1’/T2’/T3’和T11’/T12’/T13’分别用原始输入的音频信号的时域帧T1/T2/T3和T11/T12/T13替换。
经过上述步骤之后,得到如图5中的第一行中的经丢包补偿的音频信号。图5中的第二行示出了第一行的音频信号对应的频谱图,第一列是原始的参考信号,第二列为模拟的有丢包(中间为零的区域)的信号,最后一列为通过神经网络进行丢包补偿后的信号。
与上述方法实施例相对应,本说明书还提供了丢包补偿装置实施例,图6示出了本说明书一实施例提供的一种丢包补偿装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
第一变换模块604,被配置为将所述丢包信号区段从时域变换到频域,得到第一频域参数;
模型输入模块606,被配置为将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
频域参数得到模块608,被配置为根据所述第二频域参数与所述第一频域参数得到第三频域参数。
本说明书的丢包补偿装置利用丢包位置的上下文音频信号对丢包位置进行补偿,将相位和幅值同时输入基于深度神经网络的音频补偿模型进行预测,降低了计算复杂度并且提高了丢包补偿质量。
可选的,丢包补偿装置还包括:
第二变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
可选的,所述第一变换模块包括:
填充子模块,被配置为将所述丢包位置用零填充;
变换子模块,被配置为将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
可选的,所述丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段;
所述变换子模块还包括:
变换单元,被配置为基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得单元,获得所述多个频域帧的频域参数作为所述第一频域参数。
可选的,所述变换单元还被配置为:利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
可选的,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述第一频域参数包括第一幅值参数和第一相位参数,第二频域参数包括第二幅值参数和第二相位参数,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;
所述模型输入模块还被配置为:
将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;
将所述中间参数输入全连接层组,得到幅值实数;
计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;
将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数。
可选的,所述频域参数得到模块还被配置为:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的帧的频域参数进行拼接,得到第三频域参数。
可选的,所述丢包补偿装置还包括:
第三变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号;
替换模块,被配置为将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
上述为本实施例的一种丢包补偿装置的示意性方案。需要说明的是,该丢包补偿装置的技术方案与上述的丢包补偿方法的技术方案属于同一构思,丢包补偿装置的技术方案未详细描述的细节内容,均可以参见上述丢包补偿方法的技术方案的描述。
图7示出了根据本说明书一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行如下计算机可执行指令:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的丢包补偿方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述丢包补偿方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的丢包补偿方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述丢包补偿方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种丢包补偿方法,包括:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;将所述中间参数输入全连接层组,得到幅值实数;计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数;
其中,根据所述第二频域参数与所述第一频域参数得到第三频域参数,包括:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
2.如权利要求1所述的丢包补偿方法,还包括:
对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
3.如权利要求1或2所述的丢包补偿方法,其中,将所述丢包信号区段从时域变换到频域,得到第一频域参数,包括:
将所述丢包位置用零填充;
将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
4.如权利要求3所述的丢包补偿方法,其中,所述丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段;
将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数,包括:
基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得所述多个频域帧的频域参数作为所述第一频域参数。
5.如权利要求4所述的丢包补偿方法,其中,基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧,包括:利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
6.如权利要求1所述的丢包补偿方法,其中,所述丢包补偿方法还包括:
对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号;
将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
7.一种丢包补偿装置,包括:
获取模块,被配置为获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
第一变换模块,被配置为将所述丢包信号区段从时域变换到频域,得到第一频域参数;
模型输入模块,被配置为将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;将所述中间参数输入全连接层组,得到幅值实数;计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数;
频域参数得到模块,被配置为根据所述第二频域参数与所述第一频域参数得到第三频域参数;
其中,所述频域参数得到模块还被配置为:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
8.如权利要求7所述的丢包补偿装置,还包括:
第二变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号。
9.如权利要求7或8所述的丢包补偿装置,其中,所述第一变换模块包括:
填充子模块,被配置为将所述丢包位置用零填充;
变换子模块,被配置为将所述丢包信号区段进行短时傅里叶变换,生成所述第一频域参数。
10.如权利要求9所述的丢包补偿装置,其中,所述丢包位置的上下文预定时长的音频信号区段包括:位于丢包位置之前的第一数量个时域帧的第一音频信号区段和/或位于丢包位置之后的第二数量个时域帧的第二音频信号区段;
所述变换子模块还包括:
变换单元,被配置为基于预定帧长和帧步长,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧;
获得单元,获得所述多个频域帧的频域参数作为所述第一频域参数。
11.如权利要求10所述的丢包补偿装置,其中,所述变换单元还被配置为:利用窗长度为所述预定帧长、步长为所述帧步长的汉宁窗,对所述第一音频信号区段和/或所述第二音频信号区段以及所述丢包位置进行短时傅里叶变换,获得符合所述帧步长的多个频域帧。
12.如权利要求7所述的丢包补偿装置,其中,所述丢包补偿装置还包括:
第三变换模块,被配置为对所述第三频域参数进行从频域到时域的变换,得到经过丢包补偿的目标音频信号;
替换模块,被配置为将所述经过丢包补偿的目标音频信号中的前m个时域帧的音频信号替换为原始的目标音频信号中的前m个时域帧的音频信号,将所述经过丢包补偿的目标音频信号中的后n个时域帧的音频信号替换为所述原始的目标音频信号中的后n个时域帧的音频信号,其中,m和n均为大于等于1的整数。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取目标音频信号的丢包信号区段,其中所述丢包信号区段包括丢包位置,以及丢包位置的上下文预定时长的音频信号区段;
将所述丢包信号区段从时域变换到频域,得到第一频域参数;
将所述第一频域参数输入预先建立的基于深度神经网络的音频补偿模型,获得第二频域参数,其中,所述第二频域参数是与所述丢包位置相关的频域参数,所述音频补偿模型包括:第一卷积层组、全连接层组、第二卷积层组和通讯层,所述通讯层位于所述第一卷积层组和所述第二卷积层组中,用于幅值参数和相位参数交互;将所述多个频域帧中的每个频域帧的第一幅值参数输入第一卷积层组,得到中间参数;将所述中间参数输入全连接层组,得到幅值实数;计算参考幅值与所述幅值实数的乘积,作为与所述丢包位置相关的频域帧的第二幅值参数;将所述多个频域帧中的每个频域帧的第一相位参数输入第二卷积层组,得到与所述丢包位置相关的频域帧的第二相位参数;
根据所述第二频域参数与所述第一频域参数得到第三频域参数;
其中,根据所述第二频域参数与所述第一频域参数得到第三频域参数,包括:
将所述第二频域参数与所述第一频域参数中的与丢包位置不相关的频域帧的频域参数进行拼接,得到第三频域参数。
14.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至6任意一项所述丢包补偿方法的步骤。
CN202010485134.2A 2020-06-01 2020-06-01 丢包补偿方法及装置 Active CN111653285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485134.2A CN111653285B (zh) 2020-06-01 2020-06-01 丢包补偿方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485134.2A CN111653285B (zh) 2020-06-01 2020-06-01 丢包补偿方法及装置

Publications (2)

Publication Number Publication Date
CN111653285A CN111653285A (zh) 2020-09-11
CN111653285B true CN111653285B (zh) 2023-06-30

Family

ID=72352705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485134.2A Active CN111653285B (zh) 2020-06-01 2020-06-01 丢包补偿方法及装置

Country Status (1)

Country Link
CN (1) CN111653285B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289343B (zh) * 2020-10-28 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质
CN112634868B (zh) * 2020-12-21 2024-04-05 北京声智科技有限公司 一种语音信号处理方法、装置、介质和设备
CN113035205B (zh) * 2020-12-28 2022-06-07 阿里巴巴(中国)有限公司 音频丢包补偿处理方法、装置及电子设备
CN113035207B (zh) * 2021-03-03 2024-03-22 北京猿力未来科技有限公司 音频处理方法及装置
CN113096685B (zh) * 2021-04-02 2024-05-07 北京猿力未来科技有限公司 音频处理方法及装置
CN113612808B (zh) * 2021-10-09 2022-01-25 腾讯科技(深圳)有限公司 音频处理方法、相关设备、存储介质及程序产品
CN114387989B (zh) * 2022-03-23 2022-07-01 北京汇金春华科技有限公司 语音信号处理方法、装置、系统及存储介质
CN114866856B (zh) * 2022-05-06 2024-01-02 北京达佳互联信息技术有限公司 音频信号的处理方法、音频生成模型的训练方法及装置
CN117524253B (zh) * 2024-01-04 2024-05-07 南京龙垣信息科技有限公司 针对网络音频丢包的低延迟修复和隐藏方法及其设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN103854649A (zh) * 2012-11-29 2014-06-11 中兴通讯股份有限公司 一种变换域的丢帧补偿方法及装置
WO2017025108A2 (en) * 2016-10-04 2017-02-16 Al-Shalash Taha Kais Taha Sequencing the speech signal
CN109074820A (zh) * 2016-05-10 2018-12-21 谷歌有限责任公司 使用神经网络进行音频处理
CN109273021A (zh) * 2018-08-09 2019-01-25 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法
CN111164682A (zh) * 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111212245A (zh) * 2020-01-15 2020-05-29 北京猿力未来科技有限公司 一种合成视频的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101471073A (zh) * 2007-12-27 2009-07-01 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN103854649A (zh) * 2012-11-29 2014-06-11 中兴通讯股份有限公司 一种变换域的丢帧补偿方法及装置
CN109074820A (zh) * 2016-05-10 2018-12-21 谷歌有限责任公司 使用神经网络进行音频处理
WO2017025108A2 (en) * 2016-10-04 2017-02-16 Al-Shalash Taha Kais Taha Sequencing the speech signal
CN111164682A (zh) * 2017-10-24 2020-05-15 三星电子株式会社 使用机器学习的音频重建方法和设备
CN109273021A (zh) * 2018-08-09 2019-01-25 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111212245A (zh) * 2020-01-15 2020-05-29 北京猿力未来科技有限公司 一种合成视频的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Akshay Rao ; Laurel H. Carney.Speech Enhancement for Listeners With Hearing Loss Based on a Model for Vowel Coding in the Auditory Midbrain.《 IEEE Transactions on Biomedical Engineering 》.2014,第61卷(第61期),全文. *
杨立东 ; 王晶 ; 谢湘 ; 赵毅 ; 匡镜明 ; .基于低秩张量补全的多声道音频信号恢复方法.电子与信息学报.2016,(第02期),全文. *
白海钏 ; 鲍长春 ; 刘鑫 ; .基于局部最小二乘支持向量机的音频频带扩展方法.电子学报.2016,(第09期),全文. *

Also Published As

Publication number Publication date
CN111653285A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111653285B (zh) 丢包补偿方法及装置
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
Li et al. Real-time speech frequency bandwidth extension
CN112767959B (zh) 语音增强方法、装置、设备及介质
US20230298611A1 (en) Speech enhancement
CN114067826B (zh) 语音降噪方法、装置、设备及存储介质
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
CN113035207B (zh) 音频处理方法及装置
Okamoto et al. Noise level limited sub-modeling for diffusion probabilistic vocoders
Magron et al. Online spectrogram inversion for low-latency audio source separation
CN114333893A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN111640442B (zh) 处理音频丢包的方法、训练神经网络的方法及各自的装置
CN113096685B (zh) 音频处理方法及装置
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
Martel et al. Audio-visual speech separation in noisy environments with a lightweight iterative model
Ullah et al. Semi-supervised transient noise suppression using OMLSA and SNMF algorithms
Xiang et al. Joint waveform and magnitude processing for monaural speech enhancement
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
CN114974299A (zh) 语音增强模型的训练、增强方法、装置、设备、介质
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN113823312A (zh) 语音增强模型生成方法和装置、语音增强方法和装置
Li et al. An improved speech enhancement algorithm based on combination of OMLSA and IMCRA
Li et al. Restoration of Bone-Conducted Speech With U-Net-Like Model and Energy Distance Loss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Xiaohong

Inventor after: Chen Jialu

Inventor after: Liu Lupeng

Inventor after: Yuan Haiming

Inventor after: Gao Qiang

Inventor after: Xia Long

Inventor after: Guo Changzhen

Inventor before: Wang Xiaohong

Inventor before: Chen Jialu

Inventor before: Liu Lupeng

Inventor before: Yuan Haiming

Inventor before: Gao Qiang

Inventor before: Xia Long

Inventor before: Guo Changzhen

GR01 Patent grant
GR01 Patent grant