CN116248229B - 一种面向实时语音通讯的丢包补偿方法 - Google Patents

一种面向实时语音通讯的丢包补偿方法 Download PDF

Info

Publication number
CN116248229B
CN116248229B CN202211572689.6A CN202211572689A CN116248229B CN 116248229 B CN116248229 B CN 116248229B CN 202211572689 A CN202211572689 A CN 202211572689A CN 116248229 B CN116248229 B CN 116248229B
Authority
CN
China
Prior art keywords
compensation
audio
module
harmonic
packet loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211572689.6A
Other languages
English (en)
Other versions
CN116248229A (zh
Inventor
张星东
招梓枫
丁卓
鲁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Longyuan Information Technology Co ltd
Original Assignee
Nanjing Longyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Longyuan Information Technology Co ltd filed Critical Nanjing Longyuan Information Technology Co ltd
Priority to CN202211572689.6A priority Critical patent/CN116248229B/zh
Publication of CN116248229A publication Critical patent/CN116248229A/zh
Application granted granted Critical
Publication of CN116248229B publication Critical patent/CN116248229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0036Systems modifying transmission characteristics according to link quality, e.g. power backoff arrangements specific to the receiver
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0078Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location
    • H04L1/0091Avoidance of errors by organising the transmitted data in a format specifically designed to deal with errors, e.g. location arrangements specific to receivers, e.g. format detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种面向实时语音通讯的丢包补偿方法,包括如下步骤:构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。

Description

一种面向实时语音通讯的丢包补偿方法
技术领域
本发明涉及语音通讯技术领域,尤其涉及一种面向实时语音通讯的丢包补偿方法。
背景技术
目前,现有的实时语音通讯(视频会议、语音聊天、网络游戏等),对实时性和准确性的要求越来越高。在实时语音通讯的音频传输过程中,影响音频音质的主要因素是面向无连接的分组交换网络传输所造成的丢包,其降低了音频数据还原的准确率。
随着深度学习技术的发展,出现了一些基于深度神经网络的智能丢包补偿方案,但是,在现有技术中,一般是先将音频信号进行频域特征提取后,然后再输入到模型中进行基于频域特征的音频预测,这样的处理会丢失大量的原始信息,对于音频帧的补偿的准确度较差。
发明内容
为了解决上述技术问题,本发明提出一种面向实时语音通讯的丢包补偿方法。在所述方法中,基于对抗神经网络的丢包补偿模型,能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。
为了达到上述目的,本发明的技术方案如下:
一种面向实时语音通讯的丢包补偿方法,包括如下步骤:
构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;
将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;
通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;
基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。
优选地,将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频,包括如下步骤:
将历史音频输入至所述补偿系数生成器中,获得补偿系数;
将补偿系数作为权重对所述谐波组的谐波进行加权求和,获得初始修补音频。
优选地,所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块,其中,
所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块的输出作为下一个卷积模块的输入;
所述时序推理模块,包括若干个层叠的递归网络模块,所述递归网络模块包括递归神经网络、归一化、激活函数操作;用于将卷积模块的输出结果跳跃连接至上采样模块;
所述上采样模块,包括若干个层叠的插值模块,所述插值模块包括插值、跳跃张量合并操作;用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块,上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入。
优选地,所述谐波组由多个长度相等的谐波组成。
优选地,所述谐波组的获取方式,包括如下步骤:
构建谐波训练网络,所述谐波训练网络包括编码器、时序网络和解码器;
将波形信号输入至谐波训练网络中,通过音频去噪的方式训练,直到网络模型收敛或达到最大迭代次数,输出谐波组。
优选地,所述编码器由一个卷积模块构成,包括一维卷积、归一化、激活函数等操作,用于将输入的一维信号波形处理为二维张量A∈RτxN
所述时序网络由多个层叠的空洞卷积模块构成,每个空洞卷积模块包括一维空洞卷积、归一化、激活函数操作,处理结果为二维张量B∈RτxN
所述解码器由一个谐波矩阵W∈RNxT构成,用于通过将时序网络输出和谐波矩阵相乘得到Y∈RτxT,对τ个波形信号片段进行部分重叠相加得到和原一维信号波形等长的输出波形。
优选地,所述谐波训练网络的训练过程中,通过正交性训练法控制不同子谐波的之间的互相关L,公式如下所示:
L=|WWT|
其中矩阵W∈RNxT为谐波组,N为谐波组中谐波数量,T为音频的长度或采样点个数。
优选地,所述逼真度判别器包括一个降采样模块和一个线性模块,其中,
所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块包括一维卷积、归一化、激活函数操作;
所述线性模块,包括若干个层叠的线性层。
优选地,所述补偿训练模型的训练过程中,采用梯度下降法自适应的更新补偿训练模型的参数。
优选地,还包括如下步骤:
将待修补音频输入至训练好的丢包补偿模型中进行音频补偿处理,获得修补后音频;
通过播放器播放所述修补后音频。
基于上述技术方案,本发明的有益效果是:本发明构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明通过训练好的丢包补偿模型,能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。
附图说明
图1是一个实施例中一种面向实时语音通讯的丢包补偿方法的应用环境图;
图2是一个实施例中一种面向实时语音通讯的丢包补偿方法的流程示意图;
图3是一个实施例中一种面向实时语音通讯的丢包补偿方法中补偿训练模型训练阶段的流程图;
图4是一个实施例中一种面向实时语音通讯的丢包补偿方法中丢包补偿模型推理阶段的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供的一种面向实时语音通讯的丢包补偿方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;计算机设备110可以将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;计算机设备110可以通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;计算机设备110可以基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。
如图2、3所示,本实施例提供一种面向实时语音通讯的丢包补偿方法,包括如下步骤:
步骤202,构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器。
计算机设备能够构建基于对抗神经网络的补偿训练模型,丢包补偿模型由3部分组成:分别为补偿系数生成器、谐波组、逼真度判别器,其中,补偿系数生成器由一个编解码器神经网络构成,包含一个降采样模块,一个时序推理模块和一个上采样模块;逼真度判别器由一个降采样模块和一个线性模块组成;谐波组由多个长度相等的谐波组成,谐波组通过谐波训练网络得到。
步骤204,将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频。
本实施例中,补偿系数生成器基于所输入的历史音频,估计出N个谐波系数,构成1个谐波系数向量用于后续的补偿帧合成;谐波组由N个长度为1帧的谐波组成,可以矩阵W∈RNxT表示,其中T为1帧音频的长度或采样点个数。通过将补偿系数生成器输出补偿系数和谐波组进行加权求和/>得到初始修补音频/>
步骤206,通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度。
本实施例中,逼真度判别器用于在训练时判定补偿帧的逼真度,迫使补偿系数生成器和谐波组对丢失的语音帧进行更逼真的补偿恢复。
步骤208,基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。
本实施例中,在补偿训练模型训练阶段,逼真度判别器将比较初始修补音频和真实无丢包音频之间的相似度,而在推理运行阶段,逼真度判别器被弃置,直接使用补偿系数生成器和谐波组修补后的音频作为丢包补偿模型的输出。
其中,在补偿训练模型的训练过程中,采用梯度下降法自适应的更新补偿训练模型的参数。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法还可以包括将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频的过程,具体过程包括:将历史音频输入至所述补偿系数生成器中,获得补偿系数;将补偿系数作为权重对所述谐波组的谐波进行加权求和,获得初始修补音频。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法中,所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块,其中,所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块的输出作为下一个卷积模块的输入;所述时序推理模块,包括若干个层叠的递归网络模块,所述递归网络模块包括递归神经网络、归一化、激活函数操作;用于将卷积模块的输出结果跳跃连接至上采样模块;所述上采样模块,包括若干个层叠的插值模块,所述插值模块包括插值、跳跃张量合并操作;用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块,上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法中,所述谐波组由多个长度相等的谐波组成。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法还可以包括所述谐波组的获取方式的过程,具体过程包括:构建谐波训练网络,所述谐波训练网络包括编码器、时序网络和解码器;将波形信号输入至谐波训练网络中,通过音频去噪的方式训练,直到网络模型收敛或达到最大迭代次数,输出谐波组。
其中,所述编码器由一个卷积模块构成,包括一维卷积、归一化、激活函数等操作,用于将输入的一维信号波形处理为二维张量A∈RτxN;所述时序网络由多个层叠的空洞卷积模块构成,每个空洞卷积模块包括一维空洞卷积、归一化、激活函数操作,处理结果为二维张量B∈RτxN;所述解码器由一个谐波矩阵W∈RNxT构成,用于通过将时序网络输出和谐波矩阵相乘得到Y∈RτxT,对τ个波形信号片段进行部分重叠相加得到和原一维信号波形等长的输出波形。通过音频去噪的方式训练该谐波训练网络,得到一个合理分布的谐波矩阵W∈RNxT作为丢包补偿模型的谐波组。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法中,所述谐波训练网络的训练过程中,通过正交性训练法控制不同子谐波的之间的互相关L,公式如下所示:
L=|WWT|
其中矩阵W∈RNxT为谐波组,在谐波组训练过程中参数可调,而在补偿模型训练过程中不可调。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法中,所述逼真度判别器包括一个降采样模块和一个线性模块,其中,所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块包括一维卷积、归一化、激活函数操作;所述线性模块,包括若干个层叠的线性层。
在一个实施例中,提供的一种面向实时语音通讯的丢包补偿方法还可以包括推理运行阶段的过程,具体过程包括:将待修补音频输入至训练好的丢包补偿模型中进行音频补偿处理,获得修补后音频;通过播放器播放所述修补后音频,如图4所示。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅为本发明所公开的一种面向实时语音通讯的丢包补偿方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。

Claims (7)

1.一种面向实时语音通讯的丢包补偿方法,其特征在于,包括如下步骤:
构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;
将历史音频输入至所述补偿系数生成器中,获得补偿系数;将补偿系数作为权重对所述谐波组的谐波进行加权求和,获得初始修补音频,所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块,其中,所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块的输出作为下一个卷积模块的输入;所述时序推理模块,包括若干个层叠的递归网络模块,所述递归网络模块包括递归神经网络、归一化、激活函数操作;用于将卷积模块的输出结果跳跃连接至上采样模块;所述上采样模块,包括若干个层叠的插值模块,所述插值模块包括插值、跳跃张量合并操作;用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块,上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入;
通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度,所述逼真度判别器包括一个降采样模块和一个线性模块,其中,所述降采样模块,包括若干个层叠的卷积模块,所述卷积模块包括一维卷积、归一化、激活函数操作;所述线性模块,包括若干个层叠的线性层;
基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。
2.根据权利要求1所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,所述谐波组由多个长度相等的谐波组成。
3.根据权利要求2所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,所述谐波组的获取方式,包括如下步骤:
构建谐波训练网络,所述谐波训练网络包括编码器、时序网络和解码器;
将波形信号输入至谐波训练网络中,通过音频去噪的方式训练,直到网络模型收敛或达到最大迭代次数,输出谐波组。
4.根据权利要求3所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,所述编码器由一个卷积模块构成,包括一维卷积、归一化、激活函数等操作,用于将输入的一维信号波形处理为二维张量A∈RτxN
所述时序网络由多个层叠的空洞卷积模块构成,每个空洞卷积模块包括一维空洞卷积、归一化、激活函数操作,处理结果为二维张量B∈RτxN
所述解码器由一个谐波矩阵W∈RNxT构成,用于通过将时序网络输出和谐波矩阵相乘得到Y∈RτxT,对τ个波形信号片段进行部分重叠相加得到和原一维信号波形等长的输出波形。
5.根据权利要求3所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,所述谐波训练网络的训练过程中,通过正交性训练法控制不同子谐波的之间的互相关L,公式如下所示:
L=|WWT|
其中矩阵W∈RNxT为谐波组,N为谐波组中谐波数量,T为音频的长度或采样点个数。
6.根据权利要求1所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,所述补偿训练模型的训练过程中,采用梯度下降法自适应的更新补偿训练模型的参数。
7.根据权利要求1至6任意一项所述的一种面向实时语音通讯的丢包补偿方法,其特征在于,还包括如下步骤:
将待修补音频输入至训练好的丢包补偿模型中进行音频补偿处理,获得修补后音频;
通过播放器播放所述修补后音频。
CN202211572689.6A 2022-12-08 2022-12-08 一种面向实时语音通讯的丢包补偿方法 Active CN116248229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211572689.6A CN116248229B (zh) 2022-12-08 2022-12-08 一种面向实时语音通讯的丢包补偿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211572689.6A CN116248229B (zh) 2022-12-08 2022-12-08 一种面向实时语音通讯的丢包补偿方法

Publications (2)

Publication Number Publication Date
CN116248229A CN116248229A (zh) 2023-06-09
CN116248229B true CN116248229B (zh) 2023-12-01

Family

ID=86626620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211572689.6A Active CN116248229B (zh) 2022-12-08 2022-12-08 一种面向实时语音通讯的丢包补偿方法

Country Status (1)

Country Link
CN (1) CN116248229B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030951A (zh) * 2007-02-08 2007-09-05 华为技术有限公司 一种丢包补偿方法及装置
CN113035207A (zh) * 2021-03-03 2021-06-25 北京猿力未来科技有限公司 音频处理方法及装置
WO2022012195A1 (zh) * 2020-07-13 2022-01-20 腾讯科技(深圳)有限公司 音频信号处理方法和相关装置
CN115171707A (zh) * 2022-07-07 2022-10-11 百果园技术(新加坡)有限公司 语音流丢包补偿方法及其装置、设备、介质、产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030951A (zh) * 2007-02-08 2007-09-05 华为技术有限公司 一种丢包补偿方法及装置
WO2022012195A1 (zh) * 2020-07-13 2022-01-20 腾讯科技(深圳)有限公司 音频信号处理方法和相关装置
CN113035207A (zh) * 2021-03-03 2021-06-25 北京猿力未来科技有限公司 音频处理方法及装置
CN115171707A (zh) * 2022-07-07 2022-10-11 百果园技术(新加坡)有限公司 语音流丢包补偿方法及其装置、设备、介质、产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡毅,胡咏梅,柴乔林.语音通信中语音帧丢失补偿算法的设计与实现.计算机工程与科学.2001,(第03期),全文. *
语音通信中语音帧丢失补偿算法的设计与实现;胡毅, 胡咏梅, 柴乔林;计算机工程与科学(第03期);全文 *

Also Published As

Publication number Publication date
CN116248229A (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
EP3926623A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111326157B (zh) 文本生成方法、装置、电子设备和计算机可读介质
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN110189761B (zh) 一种基于贪婪深度字典学习的单信道语音去混响方法
CN111292768B (zh) 丢包隐藏的方法、装置、存储介质和计算机设备
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN108650202B (zh) 一种信号调制模式识别方法及装置
CN112491442B (zh) 一种自干扰消除方法及装置
Shi et al. Transferable latent of cnn-based selective fixed-filter active noise control
US20240046955A1 (en) Voice extraction method and apparatus, and electronic device
CN111859795A (zh) 针对功率放大器的多项式辅助神经网络行为建模系统及方法
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
CN113571078A (zh) 噪声抑制方法、装置、介质以及电子设备
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
CN113782044B (zh) 一种语音增强方法及装置
CN114067819A (zh) 基于跨层相似性知识蒸馏的语音增强方法
CN116248229B (zh) 一种面向实时语音通讯的丢包补偿方法
CN114938232B (zh) 基于lstm的同时同频全双工数字域自干扰抑制方法
CN116467416A (zh) 一种基于图神经网络的多模态对话情感识别方法及系统
CN115113855B (zh) 音频数据处理方法、装置、电子设备、存储介质和产品
CN111353258A (zh) 基于编码解码神经网络的回声抑制方法及音频装置及设备
CN114495909A (zh) 一种端到端的骨气导语音联合识别方法
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant