CN111883172B - 用于音频丢包修复的神经网络训练方法、装置和系统 - Google Patents

用于音频丢包修复的神经网络训练方法、装置和系统 Download PDF

Info

Publication number
CN111883172B
CN111883172B CN202010200410.6A CN202010200410A CN111883172B CN 111883172 B CN111883172 B CN 111883172B CN 202010200410 A CN202010200410 A CN 202010200410A CN 111883172 B CN111883172 B CN 111883172B
Authority
CN
China
Prior art keywords
voice signal
repair
preset position
repair model
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010200410.6A
Other languages
English (en)
Other versions
CN111883172A (zh
Inventor
肖全之
闫玉凤
黄荣均
方桂萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Jieli Technology Co Ltd
Original Assignee
Zhuhai Jieli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Jieli Technology Co Ltd filed Critical Zhuhai Jieli Technology Co Ltd
Priority to CN202010200410.6A priority Critical patent/CN111883172B/zh
Publication of CN111883172A publication Critical patent/CN111883172A/zh
Application granted granted Critical
Publication of CN111883172B publication Critical patent/CN111883172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明公开了一种用于音频丢包修复的神经网络训练方法、装置和系统,其中,所述训练方法包括:获取待学习的语音信号样本数据;在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本;将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型。本发明实施例的方案训练了不同的修复模型,使得在语音数据修复过程中能够适应选择修复模型,对丢失语音信号帧的修复更有针对性,继而,提高修复准确率。

Description

用于音频丢包修复的神经网络训练方法、装置和系统
技术领域
本发明涉及音频数据处理领域,具体涉及一种用于音频丢包修复的神经网络训练方法、装置和系统。
背景技术
随着影音设备、移动通信的普及,蓝牙技术的发展,人们越来越多地采用无线收发数据的方式来进行影音数据的无线传输,例如蓝牙音箱、蓝牙耳机、蓝牙鼠标、蓝牙键盘、蓝牙遥控器等越多的蓝牙产品出现在人们的生活中。
其中蓝牙音箱、蓝牙耳机主要应用了蓝牙通话及蓝牙音乐播放等功能,而蓝牙在传输这些音频的时候是将音频数据以一个数据包接一个数据包的形式通过主机(手机、电脑等)传输给蓝牙播放设备播放。在传输过程中,由于是无线传输往往会受到其它无线信号的干扰、或者由于障碍物或距离的原因、导致传输过程数据包的丢失,如果不对这些数据进行修复,那么在播放端就会出现不连续或者是杂音。特别是蓝牙通话模式下,丢失信号会直接影响电话通话的体验感受,严重时甚至影响沟通。因此需要对蓝牙丢包数据进行修复。
针对蓝牙丢包数据的修复,常见的传统修复方式有:
1.静音处理,对丢失的数据用静音数据替换,避免其它刺耳的杂音。这种静音处理方式,方法简单但性能有限,只能避免杂音但丢失的信号是没有恢复的。
2.波形替换,通过语音信号的基音周期或其它相关算法计算相关信号,用相似信号替换。其原理是基于语音短时平稳,可以用相似波形替换,但是现实语音信号也是存在元音、辅音切换、以及语速、语调的不停变化的,所以用相似信号替换很难恢复这种变化信号。另外语音信号能量也是在不停变化的,要较好的恢复出来也需要更多的额外处理,当信号丢失比较严重的时候,由于相似信号的重复使用,也会导致机器声的产生。
为了实现对丢失的音频数据包进行修复,现有技术中,常利用高级算法进行预测、修复,例如,采用神经网络学习音频数据帧与帧之间的非线性模型,而后,根据非线性模型在频域上重构丢失的数据,以此来获得当前丢失数据的时域估计;这种构建非线性模型的方式,通常利用当前音频数据帧之前已接收的音频数据帧来学习模型,由此,预测得到当前丢失的数据,也就是在时域上根据前面的帧来预测后面的音频数据帧。这种方式虽然能够预测、估计丢失的数据,从而对丢失的数据进行修复,但是,当之前的音频数据帧也存在丢包现象时,会导致神经网络学习的非线性模型不够精确,从而导致基于该模型无法准确地预测丢失的音频数据帧。
因此,如何提供新的神经网络结构模型来修复丢失的音频数据包,提高修复准确率成为亟待解决的技术问题。
发明内容
基于上述现状,本发明的主要目的在于提供一种用于音频丢包修复的神经网络训练方法、装置和系统,以修复丢失的音频数据包,提高修复准确率。
为实现上述目的,本发明采用的技术方案如下:
根据第一方面,本发明实施例公开了一种用于音频丢包修复的神经网络训练方法,神经网络的模型包括第一修复模型和第二修复模型,神经网络训练方法包括:步骤S201,获取待学习的语音信号样本数据,语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧;步骤S203,在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;步骤S205,在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,第一预设位置与第二预设位置的位置不同;及步骤S207,将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型,第一修复模型用于修复处于第一预设位置的语音信号帧,第二修复模型用于修复处于第二预设位置的语音信号帧;其中,在音频数据丢包修复过程中,根据丢帧的位置信息选择第一修复模型和第二修复模型,以对丢失的语音信号帧进行修复。
可选地,在步骤S207中,分别训练第一修复模型和第二修复模型包括:通过反复迭代训练第一修复模型和第二修复模型。
可选地,反复迭代训练第一修复模型包括:在第i次迭代后得到第i个语音信号帧,其中,i为正整数;判断第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;如果第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化第一修复模型;和/或,反复迭代训练第二修复模型包括:在第j次迭代后得到第j个语音信号帧,其中,j为正整数;判断第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;如果第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化第二修复模型。
可选地,步骤S201包括:通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组;其中,观察窗采用迭代替换的滑动方式在语音信号样本数据中滑动;在观察窗内执行步骤S203、步骤S205和步骤S207。
可选地,第一预设位置为处于观察窗内且未包含处于观察窗内的最后一帧;通过处于观察窗内的第一预设位置之前和之后的语音信号帧训练第一修复模型。
可选地,第一预设位置为非处于观察窗内的第一帧。
可选地,第二预设位置包括处于观察窗内的最后一帧;通过处于观察窗内的第二预设位置之前的语音信号帧训练第二修复模型。
根据第二方面,本发明实施例公开了一种用于音频丢包修复的神经网络结构,包括:第一修复模型,用于修复第一预设位置的语音信号帧;第二修复模型,用于修复第二预设位置的语音信号帧,第一预设位置与第二预设位置的位置不同;选择模块,用于获取待修复的语音信号数据,语音信号数据包括N帧语音信号,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧;选择模块在确定待修复的语音信号数据中丢失第一预设位置的语音信号帧后,将待修复的语音信号数据输入至第一修复模型,以修复第一预设位置的语音信号帧;选择模块在确定待修复的语音信号数据中丢失第二预设位置的语音信号帧后,将待修复的语音信号数据输入至第二修复模型,以修复第二预设位置的语音信号帧。
根据第三方面,本发明实施例公开了一种用于音频丢包修复的神经网络训练装置,神经网络的模型包括第一修复模型和第二修复模型,其中,在音频数据丢包修复过程中,根据丢帧的位置信息选择第一修复模型和第二修复模型,以对丢失的语音信号帧进行修复;神经网络训练装置包括:样本获取模块,用于获取待学习的语音信号样本数据,语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧;第一剔除模块,用于在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;第二剔除模块,用于在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,第一预设位置与第二预设位置的位置不同;及训练模块,用于将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型,第一修复模型用于修复处于第一预设位置的语音信号帧,第二修复模型用于修复处于第二预设位置的语音信号帧。
可选地,训练模块用于分别训练第一修复模型和第二修复模型包括:通过反复迭代训练第一修复模型和第二修复模型。
可选地,训练模块包括第一训练单元和/或第二训练单元,其中:第一训练单元用于反复迭代训练第一修复模型,包括:在第i次迭代后得到第i个语音信号帧,其中,i为正整数;判断第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;如果第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化第一修复模型;第二训练单元用于反复迭代训练第二修复模型,包括:在第j次迭代后得到第j个语音信号帧,其中,j为正整数;判断第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;如果第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化第二修复模型。
可选地,样本获取模块用于通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组;其中,观察窗采用迭代替换的滑动方式在语音信号样本数据中滑动;在观察窗内运行第一剔除模块、第二剔除模块和训练模块。
可选地,第一预设位置为处于观察窗内且未包含处于观察窗内的最后一帧;训练模块用于通过处于观察窗内的第一预设位置之前和之后的语音信号帧训练第一修复模型。
可选地,第一预设位置为非处于观察窗内的第一帧。
可选地,第二预设位置包括处于观察窗内的最后一帧;训练模块用于通过处于观察窗内的第一预设位置之前的语音信号帧训练第二修复模型。
根据第四方面,本发明实施例公开了一种用于音频丢包修复的神经网络训练系统,包括:语音信号获取装置,用于获取待学习的语音信号样本数据;存储器,用于存储程序;处理器,接收待学习的语音信号样本数据,用于执行程序以实现上述第一方面任意公开的方法。
根据第五方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,存储介质中存储的计算机程序用于被执行实现上述第一方面任意公开的方法。
根据第六方面,本发明实施例公开了一种音频设备的芯片,其上具有集成电路,集成电路被设计成用于实现上述第一方面任意公开的方法。
根据第七方面,本发明实施例公开了一种服务器,其上存储有计算机程序,存储介质中存储的计算机程序用于被执行实现上述第一方面任意公开的方法。
根据第八方面,本发明实施例公开了一种平台服务器,包括:请求接收模块,用于接收数据请求;数据下发模块,用于根据数据请求向用户提供计算机程序和/或计算机程序链接,计算机程序用于被执行实现上述第一方面任意公开的方法。
依据本发明实施例公开的一种用于音频丢包修复的神经网络训练方法、装置和系统,获取待学习的语音信号样本数据,语音信号样本数据以N帧语音信号帧为一组;而后,在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,第一预设位置与第二预设位置的位置不同;并将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型。由于第一修复模型用于修复处于第一预设位置的语音信号帧,第二修复模型用于修复处于第二预设位置的语音信号帧,因此,训练后的第一修复模型和第二修复模型能够分别修复处于第一预设位置的语音信号帧、第二预设位置的语音信号帧,相对于现有技术中,采用同样的修复模型来修复不同的丢帧情况,本发明实施例的方案训练了不同的修复模型,使得在语音数据修复过程中能够适应选择修复模型,对丢失语音信号帧的修复更有针对性,继而,提高修复准确率。
作为可选的方案,通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组,采用迭代替换的滑动方式滑动观察窗,以使处于观察窗内的前若干帧语音信号帧滑出观察窗,处于观察窗外的后若干帧语音信号帧滑入观察窗内,可以保证神经网络输入数据的数量,相应地,处于观察窗内的前若干帧语音信号帧滑出观察窗,可以减小系统输出数据的额外延时,也就是,能够及时地输出语音信号帧。
本发明的其他有益效果,将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述,本领域技术人员通过这些技术特征和技术方案的介绍,应能理解所述技术特征和技术方案带来的有益技术效果。
附图说明
以下将参照附图对根据本发明实施例进行描述。图中:
图1为本实施例公开的一种用于音频丢包修复的神经网络训练方法流程图;
图2A和图2B为本实施例公开的一种剔除预设位置的示例示意图,其中,图2A为本实施例中剔除第一预设位置的示例示意图,图2B为本实施例中剔除第二预设位置的示例示意图;
图3为本实施例公开的一种用于音频丢包修复的神经网络结构示意图;
图4为本实施例公开的一种用于音频丢包修复的神经网络训练装置结构示意图。
具体实施方式
为了利用新的神经网络模型来修复丢失的音频数据包,提高修复准确率,本实施例公开了一种用于音频丢包修复的神经网络训练方法,其中,神经网络的模型包括第一修复模型和第二修复模型,请参考图1,为本实施例公开的一种用于音频丢包修复的神经网络训练方法流程图,该神经网络训练方法包括:
步骤S201,获取待学习的语音信号样本数据。本实施例中,所称语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧。在具体实施过程中,可以直接获取已经划分组的语音信号帧作为语音信号样本数据,也可以获取语音信号样本数据后,再对语音信号样本数据进行以N帧语音信号帧为一组的分组。
步骤S203,在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本。本实施例中,所称第一预设位置是指在组内的位置,具体地,可以以组内的语音信号帧序号来表示第一预设位置。
步骤S205,在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本。本实施例中,所称第二预设位置是指在组内的位置,具体地,可以以组内的语音信号帧序号来表示第二预设位置。本实施例中,第一预设位置与第二预设位置的位置不同。
需要说明的是,本实施例中,并不限制步骤S203和步骤S205之间的执行先后顺序。
步骤S207,将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型。本实施例中,第一修复模型和第二修复模型分别适用于修复不同丢帧位置的语音信号帧。需要说明的是,本实施例中,并不限制第一修复模型和第二修复模型的训练先后顺序,第一修复模型和第二修复模型可以分开单独训练,也可以在同一PC端同步训练。
本实施例中,在对第一修复模型和第二修复模型修复得到参数后,可以固化第一修复模型和第二修复模型;而后,将包含第一修复模型和第二修复模型的神经网络应用到音频数据丢包修复中,在音频数据丢包修复过程中,根据丢帧的位置信息选择第一修复模型和第二修复模型,以对丢失的语音信号帧进行修复。具体而言,在音频数据丢包修复过程中,在获取音频数据包后,如果音频数据帧中存在丢失语音信号帧的丢帧情况,则可以确定丢失的语音信号帧在若干帧音频数据帧中所处的位置得到丢帧的位置信息;依据丢帧的位置信息可以确定丢失的语音信号帧是第一预设位置还是第二预设位置,并将获取的音频数据包中的语音信号帧送入第一修复模型或第二修复模型,从而对丢失的语音信号帧进行丢包恢复。
在具体实施过程中,可以采用例如反复迭代的方式来分别训练第一修复模型和/或第二修复模型,当然,也可以采用其它的方式来分别训练第一修复模型和第二修复模型。
在采用反复迭代的方式来分别训练第一修复模型和/或第二修复模型时:
反复迭代训练第一修复模型包括:在第i次迭代后得到第i个语音信号帧,其中,i为正整数;判断第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;如果第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化第一修复模型;本实施例中,所称模型参数可以是第一修复模型中的例如权值、系数等。
反复迭代训练第二修复模型包括:在第j次迭代后得到第j个语音信号帧,其中,j为正整数;判断第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;如果第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化第二修复模型。本实施例中,所称模型参数可以是第二修复模型中的例如权值、系数等。
在具体实施过程中,在训练得到第一修复模型和/或第二修复模型后,可以将第一修复模型和/或第二修复模型存储至存储设备,以便在修复丢失的语音信号帧时,可以直接调用相关的修复模型。
在具体实施过程中,可以采用滑窗的方式来进行神经网络训练,具体地,步骤S201包括:通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组,也就是,长度为N帧的观察窗在语音信号样本数据滑动,从而,将语音信号样本数据划分为N一组;而后,在观察窗内执行步骤S203、步骤S205和步骤S207。
为了保证神经网络输入数据的数量,减小系统输出数据的额外延时,在采用滑窗的方式来进行分组神经网络训练时,可以采用迭代替换的滑动方式在语音信号样本数据中滑动,以使处于观察窗内的前K帧语音信号帧滑出观察窗,处于观察窗外的后K帧语音信号帧滑入观察窗内,其中,N为大于或等于1的整数,K的取值可以为1。
在具体实施例中,在执行步骤S203时,第一预设位置为处于观察窗内且未包含处于观察窗内的最后一帧;通过处于观察窗内的第一预设位置之前和之后的语音信号帧训练第一修复模型。也就是,处于观察窗内的最后一帧语音信号帧的数据没有剔除,剔除的是观察窗内中间段的信号帧。此时,在执行步骤S203时,将处于观察窗内的语音信号帧送入第一修复模型,以训练第一修复模型,即,训练第一修复模型的第一输入样本中包括处于观察窗内的最后一帧。具体地,也就是将观察窗内剔除的语音信号帧之前、之后的语音信号帧送入第一修复模型,第一修复模型根据剔除的语音信号帧之前、之后的语音信号帧来训练得到剔除的语音信号帧。请参考图2A,为本实施例中剔除第一预设位置的示例示意图,图2A中,虚线框为预设长度的观察窗,假设N=7,该观察窗内包含了编号1-7的语音信号帧,假设观察窗内剔除的数据是第6帧,则将编号1-5的语音信号帧及第7帧作为第一输入样本,而后将第一输入样本输入第一修复模型,第一修复模型根据编号1-5、7的语音信号帧来迭代训练得到第6帧语音信号帧。
在可选的实施例中,第一预设位置为非处于观察窗内的第一帧。作为优选的实施例,根据上述实施例的记载,考虑到是采用滑窗的方式来修复丢失的语音信号帧,当丢失的数据被修复后,观察窗内的数据可以更新完善,因此,在优选的实施例中,第一预设位置可以优选为观察窗内靠后的位置,例如第N-1帧。
在具体实施例中,在执行步骤S203时,第二预设位置为处于观察窗内的最后一帧;通过处于观察窗内的第二预设位置之前的语音信号帧训练第二修复模型。也就是,处于观察窗内的最后一帧语音信号帧的数据被剔除。此时,在执行步骤S203时,将处于观察窗内的语音信号帧送入第二修复模型,以训练第二修复模型。具体地,也就是将观察窗内剔除的语音信号帧(第二预设位置)之前的语音信号帧送入第二修复模型,第二修复模型根据剔除的语音信号帧之前的语音信号帧来训练得到剔除的语音信号帧,亦即,通过前向预测的方式来训练得到第二预设位置的语音信号帧。请参考图2B,为本实施例中剔除第二预设位置的示例示意图,图2B中,虚线框为预设长度的观察窗,假设N=6,该观察窗内包含了编号1-6的语音信号帧,假设观察窗内剔除的数据是第6帧,则将编号6之前的编号1-5的语音信号帧作为第二输入样本,而后将第二输入样本输入第二修复模型,第二修复模型根据编号1-5的语音信号帧来迭代训练得到第6帧语音信号帧。
本实施例还公开了一种用于音频丢包修复的神经网络结构,请参考图3,为本实施例公开的一种用于音频丢包修复的神经网络结构示意图,该神经网络结构包括:第一修复模型601、第二修复模型602和选择模块603,其中:
第一修复模型601用于修复第一预设位置的语音信号帧;第二修复模型602用于修复第二预设位置的语音信号帧,第一预设位置与第二预设位置的位置不同;选择模块603用于获取待修复的语音信号数据,语音信号数据包括N帧语音信号,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧;
本实施例中,选择模块603在确定待修复的语音信号数据中丢失第一预设位置的语音信号帧后,将待修复的语音信号数据输入至第一修复模型,以修复第一预设位置的语音信号帧;选择模块在确定待修复的语音信号数据中丢失第二预设位置的语音信号帧后,将待修复的语音信号数据输入至第二修复模型,以修复第二预设位置的语音信号帧。具体地,请参见上述实施例的描述,在此不再赘述。
本实施例还公开了一种用于音频丢包修复的神经网络训练装置,请参考图4,为本实施例公开的一种用于音频丢包修复的神经网络训练装置结构示意图,神经网络的模型包括第一修复模型和第二修复模型,其中,在音频数据丢包修复过程中,根据丢帧的位置信息选择第一修复模型和第二修复模型,以对丢失的语音信号帧进行修复;神经网络训练装置包括:样本获取模块801、第一剔除模块802、第二剔除模块803和训练模块804,其中:
样本获取模块801用于获取待学习的语音信号样本数据,语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,语音信号帧为包含语音信号的音频数据帧;第一剔除模块802用于在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;第二剔除模块803用于在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,第一预设位置与第二预设位置的位置不同;训练模块804用于将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型,第一修复模型和第二修复模型分别适用于修复不同丢帧位置的语音信号帧。
在可选的实施例中,训练模块用于分别训练第一修复模型和第二修复模型包括:通过反复迭代训练第一修复模型和第二修复模型。
在可选的实施例中,训练模块包括第一训练单元和/或第二训练单元,其中:第一训练单元用于反复迭代训练第一修复模型,包括:在第i次迭代后得到第i个语音信号帧,其中,i为正整数;判断第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;如果第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化第一修复模型;第二训练单元用于反复迭代训练第二修复模型,包括:在第j次迭代后得到第j个语音信号帧,其中,j为正整数;判断第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;如果第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化第二修复模型。
在可选的实施例中,样本获取模块用于通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组;其中,观察窗采用迭代替换的滑动方式在语音信号样本数据中滑动;在观察窗内运行第一剔除模块、第二剔除模块和训练模块。
在可选的实施例中,第一预设位置为处于观察窗内且未包含处于观察窗内的最后一帧;训练模块用于通过处于观察窗内的第一预设位置之前和之后的语音信号帧训练第一修复模型。
在可选的实施例中,第一预设位置为非处于观察窗内的第一帧。
在可选的实施例中,第二预设位置包括处于观察窗内的最后一帧;训练模块用于通过处于观察窗内的第一预设位置之前的语音信号帧训练第二修复模型。
本实施例还公开了一种用于音频丢包修复的神经网络训练系统,包括:语音信号获取装置、存储器和处理器,其中:
语音信号获取装置用于获取待学习的语音信号样本数据;存储器用于存储程序;处理器,接收待学习的语音信号样本数据,用于执行程序以实现上述任意实施例公开的用于音频丢包修复的神经网络训练方法。
本实施例中,神经网络训练系统可以通过电脑来实现,也可以通过服务器来实现。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,存储介质中存储的计算机程序用于被执行实现上述任意实施例公开的用于音频丢包修复的神经网络训练方法。
本实施例还公开了一种音频设备的芯片,其上具有集成电路,集成电路被设计成用于实现上述任意实施例公开的基于神经网络的音频数据丢包修复方法,或者集成电路被设计成用于实现上述任意实施例公开的用于音频丢包修复的神经网络训练方法。
本实施例还公开了一种服务器,其上存储有计算机程序,其特征在于,存储介质中存储的计算机程序用于被执行实现上述任意实施例公开的用于音频丢包修复的神经网络训练方法。
本实施例还公开了一种平台服务器,包括:请求接收模块,用于接收数据请求;数据下发模块,用于根据数据请求向用户提供计算机程序和/或计算机程序链接,计算机程序用于被执行实现上述任意实施例公开的用于音频丢包修复的神经网络训练方法。
依据本实施例公开的一种用于音频丢包修复的神经网络训练方法、装置和系统,获取待学习的语音信号样本数据,语音信号样本数据以N帧语音信号帧为一组;而后,在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,第一预设位置与第二预设位置的位置不同;并将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型。由于第一修复模型用于修复处于第一预设位置的语音信号帧,第二修复模型用于修复处于第二预设位置的语音信号帧,因此,训练后的第一修复模型和第二修复模型能够分别修复处于第一预设位置的语音信号帧、第二预设位置的语音信号帧,相对于现有技术中,采用同样的修复模型来修复不同的丢帧情况,本发明实施例的方案训练了不同的修复模型,使得在语音数据修复过程中能够适应选择修复模型,对丢失语音信号帧的修复更有针对性,继而,提高修复准确率。
作为可选的方案,通过预设长度的观察窗对语音信号样本数据以N帧语音信号帧为一组,采用迭代替换的滑动方式滑动观察窗,以使处于观察窗内的前若干帧语音信号帧滑出观察窗,处于观察窗外的后若干帧语音信号帧滑入观察窗内,可以保证神经网络输入数据的数量,相应地,处于观察窗内的前若干帧语音信号帧滑出观察窗,可以减小系统输出数据的额外延时,也就是,能够及时地输出语音信号帧。
本领域的技术人员能够理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

Claims (20)

1.一种用于音频丢包修复的神经网络训练方法,其特征在于,所述神经网络的模型包括第一修复模型和第二修复模型,所述神经网络训练方法包括:
步骤S201,获取待学习的语音信号样本数据,所述语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,所述语音信号帧为包含语音信号的音频数据帧;
步骤S203,在每组所述N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;
步骤S205,在每组所述N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,所述第一预设位置与所述第二预设位置的位置不同;及
步骤S207,将所述第一输入样本和所述第二输入样本分别输入至所述第一修复模型和所述第二修复模型,以分别训练所述第一修复模型和所述第二修复模型,所述第一修复模型用于修复处于第一预设位置的语音信号帧,所述第二修复模型用于修复处于第二预设位置的语音信号帧;其中,在音频数据丢包修复过程中,根据丢帧的位置信息选择所述第一修复模型和所述第二修复模型,以对丢失的语音信号帧进行修复。
2.如权利要求1所述的神经网络训练方法,其特征在于,在所述步骤S207中,
分别训练所述第一修复模型和所述第二修复模型包括:通过反复迭代训练所述第一修复模型和所述第二修复模型。
3.如权利要求2所述的神经网络训练方法,其特征在于,
反复迭代训练所述第一修复模型包括:
在第i次迭代后得到第i个语音信号帧,其中,i为正整数;
判断所述第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;
如果所述第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化所述第一修复模型;
和/或,
反复迭代训练所述第二修复模型包括:
在第j次迭代后得到第j个语音信号帧,其中,j为正整数;
判断所述第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;
如果所述第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化所述第二修复模型。
4.如权利要求1-3任意一项所述的神经网络训练方法,其特征在于,
所述步骤S201包括:通过预设长度的观察窗对所述语音信号样本数据以N帧语音信号帧为一组;其中,所述观察窗采用迭代替换的滑动方式在所述语音信号样本数据中滑动;
在所述观察窗内执行所述步骤S203、所述步骤S205和所述步骤S207。
5.如权利要求4所述的神经网络训练方法,其特征在于,
所述第一预设位置为处于所述观察窗内且未包含处于所述观察窗内的最后一帧;
通过处于所述观察窗内的所述第一预设位置之前和之后的语音信号帧训练所述第一修复模型。
6.如权利要求5所述的神经网络训练方法,其特征在于,所述第一预设位置为非处于所述观察窗内的第一帧。
7.如权利要求4所述的神经网络训练方法,其特征在于,
所述第二预设位置包括处于所述观察窗内的最后一帧;
通过处于所述观察窗内的所述第二预设位置之前的语音信号帧训练所述第二修复模型。
8.一种用于音频丢包修复的神经网络结构,其特征在于,包括:
第一修复模型,用于修复第一预设位置的语音信号帧;
第二修复模型,用于修复第二预设位置的语音信号帧,所述第一预设位置与所述第二预设位置的位置不同;
选择模块,用于获取待修复的语音信号数据,所述语音信号数据包括N帧语音信号,其中,N为大于或等于5的整数,所述语音信号帧为包含语音信号的音频数据帧;
所述选择模块在确定所述待修复的语音信号数据中丢失第一预设位置的语音信号帧后,将所述待修复的语音信号数据输入至所述第一修复模型,以修复所述第一预设位置的语音信号帧;所述选择模块在确定所述待修复的语音信号数据中丢失第二预设位置的语音信号帧后,将所述待修复的语音信号数据输入至所述第二修复模型,以修复所述第二预设位置的语音信号帧。
9.一种用于音频丢包修复的神经网络训练装置,其特征在于,所述神经网络的模型包括第一修复模型和第二修复模型,其中,在音频数据丢包修复过程中,根据丢帧的位置信息选择所述第一修复模型和所述第二修复模型,以对丢失的语音信号帧进行修复;所述神经网络训练装置包括:
样本获取模块,用于获取待学习的语音信号样本数据,所述语音信号样本数据以N帧语音信号帧为一组,其中,N为大于或等于5的整数,所述语音信号帧为包含语音信号的音频数据帧;
第一剔除模块,用于在每组所述N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;
第二剔除模块,用于在每组所述N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本,所述第一预设位置与所述第二预设位置的位置不同;及
训练模块,用于将所述第一输入样本和所述第二输入样本分别输入至所述第一修复模型和所述第二修复模型,以分别训练所述第一修复模型和所述第二修复模型,所述第一修复模型用于修复处于第一预设位置的语音信号帧,所述第二修复模型用于修复处于第二预设位置的语音信号帧。
10.如权利要求9所述的神经网络训练装置,其特征在于,所述训练模块用于分别训练所述第一修复模型和所述第二修复模型包括:通过反复迭代训练所述第一修复模型和所述第二修复模型。
11.如权利要求10所述的神经网络训练装置,其特征在于,所述训练模块包括第一训练单元和/或第二训练单元,其中:
所述第一训练单元用于反复迭代训练所述第一修复模型,包括:在第i次迭代后得到第i个语音信号帧,其中,i为正整数;判断所述第i个语音信号帧与被剔除的第一预设位置的语音信号帧之间的第一误差是否在预设范围内;如果所述第一误差在预设范围内,则输出第i次迭代所得到的模型参数,以固化所述第一修复模型;
第二训练单元用于反复迭代训练所述第二修复模型,包括:在第j次迭代后得到第j个语音信号帧,其中,j为正整数;判断所述第j个语音信号帧与被剔除的第二预设位置的语音信号帧之间的第二误差是否在预设范围内;如果所述第二误差在预设范围内,则输出第j次迭代所得到的模型参数,以固化所述第二修复模型。
12.如权利要求9-11任意一项所述的神经网络训练装置,其特征在于,
所述样本获取模块用于通过预设长度的观察窗对所述语音信号样本数据以N帧语音信号帧为一组;其中,所述观察窗采用迭代替换的滑动方式在所述语音信号样本数据中滑动;
在所述观察窗内运行所述第一剔除模块、所述第二剔除模块和所述训练模块。
13.如权利要求12所述的神经网络训练装置,其特征在于,
所述第一预设位置为处于所述观察窗内且未包含处于所述观察窗内的最后一帧;
所述训练模块用于通过处于所述观察窗内的所述第一预设位置之前和之后的语音信号帧训练所述第一修复模型。
14.如权利要求13所述的神经网络训练装置,其特征在于,所述第一预设位置为非处于所述观察窗内的第一帧。
15.如权利要求12所述的神经网络训练装置,其特征在于,
所述第二预设位置包括处于所述观察窗内的最后一帧;
所述训练模块用于通过处于所述观察窗内的所述第一预设位置之前的语音信号帧训练所述第二修复模型。
16.一种用于音频丢包修复的神经网络训练系统,其特征在于,包括:
语音信号获取装置,用于获取待学习的语音信号样本数据;
存储器,用于存储程序;
处理器,接收所述待学习的语音信号样本数据,用于执行所述程序以实现如权利要求1-7任意一项所述方法。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,存储介质中存储的计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。
18.一种音频设备的芯片,其上具有集成电路,其特征在于,所述集成电路被设计成用于实现如权利要求1-7任意一项所述的方法。
19.一种服务器,其特征在于,其上存储有计算机程序,其特征在于,存储介质中存储的计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。
20.一种平台服务器,其特征在于,包括:
请求接收模块,用于接收数据请求;
数据下发模块,用于根据所述数据请求向用户提供计算机程序和/或计算机程序链接,所述计算机程序用于被执行实现如权利要求1-7任意一项所述的方法。
CN202010200410.6A 2020-03-20 2020-03-20 用于音频丢包修复的神经网络训练方法、装置和系统 Active CN111883172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010200410.6A CN111883172B (zh) 2020-03-20 2020-03-20 用于音频丢包修复的神经网络训练方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010200410.6A CN111883172B (zh) 2020-03-20 2020-03-20 用于音频丢包修复的神经网络训练方法、装置和系统

Publications (2)

Publication Number Publication Date
CN111883172A CN111883172A (zh) 2020-11-03
CN111883172B true CN111883172B (zh) 2023-11-28

Family

ID=73154257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010200410.6A Active CN111883172B (zh) 2020-03-20 2020-03-20 用于音频丢包修复的神经网络训练方法、装置和系统

Country Status (1)

Country Link
CN (1) CN111883172B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2126380A1 (en) * 1993-07-22 1995-01-23 Wu Chou Minimum Error Rate Training of Combined String Models
DE19906512A1 (de) * 1999-02-17 2000-09-07 Frank Kurth Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN104751227A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及系统
CN107039042A (zh) * 2016-12-09 2017-08-11 电子科技大学 一种基于低一致性词典和稀疏表示的音频修复方法和系统
CN108011686A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147854A1 (en) * 2017-11-16 2019-05-16 Microsoft Technology Licensing, Llc Speech Recognition Source to Target Domain Adaptation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2126380A1 (en) * 1993-07-22 1995-01-23 Wu Chou Minimum Error Rate Training of Combined String Models
DE19906512A1 (de) * 1999-02-17 2000-09-07 Frank Kurth Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN104751227A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及系统
CN108011686A (zh) * 2016-10-31 2018-05-08 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
CN107039042A (zh) * 2016-12-09 2017-08-11 电子科技大学 一种基于低一致性词典和稀疏表示的音频修复方法和系统
CN110534120A (zh) * 2019-08-31 2019-12-03 刘秀萍 一种移动网络环境下的环绕声误码修复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Bayesian approach to the restoration of degraded audio signals;S.J. Godsill, et al;《IEEE Transactions on Speech and Audio Processing》;第3卷(第4期);全文 *
VoIP中丢包补偿算法研究;张成龙;《中国优秀硕士学位论文全文库(信息科技辑)》(第1期);全文 *

Also Published As

Publication number Publication date
CN111883172A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN107481731B (zh) 一种语音数据增强方法及系统
AU2004201076B2 (en) Noise estimation
CN109637525B (zh) 用于生成车载声学模型的方法和装置
WO2014210208A1 (en) Systems and methods for feature extraction
CN111031448B (zh) 回声消除方法、装置、电子设备和存储介质
CN111933164B (zh) 语音处理模型的训练方法、装置、电子设备和存储介质
CN111048061B (zh) 回声消除滤波器的步长获取方法、装置及设备
CN105190751A (zh) 键盘输入检测和抑制
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
JP2020129094A (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
CN111142066A (zh) 波达方向估计方法、服务器以及计算机可读存储介质
Jia et al. Federated domain adaptation for asr with full self-supervision
CN111883173B (zh) 基于神经网络的音频丢包修复方法、设备和系统
CN111883172B (zh) 用于音频丢包修复的神经网络训练方法、装置和系统
WO2020153159A1 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
JP5319788B2 (ja) オーディオ信号のアライメント方法
CN117795527A (zh) 使用自回归语言模型神经网络评估输出序列
CN114155852A (zh) 语音处理方法、装置、电子设备及存储介质
CN111951786A (zh) 声音识别模型的训练方法、装置、终端设备及介质
CN116894431B (zh) 文本处理模型训练方法、文本改写方法及装置和存储介质
US20240127848A1 (en) Quality estimation model for packet loss concealment
CN108416096B (zh) 基于人工智能的远场语音数据信噪比估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 519075 No. 333, Kexing Road, Xiangzhou District, Zhuhai City, Guangdong Province

Applicant after: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

Address before: Floor 1-107, building 904, ShiJiHua Road, Zhuhai City, Guangdong Province

Applicant before: ZHUHAI JIELI TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant