CN114613372B - 一种音频传输抗丢包的错误隐藏技术方法 - Google Patents
一种音频传输抗丢包的错误隐藏技术方法 Download PDFInfo
- Publication number
- CN114613372B CN114613372B CN202210157250.0A CN202210157250A CN114613372B CN 114613372 B CN114613372 B CN 114613372B CN 202210157250 A CN202210157250 A CN 202210157250A CN 114613372 B CN114613372 B CN 114613372B
- Authority
- CN
- China
- Prior art keywords
- predicted value
- matrix
- data
- audio frame
- conformity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000005540 biological transmission Effects 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 253
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 238000007637 random forest analysis Methods 0.000 claims description 26
- 238000012706 support-vector machine Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 230000001502 supplementing effect Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B14/00—Transmission systems not characterised by the medium used for transmission
- H04B14/02—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
- H04B14/04—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明涉及一种音频传输抗丢包的错误隐藏技术方法,涉及实时音频通信技术领域,包括,步骤S1,获取音频帧数据的高维序列,构造输入矩阵与目标值矩阵;步骤S2,利用输入矩阵与目标值矩阵训练回归模型,并获取预测值矩阵;步骤S3,接收音频帧数据并判定,利用预测值对音频帧数据空缺进行错误隐藏,并对预测值矩阵进行修正。本发明通过相空间重构获得音频帧数据的高维序列,高维向量空间比一维脉冲编码调制采样值能更好的刻划音频数据随时间不断演进的动态特性,并结合不同的机器学习模型能对即将接收音频数据作出更好的预测,使用预测值屏蔽缺失的影响,完成错误隐藏,降低错误隐藏帧与原始音频帧的差异,提高音频传输质量。
Description
技术领域
本发明涉及实时音频通信技术领域,尤其涉及一种音频传输抗丢包的错误隐藏技术方法。
背景技术
音频通信是通过麦克风采集原始脉冲编码调制PCM音频帧、压缩编码成特定格式,比如G.722、G.718、AMR-WB、OPUS,再通过IP网络发送给接收端解码,还原成脉冲编码调制PCM数据,并由声卡播放。压缩音频包经过网络传输后可能会丢失,如果通过带宽比较受限的链路,比如卫星信道,还可能造成大延迟及时延抖动,接收端一般通过jitter缓冲区对收到的压缩音频包进行排队并检测出RTP层包序号的不连续,对于因此而缺失的音频帧,可以使用错误隐藏PLC算法将其重构出来,常规的PLC包括但不限于:填零、重复前一帧、将前几帧外插值后得到等,jitter缓冲区要么将连续收到的包交由解码器解码,要么在发生丢包时通知解码器内置或外置的错误隐藏PLC模块重构出一帧。
但现有的错误隐藏PLC很难在通用兼容各种音频编码格式、开放待选的机器学习模块可随意增减、实时重构时仅运用缺失前的信号数据以及感官效果这四个方面都取得较优,缺乏在脉冲编码调制PCM的相空间重构PSR分解映射以及相关参数的考量和计算,并在利用某个机器学习模型对正确传输并缓存下来的脉冲编码调制PCM数据进行学习建模时,不具备为丢失帧作出较复杂非线性预测的能力,造成错误隐藏帧与原始音频帧存在较大差异。
发明内容
为此,本发明提供一种音频传输抗丢包的错误隐藏技术方法,用以克服现有技术中错误隐藏帧与原始音频帧存在较大差异的问题。
为实现上述目的,本发明提供一种音频传输抗丢包的错误隐藏技术方法,包括,
步骤S1,通过相空间重构将任意一音频帧数据的脉冲编码调制一维序列解构到若干个同相空间,获得该音频帧数据的高维序列,根据该音频帧数据的高维序列构造输入矩阵,再根据输入矩阵构造目标值矩阵;
步骤S2,将构造完成的输入矩阵与目标值矩阵分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型,将输入矩阵输入到回归模型中,得到预测值矩阵;
步骤S3,对即将接收的新的音频帧数据进行判定,根据新的音频帧数据的数据量判定是否通过预测值矩阵对新的音频帧数据的空缺进行错误隐藏,解构新的音频帧数据的高维序列,并将新的音频帧数据的高维序列与预测值矩阵中对应相预测值进行对比,根据对比结果计算预测值矩阵中对应相预测值的符合度,再根据预测值矩阵中对应相预测值的符合度判定是否对新的音频帧数据的高维序列进行学习,以对预测值矩阵进行修正。
进一步地,在所述步骤S1中,将任意一音频帧数据的脉冲编码调制一维序列x(t)进行相空间重构处理,得到该音频帧数据的高维序列X(t),
X(t)=[x(t),x(t+τ),...,x(t+(m-1)τ)]
其中,τ为时延;m为嵌入维数度;t为基础帧值。
进一步地,根据高维序列X(t)构造输入矩阵X,
其中,M为大于基础帧值的最小整数帧值。
进一步地,根据输入矩阵X构造目标值矩阵Y,
进一步地,在完成对输入矩阵X与目标值矩阵Y的构建后,将输入矩阵X与目标值矩阵Y分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,分别得到支持向量机、随机森林、前馈神经网络的回归模型,利用均方根误差RMSE进行评价,
其中,Yj为每组同相数据的目标值,即x(j),x(j+τ),…x(j+(m-1)τ)的期望值,j为任意一时刻帧值,Pj为完成训练输出的预测值,τtest为从τ组同相数据最后划出的部分用于评价模型性能的数据集个数;
根据评价结果选取出Y~X回归模型,将输入矩阵X输入到Y~X回归模型获得预测值矩阵P。
进一步地,设置第一预设数据量N1与第二预设数据量N2,其中,N1<N2,在对新的音频帧数据进行接收时,先获取新的音频帧数据的数据量Nx,并将新的音频帧数据的数据量Nx与第一预设数据量N1、第二预设数据量N2进行对比,
当Nx<N1时,判定该音频帧数据量未达到第一预设数据量,将以预测值矩阵中对应相的预测值替换该音频帧数据,完成错误隐藏;
当N1≤Nx<N2时,判定该音频帧数据的数据量在第一预设数据量与第二预设数据量之间,将预测值矩阵中对应相的预测值与该音频帧数据的高维序列进行对比,以判定预测值矩阵中对应相预测值的符合度;
当Nx=N2时,判定该音频帧数据量达到第二预设数据量,不对该音频帧数据进行补充或替换。
进一步地,设置第一预设符合度G1与第二预设符合度G2,其中,G1<G2,在判定新的音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,将获取新的音频帧数据的高维序列,再将新的音频帧数据的高维序列与预测值矩阵中对应相的预测值进行逐位对比,根据相同位占总位数的比值计算预测值矩阵中对应相的预测值的符合度Gu,并将预测值的符合度Gu与第一预设符合度G1、第二预设符合度G2进行对比,
当Gu<G1时,判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度,将以高维序列X(t)对该音频帧数据高维序列缺失位进行补充,完成错误隐藏;
当G1≤Gu<G2时,判定该预测值矩阵中对应相的预测值的符合度在第一预设符合度与第二预设符合度之间,将通过预测值矩阵中对应相的预测值对新的音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当Gu≥G2时,判定该预测值矩阵中对应相的预测值的符合度达到第二预设符合度,将通过预测值矩阵中对应相的预测值对该音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’输入到Y~X回归模型获得预测值矩阵P’。
进一步地,在判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度时,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pn。
进一步地,设置标准符合度Gb与标准符合度差ΔGb,当判定该音频帧数据量达到第二预设数据量时,将获取新的音频帧数据的高维序列,计算预测值矩阵中对应相的预测值的符合度Ge,根据标准符合度Gb与预测值的符合度Ge计算预测值的符合度差ΔGe,ΔGe=|Gb-Ge|,将预测值的符合度差ΔGe与标准符合度差ΔGb进行对比,
当ΔGe≤ΔGb时,判定预测值矩阵中对应相的预测值的符合度在标准范围内,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当ΔGe>ΔGb时,判定预测值的符合度差高于标准符合度差,将预测值的符合度与标准符合度进行对比,以确定是否对预测值矩阵进行修正。
进一步地,在判定预测值的符合度差高于标准符合度差时,将预测值矩阵中对应相的预测值的符合度Ge与标准符合度Gb进行对比,
当Ge<Gb时,判定预测值矩阵中对应相的预测值的符合度低于标准符合度,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,并确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pf;
当Ge>Gb时,判定预测值矩阵中对应相的预测值的符合度高于标准符合度,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’、输入矩阵X与目标值矩阵Y分为训练数据和测试数据,并选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y”~X”,将输入矩阵X’输入到回归模型Y”~X”中,得到预测值矩阵Pa。
与现有技术相比,本发明的有益效果在于,通过对音频数据接收过程中的一音频帧数据进行相空间重构,获得该音频帧数据的高维序列,高维向量空间比音频帧数据的一维脉冲编码调制采样值能更好的刻划音频数据随时间不断演进的动态特性,并通过结合不同的机器学习模型能对下一帧音频数据作出更好的预测,使用预测值屏蔽缺失的影响,完成错误隐藏,并在新的音频帧数据进行接收时对其判定,根据新的音频帧数据的数据量以及对应相预测值的符合度,判定错误隐藏选取方式,并且通过调整新的音频帧数据学习方式对预测值矩阵进行不同的修正,不断使预测值矩阵的预测值接近原始音频帧数据,降低错误隐藏帧与原始音频帧的差异,提高了音频数据的传输质量。
进一步地,通过对音频帧数据的脉冲编码调制一维序列进行相空间重构处理,结合音频帧数据的基础帧值、时延与嵌入维数度,将音频帧数据一维序列映射至多维相形成该音频帧数据的的高维序列,高维向量空间比音频帧数据的一维脉冲编码调制采样值能更好的刻划音频数据随时间不断演进的动态特性,根据精准的高维序列数据进行矩阵构建与模型预测,能够使预测结果更加符合实际音频帧数据,降低错误隐藏帧与原始音频帧的差异,提高了音频数据的传输质量。
进一步地,根据音频帧数据的高维序列构造输入矩阵,通过构建大于基础帧值的输入矩阵相数,能够对矩阵的构建范围进行控制,从而达到对预测结果范围的确定,提高对新的音频帧数据预测的准确性。
进一步地,根据已将构建完成的输入矩阵再次构建目标值矩阵,能够充分体现被构建的原始音频帧数据的动态特征,进一步对预测基础支撑数据的精准化设置,提高对新的音频帧数据预测的准确性。
尤其,通过将输入矩阵与目标值矩阵分为训练数据和测试数据,并选用支持向量机、随机森林、前馈神经网络多种算法进行训练与测试,得到多个回归模型,在通过均方根误差对多个回归模型的预测进行评价,选取最终的回归模型,进一步提高了模型选择的优越性,同时将输入矩阵输入回归模型获得预测值矩阵,利用预测值矩阵对未接收音频帧数据进行预测,提升了模型对丢失帧作出较复杂非线性预测的性能。
尤其,在对新的音频帧数据进行接收时,对音频帧数据的数据量进行判定,通过设置第一预设数据量与第二预设数据量,确定该音频帧数据的状态,在音频帧数据量未达到第一预设数据量时,表明接收到的数据量较低或未接收,不能够通过修复的方法进行空缺补充,判定为丢包状态,利用预测值替换该音频帧数据,完成错误隐藏,在音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,表明接收到的数据量不完全,但是能够对其进行补充修复,通过结合预测值矩阵中对应相预测值的符合度,确定缺失数据的补充方式,当音频帧数据量达到第二预设数据量时,表明接收到的音频帧数据为完全的音频帧数据,不对音频帧数据进行补充或替换,保障了音频传输的真实性。
进一步地,在音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,将获取新的音频帧数据的高维序列,再将新的音频帧数据的高维序列与预测值矩阵中对应相的预测值进行逐位对比,计算预测值的符合度,在预测值的符合度低于第一预设符合度时,表示预测值准确性较低,通过利用上一音频帧数据的高维序列对该音频帧数据高维序列缺失位进行补充,保障了音频数据传输的质量,在预测值的符合度在第一预设符合度与第二预设符合度之间或达到第二预设符合度时,通过预测值矩阵中对应相的预测值对新的音频帧数据的高维序列中缺失位进行补充,进一步提高了音频数据传输的质量,同时使用不同的方式对该音频帧数据进行学习,修正预测值矩阵,也提高了预测模型的预测精度。
进一步地,在预测值矩阵中对应相的预测值的符合度低于第一预设符合度时,将放弃上一音频帧数据的预测模型,对新的音频帧数据进行重新的构建矩阵与模型训练,形成新的回归模型,并得到新的音频帧数据的预测值矩阵,减小错误预测对预测模型的影响,保障预测模型的预测精准度,也提高了音频数据传输的质量。
尤其,通过对数据量达到第二预设数据量的音频帧数据进行标准符合度的判定,确定回归模型的学习方式,在预测值矩阵中对应相的预测值的符合度在标准范围内时,表示数据完整,且符合度较高,通过将该音频帧数据叠加至回归模型中,获得新的预测值矩阵,进一步提高了预测模型的性能。
进一步地,在预测值的符合度差高于标准符合度差时,将预测值的符合度与标准符合度进行对比,当预测值矩阵中对应相的预测值的符合度低于标准符合度时,对新的音频帧数据进行重新的建模与预测,以减小错误预测对预测模型的影响,保障预测模型的预测精准度,也提高了音频数据传输的质量,在预测值矩阵中对应相的预测值的符合度高于标准符合度时,体现预测值的符合度很高,将对新的音频帧数据进行与原回归模型的基础数据进行重新建模,将回归模型的预测精度再次提升,保障音频数据传输的质量。
附图说明
图1为本发明所述音频传输抗丢包的错误隐藏技术方法的流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明所述音频传输抗丢包的错误隐藏技术方法的流程图。本发明公布一种音频传输抗丢包的错误隐藏技术方法,包括,
步骤S1,通过相空间重构将任意一音频帧数据的脉冲编码调制一维序列解构到若干个同相空间,获得该音频帧数据的高维序列,根据该音频帧数据的高维序列构造输入矩阵,再根据输入矩阵构造目标值矩阵;
步骤S2,将构造完成的输入矩阵与目标值矩阵分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型,将输入矩阵输入到回归模型中,得到预测值矩阵;
步骤S3,对即将接收的新的音频帧数据进行判定,根据新的音频帧数据的数据量判定是否通过预测值矩阵对新的音频帧数据的空缺进行错误隐藏,解构新的音频帧数据的高维序列,并将新的音频帧数据的高维序列与预测值矩阵中对应相预测值进行对比,根据对比结果计算预测值矩阵中对应相预测值的符合度,再根据预测值矩阵中对应相预测值的符合度判定是否对新的音频帧数据的高维序列进行学习,以对预测值矩阵进行修正。
通过对音频数据接收过程中的一音频帧数据进行相空间重构,获得该音频帧数据的高维序列,高维向量空间比音频帧数据的一维脉冲编码调制采样值能更好的刻划音频数据随时间不断演进的动态特性,并通过结合不同的机器学习模型能对下一帧音频数据作出更好的预测,使用预测值屏蔽缺失的影响,完成错误隐藏,并在新的音频帧数据进行接收时对其判定,根据新的音频帧数据的数据量以及对应相预测值的符合度,判定错误隐藏选取方式,并且通过调整新的音频帧数据学习方式对预测值矩阵进行不同的修正,不断使预测值矩阵的预测值接近原始音频帧数据,降低错误隐藏帧与原始音频帧的差异,提高了音频数据的传输质量。
进一步地,在所述步骤S1中,将任意一音频帧数据的脉冲编码调制一维序列x(t)进行相空间重构处理,得到该音频帧数据的高维序列X(t),
X(t)=[x(t),x(t+τ),...,x(t+(m-1)τ)]
其中,τ为时延;m为嵌入维数度;t为基础帧值。
通过对音频帧数据的脉冲编码调制一维序列进行相空间重构处理,结合音频帧数据的基础帧值、时延与嵌入维数度,将音频帧数据一维序列映射至多维相形成该音频帧数据的的高维序列,高维向量空间比音频帧数据的一维脉冲编码调制采样值能更好的刻划音频数据随时间不断演进的动态特性,根据精准的高维序列数据进行矩阵构建与模型预测,能够使预测结果更加符合实际音频帧数据,降低错误隐藏帧与原始音频帧的差异,提高了音频数据的传输质量。
进一步地,根据高维序列X(t)构造输入矩阵X,
其中,M为大于基础帧值的最小整数帧值。
根据音频帧数据的高维序列构造输入矩阵,通过构建大于基础帧值的输入矩阵相数,能够对矩阵的构建范围进行控制,从而达到对预测结果范围的确定,提高对新的音频帧数据预测的准确性。
进一步地,根据输入矩阵X构造目标值矩阵Y,
根据已将构建完成的输入矩阵再次构建目标值矩阵,能够充分体现被构建的原始音频帧数据的动态特征,进一步对预测基础支撑数据的精准化设置,提高对新的音频帧数据预测的准确性。
进一步地,在完成对输入矩阵X与目标值矩阵Y的构建后,将输入矩阵X与目标值矩阵Y分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,分别得到支持向量机、随机森林、前馈神经网络的回归模型,利用均方根误差RMSE进行评价,
其中,Yj为每组同相数据的目标值,即x(j),x(j+τ),…x(j+(m-1)τ)的期望值,j为任意一时刻帧值,Pj为完成训练输出的预测值,τtest为从τ组同相数据最后划出的部分用于评价模型性能的数据集个数;
根据评价结果选取出Y~X回归模型,将输入矩阵X输入到Y~X回归模型获得预测值矩阵P。
通过将输入矩阵与目标值矩阵分为训练数据和测试数据,并选用支持向量机、随机森林、前馈神经网络多种算法进行训练与测试,得到多个回归模型,在通过均方根误差对多个回归模型的预测进行评价,选取最终的回归模型,进一步提高了模型选择的优越性,同时将输入矩阵输入回归模型获得预测值矩阵,利用预测值矩阵对未接收音频帧数据进行预测,提升了模型对丢失帧作出较复杂非线性预测的性能。
进一步地,设置第一预设数据量N1与第二预设数据量N2,其中,N1<N2,在对新的音频帧数据进行接收时,先获取新的音频帧数据的数据量Nx,并将新的音频帧数据的数据量Nx与第一预设数据量N1、第二预设数据量N2进行对比,
当Nx<N1时,判定该音频帧数据量未达到第一预设数据量,将以预测值矩阵中对应相的预测值替换该音频帧数据,完成错误隐藏;
当N1≤Nx<N2时,判定该音频帧数据的数据量在第一预设数据量与第二预设数据量之间,将预测值矩阵中对应相的预测值与该音频帧数据的高维序列进行对比,以判定预测值矩阵中对应相预测值的符合度;
当Nx=N2时,判定该音频帧数据量达到第二预设数据量,不对该音频帧数据进行补充或替换。
在对新的音频帧数据进行接收时,对音频帧数据的数据量进行判定,通过设置第一预设数据量与第二预设数据量,确定该音频帧数据的状态,在音频帧数据量未达到第一预设数据量时,表明接收到的数据量较低或未接收,不能够通过修复的方法进行空缺补充,判定为丢包状态,利用预测值替换该音频帧数据,完成错误隐藏,在音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,表明接收到的数据量不完全,但是能够对其进行补充修复,通过结合预测值矩阵中对应相预测值的符合度,确定缺失数据的补充方式,当音频帧数据量达到第二预设数据量时,表明接收到的音频帧数据为完全的音频帧数据,不对音频帧数据进行补充或替换,保障了音频传输的真实性。
进一步地,设置第一预设符合度G1与第二预设符合度G2,其中,G1<G2,在判定新的音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,将获取新的音频帧数据的高维序列,再将新的音频帧数据的高维序列与预测值矩阵中对应相的预测值进行逐位对比,根据相同位占总位数的比值计算预测值矩阵中对应相的预测值的符合度Gu,并将预测值的符合度Gu与第一预设符合度G1、第二预设符合度G2进行对比,
当Gu<G1时,判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度,将以高维序列X(t)对该音频帧数据高维序列缺失位进行补充,完成错误隐藏;
当G1≤Gu<G2时,判定该预测值矩阵中对应相的预测值的符合度在第一预设符合度与第二预设符合度之间,将通过预测值矩阵中对应相的预测值对新的音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当Gu≥G2时,判定该预测值矩阵中对应相的预测值的符合度达到第二预设符合度,将通过预测值矩阵中对应相的预测值对该音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’输入到Y~X回归模型获得预测值矩阵P’。
在音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,将获取新的音频帧数据的高维序列,再将新的音频帧数据的高维序列与预测值矩阵中对应相的预测值进行逐位对比,计算预测值的符合度,在预测值的符合度低于第一预设符合度时,表示预测值准确性较低,通过利用上一音频帧数据的高维序列对该音频帧数据高维序列缺失位进行补充,保障了音频数据传输的质量,在预测值的符合度在第一预设符合度与第二预设符合度之间或达到第二预设符合度时,通过预测值矩阵中对应相的预测值对新的音频帧数据的高维序列中缺失位进行补充,进一步提高了音频数据传输的质量,同时使用不同的方式对该音频帧数据进行学习,修正预测值矩阵,也提高了预测模型的预测精度。
进一步地,在判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度时,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pn。
在预测值矩阵中对应相的预测值的符合度低于第一预设符合度时,将放弃上一音频帧数据的预测模型,对新的音频帧数据进行重新的构建矩阵与模型训练,形成新的回归模型,并得到新的音频帧数据的预测值矩阵,减小错误预测对预测模型的影响,保障预测模型的预测精准度,也提高了音频数据传输的质量。
进一步地,设置标准符合度Gb与标准符合度差ΔGb,当判定该音频帧数据量达到第二预设数据量时,将获取新的音频帧数据的高维序列,计算预测值矩阵中对应相的预测值的符合度Ge,根据标准符合度Gb与预测值的符合度Ge计算预测值的符合度差ΔGe,ΔGe=|Gb-Ge|,将预测值的符合度差ΔGe与标准符合度差ΔGb进行对比,
当ΔGe≤ΔGb时,判定预测值矩阵中对应相的预测值的符合度在标准范围内,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当ΔGe>ΔGb时,判定预测值的符合度差高于标准符合度差,将预测值的符合度与标准符合度进行对比,以确定是否对预测值矩阵进行修正。
通过对数据量达到第二预设数据量的音频帧数据进行标准符合度的判定,确定回归模型的学习方式,在预测值矩阵中对应相的预测值的符合度在标准范围内时,表示数据完整,且符合度较高,通过将该音频帧数据叠加至回归模型中,获得新的预测值矩阵,进一步提高了预测模型的性能。
进一步地,在判定预测值的符合度差高于标准符合度差时,将预测值矩阵中对应相的预测值的符合度Ge与标准符合度Gb进行对比,
当Ge<Gb时,判定预测值矩阵中对应相的预测值的符合度低于标准符合度,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,并确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pf;
当Ge>Gb时,判定预测值矩阵中对应相的预测值的符合度高于标准符合度,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’、输入矩阵X与目标值矩阵Y分为训练数据和测试数据,并选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y”~X”,将输入矩阵X’输入到回归模型Y”~X”中,得到预测值矩阵Pa。
在预测值的符合度差高于标准符合度差时,将预测值的符合度与标准符合度进行对比,当预测值矩阵中对应相的预测值的符合度低于标准符合度时,对新的音频帧数据进行重新的建模与预测,以减小错误预测对预测模型的影响,保障预测模型的预测精准度,也提高了音频数据传输的质量,在预测值矩阵中对应相的预测值的符合度高于标准符合度时,体现预测值的符合度很高,将对新的音频帧数据进行与原回归模型的基础数据进行重新建模,将回归模型的预测精度再次提升,保障音频数据传输的质量。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频传输抗丢包的错误隐藏技术方法,其特征在于,
步骤S1,通过相空间重构将任意一音频帧数据的脉冲编码调制一维序列解构到若干个同相空间,获得该音频帧数据的高维序列,根据该音频帧数据的高维序列构造输入矩阵,再根据输入矩阵构造目标值矩阵;
步骤S2,将构造完成的输入矩阵与目标值矩阵分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型,将输入矩阵输入到回归模型中,得到预测值矩阵;
步骤S3,对即将接收的新的音频帧数据进行判定,根据新的音频帧数据的数据量判定是否通过预测值矩阵对新的音频帧数据的空缺进行错误隐藏,解构新的音频帧数据的高维序列,并将新的音频帧数据的高维序列与预测值矩阵中对应相预测值进行对比,根据对比结果计算预测值矩阵中对应相预测值的符合度,再根据预测值矩阵中对应相预测值的符合度判定是否对新的音频帧数据的高维序列进行学习,以对预测值矩阵进行修正。
2.根据权利要求1所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,在所述步骤S1中,将任意一音频帧数据的脉冲编码调制一维序列x(t)进行相空间重构处理,得到该音频帧数据的高维序列X(t),
X(t)=[x(t),x(t+τ),...,x(t+(m-1)τ)]
其中,τ为时延;m为嵌入维数度;t为基础帧值。
5.根据权利要求4所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,在完成对输入矩阵X与目标值矩阵Y的构建后,将输入矩阵X与目标值矩阵Y分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,分别得到支持向量机、随机森林、前馈神经网络的回归模型,利用均方根误差RMSE进行评价,
其中,Yj为每组同相数据的目标值,即x(j),x(j+τ),…x(j+(m-1)τ)的期望值,j为任意一时刻帧值,Pj为完成训练输出的预测值,τtest为从τ组同相数据最后划出的部分用于评价模型性能的数据集个数;
根据评价结果选取出Y~X回归模型,将输入矩阵X输入到Y~X回归模型获得预测值矩阵P。
6.根据权利要求5所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,设置第一预设数据量N1与第二预设数据量N2,其中,N1<N2,在对新的音频帧数据进行接收时,先获取新的音频帧数据的数据量Nx,并将新的音频帧数据的数据量Nx与第一预设数据量N1、第二预设数据量N2进行对比,
当Nx<N1时,判定该音频帧数据量未达到第一预设数据量,将以预测值矩阵中对应相的预测值替换该音频帧数据,完成错误隐藏;
当N1≤Nx<N2时,判定该音频帧数据的数据量在第一预设数据量与第二预设数据量之间,将预测值矩阵中对应相的预测值与该音频帧数据的高维序列进行对比,以判定预测值矩阵中对应相预测值的符合度;
当Nx=N2时,判定该音频帧数据量达到第二预设数据量,不对该音频帧数据进行补充或替换。
7.根据权利要求6所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,设置第一预设符合度G1与第二预设符合度G2,其中,G1<G2,在判定新的音频帧数据的数据量在第一预设数据量与第二预设数据量之间时,将获取新的音频帧数据的高维序列,再将新的音频帧数据的高维序列与预测值矩阵中对应相的预测值进行逐位对比,根据相同位占总位数的比值计算预测值矩阵中对应相的预测值的符合度Gu,并将预测值的符合度Gu与第一预设符合度G1、第二预设符合度G2进行对比,
当Gu<G1时,判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度,将以高维序列X(t)对该音频帧数据高维序列缺失位进行补充,完成错误隐藏;
当G1≤Gu<G2时,判定该预测值矩阵中对应相的预测值的符合度在第一预设符合度与第二预设符合度之间,将通过预测值矩阵中对应相的预测值对新的音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当Gu≥G2时,判定该预测值矩阵中对应相的预测值的符合度达到第二预设符合度,将通过预测值矩阵中对应相的预测值对该音频帧数据的高维序列中缺失位进行补充,并根据该音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’输入到Y~X回归模型获得预测值矩阵P’。
8.根据权利要求7所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,在判定该预测值矩阵中对应相的预测值的符合度低于第一预设符合度时,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,将输入矩阵X’与目标值矩阵Y’分为训练数据和测试数据,分别选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pn。
9.根据权利要求6所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,设置标准符合度Gb与标准符合度差ΔGb,当判定该音频帧数据量达到第二预设数据量时,将获取新的音频帧数据的高维序列,计算预测值矩阵中对应相的预测值的符合度Ge,根据标准符合度Gb与预测值的符合度Ge计算预测值的符合度差ΔGe,ΔGe=|Gb-Ge|,将预测值的符合度差ΔGe与标准符合度差ΔGb进行对比,
当ΔGe≤ΔGb时,判定预测值矩阵中对应相的预测值的符合度在标准范围内,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’到Y~X回归模型获得预测值矩阵P’;
当ΔGe>ΔGb时,判定预测值的符合度差高于标准符合度差,将预测值的符合度与标准符合度进行对比,以确定是否对预测值矩阵进行修正。
10.根据权利要求9所述的音频传输抗丢包的错误隐藏技术方法,其特征在于,在判定预测值的符合度差高于标准符合度差时,将预测值矩阵中对应相的预测值的符合度Ge与标准符合度Gb进行对比,
当Ge<Gb时,判定预测值矩阵中对应相的预测值的符合度低于标准符合度,将根据新的音频帧数据的高维序列构建输入矩阵X’,再根据输入矩阵X’构造目标值矩阵Y’,并确定回归模型Y’~X’,将输入矩阵输入到回归模型Y’~X’中,得到预测值矩阵Pf;
当Ge>Gb时,判定预测值矩阵中对应相的预测值的符合度高于标准符合度,将根据该音频帧数据的高维序列构建输入矩阵X’,将输入矩阵X’、输入矩阵X与目标值矩阵Y分为训练数据和测试数据,并选用支持向量机、随机森林、前馈神经网络算法进行训练与测试,根据支持向量机、随机森林、前馈神经网络三种算法的测试预测值确定回归模型Y”~X”,将输入矩阵X’输入到回归模型Y”~X”中,得到预测值矩阵Pa。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157250.0A CN114613372B (zh) | 2022-02-21 | 2022-02-21 | 一种音频传输抗丢包的错误隐藏技术方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210157250.0A CN114613372B (zh) | 2022-02-21 | 2022-02-21 | 一种音频传输抗丢包的错误隐藏技术方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114613372A CN114613372A (zh) | 2022-06-10 |
CN114613372B true CN114613372B (zh) | 2022-10-18 |
Family
ID=81859809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210157250.0A Active CN114613372B (zh) | 2022-02-21 | 2022-02-21 | 一种音频传输抗丢包的错误隐藏技术方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613372B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117793078B (zh) * | 2024-02-27 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种音频数据的处理方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393303A (zh) * | 2013-10-29 | 2016-03-09 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法及音频信号处理程序 |
CN109155134A (zh) * | 2016-03-07 | 2019-01-04 | 弗劳恩霍夫应用研究促进协会 | 使用正确解码的音频帧的解码表示的特性的错误隐藏单元、音频解码器和相关方法以及计算机程序 |
CN111046027A (zh) * | 2019-11-25 | 2020-04-21 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN111832623A (zh) * | 2020-06-12 | 2020-10-27 | 东南大学 | 一种基于相空间重构的回声状态网络时间序列预测算法 |
CN113035205A (zh) * | 2020-12-28 | 2021-06-25 | 阿里巴巴(中国)有限公司 | 音频丢包补偿处理方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
JP6306175B2 (ja) * | 2013-10-31 | 2018-04-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 |
-
2022
- 2022-02-21 CN CN202210157250.0A patent/CN114613372B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105393303A (zh) * | 2013-10-29 | 2016-03-09 | 株式会社Ntt都科摩 | 音频信号处理装置、音频信号处理方法及音频信号处理程序 |
CN109155134A (zh) * | 2016-03-07 | 2019-01-04 | 弗劳恩霍夫应用研究促进协会 | 使用正确解码的音频帧的解码表示的特性的错误隐藏单元、音频解码器和相关方法以及计算机程序 |
CN111046027A (zh) * | 2019-11-25 | 2020-04-21 | 北京百度网讯科技有限公司 | 时间序列数据的缺失值填充方法和装置 |
CN111832623A (zh) * | 2020-06-12 | 2020-10-27 | 东南大学 | 一种基于相空间重构的回声状态网络时间序列预测算法 |
CN113035205A (zh) * | 2020-12-28 | 2021-06-25 | 阿里巴巴(中国)有限公司 | 音频丢包补偿处理方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
基于APES的音频数据丢失恢复技术;赵振;《中国优秀硕士学位论文全文数据库(电子期刊)》;20111215;I136-199 * |
基于HMM的移动音频编码丢帧隐藏方法;项慨等;《山东大学学报(理学版)》;20170331(第03期);第85-93页 * |
考虑网络丢包的网络化控制系统的广义预测控制;孙德辉;《北方工业大学学报》;20090331;第32-35、62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114613372A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114613372B (zh) | 一种音频传输抗丢包的错误隐藏技术方法 | |
US20070253337A1 (en) | Communication quality evaluation method, derivation device, communication quality evaluation system and computer program | |
CN110119447A (zh) | 自编码神经网络处理方法、装置、计算机设备及存储介质 | |
CN112491797B (zh) | 一种基于非平衡工控数据集的入侵检测方法及系统 | |
RU2733809C9 (ru) | Способ и устройство для отладки параметра соединения serdes и компьютерный носитель данных | |
CN113111054A (zh) | 一种基于过采样和欠采样结合的工业数据平衡处理算法 | |
EP1093690A1 (de) | Verfahren und anordnung zur fehlerverdeckung | |
CN108459920A (zh) | 一种试验数据野值的辨识与修正方法 | |
CN107231213A (zh) | Crc‑32算法在usb3.0数据包中的实现方法 | |
CN110070541B (zh) | 一种适用于小样本数据的图像质量评价方法 | |
Swarts et al. | On the evaluation and application of Markov channel models in wireless communications | |
Poikonen et al. | Error models for the transport stream packet channel in the DVB-H link layer | |
CN108322286B (zh) | 一种获得前向纠错fec参数的方法、装置 | |
CA2297775C (en) | Specified error protection by parameter classification | |
EP1758358B1 (en) | Generating test sequences for speech quality evaluation | |
US7552376B2 (en) | Modeling error correction capability with estimation of defect parameters | |
Wong et al. | Practical small-sample asymptotics for distributions used in life-data analysis | |
Dhondea et al. | DFTS2: Simulating deep feature transmission over packet loss channels | |
CN109948186B (zh) | 一种汉明码SRAM时序参数Setup特征化建模方法 | |
CN111522687A (zh) | 数据处理方法、装置、固态硬盘及计算机可读存储介质 | |
JP4490415B2 (ja) | 増加的冗長性なしの誤り率を決定するための方法及び測定装置 | |
CN101790184B (zh) | 通信质量估计方法、装置和基站 | |
CN112686337A (zh) | 一种基于深度优先算法的跨平台信用信息融合方法 | |
CN112767310B (zh) | 一种视频质量评价方法、装置及设备 | |
Dhondea et al. | DFTS2: Deep Feature Transmission Simulation for Collaborative Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |