CN117316175B - 一种动漫数据智能编码存储方法及系统 - Google Patents

一种动漫数据智能编码存储方法及系统 Download PDF

Info

Publication number
CN117316175B
CN117316175B CN202311595181.2A CN202311595181A CN117316175B CN 117316175 B CN117316175 B CN 117316175B CN 202311595181 A CN202311595181 A CN 202311595181A CN 117316175 B CN117316175 B CN 117316175B
Authority
CN
China
Prior art keywords
audio
undetermined
audio data
data
sampling point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311595181.2A
Other languages
English (en)
Other versions
CN117316175A (zh
Inventor
叶建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Fangniuban Animation Co ltd
Original Assignee
Shandong Fangniuban Animation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Fangniuban Animation Co ltd filed Critical Shandong Fangniuban Animation Co ltd
Priority to CN202311595181.2A priority Critical patent/CN117316175B/zh
Publication of CN117316175A publication Critical patent/CN117316175A/zh
Application granted granted Critical
Publication of CN117316175B publication Critical patent/CN117316175B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及音频噪声过滤技术领域,具体涉及一种动漫数据智能编码存储方法及系统。首先获取动漫的原始音频数据,基于扩展卡尔曼滤波获得预测音频数据,对音频采样点在原始音频数据和预测音频数据中幅值差异的变化情况进行分析,筛选待定采样点;然后分析每个待定采样点的局部范围内音频采样点的幅值差异的波动情况从而确定待定采样点的平滑必要性,进而根据局部范围内各待定采样点的平滑必要性的分布情况获得待定采样点的平滑参数;从而根据平滑参数对原始音频数据幅值和预测音频数据幅值进行加权分配,实现去噪的同时极大程度上保留音频细节信息;对音频数据进行重构,获得音频输出数据,保证了音频输出数据编码存储后的质量。

Description

一种动漫数据智能编码存储方法及系统
技术领域
本发明涉及音频噪声过滤技术领域,具体涉及一种动漫数据智能编码存储方法及系统。
背景技术
随着数字媒体和娱乐行业的快速发展,动漫产业也发展迅速。而动漫的音频数据作为动漫作品的重要组成部分,故需要对其进行编码存储。由于音频中存在噪声,如背景噪声、录音设备噪声及其他干扰时,在进行编码和存储后,音频数据质量较低,故需要在编码存储前,对音频数据进行去噪。
现有技术中通常采用扩展卡尔曼滤波对音频数据中的噪声进行处理,但滤波得到的处理结果存在过于平滑从而在去噪过程中将音频细节抹去,导致音频信息被模糊,进而影响编码存储后音频数据的质量。
发明内容
为了解决采用扩展卡尔曼滤波对音频数据进行去噪处理时,处理结果过于平滑导致音频细节丢失,音频信息被模糊,进而影响编码存储后的音频数据质量的技术问题,本发明的目的在于提供一种动漫数据智能编码存储方法及系统,所采用的技术方案具体如下:
本发明提出了一种动漫数据智能编码存储方法,所述方法包括:
获取动漫的原始音频数据;基于扩展卡尔曼滤波获得所述原始音频数据对应的预测音频数据;
将每个音频采样点在所述原始音频数据和所述预测音频数据中幅值的差异作为幅值差异;根据音频采样点之间幅值差异的变化情况确定待定采样点;根据所有待定采样点对应的时刻确定窗口长度;基于所述窗口长度,以每个待定采样点为中心采样点构建窗口,根据窗口内所有音频采样点的幅值差异的波动情况获得中心采样点的平滑必要性;根据窗口内所有待定采样点的平滑必要性的分布情况获得中心采样点的平滑参数;
根据每个待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得所述待定采样点的最终音频数据幅值;根据所有待定采样点的最终音频数据幅值和所有非待定采样点的原始音频数据幅值生成音频输出数据;
对所述音频输出数据进行编码存储。
进一步地,所述基于扩展卡尔曼滤波获得所述原始音频数据对应的预测音频数据,包括:
根据音频数据的数据参数构建状态向量,所述数据参数包括频率、波长、相位和速度;
将所述原始音频数据中第一个音频采样点的音频数据作为预测数据序列中第一个音频采样点的音频数据;
以所述预测数据序列中第一个音频采样点为起点,基于扩展卡尔曼滤波依次根据预测数据序列中前一音频采样点的状态向量获得后一音频采样点的状态向量,直至预测数据序列中音频采样点个数与原始音频数据中音频采样点个数相等;
对预测数据序列中每个音频采样点的状态向量进行还原处理,获得所述原始音频数据对应的预测音频数据。
进一步地,所述待定采样点的获取方法包括:
基于音频采样点的幅值差异将所有所述音频采样点进行升序排列,获得排列序列;
对所述排列序列中所有音频采样点的幅值差异求差分,获得第一差分序列,将所述第一差分序列中除第一个数值外绝对值最大的数值对应的两个音频采样点作为初始采样点;
分别获取排列序列中最后一个音频采样点与每个初始采样点之间的时间间隔,将最小时间间隔对应的初始采样点作为端点采样点;
将所述排列序列中端点采样点与最后一个音频采样点之间的所有音频采样点作为待定采样点。
进一步地,所述平滑必要性的获取方法包括:
将所述窗口内包含的待定采样点的数量的值作为分母,将所述窗口长度的值作为分子,获得数量占比;
基于所述窗口内所有音频采样点的幅值差异将窗口内所有音频采样点进行升序排列,获得排序序列,对所述排序序列中所有音频采样点的幅值差异求差分,获得第二差分序列,将所述第二差分序列中除第一个数值外绝对值最大的数值作为差异极值;
将中心采样点的幅值差异与对应窗口内每个音频采样点的幅值差异的差异作为窗口内每个音频采样点对应的差异变量;
将所述窗口内所有音频采样点对应的差异变量累加后的值与所述差异极值的比值作为波动参数,将所述波动参数与所述数量占比的乘积作为中心采样点的平滑必要性。
进一步地,所述平滑参数的获取方法包括:
基于峰度公式根据所述窗口中所有待定采样点的平滑必要性获得峰度值;
将所述峰度值与中心采样点的平滑参数的乘积作为中心采样点的平滑参数。
进一步地,所述最终音频数据幅值的获取方法包括:
将每个待定采样点的平滑参数归一化后作为第一加权因子;将所述第一加权因子进行负相关映射作为第二加权因子;
将每个待定采样点的预测音频数据幅值与对应的第一加权因子相乘作为第一乘积,将每个待定采样点的原始音频数据幅值与对应的第二加权因子相乘作为第二乘积;
将每个待定采样点对应的所述第一乘积与第二乘积的和值,作为所述待定采样点的所述最终音频数据幅值。
进一步地,所述对所述音频输出数据进行编码存储,包括:
基于FLAC无损压缩算法对所有音频输出数据进行编码压缩,获得压缩数据;对所述压缩数据进行存储。
进一步地,所述音频输出数据的获取方法包括:
所述非待定采样点的原始音频数据幅值不变,将每个待定采样点的最终音频数据幅值代替待定采样点的原始音频数据幅值,生成音频输出数据。
进一步地,所述根据所有待定采样点对应的时刻确定窗口长度,包括:
将所有待定采样点对应的时刻数的均值,对所述均值进行向上取整作为窗口初始长度;
若窗口初始长度为偶数,则窗口初始长度加一,确定所述窗口长度。
本发明还提出了一种动漫数据智能编码存储系统,所述系统包括:
存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时可实现任意一项所述方法的步骤。
本发明具有如下有益效果:
本发明针对扩展卡尔曼滤波对音频数据进行去噪处理时,产生过于平滑的情况进行改进,实现去噪的同时保留更多音频细节,从而保证最终动漫数据编码存储的质量;首先获取动漫的原始音频数据,然后基于扩展卡尔曼滤波获取原始音频数据对应的预测音频数据,进而通过预测音频数据与原始音频数据的幅值差异的变化情况筛选出待定采样点,也即关键位置,待定采样点的确定过程即是对扩展卡尔曼滤波的平滑效果进行分析的过程;然后分析待定采样点周围音频采样点的幅值差异的波动情况,用以获取待定采样点的平滑必要性;由于局部区域中需要进行平滑的待定采样点的分布情况能够表征出待定采样点需要进行平滑的程度,故根据局部待定采样点的平滑必要性的分布情况评价中心采样点的平滑参数;然后基于待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得待定采样点的最终音频数据幅值,本质为加权分配,以保留原始音频数据为目的;最后结合待定采样点的最终音频数据幅值与非待定采样点的原始音频数据幅值获得音频输出数据,对音频输出数据进行压缩存储即可;综上,本发明通过充分分析预测音频数据对于原始音频数据的平滑效果,筛选关键位置,进而对关键位置进行局部分析,使得关键位置获得合适的平滑参数,能够在去噪的同时保留大量音频细节,从而保障了编码存储后的音频数据的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种动漫数据智能编码存储方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种动漫数据智能编码存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
一种动漫数据智能编码存储方法及系统实施例:
下面结合附图具体的说明本发明所提供的一种动漫数据智能编码存储方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种动漫数据智能编码存储方法的方法流程图,该方法包括以下步骤:
步骤S1:获取动漫的原始音频数据;基于扩展卡尔曼滤波获得原始音频数据对应的预测音频数据。
动漫音频是动漫的重要组成部分。当音频中存在噪声,如背景噪声、录音设备噪声及其他干扰时,需要对其进行去噪处理。由于在使用扩展卡尔曼滤波对音频数据进行去噪时,会出现过于平滑的现象,因此本发明实施例主要针对这一现象对其进行改进。
首先获取动漫的原始音频数据,一般为声波平面曲线,且横轴为时间,纵轴为振幅值;横轴用于表示声波信号时间点的变化,通常以秒为单位;纵轴用于表示声波信号的强度或者能量,表示声音的音量或声波的压力变化,可以以帕斯卡或分贝为单位。通过绘制声波信号的时间和振幅值的变化关系,得到声波的波形图,也即原始音频数据,从而直观的观察原始音频数据的特征。
然后即可基于扩展卡尔曼滤波对原始音频数据进行处理,获得原始音频数据对应的预测音频数据。
优选地,本发明一个实施例中基于扩展卡尔曼滤波获得原始音频数据对应的预测音频数据,包括:
根据音频数据的数据参数定义状态向量,数据参数可以包括频率、波长、相位和速度;频率指声波振动的周期性重复的频率,单位为赫兹,其决定了声波的声调高低;波长指在一个周期内声波传播的距离,与频率有关,波长越短,频率越高;相位指声波振动的起始相位角度,描述了声波的起始位置和振动状态;速度指声波传播的速度;状态向量具体可以表示为:
其中,表示音频采样点对应的状态向量,/>表示声波的频率,/>表示声波的波长,表示声波的相位,/>表示声波传播的速度,/>表示向量转置。
将原始音频数据中第一个音频采样点的音频数据作为预测数据序列中第一个音频采样点的音频数据;然后以预测数据序列中第一个音频采样点为起点,即可基于扩展卡尔曼滤波依次根据预测数据序列中前一音频采样点的状态向量获得后一音频采样点的状态向量,直至预测数据序列中音频采样点个数与原始音频数据中音频采样点个数相等。
最后将预测数据序列中每个音频采样点的状态向量还原,即可获得原始音频数据对应的预测音频数据。需要说明的是,预测音频数据和原始音频数据的音频采样点一一对应,即可视为在时序上得到了两条等长的序列;将状态向量还原为音频数据可以基于解码或者逆变换,为本领域技术人员熟知的技术手段,在此不做赘述;扩展卡尔曼滤波具体过程为本领域技术人员熟知的技术手段,在此不做赘述。
至此,在获取到动漫的原始音频数据后,基于扩展卡尔曼滤波获取到了原始音频数据对应的预测音频数据;后续可基于原始音频数据与预测音频数据的对比对扩展卡尔曼滤波产生的平滑现象进行优化。
步骤S2:将每个音频采样点在原始音频数据和预测音频数据中幅值的差异作为幅值差异;根据音频采样点之间幅值差异的变化情况确定待定采样点;根据所有待定采样点对应的时刻确定窗口长度;基于窗口长度,以每个待定采样点为中心采样点构建窗口,根据窗口内所有音频采样点的幅值差异的波动情况获得中心采样点的平滑必要性;根据窗口内所有待定采样点的平滑必要性的分布情况获得中心采样点的平滑参数。
由于音频数据中,音频细节常常伴随着情景变化而变化,并且不同场景的音频细节也会存在差异,而噪声干扰往往会造成音频细节发生变化,从而在进行扩展卡尔曼滤波时最终的预测音频数据会产生一定偏离,因此需要对预测音频数据中受噪声干扰从而产生偏离情况的位置进行定位并筛选;同时扩展卡尔曼滤波的滤波结果容易受到离群噪声影响,局部数据的离群波动容易被音频的长时序中多次情景转换所产生的数据状态大幅变化所影响,从而造成对于离群噪声判断不准确的问题。
故需要对原始音频数据与预测音频数据进行比对,首先获取每个音频采样点在原始音频数据和预测音频数据中幅值的差异,将该差异作为幅值差异。幅值差异的计算公式可以表示为:
其中,表示第/>个音频采样点的幅值差异,/>表示原始音频数据,/>表示预测音频数据,/>表示第/>个音频采样点的原始音频数据幅值,/>表示第/>个音频采样点的预测音频数据幅值。
在获取到每个音频采样点的幅值差异之后,可以根据幅值差异进行进一步地分析:原始音频数据存在的音频细节体现为振幅曲线的尖峰位置,代表了音频的更大响度,通过相邻时序也即相邻采样点之间的响度变化带来丰富的听觉细节体验,但尖峰位置通常波动情况较大,带来了短时极快的数据变化,而扩展卡尔曼滤波对于这种数据变化特点,具有受限于状态向量的数值从而仅局限于当前时刻的缺点,因此不能够产生对应幅度的波动,致使预测音频数据中会在原始音频数据的尖峰位置产生变化较小的峰值,从而对原始音频数据的尖峰位置产生了平滑效果。
然后对平滑效果进行分析:预测音频数据的平滑效果需要对其平滑的强度进行分析,如果原始音频数据中部分音频位置波动较小的情况下出现了极大响度,那么该位置的原始音频数据就需要进行一定平滑处理,避免原始音频数据响度过大干扰正常观看体验;而对于原始音频数据波动情况较剧烈的部分区域,此时进行平滑则会导致音频细节丢失。
因此可通过预测音频数据在原始音频数据上产生的平滑效果,也即采样点的幅值差异进行待定位置的定位。
优选地,本发明一个实施例中待定采样点的获取方法包括:
首先基于采样点的幅值差异将所有音频采样点进行升序排列,获得排列序列;然后对排列序列中所有音频采样点的幅值差异求差分,获得第一差分序列,此时第一差分序列中的数值即为幅值差异的差值;将第一差分序列中除第一个数值外绝对值最大的数值对应的两个音频采样点作为初始采样点,即确定了个两个初始采样点的位置。
然后分别获取排列序列中最后一个音频采样点与每个初始采样点之间的时间间隔,将最小时间间隔对应的初始采样点作为端点采样点;最后将排列序列中端点采样点与最后一个音频采样点之间的所有音频采样点作为待定采样点。通过该方法即可筛选出排列序列中幅值差异较大的音频采样点,也即定位出产生平滑的位置,便于进行后续的分析。需要说明的是,将未选做待定采样点的音频采样点记为非待定采样点,原因为非待定采样点的原始音频数据幅值和预测音频数据幅值极为相似,因此产生了极小的平滑效果,故将其作为可信位置,也即优选时刻,不进行后续处理。
由于预测音频数据中每个音频采样点对应的数据相当于具有时序上之前所有音频采样点提供的经验,因此对于产生平滑的位置,需要综合该位置所在局部区域的特性对平滑程度进行进一步判断;而局部区域即可根据各待定采样点对应的时刻获取。
优选地,本发明一个实施例中根据所有待定采样点对应的时刻确定窗口长度,包括:
首先获取所有待定采样点对应的时刻数的均值,然后将该均值向上取整作为窗口初始长度;对窗口初始长度进行调整,若窗口初始长度为偶数,则窗口初始长度加一,确定窗口长度。
在确定好局部范围,即窗口长度之后,即可以每个待定采样点为中心构建窗口,判断每个待定采样点对应的局部范围内所有音频采样点的幅值差异是否存在波动情况,从而确定待定采样点的平滑必要性。需要说明的是,若待定采样点左侧或右侧的音频采样点数量不满足窗口长度时,可采用零填充的方式进行补充。
优选地,本发明一个实施例中平滑必要性的获取方法包括:
首先将窗口内包含的待定采样点的数量的值作为分母,将窗口长度的值作为分子,从而获得数量占比。
基于对应窗口内所有音频采样点的幅值差异将窗口内所有音频采样点进行升序排列,获得排序序列,对排序序列中所有音频采样点的幅值差异求差分,获得第二差分序列,将第二差分序列中除第一个数值外绝对值最大的数值作为差异极值。
然后将中心采样点的幅值差异与对应窗口内每个音频采样点的幅值差异的差异作为窗口内每个音频采样点对应的差异变量;将窗口内所有音频采样点对应的差异变量累加后的值与差异极值的比值作为波动参数,最后将波动参数与数量占比的乘积作为中心采样点的平滑必要性。以任意一个待定采样点作为中心采样点为例,平滑必要性的公式模型为:
其中,表示第/>个待定采样点的平滑必要性,/>表示窗口长度,/>表示第/>个待定采样点的幅值差异,/>表示第/>个待定采样点对应的窗口内第/>个音频采样点的幅值差异,/>表示差异极值,/>表示第/>个待定采样点对应的窗口内包含的待定采样点的数量。
在平滑必要性的公式模型中,在以每个待定采样点为中心的窗口内,待定采样点的幅值差异越大,则说明该时刻的原始音频数据产生了较大的响度变化,而该时刻的预测音频数据产生了较强的平滑效果,故通过对窗口内所有采样点遍历,获取窗口内每个音频采样点对应的差异变量/>,用于表征当前窗口中待定采样点与窗口中其他音频采样点产生的幅值差异的变化情况,然后将所有差异变量累加后与差异极值/>进行对比,获取二者的比值,波动参数/>,当波动参数的值越大时,说明当前窗口中待定采样点所在位置需要进行一定的平滑用以避免较大的响度变化从而影响正常观看体验;然后结合数量占比/>,当数量占比中分母的值越小,说明当前窗口中包含的待定采样点的数量越少,那么数量占比的值越大,则表征待定采样点在对应的窗口中的原始音频数据响度的离群程度越大,越需要进行一定的平滑处理。
根据上述平滑必要性的获取方法即可获得所有待定采样点的平滑必要性,由于根据待定采样点的平滑必要性,直接采用待定采样点的预测音频数据作为待定采样点的最终音频数据可能会产生音频细节丢失,故可根据以每个待定采样点为中心,在对应的局部范围,即窗口内所有待定采样点的平滑必要性获得中心采样点的平滑参数,从而进行自适应的平滑处理,以便达到在去噪的同时,极大程度上保留音频细节。
优选地,本发明一个实施例中平滑参数的获取方法包括:
首先基于峰度公式根据窗口中所有待定采样点的平滑必要性获得峰度值;然后将峰度值与中心采样点的平滑参数的乘积作为中心采样点的平滑参数。以任意一个待定采样点作为中心采样点为例,平滑参数的公式模型为:
其中,表示第/>个待定采样点的平滑参数,/>表示第/>个待定采样点对应的窗口内包含的待定采样点的数量,/>表示第/>个待定采样点的平滑必要性,/>表示第/>个待定采样点对应的窗口内第/>个待定采样点的平滑必要性,/>表示待定采样点对应的窗口内所有待定采样点的平滑必要性的均值,/>表示待定采样点对应的窗口内所有待定采样点的平滑必要性的标准差。
在平滑参数的公式模型中,基于峰度值公式获取到的窗口内所有待定采样点的平滑必要性的峰度值,当峰度值越大时,说明窗口中各待定采样点的平滑必要性远离均值/>的程度就越大,那么可以说明该分布的尾部比正态分布更重,即出现极端值的概率更大,那么在进行一定平滑时所需的平滑程度就大,也即平滑参数就越大;然后将峰度值与中心采样点的平滑必要性结合,将二者相乘,配合中心采样点的平滑必要性进行离群程度的扩大,可以反映出当窗口中各待定采样点都产生较大幅值差异的同时,中心采样点的差异更加显著,更加需要进行平滑处理。
基于上述平滑参数的获取方法可以计算每个待定采样点的平滑参数,从而基于平滑参数对各个待定采样点所需的平滑程度进行确定。
步骤S3:根据每个待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得待定采样点的最终音频数据幅值;根据所有待定采样点的最终音频数据幅值和所有非待定采样点的原始音频数据幅值生成音频输出数据。
在获取到每个待定采样点的平滑参数之后,即可将各待定采样点的平滑参数、预测音频数据幅值和原始音频数据幅值进行自适应融合,实现重构,进而获得最终音频数据幅值。
优选地,本发明一个实施例中最终音频数据幅值的获取方法包括:
首先将每个待定采样点的平滑参数归一化后作为第一加权因子;将第一加权因子进行负相关映射作为第二加权因子。
然后进行加权分配,将每个待定采样点的预测音频数据幅值与对应的第一加权因子相乘作为第一乘积,将每个待定采样点的原始音频数据幅值与对应的第二加权因子相乘作为第二乘积。最后将每个待定采样点对应的所第一乘积与第二乘积的和值,作为待定采样点的最终音频数据幅值。以任意一个待定采样点为例,最终音频数据幅值的公式模型具体可以例如为:
其中,表示原始音频数据,/>表示预测音频数据,/>表示最终音频数据,/>表示第个待定采样点的最终音频数据幅值,/>表示第/>个待定采样点的预测音频数据幅值,/>表示第/>个待定采样点的原始音频数据幅值,/>表示第/>个待定采样点的平滑参数归一化后的值。
在最终音频数据幅值的公式模型中,将第个待定采样点的平滑参数归一化后的值作为预测音频数据幅值的加权因子,即第一加权因子/>;将第一加权因子进行负相关映射后的值作为原始音频数据幅值的加权因子,即第二加权因子/>;基于步骤S2中的分析可知,当第/>个待定采样点的平滑参数越大,则说明所需的平滑程度也就越大,那么该待定采样点的预测音频数据幅值在最终音频数据幅值中所占的比重应该就大,所以预测音频数据幅值的加权因子为/>;而原始音频数据幅值在最终音频数据幅值中所占的比重应该就小,所以原始音频数据幅值的加权因子为负相关映射后的值,即/>;反之,当第/>个待定采样点的平滑参数越小,则说明所需的平滑程度也就越小,那么该待定采样点的预测音频数据幅值在最终音频数据幅值中所占的比重应该就小,所以预测音频数据幅值的加权因子为/>;而原始音频数据幅值在最终音频数据幅值中所占的比重应该就大,所以原始音频数据幅值的加权因子为负相关映射后的值,即/>。需要说明的是,归一化的方法为本领域技术人员熟知的操作过程,在此不作限定及赘述。
在获取到待定采样点的最终音频数据幅值之后,由于本发明实施例最终的目的需要对音频输出数据进行编码存储,故需要整段完整的音频数据,因此,可根据所有待定采样点的最终音频数据幅值和所有非待定采样点的原始音频数据幅值生成音频输出数据。
优选地,本发明一个实施例中音频输出数据的获取方法包括:
非待定采样点的原始音频数据幅值不变,然后用每个待定采样点的最终音频数据幅值代替待定采样点的原始音频数据幅值,即可生成最终的音频输出数据。需要说明的是,生成最终的音频输出数据可采用专业的音频处理软件或者设备,在此不做限定及赘述。
至此,通过对待定采样点根据平滑参数完成了自适应的平滑处理,在保证去噪效果的同时,极大程度上保留了音频细节信息;最终获取到了最终的音频输出数据,可以继续完成后续的编码存储操作。
步骤S4:对音频输出数据进行编码存储。
由于动漫音频数据高保真音效的需求日益提高,而无损压缩算法可以将数据压缩但保留原始音频的精确还原能力,使得压缩后的音频数据可以完美还原;故可以采用无损压缩算法对音频数据进行压缩,完成编码存储。
优选地,本发明一个实施例中对音频输出数据进行编码存储,包括:
由于无损压缩编码算法(Free Lossless Audio Codec ,FLAC)的目的在于提供和原始音频一样的音质,并采用无损压缩技术,不会导致音质损失,因此本发明实施例采用FLAC无损压缩算法随音频输出数据进行编码压缩,获得压缩数据之后对压缩数据进行存储,完成音频输出数据的编码存储。
本实施例还提供了一种动漫数据智能编码存储系统,该系统包括存储器、处理器和计算机程序,其中存储器用于存储相应的计算机程序,处理器用于运行相应的计算机程序,计算机程序在处理器上运行时能够实现任意一项一种动漫数据智能编码存储方法的步骤。
综上所述,本发明实施例通过将原始音频数据与预测音频数据进行对比,针对不同的数据情况进行平滑效果的自适应筛选,可以在保证去噪效果的同时极大程度上保留音频细节信息,从而保证了最终动漫音频数据编码存储的质量。首先获取动漫的原始音频数据,然后基于扩展卡尔曼滤波获得原始音频数据的预测音频数据,但是由于扩展卡尔曼滤波的滤波效果容易受到利群噪声的影响,产生过于平滑的现象,因此需要对此进行进一步的分析;对原始音频数据与预测音频数据之间的差异进行分析,获取每个音频采样点在原始音频数据和预测音频数据中幅值的差异,作为幅值差异;进而对音频采样点的幅值差异的变化情况进行分析,变化情况即可反映出平滑效果的差异,然后从所有音频采样点中筛选出待判断位置,也即待定采样点;进一步地,确定窗口长度,然后对待定采样点进行针对性的分析,从局部出发,分析每个待定采样点的局部范围内采样点的幅值差异的波动情况从而确定中心采样点的平滑必要性,平滑必要性结合了数据的离群程度并初步表征了待定采样点需要的平滑程度;由于直接以及平滑必要性确定待定采样点的平滑程度可能导致音频细节丢失,故进一步根据局部范围内各待定采样点的平滑必要性的分布情况对中心采样点的平滑程度进行针对性的分析,获得平滑参数;此时的平滑参数可以准确的表征出中心采样点的平滑程度;进而根据平滑参数对待定采样点的原始音频数据幅值和预测音频数据幅值进行加权分配,可以在去噪的同时极大程度上保留音频细节信息;然后结合非待定采样点的原始音频数据,完成音频数据重构,获得音频输出数据;最终基于FLAC无损压缩算法完成音频输出数据的编码存储。
一种动漫数据去噪方法实施例:
随着数字媒体和娱乐行业的快速发展,动漫产业也发展迅速。但是由于音频中存在噪声,如背景噪声、录音设备噪声及其他干扰时,音频数据质量较低,故需要对音频数据进行去噪。现有技术中通常采用扩展卡尔曼滤波对音频数据中的噪声进行处理,但滤波得到的处理结果存在过于平滑从而在去噪过程中将音频细节抹去,导致音频信息被模糊,进而影响音频数据的质量;因此本发明实施例提供了一种动漫数据去噪方法,包括:
步骤S1:获取动漫的原始音频数据;基于扩展卡尔曼滤波获得原始音频数据对应的预测音频数据;
步骤S2:将每个音频采样点在原始音频数据和预测音频数据中幅值的差异作为幅值差异;根据音频采样点之间幅值差异的变化情况确定待定采样点;根据所有待定采样点对应的时刻确定窗口长度;基于窗口长度,以每个待定采样点为中心采样点构建窗口,根据窗口内所有音频采样点的幅值差异的波动情况获得中心采样点的平滑必要性;根据窗口内所有待定采样点的平滑必要性的分布情况获得中心采样点的平滑参数;
步骤S3:根据每个待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得待定采样点的最终音频数据幅值;根据所有待定采样点的最终音频数据幅值和所有非待定采样点的原始音频数据幅值生成音频输出数据。
其中,步骤S1~S3在上述一种动漫数据智能编码存储方法及系统实施例中已给出了详细说明,在此不再赘述。
本实施例带来的有益效果包括:
本发明对扩展卡尔曼滤波对音频数据进行去噪处理时,产生过于平滑的情况进行改进,实现去噪的同时保留更多音频细节,从而提高动漫音频数据的质量;首先获取动漫的原始音频数据,然后基于扩展卡尔曼滤波获取原始音频数据对应的预测音频数据,进而通过预测音频数据与原始音频数据的幅值差异的变化情况筛选出待定采样点,也即关键位置,待定采样点的确定过程即是对扩展卡尔曼滤波的平滑效果进行分析的过程;然后分析待定采样点周围采样点的幅值差异的波动情况,用以获取待定采样点的平滑必要性;由于局部区域中需要进行平滑的采样点的分布情况能够表征出采样点需要进行平滑的程度,故根据局部待定采样点的平滑必要性的分布情况评价中心采样点的平滑参数;然后基于待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得待定采样点的最终音频数据幅值,本质为加权分配,以保留原始音频数据为目的;最后结合待定采样点的最终音频数据幅值与非待定采样点的原始音频数据幅值获得高质量的音频输出数据;综上,本发明通过充分分析预测音频数据对于原始音频数据的平滑效果,筛选关键位置,进而对关键位置进行局部分析,使得关键位置获得合适的平滑参数,在去噪的同时保留大量音频细节,从而有效提高了音频数据的质量。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (9)

1.一种动漫数据智能编码存储方法,其特征在于,所述方法包括:
获取动漫的原始音频数据;基于扩展卡尔曼滤波获得所述原始音频数据对应的预测音频数据;
将每个音频采样点在所述原始音频数据和所述预测音频数据中幅值的差异作为幅值差异;根据音频采样点之间幅值差异的变化情况确定待定采样点;根据所有待定采样点对应的时刻确定窗口长度;基于所述窗口长度,以每个待定采样点为中心采样点构建窗口,根据窗口内所有音频采样点的幅值差异的波动情况获得中心采样点的平滑必要性;根据窗口内所有待定采样点的平滑必要性的分布情况获得中心采样点的平滑参数;
根据每个待定采样点的平滑参数、原始音频数据幅值以及预测音频数据幅值获得所述待定采样点的最终音频数据幅值;根据所有待定采样点的最终音频数据幅值和所有非待定采样点的原始音频数据幅值生成音频输出数据;
对所述音频输出数据进行编码存储;
所述平滑必要性的获取方法包括:
将所述窗口内包含的待定采样点的数量的值作为分母,将所述窗口长度的值作为分子,获得数量占比;
基于所述窗口内所有音频采样点的幅值差异将窗口内所有音频采样点进行升序排列,获得排序序列,对所述排序序列中所有音频采样点的幅值差异求差分,获得第二差分序列,将所述第二差分序列中除第一个数值外绝对值最大的数值作为差异极值;
将中心采样点的幅值差异与对应窗口内每个音频采样点的幅值差异的差异作为窗口内每个音频采样点对应的差异变量;
将所述窗口内所有音频采样点对应的差异变量累加后的值与所述差异极值的比值作为波动参数,将所述波动参数与所述数量占比的乘积作为中心采样点的平滑必要性。
2.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述基于扩展卡尔曼滤波获得所述原始音频数据对应的预测音频数据,包括:
根据音频数据的数据参数构建状态向量,所述数据参数包括频率、波长、相位和速度;
将所述原始音频数据中第一个音频采样点的音频数据作为预测数据序列中第一个音频采样点的音频数据;
以所述预测数据序列中第一个音频采样点为起点,基于扩展卡尔曼滤波依次根据预测数据序列中前一音频采样点的状态向量获得后一音频采样点的状态向量,直至预测数据序列中音频采样点个数与原始音频数据中音频采样点个数相等;
对预测数据序列中每个音频采样点的状态向量进行还原处理,获得所述原始音频数据对应的预测音频数据。
3.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述待定采样点的获取方法包括:
基于音频采样点的幅值差异将所有所述音频采样点进行升序排列,获得排列序列;
对所述排列序列中所有音频采样点的幅值差异求差分,获得第一差分序列,将所述第一差分序列中除第一个数值外绝对值最大的数值对应的两个音频采样点作为初始采样点;
分别获取排列序列中最后一个音频采样点与每个初始采样点之间的时间间隔,将最小时间间隔对应的初始采样点作为端点采样点;
将所述排列序列中端点采样点与最后一个音频采样点之间的所有音频采样点作为待定采样点。
4.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述平滑参数的获取方法包括:
基于峰度公式根据所述窗口中所有待定采样点的平滑必要性获得峰度值;
将所述峰度值与中心采样点的平滑参数的乘积作为中心采样点的平滑参数。
5.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述最终音频数据幅值的获取方法包括:
将每个待定采样点的平滑参数归一化后作为第一加权因子;将所述第一加权因子进行负相关映射作为第二加权因子;
将每个待定采样点的预测音频数据幅值与对应的第一加权因子相乘作为第一乘积,将每个待定采样点的原始音频数据幅值与对应的第二加权因子相乘作为第二乘积;
将每个待定采样点对应的所述第一乘积与第二乘积的和值,作为所述待定采样点的所述最终音频数据幅值。
6.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述对所述音频输出数据进行编码存储,包括:
基于FLAC无损压缩算法对所有音频输出数据进行编码压缩,获得压缩数据;对所述压缩数据进行存储。
7.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述音频输出数据的获取方法包括:
所述非待定采样点的原始音频数据幅值不变,将每个待定采样点的最终音频数据幅值代替待定采样点的原始音频数据幅值,生成音频输出数据。
8.根据权利要求1所述的一种动漫数据智能编码存储方法,其特征在于,所述根据所有待定采样点对应的时刻确定窗口长度,包括:
将所有待定采样点对应的时刻数的均值,对所述均值进行向上取整作为窗口初始长度;
若窗口初始长度为偶数,则窗口初始长度加一,确定所述窗口长度。
9.一种动漫数据智能编码存储系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~8任意一项所述方法的步骤。
CN202311595181.2A 2023-11-28 2023-11-28 一种动漫数据智能编码存储方法及系统 Active CN117316175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311595181.2A CN117316175B (zh) 2023-11-28 2023-11-28 一种动漫数据智能编码存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311595181.2A CN117316175B (zh) 2023-11-28 2023-11-28 一种动漫数据智能编码存储方法及系统

Publications (2)

Publication Number Publication Date
CN117316175A CN117316175A (zh) 2023-12-29
CN117316175B true CN117316175B (zh) 2024-01-30

Family

ID=89288671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311595181.2A Active CN117316175B (zh) 2023-11-28 2023-11-28 一种动漫数据智能编码存储方法及系统

Country Status (1)

Country Link
CN (1) CN117316175B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172231A (zh) * 2017-12-07 2018-06-15 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
CN110490816A (zh) * 2019-07-15 2019-11-22 哈尔滨工程大学 一种水下异构信息数据降噪方法
CN113823314A (zh) * 2021-08-12 2021-12-21 荣耀终端有限公司 语音处理方法和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10257619B2 (en) * 2014-03-05 2019-04-09 Cochlear Limited Own voice body conducted noise management
US20230090763A1 (en) * 2020-02-13 2023-03-23 Muhammed Zahid Ozturk Method, apparatus, and system for voice activity detection based on radio signals
CN111210021B (zh) * 2020-01-09 2023-04-14 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172231A (zh) * 2017-12-07 2018-06-15 中国科学院声学研究所 一种基于卡尔曼滤波的去混响方法及系统
CN110490816A (zh) * 2019-07-15 2019-11-22 哈尔滨工程大学 一种水下异构信息数据降噪方法
CN113823314A (zh) * 2021-08-12 2021-12-21 荣耀终端有限公司 语音处理方法和电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种改进S变换的微电网谐波/间谐波检测方法;龚仁喜;刘畅;周东来;;广西大学学报(自然科学版)(06);全文 *
基于谐波重建的语音增强算法的研究;胡定禹;郁文贤;江文斌;;信息技术(11);全文 *
基于频谱减法的语音去噪算法研究;邓利娜;黄晓革;;电子设计工程(08);全文 *
曲线拟合在核探测器信号幅度提取中的应用;覃章健;葛良全;程峰;;成都理工大学学报(自然科学版)(06);全文 *

Also Published As

Publication number Publication date
CN117316175A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
JP7511707B2 (ja) 高次アンビソニックス表現を圧縮および圧縮解除する方法および装置
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
JP3591068B2 (ja) 音声信号の雑音低減方法
CN111988611B (zh) 量化偏移信息的确定方法、图像编码方法、装置及电子设备
JP5619177B2 (ja) 低域オーディオ信号の帯域拡張
JP2006003899A (ja) ゲイン制約ノイズ抑圧
Pang Spectrum energy based voice activity detection
CN111261183A (zh) 一种语音去噪的方法及装置
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN115223584B (zh) 音频数据处理方法、装置、设备及存储介质
US20240274143A1 (en) Speech encoding and decoding methods and apparatuses, computer device, and storage medium
CN117059118A (zh) 一种聊天室音频数据优化处理方法及系统
CN118398033A (zh) 一种基于语音的情绪识别方法、系统、装置及储存介质
CN117316175B (zh) 一种动漫数据智能编码存储方法及系统
CN114268792A (zh) 视频转码方案的确定方法及装置和视频转码方法及装置
Sugiura et al. Regularized Modified Covariance Method for Spectral Analysis of Bone-Conducted Speech
JP2020190606A (ja) 音声雑音除去装置及びプログラム
CN116959474A (zh) 音频数据处理方法、装置、设备和存储介质
JP2002049397A (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
Li et al. Dynamic attention based generative adversarial network with phase post-processing for speech enhancement
CN113299308A (zh) 一种语音增强方法、装置、电子设备及存储介质
EP3903235A1 (en) Identifying salient features for generative networks
WO2019173195A1 (en) Signals in transform-based audio codecs
CN114360562B (zh) 语音处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant