CN110797038A - 音频处理方法、装置、计算机设备及存储介质 - Google Patents
音频处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110797038A CN110797038A CN201911059849.5A CN201911059849A CN110797038A CN 110797038 A CN110797038 A CN 110797038A CN 201911059849 A CN201911059849 A CN 201911059849A CN 110797038 A CN110797038 A CN 110797038A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio data
- super
- sampling rate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 275
- 238000012545 processing Methods 0.000 claims abstract description 169
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012549 training Methods 0.000 claims description 74
- 238000004422 calculation algorithm Methods 0.000 claims description 60
- 238000013136 deep learning model Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 33
- 238000010801 machine learning Methods 0.000 claims description 27
- 238000013135 deep learning Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 12
- 230000008707 rearrangement Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请是关于一种音频处理方法、装置、计算机设备及存储介质,涉及音频处理技术领域。该方法包括:获取采样率为第一采样率的第一音频数据,通过超分辨率模型对第一音频数据进行处理,并根据超分辨率模型的输出结果获得第二音频数据,第二音频数据的采样率为第二采样率,第二采样率是该第一采样率的N倍,本申请中的模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
Description
技术领域
本申请实施例涉及音频处理技术领域,特别涉及一种音频处理方法、装置、计算机设备及存储介质。
背景技术
随着数字音乐技术的不断发展,用户对于音频或者视频的音质的要求也越来越高,这就需要音频播放产品(设备或者应用程序)能够提供更高采样率的音频数据。
在相关技术中,为音乐播放提供支持的设备或者应用程序能够通过预设的音频数据算法,对低采样率的音频数据进行超分辨率处理,获得高分辨率的音频数据。比如,可以通过基于一维插值的音频数据上采样算法,或者,通过基于傅立叶变换的音频数据上采样算法对低采样率的音频数据进行上采样处理。
由于低采样率的音频数据相对于原始音频而言,通常会缺失很多高频成分,而通过相关技术中的音频数据上采样算法无法对上述缺失的高频成分进行弥补,导致音频处理结果较差。
发明内容
本申请实施例提供了一种音频处理方法、装置、计算机设备及存储介质,可以提高对音频数据的超分辨率处理结果,技术方案如下:
一方面,提供了一种音频处理方法,所述方法包括:
获取第一音频数据,所述第一音频数据的采样率为第一采样率;
通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果;所述超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;所述第一音频样本是通过对所述第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数;
根据所述超分辨率模型的输出结果获得第二音频数据,所述第二音频数据的采样率为第二采样率;所述第二采样率是所述第一采样率的N倍。
另一方面,提供了一种音频处理装置,所述装置包括:
音频数据获取模块,用于获取第一音频数据,该第一音频数据的采样率为第一采样率;
超分辨率处理模块,用于通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果;该超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;该第一音频样本是通过对第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数;
音频数据获得模块,用于根据超分辨率模型的输出结果获得第二音频数据,该第二音频数据的采样率为第二采样率;该第二采样率是第一采样率的N倍。
可选的,该第一音频数据是对应R个音轨的音频数据,R为大于或者等于1的整数;
该超分辨率处理模块,包括:
音轨划分子模块,用于将第一音频数据分为R个第一单音轨音频数据;该第一单音轨音频数据的采样率为第一采样率;
模型处理子模块,用于通过超分辨率模型对R个第一单音轨音频数据分别进行处理,获得R个第一单音轨音频数据分别对应的第二单音轨音频数据;该第二单音轨音频数据的采样率为第二采样率;
该音频数据获得模块,用于将R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成,获得第二音频数据。
可选的,该超分辨率模型包括输入层、特征提取层、上采样层和输出层;
该模型处理子模块,用于,
通过输入层,将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元,该输入数据单元的尺寸为M/N×1×1,M/N是大于或者等于2的整数;该目标单音轨音频数据是R个第一单音轨音频数据中的任意一个单音轨音频数据;
通过特征提取层,对输入数据单元进行特征提取,获得尺寸为M/N×1×S的特征数据单元,S为特征数据单元的通道数,且S为大于或者等于2的整数;
通过上采样层,对特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元;
通过输出层,根据上采样数据单元输出目标单音轨音频数据对应的第二单音轨音频数据中,长度为M的音频数据序列。
可选的,该上采样层包括第一卷积层和数据重排层;
在通过上采样层,对特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元时,所述模型处理子模块,用于,
通过第一卷积层的卷积处理,将特征数据单元转化为待采样数据单元,该待采样数据单元的尺寸为M/N×1×N;
通过数据重排层,将待采样数据单元的第一个维度和第二个维度的数据交换,并对数据交换后的待采样数据单元进行维度变换,获得上采样数据单元。
可选的,该装置还包括:
第一模型获取模块,用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,获取与第一采样率和第二采样率相对应的超分辨率模型;
其中,该第一音频样本的采样率为第一采样率,第二音频样本的采样率为第二采样率。
可选的,该装置还包括:
第二模型获取模块,用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,获取与超分辨率倍数相对应的该超分辨率模型;该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N;
其中,该第一采样率与该第二音频采样率之间的倍数关系,等于该第一音频样本的采样率与该第二音频样本的采样率之间的倍数关系。
可选的,该第一音频样本和该第二音频样本分别是单音轨音频数据;
该装置还包括:
输入模块,用于在超分辨率处理模块通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据,该超分辨率音频数据的采样率是该第一音频样本的N倍;该深度学习模型的模型结构与该超分辨率模型的模型结构相同;
损失计算模块,用于根据该第二音频样本以及该超分辨率音频数据计算损失函数值;
更新模块,用于根据该损失函数值对该深度学习模型的模型参数进行更新;
第三模型获取模块,用于当该深度学习模型收敛时,将该深度学习模型作为该超分辨率模型。
可选的,该装置还包括:
拆分模块,用于在输入模块将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据之前,对原始音频样本进行音轨拆分,获得原始单音轨音频;
第一降采样模块,用于对该原始单音轨音频进行降采样处理,获得长度为M的该第二音频样本;M是所述超分辨率模型输出的音频数据序列的单位长度,且M/N是大于或者等于2的整数;
第二降采样模块,用于对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本。
可选的,该第二降采样模块,用于,
通过指定降采样算法对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本;
该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。
可选的,该更新模块,用于,
根据该损失函数值,通过指定参数优化算法对该深度学习模型的模型参数进行更新;
该指定参数优化算法包括拟牛顿算法或者梯度下降算法。
可选的,该损失计算模块,用于计算该第二音频样本与该超分辨率音频数据之间的最小平方误差,获得该损失函数值。
又一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的音频处理方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的音频处理方法。
本申请提供的技术方案可以包括以下有益效果:
通过获取采样率为第一采样率的第一音频数据,通过超分辨率模型对第一音频数据进行处理,并根据超分辨率模型的输出结果获得第二音频数据,第二音频数据的采样率为第二采样率,第二采样率是该第一采样率的N倍,其中,由于超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型,且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,因此,该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种模型训练及应用的框架图;
图2是根据一示例性实施例实施例示出的一种音频处理流程示意图;
图3是根据一示例性实施例示出的一种音频处理方法的流程图;
图4是图3所示实施例涉及的一种超分辨率模型的模型结构图;
图5是图3所示实施例涉及的一种音频处理流程框架图;
图6是根据一示例性实施例示出的一种模型训练方法的流程图;
图7是图6所示实施例涉及的样本获取流程图;
图8是图6所示实施例涉及的模型训练流程示意图;
图9是是根据一个示例性实施例示出的音频处理流程框架图;
图10是本申请一个示例性实施例提供的音频处理装置的方框图;
图11是本申请一个示例性实施例提供的模型训练装置的方框图;
图12是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请提出了一种音频处理方案,该方案能够训练获得用于超分辨率处理的机器学习模型,并通过机器学习模型尽可能准确的补充低采样率音频数据中缺失的高频成分,从而基于人工智能(Artificial Intelligence,AI)实现高准确性高效并且高准确率的音频数据超分辨率处理。为了便于理解,下面对本申请涉及到的一些概念进行解释。
(1)音频超分辨率技术
在本申请中,音频超分辨率技术是指通过算法提高音频信号采样率的技术。相比于传统插值算法而言,音频超分辨率技术能够更好的恢复低频率采样丢失的高频信号,得到的音频听起来更加丰富饱满。
(2)人工智能AI
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案主要涉及人工智能中的机器学习/深度学习等技术。
(3)机器学习(Machine Learning,ML)
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
(4)深度学习(DL,Deep Learning)
深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
在目前的网络应用中,大部分音频或者视频的音轨或者音频文件的采样率只能达到最低的无损标准(即44.1kHz,从专业角度来看比较低)。传统观念认为,人耳只能听到2万Hz左右的声音,但是近期某些研究表明,高于2万Hz的声音也可以被人感知到。而从市场而言,业内顶级的音乐播放器制造商的移动式音乐播放器最高已经可以播放2.1MHz的音频文件,这是传统44.1kHz采样率的约4.7倍。而从实际体验上来说,如果使用相对专业一些的音箱&耳机,大部分用户能够听出96kHz的音频文件与44.1kHz区别,明显能够感觉到96kHz采样率的音频文件音质更好。随着市场上高级的、专业的音频设备正在越来越广的出现(例如降噪耳机、电视回音壁、音箱、音乐播放器等等),用户对于高采样率的音频的需求也越来越高。而本申请所示的方案通过音频超分辨率技术,能够给用户带来更好的音质体验。
本申请后续各个实施例的方案是一种训练以及应用机器学习模型的方案。图1是根据一示例性实施例示出的一种模型训练及应用的框架图。如图1所示,在模型训练阶段,模型训练设备110通过不同采样率的音频样本,通过深度学习的方式训练出用于自动对音频数据进行高质量的上采样处理的超分辨率模型,在应用阶段,音频处理设备120根据训练好的超分辨率模型以及输入的低采样率的音频数据,自动生成还原高频成分的高采样率的音频数据。
其中,上述模型训练设备110和音频处理设备120可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是个人电脑、服务器等固定式计算机设备,或者,该计算机设备也可以是具有音频播放功能的终端,包括但不限于智能手机、平板电脑等移动终端,以及,耳机、音箱、智能电视等专业的播放设备等等。
可选的,上述模型训练设备110和音频处理设备120可以是同一个设备,或者,模型训练设备110和音频处理设备120也可以是不同的设备。并且,当模型训练设备110和音频处理设备120是不同的设备时,模型训练设备110和音频处理设备120可以是同一类型的设备,比如模型训练设备110和音频处理设备120可以都是服务器;或者,模型训练设备110和音频处理设备120也可以是不同类型的设备,比如模型训练设备110可以是服务器,而音频处理设备120可以是具有音乐播放功能的终端等。本申请实施例对于模型训练设备110和音频处理设备120的具体类型不做限定。
比如,当上述模型训练设备是服务器,音频处理设备是具有音频播放供功能的终端为例,开发人员可以通过服务器来构建训练数据集并训练超分辨率模型,并将训练得到的超分辨率模型提供给终端,用户在使用终端播放音频时,终端可以主动或者在用户触发控制下,对音频数据进行超分辨率处理。
再比如,当上述模型训练设备和音频处理设备是同一个设备,比如,上述模型训练设备和音频处理设备是同一个服务器时,开发人员可以通过服务器来构建训练数据集并训练超分辨率模型,用户通过终端播放音频时,终端可以向服务器请求音频超分辨率服务,该服务器可以对该终端播放的音频数据进行超分辨率处理,并将超分辨率处理后的音频数据发送给终端进行播放。
图2是根据一示例性实施例实施例示出的一种音频处理流程示意图。其中,该音频处理流程可以由计算机设备执行,该计算机设备可以是包含有超分辨率模型的音频处理设备,比如,该音频处理设备可以是上述图1所示的音频处理设备120。上述音频处理流程可以如下:
S21,获取第一音频数据,该第一音频数据的采样率为第一采样率。
其中,音频数据的采样率,是指在一秒钟内对声音信号的采样次数,采样率越高,则声音的还原就越真实越自然。
声音其实是一种能量波,其也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。由于波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,在数字编码过程中,通常对声音信号的弦线上的点进行采样。该采样的过程是指抽取某时间点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,从人耳能够感觉到的最高频率为20kHz的角度出发,要满足人耳的听觉要求,需要至少每秒进行40k次采样,其用40kHz表达,而这个40kHz就是采样率。常见的音频载体中携带的音频的采样率通常为44.1kHz。
S22,通过超分辨率模型对该第一音频数据进行处理,获得该超分辨率模型的输出结果。其中,该超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数。
S23,根据该超分辨率模型的输出结果获得第二音频数据,该第二音频数据的采样率为第二采样率;该第二采样率是该第一采样率的N倍。
在本申请实施例中,第一音频样本是由第二音频样本进行N倍降采样得到的,因此,第二音频样本中包含有第一音频样本中缺失的部分高频成分,因此,以第一音频样本为输入,并以第二音频样本为目标训练出的深度学习模型,能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,相对于简单的通过插值方法得到的高采样率的音频数据的方案来说,能够显著的提高音频处理的效果。
图3是根据一示例性实施例示出的一种音频处理方法的流程图,该音频处理方法可以用于计算机设备,比如上述图1所示的音频处理设备120中,以对低采样率的第一音频数据进行超分辨率处理,获得高采样率的第二音频数据。。如图3所示,该音频处理方法可以包括如下步骤:
步骤301,获取第一音频数据,该第一音频数据的采样率为第一采样率;
其中,上述第一音频数据可以是独立的音乐文件中的音频数据,或者,也可以是视频中携带的音频数据。
在获取到上述第一音频数据之后,音频处理设备即可以通过超分辨率模型对该第一音频数据进行处理,获得该超分辨率模型的输出结果。其中,该超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数。
在本申请实施例中,对第一音频数据进行超分辨率处理的步骤可以由第一音频数据的用户触发,或者,也可以由音频处理设备主动触发。
例如,在播放上述第一音频数据的音频播放界面中,包含一个音质调整控件,当用户对该音质调整控件执行了触发操作时,音频处理设备接收到该触发操作对应的触发指令,此时,音频处理设备可以执行后续对该第一音频数据进行超分辨率处理的步骤。
在例如,音频处理设备在获取到上述第一音频数据之后,可以检测该第一音频数据对应的第一采样率是否满足超分辨率处理条件,比如,当音频处理设备检测到该第一采样率低于预设的采样率阈值时,可以触发后续对该第一音频数据进行超分辨率处理的步骤。
步骤302,将该第一音频数据分为R个第一单音轨音频数据;该第一单音轨音频数据的采样率为该第一采样率。
在本申请实施例中,上述第一音频数据可以是对应R个音轨的音频数据,R为大于或者等于1的整数。在对该第一音频数据进行超分辨率处理时,音频处理设备可以按照音轨对该的第一音频数据进行划分,将第一音频数据中每个音轨对应的音频数据划分为一份单音轨音频数据,有R个音轨,即可以得到R个第一单音轨音频数据,并且,每个第一单音轨音频数据的采样率均为上述第一采样率。
步骤303,通过该超分辨率模型对该R个第一单音轨音频数据分别进行处理,获得该R个第一单音轨音频数据分别对应的第二单音轨音频数据。
其中,该第二单音轨音频数据的采样率为该第二采样率,该第二采样率是该第一采样率的N倍。
在本申请实施例中,对于每一个第一单音轨音频数据,音频处理设备单独通过超分辨率模型对该第一单音轨音频数据进行超分辨率处理,每个第一单音轨音频数据经过超分辨率模型的处理后,可以得到对应的一个第二采样率的第二单音轨音频数据。
在一种可能的实现方式中,上述超分辨率模型可以包括输入层、特征提取层、上采样层和输出层。
音频处理设备通过该超分辨率模型对该R个第一单音轨音频数据分别进行处理,获得该R个第一单音轨音频数据分别对应的第二单音轨音频数据时,可以执行如下步骤:
S303a,通过该输入层,将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元,该输入数据单元的尺寸为M/N×1×1,M/N是大于或者等于2的整数;该目标单音轨音频数据是该R个第一单音轨音频数据中的任意一个单音轨音频数据。
其中,第一单音轨音频数据可以视为一个一维的音频数据序列,超分辨率模型中的输入层可以对该第一单音轨音频数据进行维度扩展,得到一个三维的输入数据单元。
其中,M/N是输入超分辨率模型进行处理的音频数据序列的单位长度,也就是说,超分辨率模型以输入的长度为M/N的音频数据序列为单位进行处理。
S303b,通过该特征提取层,对该输入数据单元进行特征提取,获得尺寸为M/N×1×S的特征数据单元,S为该特征数据单元的通道数,且S为大于或者等于2的整数。
其中,上述特征提取层可以包含至少一层巻积层,每一层巻积层对上一层输入的数据单元进行卷积处理,最后输出尺寸为M/N×1×S的特征数据单元。
S303c,通过该上采样层,对该特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元。
在本申请实施例中,对于每一个由长度为M/N的音频数据序列处理得到的特征数据单元,上采样层可以对该特征数据单元进行处理,得到M×1×1的上采样数据单元。
S303d,通过该输出层,根据该上采样数据单元输出该目标单音轨音频数据对应的第二单音轨音频数据中,长度为M的音频数据序列。
其中,该M是超分辨率模型输出的音频数据序列的单位长度。在本申请实施例中,由于上采样层输出的结果是一个三维数据,需要通过输出层将该三维的上采样数据单元转化为长度为M的一维音频数据序列。
可选的,该上采样层包括第一卷积层和数据重排层;在通过该上采样层,对该特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元时,音频处理设备可以通过该第一卷积层的卷积处理,将该特征数据单元转化为待采样数据单元,该待采样数据单元的尺寸为M/N×1×N;然后再通过该数据重排层,将该待采样数据单元的第一个维度和第二个维度的数据交换,并对数据交换后的该待采样数据单元进行维度变换,获得该上采样数据单元。
比如,请参考图4,其示出了本申请实施例涉及的一种超分辨率模型的模型结构图。如图4所示,该超分辨率模型包括输入层41、特征提取层42、上采样层43以及输出层44。
其中,特征提取层42包括至少一层巻积层,即图4中的巻积层1至5。
上采样层43包括一层巻积层(相当于上述第一卷积层),即图4中的巻积层6,以及数据重排层。
上述输入层、巻积层1至6以及数据重排层的相关属性如下表1所示。
表1
可选的,在通过超分辨率模型对该第一音频数据进行处理,获得该超分辨率模型的输出结果之前,音频处理设备还可以获取与该第一采样率和该第二采样率相对应的该超分辨率模型。
其中,该第一音频样本的采样率为该第一采样率,该第二音频样本的采样率为该第二采样率。
在本申请实施例中,上述音频处理设备对第一音频数据进行处理获得第二音频数据时,使用的超分辨率模型可以是与第一采样率和第二采样率的采样率数值直接对应的模型,也就是说,训练该超分辨率模型所使用的训练数据的采样率也是第一采样率和第二采样率。
比如,假设第一音频数据的第一采样率为44.1kHz,获得的第二音频样本的采样率为88.2kHz,则相应的,音频处理设备在获取上述超分辨率模型时,可以选取通过44.1kHz的第一音频样本和88.2kHz的第二音频样本训练获得的超分辨率模型。
可选的,在通过超分辨率模型对该第一音频数据进行处理,获得该超分辨率模型的输出结果之前,音频处理设备还可以获取与超分辨率倍数相对应的该超分辨率模型;该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N。
其中,该第一采样率与该第二音频采样率之间的倍数关系,等于该第一音频样本的采样率与该第二音频样本的采样率之间的倍数关系。
在本申请实施例中,上述音频处理设备对第一音频数据进行处理获得第二音频数据时,使用的超分辨率模型也可以是与第一采样率和第二采样率之间的倍数关系对应的模型,也就是说,训练该超分辨率模型所使用的训练数据的采样率之间的倍数,需要与第一采样率和第二采样率之间的倍数相同,而训练该超分辨率模型所使用的训练数据的采样率,并不一定需要与第一采样率和第二采样率完全相同。
比如,假设第一音频数据的第一采样率为44.1kHz,获得的第二音频样本的采样率为88.2kHz,则相应的,音频处理设备在获取上述超分辨率模型时,可以选取通过两倍降分辨率得到的第一音频样本和第二音频样本训练得到的模型,比如,训练该模型的样本,可以是44.1kHz的第一音频样本和88.2kHz的第二音频样本,也可以是22.01kHz的第一音频样本和44.1kHz的第二音频样本。
步骤304,将该R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成,获得该第二音频数据。
在本申请实施例中,音频处理设备得到每个第一单音轨音频数据分别对应的第二单音轨音频数据,可以将各个第二单音轨音频数据按照各自对应的第一单音轨音频数据的音轨进行合成,得到上述第二音频数据。
其中,音频处理设备对各个第一单音轨音频数据进行处理时,为了提高处理速度,音频处理设备可以对各个第一单音轨音频数据并行进行处理,也就是说,对于每一个第一单音轨音频数据,音频处理设备通过一个超分辨率模型对其单独进行处理,且对各个第一单音轨音频数据的处理并行执行。
比如,请参考图5,其示出了本申请实施例涉及的一种音频处理流程框架图。如图5所示,对于多音轨的第一音频数据,音频处理设备对第一音频数据进行音轨划分(S51),得到R个第一单音轨音频数据,即图5中的第一单音轨音频数据1至第一单音轨音频数据R;音频处理设备将R个第一单音轨音频数据分别输入R个超分辨率模型中的一个(S52),得到每个超分辨率模型对应输出的第二单音轨音频数据,即图5中的第二单音轨音频数据1至第二单音轨音频数据R;音频处理设备将第二单音轨音频数据1至第二单音轨音频数据R进行多音轨合成(S53),得到多音轨且超分辨率处理后的第二音频数据。
通过本申请实施例提供的方法,能够显著减少音频超分辨率模型处理的数据量,使得模型的处理速度大大增加。在实际测试中,使用m40型号的GPU,使用上述参数的模型,能够以超越实时的速度,将22.01kHz的音频,提升到44.1kHz的采样率(约2倍于实时的速度),这也就意味着,理论上将44.1kHz的音频提升到88.2kHz,可以达到几乎实时,换句话说,将本申请所示的方案应用在音频播放终端中,在预先不做处理的情况下,音频播放终端可以在播放原本采样率只有44.1kHz的音频的过程中,将该音频实时超分辨率处理为88.2kHz的高品质音频。
综上所述,本申请实施例所示的方案,音频处理设备获取采样率为第一采样率的第一音频数据,通过超分辨率模型对第一音频数据进行处理,并根据超分辨率模型的输出结果获得第二音频数据,第二音频数据的采样率为第二采样率,第二采样率是该第一采样率的N倍,其中,由于超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型,且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,因此,该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
其中,上述图2或图3所示实施例中涉及到的超分辨率模型,可以由模型训练设备预先训练得到。请参考图6,其是根据一示例性实施例示出的一种模型训练方法的流程图,该方法可以用于计算机设备,比如上述图1所示的模型训练设备110中,以训练获得图2或图3所示实施例中涉及的超分辨率模型。如图6所示,该模型训练方法可以包括如下步骤:
步骤601,对原始音频样本进行音轨拆分,获得原始单音轨音频;对该原始单音轨音频进行降采样处理,获得长度为M的该第二音频样本。
其中,第二音频样本的采样率为第二采样率。
其中,上述对该原始单音轨音频样本进行降采样处理时,降采样的倍数可以由需要得到的第二音频样本的采样率,以及原始单音轨音频样本的采样率确定。
步骤602,对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本。
其中,第一音频样本的采样率为第一采样率。
其中,该第一音频样本和该第二音频样本分别是单音轨音频数据。
在本申请实施例中,模型训练设备在对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本时,可以通过指定降采样算法对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本;其中,该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。
其中,以采用基于均值滤波的降采样算法为例,记超分辨率倍数为N,第二音频样本的长度为M(M是N的整数倍),则使用长度为N的一维线性卷积核,按照步长为N,对第二音频样本进行卷积,其中卷积操作不做填充(padding),这样即可得到对应的第一音频样本。
其中,上述M是待训练的超分辨率模型输出的音频数据序列的单位长度,也就是说,通过本申请实施例训练得到的超分辨率模型,将以M为单位长度输出超分辨率处理后的音频数据序列。M的数值可以由开发人员预先设置,比如,M可以设置为N的5倍。
相应的,在上述步骤601中,模型训练设备也可以按照相同的指定降采样算法,对该原始单音轨音频样本进行降采样处理,获得长度为M的该第二音频样本。
在本申请实施例中,可以使用高采样率的原始音频样本来生成训练使用的第一音频样本和第二音频样本。比如,可以使用192kHz采样率的高品质音频作为原始音频样本,来生成超分辨率模型的训练集。
请参考图7,其示出了本申请实施例涉及的样本获取流程图。如图7所示,通过原始音频样本生成训练集的过程可以如下:
S71,模型训练设备将原始音频样本拆分成各个单音轨的原始单音轨音频。
S72,模型训练设备使用降采样算法,按照需求的降采样倍数,降低原始单音轨音频的采样率,得到原始单音轨音频样本。
降采样的倍数可以根据第二音频样本的采样率来设定,对于不同超分辨率倍数的模型,可以分别设置降采样倍数,比如,可以设置降采样的倍数为0.1~1倍,其中1倍表示不降低采样率。
S73,从原始单音轨音频样本中,截取第二音频样本。
例如,记超分辨率的倍数为N,N为整数,第二音频样本长度为M(其中M要是N的整数倍),步长为H,也就是说,在原始单音轨音频样本上,从第一个采样点开始,每隔H个采样点,选取片段起始位置,然后以起始位置开始,截取出长度为M的音频片段。对于在音频最后无法达到截取出长度为M的音频片段则可以舍去不要。
S74,使用降采样算法,降低第二音频样本的采样率,得到长度为M/N的第一音频样本。
S75,将每对第一音频样本与第二音频样本成对组合,所有的数据对组成训练超分辨率模型所使用的数据集。
步骤603,将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据,该超分辨率音频数据的采样率是该第一音频样本的N倍;该深度学习模型的模型结构与该超分辨率模型的模型结构相同。
其中,本步骤中通过深度学习模型对第一音频样本进行处理的过程,与上述图3所示实施例中通过超分辨率模型对第一单音轨音频数据进行处理的过程类似,此处不再赘述。
步骤604,根据该第二音频样本以及该超分辨率音频数据计算损失函数值。
在一种可能的实现方式中,模型训练设备可以计算该第二音频样本与该超分辨率音频数据之间的最小平方误差,获得该损失函数值。
除了最小平方误差之外,还可以通过其它方式计算该损失函数,比如,模型训练设备可以计算第二音频样本与超分辨率音频数据之间的绝对误差作为损失函数值等。对于损失函数值的计算方法,本申请实施例不做限定。
步骤605,根据该损失函数值对该深度学习模型的模型参数进行更新。
在本申请实施例中,模型训练设备可以根据该损失函数值,通过指定参数优化算法对该深度学习模型的模型参数进行更新;其中,该指定参数优化算法包括拟牛顿算法或者梯度下降算法。
步骤606,当该深度学习模型收敛时,将该深度学习模型作为超分辨率模型。
本申请实施例所示的方法,可以通过定义损失函数值(loss),使用参数优化算法优化模型参数的值来减小loss,最终得到训练出的超分辨率模型。比如,以损失函数值为最小平方误差为例,请参考图8,其示出了本申请实施例涉及的模型训练流程示意图。如图8所示,模型训练设备训练超分辨率模型的流程可以包括如下步骤:
S81,模型训练设备将第一音频样本输入到深度学习模型中,输出得到超分辨率音频数据。
其中,该深度学习模型的模型结构可以与图3所示实施例中涉及的模型结构相同。
S82,模型训练设备计算所有超分辨率音频数据与第二音频样本的最小平方误差,得到待优化的损失函数值。
S83,模型训练设备使用参数优化算法(比如使用二阶拟牛顿法),迭代深度学习模型的参数值,使得损失函数值最小。
经过充分迭代,直到迭代次数大于给定阈值(比如20万次),或者,得到的平均平方误差小于给定阈值(比如0.03),模型训练设备即可以将深度学习模型的模型参数获取为后续进行音频处理使用的超分辨率模型的模型参数。
综上所述,本申请实施例所示的方案,由于超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型,且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,因此,该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
请参考图9,其是根据一个示例性实施例示出的音频处理流程框架图。如图9所示,本申请所示的方案主要涉及三个部分,分别为:
S91,构造训练音频超分辨率模型的数据集。
在S91部分,可以通过降采样算法,对高采样率的音频文件进行降采样处理,得到低采样率的音频文件,进而构造训练数据集。该过程可以参考上述图6所示实施例中的步骤601和步骤602下的描述,此处不再赘述。
S92,训练音频超分辨率模型。
在S92部分,可以通过S91部分构造的数据集,进行深度学习训练,得到超分辨率模型,该过程可以参考上述图6所示实施例中的步骤603至步骤606下的描述,此处不再赘述。
S93,使用训练好的音频超分辨率模型进行音频处理。
在S93部分,可以将待处理的音频数据输入至超分辨率模型,根据超分辨率模型的输出结果得到更高采样率,且有效还原高频成分的音频数据,该步骤可以参考上述图2或图3所示实施例中的描述,此处不再赘述。
请参考图10,其示出了本申请一个示例性实施例提供的音频处理装置的方框图,该音频处理装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分,以实现如上述图2、图3或者图6所示实施例中的全部或者部分步骤。比如,该计算机设备可以是如图1所示的音频处理设备120,或者,该计算机设备可以是如图1所示的音频处理设备120和模型训练设备110的结合。如图10所示,该音频处理装置包括:
音频数据获取模块1001,用于获取第一音频数据,该第一音频数据的采样率为第一采样率;
超分辨率处理模块1002,用于通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果;该超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;该第一音频样本是通过对第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数;
音频数据获得模块1003,用于根据超分辨率模型的输出结果获得第二音频数据,该第二音频数据的采样率为第二采样率;该第二采样率是第一采样率的N倍。
可选的,该第一音频数据是对应R个音轨的音频数据,R为大于或者等于1的整数;
该超分辨率处理模块1002,包括:
音轨划分子模块,用于将第一音频数据分为R个第一单音轨音频数据;该第一单音轨音频数据的采样率为第一采样率;
模型处理子模块,用于通过超分辨率模型对R个第一单音轨音频数据分别进行处理,获得R个第一单音轨音频数据分别对应的第二单音轨音频数据;该第二单音轨音频数据的采样率为第二采样率;
该音频数据获得模块1003,用于将R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成,获得第二音频数据。
可选的,该超分辨率模型包括输入层、特征提取层、上采样层和输出层;
该模型处理子模块,用于,
通过输入层,将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元,该输入数据单元的尺寸为M/N×1×1,M/N是大于或者等于2的整数;该目标单音轨音频数据是R个第一单音轨音频数据中的任意一个单音轨音频数据;
通过特征提取层,对输入数据单元进行特征提取,获得尺寸为M/N×1×S的特征数据单元,S为特征数据单元的通道数,且S为大于或者等于2的整数;
通过上采样层,对特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元;
通过输出层,根据上采样数据单元输出目标单音轨音频数据对应的第二单音轨音频数据中,长度为M的音频数据序列。
可选的,该上采样层包括第一卷积层和数据重排层;
在通过上采样层,对特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元时,所述模型处理子模块,用于,
通过第一卷积层的卷积处理,将特征数据单元转化为待采样数据单元,该待采样数据单元的尺寸为M/N×1×N;
通过数据重排层,将待采样数据单元的第一个维度和第二个维度的数据交换,并对数据交换后的待采样数据单元进行维度变换,获得上采样数据单元。
可选的,该装置还包括:
第一模型获取模块,用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,获取与第一采样率和第二采样率相对应的超分辨率模型;
其中,该第一音频样本的采样率为第一采样率,第二音频样本的采样率为第二采样率。
可选的,该装置还包括:
第二模型获取模块,用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,获取与超分辨率倍数相对应的该超分辨率模型;该超分辨率倍数是该第二采样率相对于该第一采样率的倍数N;
其中,该第一采样率与该第二音频采样率之间的倍数关系,等于该第一音频样本的采样率与该第二音频样本的采样率之间的倍数关系。
可选的,该第一音频样本和该第二音频样本分别是单音轨音频数据;
该装置还包括:
输入模块,用于在超分辨率处理模块1002通过超分辨率模型对第一音频数据进行处理,获得超分辨率模型的输出结果之前,将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据,该超分辨率音频数据的采样率是该第一音频样本的N倍;该深度学习模型的模型结构与该超分辨率模型的模型结构相同;
损失计算模块,用于根据该第二音频样本以及该超分辨率音频数据计算损失函数值;
更新模块,用于根据该损失函数值对该深度学习模型的模型参数进行更新;
第三模型获取模块,用于当该深度学习模型收敛时,将该深度学习模型作为该超分辨率模型。
可选的,该装置还包括:
拆分模块,用于在输入模块将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据之前,对原始音频样本进行音轨拆分,获得原始单音轨音频;
第一降采样模块,用于对该原始单音轨音频进行降采样处理,获得长度为M的该第二音频样本;M是该超分辨率模型输出的音频数据序列的单位长度,且M/N是大于或者等于2的整数;
第二降采样模块,用于对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本。
可选的,该第二降采样模块,用于,
通过指定降采样算法对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本;
该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。
可选的,该更新模块,用于,
根据该损失函数值,通过指定参数优化算法对该深度学习模型的模型参数进行更新;
该指定参数优化算法包括拟牛顿算法或者梯度下降算法。
可选的,该损失计算模块,用于计算该第二音频样本与该超分辨率音频数据之间的最小平方误差,获得该损失函数值。
综上所述,本申请实施例所示的方案,由于超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型,且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,因此,该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
请参考图11,其示出了本申请一个示例性实施例提供的模型训练装置的方框图,该模型训练装置可以通过硬件或者软硬结合的方式实现为计算机设备的全部或者部分,以实现如上述图6所示实施例中的全部或者部分步骤。比如,该计算机设备可以是如图1所示的模型训练设备110。如图11所示,该音频处理装置包括:
输入模块1101,用于将第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据,该超分辨率音频数据的采样率是该第一音频样本的N倍;该深度学习模型的模型结构与该超分辨率模型的模型结构相同;
损失计算模块1102,用于根据该第二音频样本以及该超分辨率音频数据计算损失函数值;
更新模块1103,用于根据该损失函数值对该深度学习模型的模型参数进行更新;
第三模型获取模块,用于当该深度学习模型收敛时,将该深度学习模型作为该超分辨率模型。
可选的,该装置还包括:
拆分模块,用于在输入模块将该第一音频样本输入深度学习模型,获得该第一音频样本对应的超分辨率音频数据之前,对原始音频样本进行音轨拆分,获得原始单音轨音频;
第一降采样模块,用于对该原始单音轨音频进行降采样处理,获得长度为M的该第二音频样本;M是该超分辨率模型输出的音频数据序列的单位长度,且M/N是大于或者等于2的整数;
第二降采样模块,用于对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本。
可选的,该第二降采样模块,用于,
通过指定降采样算法对该第二音频样本进行N倍降采样处理,获得长度为M/N的该第一音频样本;
该指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。
可选的,该更新模块,用于,
根据该损失函数值,通过指定参数优化算法对该深度学习模型的模型参数进行更新;
该指定参数优化算法包括拟牛顿算法或者梯度下降算法。
可选的,该损失计算模块,用于计算该第二音频样本与该超分辨率音频数据之间的最小平方误差,获得该损失函数值。
综上所述,本申请实施例所示的方案,由于超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型,且该第一音频样本是通过对该第二音频样本进行N倍降采样获得的,因此,该模型能够较为准确的还原出低采样率的音频数据中缺失的高频成分,也就是说,通过上述超分辨率模型对低采样率的音频数据处理得到高采样率的音频数据的方案,能够显著的提高音频处理的效果。
图12是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1201通过执行该一个或一个以上程序来实现图2、图3或图6所示的方法中的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种音频处理方法,其特征在于,所述方法包括:
获取第一音频数据,所述第一音频数据的采样率为第一采样率;
通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果;所述超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;所述第一音频样本是通过对所述第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数;
根据所述超分辨率模型的输出结果获得第二音频数据,所述第二音频数据的采样率为第二采样率;所述第二采样率是所述第一采样率的N倍。
2.根据权利要求1所述的方法,其特征在于,所述第一音频数据是对应R个音轨的音频数据,R为大于或者等于1的整数;
所述通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果,包括:
将所述第一音频数据分为R个第一单音轨音频数据;所述第一单音轨音频数据的采样率为所述第一采样率;
通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理,获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据;所述第二单音轨音频数据的采样率为所述第二采样率;
所述根据所述超分辨率模型的输出结果获得第二音频数据,包括:
将所述R个第一单音轨音频数据分别对应的第二单音轨音频数据进行音轨合成,获得所述第二音频数据。
3.根据权利要求2所述的方法,其特征在于,所述超分辨率模型包括输入层、特征提取层、上采样层和输出层;
所述通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理,获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据,包括:
通过所述输入层,将目标单音轨音频数据中长度为M/N的音频数据序列组织为输入数据单元,所述输入数据单元的尺寸为M/N×1×1,M/N是大于或者等于2的整数;所述目标单音轨音频数据是所述R个第一单音轨音频数据中的任意一个单音轨音频数据;
通过所述特征提取层,对所述输入数据单元进行特征提取,获得尺寸为M/N×1×S的特征数据单元,S为所述特征数据单元的通道数,且S为大于或者等于2的整数;
通过所述上采样层,对所述特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元;
通过所述输出层,根据所述上采样数据单元输出所述目标单音轨音频数据对应的第二单音轨音频数据中,长度为M的音频数据序列。
4.根据权利要求3所述的方法,其特征在于,所述上采样层包括第一卷积层和数据重排层;
所述通过所述上采样层,对所述特征数据单元进行N倍上采样,获得尺寸为M×1×1的上采样数据单元,包括:
通过所述第一卷积层的卷积处理,将所述特征数据单元转化为待采样数据单元,所述待采样数据单元的尺寸为M/N×1×N;
通过所述数据重排层,将所述待采样数据单元的第一个维度和第二个维度的数据交换,并对数据交换后的所述待采样数据单元进行维度变换,获得所述上采样数据单元。
5.根据权利要求1所述的方法,其特征在于,所述通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果之前,还包括:
获取与所述第一采样率和所述第二采样率相对应的所述超分辨率模型;
其中,所述第一音频样本的采样率为所述第一采样率,所述第二音频样本的采样率为所述第二采样率。
6.根据权利要求1所述的方法,其特征在于,所述通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果之前,还包括:
获取与超分辨率倍数相对应的所述超分辨率模型;所述超分辨率倍数是所述第二采样率相对于所述第一采样率的倍数N;
其中,所述第一采样率与所述第二音频采样率之间的倍数关系,等于所述第一音频样本的采样率与所述第二音频样本的采样率之间的倍数关系。
7.根据权利要求1至6任一所述的方法,其特征在于,所述第一音频样本和所述第二音频样本分别是单音轨音频数据;
所述通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果之前,还包括:
将所述第一音频样本输入深度学习模型,获得所述第一音频样本对应的超分辨率音频数据,所述超分辨率音频数据的采样率是所述第一音频样本的N倍;所述深度学习模型的模型结构与所述超分辨率模型的模型结构相同;
根据所述第二音频样本以及所述超分辨率音频数据计算损失函数值;
根据所述损失函数值对所述深度学习模型的模型参数进行更新;
当所述深度学习模型收敛时,将所述深度学习模型作为所述超分辨率模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述第一音频样本输入深度学习模型,获得所述第一音频样本对应的超分辨率音频数据之前,还包括:
对原始音频样本进行音轨拆分,获得原始单音轨音频;
对所述原始单音轨音频进行降采样处理,获得长度为M的所述第二音频样本;M是所述超分辨率模型输出的音频数据序列的单位长度,且M/N是大于或者等于2的整数;
对所述第二音频样本进行N倍降采样处理,获得长度为M/N的所述第一音频样本。
9.根据权利要求8所述的方法,其特征在于,所述对所述第二音频样本进行N倍降采样处理,获得长度为M/N的所述第一音频样本,包括:
通过指定降采样算法对所述第二音频样本进行N倍降采样处理,获得长度为M/N的所述第一音频样本;
所述指定降采样算法包括基于均值滤波的降采样算法、基于一维线性插值的降采样算法或者基于傅立叶插值的降采样算法。
10.根据权利要求7所述的方法,其特征在于,所述根据所述损失函数值对所述深度学习模型的模型参数进行更新,包括:
根据所述损失函数值,通过指定参数优化算法对所述深度学习模型的模型参数进行更新;
所述指定参数优化算法包括拟牛顿算法或者梯度下降算法。
11.根据权利要求7所述的方法,其特征在于,所述根据所述第二音频样本以及所述超分辨率音频数据计算损失函数值,包括:
计算所述第二音频样本与所述超分辨率音频数据之间的最小平方误差,获得所述损失函数值。
12.一种音频处理装置,其特征在于,所述装置包括:
音频数据获取模块,用于获取第一音频数据,所述第一音频数据的采样率为第一采样率;
超分辨率处理模块,用于通过超分辨率模型对所述第一音频数据进行处理,获得所述超分辨率模型的输出结果;所述超分辨率模型是以第一音频样本为输入数据,以第二音频样本为目标数据进行深度学习训练获得的机器学习模型;所述第一音频样本是通过对所述第二音频样本进行N倍降采样获得的,N为大于或者等于2的整数;
音频数据获得模块,用于根据所述超分辨率模型的输出结果获得第二音频数据,所述第二音频数据的采样率为第二采样率;所述第二采样率是所述第一采样率的N倍。
13.根据权利要求12所述的装置,其特征在于,所述第一音频数据是对应R个音轨的音频数据,R为大于或者等于1的整数;
所述超分辨率处理模块,包括:
音轨划分子模块,用于将所述第一音频数据分为R个第一单音轨音频数据;所述第一单音轨音频数据的采样率为所述第一采样率;
模型处理子模块,用于通过所述超分辨率模型对所述R个第一单音轨音频数据分别进行处理,获得所述R个第一单音轨音频数据分别对应的第二单音轨音频数据;所述第二单音轨音频数据的采样率为所述第二采样率;
所述音频数据获得模块,用于将所述R个第一单音轨音频数据分别对应的所述第二单音轨音频数据进行音轨合成,获得所述第二音频数据。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有指令,所述指令由所述处理器执行,以实现如权利要求1至11任一所述的音频处理方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有指令,所述指令由计算机设备的处理器执行以实现如权利要求1至11任一所述的音频处理方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059849.5A CN110797038B (zh) | 2019-10-30 | 2019-10-30 | 音频处理方法、装置、计算机设备及存储介质 |
EP20881243.8A EP3982362B1 (en) | 2019-10-30 | 2020-09-24 | Audio processing method, apparatus, computer device, and storage medium |
PCT/CN2020/117317 WO2021082823A1 (zh) | 2019-10-30 | 2020-09-24 | 音频处理方法、装置、计算机设备及存储介质 |
US17/537,170 US11869524B2 (en) | 2019-10-30 | 2021-11-29 | Audio processing method and apparatus, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911059849.5A CN110797038B (zh) | 2019-10-30 | 2019-10-30 | 音频处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110797038A true CN110797038A (zh) | 2020-02-14 |
CN110797038B CN110797038B (zh) | 2020-11-06 |
Family
ID=69440711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911059849.5A Active CN110797038B (zh) | 2019-10-30 | 2019-10-30 | 音频处理方法、装置、计算机设备及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11869524B2 (zh) |
EP (1) | EP3982362B1 (zh) |
CN (1) | CN110797038B (zh) |
WO (1) | WO2021082823A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429930A (zh) * | 2020-03-16 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
CN112562703A (zh) * | 2020-11-17 | 2021-03-26 | 普联国际有限公司 | 一种音频的高频优化方法、装置和介质 |
CN112562702A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
WO2021082823A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN113823333A (zh) * | 2021-08-27 | 2021-12-21 | 深圳市灵镜技术有限公司 | 一种pcm音频采样率的升降控制方法及系统 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555024B (zh) * | 2021-07-30 | 2024-02-27 | 北京达佳互联信息技术有限公司 | 实时通信音频处理方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101086845A (zh) * | 2006-06-08 | 2007-12-12 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
CN101217038A (zh) * | 2008-01-17 | 2008-07-09 | 中兴通讯股份有限公司 | 音频数据sbc算法编码方法及蓝牙立体声子系统 |
CN101944364A (zh) * | 2009-07-09 | 2011-01-12 | 展讯通信(上海)有限公司 | 音频处理方法及音频系统 |
CN103366749A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN103606373A (zh) * | 2013-11-28 | 2014-02-26 | 小米科技有限责任公司 | 一种音频还原方法、装置和终端设备 |
WO2015079946A1 (ja) * | 2013-11-29 | 2015-06-04 | ソニー株式会社 | 周波数帯域拡大装置および方法、並びにプログラム |
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
CN109147805A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
PL3514677T3 (pl) * | 2011-12-06 | 2021-03-08 | Dolby Laboratories Licensing Corporation | Urządzenie i sposób poprawy wymiany danych obrazu opierających się na nieliniowości postrzegania luminancji pośród różnych możliwości wyświetlania |
US10242650B2 (en) * | 2011-12-06 | 2019-03-26 | Dolby Laboratories Licensing Corporation | Perceptual luminance nonlinearity-based image data exchange across different display capabilities |
CN102610267B (zh) * | 2012-03-16 | 2014-09-03 | 广东步步高电子工业有限公司 | 一种改善播放系统音频播放质量的方法 |
CN109074813B (zh) * | 2015-09-25 | 2020-04-03 | 杜比实验室特许公司 | 处理高清晰度音频数据 |
US20190339688A1 (en) * | 2016-05-09 | 2019-11-07 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for analytics and maintenance using the industrial internet of things |
KR102002681B1 (ko) * | 2017-06-27 | 2019-07-23 | 한양대학교 산학협력단 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
EP3688754A1 (en) * | 2017-09-26 | 2020-08-05 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
US11657264B2 (en) * | 2018-04-09 | 2023-05-23 | Nokia Technologies Oy | Content-specific neural network distribution |
CN109147804B (zh) * | 2018-06-05 | 2024-08-20 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
US11740870B2 (en) * | 2019-03-29 | 2023-08-29 | Stmicroelectronics S.R.L. | Convolutional network hardware accelerator device, system and method |
CN110797038B (zh) * | 2019-10-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
-
2019
- 2019-10-30 CN CN201911059849.5A patent/CN110797038B/zh active Active
-
2020
- 2020-09-24 EP EP20881243.8A patent/EP3982362B1/en active Active
- 2020-09-24 WO PCT/CN2020/117317 patent/WO2021082823A1/zh unknown
-
2021
- 2021-11-29 US US17/537,170 patent/US11869524B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101086845A (zh) * | 2006-06-08 | 2007-12-12 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
CN101217038A (zh) * | 2008-01-17 | 2008-07-09 | 中兴通讯股份有限公司 | 音频数据sbc算法编码方法及蓝牙立体声子系统 |
CN101944364A (zh) * | 2009-07-09 | 2011-01-12 | 展讯通信(上海)有限公司 | 音频处理方法及音频系统 |
CN103366749A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
CN103514883A (zh) * | 2013-09-26 | 2014-01-15 | 华南理工大学 | 一种自适应实现男女声切换方法 |
CN103606373A (zh) * | 2013-11-28 | 2014-02-26 | 小米科技有限责任公司 | 一种音频还原方法、装置和终端设备 |
WO2015079946A1 (ja) * | 2013-11-29 | 2015-06-04 | ソニー株式会社 | 周波数帯域拡大装置および方法、並びにプログラム |
CN109147805A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
CN109036457A (zh) * | 2018-09-10 | 2018-12-18 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021082823A1 (zh) * | 2019-10-30 | 2021-05-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
US11869524B2 (en) | 2019-10-30 | 2024-01-09 | Tencent Technology (Shenzhen) Company Limited | Audio processing method and apparatus, computer device, and storage medium |
CN111429930A (zh) * | 2020-03-16 | 2020-07-17 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
CN111429930B (zh) * | 2020-03-16 | 2023-02-28 | 云知声智能科技股份有限公司 | 一种基于自适应采样率的降噪模型处理方法及系统 |
CN112562703A (zh) * | 2020-11-17 | 2021-03-26 | 普联国际有限公司 | 一种音频的高频优化方法、装置和介质 |
CN112562703B (zh) * | 2020-11-17 | 2024-07-26 | 普联国际有限公司 | 一种音频的高频优化方法、装置和介质 |
CN112562702A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN112562702B (zh) * | 2020-11-30 | 2022-12-13 | 哈尔滨工程大学 | 基于循环帧序列门控循环单元网络的语音超分辨率方法 |
CN113823333A (zh) * | 2021-08-27 | 2021-12-21 | 深圳市灵镜技术有限公司 | 一种pcm音频采样率的升降控制方法及系统 |
CN114420100A (zh) * | 2022-03-30 | 2022-04-29 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
CN114420100B (zh) * | 2022-03-30 | 2022-06-21 | 中国科学院自动化研究所 | 语音检测方法及装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021082823A1 (zh) | 2021-05-06 |
CN110797038B (zh) | 2020-11-06 |
US20220084532A1 (en) | 2022-03-17 |
US11869524B2 (en) | 2024-01-09 |
EP3982362A4 (en) | 2022-11-09 |
EP3982362A1 (en) | 2022-04-13 |
EP3982362B1 (en) | 2024-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110797038B (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
Morgado et al. | Self-supervised generation of spatial audio for 360 video | |
CN104429102B (zh) | 使用3d音频分层译码的扩音器位置补偿 | |
US11514925B2 (en) | Using a predictive model to automatically enhance audio having various audio quality issues | |
WO2018008395A1 (ja) | 音場形成装置および方法、並びにプログラム | |
CN111916039B (zh) | 音乐文件的处理方法、装置、终端及存储介质 | |
CN104981869A (zh) | 在位流中用信号表示音频渲染信息 | |
EP3723088A1 (en) | Audio contribution identification system and method | |
US20240098416A1 (en) | Audio enhancements based on video detection | |
CN114747232A (zh) | 音频场景变化信令 | |
CN116013274A (zh) | 语音识别的方法、装置、计算机设备和存储介质 | |
CN117501362A (zh) | 音频渲染系统、方法和电子设备 | |
WO2017119321A1 (ja) | 音声処理装置および方法、並びにプログラム | |
WO2017119320A1 (ja) | 音声処理装置および方法、並びにプログラム | |
US20190152061A1 (en) | Motion control method and device, and robot with enhanced motion control | |
KR20230038426A (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
CA3044260A1 (en) | Augmented reality platform for navigable, immersive audio experience | |
CN117546236A (zh) | 音频渲染系统、方法和电子设备 | |
CN113886639A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
WO2022034805A1 (ja) | 信号処理装置および方法、並びにオーディオ再生システム | |
KR102161169B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
US20240312468A1 (en) | Spatial Audio Upscaling Using Machine Learning | |
US20230379648A1 (en) | Audio signal isolation related to audio sources within an audio environment | |
CN113987268A (zh) | 数字人视频生成方法、装置、电子设备及存储介质 | |
McDonnell | Development of Open Source tools for creative and commercial exploitation of spatial audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022091 Country of ref document: HK |